专栏名称: 数据派THU
本订阅号是“THU数据派”的姊妹账号,致力于传播大数据价值、培养数据思维。
今天看啥  ›  专栏  ›  数据派THU

Multi-Head RAG:多头注意力的激活层作为嵌入进行文档检索

数据派THU  · 公众号  · 大数据  · 2024-06-28 17:00
来源:DeepHub IMBA本文约2500字,建议阅读9分钟本文提出了一种利用解码器模型的多头注意层而不是传统的前馈层激活的新方案。现有的RAG解决方案可能因为最相关的文档的嵌入可能在嵌入空间中相距很远,这样会导致检索过程变得复杂并且无效。为了解决这个问题,论文引入了多头RAG (MRAG),这是一种利用Transformer的多头注意层的激活而不是解码器层作为获取多方面文档的新方案。MRAG不是利用最后一个前馈解码器层为最后一个令牌生成的单个激活向量,而是利用最后一个注意力层为最后一个令牌生成的H个单独的激活向量,然后通过矩阵Wo(结合所有注意头结果的线性层)对其进行处理。可以公式化为一组嵌入S = {ek∀k},其中ek = headk(xn),它是输入的最后一个标记xn上的所有注意力头的输出的集合由于多个头的处理不会改变输出向量的大小,因此具有与标 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照