专栏名称: PaperWeekly
PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区:http://paperweek.ly | 微博:@PaperWeekly
今天看啥  ›  专栏  ›  PaperWeekly

“闭门造车”之多模态思路浅谈:位置编码

PaperWeekly  · 公众号  · 科研  · 2024-09-12 20:03

文章预览

©PaperWeekly 原创 · 作者 |  苏剑林 单位 |  科学空间 研究方向 |  NLP、神经网络 在前面的文章中,我们曾表达过这样的观点:多模态 LLM 相比纯文本 LLM 的主要差异在于,前者甚至还没有形成一个公认为标准的方法论。这里的方法论,不仅包括之前讨论的生成和训练策略,还包括一些基础架构的设计,比如本文要谈的“多模态位置编码”。 对于这个主题,我们之前在 《Transformer升级之路:多模态位置编码的简单思考》 就已经讨论过一遍,并且提出了一个方案(RoPE-Tie)。然而,当时笔者对这个问题的思考仅处于起步阶段,存在细节考虑不周全、认识不够到位等问题,所以站在现在的角度回看,当时所提的方案与完美答案还有明显的距离。 因此,本文我们将自上而下地再次梳理这个问题,并且给出一个自认为更加理想的结果。 多模位置 多模型模型 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览