专栏名称: AI for Research
每天分享最新最热的Arxiv论文、一起来关注大模型、AIGC、AGI
今天看啥  ›  专栏  ›  AI for Research

8卡实现100万长度7B模型高效训练!Transformer什么情况下能够进行组合泛化?

AI for Research  · 公众号  ·  · 2024-07-18 13:49

文章预览

前言: 平淡无奇的一天又来了,今天要分享的内容主要是关于大模型、模型结构改进、模型评估的,喜欢的小伙伴赶紧去阅读相关论文吧。 1. Transformers在什么情况下能够进行组合泛化?   标题: When can transformers compositionally generalize in-context?   机构: Google、Deepmind、苏黎世联邦理工学院   作者: Seijin Kobayashi,  Simon Schug,  Yassir Akram   分析: 这篇论文主要研究了Transformer模型在组合泛化方面的能力。虽然理论上Transformer具有足够的表达能力,但在实践中,它们往往难以从部分任务中泛化到所有具有相似组件的任务的组合。作者提出了一种模块化的多任务设置,通过精确控制数据生成过程中的组合结构,发现了Transformer在这种情况下的局限性。只有引入一个瓶颈,强制执行任务推理和任务执行之间的明确分离,才能实现组合泛化。   地址: https:/ ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览