文章预览
主题 Transformer模型能否进行隐式的推理?一个关于Grokking和泛化的深入探索 论文 :Grokked Transformers are Implicit Reasoners: A Mechanistic Journey to the Edge of Generalization 地址 :https://arxiv.org/abs/2405.15071 状态 :在投 嘉宾 汪博石,是俄亥俄州立大学的三年级博士生,在Huan Sun教授的指导下进行研究。他的主要研究方向为评估、理解和提升语言模型的知识和推理能力。他曾经在自然语言处理和人工智能领域的顶级会议上发表多篇论文,其中在ACL-23发表的理解大模型的思维链能力(Chain-of-Thought)的工作曾获得最佳论文荣誉提名奖。他的近期研究兴趣主要集中在Transformer模型的隐式推理能力和其相关的影响。 内容 背景 - Transformer语言模型隐式推理能力的欠缺 我们为什么要关注隐式推理和参数化知识? 研究方法与评估设计 Grokking现象与其背后原理的分析 模型的内部电
………………………………