一个从大三就接触NLP的小小NLPer,本公众号每天记录自己的一点一滴,每篇文章最后也有托福单词等新知识,学技术同时,也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇!
今天看啥  ›  专栏  ›  深度学习自然语言处理

NICE分享 | Transformer模型能否进行隐式的推理?一个关于Grokking和泛化的深入探索

深度学习自然语言处理  · 公众号  ·  · 2024-07-09 13:34

文章预览

主题 Transformer模型能否进行隐式的推理?一个关于Grokking和泛化的深入探索 论文 :Grokked Transformers are Implicit Reasoners: A Mechanistic Journey to the Edge of Generalization 地址 :https://arxiv.org/abs/2405.15071 状态 :在投 嘉宾 汪博石,是俄亥俄州立大学的三年级博士生,在Huan Sun教授的指导下进行研究。他的主要研究方向为评估、理解和提升语言模型的知识和推理能力。他曾经在自然语言处理和人工智能领域的顶级会议上发表多篇论文,其中在ACL-23发表的理解大模型的思维链能力(Chain-of-Thought)的工作曾获得最佳论文荣誉提名奖。他的近期研究兴趣主要集中在Transformer模型的隐式推理能力和其相关的影响。 内容 背景 - Transformer语言模型隐式推理能力的欠缺 我们为什么要关注隐式推理和参数化知识? 研究方法与评估设计 Grokking现象与其背后原理的分析 模型的内部电 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览