专栏名称: 深度学习自然语言处理

一个从大三就接触NLP的小小NLPer，本公众号每天记录自己的一点一滴，每篇文章最后也有托福单词等新知识，学技术同时，也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇！

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

NICE分享 | Transformer模型能否进行隐式的推理？一个关于Grokking和泛化的深入探索

深度学习自然语言处理 · 公众号 · · 2024-07-09 13:34

文章预览

主题 Transformer模型能否进行隐式的推理？一个关于Grokking和泛化的深入探索论文：Grokked Transformers are Implicit Reasoners: A Mechanistic Journey to the Edge of Generalization 地址：https://arxiv.org/abs/2405.15071 状态：在投嘉宾汪博石，是俄亥俄州立大学的三年级博士生，在Huan Sun教授的指导下进行研究。他的主要研究方向为评估、理解和提升语言模型的知识和推理能力。他曾经在自然语言处理和人工智能领域的顶级会议上发表多篇论文，其中在ACL-23发表的理解大模型的思维链能力（Chain-of-Thought）的工作曾获得最佳论文荣誉提名奖。他的近期研究兴趣主要集中在Transformer模型的隐式推理能力和其相关的影响。内容背景 - Transformer语言模型隐式推理能力的欠缺我们为什么要关注隐式推理和参数化知识？研究方法与评估设计 Grokking现象与其背后原理的分析模型的内部电 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博