6700万参数比肩万亿巨兽GPT-4！微软MIT等联手破解Transformer推理密码

深度学习与NLP · 知乎专栏 · · 2024-07-15 12:14

文章预览

来源 | 新智元 ID | AI-era 「因果推理」绝对是当前GenAI热潮下的小众领域，但是它有一个大佬级的坚定支持者——Yann LeCun。他在推特上的日常操作之一，就是炮轰Sora等生成模型，并为自己坚信的因果推理领域摇旗呐喊。甚至，早在2019年VentureBeat的采访中，他就表达过这一观点：我们需要在深度学习模型中引入事件的因果关系，才能增强泛化能力，减少训练数据使用。对于当前最流行的模型架构Transformer，我们能教它因果推理吗？最近，来自微软MIT等机构的研究人员提出了一种训练大模型新范式——公理框架（Axiomatic Framework）。论文中，作者从头开始训练了6700万参数的模型，仅使用了简单的因果链作为训练数据。令人惊讶的是，在推断复杂图表中的因果关系时，67M模型的表现超越了十亿级参数LLM，甚至可以与GPT-4相媲美。论文地址： https:// arxiv ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博