今天看啥  ›  专栏  ›  深度学习与NLP

6700万参数比肩万亿巨兽GPT-4!微软MIT等联手破解Transformer推理密码

深度学习与NLP  · 知乎专栏  ·  · 2024-07-15 12:14

文章预览

来源 | 新智元 ID | AI-era 「因果推理」绝对是当前GenAI热潮下的小众领域,但是它有一个大佬级的坚定支持者——Yann LeCun。 他在推特上的日常操作之一,就是炮轰Sora等生成模型,并为自己坚信的因果推理领域摇旗呐喊。 甚至,早在2019年VentureBeat的采访中,他就表达过这一观点:我们需要在深度学习模型中引入事件的因果关系,才能增强泛化能力,减少训练数据使用。 对于当前最流行的模型架构Transformer,我们能教它因果推理吗? 最近,来自微软MIT等机构的研究人员提出了一种训练大模型新范式——公理框架(Axiomatic Framework)。 论文中,作者从头开始训练了6700万参数的模型,仅使用了简单的因果链作为训练数据。 令人惊讶的是,在推断复杂图表中的因果关系时,67M模型的表现超越了十亿级参数LLM,甚至可以与GPT-4相媲美。 论文地址: https:// arxiv ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览