专栏名称: 将门创投
将门是一家专注于发掘及加速技术创新激活商业价值的创业公司的创投机构。将门旗下设有将门创新服务、将门技术社群以及将门投资基金。关注领域包括机器智能、物联网、自然人机交互、企业计算。
今天看啥  ›  专栏  ›  将门创投

ICML 2024 | 理解大模型仅靠统计泛化远远不够,剑桥联合ETH研究表明归纳偏置才是重中之重

将门创投  · 公众号  · 科技创业  · 2024-07-18 08:22

文章预览

以ChatGPT为代表的大型语言模型(LLMs)开辟了全新的深度学习时代。众多研究者对LLMs的内部机理开展了研究, 本文介绍一篇倾向于在理论层面对LLMs进行解释的最新工作 。 本文的 研究团队来自蒂宾根大学、剑桥大学和苏黎世联邦理工学院(ETH),目前已经发表在机器学习顶级会议ICML2024上 ,本文表明了一个全新的立场:“仅仅依靠传统机器学习理论中的统计泛化(statistical generalization)不足以解释大语言模型的某些重要特性”。 该立场的核心论点在于,现有的自回归语言模型(Autoregressive language models,AR)本质上是不可识别的 ,这意味着,如果我们提供给LLMs非常庞大的数据进行训练, 模型虽然可以在KL散度等度量上非常接近,但它们在某些重要特性上表现不同 。因此作者认为,目前的大模型社区需要建立一种新的研究范式来理解LLMs, 例如本文提 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览