专栏名称: DeepTech深科技
“DeepTech深科技”是与麻省理工科技评论官方独家合作的一个新科技内容品牌。我们专注于关注三个方面:1、基于科学的发现;2、真正的科技创新;3、深科技应用的创新。
今天看啥  ›  专栏  ›  DeepTech深科技

AI导航测试:纽约街道闭路实验揭示生成式模型的薄弱点

DeepTech深科技  · 公众号  · 科技媒体  · 2024-11-16 16:36
    

主要观点总结

大型语言模型(LLMs)尽管能完成令人印象深刻的任务,如写诗或生成计算机程序,但新的研究表明它们并没有形成连贯的世界模型。研究人员发现,常见的生成式AI模型在纽约市提供的导航服务虽然表现出色,但当环境改变时,其表现迅速下降。通过深入分析,发现这些模型隐含生成的地图包含不存在的街道。因此,提出新评估指标来研究生成式AI模型的世界模型。虽然Transformer模型在某些任务中表现出色,但它们并未真正理解规则。未来研究方向包括解决多样化的问题和将评估指标应用于现实科学问题。

关键观点总结

关键观点1: 大型语言模型(LLMs)虽然能完成令人惊叹的任务,但新的研究发现它们并没有形成连贯的世界模型。

研究人员通过实证研究展示了大型语言模型在导航和棋盘游戏任务中的表现,并指出仅依靠预测准确性来判断其世界模型准确性是不够的。

关键观点2: 研究人员提出了两个新指标来测试生成式AI模型的世界模型。“序列区分度”和“序列压缩度”被用来测试模型对不同状态及其差异的识别能力。

这两个新指标有助于更准确地评估生成式AI模型的世界模型理解程度。

关键观点3: 研究发现,尽管Transformer模型在某些任务中表现出色,但它们并未真正理解规则。当环境改变时,模型的准确性会受到影响。

研究人员通过实证研究展示了Transformer模型在处理导航问题时存在的问题,并指出这些模型缺乏真正的世界规则理解。

关键观点4: 未来研究方向包括解决多样化的问题和将评估指标应用于现实科学问题。

研究人员计划进一步探索生成式AI模型的世界模型问题,并希望将其评估指标应用于现实科学问题。


文章预览

来源:MIT News | 图注:“如果我们希望利用这些技术进行新的发现,大型语言模型是否是建立在连贯的世界模型之上的是一个非常重要的问题。”Ashesh Rambachan 说。图片由 iStock 提供 尽管大型语言模型(LLMs)可以完成令人印象深刻的任务,比如写诗或生成可行的计算机程序,这些模型的训练目标却只是预测文本中下一步可能出现的单词。 这种令人惊讶的能力让人感觉这些模型可能隐约学到了一些关于世界的通用真理。 但一项新的研究表明,事实并非如此。研究人员发现,一种常见的生成式 AI 模型可以在纽约市提供接近完美准确性的逐步驾驶路线,但实际上并没有形成准确的城市地图。 尽管该模型在导航方面表现得极为出色,当研究人员关闭了一些街道并添加了绕行路线后,其表现迅速下降。 深入分析后,研究人员发现,该模型隐含生成的纽约地 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览