注册
登录
专栏名称:
人工智能学家
致力成为权威的人工智能科技媒体和前沿科技研究机构
我也要提交微信公众号
今天看啥
微信公众号rss订阅, 微信rss, 稳定的RSS源
微信公众号RSS订阅方法
B站投稿RSS订阅方法
雪球动态RSS订阅方法
微博RSS订阅方法
微博搜索关键词订阅方法
豆瓣日记 RSS订阅方法
目录
相关文章推荐
爱可可-爱生活
·
DeepSeek现象折射的中国科技创新转型思 ...
·
18 小时前
宝玉xp
·
YouTube也支持弹幕啦,早该加上这功能了 ...
·
22 小时前
爱可可-爱生活
·
本文提出了一种反直觉但高效的批判微调 ...
·
2 天前
爱可可-爱生活
·
【[446星]Neva:下一代编程语言,用数 ...
·
3 天前
爱可可-爱生活
·
[LG]《Mixture-of-Mamba: ...
·
4 天前
今天看啥
›
专栏
›
人工智能学家
苹果发文质疑:大语言模型根本无法进行逻辑推理
人工智能学家
·
公众号
·
AI
· 2024-10-13 17:03
文章预览
大语言模型(LLM)是真的会数学推理?还是只是在“套路”解题? 近年来,大语言模型在各种任务中的表现引起广泛关注。一个核心问题逐渐浮现: 这些模型是否真正具备逻辑推理能力,还是仅仅通过复杂的模式匹配来应对看似推理的问题? 尤其是在数学推理任务中,模型的表现究竟是在模拟人类思维,还是仅仅通过数据模式匹配得出答案? 日前,来自苹果公司的 Iman Mirzadeh 及其研究团队提出了一个名为 GSM-Symbolic 的新基准,针对多个开源模型(如 Llama、Phi、Gemma、Mistral)和闭源模型(如 GPT-4o、o1 系列)进行了大规模评估。 结果显示, 当问题中的数值或名字变化时,模型的会表现出显著的波动 。此外,随着问题难度的提升(如增加更多子句),模型的表现迅速下降,这表明这些模型在推理复杂问题时非常脆弱。 研究团队认为,这种表现下降 ………………………………
原文地址:
访问原文地址
快照地址:
访问文章快照
总结与预览地址:
访问总结与预览
分享到微博
推荐文章
爱可可-爱生活
·
DeepSeek现象折射的中国科技创新转型思考:1、创新需要文化-20250202090330
18 小时前
宝玉xp
·
YouTube也支持弹幕啦,早该加上这功能了//@一个无法分类的-20250202045232
22 小时前
爱可可-爱生活
·
本文提出了一种反直觉但高效的批判微调 (CFT) 框架,通过训练-20250131053154
2 天前
爱可可-爱生活
·
【[446星]Neva:下一代编程语言,用数据流编程解决程序员的-20250130212509
3 天前
爱可可-爱生活
·
[LG]《Mixture-of-Mamba: Enhancing-20250129082111
4 天前
上海创业直通车
·
【青浦区】2024年度青浦区稳外贸稳外资专项资金项目公示
8 月前
基因江湖
·
卷王来袭,MRD Panel定制“0元购”时代,来了!
7 月前
北极星售电网
·
报名|2024年电力现货交易仿真训练营(总第二十四期)
6 月前
IPRdaily
·
国知局:我国专利许可使用费将“明码标价”,向全社会“广而告之”
6 月前
摸鱼人日历
·
[摸鱼神器]PanTools,主流网盘 ( 百度/夸克/123/阿里….)管理工具
5 月前