注册
登录
专栏名称:
人工智能学家
致力成为权威的人工智能科技媒体和前沿科技研究机构
我也要提交微信公众号
今天看啥
微信公众号rss订阅, 微信rss, 稳定的RSS源
微信公众号RSS订阅方法
B站投稿RSS订阅方法
微博RSS订阅方法
微博搜索关键词订阅方法
豆瓣日记 RSS订阅方法
目录
相关文章推荐
宝玉xp
·
//@程序员邹欣://@张作风流行病学教授U ...
·
2 天前
量子位
·
李飞飞谢赛宁新作「空间推理」:多模态大模型性 ...
·
2 天前
宝玉xp
·
回复@oOl0rz:提示词是省不了的,就好比 ...
·
2 天前
黄建同学
·
Jim Fan ...
·
3 天前
爱可可-爱生活
·
《爱可可微博热门分享(12.20)》 ...
·
4 天前
今天看啥
›
专栏
›
人工智能学家
最强 OpenAI o1 逻辑推理正确率仅 50%!清华、智谱推出「大模型逻辑推理新基准」
人工智能学家
·
公众号
·
AI
· 2024-10-16 17:49
文章预览
9.11 和 9.9 哪个大? 这一连人类幼儿园儿童都能回答的问题,曾经(至今)难倒了众多大语言模型(LLM)。 然而, 要想达到通用人工智能(AGI)的水平,LLM 不仅要完成“比大小”这种简单的逻辑推理,还需要完成难度更高的推理 ,比如“对复杂规则的理解与执行以及多步骤规划”,这是 LLM 智能体(agent)和决策系统的核心能力。 因此,如何有效评估 LLM 作为基于规则的执行者和规划者角色,至关重要。但是,目前学界和业界少有这方面的研究。 来自清华大学和智谱的研究团队推出了一项新的基准测试—— LogicGame ,旨在 全面评估 LLM 在规则理解、执行和规划方面的能力 。先看评测结果: 图|LogicGame 的评测结果和样例展示。上图为各种模型在执行和规划类别中的表现;下图(左、右)分别为两个执行和规划类别案例研究。 除了看到 o1-preview、o-m ………………………………
原文地址:
访问原文地址
快照地址:
访问文章快照
总结与预览地址:
访问总结与预览
分享到微博
推荐文章
宝玉xp
·
//@程序员邹欣://@张作风流行病学教授UCLA:医学上的精神-20241223103339
2 天前
量子位
·
李飞飞谢赛宁新作「空间推理」:多模态大模型性能突破关键所在
2 天前
宝玉xp
·
回复@oOl0rz:提示词是省不了的,就好比你雇个人帮你干活,你-20241223071208
2 天前
黄建同学
·
Jim Fan 大佬关于Genisis(网页链接)的赞赏↓如果一-20241221175323
3 天前
爱可可-爱生活
·
《爱可可微博热门分享(12.20)》 爱可可微博热门分享(12-20241220221514
4 天前
生物通
·
JAK抑制剂焕发“第二春”:Science双发,逆转T细胞耗竭
4 月前
DONG 洞
·
10.25 今晚 赛普厂牌第十二张合辑发布会@DONG 洞
2 月前
游戏茶馆
·
《绝区零》1.4重新开服?六小时杀入iOS游戏畅销榜榜首
6 天前