注册
登录
专栏名称:
人工智能学家
致力成为权威的人工智能科技媒体和前沿科技研究机构
我也要提交微信公众号
今天看啥
微信公众号rss订阅, 微信rss, 稳定的RSS源
微信公众号RSS订阅方法
B站投稿RSS订阅方法
雪球动态RSS订阅方法
微博RSS订阅方法
微博搜索关键词订阅方法
豆瓣日记 RSS订阅方法
目录
相关文章推荐
宝玉xp
·
转:cloudflare worker ...
·
昨天
宝玉xp
·
问:如何能用 AI ...
·
3 天前
爱可可-爱生活
·
本文提出了一种名为LLC的通用神经符号回归工 ...
·
5 天前
爱可可-爱生活
·
本文揭示了现有大型语言模型遗忘学习方法在量化 ...
·
5 天前
爱可可-爱生活
·
本文提出了一种基于主动时间相关噪声的分数型生 ...
·
6 天前
今天看啥
›
专栏
›
人工智能学家
最强 OpenAI o1 逻辑推理正确率仅 50%!清华、智谱推出「大模型逻辑推理新基准」
人工智能学家
·
公众号
·
AI
· 2024-10-16 17:49
文章预览
9.11 和 9.9 哪个大? 这一连人类幼儿园儿童都能回答的问题,曾经(至今)难倒了众多大语言模型(LLM)。 然而, 要想达到通用人工智能(AGI)的水平,LLM 不仅要完成“比大小”这种简单的逻辑推理,还需要完成难度更高的推理 ,比如“对复杂规则的理解与执行以及多步骤规划”,这是 LLM 智能体(agent)和决策系统的核心能力。 因此,如何有效评估 LLM 作为基于规则的执行者和规划者角色,至关重要。但是,目前学界和业界少有这方面的研究。 来自清华大学和智谱的研究团队推出了一项新的基准测试—— LogicGame ,旨在 全面评估 LLM 在规则理解、执行和规划方面的能力 。先看评测结果: 图|LogicGame 的评测结果和样例展示。上图为各种模型在执行和规划类别中的表现;下图(左、右)分别为两个执行和规划类别案例研究。 除了看到 o1-preview、o-m ………………………………
原文地址:
访问原文地址
快照地址:
访问文章快照
总结与预览地址:
访问总结与预览
分享到微博
推荐文章
宝玉xp
·
转:cloudflare worker AI 现在所有的生图模型-20241121164452
昨天
宝玉xp
·
问:如何能用 AI 撰写一份专业的“某地区域经济报告”?我初步想-20241119110338
3 天前
爱可可-爱生活
·
本文提出了一种名为LLC的通用神经符号回归工具,通过结合深度学习-20241118052721
5 天前
爱可可-爱生活
·
本文揭示了现有大型语言模型遗忘学习方法在量化后容易恢复被遗忘知识-20241118053826
5 天前
爱可可-爱生活
·
本文提出了一种基于主动时间相关噪声的分数型生成扩散模型,通过引入-20241117070843
6 天前
赶碳号科技
·
永臻股份的启示:光伏主材狂卷,辅材更卷,但为何卷不到铝边框?
4 月前
北大就业
·
医疗卫生行业实习信息汇总 | 水滴、金佰利中国等
2 月前