AI在《我的世界》PK盖楼，新旧Claude差距过于明显，网友：审美也是智力的一种

量子位 · 公众号 · AI · 2024-11-15 12:36

主要观点总结

文章介绍了在《我的世界》游戏中，不同大模型进行建筑PK的情况。包括新旧两版Claude 3.5 Sonnet的对比，其他模型的测试结果，以及MC Bench开源项目组的进展。文章还提到了人工智能在建筑设计中的创意性和实用性，并提到了2024人工智能年度评选的相关内容。

关键观点总结

关键观点1: 大模型在《我的世界》中的建筑PK

介绍了不同大模型在《我的世界》游戏中的建筑能力，包括Claude 3.5 Sonnet、OpenAI o1系列等，并描述了它们之间的建筑竞赛和测试结果。

关键观点2: MC Bench开源项目组的进展

描述了MC Bench开源项目组的计划，包括建立类似Lmsys大模型竞技场的天梯机制，人类用户投票记分排名等。

关键观点3: 人工智能的创意性和实用性

通过大模型在《我的世界》中的建筑表现，展示了人工智能的创意性和实用性。包括以塔为主题的自由发挥，太阳系方块排列等。

关键观点4: 2024人工智能年度评选

介绍了量子位2024人工智能年度评选的相关内容，包括报名截止时间、评选维度、奖项设置等。

文章预览

梦晨发自凹非寺量子位 | 公众号 QbitAI 测评大模型Agent能力，从未如此直观。新旧两版Claude 3.5 Sonnet在《我的世界》里PK盖楼，差距不要太明显，引来大量围观。如果让AI不断迭代，甚至能盖出一片建筑群。为了避免Claude团队糟糕的命名方式造成混淆，下面跟随adi暂且把“新版Claude 3.5 Sonnet”称为“Sonnet 3.6”。作者 adi 戏称其为目前“唯一可靠的评测基准”。 Aidan Bench作者 Aidan McLau 认为评测基准界正需要这个，审美也与智力显著相关。他甚至愿意提供资金，把这个项目扩展成完整的评测。总之在开源社区帮助下，代码迅速上架GitHub，更多模型测试结果陆续出炉中。比如以慢思考著称的OpenAI o1系列，o1-preivew确实盖的更慢，但结构也更完整。o1-mini则无法胜任这个任务。最终在人类喜好评估（ 2000+网友投票）中，Sonnet 3.6小赢了一手创意性。如 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

爱可可-爱生活 · //@爱可可-爱生活：欢迎参与～-20241125073547

12 小时前

爱可可-爱生活 · 【密歇根大学工程数学笔记：为工程师准备的实用数学参考手册，包含大-20241125083522

11 小时前

字节跳动技术团队 · 无文本编码器仍能媲美CLIP！豆包大模型团队首创SuperClass模型

4 天前

字节跳动技术团队 · 无文本编码器仍能媲美CLIP！豆包大模型团队首创SuperClass模型

4 天前

宝玉xp · 【马斯克：先斩后奏，懂王特许，这就是效率部-哔哩哔哩】马斯克：-20241120125301

5 天前

宝玉xp · AI可以在设计好的工作流中充当重要角色，但是完全让AI负责整个工-20241119124215

6 天前

计算机与网络安全 · 商密信创等保关保

2 月前

药研 · 苏州｜药品出海东南亚、WHO、EU及TGA全流程指导高级培训班

2 月前