专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
今天看啥  ›  专栏  ›  量子位

AI在《我的世界》PK盖楼,新旧Claude差距过于明显,网友:审美也是智力的一种

量子位  · 公众号  · AI  · 2024-11-15 12:36

主要观点总结

文章介绍了在《我的世界》游戏中,不同大模型进行建筑PK的情况。包括新旧两版Claude 3.5 Sonnet的对比,其他模型的测试结果,以及MC Bench开源项目组的进展。文章还提到了人工智能在建筑设计中的创意性和实用性,并提到了2024人工智能年度评选的相关内容。

关键观点总结

关键观点1: 大模型在《我的世界》中的建筑PK

介绍了不同大模型在《我的世界》游戏中的建筑能力,包括Claude 3.5 Sonnet、OpenAI o1系列等,并描述了它们之间的建筑竞赛和测试结果。

关键观点2: MC Bench开源项目组的进展

描述了MC Bench开源项目组的计划,包括建立类似Lmsys大模型竞技场的天梯机制,人类用户投票记分排名等。

关键观点3: 人工智能的创意性和实用性

通过大模型在《我的世界》中的建筑表现,展示了人工智能的创意性和实用性。包括以塔为主题的自由发挥,太阳系方块排列等。

关键观点4: 2024人工智能年度评选

介绍了量子位2024人工智能年度评选的相关内容,包括报名截止时间、评选维度、奖项设置等。


文章预览

梦晨 发自 凹非寺 量子位 | 公众号 QbitAI 测评大模型Agent能力,从未如此直观。 新旧两版Claude 3.5 Sonnet在 《我的世界》 里PK盖楼,差距不要太明显,引来大量围观。 如果让AI不断迭代,甚至能盖出一片建筑群。 为了避免Claude团队糟糕的命名方式造成混淆,下面跟随adi暂且把“新版Claude 3.5 Sonnet”称为“Sonnet 3.6”。 作者 adi 戏称其为目前“唯一可靠的评测基准”。 Aidan Bench作者 Aidan McLau 认为评测基准界正需要这个,审美也与智力显著相关。 他甚至愿意 提供资金,把这个项目扩展成完整的评测。 总之在开源社区帮助下,代码迅速上架GitHub,更多模型测试结果陆续出炉中。 比如以慢思考著称的OpenAI o1系列,o1-preivew确实盖的更慢,但结构也更完整。o1-mini则无法胜任这个任务。 最终在 人类喜好评估( 2000+网友投票 ) 中,Sonnet 3.6小赢了一手创意性。 如 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览