Yann LeCun大佬：LiveBench以及一些大模型使用选择建议！

PaperAgent · 公众号 · · 2024-06-14 16:43

文章预览

杨立昆大佬（Yann LeCun）和AbacusAI、英伟达等团队合作发布了： LiveBench AI — 业内上首个无法被操纵的大型语言模型（LLM）基准测试！ LiveBench是一个“活生生的、呼吸着的 ”基准测试，通过每月发布新问题并基于最近发布的数据集、arXiv论文、新闻文章和IMDb电影概要设置问题，所以不能简单地记忆它。不依赖 LLMs作为评委，每个问题都有可验证的、客观的真实答案，可以准确、自动地对难题进行评分。从不同维度评估LLMs，包括推理、编程、写作和数据分析。从 LiveBench 榜单可以得出一些大模型使用选择建议参考： GPT-4o略微领先于GPT-4-turbo。 Claude Opus在数据分析和语言理解方面表现出色 Gemini的得分不如Claude或GPT-4在Lmsys上的表现。这意味着，一般来说，Gemini不如Claude或GPT-4好。 GPT-4在推理和编程方面比GPT-4o做得更好。有其他实验室之前已经报告过 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

中国电建 · 助力南水北调！守护鄂西北生态明珠

3 小时前

艾儿天空 · 陈词懒调古代末世基建文新书两周后上线，起点第二本万订战锤文产生，五本小说完结

昨天

中国电建 · 向“新”聚力！中国电建多个新能源项目并网发电㉑

2 天前

艾儿天空 · 2025年第1周：云芨、真费事、姐姐的新娘、残剑、天运老猫等36位作者新书汇总

3 天前

泉安安海在线 · 停电通知！涉及晋江这些区域……

3 天前

有道考神建昆老师 · 【一起背专八单词吧】24专八备考群今日单词：impeccable-20240531183000

7 月前