今天看啥  ›  专栏  ›  PaperAgent

Yann LeCun大佬:LiveBench以及一些大模型使用选择建议!

PaperAgent  · 公众号  ·  · 2024-06-14 16:43
    

文章预览

杨立昆大佬(Yann LeCun)和AbacusAI、英伟达等团队合作发布了: LiveBench AI — 业内上首个无法被操纵的大型语言模型(LLM)基准测试! LiveBench是一个“活生生的、呼吸着的 ”基准测试, 通过每月发布新问题并基于最近发布的数据集、arXiv论文、新闻文章和IMDb电影概要设置问题,所以 不能简单地记忆它。 不依赖 LLMs作为评委, 每个问题都有可验证的、客观的真实答案,可以准确、自动地对难题进行评分。 从不同维度评估LLMs,包括推理、编程、写作和数据分析。 从 LiveBench 榜单可以得出一些大模型使用选择建议参考: GPT-4o略微领先于GPT-4-turbo。 Claude Opus在数据分析和语言理解方面表现出色 Gemini的得分不如Claude或GPT-4在Lmsys上的表现。这意味着,一般来说,Gemini不如Claude或GPT-4好。 GPT-4在推理和编程方面比GPT-4o做得更好。有其他实验室之前已经报告过 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览