专栏名称: AI前线
InfoQ十年沉淀,为千万技术人打造的专属AI公众号。追踪技术新趋势,跟踪头部科技企业发展和传统产业技术升级落地案例。囊括网站和近万人的机器学习知识交流社群。
今天看啥  ›  专栏  ›  AI前线

一秒侦破大模型“高分低能”:贾佳亚团队联手剑桥清华等共推评测新范式

AI前线  · 公众号  · AI  · 2024-07-19 12:10
    

文章预览

作者 | MR-Ben 团队 颠覆过往大模型评测标准,最新、最全、最权威的测评数据集 MR-Ben 来了! 这是继今年 4 月发布堪称 GPT-4 + DALL- E-3 的王炸产品超强视觉语言模型 Mini-Gemini 后,港中文贾佳亚团队再次提出的极具代表性的作品。在 MR-Ben 的“监督”下,大模型不仅要像学生那样会答题,还要像老师那样会阅卷,真实的推理能力无所遁形。 MR-Ben 细致地评测了不少国内外一线的开源和闭源模型,如 GPT4-Turbo、Cluade3.5-Sonnet、Mistral-Large、Zhipu-GLM4、Moonshot-v1、Yi-Large、Qwen2-70B、Deepseek-V2 等,并进行了详尽的分析。 哪些看似美丽的大模型会被“卸妆”,哪个模型地表最强?目前该工作所有代码和数据均已开源,一起来看看! Project Page: https://randolph-zeng.github.io/Mr-Ben.github.io/ Arxiv Page: https://arxiv.org/abs/2406.13975 Github Repo: https://github.com/dvlab-research/Mr-Ben MR-Ben 秒破 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览