专栏名称: 新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

大模型性能掺水严重？北大交出答卷：交互评估+动态出题，死记硬背也没用 | ACL 2024

新智元 · 公众号 · AI · 2024-07-02 13:08

文章预览

新智元报道编辑：LRS 【新智元导读】当前大语言模型（LLM）的评估方法受到数据污染问题的影响，导致评估结果被高估，无法准确反映模型的真实能力。北京大学等提出的KIEval框架，通过知识基础的交互式评估，克服了数据污染的影响，更全面地评估了模型在知识理解和应用方面的能力。当人工智能领域被GPT-4、Claude 3等大语言模型的惊人表现所震撼时，一个关键问题悄然浮现：我们是否真的客观评估了这些模型的能力？事实上，当前大模型的评估正面临着数据污染的阴霾。数据污染，即模型在训练过程中接触到评测基准的测试集数据，导致其在自动评测基准的表现被高估。这一问题在业界尚未得到充分重视。许多大模型的训练数据来源复杂，难以完全避免测试数据以及答案的泄露。一些模型甚至直接在测试集上进行训练，以获得更高的 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

黄建同学 · //@摇摆时间线ZHLMI:我最近的文档都在用它做可视化网页，然-20250419210040

18 小时前

爱可可-爱生活 · 晚安～ #晚安# -20250417223733

2 天前

宝玉xp · 我也画不出来，可能是clean hand‑drawn carto-20250417143522

3 天前

爱可可-爱生活 · 强化学习：AI研究者的必备技能与最佳学习资源指南在当下大语言模型-20250417080821

3 天前

爱可可-爱生活 · [CL] Network Alignment 网页链接这篇-20250417055326

3 天前

小白测评 · vivoX200Promini配置前瞻 | 红魔电竞平板官宣9.5发一大一小

7 月前

阿潘创业笔记 · 情感综艺混剪视频，卖货7.5万+

5 月前

中国化学十一化建 · 【集团要闻】莫鼎革会见印尼国家石油公司PRPP公司总裁雷扎尔迪·古斯蒂诺

4 月前

锤哥看楼市 · 深圳华润悦府爆炸，房价会下跌50%吗

4 月前

锤哥看楼市 · 深圳华润悦府爆炸，房价会下跌50%吗

4 月前