专栏名称: 新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
今天看啥  ›  专栏  ›  新智元

大模型性能掺水严重?北大交出答卷:交互评估+动态出题,死记硬背也没用 | ACL 2024

新智元  · 公众号  · AI  · 2024-07-02 13:08
    

文章预览

   新智元报道   编辑:LRS 【新智元导读】 当前大语言模型(LLM)的评估方法受到数据污染问题的影响,导致评估结果被高估,无法准确反映模型的真实能力。北京大学等提出的KIEval框架,通过知识基础的交互式评估,克服了数据污染的影响,更全面地评估了模型在知识理解和应用方面的能力。 当人工智能领域被GPT-4、Claude 3等大语言模型的惊人表现所震撼时,一个关键问题悄然浮现:我们是否真的客观评估了这些模型的能力?事实上,当前大模型的评估正面临着数据污染的阴霾。 数据污染,即模型在训练过程中接触到评测基准的测试集数据,导致其在自动评测基准的表现被高估。这一问题在业界尚未得到充分重视。许多大模型的训练数据来源复杂,难以完全避免测试数据以及答案的泄露。 一些模型甚至直接在测试集上进行训练,以获得更高的 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览