专栏名称: AI工程化
专注于AI领域(大模型、MLOPS/LLMOPS 、AI应用开发、AI infra)前沿产品技术信息和实践经验分享。
目录
相关文章推荐
今天看啥  ›  专栏  ›  AI工程化

AI 模型幻觉评测榜单:Gemini 2.0 领跑,GPT-4 紧随其后,国产模型智谱领先

AI工程化  · 公众号  ·  · 2025-02-09 18:11
    

文章预览

  Vectara 公司近期发布了一份 AI 大语言模型幻觉评测榜单,对当前主流 AI 模型在文本摘要任务中产生幻觉的情况进行了系统评测。该榜单使用 Vectara 自研的 HHEM-2.1 评测模型,通过让 AI 模型对 831 篇短文进行摘要来测试其产生幻觉的概率。 在最新榜单中,Google 的Gemini 2.0 Flash 以0.7% 的幻觉率位居榜首,其次是 Gemini 2.0 Pro 和OpenAI 的o3-mini-high-reasoning 模型,幻觉率均为 0.8%。值得注意的是,GPT-4 系列模型表现也相当出色,幻觉率在 1.5%-1.7%之间。国产模型智谱glm-9b表现不错,幻觉率为1.3%,Qwen幻觉率较高,达到了2.8%-3.0%之间,deepseek 最新模型v3和r1的评测,后续可能会加入。 评测采用了严格的方法论:所有模型都使用温度参数为 0,确保输出的稳定性;同时设置了答案率和平均摘要长度等指标,避免模型通过简单复制或过短回答来取得高分。这份榜单将定期更新,为用户选 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览