DeepSeek-R1超高幻觉率解析：为何大模型总“胡说八道”？

酷玩实验室 · 公众号 · 科技自媒体 · 2025-02-14 22:00

文章预览

文章来源于公众号：腾讯科技 ID：qqtech DeepSeek系列模型在很多方面的表现都很出色，但“幻觉”问题依然是它面临的一大挑战。在Vectara HHEM人工智能幻觉测试（行业权威测试，通过检测语言模型生成内容是否与原始证据一致，从而评估模型的幻觉率，帮助优化和选择模型）中，DeepSeek-R1显示出14.3%的幻觉率。图：Vectara HHEM人工智能幻觉测试结果显然，DeepSeek-R1的幻觉率不仅是 DeepSeek-V3的近4倍，也远超行业平均水平。在博主Levy Rozman（拥有600万粉丝的美国国际象棋网红）组织的一次并不严谨的大模型国际象棋的对弈中，Deepseek“作弊”次数要远多于ChatGPT：比如，没走几步棋，DeepSeek-R1就主动送了一个小兵给对手；到了后期，DeepSeek-R1告诉ChatGPT国际象棋规则更新了，并使用小兵吃掉了ChatGPT的皇后，这一举动让ChatGPT措手不及；最终，DeepSeek-R1还给ChatGP ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

人工智能产业链union · 零基础使用DeepSeek高效提问技巧&DeepSeek使用攻略（附教程）

13 小时前

人工智能产业链union · 零基础使用DeepSeek高效提问技巧&DeepSeek使用攻略（附教程）

13 小时前

仙桃电视台 · 雷军火速道歉！

昨天

仙桃电视台 · 雷军火速道歉！

昨天

最红安 · 16岁至60岁红安人，均可申请！

2 天前

火星投资 · 工信部：加快自动驾驶产业化，有条件批准L3级自动驾驶车型生产准入

2 天前

火星投资 · 工信部：加快自动驾驶产业化，有条件批准L3级自动驾驶车型生产准入

2 天前

李楠或kkk · 还记得当年互联网刚普及的时候曾经有一波厌蠢症爆发，口头禅就是：你-20250329182741

2 天前

隆众资讯订阅号 · 甲醇 | 沿海甲醇累库通道即将开启

10 月前

OK哥环球探海记 · 阿曼抓巨型海鳗，体长2米凶猛似巨蟒，红烧一锅啥味道？

1 年前

港澳IPO上市 · 荣耀，或启动A股上市，未来也可能香港上市 | 香港IPO市场

7 月前

深圳吃货小分队 · 深圳「海边胶囊小火车」，发车了

5 月前

匠心地理 · 初中地理期末复习资料，学霸都在用！

3 月前