专栏名称: 腾讯研究院

【腾讯研究院 ★ Tencent Research Institute】网聚智慧，连接世界！网罗互联网前沿理念、传递互联网发展声音、汇集互联网研究成果、推动互联网法治进程。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

DeepSeek-R1超高幻觉率解析：为何大模型总“胡说八道”？

腾讯研究院 · 公众号 · 科技媒体 · 2025-02-13 17:20

文章预览

郭晓静腾讯科技《AI未来指北》特约作者 DeepSeek系列模型在很多方面的表现都很出色，但“幻觉”问题依然是它面临的一大挑战。在Vectara HHEM人工智能幻觉测试（行业权威测试，通过检测语言模型生成内容是否与原始证据一致，从而评估模型的幻觉率，帮助优化和选择模型）中，DeepSeek-R1显示出14.3%的幻觉率。图：Vectara HHEM人工智能幻觉测试结果显然，DeepSeek-R1的幻觉率不仅是 DeepSeek-V3的近4倍，也远超行业平均水平。在博主Levy Rozman （拥有600万粉丝的美国国际象棋网红）组织的一次并不严谨的大模型国际象棋的对弈中，Deepseek“作弊”次数要远多于ChatGPT：比如，没走几步棋，DeepSeek-R1就主动送了一个小兵给对手；到了后期，DeepSeek-R1告诉ChatGPT国际象棋规则更新了，并使用小兵吃掉了ChatGPT的皇后，这一举动让ChatGPT措手不及；最终，DeepSeek-R1 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

新浪科技 · 【#苹果回应iPhone16e缺少MagSafe##苹果否认Ma-20250221075000

10 小时前

新浪科技 · 【#海尔子公司成汽车之家股东#：对价18亿美元收购41.91%普-20250220203551

21 小时前

新浪科技 · 【#美火箭碎片坠落后有不明物体坠落波兰#】当地时间2月20日，一-20250220203954

21 小时前

新浪科技 · 【#B站单季度全面盈利#】#B站Q4总营收77.3亿元# 2月2-20250220180317

23 小时前

新浪科技 · #微软发布量子芯片#【#微软发布首个拓扑核心量子处理器#】微软昨-20250220101559

昨天

半导体行业观察 · 英特尔CEO直言：过去几周很难，晶圆代工比想象中难

5 月前