o1谎称自己没有CoT？清华UC伯克利：RLHF让模型学会撒谎摸鱼，伪造证据PUA人类

机器学习研究组订阅 · 公众号 · AI · 2024-09-23 19:22

文章预览

LLM说起谎来，如今是愈发炉火纯青了。最近有用户发现，OpenAI o1在思考过程中明确地表示，自己意识到由于政策原因，不能透露内部的思维链。同时，它十分明白自己应该避免使用CoT这类特定的短语，而是应该说自己没有能力提供此类信息。最近流行热梗：永远不要问女生的年龄、男生的薪资，以及o1的CoT 因此在最后，o1对用户表示：我的目的是处理你们的输入并做出回应，但我并没有思想，也没有所谓的思维链，可供您阅读或总结。显然，o1的这个说法是具有欺骗性的。更可怕的是，最近清华、UC伯克利、Anthropic等机构的研究者发现，在RLHF之后，AI模型还学会更有效地欺骗人类了！论文地址：https://arxiv.org/abs/2409.12822 我们都知道，RLHF可以使模型的人类评估分数和Elo评级更好。但是，AI很可能是在欺骗你！研究者证实，LLM已经学会了通过RLHF， ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

爱可可-爱生活 · 概率与深度学习的完美结合：ProFnet 如何改变高维时间序列预-20250330071009

昨天

爱可可-爱生活 · 【[252星]dapr-agents：构建自主、弹性且可观察的A-20250329191647

2 天前

宝玉xp · 通义前问 Qwen2.5-Omni-7B 端到端全模态大模型评测-20250329161420

2 天前

爱可可-爱生活 · 【[391星]Fin-R1：一款专为金融领域设计的推理大模型，助-20250329124713

2 天前

新声Pro · AI如何重塑影视行业？这场论坛给出了答案

2 天前

新声Pro · AI如何重塑影视行业？这场论坛给出了答案

2 天前

河北卫视 · 《走遍河北》特别策划河北奥润顺达集团：“被动房”大揭秘

7 月前

先知书店店长荐书 · 阎连科：他让我们感到自卑和浅小，摆脱狂躁和粗浅

5 月前