OpenAI发布新模型，更擅长推理、偶尔也会欺骗

IEEE电气电子工程师学会 · 公众号 · · 2024-09-19 15:33

文章预览

点击蓝字关注我们 SUBSCRIBE to US Illustration by Cath Virginia / The Verge | Photos by Getty Images 在OpenAI最新“推理”模型o1发布前的几周里，独立的人工智能安全研究公司Apollo发现了一个值得注意的问题（https://www.theverge.com/2024/9/12/24242439/openai-o1-model-reasoning-strawberry-chatgpt）。Apollo意识到该模型以一种新的方式产生了错误的输出。或者，更通俗地说，它撒谎了。有时这些欺骗似乎是无害的。在一个例子中，OpenAI的研究人员要求o1-preview提供一个带有在线参考的布朗尼食谱。该模型的思维链——一个应该模仿人类如何分解复杂想法的功能——在内部承认它无法访问URL，使得请求不可能。o1-preview并没有告知用户这一弱点，而是继续推进，生成了看似合理但虚假的链接和描述。虽然人工智能模型过去能够“撒谎”（https://arxiv.org/abs/2311.07590），聊天机器人经常输出虚 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博