文章预览
点击蓝字 关注我们 SUBSCRIBE to US Illustration by Cath Virginia / The Verge | Photos by Getty Images 在OpenAI最新“推理”模型o1发布前的几周里,独立的人工智能安全研究公司Apollo发现了一个值得注意的问题(https://www.theverge.com/2024/9/12/24242439/openai-o1-model-reasoning-strawberry-chatgpt)。Apollo意识到该模型以一种新的方式产生了错误的输出。或者,更通俗地说,它撒谎了。 有时这些欺骗似乎是无害的。在一个例子中,OpenAI的研究人员要求o1-preview提供一个带有在线参考的布朗尼食谱。该模型的思维链——一个应该模仿人类如何分解复杂想法的功能——在内部承认它无法访问URL,使得请求不可能。o1-preview并没有告知用户这一弱点,而是继续推进,生成了看似合理但虚假的链接和描述。 虽然人工智能模型过去能够“撒谎”(https://arxiv.org/abs/2311.07590),聊天机器人经常输出虚
………………………………