阿里巴巴人工智能治理与可持续发展研究中心(AAIG),致力于利用AI技术解决安全风险问题,并推动AI技术迈向更加可用、可靠、可信和可控。AAIG贯彻“科技创新是最好的网络安全”的理念,为集团在全球的千万商家和十亿消费者提供安全保障。
今天看啥  ›  专栏  ›  阿里巴巴人工智能治理研究中心

Anthropic首次切开Claude大脑,「AI黑箱」彻底破解?心算诡异思考过程曝光

阿里巴巴人工智能治理研究中心  · 公众号  ·  · 2025-04-03 12:00
    

文章预览

   新智元报道   编辑:定慧 犀牛 【导读】 AI的 运作始终笼罩着一层神秘的「黑箱」迷雾。这种不透明让AI有时会「胡说八道」,甚至故意撒谎。Anthropic刚刚推出了一项突破性研究,用类似大脑扫描的技术,深入Claude 3.5 Haiku的「脑子」,揭开了它运行的一些秘密。 AI的性能愈发强大,一个新模型可能前一天还是SOTA(最佳模型),第二天就被拍了下去。 不过,这些强大的AI上空总有一团迷雾笼罩。 那就是:他们到底是怎么找到答案的? 其整个运作机理就像个「黑箱子」。 我们知道模型输入的是什么提示词,也能看到它们输出的结果,但中间的过程,就连开发这些AI的人也不知道。 简直是个谜。 这种不透明带来了各种麻烦。 比如,我们很难预测模型什么时候会「胡说八道」,也就是出现所谓的「幻觉」。 更可怕的是,有些情况下,模型会撒谎, ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览