专栏名称: 阿里巴巴人工智能治理研究中心

阿里巴巴人工智能治理与可持续发展研究中心(AAIG)，致力于利用AI技术解决安全风险问题，并推动AI技术迈向更加可用、可靠、可信和可控。AAIG贯彻“科技创新是最好的网络安全”的理念，为集团在全球的千万商家和十亿消费者提供安全保障。

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

Anthropic首次切开Claude大脑，「AI黑箱」彻底破解？心算诡异思考过程曝光

阿里巴巴人工智能治理研究中心 · 公众号 · · 2025-04-03 12:00

文章预览

新智元报道编辑：定慧犀牛【导读】 AI的运作始终笼罩着一层神秘的「黑箱」迷雾。这种不透明让AI有时会「胡说八道」，甚至故意撒谎。Anthropic刚刚推出了一项突破性研究，用类似大脑扫描的技术，深入Claude 3.5 Haiku的「脑子」，揭开了它运行的一些秘密。 AI的性能愈发强大，一个新模型可能前一天还是SOTA（最佳模型），第二天就被拍了下去。不过，这些强大的AI上空总有一团迷雾笼罩。那就是：他们到底是怎么找到答案的？其整个运作机理就像个「黑箱子」。我们知道模型输入的是什么提示词，也能看到它们输出的结果，但中间的过程，就连开发这些AI的人也不知道。简直是个谜。这种不透明带来了各种麻烦。比如，我们很难预测模型什么时候会「胡说八道」，也就是出现所谓的「幻觉」。更可怕的是，有些情况下，模型会撒谎， ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博