文章预览
编译:王庆法+GPT4o 译者注:今天人工智能公司 Anthropic (Claude :GPT4 竞争对手) 的一组研究人员宣布了一项重大突破——将使我们能够更多地了解人工智能语言模型的内在工作原理,并可能防止它们变得有害。 请参照阅读笔者新整理的“ 柏拉图表征与大模型内在 ”。 今天,我们报道了在理解人工智能模型内在工作原理方面的重大进展。我们已经识别出数百万个概念如何在 Claude Sonnet 中被表示,Claude Sonnet 是我们部署的大型语言模型之一。这是首次对现代、生产级大型语言模型的详细内部探讨。这个可解释性发现将来可能有助于我们使 AI 模型更加安全。 我们大多将 AI 模型视为一个黑箱:输入某些东西,然后输出一个响应,但不清楚为什么模型会给出特定的响应而不是其他。这使得信任这些模型的安全性变得困难:如果我们不知道它们是如何
………………………………