关注图网络、图表示学习,最近顶会顶刊动态以及机器学习基本方法,包括无监督学习、半监督学习、弱监督学习、元学习等
今天看啥  ›  专栏  ›  深度图学习与大模型LLM

从Claude 3中提取数百万特征,首次详细理解大模型的「思维」

深度图学习与大模型LLM  · 公众号  ·  · 2024-05-24 09:48
    

文章预览

本文来源 | 机器之心微信公众号 刚刚, Anthropic  宣布在理解人工智能模型内部运作机制方面取得重大进展。 Anthropic 已经确定了如何在 Claude Sonnet 中表征数百万个概念。这是对现代生产级大型语言模型的首次详细理解。这种可解释性将帮助我们提高人工智能模型的安全性,具有里程碑意义。 研究论文:https://transformer-circuits.pub/2024/scaling-monosemanticity/index.html 当前,我们通常将人工智能模型视为一个黑匣子:有东西进去就会有响应出来,但不清楚为什么模型会给出特定的响应。这使人们很难相信这些模型是安全的:如果我们不知道它们是如何工作的,我们怎么知道它们不会给出有害的、有偏见的、不真实的或其他危险的响应?我们如何相信它们会安全可靠? 打开「黑匣子」并不一定有帮助:模型的内部状态(模型在编写响应之前「思考」的内容)由 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览