今天看啥  ›  专栏  ›  机器学习研究组订阅

OpenAI新作署名Ilya,提取1600万个特征看透GPT-4大脑!

机器学习研究组订阅  · 公众号  · AI  · 2024-06-07 18:38
    

文章预览

前两天,OpenAI的一群员工刚刚联名发表公开信,表示自主的AI系统正在失控,呼吁公众提高警惕。 今天OpenAI就甩出了一篇论文来回应。 这篇文章通过逆向工程,为GPT-4做了一次「解剖」,旨在探索LLM的可解释性。 更让人唏嘘的是,这项新研究由最近刚刚分崩离析的「超级对齐」团队完成,文章还有Ilya Sutskever和Jan Leike的署名。 论文地址:https://cdn.openai.com/papers/sparse-autoencoders.pdf 文章是发表了,但团队却早已解散。 物是人非,似乎也从另一个侧面说明了,OpenAI在AGI安全方面进行的重大转向。 论文提出,模型的可解释性与AI安全息息相关。 目前我们仍不了解语言模型的内部运作原理,而且它无法被轻易分解为可识别的部分。这意味着无法像推理汽车安全那样推理人工智能安全。 为了理解和解释神经网络,首先需要找到神经计算的构建模块。 然而, ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览