OpenAI公开破解GPT-4思维的新方法，Ilya也参与了！

量子位 · 公众号 · AI · 2024-06-07 16:26

文章预览

西风发自凹非寺量子位 | 公众号 QbitAI OpenAI研究如何破解GPT-4思维，公开超级对齐团队工作， Ilya Sutskever 也在作者名单之列。该研究提出了改进大规模训练稀疏自编码器的方法，并成功将GPT-4的内部表征解构为1600万个可理解的特征。由此，复杂语言模型的内部工作变得更加可理解。其实，早在6个月前，研究就已经开始进行了： OpenAI将其公开后，前超级对齐团队成员、论文一作前来转发分享：我们引入了一种基于TopK激活函数的新稀疏自编码器训练技术栈，消除了特征缩减问题，并允许直接设置L0。我们发现这种方法在均方误差/L0边界上表现良好。即使在1600万的规模下，也几乎没有失活的潜在单元（latent）。同样在坐着名单里的、此前在OpenAI超级对齐团队的Ilya同盟 Jan Leike （就是从OpenAI愤而离职刚刚加入Anthropic的RLHF发明者之一）也表 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博