文章预览
Scaling and evaluating sparse autoencoders 缩放与评估稀疏自编码器 这是Anthropic放出Scaling Monosemanticity那篇后OpenAI马上就放出来的一篇文章,相比去年上半年尝试用语言模型解释更小的语言模型中的neurons,利用SAE搭配activation看起来是一个做模型可解释性更加solid的方法(Anthropic的文章对此进行了比较说明)。这篇文章针对SAE本身的一些特性进行了探索,看之前我强烈推荐读者去读Scaling Monosemanticity!从中了解一些基础概念,而且内容非常好(之前想解读这篇但是实在太长了)。 Sparse Autoencoder(SAE,稀疏自编码器)为从LM中提取可解释特征提供了一种很有前景的无监督方法。由于LM学习了许多概念,自编码器本身参数规模非常大才能恢复所有相关特征。但研究SAE的缩放性质很难,主要是因为需要在重构目标和稀疏性目标之间保
………………………………