OpenAI新作署名Ilya，提取1600万个特征看透GPT-4大脑！

机器学习研究组订阅 · 公众号 · AI · 2024-06-07 18:38

文章预览

前两天，OpenAI的一群员工刚刚联名发表公开信，表示自主的AI系统正在失控，呼吁公众提高警惕。今天OpenAI就甩出了一篇论文来回应。这篇文章通过逆向工程，为GPT-4做了一次「解剖」，旨在探索LLM的可解释性。更让人唏嘘的是，这项新研究由最近刚刚分崩离析的「超级对齐」团队完成，文章还有Ilya Sutskever和Jan Leike的署名。论文地址：https://cdn.openai.com/papers/sparse-autoencoders.pdf 文章是发表了，但团队却早已解散。物是人非，似乎也从另一个侧面说明了，OpenAI在AGI安全方面进行的重大转向。论文提出，模型的可解释性与AI安全息息相关。目前我们仍不了解语言模型的内部运作原理，而且它无法被轻易分解为可识别的部分。这意味着无法像推理汽车安全那样推理人工智能安全。为了理解和解释神经网络，首先需要找到神经计算的构建模块。然而， ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

新智元 · 「诺奖风向标」2025斯隆奖公布，清华姚班大神霸榜！8位华人计算机科学家入选

昨天

茶瓜子的休闲馆 · 5步搞定私有模型部署，AI小帮手解锁本地模型，聊聊看法

昨天

茶瓜子的休闲馆 · 5步搞定私有模型部署，AI小帮手解锁本地模型，聊聊看法

昨天

人工智能那点事 · 寒假作业“AI味”太浓，杭城老师：一眼就能认出

2 天前

机器之心 · 2024 IBM博士生奖学金出炉：韩迟、卓越、张逸骅、冯尚彬等AI研究者入选

3 天前

黄建同学 · DeepSeek + RAG能带来什么新思路？来自Deniz A-20250216171124

4 天前

自在睡觉 · 梁冬 | 做梦，其实真能让人变瘦

8 月前

中学地理研究 · 2024高考必须知道的基本的地理原理、规律、答题思路

8 月前

红星新闻 · 热搜爆了！男演员李明德发文怒斥《三人行》剧组！零下17度自己穿单衣等了40分钟，疑指男一号马天宇耍大牌迟到

1 月前