专栏名称: AINLP
关注AI、NLP相关技术,关注算法研发职位和课程;回复"文章"获取历史信息;双语聊天机器人"无名";中英翻译请输入:翻译 翻译内容;自动对联,请输入:上联 上联内容;调戏夸夸聊天机器人,请求夸、求赞;查询相似词,请输入: 相似词 词条
今天看啥  ›  专栏  ›  AINLP

模型解释新方向!浙大揭秘LLM隐层之间的知识流动!

AINLP  · 公众号  ·  · 2024-11-14 10:09
    

文章预览

作者:bhn 论文 :https://arxiv.org/pdf/2405.17969 - NIPS2024 代码 :https://github.com/zjunlp/KnowledgeCircuits 本文中: knowledge editing=知识编辑; machine unlearning=遗忘学习; detoxification=祛毒; knowledge circuits=知识回路; 背景 大量的参数赋予了大模型强大的能力的同时也带来了一些缺陷,如幻觉,不安全的行为。由于模型复杂的知识存储机制,这些问题的解决变得十分复杂。 目前的工作进行两个方向的尝试,一种是认为事实以键值对的形式存储在mlp中,在这个基础上人们使用 知识编辑,遗忘学习,祛毒 等方法对模型的mlp层修改,以缓解修复模型的缺陷。 另一种思路认为,知识不是单独的存储在某一区域的,而是由不同的组件共同构成的,本文中称为 知识回路。 这篇论文的工作分为四部分 发现Transformer架构中的知识回路: 解释 知识回路 的概念和知识回路是如何发 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览