一个从大三就接触NLP的小小NLPer,本公众号每天记录自己的一点一滴,每篇文章最后也有托福单词等新知识,学技术同时,也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇!
今天看啥  ›  专栏  ›  深度学习自然语言处理

知识编辑——大语言模型原理探索

深度学习自然语言处理  · 公众号  ·  · 2024-10-09 21:02

文章预览

作者 :haha alalala 论文 :Locating and Editing Factual Associations in GPT 链接 :https://arxiv.org/abs/2202.05262 背景 以Transformer为架构的生成大模型,成为了NLP领域的主流,具有媲美人类的对话能力,显示出了卓越的事实生成效果。随之而来的问题是,大模型的工作原理是什么?大模型将这些事实存储在哪里?它是如何利用这些事实的?这篇论文尝试通过“causal intervention”去定位事实的位置,并尝试对事实进行修改。 本文的工作 这篇论文的工作分为两部分:事实定位以及事实修改 事实定位:通过三次不同的运行,确定不同参数部分对于事实预测的影响贡献。 纯净运行:不对s,r构成的输入进行修改,并对运行时的hidden states的激活进行记录。 污染运行:在输入后添加一个噪音,然后收集这个运行时hidden states的激活情况。 污染后恢复运行:同样在输入后加入一个 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览