专栏名称: 数据派THU
本订阅号是“THU数据派”的姊妹账号,致力于传播大数据价值、培养数据思维。
今天看啥  ›  专栏  ›  数据派THU

仅一行代码,使LLaMA3在知识编辑任务上表现暴涨35%!您确定不来试试嘛?

数据派THU  · 公众号  · 大数据  · 2024-10-23 17:00
    

文章预览

本文 约2000字 ,建议阅读 5 分钟 仅需在主流编辑方法中加入一行代码,便可暴涨 LLaMA3 在序列知识编辑任务上。 LLMs 常因错误/过时知识产生幻觉,而基于新知识微调耗时且易过拟合、引入额外的知识库或参数模块又会带来不断增加的存储空间压力。因此,基于 “Locate-then-Edit” 的知识编辑(如 ROME)被提出,用“少时间成本、零空间成本”来精准更新特定知识。 在此基础上, 中科大 LDS Lab 提出 AlphaEdit, 仅需在主流编辑方法中加入一行代码,便可暴涨 LLaMA3 在序列知识编辑任务上的表现如下图。 ▲ 图1:各类模型编辑方法在 LLaMA3(8B)上的表现。星号上标用于区别Counterfact数据集和 ZsRE 数据集。SST、RTE 和 CoLA 评估了编辑后模型的通用能力。 相关论文: 论文标题: AlphaEdit: Null-Space Constrained Knowledge Editing for Language Models 论文链接: https://arxiv.org/abs/24 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览