专栏名称: 爱可可-爱生活
知名互联网资讯博主 北邮PRIS模式识别实验室陈老师
目录
相关文章推荐
黄建同学  ·  Landing AI ... ·  2 天前  
新智元  ·  GPT-4.5被DeepSeek ... ·  3 天前  
今天看啥  ›  专栏  ›  爱可可-爱生活

本文揭示了直接偏好优化中反直觉的“似然位移”现象,其可能导致模型-20241021053017

爱可可-爱生活  · 微博  · AI  · 2024-10-21 05:30
    

文章预览

2024-10-21 05:30 本条微博链接 本文揭示了直接偏好优化中反直觉的“似然位移”现象,其可能导致模型安全对齐失败,并提出了一种基于中心隐藏嵌入相似性 (CHES) 分数的数据过滤方法,有效地缓解了该问题,突显了数据质量在模型对齐中的关键作用。 [LG]《Unintentional Unalignment: Likelihood Displacement in Direct Preference ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览