本文揭示了直接偏好优化中反直觉的“似然位移”现象，其可能导致模型-20241021053017

爱可可-爱生活 · 微博 · AI · 2024-10-21 05:30

文章预览

2024-10-21 05:30 本条微博链接本文揭示了直接偏好优化中反直觉的“似然位移”现象，其可能导致模型安全对齐失败，并提出了一种基于中心隐藏嵌入相似性 (CHES) 分数的数据过滤方法，有效地缓解了该问题，突显了数据质量在模型对齐中的关键作用。 [LG]《Unintentional Unalignment: Likelihood Displacement in Direct Preference ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

爱可可-爱生活 · [CL]《Between Circuits and Chomsk-20250303053942

昨天

爱可可-爱生活 · 晚安～ #晚安# -20250302224543

2 天前

黄建同学 · Landing AI 也是吴恩达创建的公司。他创建的公司都有（2-20250302074950

2 天前

爱可可-爱生活 · [LG]《Stable-SPAM: How to Train i-20250302061052

2 天前

新智元 · GPT-4.5被DeepSeek 500倍吊打！基准测试全班垫底，OpenAI痛失护城河

3 天前

成于微言 · 2024年VIP会员服务指南

9 月前

游资八戒 · 【牛股共振MACD】套装——1主图2幅图

4 月前