文章预览
LLM 自对齐技术最新研究进展分享 系列文章继续更新啦!本系列文章将基于下图的架构,对当前 Self-alignment 相关工作进行全面梳理,厘清技术路线并分析潜在问题。 在 上一篇文章 中,我们主要探讨了 “如何让 LLM 合成 Instructions”,解决了 Instructions 从哪里来的问题,接下来要解决的问题就是“ 如何让 LLM 采集 Response ”,那么此时我们需要面临抉择,到底是要进行 SFT 还是 RLAIF 方式进行对齐,不同的选择需要用到不同的方式。 SFT SFT 路线的目标是让 LLM 合成符合 3H 原则的回答:Helpful、Honest、Harmless。 目前工作采用如下几种常见方法采集高质量回答,包括 Distillation、Critic 、In-context、Guided Decoding、Self-Consistency、Task Decomposition 这些方法。 Distillation Distillation 的思路在于得到其他 Strong model 的回答,之后可以直接在该回答上进行微调,比如 Baize 和 U
………………………………