专栏名称: AINLPer
一个专注自然语言处理(NLP)方向的公众号。机器学习(ML)、深度学习(DL)、自然语言处理相关模型理解、热门论文(Paper)分享分析、pytorch、C++、Python、Java ...
今天看啥  ›  专栏  ›  AINLPer

北大 | 深入分析大模型自纠错原理,提出CaC纠错策略,显著消除偏见和越狱风险

AINLPer  · 公众号  · 科技自媒体 科技媒体  · 2024-11-18 21:24
    

主要观点总结

自我纠错(Self Correction)能力,是人工智能领域尤其是大型语言模型(LLMs)中的热门技术。文章介绍了自我纠错技术在大型语言模型中的应用,包括OpenAI o1模型和Reflection 70B模型。文章还介绍了北大王奕森团队与MIT合作的理论分析,探讨了自我纠错的理论基础,提出了一种简单的自我纠错策略——上下文检查(Check as Context),并在消除大型语言模型的社会偏见和防御越狱攻击等任务中进行了实验验证。该理论分析首次在理论上表明LLM可以在上下文中实现对齐,为自我纠错技术提供了理论支持。

关键观点总结

关键观点1: 自我纠错技术在大型语言模型中的应用越来越广泛。

大型语言模型通过在生成答案时逐个Token输出,可能会出现某些Token错误。OpenAI o1模型和Reflection 70B模型都采用了自我纠正的方法。

关键观点2: 北大王奕森团队与MIT合作从理论上分析了大型语言模型的自我纠错能力。

他们将自我纠错形式化为一种“上下文对齐”,并提出了上下文检查(Check as Context)这一简单的自我纠错策略。该策略通过提供一系列自我纠错步骤的上下文,优化LLM的最终输出,以获得更高的奖励。

关键观点3: 上下文检查策略在消除大型语言模型的社会偏见和防御越狱攻击等任务中效果显著。

实验表明,自我纠错后的正确率高于原始正确率,并且正确率的提升与自我评估的准确率高度相关。此外,更大的模型和更多的纠错轮数可以更好地进行纠错。


文章预览

点击上方 “ AINLPer “ ,设为 星标 更多干货,第一时间送达 自我纠错(Self Correction)能力,传统上被视为人类特有的特征,正越来越多地在人工智能领域,尤其是大型语言模型(LLMs)中得到广泛应用,最近爆火的OpenAI o1模型[1]和Reflection 70B模型[2]都采取了自我纠正的方法。 传统的大语言模型,因为在输出答案的时候是逐个Token输出,当输出长度较长时,中间某些Token出错是必然发生。但即使LLM后来知道前面输出的Token错了,它也得用更多错误来“圆谎”,因为没有机制让它去修正前面的错误。 而OpenAI o1在“慢思考”也就是生成Hidden COT的过程中,通过分析OpenAI官网给出的Hidden COT例子可以发现,在解决字谜问题的思考过程中,o1首先发现了每两个连续的明文字母会映射到一个秘文字母,于是便尝试使用奇数字母来构建明文,但是经过验证发现并不合 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览