专栏名称: AINLPer
一个专注自然语言处理(NLP)方向的公众号。机器学习(ML)、深度学习(DL)、自然语言处理相关模型理解、热门论文(Paper)分享分析、pytorch、C++、Python、Java ...
今天看啥  ›  专栏  ›  AINLPer

从此不再后训练!NeurIPS2024 & CMU | 提出推理时对齐方法,解码效率最高提升32倍

AINLPer  · 公众号  · AI 科技自媒体  · 2024-10-29 22:01

主要观点总结

本文主要介绍了一种推理时对齐算法,称为Speculative Rejection。该算法能够在计算效率上高出传统方法16至32倍,针对大模型在推理时资源消耗过大的问题提供了解决方案。文章首先介绍了大模型训练的两个步骤,包括预训练和后训练,然后引出推理时对齐方法的概念及其优点。接着详细解释了Best-of-N方法的原理及其缺点,并阐述了Speculative Rejection方法的提出背景、原理、实验过程和结果。最后,提供了相关推荐阅读和联系方式。

关键观点总结

关键观点1: 大模型训练的两个步骤:预训练和后训练。

预训练是在海量语料库上进行,赋予模型丰富知识;后训练技术旨在让模型根据人类意图以最佳方式回答用户问题。

关键观点2: 推理时对齐方法的优点。

推理时对齐方法能够完全绕过LLM后训练步骤,通过改变解码策略在推理时实现对齐,大大简化了LLM的部署过程。

关键观点3: Best-of-N方法的原理与缺点。

Best-of-N通过生成N个响应并根据奖励模型选择最佳响应来实现推理时对齐。其缺点在于推理时的效率受到计算成本的限制,需要多个GPU支持。

关键观点4: Speculative Rejection方法的原理与实验。

Speculative Rejection基于这样一个发现:在大模型生成过程中,通过找到一个decision token来终止大模型的生成,可以节约计算资源。实验证明,该方法能够在生成过程中动态拒绝不理想的响应生成,提高计算效率。

关键观点5: Speculative Rejection方法的实验结果。

在不同设置下,Speculative Rejection方法的胜率高于Best-of-N,且生成速度快于Best-of-N,同时持续生成困惑度较低的响应。


文章预览

点击上方 “ AINLPer “ ,设为 星标 更多干货,第一时间送达 引言 大模型训练主要包括两个部分,分别为Pre-Training 和 Post-Training。当我们拿到开源大模型的时候,通常会与实际场景结合来对大模型做一波Post-Training,进而改变预训练模型的权重来实现LLM对齐。那么能否有一种技术来避免Post-Training来实现大模型对齐呢?答案就是 「推理时对齐方法」 ,称之为:Best-of-N。 但是BoN方法有一个缺点,就是在推理时所需要的资源远远要超过标准解码策略,这不利于实际应用。今天给大家分享的这篇文章就针对这个问题, 「提出了一种计算上可行的推理时对齐算法,称为Speculative Rejection,在计算效率上可以高出16至32倍」 。 论文:https://arxiv.org/pdf/2410.20290 背景介绍 大模型训练的两个步骤:预训练(Pre-Training)和后训练(Post-Training)。其中预训练是指在海量 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览