专栏名称: AINLP
关注AI、NLP相关技术,关注算法研发职位和课程;回复"文章"获取历史信息;双语聊天机器人"无名";中英翻译请输入:翻译 翻译内容;自动对联,请输入:上联 上联内容;调戏夸夸聊天机器人,请求夸、求赞;查询相似词,请输入: 相似词 词条
今天看啥  ›  专栏  ›  AINLP

LLM实践系列-细聊LLM的拒绝采样

AINLP  · 公众号  ·  · 2024-11-02 21:29

文章预览

知乎:https://zhuanlan.zhihu.com/p/3907736367 最近学强化的过程中,总是遇到“拒绝采样”这个概念,我尝试科普一下,争取用最大白话的方式让每个感兴趣的同学都理解其中思想。 拒绝采样是 LLM 从统计学借鉴过来的一个概念。其实大家很早就接触过这个概念,每个刷过 leetcode 的同学大概率都遇到过这样一个问题:“如何用一枚骰子获得 1/7 的概率?” 答案很简单:把骰子扔两次,获得 6 * 6 = 36 种可能的结果,丢弃最后一个结果,剩下的 35 个结果平分成 7 份,对应的概率值便为 1/7 。使用这种思想,我们可以利用一枚骰子获得任意 1/N 的概率。 在这个问题中,我们可以看到拒绝采样的一些关键要素: 采样 :从易于采样的分布(两个骰子的所有可能结果)中生成样本; 缩放 :(扔两次骰子)获得更大的样本分布; 拒绝 :丢弃(拒绝)不符合条件的样 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览