主要观点总结
本文介绍了如何通过使用束搜索(Beam Search)技术提高BLEU分数,束搜索是一种在生成翻译结果时使用的搜索策略,它能维护多条概率最大的搜索路径,并选择最终的输出。文章还解释了束搜索的工作原理,并通过示例展示了如何使用束搜索和KV缓存来计算BLEU分数,并展示了训练过程以及在测试集上的表现。
关键观点总结
关键观点1: 束搜索介绍
束搜索是一种在生成翻译结果时使用的搜索策略,能维护多条概率最大的搜索路径,并选择最终的输出。
关键观点2: 束搜索工作原理
束搜索通过维护K条概率最大的搜索路径,每次生成时选择概率最大的路径,直到达到结束标记或路径数量达到K。
关键观点3: 束搜索与KV缓存
在训练时使用KV缓存可以提高生成效率,并在生成时通过批量内束搜索实现解码。
关键观点4: 训练与测试表现
在训练过程中,通过计算BLEU分数来评估模型的性能,并在测试集上测试模型的表现。
关键观点5: 注意力机制与掩码
在推理时,需要关注注意力机制的使用和掩码的作用,确保模型生成正确的输出。
文章预览
来源:投稿 作者:175 编辑:学姐 引言 上篇文章 加速推理的KV缓存技术,本文介绍让我们可以得到更好的BLEU分数的解码技术——束搜索。 束搜索 我们之前生成翻译结果的时候,使用的是最简单的贪心搜索,即每次选择概率最大的,但是每次生成都选择概率最大的并不一定代表最终的结果是最好的。 我们来看个简单的例子,假设词表中共4个单词: ["你","好"," "," "] ,每个时间步预测的搜索树如下: 上面是一个极端的例子,假设我们想要生成的是"你好"(生成后去掉开始和结束标记),而如果用贪心搜索它的选择是: 第1步,概率最大的是 p(好| )=0.6 ; 第2步,概率最大的是 p(好| 好)=0.4 ; 第3步,直接到达结束标记; 因此得到的整体概率是 0.6*0.4=0.24 ,实际上我们想要的输出"你好"它的概率更高: 0.4*0.7=0.28 。 而束搜索的话,它维护K条概率最大的搜索
………………………………