专栏名称: 大淘宝技术
淘系技术官方账号
目录
今天看啥  ›  专栏  ›  大淘宝技术

通过Transformers用不同的采样方法生成文本

大淘宝技术  · 公众号  ·  · 2024-05-27 17:01
    

文章预览

近年来,随着以OpenAI的ChatGPT和Meta的LLaMA为代表的基于数百万网页数据训练的大型Transformer语言模型的兴起,开放域语言生成领域吸引了越来越多的关注。开放域中的条件语言生成效果令人印象深刻,典型的例子有:GPT2在独角兽话题上的精彩续写和XLNet等。促成这些进展的除了transformer架构的改进和大规模无监督训练数据外,更好的采样策略也发挥了不可或缺的作用。 本文简述了不同的采样策略,同时向读者展示了如何使用流行的transformer库轻松实现这些采样策略! LLM输出概率分布 许多大型语言模型具有推理时(inference-time)参数,用于控制输出的“随机性”。这些参数通常是贪心搜索(Greedy search), 波束搜索(Beam search), Top-K采样(Top-K sampling), Top-p采样(Top-p sampling), 温度(Temperature)。 LLM 通常对一系列tokens进行操作,这些tokens可以是词、字符、子词(words, ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览