今天看啥  ›  专栏  ›  机器学习算法与自然语言处理

北京大学:利用好不确定性,8B小模型也能超越GPT-4

机器学习算法与自然语言处理  · 公众号  ·  · 2024-08-08 00:00
    

文章预览

MLNLP 社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。 社区的愿景 是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。 转载自 | 夕小瑶科技说 作者 | 谢年年 大模型有一个显著的特点,那就是不确定性——对于特定输入,相同的LLM在不同解码配置下可能生成显著不同的输出。 比如问一问chatgpt“今天开心吗?”,可以得到两种不同的回答。 常用的解码策略有两种,一个是贪婪解码,即永远选择概率最高的下一个token,另一种就是采样方法,根据概率分布随机选择下一个token,常常使用温度参数平衡响应质量和多样性。 那么,这两种方式哪个更好呢?北大的一篇论文给出了答案: 贪婪解码在大多数任务中通常优于采样方法。 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览