北京大学：利用好不确定性，8B小模型也能超越GPT-4

机器学习算法与自然语言处理 · 公众号 · · 2024-08-08 00:00

文章预览

MLNLP 社区是国内外知名的机器学习与自然语言处理社区，受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。社区的愿景是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进步，特别是初学者同学们的进步。转载自 | 夕小瑶科技说作者 | 谢年年大模型有一个显著的特点，那就是不确定性——对于特定输入，相同的LLM在不同解码配置下可能生成显著不同的输出。比如问一问chatgpt“今天开心吗？”，可以得到两种不同的回答。常用的解码策略有两种，一个是贪婪解码，即永远选择概率最高的下一个token，另一种就是采样方法，根据概率分布随机选择下一个token，常常使用温度参数平衡响应质量和多样性。那么，这两种方式哪个更好呢？北大的一篇论文给出了答案：贪婪解码在大多数任务中通常优于采样方法。 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

钱江晚报 · 太火爆！一度无法交易！网友：补到就是赚到

22 小时前

浙江经信 · 【经济大省挑大梁】2024年，浙江规上工业增加值增长7.5%

昨天

杭州交通918 · 大范围雨雪将抵达！最新预测：杭州…这波很猛！

昨天

杭州交通918 · 杭州姑娘傻眼！刚领完证，新郎跑了！下一秒直呼：嫁对人了

2 天前

FM93交通之声 · 5个小时一动不动！早上7点就开始堵车！最新提醒：部分高速口子关闭、限流！

3 天前

新航学成 · 上哪些院校容易端上电力铁饭碗？国家电网2024年人才招录一览

4 月前

母胎医学 · 直播预告 | 11月5日 19:00 姚强教授：妊娠期胆汁淤积症的规范管理——常见高危妊娠的早期筛查与规范管理

2 月前