专栏名称: PaperWeekly
PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区:http://paperweek.ly | 微博:@PaperWeekly
今天看啥  ›  专栏  ›  PaperWeekly

​大模型logits暗藏玄机!仅需两行代码即可增强生成性能

PaperWeekly  · 公众号  · 科研  · 2024-11-27 13:37

文章预览

©作者 |  唐晨夏 单位 |  中国科学技术大学 研究方向 |  大模型推理 导读 我们是否完全激发了大模型的所有性能?极简采样算法 让大模型推理性能再创新高,而其核心代码仅仅两行: threshold = logits.max(dim= -1 , keepdim= True ).values - n*logits.std(dim= -1 , keepdim= True ) logits[logits '-inf') 论文题目: Top-nσ: Not All Logits Are You Need 作者列表: Chenxia Tang, Jianchun Liu, Hongli Xu, Liusheng Huang 作者单位: University of Science and Technology of China 论文链接: https://arxiv.org/abs/2411.07641 简介 在大语言模型(LLM)应用中,解码策略直接决定了模型输出的质量。形式地说, 大模型接收一个字符串 ,输出一个 logits 向量 ,然后经过 softmax 得到概率分布 ,再从中采样。 然而,从这个原始概率分布中直接采样往往会产生不连贯、质量欠佳的输出。另一种直观的做法是始终选择概率最高的 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览