专栏名称: AI大模型学习基地
人工智能AIGC行业探索分享,包括相关技术分享和资讯分享,以及相关商务洽谈合作。
今天看啥  ›  专栏  ›  AI大模型学习基地

词汇表大小对大语言模型的影响

AI大模型学习基地  · 公众号  ·  · 2024-07-26 23:54
    

文章预览

大型语言模型( LLMs )中词汇量大小对于模型扩展规律的有哪些影响呢,之前的研究往往集中于模型参数数量和训练数据量,而忽略了词汇表大小的角色。论文中研究人员探索了三种评估最优词汇量的方法: 基于计算力的 IsoFLOPs 分析 、 导数估算 及 损失函数参数拟 合,这三种方法均表明,最优词汇量取决于计算资源,而且大模型应匹配大词汇量。现有的许多 LLMs 所使用的词汇量过小,例如, Llama2-70B 模型的理想词汇量应为 216K ,远超其实际的 32K 。通过实验验证,当模型在不同计算预算下采用预测的最优词汇量时,其下游任务的表现普遍优于常用词汇量大小。例如,将词汇量从标准的 32K 增加到 43K ,就能在同等的计算量下,模型在 ARC-Challenge 上的性能从 29.1 提升至 32.0 。 1 三种预测计算最优词汇量的方法 通过 IsoFLOPs 分析估计幂律: ( 1 )定义 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览