专栏名称: AI for Research
每天分享最新最热的Arxiv论文、一起来关注大模型、AIGC、AGI
目录
相关文章推荐
今天看啥  ›  专栏  ›  AI for Research

本周大模型Top热门论文精选 —— 24年第29期

AI for Research  · 公众号  ·  · 2024-07-21 19:35

文章预览

前言: 平淡无奇的一天又来了,今天要分享的内容主要是关于大模型、大语言模型、AI手术规划的,喜欢的小伙伴赶紧去阅读相关论文吧。 1. 词汇规模scaling laws: 模型越大,词汇量也应越大   标题: Scaling Laws with Vocabulary: Larger Models Deserve Larger Vocabularies   机构: 香港大学、俄亥俄州立大学、Sea AI实验室   相关领域: 模型结构改进、模型评估   作者: Chaofan Tao,  Qian Liu,  Longxu Dou   分析: 论文研究了大型语言模型(LLMs)的扩展规律,忽视了词汇大小的重要性。论文提出,随着词汇的增加,可以更有效地进行句子表示,但也可能面临对罕见词表示不足的问题。论文在33M至3B参数之间,对多达500B字符的数据进行了训练,探索了不同词汇配置的效果。论文提出了三种方法来预测最优词汇大小:isoFLOPs分析、导数估计和损失函数的参数拟合。这些方法 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览