文章预览
前言: 平淡无奇的一天又来了,今天要分享的内容主要是关于大模型、大语言模型、AI手术规划的,喜欢的小伙伴赶紧去阅读相关论文吧。 1. 词汇规模scaling laws: 模型越大,词汇量也应越大 标题: Scaling Laws with Vocabulary: Larger Models Deserve Larger Vocabularies 机构: 香港大学、俄亥俄州立大学、Sea AI实验室 相关领域: 模型结构改进、模型评估 作者: Chaofan Tao, Qian Liu, Longxu Dou 分析: 论文研究了大型语言模型(LLMs)的扩展规律,忽视了词汇大小的重要性。论文提出,随着词汇的增加,可以更有效地进行句子表示,但也可能面临对罕见词表示不足的问题。论文在33M至3B参数之间,对多达500B字符的数据进行了训练,探索了不同词汇配置的效果。论文提出了三种方法来预测最优词汇大小:isoFLOPs分析、导数估计和损失函数的参数拟合。这些方法
………………………………