主要观点总结
本文介绍了SmolLM系列模型,该系列模型包含不同参数量的语言模型,在训练过程中使用了一系列高质量的语料库进行训练。SmolLM模型在各种指标上表现优秀,特别是在常识推理和世界知识方面。文章还介绍了模型的训练过程、数据集和评测结果,并提供了本地运行模型的方法和资源链接。
关键观点总结
关键观点1: SmolLM系列模型介绍
SmolLM包含不同参数量的小语言模型,使用高质量语料库进行训练,表现出优秀的性能。
关键观点2: 数据整理与训练过程
SmolLM的训练过程中使用了多个高质量的语料库,包括Cosmopedia、FineWeb-Edu等,并且采用了梯形学习率变化策略等超参数选择。
关键观点3: 模型评测结果
SmolLM在不同参数量级的模型上均表现出优秀的性能,超越了当前最好的一些模型。
关键观点4: 本地运行方法
SmolLM模型可以在各种本地硬件上运行,包括手机、笔记本电脑等。文章提供了模型内存占用情况以及运行资源链接。
文章预览
简介 本文将介绍 SmolLM 。它集合了一系列最尖端的 135M、360M、1.7B 参数量的小模型,这些模型均在一个全新的高质量数据集上训练。本文将介绍数据整理、模型评测、使用方法等相关过程。 SmolLM https://hf.co/collections/HuggingFaceTB/smollm-models-6695016cad7167254ce15966 引言 近期,人们对能在本地设备上运行的小语言模型的兴趣日渐增长。这一趋势不仅激发了相关业者对蒸馏或量化等大模型压缩技术的探索,同时也有很多工作开始尝试在大数据集上从头训练小模型。 微软的 Phi 系列、阿里巴巴的 Qwen2 (小于 2B 参数量) 以及 Meta 的 MobileLLM 均展示了这样的结论: 如果设计得当、训练充分,小模型也可以获得很好的性能。然而,这其中关于数据整理、训练细节的相关信息大多都未被披露。 在本文中,我们将介绍 SmolLM 。这是一个包含一系列最顶尖的小语言模型的集合,
………………………………