专栏名称: 学术头条
致力于科学传播和学术分享,关注计算机科学、认知科学、人工智能科学、神经科学、脑科学等学科领域。我们从跨学科的角度,围绕“认知智能”向科学界和大众介绍相关领域的前沿话题和深度解读。
今天看啥  ›  专栏  ›  学术头条

GLM-4-9B 开源,探索模型极限

学术头条  · 公众号  ·  · 2024-06-05 13:25
    

文章预览

自 2023 年 3 月 14 日开源 ChatGLM-6B 以来,GLM 系列模型受到广泛关注和认可。特别是 ChatGLM3-6B 开源以后,开发者对智谱AI 第四代模型的开源充满期待。 为了使小模型(10B 以下)具备更加强大的能力,GLM 技术团队进行了大量探索工作。经过近半年的探索, 我们推出了第四代 GLM 系列开源模型:GLM-4-9B。 在预训练方面,我们 引入了大语言模型进入数据筛选流程 ,最终获得了 10T 高质量多语言数据,数据量是 ChatGLM3-6B 模型的 3 倍以上。同时,我们 采用了 FP8 技术进行高效的预训练 ,相较于第三代模型,训练效率提高了 3.5 倍。 在有限显存的情况下,我们探索了性能的极限 ,并发现 6B 模型性能有限。因此,在考虑到大多数用户的显存大小后,我们将模型规模提升至 9B,并将预训练计算量增加了 5 倍。 综合以上技术升级和其他经验, GLM-4-9B 模型具备了更 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览