5亿参数“小模型”如何超越千亿级参数大模型GPT-3.5？

OSC开源社区 · 公众号 · 程序员 · 2024-06-22 21:26

文章预览

当前业内普遍认可的一个观点是，大模型（LLM）参数规模越大，其性能越强，表现得越像人类。然而，一个只有 5 亿参数的小模型（SLM），在做文档摘要任务时，其表现却超过了 GPT-3.5。这听起来很不可思议。官方曾公布 GPT-3.5 的参数量为 1750 亿，是该小模型的 300 倍。这是怎么做到的？基于 “大数据、大算力、强算法” 的大模型的大规模预训练已经成为了一项极其烧钱的竞赛，有能力加入这场竞赛的玩家并不多。因此，越来越多的 AI 领域的研究关注如何让小模型高效工作，比如让低质量小模型 GPT-2 制作高质量的数据集，再用来训练小模型，就能与千亿级参数量的大模型 GPT-3 相匹敌。在 2024 年数据与 AI 峰会上，华盛顿大学教授、麦克阿瑟奖学金获得者，艾伦人工智能研究所 (Allen Institute for Artificial Intelligence，AI2) 常识 AI 的高级研究主任 Yejin ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博