一个百度人的技术提升之路,为您提供一系列计算机视觉,自然语言处理和推荐系统等高质量技术文章,让您的碎片化时间最大价值化
今天看啥  ›  专栏  ›  深度学习基础与进阶

大模型微调项目 / 数据集调研汇总

深度学习基础与进阶  · 公众号  ·  · 2025-02-15 13:57
    

文章预览

作者丨周星星@知乎(已授权) 来源丨https://zhuanlan.zhihu.com/p/624079704 编辑丨极市平台 前言 本文主要总结本人最近跑过的大模型微调项目。 相信大家这几个月都会不断新出的微调大模型项目刷屏,频率基本每天都有高星的项目诞生,部分还宣称自己达到GPT的百分之多少,一方面弄得大家过度乐观,一方面弄得大家焦虑浮躁。 面对这种情况,我的建议是「 多动手」 。把这些项目 clone 下来,跑跑代码,把项目用到的数据集下载下来做做EDA,把项目训练完的checkpoint下载下来,用自己的例子跑跑。 多接触反而心态平定了许多 。 回归正题,这篇博文聊聊一些热门的大模型微调项目。首先我觉得大量这些项目的诞生是源于以下三个节点: 节点1 ChatGPT:由于 ChatGPT 惊人的效果,让大家意识到AGI的可能性,并重视起了大模型+开放指令微调+强化学习这种三阶段 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览