专栏名称: NLP工作站
AIGC前沿知识分享&落地经验总结
今天看啥  ›  专栏  ›  NLP工作站

大模型论文淘金

NLP工作站  · 公众号  ·  · 2024-09-12 09:09

文章预览

今天带来一篇知乎好友@ybq 的文章,主要分享给大家判断论文价值的一些经验。 注意:该经验更多的是辅助提升工程能力,对纯搞学术的同学并无帮助,还望理解。 知乎:https://zhuanlan.zhihu.com/p/719626313 技术报告 没啥说的,当下最最最有含金量的论文,值得反复阅读。重点留意:数据清洗方法、pretrain 数据配比、pretrain 超参数、退火阶段、sft 的 task 种类、sft 的数据量级、dpo / ppo 训练技巧,合成数据方法等。 我个人觉着,国外 llama、mistral 是最大方的,国内 deepseek、minicpm 是最大方的。 OpenAI OpenAI 2023 年以前的论文都属于百年陈酿,值得反复品味。它们那时候没名气,还很真诚、需要技术影响力。现在发布的东西,要么在秀肌肉,要么让人感觉哪里不太对劲。 评估 > 训练 这个观点我重点分析一下。大模型发展到现在,除非 OpenAI 挤出来更多的牙膏, ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览