专栏名称: 极市平台
极市平台是由深圳极视角推出的专业的视觉算法开发与分发平台,为视觉开发者提供多领域实景训练数据库等开发工具和规模化销售渠道。本公众号将会分享视觉相关的技术资讯,行业动态,在线分享信息,线下活动等。 网站: http://cvmart.net/
今天看啥  ›  专栏  ›  极市平台

工业界主流大语言模型后训练(Post-Training)技术总结

极市平台  · 公众号  ·  · 2024-12-16 22:00
    

文章预览

↑ 点击 蓝字  关注极市平台 作者丨唯亚@知乎(已授权) 来源丨https://zhuanlan.zhihu.com/p/987052830 编辑丨极市平台 极市导读   本文整理工业界主流开源LLM的后训练方案,着重介绍训练算法和数据处理部分   >> 加入极市CV技术交流群,走在计算机视觉的最前沿 前言 今年工业界陆续开源了多款优秀的大语言模型,并放出了技术报告,本文整理工业界主流开源LLM的后训练方案,着重介绍训练算法和数据处理部分。以下是模型列表: Llama3(Meta) Qwen2(阿里云) Nemotron(Nvidia) AFM(Apple) Yi(01ai) GLM-4(智谱) Gemma2(Google) DeepSeek-V2(DeepSeek) Baichuan2 Alignment(百川) 总结以上技术报告,可以发现一些基本趋势: 数据合成已成为工业界主流LLM后训练的基本方案,未来大概率也会持续发展,快速开发出领先的数据合成pipeline,有助于企业保持领先地位。 善用 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览