这才是真・开源模型！公开「后训练」一切，性能超越Llama 3.1 Instruct

深度学习与NLP · 公众号 · · 2024-11-24 00:00

文章预览

来源 | 机器之心在最近关于「Scaling Law 是否撞墙」的讨论中，后训练（post-training）被寄予厚望。众所周知，近期发布的 OpenAI o1 在数学、代码、长程规划等问题上取得了显著提升，而背后的成功离不开后训练阶段强化学习训练和推理阶段思考计算量的增大。基于此，有人认为，新的扩展律 —— 后训练扩展律（Post-Training Scaling Laws）已经出现，并可能引发社区对于算力分配、后训练能力的重新思考。不过，对于后训练到底要怎么做，哪些细节对模型性能影响较大，目前还没有太多系统的资料可以参考，因为这都是各家的商业机密。刚刚，曾经重新定义「开源」并发布了史上首个 100% 开源大模型的艾伦人工智能研究所（Ai2）站出来打破了沉默。他们不仅开源了两个性能超过 Llama 3.1 Instruct 相应版本的新模型 ——Tülu 3 8B 和 70B（未来还会有 405B 版本 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博