Llama 4训练已开启！Meta科学家最新采访，揭秘Llama 3.1是如何炼成的

机器学习研究组订阅 · 公众号 · AI · 2024-07-28 19:31

文章预览

刚刚发布的开源「巨无霸」Llama 3.1虽然自带论文，但依旧激起了广大网友强烈的好奇心和求知欲。 Llama 3.1都使用了哪些数据？其中有多少合成数据？为什么不使用MoE架构？后训练与RLHF流程是如何进行的？模型评估是如何进行的？我们什么时候可以见到Llama 4？Meta是否会发展agent？恰逢Llama 3.1刚刚发布，Meta科学家就现身播客节目Latent Space ，秉持着开源分享的精神，对以上问题都作出了清晰的回答。受访者Thomas Scialom现任Meta的人工智能研究科学家，领导了Llama 2和Llama 3的后训练，并参加了CodeLlama、Toolformer、Bloom、GAIA等多个项目。以下是采访内容的节选。 Llama 3.1研发思路如何决定参数规模其实LLM的参数规模的选择需要考虑多种因素，包括scaling law、训练时间、GPU和硬件的约束等等。而且，不能只考虑Meta所用的硬件，还有整个AI社区，并不是每个 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

爱可可-爱生活 · 【从GPU到CPU：NVIDIA的消费级芯片新征程】根据最新消息-20241105140251

昨天

爱可可-爱生活 · 【InterProt：一个用于解释蛋白质语言模型的工具集合，包含-20241104135638

2 天前

量子位 · 时代变了！英伟达纳入道琼斯指数，英特尔被取代

4 天前

新智元 · 谷歌Agent首次发现真实世界代码漏洞！抢救全球数亿设备，或挽回数十亿美元损失？

4 天前

宝玉xp · 回复@韩拿云:也叫实时语音，能识别情绪音色，可以随时打断//@韩-20241031085855

6 天前

AF智慧城市网 · 2024上半年智能汽车行业趋势分析

2 月前