文章预览
刚刚发布的开源「巨无霸」Llama 3.1虽然自带论文,但依旧激起了广大网友强烈的好奇心和求知欲。 Llama 3.1都使用了哪些数据?其中有多少合成数据?为什么不使用MoE架构? 后训练与RLHF流程是如何进行的?模型评估是如何进行的? 我们什么时候可以见到Llama 4?Meta是否会发展agent? 恰逢Llama 3.1刚刚发布,Meta科学家就现身 播客节目Latent Space ,秉持着开源分享的精神,对以上问题都作出了清晰的回答。 受访者Thomas Scialom现任Meta的人工智能研究科学家,领导了Llama 2和Llama 3的后训练,并参加了CodeLlama、Toolformer、Bloom、GAIA等多个项目。 以下是采访内容的节选。 Llama 3.1研发思路 如何决定参数规模 其实LLM的参数规模的选择需要考虑多种因素,包括scaling law、训练时间、GPU和硬件的约束等等。 而且,不能只考虑Meta所用的硬件,还有整个AI社区,并不是每个
………………………………