专栏名称: 新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
今天看啥  ›  专栏  ›  新智元

Meta祭出三篇最详尽Llama微调指南!千字长文,0基础小白必备

新智元  · 公众号  · AI  · 2024-08-26 12:27
    

文章预览

   新智元报道   编辑:桃子 【新智元导读】 微调的所有门道,都在这里了。 开源,就要开的彻彻底底。 这不,Meta一连放出三篇技术文章,从大模型适配方法出发,介绍了: 如何使用特定领域数据微调LLM,如何确定微调适配自己的用例,以及如何管理良好训练数据集的经验法则。 接下来,直接进入正题。 适配大模型 预训练 预训练是指,使用数万亿个token数据,从头开始训练LLM的过程,通常使用自监督算法进行训练。 最常见的情况是,训练通过自回归预测下一个token(也称为因果语言建模)。 预训练通常需要数千个GPU小时(105-107个),并分布在多个GPU上进行。 预训练的输出模型称为「基础模型」。 继续预训练 继续预训练(也称为第二阶段预训练)将使用全新的、未见过的领域数据进一步训练基础模型。 这里,同样使用与初始预训练相同的 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览