文章预览
在 上一篇文章 中,我们介绍了使用 NeMo 运行英-中翻译模型的示例,并评估其性能。在这篇文章中,我们将指导您如何定制数据集,并在该数据集上微调模型。 数据收集 数据收集在模型微调中至关重要,因为它使模型适配特定任务或领域要求。 例如,我们翻译任务是将计算机科学相关的技术文章从英文翻译成中文,那么收集以前人工翻译的文章作为微调数据是很有必要的。因为此类文章中包含很多这个领域中常用概念和术语,但在这些语料在预训练数据集中极少出现。 我们建议至少采集几千个高质量的样本。在使用这些量身定制的数据进行微调后,模型可以在技术博客翻译任务中取得更好的表现。 数据预处理流程 为了提高数据质量,您需要对数据进行预处理,以过滤掉无效和冗余的脏数据。 NVIDIA NeMo framework 包含了 NVIDIA NeMo Curator
………………………………