Scaling Law不总是适用！尤其在文本分类任务中，vivo AI Lab提出数据质量提升解决方法

量子位 · 公众号 · AI · 2024-12-15 19:52

主要观点总结

本文介绍了vivo AI Lab团队提出的数据质量提升（DQE）方法，针对文本分类任务，成功提升了LLM模型的准确性和效率。研究中发现扩大训练集数据量可能会带来数据冲突和数据冗余问题，特别是当类别界限不清晰时。DQE方法通过数据清洗、文本嵌入模型、贪婪采样等方式，提高数据多样性，并通过对预测错误的数据进行分类，进一步提升了模型的性能。此项成果已被自然语言处理顶会COLING 2025主会接收。

关键观点总结

关键观点1: 研究背景

文本分类任务在AI中非常重要，尤其是情感分析和用户意图识别。传统的BERT模型存在输出不可控的问题，在文本分类任务中需要更有效的数据集获取手段。

关键观点2: 问题与挑战

扩大训练集数据量可能带来数据冲突和数据冗余问题，特别是在类别界限不清晰的情况下。数据冲突现象更加明显。

关键观点3: vivo AI Lab的解决方案——数据质量提升（DQE）方法

DQE方法通过数据清洗、文本嵌入模型、贪婪采样等方式提高数据多样性。通过结合向量检索，将预测错误的数据分为Uncovered、Difficult和Noisy三种类型，进一步提升模型性能。

关键观点4: 实验与效果

在多个文本分类任务数据集中进行实验，结果显示DQE方法以更少的数据获得更高的准确率，并且有效地提升了训练效率。作者对全量数据微调和DQE选择的数据微调的模型进行了显著性分析，发现DQE选择的数据在大多数测试集上表现出显著的性能提升。

关键观点5: 投稿邀请与联系方式

文章最后邀请读者投稿，并提供了投稿邮箱和联系方式。

文章预览

vivo AI Lab 投稿量子位 | 公众号 QbitAI Scaling Law不仅在放缓，而且不一定总是适用！尤其在文本分类任务中，扩大训练集的数据量可能会带来更严重的数据冲突和数据冗余。要是类别界限不够清晰，数据冲突现象就更明显了。而文本分类又在情感分析、识别用户意图等任务中极为重要，继而对AI Agent的性能也有很大影响。最近，vivo AI Lab研究团队提出了一种数据质量提升（DQE）的方法，成功提升了LLM在文本分类任务中的准确性和效率。实验中，DQE方法以更少的数据获得更高的准确率，并且只用了近一半的数据量，就能有效提升训练集的训练效率。作者还对全量数据微调的模型和DQE选择的数据微调的模型在测试集上的结果进行了显著性分析。结果发现DQE选择的数据在大多数测试集上都比全量数据表现出显著的性能提升。目前，此项成果已 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博