文章预览
24年2月复旦大学和上海AI实验室的论文“LongWanjuan: Towards Systematic Measurement for Long Text Quality”。 训练数据的质量对于增强基础模型的长文本能力至关重要。尽管目前人们正在努力通过启发式规则和基于数据多样性和难度的评估来提高数据质量,但仍然缺乏专门用于评估长文本的系统方法。为了解决这一问题,评估三个基本语言维度来系统地衡量长文本的质量:连贯性、凝聚性和复杂性。从上述三个维度考虑,采取一套旨在评估长文本质量的指标,涵盖统计指标和基于预训练语言模型的指标。利用这些指标,构建LongWanjuan双语数据集,专门用于增强长文本任务的语言模型训练,拥有超过 1600 亿个tokens。在LongWanjuan中,将长文本分为整体、聚合型和混乱的类型,从而可以对长文本质量进行详细分析。此外,设计一种数据混合配方,可以策略性地平衡LongWan
………………………………