文章预览
1.Code-Based English Models Surprising Performance on Chinese QA Pair Extraction Task 时间:2024年1月 1.1.TL;DR 在“基于中文文档生成QA”的生成任务上,使用多个规模相同/相近的LLM进行实验。结果发现,代码模型效果比通用模型更好,并且英文模型表现出了优异性能。 1.2.任务 & 数据 1、任务 基于中文的文档,给出中文QA数据。下面是一个样例: 2、数据 (1)训练数据 从wiki和新闻文章中获取的 143,846 个文档,每个文档有相应的问答对。 这些数据来自开放的人工标注数据集。 (2)评测数据 测试集由 300 个internet technology相关的private文档组成。来自于实际业务中收集的hard case。 训练数据和评测数据的domain很不同,这就要求模型有比较强的泛化能力。 1.3.指标 & 实验 1、指标 文中使用了5个细粒度的指标: Coverage Analysis:使用 ROUGE - L 来评估summary在多大程度上涵盖了源
………………………………