专栏名称: AINLP
关注AI、NLP相关技术,关注算法研发职位和课程;回复"文章"获取历史信息;双语聊天机器人"无名";中英翻译请输入:翻译 翻译内容;自动对联,请输入:上联 上联内容;调戏夸夸聊天机器人,请求夸、求赞;查询相似词,请输入: 相似词 词条
今天看啥  ›  专栏  ›  AINLP

LLM预训练数据策略(一)

AINLP  · 公众号  ·  · 2024-09-07 21:53

文章预览

1.Code-Based English Models Surprising Performance on Chinese QA Pair Extraction Task 时间:2024年1月 1.1.TL;DR 在“基于中文文档生成QA”的生成任务上,使用多个规模相同/相近的LLM进行实验。结果发现,代码模型效果比通用模型更好,并且英文模型表现出了优异性能。 1.2.任务 & 数据 1、任务 基于中文的文档,给出中文QA数据。下面是一个样例: 2、数据 (1)训练数据 从wiki和新闻文章中获取的 143,846 个文档,每个文档有相应的问答对。 这些数据来自开放的人工标注数据集。 (2)评测数据 测试集由 300 个internet technology相关的private文档组成。来自于实际业务中收集的hard case。 训练数据和评测数据的domain很不同,这就要求模型有比较强的泛化能力。 1.3.指标 & 实验 1、指标 文中使用了5个细粒度的指标: Coverage Analysis:使用 ROUGE - L 来评估summary在多大程度上涵盖了源 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览