专栏名称: AINLP

关注AI、NLP相关技术，关注算法研发职位和课程；回复"文章"获取历史信息；双语聊天机器人"无名"；中英翻译请输入：翻译翻译内容；自动对联，请输入：上联上联内容；调戏夸夸聊天机器人，请求夸、求赞；查询相似词，请输入: 相似词词条

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

LLM预训练数据策略(一)

AINLP · 公众号 · · 2024-09-07 21:53

文章预览

1.Code-Based English Models Surprising Performance on Chinese QA Pair Extraction Task 时间：2024年1月 1.1.TL;DR 在“基于中文文档生成QA”的生成任务上，使用多个规模相同/相近的LLM进行实验。结果发现，代码模型效果比通用模型更好，并且英文模型表现出了优异性能。 1.2.任务 & 数据 1、任务基于中文的文档，给出中文QA数据。下面是一个样例： 2、数据（1）训练数据从wiki和新闻文章中获取的 143,846 个文档，每个文档有相应的问答对。这些数据来自开放的人工标注数据集。（2）评测数据测试集由 300 个internet technology相关的private文档组成。来自于实际业务中收集的hard case。训练数据和评测数据的domain很不同，这就要求模型有比较强的泛化能力。 1.3.指标 & 实验 1、指标文中使用了5个细粒度的指标： Coverage Analysis：使用 ROUGE - L 来评估summary在多大程度上涵盖了源 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

高分子科学前沿 · 中科院长春光机所杨建军团队AM：不用有机涂层，也可实现金属表面稳定超疏水！

2 天前

高分子科技 · 赛诺普中国总部开业典礼 →开启技术创新新篇章

3 天前

高分子科学前沿 · 水凝胶，最新Nature Materials！

3 天前

高分子科学前沿 · 深圳大学张齐艳/宾夕法尼亚州立大学章启明《自然·通讯》：高温薄膜电容

6 天前

慧田哲学 · 易中天：流氓的五大特征

3 月前

中化二建 · 图说丨中国化学“135”发展战略，了解一下！

2 月前