文章预览
报告主题: 在合成数据上继续预训练|Scaling beyond real data constraint 报告日期: 10月16日(周三)10:30-11:30 报告要点: 在大规模的互联网文本上进行预训练的方式使得语言模型能够获取大量的知识。 然而这种知识获取方式的非常低效——为了学习一个特定的知识,模型必须在成百上千个关于该知识的表述上进行训练。 这使得预训练很难让模型学会文本量较小的领域,因为在关于这些领域的语料库中,每个知识可能只出现一次或极少次。 为了解决这个挑战,我们提出通过合成数据来继续预训练: 利用小规模的领域特定语料库合成一个更大的、更适合学习的语料库,然后在合成语料库上继续进行预训练。 我们通过EntiGraph(实体知识图谱)实现了这一方法,EntiGraph是一种合成数据的方法,它从源文档中提取显著实体,然后通过在采样实体之间建立联系来
………………………………