专栏名称: AI for Research
每天分享最新最热的Arxiv论文、一起来关注大模型、AIGC、AGI
目录
相关文章推荐
今天看啥  ›  专栏  ›  AI for Research

基于真实数据来生成合成数据与筛选的方法研究 | 稳定语言模型预训练方法 | 更快的Speech-LLaMA推理:基于多令牌预测

AI for Research  · 公众号  ·  · 2024-09-13 20:26

文章预览

前言: 平淡无奇的一天又来了,今天要分享的内容主要是关于大模型、扩散模型、模型结构改进的,喜欢的小伙伴赶紧去阅读相关论文吧。 1. 基于真实数据源合成数据生成与筛选的方法研究   标题: Source2Synth: Synthetic Data Generation and Curation Grounded in Real Data Sources   机构: 伦敦大学   相关领域: 数据集构建   作者: Alisia Lupidi,  Carlos Gemmell,  Nicola Cancedda   分析: 这篇论文提出了一种名为Source2Synth的新方法,用于教授大型语言模型新技能,而无需依赖昂贵的人工注释。该方法以自定义数据源为输入,生成基于真实世界数据源带有中间推理步骤的合成数据点。通过丢弃低质量的生成数据来提高数据集质量。论文在两个方面验证了该方法的通用性:在跨跳问题回答中测试推理能力,以及在表格问题回答中测试工具使用能力。相较于微调基线,该 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览