专栏名称: AI for Research
每天分享最新最热的Arxiv论文、一起来关注大模型、AIGC、AGI
今天看啥  ›  专栏  ›  AI for Research

5%的数据超越全量预训练的高效样本选择方法!Aquila2 技术报告发布!大模型长时知识编辑失效的深层次原因研究...

AI for Research  · 公众号  ·  · 2024-08-15 20:52

文章预览

前言: 平淡无奇的一天又来了,今天要分享的内容主要是关于大模型、模型结构改进、扩散模型的,喜欢的小伙伴赶紧去阅读相关论文吧。 1. 最大化V信息以高效学习预训练基础模型   标题: Maximizing V-information for Pre-training Superior Foundation Models   机构: 复旦大学   相关领域: 模型预训练,V信息,数据有效学习   作者: Wenxuan Yang,  Weimin Tan,  Hanyu Zhang   分析: 该研究质疑预训练数据量增加是否总是提升模型性能。为解决这一问题,提出了通过最大化V信息优化样本选择的方法——OptiDEL。OptiDEL能用较少数据生成挑战性样本,使其在少量预训数据下性能甚至超越全数据训练的模型。实验对比显示,OptiDEL在不同数据集上优于现有方法,特别在5%预训数据情况下,基础模型表现超出了全数据训练模型。   地址: https://arxiv.org/pdf/2408.07107 2. Aquila2 技 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览