前言: 平淡无奇的一天又来了,今天要分享的内容主要是关于大模型、模型结构改进、预训练的,喜欢的小伙伴赶紧去阅读相关论文吧。 1. 大规模数据选择再思考:随机选择几乎是你所需要的全部 标题: Rethinking Data Selection at Scale: Random Selection is Almost All You Need 机构: 吉林大学、阿里巴巴集团 关键词: 大规模数据、监督微调、数据选择、令牌长度过滤 作者: Tingyu Xia, Bowen Yu, Kai Dang 分析: 本文主要研究大规模数据下监督微调(SFT)中的数据选择问题。针对大型语言模型(LLMs),文章发现随机选择数据是一种有效的策略,并且在处理大规模数据时,大多数现有的数据选择方法都难以显著优于随机选择。文章强调在SFT中,数据选择的多样性比单纯追求高质量更为重要。此外,通过令牌长度过滤数据是一种稳定且有效的方法,尤其
………………………………