今天看啥  ›  专栏  ›  AI for Research

大规模数据选择再思考:随机选择几乎是你所需要的全部 | CoMAT:链条数学注释思维改进数学推理...

AI for Research  · 公众号  ·  · 2024-10-15 20:01

文章预览

前言: 平淡无奇的一天又来了,今天要分享的内容主要是关于大模型、模型结构改进、预训练的,喜欢的小伙伴赶紧去阅读相关论文吧。 1. 大规模数据选择再思考:随机选择几乎是你所需要的全部   标题: Rethinking Data Selection at Scale: Random Selection is Almost All You Need   机构: 吉林大学、阿里巴巴集团   关键词: 大规模数据、监督微调、数据选择、令牌长度过滤   作者: Tingyu Xia,  Bowen Yu,  Kai Dang   分析: 本文主要研究大规模数据下监督微调(SFT)中的数据选择问题。针对大型语言模型(LLMs),文章发现随机选择数据是一种有效的策略,并且在处理大规模数据时,大多数现有的数据选择方法都难以显著优于随机选择。文章强调在SFT中,数据选择的多样性比单纯追求高质量更为重要。此外,通过令牌长度过滤数据是一种稳定且有效的方法,尤其 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览