专栏名称: 老刘说NLP
老刘,NLP开源爱好者与践行者。主页:https://liuhuanyong.github.io。老刘说NLP,将定期发布语言资源、工程实践、技术总结等内容,欢迎关注。
今天看啥  ›  专栏  ›  老刘说NLP

大模型微调数据随意选择会更有效?兼看渐进式检索FunnelRAG实现思路

老刘说NLP  · 公众号  ·  · 2024-10-16 09:03

文章预览

今天是2024年10月16日,星期三,北京,天气阴。 我们来看两个工作,关于大模型数据工程,在大规模数据集上进行监督微调(SFT)时数据选择的方法,发现随机选择几乎总是优于现有的数据选择技术。 一个是关于RAG进展, FunnelRAG:从粗糙到精细的渐进检索范式,会有一些收获。 供大家一起参考并思考。 一、大规模数据下监督微调(SFT)中的数据选择问题 最近的工作《Rethinking Data Selection at Scale: Random Selection is Almost All You Need》(https://arxiv.org/pdf/2410.09335,https://github.com/xiatingyu/SFT-DataSelection-at-scale)这个工作很有趣,探讨了在大规模数据集上进行监督微调(SFT)时,数据选择策略的有效性研究大规模数据下监督微调(SFT)中的数据选择问题。 针对大模型(LLMs),发现随机选择数据是一种有效的策略,并且在处理大规模数据时,大多数现有的数据选择 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览