专栏名称: AIGC开放社区
专注AIGC(生成式人工智能)领域的专业社区,关注GPT-4、百度文心一言、华为盘古等大语言模型(LLM)的发展应用和落地,以及国内LLM的发展和市场研究,社区秉承共建、共享、开放的理念,提供对社区会员有价值的商业化思路和服务。
今天看啥  ›  专栏  ›  AIGC开放社区

谷歌发布大模型数据筛选方法:效率提升13倍,算力降低10倍

AIGC开放社区  · 公众号  ·  · 2024-08-08 07:52

文章预览

专注AIGC领域的专业社区,关注微软 、百度文心一言、讯飞星火等大语言模型(LLM)的发展和 应用 落地,聚焦LLM的市场研究和AIGC开发者生态,欢迎关注! 随着GPT-4o、Gemini等多模态大模型的出现,对训练数据的需求呈指数级上升。无论是自然语言文本理解、计算机视觉还是语音识别,使用精心标注的数据集能带来显著的性能提升,同时大幅减少所需的训练数据量。 但目前多数模型的数据处理流程严重依赖于人工筛选,不仅费时、费力并且成本非常高,难以应对大规模数据集的需求。 因此,谷歌Deepmind的研究人员提出了创新数据筛选方法JEST,通过联合选择数据批次来加速多模态大模型的学习效率。与目前最先进的算法相比,JEST可以将大模型的数据筛选效率提升13倍,算力需求降低10倍。 论文地址:https://arxiv.org/abs/2406.17711 JEST三种评分策略 传统的数 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览