专栏名称: 阿里研究院
阿里研究院依托阿里巴巴集团海量数据、深耕小企业前沿案例、集结全球商业智慧,以开放、合作、共建、共享的方式打造具影响力的新商业知识平台。 阿里研究,洞察数据,共创新知! 官方网站http://www.aliresearch.com/
今天看啥  ›  专栏  ›  阿里研究院

治理之智 | 合成数据:模型能力跃迁的必经之路

阿里研究院  · 公众号  · 电商  · 2024-07-24 14:03

文章预览

导 语 在今年3月,我们推出了“合成数据”系列文章,系统性分析了合成数据的起源,以及在大模型训练和应用中的作用,并基于其价值和风险,讨论可及性和安全性,给出数据治理的相关建议。近期,合成数据出现的频率越来越高,比如阿里巴巴的Qwen2、NV的Nemotron-4以及通用具身智能体研究小组GEAR、OpenAI的CriticGPT等均在技术报告中所有提及,凸显了其在模型训练中愈加重要的作用。本文从模型能力视角出发,梳理了合成数据有哪些新趋势和新动态,如何有针对性地提升模型能力,同时针对人们对合成数据可能导致模型“失控”的隐忧,提出了提升技术透明度的解决方案。 一、合成数据进一步扩展数据来源、提高数据质量,更有针对性地提升模型性能 高质量数据的类型是由人类对模型能力需求决定的,而能力需求又是根据需要模型所完成的任务 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览