专栏名称: 天翼智库
天翼智库是中国电信研究院战略发展研究所承办的面向公众的智库研究信息发布平台,为您提供最新信息通信行业发展动态、政策观察、产业分析和战略洞察等。
今天看啥  ›  专栏  ›  天翼智库

人工智能的创新基石:合成数据

天翼智库  · 公众号  ·  · 2024-10-14 07:00
    

文章预览

近期,合成数据在大模型中应用的话题引起广泛关注。6月,英伟达发布新一代开源大模型Nemotron-4 340B,其指令模型训练是在98%合成数据基础上完成,此前英伟达还推出了合成数据生成工具Omniverse Replicator,能够生成物理模拟的合成数据,用于自动驾驶汽车和机器人的训练。7月,苹果也发布了其自研的人工智能系统Apple Intelligence,在预训练阶段也大量使用了合成数据。围绕合成数据的价值、应用、风险等,值得我们深入思考,基于此,本文从合成数据的概念入手,分析如何生成合成数据、其主要应用领域、使用合成数据的风险挑战,并探索未来发展前景。 合成数据概念及兴起缘由 合成数据并不是一个全新的概念,早在1993年,著名统计学家Donald Rubin在论文中提出合成数据的概念。近年来,随着ChatGPT的火爆和生成式人工智能技术的发展,合成数据概 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览