今天看啥  ›  专栏  ›  36氪Pro

破解AI「胡说八道」,这家公司要给大模型投喂好原料|产品观察

36氪Pro  · 公众号  ·  · 2024-07-29 15:59
    

文章预览

已在多家头部大模型厂商的预训练流程中使用。 文 | 黄楠 编辑 | 袁斯来 封面来源 | 企业官网 大模型今天所展示出的强大能力,源于背后海量数据,为其注入了丰富的人类知识。如果将大模型视为正在疾驰的科技列车,数据语料便是珍贵的“燃料”。其中,语料质量的提升对模型性能取得阶段性突破至关重要。 然而一个现实情况是,高质量语料正在被急速消耗。国内大模型厂商所面临的语料短缺问题十分严峻。 以中文语料为例。中国工程院院士高文指出,当前全球通用的50亿大模型数据训练集中,中文语料占比仅为1.3%,其数量和质量上同英文等其他语言相比存在明显不足。“沉睡”在报告、论文、报纸等文档内的大批高价值语料数据,由于其复杂的版面结构,制约了大模型的训练语料处理能力,无法被轻易解析并提取。 解决中文数据不足和 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览