专栏名称: 商汤学术
言之有AI,学之有物, 商汤学术伴你探索AI前沿!
今天看啥  ›  专栏  ›  商汤学术

880万篇主流新闻报道,国产大模型开源数据重磅上线!OpenNewsArchive来啦

商汤学术  · 公众号  ·  · 2024-05-15 17:22
    

文章预览

在构建国产大语言模型的道路上, 高质量新闻是不可或缺的重要语料之一。 这类语料集 准确性 、 逻辑性 、 时效性 于一体,同时包含 丰富的事实知识 , 可以大幅提升模型的 文本生成质量 、 词汇表达能力 、 事件理解分析能力 以及 时序内容的适应性和预测能力 ,使其在现实世界的应用中更加准确和可靠。 近日 ,为了更好地满足大模型研发的数据需求,大模型语料数据联盟开源了大规模、高质量新闻数据集—— 开放新闻库数据集(OpenNewsArchive) ,提供了多个主 流 媒体来源、多种主题 类型、共计 88 0万篇新闻文章 信息 ,为研究人员和数据科学家提供了丰富的文本数据资源 。 本文来源:OpenDataLab公众号 开放新闻库介绍 (OpenNewsArchive) 开放新闻库(OpenNewsArchive) 数据集 是由OpenDataLab联合蜜度、商汤等多家联盟机构进行开源开发,其中包含 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览