今天看啥  ›  专栏  ›  蒋涛CSDN

全球互联网公开数据集Common Crawl,每月采集30亿到5-20240728120754

蒋涛CSDN  · 微博  · 科技自媒体  · 2024-07-28 12:07

文章预览

2024-07-28 12:07 本条微博链接 全球互联网公开数据集Common Crawl,每月采集30亿到50亿全球网站数据,其中中文网页比例4%,英文网页 45%。基于Common Crawl网页的全球公开图文对数据集LAION-5B,23.2亿是英文图文对,其他语言22.6亿里面中文图文占6.3% ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览