一个有情怀的公众号。机器学习、自然语言处理、算法等知识集中营、期待与你相遇~
今天看啥  ›  专栏  ›  机器学习算法与自然语言处理

一万亿token!34亿张图像,扩大10倍!史上最大开源多模态数据集MINT-1T发布!

机器学习算法与自然语言处理  · 公众号  ·  · 2024-08-02 00:00

文章预览

MLNLP 社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。 社区的愿景 是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。 转载自 | 夕小瑶科技说 作者 | 谷雨龙泽   众所周知,现在训练AI最需要的是什么? 数据,数据,还是数据。——毕竟只有让AI学好了,AI才能好好地回答你的问题,否则就会答非所问。 但是喂给AI的数据,现在和GPU一样,成了紧缺资源。前不久有人试图用AI自己造的数据来喂AI,结果发现这样的话AI越学越笨,最后连他亲妈来了都不忍直视的那种。 不过,最近来了个天大的好消息——MINT-1T来了! MINT-1T是一个包含一万亿token的多模态预训练数据集,它是史上最大的同类数据集,并且比以前的开源数据集更加多 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览