一万亿token！34亿张图像，扩大10倍！史上最大开源多模态数据集MINT-1T发布！

机器学习算法与自然语言处理 · 公众号 · · 2024-08-02 00:00

文章预览

MLNLP 社区是国内外知名的机器学习与自然语言处理社区，受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。社区的愿景是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进步，特别是初学者同学们的进步。转载自 | 夕小瑶科技说作者 | 谷雨龙泽众所周知，现在训练AI最需要的是什么？数据，数据，还是数据。——毕竟只有让AI学好了，AI才能好好地回答你的问题，否则就会答非所问。但是喂给AI的数据，现在和GPU一样，成了紧缺资源。前不久有人试图用AI自己造的数据来喂AI，结果发现这样的话AI越学越笨，最后连他亲妈来了都不忍直视的那种。不过，最近来了个天大的好消息——MINT-1T来了！ MINT-1T是一个包含一万亿token的多模态预训练数据集，它是史上最大的同类数据集，并且比以前的开源数据集更加多 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

出彩写作 · 如何看待“笔杆子”的无力感？

昨天

墨香中华 · 小雪：有冬要来，有雪如诗

昨天

墨香中华 · “久病床前无孝子”的下一句，才更经典，只是少有人懂

3 天前

墨香中华 · 儿子因公殉职，2年后，母亲在商场看到熟悉的背影，拽住对方痛哭：儿子，是你吗？妈妈好想你！

4 天前

老刘说NLP · Meta CRAG KDD Cup 2024竞赛方案：一种 Hybrid RAG实现策略

3 月前

期乐会 · ▷技术控，来吧，一起探讨：如何正确理解期货技术分析的三大假设？（有声版）

2 月前