2024-12-10 06:03
本条微博链接
[LG] BigDocs: An Open and Permissively-Licensed Dataset for Training Multimodal Models on Document and Code Tasks 网页链接 BigDocs-7.5M是一个大型开放且许可证宽松的多模态数据集,结合其新的基准测试套件BigDocs-Bench,显著提升了多模态模型在文档理解和代码生成任务上的性能,挑战了数据纯度至上的传统认知。
………………………………