文章预览
我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢 迎 大 家 一 起 交 流 ! 论文 0 1 如果我们用LLaMA-3重新添加数十亿张网络图片的描述会怎样? 摘要:网络爬取的图像文本对存在固有的噪音。先前的研究表明,语义对齐和丰富这些对的文本描述可以显著增强各种视觉语言任务的模型训练,特别是文本到图像生成。然而,这一领域的大规模调查仍然主要是闭源的。我们的论文旨在搭建这一社区努力,利用强大且开源的 LLaMA-3,一种GPT-4级LLM。我们的重新标题流程很简单:首先,我们微调一个由LLaMA-3-8B驱动的LLaVA-1.5,然后利用它重新标题DataComp-1B数据集中的13亿个图像。我们的实证结果证实,这种增强的数据集Recap-DataComp-1B在训练先进
………………………………