文章预览
2024-09-27 07:53
本条微博链接
Molmo 是一种新颖的多模态模型,但人们忽略了数据部分!数据管道和部分是一块巨大的宝石💎 第 1 阶段 - 创建包含 712k 张图片 / 1.3M 条字幕的密集字幕数据集 没有使用 VLM 生成数据 1. 从 50 个高级主题(模因、模糊照片、网站等)获取图像 2. 三位注释者必须描述图像。我发现有趣的是 - 口头表达,而非书面表达 - 时间限制为 60-90 秒 - 将语音转录(使用转录系统)并使用 LLM 进行后期处理(例如
………………………………