文章预览
Meta此次发布的Llama 3.2一个新特性是视觉模型,包括 11B和90B,作为 首批支持视觉任务的Llama模型, 但是allenai开源的多模态 Molmo-72B ,在视觉评测上全面击败 Llama 3.2 90B 。 两个新发布的开源LLM之间的基准测试比较:Molmo与Llama 3.2可以看出, Molmo在各个方面都相当出色! allenai的 Molmo发布详情 : Molmo ,采用 Apache 2.0 许可,并将发布他们的数据,创建了自定义的 ELO 评估,并且其架构比 Llama 3.2 更简单,可能与 Flash Attention 兼容。 有 4 个变体 Molmo 72B 基于 Qwen2-72B,并使用 OpenAI CLIP 作为视觉骨干 Molmo 7B 使用 Qwen2 7B 和 Olmo 7B 作为 LLM 骨干 Molmo 72B 模型在基准测试中胜过 Llama 3.2 90B、Pixtral 12B 和 Qwen 2 72B VL Molmo 72B 与 OpenAI 的 GPT-4o、GoogleDeepMind 的 Gemini 1.5 Pro 和 Anthropic的 Claude Sonnet 3.5 相匹配 Molmo 理解用户界面并且能够指向它所看到的内容 使用基于语音的图像描
………………………………