专栏名称: 新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
今天看啥  ›  专栏  ›  新智元

苹果多模态模型大升级!文本密集、多图理解,全能小钢炮

新智元  · 公众号  · AI  · 2024-10-13 12:23

文章预览

   新智元报道   编辑:alan 【新智元导读】 近日,一向画风精致的「苹果牌AI」,也推出了升级版的多模态大模型,从1B到30B参数,涵盖密集和专家混合模型,密集文本、多图理解,多项能力大提升。 多模态大语言模型(MLLM)如今已是大势所趋。 过去的一年中,闭源阵营的GPT-4o、GPT-4V、Gemini-1.5和Claude-3.5等模型引领了时代。 而开源MLLM也同样在蓬勃发展,LLaVA系列,InternVL2,Cambrian-1和Qwen2-VL的强劲表现,让作为老大哥的GPT-4o时常躺枪。 开源与闭源之间差距缩小,兼具单图、多图、视频理解能力的MLLM也成为大家研究的重点。 说到潮流,怎么能没有苹果的一席之地? 近日,一向画风精致的「苹果牌AI」,也推出了升级版的多模态大模型——MM1.5。 论文地址:https://arxiv.org/pdf/2409.20566 MM1.5以前代MM1模型为基础,采用数据为中心的方法进行训练,显著增 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览