专栏名称: DeepTech深科技
“DeepTech深科技”是与麻省理工科技评论官方独家合作的一个新科技内容品牌。我们专注于关注三个方面:1、基于科学的发现;2、真正的科技创新;3、深科技应用的创新。
今天看啥  ›  专栏  ›  DeepTech深科技

开源多模态大模型黑马Molmo Al来袭!部分能力超越GPT-4o和Claude 3.5

DeepTech深科技  · 公众号  · 科技媒体  · 2024-10-01 18:32
    

主要观点总结

非营利研究机构Ai2推出了名为“Molmo”的开源多模态语言模型,其性能可与OpenAI、Google和Anthropic的顶级专有模型相媲美。最大的Molmo模型拥有720亿个参数,具有显著的优势。其训练过程注重高质量数据,而非不加区别地抓取数据。模型还可以“指向”图像相关部分,分析图像元素。Ai2的运营更加开放,开源模型为开发人员提供了构建应用程序和改进模型的机会。投资者对人工智能投资的回报表示怀疑,但Ai2认为开源模型是有效利用资金和时间的方式构建人工智能的一种途径。

关键观点总结

关键观点1: Molmo模型的性能与顶级专有模型相当

非营利研究机构Ai2推出的开源多模态语言模型Molmo,据称在测量理解图像、图表和文档等内容的测试中,其性能优于OpenAI的GPT-4o。最大的Molmo模型拥有720亿个参数,其成就主要归功于更高效的数据收集和训练方法。

关键观点2: 开源模型的优势

Ai2首席执行官Ali Farhadi表示,Molmo证明了开源人工智能开发与封闭的专有模型不相上下,并且具有开放性,其他人可以在其上构建应用程序。开源模型的优势在于显著的性能和开放性带来的合作与创新机会。

关键观点3: Molmo模型的训练方法和数据

其他大型多模态语言模型是在包含从互联网上获取的数十亿图像和文本样本的庞大数据集上进行训练的。而Ai2的Molmo模型是在一个更小、更“精心策划”的数据集上进行训练的,包含高质量的图像和详细的注释。这种对高质量数据的关注使得用更少的资源实现了更好的性能。

关键观点4: 模型的“指向”能力

Molmo模型具有“指向”图像相关部分的能力,可以通过识别回答查询的像素来分析图像的元素。这一能力使得模型能够更深入地分析图像,并与用户进行更自然的交互。

关键观点5: 开源模型的未来

投资者对人工智能投资的回报存在疑虑,但Ai2认为开源模型是有效利用资金和时间的方式构建人工智能的一种途径。开源模型的开放性和合作性使得开发人员可以在其基础上构建应用程序并改进模型,从而推动人工智能的发展。


文章预览

(来源:MIT TR) 非营利研究机构艾伦人工智能研究所(简称 Ai2)正在推出名为“Molmo”的开源多模态语言模型,据称该模型的性能可与 OpenAI、Google 和 Anthropic 的顶级专有模型相媲美。  该组织声称,其最大的 Molmo 模型拥有 720 亿个参数,在测量理解图像、图表和文档等内容的测试中,其性能优于 OpenAI 的 GPT-4o(GPT-4o 拥有超过一万亿个参数)。   与此同时,Ai2 表示,一个较小的 Molmo 模型(拥有 70 亿个参数),其性能接近 OpenAI 最先进的模型,这一成就主要归功于更高效的数据收集和训练方法。  Ai2 首席执行官 Ali Farhadi 表示,Molmo 表明,开源人工智能开发与封闭的专有模型不相上下。开源模型具有显著的优势,因为它们的开放性意味着其他人可以在其上构建应用程序。Molmo 演示可点击链接查看(https://molmo.allenai.org/),开发人员也可以在 Hugging Fa ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览