视觉 LLM 开源的疯狂月！阿里 Qwen、腾讯混元、谷歌等连续开源重磅模型

夕小瑶科技说 · 公众号 · · 2024-12-19 16:30

文章预览

2024 年 12 月真的太疯狂了，首先是闭源的视觉模型接连重磅发布—— 前有《智谱 GLM-4V-Flash API 发布即免费》、《 Gemini2.0 实时全模态炸场》、《 GPT-4o 视频通话对波 Gemini 》、《无问芯穹全模态端侧模型开源》，《 Kimi 上线了视觉思考，并和海螺、豆包打了一架》... 然后，笔者发现不仅闭源模型大爆发，就连开源的视觉 LLM 这个月也是扎堆爆发了。根据笔者统计，12 月份，已经有来自阿里、腾讯混元、谷歌、Meta 等大厂的 5 个重磅视觉模型开源发布了： “大模型能够通过图像识别乐谱和人类情绪了”。 “利用模型，直接可以生成高清视频，而且是还会带配音的！”。 “模型能够处理与理解的视频达到 20 分钟以上了”。 “可以采用参考图像，更精确地控制图生成用户想要的图像和视频了”。划重点，它们都对你开源了！这是不是"泼天富贵"齐 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

偶俚张家港 · 1242万！642万！喜中大奖

2 天前

河套融媒 · 暂停办理！

2 天前

河套融媒 · 暂停办理！

2 天前

内蒙古掌上12348 · 内蒙古自治区2024年度法律职业资格证书颁发工作顺利完成

3 天前

内蒙古掌上12348 · 内蒙古自治区2024年度法律职业资格证书颁发工作顺利完成

3 天前

江苏警方 · 一键get！江苏13市踏青祭扫出行攻略

4 天前

江苏警方 · 一键get！江苏13市踏青祭扫出行攻略

4 天前

量子位 · 港大字节提出多模态大模型新范式，模拟人类先感知后认知，精确定位图中物体

10 月前

晚点LatePost · 对话机器人专家王田苗：10% 的人设计机器，40% 的人服务机器，50% 的人享受爱好

6 月前

生物学霸 · 广州医科大学宁玉萍团队诚聘博士后与科研助理（神经生物学方向）

2 月前

兔保哥 · 今天一大早爬起来去医院排队抽血，为半个月后肠镜和胃镜的全麻检查做准备。人到四十，肠胃镜也该安排起来了呀…… 我爸2月底刚做了肠镜检查，不用麻药的那种，他过去总认为自己是老胃病，所以反复做过多次胃镜，属于那种不用麻醉就可以直接插管子的「勇士」。这回在我的强烈建议下，才做了肠镜。好嘛，直接发现三坨息肉，还好切下来都是良性，做做排查果然还是很有必要的。像我这

3 周前