专栏名称: 夕小瑶科技说
这里有自然语言处理、机器学习、算法的入门指导、科普与深度干货,有小夕的回忆与日常,还有最重要的:萌!气!
今天看啥  ›  专栏  ›  夕小瑶科技说

视觉 LLM 开源的疯狂月!阿里 Qwen、腾讯混元、谷歌等连续开源重磅模型

夕小瑶科技说  · 公众号  ·  · 2024-12-19 16:30
    

文章预览

2024 年 12 月真的太疯狂了,首先是闭源的视觉模型接连重磅发布—— 前有《 智谱 GLM-4V-Flash API 发布即免费 》、《 Gemini2.0 实时全模态炸场 》、《 GPT-4o 视频通话对波 Gemini 》、《 无问芯穹全模态端侧模型开源 》,《 Kimi 上线了视觉思考,并和海螺、豆包打了一架 》... 然后,笔者发现不仅闭源模型大爆发,就连开源的视觉 LLM 这个月也是扎堆爆发了。 根据笔者统计,12 月份,已经有来自阿里、腾讯混元、谷歌、Meta 等大厂的 5 个重磅视觉模型开源发布了: “大模型能够通过图像识别乐谱和人类情绪了”。 “利用模型,直接可以生成高清视频,而且是还会带配音的!”。 “模型能够处理与理解的视频达到 20 分钟以上了”。 “可以采用参考图像,更精确地控制图生成用户想要的图像和视频了”。 划重点,它们都对你开源了!这是不是"泼天富贵"齐 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览