今天看啥  ›  专栏  ›  机器之心SOTA模型

今日开源(2024-09-20):阿里国际发布Ovis1.6:创新多模态大语言模型,推动视觉与文本的深度融合

机器之心SOTA模型  · 公众号  ·  · 2024-09-20 18:05

文章预览

🏆 基座模型 ①项目:阿里国际Ovis1.6 ★ Ovis (Open VISion) 是一种新颖的多模态大语言模型 (MLLM) 架构,旨在结构性地对齐视觉和文本嵌入。 该项目通过高分辨率图像处理和优化的训练数据,提升了模型的性能。 Ovis1.6引入了视觉Tokenizer、视觉嵌入表以及大语言模型相结合的架构 ,通过可学习的视觉嵌入表,将连续的视觉特征转化为结构化的视觉token,这些视觉token会和文本token一起被处理,完成多模态任务。 ☆一键收藏: https://sota.jiqizhixin.com/project/ovis1-6 ②项目:CogVideoX-5B-I2V ★ 智谱开源了 CogVideoX 系列图生视频模型 CogVideoX-5B-I2V ,及其背后的标注模型 cogvlm2-llama3-caption。 团队 自研了一个高效的三维变分自编码器结构(3D VAE),将原视频空间压缩至2%大小 ,大大减少了视频扩散生成模型的训练成本及训练难度。训练损失函数结合了L2损失、LPIPS感知损 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览