今日开源（2024-09-20）：阿里国际发布Ovis1.6：创新多模态大语言模型，推动视觉与文本的深度融合

机器之心SOTA模型 · 公众号 · · 2024-09-20 18:05

文章预览

🏆 基座模型 ①项目：阿里国际Ovis1.6 ★ Ovis (Open VISion) 是一种新颖的多模态大语言模型 (MLLM) 架构，旨在结构性地对齐视觉和文本嵌入。该项目通过高分辨率图像处理和优化的训练数据，提升了模型的性能。 Ovis1.6引入了视觉Tokenizer、视觉嵌入表以及大语言模型相结合的架构，通过可学习的视觉嵌入表，将连续的视觉特征转化为结构化的视觉token，这些视觉token会和文本token一起被处理，完成多模态任务。 ☆一键收藏： https://sota.jiqizhixin.com/project/ovis1-6 ②项目：CogVideoX-5B-I2V ★ 智谱开源了 CogVideoX 系列图生视频模型 CogVideoX-5B-I2V ，及其背后的标注模型 cogvlm2-llama3-caption。团队自研了一个高效的三维变分自编码器结构（3D VAE），将原视频空间压缩至2%大小，大大减少了视频扩散生成模型的训练成本及训练难度。训练损失函数结合了L2损失、LPIPS感知损 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博