文章预览
🏆 基座模型 ①项目:阿里国际Ovis1.6 ★ Ovis (Open VISion) 是一种新颖的多模态大语言模型 (MLLM) 架构,旨在结构性地对齐视觉和文本嵌入。 该项目通过高分辨率图像处理和优化的训练数据,提升了模型的性能。 Ovis1.6引入了视觉Tokenizer、视觉嵌入表以及大语言模型相结合的架构 ,通过可学习的视觉嵌入表,将连续的视觉特征转化为结构化的视觉token,这些视觉token会和文本token一起被处理,完成多模态任务。 ☆一键收藏: https://sota.jiqizhixin.com/project/ovis1-6 ②项目:CogVideoX-5B-I2V ★ 智谱开源了 CogVideoX 系列图生视频模型 CogVideoX-5B-I2V ,及其背后的标注模型 cogvlm2-llama3-caption。 团队 自研了一个高效的三维变分自编码器结构(3D VAE),将原视频空间压缩至2%大小 ,大大减少了视频扩散生成模型的训练成本及训练难度。训练损失函数结合了L2损失、LPIPS感知损
………………………………