文章预览
🏆 基座模型 ①项 目:Pyramidal Flow Matching ★ 北大 联手快手开源了 Pyramid Fl ow Matching,一种 基于流匹配的训练高效的自回归视频生成方法。 该项目仅在开源数据集上进行训练,能够生成高质量的10秒视频,分辨率为768p,帧率为24 FPS,并自然支持从图像到视频的生成。 ☆一键收藏: https://sota.jiqizhixin.com/project/pyramidal-flow-matching ② 项目:Aria ★ Aria是一个多模态本地混合专家模型,能够在多种多模态、语言和编码任务中表现出色,尤其在视频和文档理解方面具有优势。 它支持长达64K个token的多模态输入,并能在10秒内为256帧视频生成字幕。Aria的设计轻量且快速,能够高效编码不同大小和纵横比的视觉输入。 ☆一键收藏: https://sota.jiqizhixin.com/project/aria 🛠️框架平台、必备工具 ①项目:AWT ★ AWT是一个创新框架,旨在将预训练的视觉语言模型(VLMs)
………………………………