今日开源（2025-01-22）：字节开源Sa2VA，首个在视频级别支持对话、指称分割及理解的统一模型，1B至26B四种参数

机器之心SOTA模型 · 公众号 · · 2025-01-22 18:03

文章预览

🏆基座模型 ①项目：Sa2VA ★ Sa2VA是首个用于图像和视频密集型理解的统一模型。与现有的多模态大语言模型不同，Sa2VA支持广泛的图像和视频任务，包括指代分割和对话，且仅需最小的一次性指令微调。 Sa2VA结合了基础视频分割模型SAM-2和先进的视觉语言模型LLaVA，将文本、图像和视频统一到一个共享的LLM token空间中。 ☆一键收藏： https://sota.jiqizhixin.com/project/sa2va ②项目：通古 ★ 通古大模型是由华南理工大学深度学习与视觉计算实验室开发的古籍大语言模型。该模型专注于古籍的理解和处理，采用了多阶段的指令微调，并创新性地引入了冗余度感知微调（RAT）方法。通古大模型在提升下游任务性能的同时，极大地保留了基座模型的能力。 ☆一键收藏： https://sota.jiqizhixin.com/project/tonggu ③项目：SARATR-X ★SARATR-X 是一个为合成孔径雷达（SAR）目标 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博