在线教程 | 打败 GPT-4V？超强开源多模态大模型 LLaVA-OneVision 正式上线！

HyperAI超神经 · 公众号 · · 2024-10-16 11:02

文章预览

HyperAI超神经教程版块现已上线「LLaVA-OneVision 多模态全能视觉模型 Demo」，快来体验吧！大语言模型（Large Language Model，简称 LLM）与多模态大模型（Large Multimodal Model，简称 LMM）是人工智能领域的两个核心发展方向。 LLM 主要致力于处理和生成文本数据，而 LMM 则更进一步，它旨在整合和理解包括文本、图片、视频在内的多种数据类型。如今，LLM 已经相对成熟，ChatGPT 等在文字理解方面已经「对答如流」，人们开始将目光转移到多模态数据的理解上，令模型能够「读图、看视频」。近期，来自字节跳动、南洋理工大学、香港中文大学和香港科技大学的研究人员共同开源了 LLaVA-OneVision 多模态大模型，该模型在单图像、多图像和视频任务中均展现出了卓越的性能。专为多模态大型模型设计的评估框架 LMMs-Eval 中显示，LLaVA-OneVision-72B 在大多数基准上优 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

运维 · 再见 FTP/SFTP，是时候拥抱下一代文件传输利器 Croc 了！

3 天前

中国舞台美术学会 · 姚学松：纸剧场中的木偶戏——论尤里·布图索夫对契诃夫戏剧的再创作

4 天前

中国舞台美术学会 · 通知丨山西省：2025年度优秀剧本扶持申报启动，包括戏曲、话剧、儿童剧等类型

4 天前

文明宁夏 · 赏年画过大年 | 新年向幸福启航

4 天前

文明宁夏 · 赏年画过大年 | 新年向幸福启航

4 天前

金华晚报 · 郑钦文，捐款100万元！

1 月前

JZ身边事儿 · 锦州市人民政府关于张劲松、秦奇任职的通知

2 天前