专栏名称: 我爱计算机视觉

关注计算机视觉与机器学习技术的最前沿，“有价值有深度”，分享开源技术与最新论文解读，传播CVML技术的业内最佳实践。www.52cv.net 微博:计算机视觉与机器学习，QQ群:928997753，52CV君个人账号：Your-Word。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

智源和港中文联合提出首个多功能3D医学多模态大模型（文本、定位和分割任务）

我爱计算机视觉 · 公众号 · · 2024-06-18 13:42

文章预览

关注公众号，发现CV技术之美智源和香港中文大学联合提出的 M3D 系列工作，包括 M3D-Data, M3D-LaMed, 和 M3D-Bench, 从数据集、模型和测评全方面推动 3D 医学图像分析的发展。 M3D-Data 是目前最大的 3D 医学图像数据集，包括 M3D-Cap (120K 3D 图文对), M3D-VQA (510K 问答对)，M3D-Seg（150K 3D Mask），M3D-RefSeg (3K 推理分割)共四个子数据集。 M3D-LaMed 是目前最多功能的 3D 医学多模态大模型，能够解决文本（疾病诊断、图像检索、视觉问答、报告生成等），定位（目标检测、视觉定位等）和分割（语义分割、指代分割、推理分割等）三类医学分析任务。 M3D-Bench 能够全面和自动评估 8 种任务，涵盖文本、定位和分割三个方面，并提供人工校验后的测试数据。我们最早于 2024年4月发布了数据集、模型和代码。近期，我们提供了更小和更强的 M3D-LaMed-Phi-3-4B 模型，并增加了 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博