专栏名称: 我爱计算机视觉
关注计算机视觉与机器学习技术的最前沿,“有价值有深度”,分享开源技术与最新论文解读,传播CVML技术的业内最佳实践。www.52cv.net 微博:计算机视觉与机器学习,QQ群:928997753,52CV君个人账号:Your-Word。
今天看啥  ›  专栏  ›  我爱计算机视觉

智源和港中文联合提出首个多功能3D医学多模态大模型(文本、定位和分割任务)

我爱计算机视觉  · 公众号  ·  · 2024-06-18 13:42
    

文章预览

关注公众号,发现CV技术之美 智源和香港中文大学联合提出的 M3D 系列工作,包括 M3D-Data, M3D-LaMed, 和 M3D-Bench, 从数据集、模型和测评全方面推动 3D 医学图像分析的发展。 M3D-Data 是目前最大的 3D 医学图像数据集,包括 M3D-Cap (120K 3D 图文对), M3D-VQA (510K 问答对),M3D-Seg(150K 3D Mask),M3D-RefSeg (3K 推理分割)共四个子数据集。 M3D-LaMed 是目前最多功能的 3D 医学多模态大模型,能够解决文本(疾病诊断、图像检索、视觉问答、报告生成等),定位(目标检测、视觉定位等)和分割(语义分割、指代分割、推理分割等)三类医学分析任务。 M3D-Bench 能够全面和自动评估 8 种任务,涵盖文本、定位和分割三个方面,并提供人工校验后的测试数据。 我们最早于 2024年4月 发布了数据集、模型和代码。近期,我们提供了 更小 和 更强 的 M3D-LaMed-Phi-3-4B 模型,并增加了 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览