今天看啥  ›  专栏  ›  NLP工作站

QVQ-72B,如期而至!继QWQ后,通义千问又开源视觉推理大模型!

NLP工作站  · 公众号  · 科技自媒体  · 2024-12-25 08:00
    

主要观点总结

本文介绍了千问团队新开源的视觉推理大模型QVQ,基于Qwen2-VL-72B模型进一步训练得来。文章提到了QVQ的参数量对模型性能的影响,以及在MMMU榜单上的表现。同时,文章也指出了QVQ存在的一些问题,包括语言混乱、循环推理、安全性问题等。最后,文章给出了使用QVQ的代码示例,包括模型的加载、处理以及推理过程。

关键观点总结

关键观点1: 千问团队开源了新的视觉推理大模型QVQ。

QVQ是基于Qwen2-VL-72B模型进一步训练得来的,参数量对模型性能有重要影响。

关键观点2: QVQ在MMMU榜单上的表现良好。

相较于Qwen2-VL-72B模型,QVQ在某些方面取得了更好的效果。

关键观点3: QVQ存在一些问题。

最明显的问题是中英文夹杂的语言混乱现象,还有模型容易陷入循环推理和安全性问题等。

关键观点4: 给出了使用QVQ的代码示例。

通过示例代码展示了如何加载模型、处理输入以及进行推理。

关键观点5: 呼吁读者关注公众号并支持。

鼓励读者点赞、在看、关注公众号「NLP工作站」,并加入交流群。


文章预览

大家好,我是刘聪NLP。 没错,是的,对的,很棒,千问! QWQ之后,千问团队又开源了视觉推理大模型QVQ,是72B的呦。 圣诞快乐,如期而至! HF: https://huggingface.co/Qwen/QVQ-72B-Preview 为啥是72B,可想而知,这个QVQ就是基于前一段时间开源的Qwen2-VL-72B模型上 进一步训练得来的 。 有个7B的为啥没出QVQ-7B,估计是参数来太少,做o1式推理效果不行,QWQ也是32B起步的,所以 模型参数量很关键 。 在榜单上的效果,QVQ在MMMU是突破了70,并且整体效果相较于Qwen2-VL-72B还是好了很多,同时也是对标了闭源模型,QVQ依旧能打。 但QVQ-72B依然存在一些问题: 可能存在语言混乱的现象,最明显的就是中英文夹杂 模型容易陷入循环推理,导致回复结果冗长,甚至可能无法返回最终答案 安全性可能有些问题,估计这个版本在安全上应该没来及的做太多,甚至是没做 QVQ不能完 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览