文章预览
VLM-R1采用了与Deepseek R1相同的GRPO算法,提升了视觉能力。今天,我们来探讨一下这一算法如何加强视觉任务的表现。 什么是VLM-R1? GRPO(Group Relative Policy Optimization)帮助Deepseek R1提升了推理能力;VLM-R1团队发现,GRPO也能帮助视觉-语言模型(VLMs)在一般的计算机视觉任务中表现更强;而且它的泛化能力超过了传统的SFT(Supervised Fine-Tuning)方法。 目前VLM-R1的表现非常出色,Star增长趋势迅速。 试用链接 https://huggingface.co/spaces/omlab/VLM-R1-Referral-Expression 评估 团队使用Qwen 2.5 VL 3B模型,在RefCOCO(一个视觉定位任务)上进行训练,并在RefCOCO Val和RefGTA(一个OOD任务)上进行评估。 具体而言,在Referring Expression Comprehension(REC)任务中,使用R1和SFT方法训练了Qwen2.5-VL模型。结果表明,在领域内的测试数据上,SFT模型的表现略低于R1模型。 然而,在领域外测试
………………………………