专栏名称: 黄建同学
数码博主 超话主持人(ChatGPT超话) 头条文章作者 我的学习笔记,关注AI+新能源
目录
相关文章推荐
黄建同学  ·  当Gemini 2.0 ... ·  昨天  
机器之心  ·  揭秘DeepSeek ... ·  2 天前  
CloudMan  ·  网文校对系统 - 新方案 ·  3 天前  
今天看啥  ›  专栏  ›  黄建同学

这个开源的 R1-V 厉害了!2B模型仅用 100 个训练步就超-20250207073409

黄建同学  · 微博  · AI  · 2025-02-07 07:34
    

文章预览

2025-02-07 07:34 本条微博链接 这个开源的 R1-V 厉害了!2B模型仅用 100 个训练步就超越了 72B,成本不到 3 美元。 项目使用具有可验证奖励的 RL 来激励 VLM 学习一般计数能力。 —— R1-V:以不到 3 美元的成本增强视觉语言模型的超泛化能力 1. 我们首先揭示,对于视觉语言模型,可验证奖励的强化学习 (RLVR)在有效性和分布外 (OOD)稳健性方面均优于思路链监督微调 (CoT-SFT) 。 2. 在我们的实验中,我们激励VLM 学习可泛化的视觉计 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览