注册登录

专栏名称: 黄建同学

数码博主超话主持人（ChatGPT超话）头条文章作者我的学习笔记，关注AI+新能源

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

目录

相关文章推荐

硅星GenAI · 无需Attention的未来，RWKV-7能 ... · 9 小时前

硅星GenAI · 无需Attention的未来，RWKV-7能 ... · 9 小时前

黄建同学 · 当Gemini 2.0 ... · 昨天

爱可可-爱生活 · [LG]《A Multi-Power ... · 昨天

机器之心 · 揭秘DeepSeek ... · 2 天前

CloudMan · 网文校对系统 - 新方案 · 3 天前

今天看啥 › 专栏 › 黄建同学

这个开源的 R1-V 厉害了！2B模型仅用 100 个训练步就超-20250207073409

黄建同学 · 微博 · AI · 2025-02-07 07:34

文章预览

2025-02-07 07:34 本条微博链接这个开源的 R1-V 厉害了！2B模型仅用 100 个训练步就超越了 72B，成本不到 3 美元。项目使用具有可验证奖励的 RL 来激励 VLM 学习一般计数能力。 —— R1-V：以不到 3 美元的成本增强视觉语言模型的超泛化能力 1. 我们首先揭示，对于视觉语言模型，可验证奖励的强化学习 (RLVR)在有效性和分布外 (OOD)稳健性方面均优于思路链监督微调 (CoT-SFT) 。 2. 在我们的实验中，我们激励VLM 学习可泛化的视觉计 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

硅星GenAI · 无需Attention的未来，RWKV-7能成为替代Transformer的那只黑天鹅吗？

9 小时前

硅星GenAI · 无需Attention的未来，RWKV-7能成为替代Transformer的那只黑天鹅吗？

9 小时前

黄建同学 · 当Gemini 2.0 与机器人结合后↓Google DeepM-20250323184023

昨天

爱可可-爱生活 · [LG]《A Multi-Power Law for Loss -20250323055102

昨天

机器之心 · 揭秘DeepSeek R1-Zero训练方式，GRPO还有极简改进方案

2 天前

CloudMan · 网文校对系统 - 新方案

3 天前

智能座舱与自动驾驶 · 【福利】4个高质量的资源库（内含专属优惠通道）

7 月前

瑞恩资本RyanbenCapital · 胡憬，获委任「申万宏源香港」经营管理委员会成员、首席风险官

7 月前

能源新媒 · 智慧云脑新质登场丨见证储能升维时刻！晶澳科技“星云”系列新品震撼发布

4 月前

低空经济时代 · 发力低空经济！深圳、山东、上海一区又有政策新动向

4 月前

浪潮工作室 · 这届双十一，年轻人围观国货玩抽象

4 月前

关于移动版 · Py中国 · RSS之家 · CodingPro · Code · Link之家 · 卧龙AI搜索 · 小百科 · 51好读 · 小百科（海外） · Link管理

今天看啥 - 微信公众号rss订阅, 微信rss, 稳定的RSS源

© 2024 ~ 沪ICP备11025650号