|
不要转码,要用ai革命你的行业 -20250204095206 斌叔OKmath · 微博 · · 3 小时前 · 访问文章快照 |
|
Mini-R1:在 RL 教程中重现 Deepseek R1 的-20250204094420 斌叔OKmath · 微博 · · 4 小时前 · 访问文章快照 |
|
今天,OpenAI 推出了 Deep Researcher,我想-20250204090748 斌叔OKmath · 微博 · · 4 小时前 · 访问文章快照 |
|
有意思啊,训练的时候,为了防止回应太长,就直接插入“wait,模-20250204090506 斌叔OKmath · 微博 · · 4 小时前 · 访问文章快照 |
|
S1 简单缩放:SFT Qwen 32B 在数学方面的表现比 O-20250204090555 斌叔OKmath · 微博 · · 4 小时前 · 访问文章快照 |
|
R1-V不到 3 美元即可增强视觉语言模型的超泛化能力2B模型仅-20250204085430 斌叔OKmath · 微博 · · 4 小时前 · 访问文章快照 |
|
OpenAI 的深度研究只是在 while 循环中进行搜索+读取-20250204084125 斌叔OKmath · 微博 · · 5 小时前 · 访问文章快照 |
|
A1 -20250204000842 斌叔OKmath · 微博 · · 13 小时前 · 访问文章快照 |
|
如何培养孩子的时间管理能力#教育聊一聊##你好我的小孩# 斌叔O-20250203152710 斌叔OKmath · 微博 · · 22 小时前 · 访问文章快照 |
|
#大S去世# 我的天 -20250203114022 斌叔OKmath · 微博 · · 昨天 · 访问文章快照 |
|
自动申请工作的ai agent -20250203091926 斌叔OKmath · 微博 · · 昨天 · 访问文章快照 |
|
由于现在 DeepSeek 之后每个人都想学习语言模型的 RL,-20250203084137 斌叔OKmath · 微博 · · 昨天 · 访问文章快照 |
|
Open-Interface用LLM控制任何电脑 -20250203083739 斌叔OKmath · 微博 · · 昨天 · 访问文章快照 |
|
以下是从推理模型(例如@deepseek_ai R1, @Ali-20250203081929 斌叔OKmath · 微博 · · 昨天 · 访问文章快照 |
|
Google 这篇论文的结论非常清晰:《SFT 负责记忆, RL-20250203081049 斌叔OKmath · 微博 · · 昨天 · 访问文章快照 |
|
我发布了使用 GRPO 训练基础模型的首次尝试。本着与 R0 类-20250203080718 斌叔OKmath · 微博 · · 昨天 · 访问文章快照 |
|
之前说小红书杀死了百度现在是DS杀死了百度感觉百度人人喊杀 -20250202231256 斌叔OKmath · 微博 · · 昨天 · 访问文章快照 |
|
Deepseek r1复现进展迅猛 -20250202230319 斌叔OKmath · 微博 · · 昨天 · 访问文章快照 |
|
这次春节,全家人塞进一个大七座里。算了一下,一趟省不少钱。 -20250202224515 斌叔OKmath · 微博 · · 昨天 · 访问文章快照 |
|
我们为@deepseek_ai 模型推出了第一批增强功能,包括 -20250202215849 斌叔OKmath · 微博 · · 昨天 · 访问文章快照 |