专栏名称: 深度学习自然语言处理

一个从大三就接触NLP的小小NLPer，本公众号每天记录自己的一点一滴，每篇文章最后也有托福单词等新知识，学技术同时，也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇！

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

有想入坑RL-LLM的同学吗？这个开源项目一个GPU够了，完成后欢迎来月之暗面~

深度学习自然语言处理 · 公众号 · · 2024-09-24 22:26

文章预览

原标题：有想入坑RL-LLM的同学吗？强推曾经的TimeChamber，一个GPU够了知乎：Flood Sung 链接：https://zhuanlan.zhihu.com/p/715131589 1 Why RL-LLM? 上图，David Silver 最新Talk里的两张ppt: RL+LLM 就是AGI的未来！那么问题来了，很多同学，特别是在校的同学，没有那么多的GPU，怎么来研究RL+LLM？我算了一下，整个中国有上一代Game AI 做Large Scale RL 的经历和当前的大模型时代做 Large Scale RL + LLM 经历的人屈指可数。具体情况是上一代Game AI 做Large Scale RL也就集中在启元世界，腾讯，字节，网易，超参数等有限的几个团队，这里面的同学还参与到大模型的就寥寥无几了。所以，对于还在学校的同学，难道就只能看看当年的AlphaGo, AlphaStar，没法实操攒Large Scale RL经验吗？而这个经验对于RL+LLM 非常重要。为什么这么说？LLM只是换了更大的模型，更复杂的场景，但RL内核没有任何变 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博