专栏名称: AINLP
关注AI、NLP相关技术,关注算法研发职位和课程;回复"文章"获取历史信息;双语聊天机器人"无名";中英翻译请输入:翻译 翻译内容;自动对联,请输入:上联 上联内容;调戏夸夸聊天机器人,请求夸、求赞;查询相似词,请输入: 相似词 词条
今天看啥  ›  专栏  ›  AINLP

有想入坑RL-LLM的同学吗?这个开源项目一个GPU够了,完成后欢迎来月之暗面~

AINLP  · 公众号  ·  · 2024-09-27 14:45

文章预览

原标题:有想入坑RL-LLM的同学吗?强推曾经的TimeChamber,一个GPU够了 知乎:Flood Sung 链接:https://zhuanlan.zhihu.com/p/715131589 1 Why RL-LLM? 上图,David Silver 最新Talk里的两张ppt: RL+LLM 就是AGI的未来! 那么问题来了,很多同学,特别是在校的同学,没有那么多的GPU,怎么来研究RL+LLM? 我算了一下,整个中国有上一代Game AI 做Large Scale RL 的经历和当前的大模型时代 做 Large Scale RL + LLM 经历的人屈指可数。具体情况是上一代Game AI 做Large Scale RL也就集中在启元世界,腾讯,字节,网易,超参数等有限的几个团队,这里面的同学还参与到大模型的就寥寥无几了。 所以,对于还在学校的同学,难道就只能看看当年的AlphaGo, AlphaStar,没法实操攒Large Scale RL经验吗?而这个经验对于RL+LLM 非常重要。为什么这么说?LLM只是换了更大的模型,更复杂的场景,但RL内核没有任何变 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览