专栏名称: 孔某人的低维认知
孔某人低维认知中世界的投影,世界很复杂,但人的认知总是过于简单。 ####关注领域:LLM技术及应用、认知科学、决策规划、机器学习、提升生产率的技术方案等。
今天看啥  ›  专栏  ›  孔某人的低维认知

谈LLM的数据合成与近期热议的RL范式

孔某人的低维认知  · 公众号  ·  · 2024-09-11 15:09

文章预览

全文5k字 TL;DR 最近由拾象科技文章讨论的RL和MCTS思路有一些用处,但它们并不是新的,也并非万能。 拾象科技 的文章  LLM的范式转移:RL带来新的 Scaling Law 0、前言 本文包括以下内容: LLM模型数据合成的历史简述 我个人对关于目前热议的Self-play RL方向的解读与评论 本文是原计划一个更完整文章的部分内容节选,由于几方面原因还是先单独成篇发出来,即使如此也有5k字了,我自己的写作压力小一些,也希望降低一点读者的阅读压力。 不过也因此本文似乎成了针对于拾象科技这篇文章的,这并非我本意,但裁剪完之后也没有办法。 对于这方面话题相对熟悉的读者请直接跳转到第2节进行阅读。 1、数据合成思路演进 本节先对不太熟悉LLM数据合成方向的读者进行一些背景介绍。 1.1、主线 在我来看,认真的语料清洗就已经算是稍微踏入数据合成方面 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览