RWKV作者对OpenAI 发布 o1 系列模型的看法，很深刻

深度学习与NLP · 公众号 · · 2024-09-14 00:00

文章预览

知乎：PENG Bo 链接：https://www.zhihu.com/question/666991594/answer/3624168868 大家都知道长期CoT可以提升性能，而且很快我们会看到其它家的例子，这是最后的low-hanging fruit，因为只需合成大量训练数据，包括动态去合成有针对性的训练数据。例如，我去年7月演示过，一个2.9M参数量的超小RWKV-4配合长期CoT可以精确解决各种复杂四则运算： https://github.com/BlinkDL/RWKV-LM/tree/main/RWKV-v4neo/math_demo （训练数据合成时覆盖不够全面，数字别写太长太多，但可以随意换其它随机数字）如果用RWKV这样的RNN模型，无论做多久的CoT，消耗的显存，和生成每个字的速度，都是恒定的，因此尤其适合做长期CoT。相当于在state的潜空间做长期的行走。数学和代码，尤其适合通过这种方法提升。而且还可以配合MCTS。而且模型可以调用外部工具验证，可以自己纠错（这个看上去还没开放， ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博