专栏名称: 宝玉xp
前微软Asp.Net最有价值专家 互联网科技博主 我是宝玉。
今天看啥  ›  专栏  ›  宝玉xp

//@高飞://@刘群MT-to-Death:请看18分36秒到-20241023012502

宝玉xp  · 微博  · AI  · 2024-10-23 01:25
    

文章预览

2024-10-23 01:25 本条微博链接 // @高飞 :// @刘群MT-to-Death :请看18分36秒到19分13秒这一段, Hunter Lightman说他发现o1作为一个自回归语言模型,竟然有了回溯思考的能力,也就是说,在思维被卡住的时候,它能够回退到前面的步骤去尝试其他的解决方案,他这时候真正意识到o1跟原来的模型不一样了。其实这也是前一段时间困扰很多人的地方,o1到底是如何实现树搜索的?是在一个奖励模型的引导性,通过并行的多次采样进行搜索 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览