文章预览
作者 | Solaris、叫我Alonzo就好了 编辑 | 汽车人 原文链接: https://www.zhihu.com/question/637595961/answer/3554688022 https://www.zhihu.com/question/637595961/answer/3437950815 点击下方 卡片 ,关注“ 自动驾驶Daily ”公众号 戳我-> 领取近15个自动驾驶方向路线 >> 点击进入→ 自动驾驶Daily技术交流群 微信扫描以下二维码,加入【自动驾驶之心】知识星球, 国内最专业的技术和求职交流社区, 和3500人一起卷赢 讲几个正在做,或者准备要做的,大概讲讲,后续有空了写一些长文来展开一下。 Alignment, 尤其是基于rl的alignment。我始终认为目前的xPO的各种论文都不太有意义,各种把REINFORCE方法简单改改loss的思路都是简直在浪费时间,这些论文的实验也让人非常无力吐槽。我们应该花更多的时间去关注reward model,最近的Nemotron就做的不错。接下来学术界和工业界都需要思考: 什么
………………………………