今天看啥  ›  专栏  ›  道明数字游牧生活

o1模型意味着预训练Scaling-law不存在了?

道明数字游牧生活  · 公众号  ·  · 2024-09-24 07:12

文章预览

如果时间退回到2017年,AlphaGo震撼全球,紧接着,虽然AlphaZero具备更强的能力,从技术而言更令人“胆寒”,但引起的震撼却不如AlphaGo了。 同样的故事发生在了2023年的ChatGPT,GPT-4和一周多前的o1模型。不仅仅是因为遭到的待遇,更因为技术演进的路线。 如果说AlphaGO是靠“学遍天下棋局”而“具备”了战胜人类最顶尖选手的能力的话,AlphaZero则是靠“懂得”围棋的基础上“自我对弈”,自己进化的:它现在成为了最好的教练,而人类继续享受自己与自己对的美丽世界。 所以: 1、先通过学习海量数据得到基础知识,然后通过不断强化自己具备“真正的博弈能力”; 2、超越人类的智能存在,并没有严重威胁到人类自身; 对于GPT系而言,第二点我们暂且放在一边,第一点,几乎也是如此的。 一直到GPT-4,被大家熟知的概念都是预训练,transformer,scali ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览