专栏名称: 中国人工智能学会
关注中国人工智能学会官方公共账号,收取学会的科普信息、新闻动态、活动预告及人工智能领域科技前沿信息。
今天看啥  ›  专栏  ›  中国人工智能学会

千万IP创科普丨为什么AI数不清Strawberry里有几个 r?Karpathy:我用表情包给你解释一下

中国人工智能学会  · 公众号  · AI  · 2024-09-10 07:15
    

文章预览

转自 机器之心 让模型知道自己擅长什么、不擅长什么是一个很重要的问题。 还记得这些天大模型被揪出来的低级错误吗? 不知道 9.11 和 9.9 哪个大,数不清 Strawberry 单词里面有多少个 r…… 每每被发现一个弱点,大模型都只能接受人们的无情嘲笑。 嘲笑之后,大家也冷静了下来,开始思考:低级错误背后的本质是什么? 大家普遍认为,是 Token 化(Tokenization)的锅。 在国内,Tokenization 经常被翻译成「分词」。这个翻译有一定的误导性,因为 Tokenization 里的 token 指的未必是词,也可以是标点符号、数字或者某个单词的一部分。比如,在 OpenAI 提供的一个工具中,我们可以看到,Strawberry 这个单词就被分为了 Str-aw-berry 三个 token。在这种情况下,你让 AI 大模型数单词里有几个 r,属实是为难它。 除了草莓 (Strawberry) 之外,还有一个很好的例子就是「Sc ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览