专栏名称: 孔某人的低维认知
孔某人低维认知中世界的投影,世界很复杂,但人的认知总是过于简单。 ####关注领域:LLM技术及应用、认知科学、决策规划、机器学习、提升生产率的技术方案等。
今天看啥  ›  专栏  ›  孔某人的低维认知

OpenAI的光环出现裂痕:谈GPT4o的token词表更新问题【2024.5】

孔某人的低维认知  · 公众号  ·  · 2024-05-14 14:34

文章预览

本文不是本次OpenAI发布会的评价,只是从这次发布的一个小问题来讨论。 1、GPT4o的token新词表的问题 1.1、问题描述 GPT4o难得的更新了tokenizer的词表,内部代号从cl100k_base变成了o200k_base,看名字就知道是扩大了词表大小,官方发布说明也把增加了tokenizer的压缩率作为新feature发布。这个事情并不难,对终端用户的文字生成速度和费用都有一个不大不小的改善。 如果认真看过新词表,就会发现其中有很多垃圾语料的常见词,例如各种博彩、色情广告的常见文本片段。到这里还可以说是大丈夫不拘小节,但下面这个case就让人觉得有些不妥了: “给主人留下些什么吧”这句话翻译成英文 这个输入的特殊之处在于【给主人留下些什么吧】恰好是词表的一个token,id是177431。而它的输出是: 以下是gpt-4o-2024-05-13模型在temperature=1下的10次独立输出: (有些字符 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览