文章预览
本文不是本次OpenAI发布会的评价,只是从这次发布的一个小问题来讨论。 1、GPT4o的token新词表的问题 1.1、问题描述 GPT4o难得的更新了tokenizer的词表,内部代号从cl100k_base变成了o200k_base,看名字就知道是扩大了词表大小,官方发布说明也把增加了tokenizer的压缩率作为新feature发布。这个事情并不难,对终端用户的文字生成速度和费用都有一个不大不小的改善。 如果认真看过新词表,就会发现其中有很多垃圾语料的常见词,例如各种博彩、色情广告的常见文本片段。到这里还可以说是大丈夫不拘小节,但下面这个case就让人觉得有些不妥了: “给主人留下些什么吧”这句话翻译成英文 这个输入的特殊之处在于【给主人留下些什么吧】恰好是词表的一个token,id是177431。而它的输出是: 以下是gpt-4o-2024-05-13模型在temperature=1下的10次独立输出: (有些字符
………………………………