文章预览
AI 大神 Andrej Karpathy 又开炮了!这次他吐槽的对象是“大语言模型” (LLM) 这个名字: “LLM(‘大语言模型’)和‘语言’没啥关系,这只是历史遗留问题。它们是一种高度通用的技术,用于对 token 流进行统计建模。一个更好的名字应该是‘自回归 Transformer’或其他类似的名字。” Karpathy 认为,“语言”这个词误导了很多人,让人以为 LLM 只能处理文本,但实际上,LLM 可以处理任何类型的离散 token 流,例如图像块、音频块、动作选择、分子结构等等! 只要你能把问题转化成对 token 流的建模,你就可以“把 LLM 扔进去”! 😎 LLM 的未来:所有问题都将变成 token 流? Karpathy 还大胆预测,随着 LLM 技术栈越来越成熟,很多问题最终都会被转化成 token 流建模问题。也就是说,问题的形式固定为“预测下一个 token ”,只是每个领域使用的 token 的含义不
………………………………