2024-21 像素，矢量和字元

吴言吴语 · 公众号 · · 2024-11-04 09:34

文章预览

(token的中文翻译：token在网络协议里面翻译为“令牌”，在加密货币中翻译为“代币”，在日常场景中翻译为“礼券”或者“表示”(token of appreciation)，现在又多了一个大语言模型中的用法，有人翻译为“字元”，我觉得算是能接受的，下面文中可能同时使用它的中英文）这周Waymo发了EMMA，Physical Intelligence发了π 0 ，又是一波围绕多模态和端到端的文章满天飞，后面有空单写一篇聊聊细节，今天聊一个我平时思考中经常使用的概念：数据颗粒度，之前其实写过一次( 2024-04 数据颗粒度 )，但这次有一些新思考。数据规模现在大家都接受了算力对神经网络能力的重要影响，模型参数越多，使用的算力越大，模型的性能上限就有可能越高，这也是scaling law的意思。对于一个模型规模为N的GPT模型来说(不包括词向量表)，前向推理的算力大约是2N FLOPS/token，如 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博