今天看啥  ›  专栏  ›  吴言吴语

2024-21 像素,矢量和字元

吴言吴语  · 公众号  ·  · 2024-11-04 09:34
    

文章预览

(token的中文翻译:token在网络协议里面翻译为“令牌”,在加密货币中翻译为“代币”,在日常场景中翻译为“礼券”或者“表示”(token of appreciation),现在又多了一个大语言模型中的用法,有人翻译为“字元”,我觉得算是能接受的,下面文中可能同时使用它的中英文) 这周Waymo发了EMMA,Physical Intelligence发了π 0 ,又是一波围绕多模态和端到端的文章满天飞,后面有空单写一篇聊聊细节,今天聊一个我平时思考中经常使用的概念:数据颗粒度,之前其实写过一次( 2024-04 数据颗粒度 ),但这次有一些新思考。 数据规模 现在大家都接受了算力对神经网络能力的重要影响,模型参数越多,使用的算力越大,模型的性能上限就有可能越高,这也是scaling law的意思。对于一个模型规模为N的GPT模型来说(不包括词向量表),前向推理的算力大约是2N FLOPS/token,如 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览