专栏名称: 极市平台
极市平台是由深圳极视角推出的专业的视觉算法开发与分发平台,为视觉开发者提供多领域实景训练数据库等开发工具和规模化销售渠道。本公众号将会分享视觉相关的技术资讯,行业动态,在线分享信息,线下活动等。 网站: http://cvmart.net/
今天看啥  ›  专栏  ›  极市平台

Tokenization不存在了?Meta最新研究,无需Tokenizer的架构来了

极市平台  · 公众号  ·  · 2024-12-17 22:00
    

文章预览

↑ 点击 蓝字  关注极市平台 作者丨机器之心 来源丨机器之心 编辑丨极市平台 极市导读   BLT 在许多基准测试中超越了基于 token 的架构。   >> 加入极市CV技术交流群,走在计算机视觉的最前沿 最近几天,来自 Meta 、芝加哥大学等机构的合著论文《 Byte Latent Transformer: Patches Scale Better Than Tokens 》火了,在 Hacker News 上受到广泛讨论。 有人表示,非常期待这项研究取得成功,这样就可以和 tokenizer 拜拜了! 还有人担心的表示,「现在 tokenization 是大多数模型的基础,这项研究被采用的可能性究竟有多大?」 总结而言,该研究提出了一种新的 LLM 思想。传统的语言模型依赖于 tokenizer 来预处理数据,但 tokenization 有其固有的局限性,包括固定的词汇表、处理多语言或噪声数据的效率低下,以及由压缩启发式方法引入的偏见。 该研究提出字节潜在 Transformer ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览