今天看啥  ›  专栏  ›  机器之心

Tokenization不存在了?Meta最新研究,无需Tokenizer的架构来了

机器之心  · 公众号  · AI  · 2024-12-17 09:59
    

主要观点总结

本文报道了关于Byte Latent Transformer(BLT)的研究,这是一种新的语言模型架构,旨在超越基于token的架构。BLT通过直接对原始字节流进行建模,将其根据熵动态分组为patch以实现高效计算。该研究提出了BLT,一种字节潜在LLM架构,动态分配计算资源以提高flop效率。BLT在训练时的flop控制性能与Llama 3相当,同时在推理时使用的flop减少了高达50%。此外,BLT在字符级任务、带噪声的输入以及长尾泛化任务中表现出色,并在许多基准测试中超越了基于token的架构。

关键观点总结

关键观点1: BLT超越基于token的架构

研究提出了一种新的语言模型架构BLT,它直接对原始字节流进行建模,避免了tokenization的局限性。

关键观点2: BLT通过动态patch分配提高计算效率

BLT根据信息复杂度动态地将字节分组为patch,对高熵区域分配更多计算资源,在低熵区域节省资源,从而提高计算效率。

关键观点3: BLT的鲁棒性与灵活性

BLT在需要字符级理解、噪声输入或长尾泛化的任务中表现出色,显示出其鲁棒性和灵活性。

关键观点4: BLT与基于token的模型的比较

研究结果显示,BLT在许多基准测试中超越了基于token的架构,并且在训练时的flop控制性能与Llama 3相当,同时推理时使用的flop减少了高达50%。

关键观点5: BLT的贡献

研究提出了BLT模型,为扩展大型语言模型开启了一个新的维度,现在可以在保持固定推理预算的同时扩展模型大小。


文章预览

机器之心报道 编辑:小舟、陈陈 BLT 在许多基准测试中超越了基于 token 的架构。 最近几天,来自 Meta 、芝加哥大学等机构的合著论文《 Byte Latent Transformer: Patches Scale Better Than Tokens 》火了,在 Hacker News 上受到广泛讨论。 有人表示,非常期待这项研究取得成功,这样就可以和 tokenizer 拜拜了! 还有人担心的表示,「现在 tokenization 是大多数模型的基础,这项研究被采用的可能性究竟有多大?」 总结而言,该研究提出了一种新的 LLM 思想。传统的语言模型依赖于 tokenizer 来预处理数据,但 tokenization 有其固有的局限性,包括固定的词汇表、处理多语言或噪声数据的效率低下,以及由压缩启发式方法引入的偏见。 该研究提出字节潜在 Transformer(Byte Latent Transformer,简称 BLT)挑战了这种常规做法。BLT 通过直接建模原始字节流,将它们根据熵动态分组为 patc ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览