关注图网络、图表示学习,最近顶会顶刊动态以及机器学习基本方法,包括无监督学习、半监督学习、弱监督学习、元学习等
今天看啥  ›  专栏  ›  深度图学习与大模型LLM

Token化一切,甚至网络!TokenFormer,Transformer从来没有这么灵活过!

深度图学习与大模型LLM  · 公众号  ·  · 2024-11-16 11:43
    

文章预览

本文转自机器之心 本论文第一作者是汪海洋,北京大学20级博士生,目前主要关注是通用模型的架构设计和学习算法。指导教授主要包括王立威,北京大学智能学院教授;Bernt Schiele,德国马普计算所教授;Federico Tombari 谷歌人工智能科学家等。 新一代通用灵活的网络结构 TokenFormer: Rethinking Transformer Scaling with Tokenized Model Parameters 来啦! TokenFormer  不仅像原始 Transformer 一样 Token 化了 input data,并且 Token 化了网络参数,将 attention 机制拓展到 Token 和 parameters 的交互中,最大化了 Transformer 的灵活性,真正得到了一个 Fully attention-based 的网络结构。 这种方式打破了原有人们区别看待 data 和 model 的观念,即所有的计算都归纳为不同类型的 Token(e.g., data, param token)通过灵活的 attention 来交互 。得益于这一灵活的性质,TokenFormer 允许 incremental scaling model size, ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览