文章预览
本文转自机器之心 本论文第一作者是汪海洋,北京大学20级博士生,目前主要关注是通用模型的架构设计和学习算法。指导教授主要包括王立威,北京大学智能学院教授;Bernt Schiele,德国马普计算所教授;Federico Tombari 谷歌人工智能科学家等。 新一代通用灵活的网络结构 TokenFormer: Rethinking Transformer Scaling with Tokenized Model Parameters 来啦! TokenFormer 不仅像原始 Transformer 一样 Token 化了 input data,并且 Token 化了网络参数,将 attention 机制拓展到 Token 和 parameters 的交互中,最大化了 Transformer 的灵活性,真正得到了一个 Fully attention-based 的网络结构。 这种方式打破了原有人们区别看待 data 和 model 的观念,即所有的计算都归纳为不同类型的 Token(e.g., data, param token)通过灵活的 attention 来交互 。得益于这一灵活的性质,TokenFormer 允许 incremental scaling model size,
………………………………