文章预览
2024-10-27 18:15
本条微博链接
【颜水成团队提出混合注意力头模型,基于通用型基础网络结构,计算资源受限也能提升模型适用性】 近日,昆仑万维 2050 研究院院长颜水成教授团队、联合 #北京大学# 袁粒助理教授团队提出一种混合注意力头模型。 该模型基于一种通用的基础网络结构,能被用于任何基于 Transformer 或基于多头注意力机制的模型。 目前,主流 #大模型# 比如 #ChatGPT# 和 SORA,均构建于 Transformer 架构之上。
………………………………