专栏名称: 数据派THU
本订阅号是“THU数据派”的姊妹账号,致力于传播大数据价值、培养数据思维。
今天看啥  ›  专栏  ›  数据派THU

Hymba: 结合注意力头和SSM头的创新型语言模型方案

数据派THU  · 公众号  · 大数据  · 2024-12-18 16:20
    

文章预览

本文 约2500字 ,建议阅读 5分钟 NVIDIA提出了Hymba架构,通过在同一层中结合注意力头和SSM头,以实现两种架构优势的互补。 近年来,大语言模型(LLM)在各个领域取得了显著成效。但现有的Transformer架构存在计算复杂度高、内存消耗大等问题。而状态空间模型(SSM)如Mamba虽然具有常数复杂度和优化的硬件性能,但在记忆回溯任务上表现较弱。针对这一问题,NVIDIA提出了Hymba架构,通过在同一层中结合注意力头和SSM头,以实现两种架构优势的互补。 核心创新 Hymba的核心创新主要包括三个方面: 并行混合头设计: 在同一层内并行集成注意力头和SSM头 注意力机制提供高分辨率记忆回溯能力 SSM提供高效的上下文总结能力 这种设计相比Zamba和Jamba等只在不同层使用两种机制的方法更加灵活 可学习的元令牌(Meta Tokens): 在输入序列前添加可学习的元令牌 这些令牌与所有后续 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览