今天看啥  ›  专栏  ›  机器之心

字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%

机器之心  · 公众号  · AI  · 2024-11-07 13:48
    

文章预览

机器之心发布 机器之心编辑部 字节跳动豆包大模型团队于近日提出超连接(Hyper-Connections),一种简单有效的残差连接替代方案。 面向残差连接的主要变体的局限问题,超连接可通过动态调整不同层之间的连接权重,解决梯度消失和表示崩溃(Representation Collapse)之间的权衡困境。 在 Dense 模型和 MoE 模型预训练中,超连接方案展示出显著的性能提升效果,使收敛速度最高可加速 80%。 自从 ResNet 提出后,残差连接已成为深度学习模型的基础组成部分。其主要作用是 —— 缓解梯度消失问题,使得网络的训练更加稳定。 但是,现有残差连接变体在梯度消失和表示崩溃之间存在一种 “跷跷板式” 的权衡,无法同时解决。 为此,字节豆包大模型 Foundation 团队于近日提出 超连接(Hyper-Connections) ,针对上述 “跷跷板式” 困境,实现了显著提升。 该方法 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览