注册登录

专栏名称: 大语言模型和具身智体及自动驾驶

讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

目录

相关文章推荐

中国中铁 · 为千年古都套上“金腰带”！西安地铁8号（环） ... · 3 小时前

APPSO · 万字解读明日产品 | Tomorrow's ... · 10 小时前

今天看啥 › 专栏 › 大语言模型和具身智体及自动驾驶

Branch-Train-MiX：将专家LLM混合为混合专家LLM

大语言模型和具身智体及自动驾驶 · 公众号 · · 2024-12-08 00:04

文章预览

24年3月来自Meta FAIR的论文“Branch-Train-MiX: Mixing Expert LLMs into a Mixture-of-Experts LLM”。有效地训练大语言模型 (LLM) ，可以使其具备多个专业领域的能力，例如编码、数学推理和世界知识。该方法名为 Branch-Train-MiX (BTX)，从种子模型开始，以高吞吐量和低通信成本高度并行地进行专家训练。在对各个专家进行异步训练后，BTX 将其前馈参数汇集在混合专家 (MoE) 层中作为专家，并对剩余参数取平均值，然后进行 MoE 微调阶段学习 token 级的路由。BTX 泛化两种特殊情况，一是 Branch-Train-Merge 方法，没有经过 MoE 微调阶段学习路由，二是稀疏升级改造（sparse upcycling），省略这个异步训练专家的阶段。与其他方法相比，BTX 实现最佳的准确率-效率权衡。近年来，大语言模型 (LLM) 在各种任务中表现出色 (Brown，2020；Touvron，2023；Achiam，2023)，包括代码生成 (Li，2022b；Roz ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

中国中铁 · 为千年古都套上“金腰带”！西安地铁8号（环）线开通运营

3 小时前

APPSO · 万字解读明日产品 | Tomorrow's Product Award 2024 倒计时

10 小时前

自动驾驶Daily · ParkingE2E：基于纯视觉的端到端泊车网络，从图像到规划（秦通团队）

4 月前

曾奇峰心理工作室 · 三人友谊中，为何她俩更好令人恐惧？

4 月前

中国物流与采购杂志 · 今年上半年进出口达1.22万亿元，跨境电商的春天来了？

4 月前

电池中国 · 总投资5亿元！年产2000万套新能源锂电池盖板等项目签约浙江

3 月前

清北资源 · 中信资本私募投资实习生招聘（可远程）

1 月前

关于移动版 · Py中国 · RSS之家 · CodingPro · Code · Link之家 · 卧龙AI搜索 · 小百科 · 51好读 · 小百科（海外） · Link管理

今天看啥 - 微信公众号rss订阅, 微信rss, 稳定的RSS源

© 2024 ~ 沪ICP备11025650号