专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
今天看啥  ›  专栏  ›  量子位

纯国产万卡集群炼出万亿参数大模型,被这家央企率先做到了!

量子位  · 公众号  · AI  · 2024-10-01 19:10

主要观点总结

中国电信人工智能研究院使用万卡集群训练出万亿参数大模型,实现国产人工智能的突破。通过提升万卡集群性能和稳定性,运用多种技术提升训练性能,实现大模型训练。面临难点包括提高模型性能和稳定性,训练万亿参数大模型等。最终,TeleAI成功完成大模型的训练并取得卓越表现。

关键观点总结

关键观点1: 万卡集群训练出万亿参数大模型

中国首次使用万卡集群训练出万亿参数大模型,由电信集团的人工智能研究院完成。

关键观点2: 提升万卡集群性能和稳定性

通过一系列技术提升万卡集群的性能和稳定性,包括多维混合并行、多副本并行、通信优化等。

关键观点3: 面临挑战与解决策略

包括模型训练过程中的稳定性和性能问题、万亿参数大模型的训练等挑战,以及采用多项技术和策略解决这些挑战。

关键观点4: TeleAI的大模型应用

TeleAI的大模型在多个领域表现出卓越性能,如长文本写作、会议纪要的实时生成、电子报表处理等。

关键观点5: 团队重视与人才吸纳

TeleAI团队高度重视人才吸纳和培养,拥有来自国内外顶尖高校的人才,实现了核心算法能力的自主可控。


文章预览

金磊 发自 凹非寺 量子位 | 公众号 QbitAI 首个由 万卡集群 训练出来的 万亿参数 大模型,被 一家央企 解锁了。 具体而言,为纯国产人工智能探索出这条路的正是 中国电信人工智能研究院 (TeleAI),是由中国电信集团 CTO、首席科学家、中国电信人工智能研究院院长 李学龙 教授带领团队完成。 据了解,训练使用的万卡集群由天翼云上海临港国产万卡算力池提供,并基于天翼云自研“息壤一体化智算服务平台”和电信人工智能公司自研“星海 AI 平台”的支持,可以实现万亿参数的常稳训练,平均每周仅有1.5次训练中断,集群训练稳定性达到国际领先水平。 而且基于此,TeleAI 还开源了由国产深度学习框架训练的千亿参数大模型—— 星辰语义大模型  TeleChat2-115B。 TeleChat 是 央企里首个开源 的系列语义大模型,而 TeleChat2-115B 则在 TeleChat 的基础上, ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览