纯国产万卡集群炼出万亿参数大模型，被这家央企率先做到了！

量子位 · 公众号 · AI · 2024-10-01 19:10

主要观点总结

中国电信人工智能研究院使用万卡集群训练出万亿参数大模型，实现国产人工智能的突破。通过提升万卡集群性能和稳定性，运用多种技术提升训练性能，实现大模型训练。面临难点包括提高模型性能和稳定性，训练万亿参数大模型等。最终，TeleAI成功完成大模型的训练并取得卓越表现。

关键观点总结

关键观点1: 万卡集群训练出万亿参数大模型

中国首次使用万卡集群训练出万亿参数大模型，由电信集团的人工智能研究院完成。

关键观点2: 提升万卡集群性能和稳定性

通过一系列技术提升万卡集群的性能和稳定性，包括多维混合并行、多副本并行、通信优化等。

关键观点3: 面临挑战与解决策略

包括模型训练过程中的稳定性和性能问题、万亿参数大模型的训练等挑战，以及采用多项技术和策略解决这些挑战。

关键观点4: TeleAI的大模型应用

TeleAI的大模型在多个领域表现出卓越性能，如长文本写作、会议纪要的实时生成、电子报表处理等。

关键观点5: 团队重视与人才吸纳

TeleAI团队高度重视人才吸纳和培养，拥有来自国内外顶尖高校的人才，实现了核心算法能力的自主可控。

文章预览

金磊发自凹非寺量子位 | 公众号 QbitAI 首个由万卡集群训练出来的万亿参数大模型，被一家央企解锁了。具体而言，为纯国产人工智能探索出这条路的正是中国电信人工智能研究院（TeleAI），是由中国电信集团 CTO、首席科学家、中国电信人工智能研究院院长李学龙教授带领团队完成。据了解，训练使用的万卡集群由天翼云上海临港国产万卡算力池提供，并基于天翼云自研“息壤一体化智算服务平台”和电信人工智能公司自研“星海 AI 平台”的支持，可以实现万亿参数的常稳训练，平均每周仅有1.5次训练中断，集群训练稳定性达到国际领先水平。而且基于此，TeleAI 还开源了由国产深度学习框架训练的千亿参数大模型—— 星辰语义大模型 TeleChat2-115B。 TeleChat 是央企里首个开源的系列语义大模型，而 TeleChat2-115B 则在 TeleChat 的基础上， ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

奇舞精选 · 前端工程师的 AI DAY 来啦！

2 天前

奇舞精选 · 前端工程师的 AI DAY 来啦！

2 天前

宝玉xp · 回复@蝈蝈俊:没错//@蝈蝈俊:关键还是大任务拆成gpt可以做的-20241119112951

4 天前

爱可可-爱生活 · 【Sequin：一款帮助你调试命令行界面和文本用户界面的小工具，-20241119140651

3 天前

爱可可-爱生活 · 本文提出了一种新的硬件和软件平台推断 (HSPI) 方法，通过分-20241117065301

6 天前

宝玉xp · 回复@不言语v:中文一样可以的，只要针对性调整提示词//@不言语-20241117012334

6 天前

势银能链 · 1740万，宁波今年首批氢能补贴这两家“吃下”

3 月前

GIS前沿 · 违法测绘，吊销甲级测绘资质

2 月前

张小北 · 高铁一般定员不到600人，算下来人均百公里4度电左右，就算工业电-20240905202504

2 月前