专栏名称: EETOP
EETOP电子网(中国电子顶级开发网)是国内最顶级的电子行业工程师社区,涉及:嵌入式、智能硬件、半导体集成电路设计及制造等。 为您分享论坛精华内容、行业最新资讯、产品及技术 。 网址:www.eetop.cn bbs.eetop.cn
目录
今天看啥  ›  专栏  ›  EETOP

DeepSeek 团队神操作:用“汇编”取代CUDA 让性能狂飙!

EETOP  · 公众号  · 硬件  · 2025-01-29 11:30
    

文章预览

在人工智能领域, DeepSeek 引发了巨大轰动。它借助由 2048 块英伟达 H800 GPU 组成的集群,仅用约两个月时间就完成了拥有 6710 亿参数的混合专家(MoE)语言模型训练,效率比 Meta 等人工智能行业领军企业高出 10 倍。据 @Jukanlosreve 援引韩国未来资产证券(Mirae Asset Securities Korea)的分析,这一突破得益于大量细粒度的优化措施,以及 采用了类似汇编语言的英伟达并行线程执行(PTX)编程,而非英伟达的 CUDA 编程。 英伟达的并行线程执行(PTX)是英伟达公司专为其图形处理器(GPU)设计的一种中间指令集架构。PTX 处于高级 GPU 编程语言(如 CUDA C/C++ 或其他语言前端)与低级机器代码(流式汇编,即 SASS)之间。PTX 是一种接近硬件底层的指令集架构,它将 GPU 视为数据并行计算设备,因而能够实现细粒度的优化操作,例如寄存器分配以及线程 / 线程束级 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览