文章预览
1st DeepSeek成功绕过了NVIDIA CUDA? 错误! 这是个流传很广的说法,意指DeepSeek通过绕过CUDA,彻底摆脱了NVIDIA的依赖。 听起来确实很提气,但这个言论的依据是DeepSeek采用了 PTX编程 替代了 CUDA C/C++ 编程。 实际上,DeepSeek这么干的初衷,是为了解决H800 GPU被阉割的互联带宽,不得不下沉到更低一层,用“PTX手搓”来提升跨芯片通信能力。 (如果换成H100,完全不需要这么做,因为互联带宽足够)。 那么用了PTX就是绕过了CUDA吗?完全不是。 PTX(Parallel Thread Execution)是NVIDIA CUDA编程模型的一部分,它是 CUDA 编译器将源代码(如 CUDA C/C++)转换为低级别、硬件相关的机器指令之前的一个 中间阶段 。 PTX在运行时会进一步被编译成在NVIDIA GPU上运行的最终机器码(SASS),然后交给GPU完成最终执行。 整个流程可以参考下图↓ 实际上,DeepSeek就是跳过了第一个环节
………………………………