专栏名称: 布鲁斯的读书圈
作者是一位专注于读书笔记分享和理财的嵌入式软件工程师。著有《Linux高性能网络详解:从DPDK、RDMA到XDP》。
今天看啥  ›  专栏  ›  布鲁斯的读书圈

CXL论文阅读(三):基于CXL持久内存分解的容错训练

布鲁斯的读书圈  · 公众号  ·  · 2024-08-27 20:50

文章预览

此论文的原名为《Failure Tolerant Training With Persistent Memory Disaggregation Over CXL》,我把 Disaggregation直接翻译为分解,论文中的一句话应该可以解释它的意思:“ 将内存设备从CPU/GPU中分解出来,并通过CXL将所有这些设备集成到一个系统中。 ” 我读这篇文章主要想要理解cxl.cache的使用场景,但它在这个方面并没有提供很深的见解,简单地说还是主要起到一个加速内存访问的作用。也许此文对研究推荐模型更有帮助。下面是原文。 本文提出了TRAININ-CXL,它可以有效地处理分解内存池中的大规模推荐数据集,同时使训练具有低开销的容错性。为此,我们将持久内存(PMEM)和图形处理单元(GPU)集成到缓存一致域中(作为type 2)。Compute Express Link(CXL)可以将PMEM直接放置在GPU的内存层次结构中,这样GPU就可以在没有软件干预的情况下访问PMEM。TRAININ-CXL在CXL控 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览