CXL论文阅读（三）：基于CXL持久内存分解的容错训练

布鲁斯的读书圈 · 公众号 · · 2024-08-27 20:50

文章预览

此论文的原名为《Failure Tolerant Training With Persistent Memory Disaggregation Over CXL》，我把 Disaggregation直接翻译为分解，论文中的一句话应该可以解释它的意思：“ 将内存设备从CPU/GPU中分解出来，并通过CXL将所有这些设备集成到一个系统中。 ” 我读这篇文章主要想要理解cxl.cache的使用场景，但它在这个方面并没有提供很深的见解，简单地说还是主要起到一个加速内存访问的作用。也许此文对研究推荐模型更有帮助。下面是原文。本文提出了TRAININ-CXL，它可以有效地处理分解内存池中的大规模推荐数据集，同时使训练具有低开销的容错性。为此，我们将持久内存（PMEM）和图形处理单元（GPU）集成到缓存一致域中（作为type 2）。Compute Express Link（CXL）可以将PMEM直接放置在GPU的内存层次结构中，这样GPU就可以在没有软件干预的情况下访问PMEM。TRAININ-CXL在CXL控 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博