文章预览
此论文的原名为《Failure Tolerant Training With Persistent Memory Disaggregation Over CXL》,我把 Disaggregation直接翻译为分解,论文中的一句话应该可以解释它的意思:“ 将内存设备从CPU/GPU中分解出来,并通过CXL将所有这些设备集成到一个系统中。 ” 我读这篇文章主要想要理解cxl.cache的使用场景,但它在这个方面并没有提供很深的见解,简单地说还是主要起到一个加速内存访问的作用。也许此文对研究推荐模型更有帮助。下面是原文。 本文提出了TRAININ-CXL,它可以有效地处理分解内存池中的大规模推荐数据集,同时使训练具有低开销的容错性。为此,我们将持久内存(PMEM)和图形处理单元(GPU)集成到缓存一致域中(作为type 2)。Compute Express Link(CXL)可以将PMEM直接放置在GPU的内存层次结构中,这样GPU就可以在没有软件干预的情况下访问PMEM。TRAININ-CXL在CXL控
………………………………