hack-SysML/memory-efficiency/RMM.md at master · Oldify/hack-SysML

一句话总结： RAPIDS 组里研发的 RMM 系列比 CUDA 里默认的 cudaMalloc 和 cudaFree 性能要好。主要能力在加速，而非节省显存上。

它的特点：

RMM 里的子分配(suballocation)

为什么能达到高性能？通过从底层拿到一块大的内存，然后切分到更小的块给上面的应用层使用。大部分高效的分配器都是这样工作的。

几个默认的实现：

里面有性能对比的图