在 4090 和 5090 GPU 上运行 ./bench.sh 时,我使用 BK1: pmul_naf + opt_modmul 和 BK1: fpmul + opt_modmul 获得了更好的吞吐量,但其他经过优化的批量乘法并没有达到这个吞吐量。 这是预料之中的吗?由于论文使用的是 A100 GPU,而我使用的是 4090 和 5090 消费级 GPU,所以我遇到了这个问题? 有什么方法可以针对 4090 和 5090 进行优化吗?
在 4090 和 5090 GPU 上运行 ./bench.sh 时,我使用 BK1: pmul_naf + opt_modmul 和 BK1: fpmul + opt_modmul 获得了更好的吞吐量,但其他经过优化的批量乘法并没有达到这个吞吐量。
这是预料之中的吗?由于论文使用的是 A100 GPU,而我使用的是 4090 和 5090 消费级 GPU,所以我遇到了这个问题?
有什么方法可以针对 4090 和 5090 进行优化吗?