关于基准性能的问题。

在 4090 和 5090 GPU 上运行 ./bench.sh 时，我使用 BK1: pmul_naf + opt_modmul 和 BK1: fpmul + opt_modmul 获得了更好的吞吐量，但其他经过优化的批量乘法并没有达到这个吞吐量。

这是预料之中的吗？由于论文使用的是 A100 GPU，而我使用的是 4090 和 5090 消费级 GPU，所以我遇到了这个问题？

有什么方法可以针对 4090 和 5090 进行优化吗？