Skip to content

关于基准性能的问题。 #2

@BrikenBox

Description

@BrikenBox

在 4090 和 5090 GPU 上运行 ./bench.sh 时,我使用 BK1: pmul_naf + opt_modmul 和 BK1: fpmul + opt_modmul 获得了更好的吞吐量,但其他经过优化的批量乘法并没有达到这个吞吐量。

这是预料之中的吗?由于论文使用的是 A100 GPU,而我使用的是 4090 和 5090 消费级 GPU,所以我遇到了这个问题?

有什么方法可以针对 4090 和 5090 进行优化吗?

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions