您好,由于Reranker采用的是双向注意力,无kv cache机制,因此使用vllm部署并不会有较大的提升。您可以尝试转成onnx _Originally posted by @Kaguya-19 in https://github.com/OpenBMB/MiniCPM/issues/258#issuecomment-2461252273_