关于latent mask

您好！您的工作非常棒！对于其中的打分模块和FP预测模块我有一个问题想问您：
我注意到在用打分器生成latent mask的时候通过ILP/贪心算法查找了分数最高的n个token，但是在这一步并没有保存对应的latent mask，只保存了latent num，而在进行FP预测的时候会根据latent num保留前n个token，我想请问这样设计的目的是什么？为什么不直接根据latent mask保留对应的token呢？这样做的话在FP预测的时候gt并不是对应分数最高的token。