[train] try out vl norm loss aggregation method

We currently support a few loss reduction methods:
1. `sequence_mean`: GRPO
2. `token_mean`: DAPO
3. `seq_mean_token_sum_norm`: Dr. GRPO

[This paper](https://arxiv.org/pdf/2509.07558) proposes a different way ("VL Norm") to reduce the loss that "provides an unbiased estimate of the true policy loss but also minimizes gradient variance"

cc @erictang000 

<img width="1180" height="370" alt="Image" src="https://github.com/user-attachments/assets/d8fc1614-e763-48a5-85a0-638d509cce07" />

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[train] try out vl norm loss aggregation method #1245

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

[train] try out vl norm loss aggregation method #1245

Description

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions