From 9a3e86d343dffc716053ebcbff99d0a55a1151d4 Mon Sep 17 00:00:00 2001
From: Joel Lamy-Poirier <joel.lamy-poirier@servicenow.com>
Date: Thu, 29 Jan 2026 16:05:09 -0500
Subject: [PATCH 01/37] Entropy loss tweaks

---
 fast_llm/core/distributed.py                  |  39 +-
 fast_llm/core/ops.py                          |   7 +-
 fast_llm/data/{ => data}/data_loader.py       |   0
 fast_llm/data/data/gpt/data.py                |   2 +-
 fast_llm/data/preprocessing/tokenizer.py      |  22 +-
 fast_llm/data/sample/patch.py                 |   2 +-
 fast_llm/data/sample/range.py                 |   2 +-
 fast_llm/data/sample/token.py                 |   2 +-
 fast_llm/engine/checkpoint/config.py          |   3 +-
 fast_llm/engine/multi_stage/fsdp.py           |   3 +-
 fast_llm/engine/multi_stage/multi_stage.py    |   3 +-
 fast_llm/functional/entropy_loss.py           | 240 ++++++------
 fast_llm/functional/triton/cross_entropy.py   |  13 +-
 fast_llm/layers/language_model/loss/dpo.py    |  18 +-
 .../language_model/loss/entropy_loss.py       |  70 +++-
 fast_llm/layers/language_model/loss/loss.py   |   2 +-
 fast_llm/layers/language_model/loss/z_loss.py |  48 ++-
 fast_llm/models/gpt/config.py                 |   5 +
 fast_llm/models/gpt/trainer.py                |   4 +-
 tests/functional/test_entropy_loss.py         | 178 ---------
 tests/functional/test_functional.py           |  56 ---
 tests/layers/test_lm_losses.py                | 346 ++++++++++++++++++
 tests/models/test_checkpoint.py               |   4 -
 tests/models/test_model.py                    |   2 -
 tests/utils/dataset.py                        |   6 +-
 tests/utils/subtest.py                        |  21 +-
 26 files changed, 658 insertions(+), 440 deletions(-)
 rename fast_llm/data/{ => data}/data_loader.py (100%)
 delete mode 100644 tests/functional/test_entropy_loss.py
 create mode 100644 tests/layers/test_lm_losses.py

diff --git a/fast_llm/core/distributed.py b/fast_llm/core/distributed.py
index da443c4f6..16f7d92c8 100644
--- a/fast_llm/core/distributed.py
+++ b/fast_llm/core/distributed.py
@@ -15,7 +15,6 @@
 
 import torch
 import torch.monitor
-from torch._C._distributed_c10d import Work
 from torch.distributed import (  # noqa
     ProcessGroup,
     ReduceOp,
@@ -29,6 +28,15 @@
 logger = logging.getLogger(__name__)
 
 
+def _get_device(group: ProcessGroup) -> torch.device:
+    if torch.distributed.is_nccl_available() and isinstance(group, torch.distributed.ProcessGroupNCCL):
+        return torch.device(torch.cuda.current_device())
+    elif isinstance(group, torch.distributed.ProcessGroupGloo):
+        return torch.device("cpu")
+    else:
+        raise NotImplementedError(type(group))
+
+
 @contextlib.contextmanager
 def set_timeout(group: ProcessGroup | None, timeout: float | None = None):
     if group is not None and timeout is not None:
@@ -42,7 +50,7 @@ def set_timeout(group: ProcessGroup | None, timeout: float | None = None):
 
 def broadcast(
     tensor: torch.Tensor, src: int, group: ProcessGroup, async_op=False, timeout: float | None = None
-) -> Work | None:
+) -> torch.distributed.Work | None:
     """Same as torch.distributed.broadcast, but without the complication of going through the global rank."""
     assert group is not None
     opts = torch.distributed.BroadcastOptions()
@@ -72,12 +80,10 @@ def check_parallel_match(tensor: torch.Tensor, group: ProcessGroup | None, name:
         )
 
 
-def safe_barrier(
-    group: ProcessGroup | None, value: int | str = 1, timeout: float | None = None, device: torch.device | None = None
-) -> None:
+def safe_barrier(group: ProcessGroup | None, value: int | str = 1, timeout: float | None = None) -> None:
     if group:
         hashed = hash(value) % 2**32
-        out = allreduce_scalar(hashed, dtype=torch.int64, group=group, timeout=timeout, device=device)
+        out = allreduce_scalar(hashed, dtype=torch.int64, group=group, timeout=timeout)
         if out != hashed * group.size():
             raise RuntimeError(f"Desync detected for barrier {value} ({out}!={hashed*group.size()})")
 
@@ -88,10 +94,9 @@ def allreduce_scalar(
     group: torch.distributed.ProcessGroup | None = None,
     op=ReduceOp.SUM,
     timeout: float | None = None,
-    device: torch.device | None = None,
 ) -> float | int:
     if group:
-        value = torch.full([1], value, dtype=dtype, device=torch.cuda.current_device() if device is None else device)
+        value = torch.full([1], value, dtype=dtype, device=_get_device(group))
         with set_timeout(group, timeout):
             torch.distributed.all_reduce(value, op=op, group=group)
         return value.item()
@@ -106,7 +111,7 @@ def all_gather_scalar(
     timeout: float | None = None,
 ):
     if group:
-        value = torch.full([1], value, dtype=dtype, device=torch.cuda.current_device())
+        value = torch.full([1], value, dtype=dtype, device=_get_device(group))
         output_tensor = value.new_empty((group.size(),))
         with set_timeout(group, timeout):
             torch.distributed.all_gather_into_tensor(output_tensor, value, group=group)
@@ -116,7 +121,7 @@ def all_gather_scalar(
 
 
 def broadcast_scalar(
-    value: float | int,
+    value: float | int | None,
     dtype: torch.dtype = torch.float64,
     group: torch.distributed.ProcessGroup | None = None,
     src: int = 0,
@@ -124,7 +129,7 @@ def broadcast_scalar(
 ) -> float | int:
     if not group:
         return value
-    tensor = torch.empty([1], dtype=dtype, device=torch.device(torch.cuda.current_device()))
+    tensor = torch.empty([1], dtype=dtype, device=torch.device(_get_device(group)))
     if group.rank() == src:
         tensor.fill_(value)
     broadcast(tensor, src, group, timeout=timeout)
@@ -141,19 +146,21 @@ def broadcast_object(input_object: typing.Any | None, group: ProcessGroup | None
     if group.rank() == src:
         tensor = _object_to_tensor(input_object)
         size = tensor.numel()
-        broadcast_tensor = torch.empty(size, dtype=torch.uint8, device=torch.cuda.current_device())
+        broadcast_tensor = torch.empty(size, dtype=torch.uint8, device=_get_device(group))
         broadcast_tensor.copy_(tensor)
         broadcast_scalar(size, torch.int64, group, src)
         broadcast(broadcast_tensor, src, group)
         return input_object
     else:
         size = int(broadcast_scalar(None, torch.int64, group, src))
-        output_tensor = torch.empty(size, dtype=torch.uint8, device=torch.cuda.current_device())
+        output_tensor = torch.empty(size, dtype=torch.uint8, device=_get_device(group))
         broadcast(output_tensor, src, group)
         return _tensor_to_object(output_tensor)
 
 
-def send(tensor: torch.Tensor, dst: int, group: ProcessGroup, async_op=False, tag: int = 0) -> Work | None:
+def send(
+    tensor: torch.Tensor, dst: int, group: ProcessGroup, async_op=False, tag: int = 0
+) -> torch.distributed.Work | None:
     assert group is not None
     if isinstance(group, torch.distributed.ProcessGroupGloo) and tensor.device.type != "cpu":
         # send not supported for gloo on GPU.
@@ -169,7 +176,9 @@ def send(tensor: torch.Tensor, dst: int, group: ProcessGroup, async_op=False, ta
         return None
 
 
-def recv(tensor: torch.Tensor, src: int, group: ProcessGroup, async_op=False, tag: int = 0) -> Work | None:
+def recv(
+    tensor: torch.Tensor, src: int, group: ProcessGroup, async_op=False, tag: int = 0
+) -> torch.distributed.Work | None:
     assert group is not None
     if isinstance(group, torch.distributed.ProcessGroupGloo) and tensor.device.type != "cpu":
         # recv not supported for gloo on GPU.
diff --git a/fast_llm/core/ops.py b/fast_llm/core/ops.py
index bb61aadd0..7d361a22e 100644
--- a/fast_llm/core/ops.py
+++ b/fast_llm/core/ops.py
@@ -8,7 +8,6 @@
 import torch
 import torch._dynamo  # noqa
 import torch.autograd
-from torch._C._distributed_c10d import Work
 
 from fast_llm.core.distributed import ProcessGroup, ReduceOp, all_gather_into_tensor, all_reduce, reduce_scatter_tensor
 from fast_llm.utils import Assert, div
@@ -18,7 +17,7 @@
 
 def reduce_op(
     input_: torch.Tensor, group: ProcessGroup | None, *, op: ReduceOp = ReduceOp.SUM, async_op: bool = False
-) -> tuple[torch.Tensor, Work] | torch.Tensor:
+) -> tuple[torch.Tensor, torch.distributed.Work] | torch.Tensor:
     if group:
         handle = all_reduce(input_, group=group, async_op=async_op, op=op)
     else:
@@ -62,7 +61,7 @@ def swap_mult_dim(tensor: torch.Tensor, factor: int, old_dim: int, new_dim: int)
 
 def gather_op(
     input_: torch.Tensor, group: ProcessGroup | None, dim: int, async_op: bool = False, out=None
-) -> tuple[torch.Tensor, Work] | torch.Tensor:
+) -> tuple[torch.Tensor, torch.distributed.Work] | torch.Tensor:
     """Gather tensors and concatenate along the last dimension."""
     # Bypass the function if we are using only 1 GPU.
     if not group:
@@ -89,7 +88,7 @@ def reduce_scatter_op(
     op: ReduceOp = ReduceOp.SUM,
     dim: int = 0,
     async_op: bool = False,
-) -> tuple[torch.Tensor, Work] | torch.Tensor:
+) -> tuple[torch.Tensor, torch.distributed.Work] | torch.Tensor:
     """Reduce-scatter the input tensor across model parallel group."""
     # Bypass the function if we are using only 1 GPU.
     if not group:
diff --git a/fast_llm/data/data_loader.py b/fast_llm/data/data/data_loader.py
similarity index 100%
rename from fast_llm/data/data_loader.py
rename to fast_llm/data/data/data_loader.py
diff --git a/fast_llm/data/data/gpt/data.py b/fast_llm/data/data/gpt/data.py
index e572e8e61..17f151919 100644
--- a/fast_llm/data/data/gpt/data.py
+++ b/fast_llm/data/data/gpt/data.py
@@ -8,8 +8,8 @@
 
 from fast_llm.core.distributed import safe_barrier
 from fast_llm.data.data.abstract import Data
+from fast_llm.data.data.data_loader import SampledDatasetIterator
 from fast_llm.data.data.gpt.config import GPTDataConfig
-from fast_llm.data.data_loader import SampledDatasetIterator
 from fast_llm.data.dataset.abstract import SampledDataset
 from fast_llm.data.dataset.config import SamplingParameters
 from fast_llm.data.dataset.gpt.config import GPTSamplingData
diff --git a/fast_llm/data/preprocessing/tokenizer.py b/fast_llm/data/preprocessing/tokenizer.py
index 157744f51..4408ca772 100644
--- a/fast_llm/data/preprocessing/tokenizer.py
+++ b/fast_llm/data/preprocessing/tokenizer.py
@@ -11,6 +11,7 @@
 if typing.TYPE_CHECKING:
     import numpy as np
     import torch
+    import transformers
 
 
 @config_class(dynamic_type={PreprocessingConfig: "tokenizer"})
@@ -52,7 +53,7 @@ def __init__(self, config: ConfigType):
         from transformers import AutoTokenizer
 
         log_main_rank(f"> loading tokenizer from {config.path} ...")
-        self.tokenizer = AutoTokenizer.from_pretrained(
+        self.tokenizer: "transformers.PreTrainedTokenizer" = AutoTokenizer.from_pretrained(
             pretrained_model_name_or_path=self._config.path,
             errors="replace",
             max_len=None,
@@ -70,10 +71,15 @@ def __init__(self, config: ConfigType):
 
     @functools.cached_property
     def vocab_size(self) -> int:
-        out = len(self.tokenizer)
-        if self._config.max_vocab_size is not None:
-            out = min(out, self._config.max_vocab_size)
-        return out
+        return (
+            self._tokenizer_vocab_size
+            if self._config.max_vocab_size is None
+            else min(self._tokenizer_vocab_size, self._config.max_vocab_size)
+        )
+
+    @functools.cached_property
+    def _tokenizer_vocab_size(self) -> int:
+        return len(self.tokenizer)
 
     @property
     def vocab(self) -> dict[str, int]:
@@ -99,7 +105,11 @@ def tokenize(
             tokens = (
                 torch.tensor(
                     tokens,
-                    dtype=torch.int64 if len(self.tokenizer) > torch.iinfo(data_type.torch).max else data_type.torch,
+                    dtype=(
+                        torch.int64
+                        if self._tokenizer_vocab_size > torch.iinfo(data_type.torch).max
+                        else data_type.torch
+                    ),
                 )
                 % self._config.max_vocab_size
             ).to(data_type.torch)
diff --git a/fast_llm/data/sample/patch.py b/fast_llm/data/sample/patch.py
index 7ae537104..32ea60cb8 100644
--- a/fast_llm/data/sample/patch.py
+++ b/fast_llm/data/sample/patch.py
@@ -85,7 +85,7 @@ def __len__(self) -> int:
         return self.sample_size
 
     def get_padding(self, size: int) -> typing.Self:
-        return PatchSample(
+        return self.__class__(
             self.patches.new_empty((0, *self.patches.shape[1:])),
             self.token_map.new_empty(0),
             self.positions.new_empty([0, self.patches.ndim - 2]),
diff --git a/fast_llm/data/sample/range.py b/fast_llm/data/sample/range.py
index 53683342a..f57ee04d9 100644
--- a/fast_llm/data/sample/range.py
+++ b/fast_llm/data/sample/range.py
@@ -52,7 +52,7 @@ def __len__(self) -> int:
         return self.sample_size
 
     def get_padding(self, size: int) -> typing.Self:
-        return RangeSample([], size)
+        return self.__class__([], size)
 
 
 class RangeBatch(Batch):
diff --git a/fast_llm/data/sample/token.py b/fast_llm/data/sample/token.py
index cd4d7fa02..6ab55dbba 100644
--- a/fast_llm/data/sample/token.py
+++ b/fast_llm/data/sample/token.py
@@ -58,7 +58,7 @@ def __len__(self) -> int:
         return len(self.tokens)
 
     def get_padding(self, size: int) -> typing.Self:
-        return TokenSample(torch.full([size], -100, dtype=self.tokens.dtype), [size])
+        return self.__class__(torch.full([size], -100, dtype=self.tokens.dtype), [size])
 
 
 class TokenBatch(Batch):
diff --git a/fast_llm/engine/checkpoint/config.py b/fast_llm/engine/checkpoint/config.py
index 3f1970538..98303539e 100644
--- a/fast_llm/engine/checkpoint/config.py
+++ b/fast_llm/engine/checkpoint/config.py
@@ -141,11 +141,12 @@ class CheckpointSaveConfigBase(CheckpointConfigBase):
 
 @config_class()
 class CheckpointStateSaveConfigBase(CheckpointSaveConfigBase, CheckpointStateConfigBase):
+    _abstract = False
     model_weights: bool = FieldUpdate(desc="Save the model weights.")
     optimizer_state: bool = FieldUpdate(desc="Save the optimizer state. Default: save if supported by the `format`.")
 
     def _validate(self) -> None:
-        if self.optimizer_state is None:
+        if self.optimizer_state is None and hasattr(self.format, "support_optimizer"):
             with self._set_implicit_default():
                 # TODO: Make sure it's a type
                 self.optimizer_state = self.format.support_optimizer
diff --git a/fast_llm/engine/multi_stage/fsdp.py b/fast_llm/engine/multi_stage/fsdp.py
index ae37410ae..f84f36309 100644
--- a/fast_llm/engine/multi_stage/fsdp.py
+++ b/fast_llm/engine/multi_stage/fsdp.py
@@ -4,7 +4,6 @@
 import typing
 
 import torch
-from torch._C._distributed_c10d import ReduceOp
 from torch.distributed import all_reduce, reduce_scatter_tensor
 
 from fast_llm.core.distributed import ProcessGroup
@@ -398,7 +397,7 @@ def reduce_gradients(
                 out,
                 self._grad_buffer,
                 group=self._fsdp_group,
-                op=ReduceOp.AVG,
+                op=torch.distributed.ReduceOp.AVG,
             )
             if accumulate:
                 triton_add(self._grad_shard, out, self._grad_shard)
diff --git a/fast_llm/engine/multi_stage/multi_stage.py b/fast_llm/engine/multi_stage/multi_stage.py
index 698f62daa..ed293b103 100644
--- a/fast_llm/engine/multi_stage/multi_stage.py
+++ b/fast_llm/engine/multi_stage/multi_stage.py
@@ -4,7 +4,6 @@
 import warnings
 
 import torch
-from torch._C._distributed_c10d import ProcessGroup
 
 from fast_llm.config import Configurable
 from fast_llm.engine.base_model.base_model import BaseModel
@@ -611,7 +610,7 @@ class TiedParameter:
     # Whether the local rank is involved at all.
     on_device: bool
     # Process group for reduction.
-    group: ProcessGroup | None = dataclasses.field(repr=False, init=False)
+    group: torch.distributed.ProcessGroup | None = dataclasses.field(repr=False, init=False)
     all_ranks: set[int]
     # The index of the main stage.
     main_stage: int
diff --git a/fast_llm/functional/entropy_loss.py b/fast_llm/functional/entropy_loss.py
index f1212f4b8..4bdf87c3f 100644
--- a/fast_llm/functional/entropy_loss.py
+++ b/fast_llm/functional/entropy_loss.py
@@ -1,31 +1,42 @@
 import torch
 
 from fast_llm.core.distributed import ProcessGroup, ReduceOp, all_reduce
-from fast_llm.functional.config import EntropyLossImplementation, EntropyLossType, TargetFormat
-from fast_llm.functional.triton.cross_entropy import triton_cross_entropy_forward_backward
+from fast_llm.functional.config import EntropyLossType, TargetFormat
 from fast_llm.utils import Assert
 
 
-def _torch_entropy_loss_forward_backward(
-    logits: torch.Tensor,
-    target: torch.Tensor,
-    loss_mask: torch.Tensor | None,
+@torch.compile
+def torch_entropy_loss_forward_backward(
+    logits: torch.Tensor,  # (*batch, vocab)
+    target: torch.Tensor,  # (*batch,) or (*batch, vocab)
+    loss_mask: torch.Tensor | None,  # (*batch,)
     grad_output: float | None,
     logits_scale_factor: float,
     target_format: TargetFormat,
     entropy_loss_type: EntropyLossType,
     temperature: float = 1.0,
-) -> tuple[torch.Tensor, torch.Tensor | None]:
+) -> tuple[torch.Tensor, torch.Tensor | None]:  # (), (*batch, vocab)
     """
     A wrapper for the pytorch implementation of cross-entropy.
     The cross-entropy kernels themselves are well-optimized, but the need for explicit casting
     and separate forward and backward kernels lead to poor performance.
-    TODO: loss masking only works for with labels format and if the masking index is set to -100.
     """
+
+    # Torch methods require flattened batch dimension.
+    target = target.flatten() if target_format == TargetFormat.labels else target.flatten(0, -2)
+    if target_format == TargetFormat.labels:
+        assert loss_mask is None
+        loss_mask = target >= 0
+    else:
+        target = target.float()
+        if loss_mask is not None:
+            loss_mask = loss_mask.flatten()
+
     # Torch compile doesn't understand this.
     with torch.set_grad_enabled(grad_output is not None):
         logits_ = logits.float().detach().requires_grad_(grad_output is not None)
-        logits_scaled = logits_ if logits_scale_factor == 1.0 else logits_ * logits_scale_factor
+
+        logits_scaled = (logits_ if logits_scale_factor == 1.0 else logits_ * logits_scale_factor).flatten(0, -2)
         if target_format == TargetFormat.logits:
             target_scale = logits_scale_factor / temperature
             target = target if target_scale == 1.0 else target * target_scale
@@ -35,9 +46,7 @@ def _torch_entropy_loss_forward_backward(
         if entropy_loss_type == EntropyLossType.cross_entropy:
             if target_format == TargetFormat.logits:
                 target = torch.softmax(target, dim=-1)
-            loss = torch.nn.functional.cross_entropy(
-                logits_scaled, target, reduction="mean" if loss_mask is None else "none"
-            )
+            loss = torch.nn.functional.cross_entropy(logits_scaled, target, reduction="none")
         else:
             predicted_log_probability = torch.nn.functional.log_softmax(logits_scaled, dim=-1)
             if target_format == TargetFormat.logits:
@@ -45,30 +54,33 @@ def _torch_entropy_loss_forward_backward(
             elif target_format == TargetFormat.probabilities:
                 target_log_probability = target.log()
             else:
-                target_log_probability = (
-                    torch.nn.functional.one_hot(target, num_classes=logits_scaled.size(-1)).add(1.0e-10).log()
+                target_probability = torch.nn.functional.one_hot(
+                    torch.clamp_min(target, 0), num_classes=logits_scaled.size(-1)
                 )
+                if loss_mask is not None:
+                    target_probability = target_probability * loss_mask.unsqueeze(-1)
+                target_log_probability = target_probability.add(1.0e-10).log()
             if entropy_loss_type == EntropyLossType.forward_kl:
                 loss = torch.nn.functional.kl_div(
                     predicted_log_probability,
                     target_log_probability,
-                    reduction="batchmean" if loss_mask is None else "none",
+                    reduction="none",
                     log_target=True,
                 )
             elif entropy_loss_type == EntropyLossType.reverse_kl:
                 loss = torch.nn.functional.kl_div(
                     target_log_probability,
                     predicted_log_probability,
-                    reduction="batchmean" if loss_mask is None else "none",
+                    reduction="none",
                     log_target=True,
                 )
             else:
                 raise NotImplementedError(entropy_loss_type)
-            if loss_mask is not None:
-                loss = loss.sum(dim=-1)
+            loss = loss.sum(dim=-1)
 
         if loss_mask is not None:
-            loss = (loss * loss_mask).mean()
+            loss = loss * loss_mask
+        loss = loss.mean()
 
         if grad_output is None:
             grad = None
@@ -79,42 +91,54 @@ def _torch_entropy_loss_forward_backward(
 
 
 @torch.compile
-def _fused_softmax_base(
-    logits: torch.Tensor, logits_scale_factor: float = 1.0, group: ProcessGroup | None = None, dim: int = -1
-) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor]:
+def fused_softmax_base(
+    logits: torch.Tensor,  # (*batch, vocab)
+    logits_scale_factor: float = 1.0,
+    group: ProcessGroup | None = None,
+    dim: int = -1,
+) -> tuple[
+    torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor
+]:  # (*batch, vocab), (*batch, vocab), (*batch,), (*batch,)
+    """
+    Calculate the required inputs for softmax computation, mainly sum_exp_logits,
+    in a numerically stable way and with tensor-parallel support.
+    Warning: The returned values are regularized by `logits_max`.
+        The regularization typically but not always cancels out in derived quantities.
+    """
     logits = logits.float()
     if logits_scale_factor != 1.0:
         logits = logits * logits_scale_factor
-    logits_max = torch.max(logits, dim=dim, keepdim=True)[0]
+    logits_max = logits.max(dim=dim)[0]
     if group is not None:
         all_reduce(logits_max, op=ReduceOp.MAX, group=group)
-    logits_norm = (logits - logits_max).float()
+    logits_norm = (logits - logits_max.unsqueeze(-1)).float()
     exp_logits = logits_norm.exp()
-    sum_exp_logits = exp_logits.sum(dim=dim, keepdim=True)
+    sum_exp_logits = exp_logits.sum(dim=dim)
     if group is not None:
         all_reduce(sum_exp_logits, op=ReduceOp.SUM, group=group)
-    return logits_norm, exp_logits, sum_exp_logits
+    return logits_norm, exp_logits, sum_exp_logits, logits_max
 
 
 @torch.compile
 def _fused_reverse_kl_base(
-    logits: torch.Tensor,
-    target: torch.Tensor,
+    logits: torch.Tensor,  # (*batch, vocab)
+    target: torch.Tensor,  # (*batch, vocab)
     grad_output: float | None,
     logits_scale_factor: float,
     target_format: TargetFormat,
     group: ProcessGroup | None = None,
     temperature: float = 1.0,
-):
-    logits_norm, exp_logits, sum_exp_logits = _fused_softmax_base(logits, logits_scale_factor, group)
-    predicted_log_probability = logits_norm - sum_exp_logits.log()
-    predicted_probability = exp_logits / sum_exp_logits
+) -> tuple[torch.Tensor, torch.Tensor | None]:  # (*batch,), (*batch, vocab)
+    assert target_format in (TargetFormat.logits, TargetFormat.probabilities)
+    logits_norm, exp_logits, sum_exp_logits, _ = fused_softmax_base(logits, logits_scale_factor, group)
+    predicted_log_probability = logits_norm - sum_exp_logits.log().unsqueeze(-1)
+    predicted_probability = exp_logits / sum_exp_logits.unsqueeze(-1)
 
     if target_format == TargetFormat.logits:
-        target_logits_norm, _, sum_exp_target_logits = _fused_softmax_base(
+        target_logits_norm, _, sum_exp_target_logits, _ = fused_softmax_base(
             target, logits_scale_factor / temperature, group
         )
-        target_log_probability = target_logits_norm - sum_exp_target_logits.log()
+        target_log_probability = target_logits_norm - sum_exp_target_logits.log().unsqueeze(-1)
     else:
         target_log_probability = torch.log(target)
 
@@ -137,32 +161,32 @@ def _fused_reverse_kl_base(
 
 @torch.compile
 def _fused_cross_entropy_base(
-    logits: torch.Tensor,
-    target: torch.Tensor,
+    logits: torch.Tensor,  # (*batch, vocab)
+    target: torch.Tensor,  # (*batch, vocab)
     grad_output: float | None,
     logits_scale_factor: float,
     target_format: TargetFormat,
     group: ProcessGroup | None = None,
     temperature: float = 1.0,
     return_kl_loss: bool = False,
-):
-    logits_norm, exp_logits, sum_exp_logits = _fused_softmax_base(logits, logits_scale_factor, group)
+) -> tuple[torch.Tensor, torch.Tensor | None]:  # (*batch,), (*batch, vocab)
+    logits_norm, exp_logits, sum_exp_logits, _ = fused_softmax_base(logits, logits_scale_factor, group)
 
     if target_format == TargetFormat.logits:
-        target_logits_norm, exp_logits_targets, sum_exp_target_logits = _fused_softmax_base(
+        target_logits_norm, exp_logits_targets, sum_exp_target_logits, _ = fused_softmax_base(
             target, logits_scale_factor / temperature, group
         )
-        target = exp_logits_targets / sum_exp_target_logits
+        target = exp_logits_targets / sum_exp_target_logits.unsqueeze(-1)
 
     # CE loss = mean(log(sum_exp_logits) - sum(probabilities * logits))
     # KL loss = mean(log(sum_exp_logits) - sum(probabilities * (logits - log_probabilities))
     if return_kl_loss:
         if target_format == TargetFormat.logits:
-            target_log_probability = target_logits_norm - sum_exp_target_logits.log()
+            target_log_probability = target_logits_norm - sum_exp_target_logits.log().unsqueeze(-1)
         else:
             target_log_probability = torch.log(target)
         logits_norm = logits_norm - target_log_probability
-    predicted_logits = (target * logits_norm).sum(dim=-1, keepdim=True)
+    predicted_logits = (target * logits_norm).sum(dim=-1)
     if group is not None:
         # We need to sum the over the tensor-parallel group,
         # but this is handled in the final averaging provided we multiply by the group size.
@@ -174,41 +198,63 @@ def _fused_cross_entropy_base(
         grad = None
     else:
         # grad / grad_output = exp_logits / sum_exp_logits - target_probabilities.
-        grad = (exp_logits - sum_exp_logits * target) * (grad_output / sum_exp_logits)
+        grad = (exp_logits - sum_exp_logits.unsqueeze(-1) * target) * (grad_output / sum_exp_logits.unsqueeze(-1))
 
     return per_sample_loss, grad
 
 
 @torch.compile
-def _fused_cross_entropy_base_from_labels(
-    logits: torch.Tensor,
-    target: torch.Tensor,
-    loss_mask: torch.Tensor,
-    grad_output: float | None,
-    logits_scale_factor: float,
+def fused_predicted_logits_from_labels(
+    logits: torch.Tensor,  # (*batch, vocab)
+    target: torch.Tensor,  # (*batch,)
+    loss_mask: torch.Tensor,  # (*batch,), == target>=0
     group: ProcessGroup | None = None,
-):
-    logits_norm, exp_logits, sum_exp_logits = _fused_softmax_base(logits, logits_scale_factor, group)
+) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor]:  # (*batch,), (*batch,), (*batch,)
+    """
+    Recover the value of the logits at the target index, with support for masking (target < 0) and tensor parallelism.
+    In the simple case, equivalent to `logits.gather(dim=-1, index=targets.unsqueeze(-1)).squeeze(-1)`
 
-    target = target.unsqueeze(-1)
+    Normally used in combination with `fused_softmax_base`, may also recover probabilities or log probabilities:
+    `predicted_probabilities = predicted_logits.exp() / sum_exp_logits`
+    `predicted_log_probabilities = predicted_logits / sum_exp_logits.log()`
+    """
 
     if group is None:
         # Keep values within range for scatter and gather ops to work.
-        target = target * loss_mask.unsqueeze(-1)
+        target_masked = target * loss_mask
         target_mask = None
     else:
-        # Mask the target (fused)
+        # Mask the target (fused).
         # TODO: Could mask earlier on cpu or overlap with reduce?
         vocab_start_index = logits.size(-1) * group.rank()
         target_mask = (target >= vocab_start_index) * (target < vocab_start_index + logits.size(-1))
-        target = (target - vocab_start_index) * target_mask
+        target_masked = (target - vocab_start_index) * target_mask
 
     # CE loss = mean(log(sum_exp_logits) - sum(probabilities * logits))
     # KL loss is the same because P * log(P) == 0.
-    predicted_logits = logits_norm.gather(1, target)
+    predicted_logits = logits.gather(-1, target_masked.unsqueeze(-1)).squeeze(-1)
     if group is not None:
         predicted_logits = target_mask * predicted_logits
         all_reduce(predicted_logits, op=ReduceOp.SUM, group=group)
+    return predicted_logits, target_masked, target_mask
+
+
+@torch.compile
+def _fused_cross_entropy_base_from_labels(
+    logits: torch.Tensor,  # (*batch, vocab)
+    target: torch.Tensor,  # (*batch,)
+    loss_mask: torch.Tensor,  # (*batch,)
+    grad_output: float | None,
+    logits_scale_factor: float,
+    group: ProcessGroup | None = None,
+) -> tuple[torch.Tensor, torch.Tensor | None]:  # (*batch,), (*batch, vocab)
+    logits_norm, exp_logits, sum_exp_logits, _ = fused_softmax_base(logits, logits_scale_factor, group)
+    predicted_logits, target_masked, target_mask = fused_predicted_logits_from_labels(
+        logits_norm, target, loss_mask, group
+    )
+
+    # CE loss = mean(log(sum_exp_logits) - sum(probabilities * logits))
+    # KL loss is the same because P * log(P) == 0.
     per_sample_loss = sum_exp_logits.log() - predicted_logits
 
     if grad_output is None:
@@ -216,17 +262,19 @@ def _fused_cross_entropy_base_from_labels(
     else:
         # grad / grad_output = exp_logits / sum_exp_logits - target_probabilities.
         grad = exp_logits.scatter_add(
-            1, target, -sum_exp_logits if target_mask is None else -(target_mask * sum_exp_logits)
-        ) * (grad_output / sum_exp_logits)
+            -1,
+            target_masked.unsqueeze(-1),
+            -sum_exp_logits.unsqueeze(-1) if target_mask is None else -(target_mask * sum_exp_logits).unsqueeze(-1),
+        ) * (grad_output / sum_exp_logits.unsqueeze(-1))
 
     return per_sample_loss, grad
 
 
 @torch.compile
-def _fused_entropy_loss_forward_backward(
-    logits: torch.Tensor,
-    target: torch.Tensor,
-    loss_mask: torch.Tensor | None,
+def fused_entropy_loss_forward_backward(
+    logits: torch.Tensor,  # (*batch, vocab)
+    target: torch.Tensor,  # (*batch,) or (*batch, vocab)
+    loss_mask: torch.Tensor | None,  # (*batch,)
     grad_output: float | None,
     logits_scale_factor: float,
     target_format: TargetFormat,
@@ -239,11 +287,11 @@ def _fused_entropy_loss_forward_backward(
     It is an improvement over the pytorch implementation because of the fused casting, both in speed and memory,
     but still suboptimal because it needs multiple kernels.
     """
-    grad_output = None if grad_output is None else grad_output / logits.size(0) * logits_scale_factor
+    grad_output = None if grad_output is None else grad_output / logits.shape[:-1].numel() * logits_scale_factor
     if target_format == TargetFormat.labels:
         assert entropy_loss_type in (EntropyLossType.cross_entropy, EntropyLossType.forward_kl)
-        if loss_mask is None:
-            loss_mask = target >= 0
+        assert loss_mask is None
+        loss_mask = target >= 0
         per_sample_loss, grad = _fused_cross_entropy_base_from_labels(
             logits,
             target,
@@ -277,7 +325,7 @@ def _fused_entropy_loss_forward_backward(
         raise NotImplementedError(entropy_loss_type)
 
     if loss_mask is not None:
-        per_sample_loss = per_sample_loss * loss_mask.unsqueeze(-1)
+        per_sample_loss = per_sample_loss * loss_mask
     loss = per_sample_loss.mean()
 
     if grad is not None:
@@ -286,63 +334,3 @@ def _fused_entropy_loss_forward_backward(
         grad = grad.to(logits.dtype)
 
     return loss, grad
-
-
-_ENTROPY_LOSS_IMPLEMENTATIONS = {
-    EntropyLossImplementation.torch: _torch_entropy_loss_forward_backward,
-    EntropyLossImplementation.fused: _fused_entropy_loss_forward_backward,
-    EntropyLossImplementation.triton: triton_cross_entropy_forward_backward,
-}
-
-
-def entropy_loss_forward_backward(
-    logits: torch.Tensor,
-    target: torch.Tensor,
-    loss_mask: torch.Tensor | None,
-    grad_output: float | None,
-    group: ProcessGroup | None = None,
-    implementation: EntropyLossImplementation = EntropyLossImplementation.fused,
-    logits_scale_factor: float = 1.0,
-    temperature: float = 1.0,
-    target_format: TargetFormat = TargetFormat.labels,
-    entropy_loss_type: EntropyLossType = EntropyLossType.cross_entropy,
-) -> tuple[torch.Tensor, torch.Tensor | None]:
-    """
-    Select the appropriate implementation of cross-entropy.
-    The triton implementation from the triton submodule is the fastest and recommended one.
-    It doesn't have a tensor-parallel implementation, but can be computed in a sequence-tensor-parallel way,
-    which is faster and has a relatively small memory overhead.
-    """
-    if target_format == TargetFormat.labels:
-        Assert.eq(target.shape, logits.shape[:-1])
-        Assert.eq(target.dtype, torch.int64)
-        assert loss_mask is None
-    else:
-        Assert.eq(target.shape, logits.shape)
-        assert target.dtype.is_floating_point, target.dtype
-        if loss_mask is not None:
-            Assert.eq(loss_mask.shape, logits.shape[:-1])
-    if group:
-        Assert.eq(implementation, EntropyLossImplementation.fused)
-        return _fused_entropy_loss_forward_backward(
-            logits,
-            target,
-            loss_mask,
-            grad_output,
-            logits_scale_factor,
-            target_format,
-            entropy_loss_type,
-            group,
-            temperature,
-        )
-    else:
-        return _ENTROPY_LOSS_IMPLEMENTATIONS[implementation](
-            logits,
-            target,
-            loss_mask,
-            grad_output,
-            logits_scale_factor,
-            target_format,
-            entropy_loss_type,
-            temperature=temperature,
-        )
diff --git a/fast_llm/functional/triton/cross_entropy.py b/fast_llm/functional/triton/cross_entropy.py
index 709d0c52d..ef2039ade 100644
--- a/fast_llm/functional/triton/cross_entropy.py
+++ b/fast_llm/functional/triton/cross_entropy.py
@@ -140,7 +140,8 @@ def triton_cross_entropy_forward_backward(
     # TODO: Improve assumptions.
     assert logits.is_contiguous()
     assert target.is_contiguous()
-    n_rows, n_cols = logits.shape
+    n_rows = logits.shape[:-1].numel()
+    n_cols = logits.size(-1)
     block_size = triton.next_power_of_2(n_cols)
     assert block_size <= TritonConfig.MAX_BLOCK_SIZE_BYTES
     num_warps = 4 if block_size < 2048 else (8 if block_size < 8192 else 16)
@@ -155,8 +156,8 @@ def triton_cross_entropy_forward_backward(
             losses,
             None if grad_output is None else grad_output / n_rows,
             n_cols,
-            logits.stride(0),
-            None if grad_output is None else grad_logits.stride(0),
+            logits.stride(-2),
+            None if grad_output is None else grad_logits.stride(-2),
             logits_scale_factor,
             block_size=block_size,
             num_warps=num_warps,
@@ -172,9 +173,9 @@ def triton_cross_entropy_forward_backward(
             losses,
             None if grad_output is None else grad_output / n_rows,
             n_cols,
-            logits.stride(0),
-            target.stride(0),
-            None if grad_output is None else grad_logits.stride(0),
+            logits.stride(-2),
+            target.stride(-2),
+            None if grad_output is None else grad_logits.stride(-2),
             logits_scale_factor,
             block_size=block_size,
             num_warps=num_warps,
diff --git a/fast_llm/layers/language_model/loss/dpo.py b/fast_llm/layers/language_model/loss/dpo.py
index 15c4c788c..2194c6f86 100644
--- a/fast_llm/layers/language_model/loss/dpo.py
+++ b/fast_llm/layers/language_model/loss/dpo.py
@@ -49,17 +49,18 @@ def dpo_loss(
     beta: float = 1.0,
     logits_scale_factor: float = 1.0,
 ) -> torch.Tensor:
+    logits = logits.float()
 
     if logits_scale_factor != 1.0:
         # TODO: Make more efficient.
         logits = logits * logits_scale_factor
 
-    policy_log_probabilities = _get_target_log_probabilities(logits, targets)
+    policy_log_probabilities = get_target_log_probabilities(logits, targets)
     policy_log_ratios = _get_target_log_probability_for_spans(
         policy_log_probabilities, chosen_spans
     ) - _get_target_log_probability_for_spans(policy_log_probabilities, rejected_spans)
 
-    reference_log_probabilities = _get_target_log_probabilities(reference_model_logits.float().detach(), targets)
+    reference_log_probabilities = get_target_log_probabilities(reference_model_logits.float().detach(), targets)
     reference_log_ratios = _get_target_log_probability_for_spans(
         reference_log_probabilities, chosen_spans
     ) - _get_target_log_probability_for_spans(reference_log_probabilities, rejected_spans)
@@ -68,14 +69,17 @@ def dpo_loss(
     return -torch.nn.functional.logsigmoid(beta * (policy_log_ratios - reference_log_ratios)).mean()
 
 
-def _get_target_log_probabilities(logits: torch.Tensor, targets: torch.Tensor):
-    # Gather log probabilities corresponding to the target tokens
-    return torch.nn.functional.log_softmax(logits, dim=-1).gather(dim=-1, index=targets.unsqueeze(-1)).squeeze(-1)
-
-
 def _get_target_log_probability_for_spans(log_probabilities: torch.Tensor, spans: list[list[tuple[int, int]]]):
     return sum(
         log_probabilities[sample_index, begin:end].sum()
         for sample_index, sample_spans in enumerate(spans)
         for begin, end in sample_spans
     )
+
+
+@torch.compile
+def get_target_log_probabilities(logits: torch.Tensor, targets: torch.Tensor) -> torch.Tensor:
+    # Avoid negative (masked) labels.
+    targets = targets * (targets >= 0)
+    # Gather log probabilities corresponding to the target tokens
+    return torch.nn.functional.log_softmax(logits, dim=-1).gather(dim=-1, index=targets.unsqueeze(-1)).squeeze(-1)
diff --git a/fast_llm/layers/language_model/loss/entropy_loss.py b/fast_llm/layers/language_model/loss/entropy_loss.py
index 3ae87d2e9..1dfd3920c 100644
--- a/fast_llm/layers/language_model/loss/entropy_loss.py
+++ b/fast_llm/layers/language_model/loss/entropy_loss.py
@@ -3,15 +3,17 @@
 import torch
 
 from fast_llm.functional.config import EntropyLossImplementation, EntropyLossType, TargetFormat, TritonConfig
-from fast_llm.functional.entropy_loss import entropy_loss_forward_backward
+from fast_llm.functional.entropy_loss import fused_entropy_loss_forward_backward, torch_entropy_loss_forward_backward
+from fast_llm.functional.triton.cross_entropy import triton_cross_entropy_forward_backward
 from fast_llm.layers.language_model.loss.config import (
     LanguageModelDistillationLossConfig,
     LanguageModelLabelEntropyLossConfig,
 )
 from fast_llm.layers.language_model.loss.loss import LanguageModelLoss
+from fast_llm.utils import Assert
 
 
-def _get_imlementation(
+def _get_implementation(
     default: EntropyLossImplementation = EntropyLossImplementation.auto,
     loss_type: EntropyLossType = EntropyLossType.cross_entropy,
     vocab_parallel: bool = False,
@@ -34,7 +36,7 @@ def _get_imlementation(
 class LanguageModelLabelEntropyLoss[ConfigType: LanguageModelLabelEntropyLossConfig](LanguageModelLoss[ConfigType]):
     def __init__(self, *args, **kwargs):
         super().__init__(*args, **kwargs)
-        self._implementation = _get_imlementation(
+        self._implementation = _get_implementation(
             self._config.implementation, self._config.loss_type, self._vocab_parallel
         )
 
@@ -63,7 +65,7 @@ def __init__(self, *args, **kwargs):
         if self._prediction_distance > 0:
             raise NotImplementedError()
 
-        self._implementation = _get_imlementation(
+        self._implementation = _get_implementation(
             self._config.implementation, self._config.loss_type, self._vocab_parallel
         )
 
@@ -84,3 +86,63 @@ def forward_backward(
             target_format=TargetFormat.logits,
             entropy_loss_type=self._config.loss_type,
         )
+
+
+_ENTROPY_LOSS_IMPLEMENTATIONS = {
+    EntropyLossImplementation.torch: torch_entropy_loss_forward_backward,
+    EntropyLossImplementation.fused: fused_entropy_loss_forward_backward,
+    EntropyLossImplementation.triton: triton_cross_entropy_forward_backward,
+}
+
+
+def entropy_loss_forward_backward(
+    logits: torch.Tensor,  # (*batch, vocab)
+    target: torch.Tensor,  # (*batch,) or (*batch, vocab)
+    loss_mask: torch.Tensor | None,  # (*batch,)
+    grad_output: float | None,
+    group: torch.distributed.ProcessGroup | None = None,
+    implementation: EntropyLossImplementation = EntropyLossImplementation.fused,
+    logits_scale_factor: float = 1.0,
+    temperature: float = 1.0,
+    target_format: TargetFormat = TargetFormat.labels,
+    entropy_loss_type: EntropyLossType = EntropyLossType.cross_entropy,
+) -> tuple[torch.Tensor, torch.Tensor | None]:
+    """
+    Select the appropriate implementation of cross-entropy.
+    The triton implementation from the triton submodule is the fastest and recommended one.
+    It doesn't have a tensor-parallel implementation, but can be computed in a sequence-tensor-parallel way,
+    which is faster and has a relatively small memory overhead.
+    """
+    if target_format == TargetFormat.labels:
+        Assert.eq(target.shape, logits.shape[:-1])
+        Assert.eq(target.dtype, torch.int64)
+        assert loss_mask is None
+    else:
+        Assert.eq(target.shape, logits.shape)
+        assert target.dtype.is_floating_point, target.dtype
+        if loss_mask is not None:
+            Assert.eq(loss_mask.shape, logits.shape[:-1])
+    if group:
+        Assert.eq(implementation, EntropyLossImplementation.fused)
+        return fused_entropy_loss_forward_backward(
+            logits,
+            target,
+            loss_mask,
+            grad_output,
+            logits_scale_factor,
+            target_format,
+            entropy_loss_type,
+            group,
+            temperature,
+        )
+    else:
+        return _ENTROPY_LOSS_IMPLEMENTATIONS[implementation](
+            logits,
+            target,
+            loss_mask,
+            grad_output,
+            logits_scale_factor,
+            target_format,
+            entropy_loss_type,
+            temperature=temperature,
+        )
diff --git a/fast_llm/layers/language_model/loss/loss.py b/fast_llm/layers/language_model/loss/loss.py
index 711560a8f..41e8942ac 100644
--- a/fast_llm/layers/language_model/loss/loss.py
+++ b/fast_llm/layers/language_model/loss/loss.py
@@ -116,6 +116,6 @@ def loss_forward_backward(
             grad = None
         else:
             loss.backward(torch.full_like(loss, grad_output))
-            grad = input_.grad.detach().to(input_.dtype)
+            grad = input_.grad.detach()
 
     return loss, grad
diff --git a/fast_llm/layers/language_model/loss/z_loss.py b/fast_llm/layers/language_model/loss/z_loss.py
index c94851bf2..82b8d5318 100644
--- a/fast_llm/layers/language_model/loss/z_loss.py
+++ b/fast_llm/layers/language_model/loss/z_loss.py
@@ -2,8 +2,9 @@
 
 import torch
 
+from fast_llm.functional.entropy_loss import fused_softmax_base
 from fast_llm.layers.language_model.loss.config import LanguageModelZLossConfig
-from fast_llm.layers.language_model.loss.loss import LanguageModelLoss, loss_forward_backward
+from fast_llm.layers.language_model.loss.loss import LanguageModelLoss
 
 
 class LanguageModelZLoss[ConfigType: LanguageModelZLossConfig](LanguageModelLoss[ConfigType]):
@@ -19,12 +20,12 @@ def forward_backward(
         kwargs: dict[str, typing.Any],
         split_index: int = 0,
     ) -> "tuple[torch.Tensor, torch.Tensor | None]":
-        return loss_forward_backward(
-            self._get_grad_output(kwargs),
-            z_loss,
+        return z_loss_forward_backward(
             logits,
             self._get_loss_mask(kwargs, split_index),
-            self._logits_scale_factor,
+            grad_output=self._get_grad_output(kwargs),
+            group=self._parallel_dim.group if self._vocab_parallel else None,
+            logits_scale_factor=self._logits_scale_factor,
         )
 
 
@@ -34,10 +35,41 @@ def z_loss(
     loss_mask: "torch.Tensor | None" = None,
     logits_scale_factor: float = 1.0,
 ) -> torch.Tensor:
-    """
-    Z-loss = mean(logsumexp(logits, dim=-1) ** 2)
-    """
+    # TODO: Replace usage in MoE, move to testing.
+    logits = logits.float()
     out = torch.logsumexp(logits if logits_scale_factor == 1.0 else logits * logits_scale_factor, dim=-1) ** 2
     if loss_mask is not None:
         out = out * loss_mask
     return torch.mean(out)
+
+
+@torch.compile
+def z_loss_forward_backward(
+    logits: torch.Tensor,
+    loss_mask: torch.Tensor | None,
+    grad_output: float | None,
+    group: torch.distributed.ProcessGroup | None = None,
+    logits_scale_factor: float = 1.0,
+) -> tuple[torch.Tensor, torch.Tensor | None]:
+    """
+    Z-loss = mean(logsumexp(logits, dim=-1) ** 2)
+    Grad = 2 * log_sum_exp_logits * softmax(logits)
+    """
+    grad_output = None if grad_output is None else grad_output / logits.shape[:-1].numel() * logits_scale_factor
+    logits_norm, exp_logits, sum_exp_logits, logits_max = fused_softmax_base(logits, logits_scale_factor, group)
+    log_sum_exp_logits = sum_exp_logits.log() + logits_max
+
+    per_sample_loss = log_sum_exp_logits**2
+    if loss_mask is not None:
+        per_sample_loss = per_sample_loss * loss_mask
+    loss = per_sample_loss.mean()
+
+    if grad_output is None:
+        grad = None
+    else:
+        grad_base = 2 * grad_output * (log_sum_exp_logits / sum_exp_logits)
+        if loss_mask is not None:
+            grad_base = grad_base * loss_mask
+        grad = (grad_base.unsqueeze(-1) * exp_logits).to(logits.dtype)
+
+    return loss, grad
diff --git a/fast_llm/models/gpt/config.py b/fast_llm/models/gpt/config.py
index a315beecc..314741c3b 100644
--- a/fast_llm/models/gpt/config.py
+++ b/fast_llm/models/gpt/config.py
@@ -54,6 +54,11 @@ class GPTBatchConfig(BatchConfig):
         desc="Read loss masking spans from the dataset.",
         hint=FieldHint.feature,
     )
+    use_preference_spans: bool = Field(
+        default=False,
+        desc="Read dpo data (chosen and rejected spans) from the dataset.",
+        hint=FieldHint.feature,
+    )
     truncate_documents: bool | None = Field(
         default=True,
         desc=(
diff --git a/fast_llm/models/gpt/trainer.py b/fast_llm/models/gpt/trainer.py
index 768d3fdd7..ded0f81c8 100644
--- a/fast_llm/models/gpt/trainer.py
+++ b/fast_llm/models/gpt/trainer.py
@@ -33,11 +33,11 @@ def _get_sampling_parameters(
     def _get_preprocessing_config(
         self, *, _return_dict: bool = False
     ) -> LanguageModelPreprocessingConfig | dict[str, typing.Any]:
+
         out = {
             "type": "language_model",
             "vocab_size": self._config.model.base_model.embeddings.vocab_size,
             "use_loss_masking_spans": self._config.batch.use_loss_masking_spans,
-            # OK since DPO is not supported for MTP.
-            "use_preference_spans": getattr(self._config.model.base_model.head, "enable_dpo", False),
+            "use_preference_spans": self._config.batch.use_preference_spans,
         }
         return out if _return_dict else LanguageModelPreprocessingConfig.from_dict(out)
diff --git a/tests/functional/test_entropy_loss.py b/tests/functional/test_entropy_loss.py
deleted file mode 100644
index 35d1ef648..000000000
--- a/tests/functional/test_entropy_loss.py
+++ /dev/null
@@ -1,178 +0,0 @@
-import pathlib
-
-import pytest
-import torch
-
-from fast_llm.engine.distributed.config import DistributedBackend
-from fast_llm.functional.config import EntropyLossImplementation, EntropyLossType, TargetFormat, TritonConfig
-from fast_llm.functional.entropy_loss import entropy_loss_forward_backward
-from fast_llm.utils import Assert
-from tests.utils.subtest import DistributedTestContext
-
-
-def _get_cross_entropy_inputs(
-    num_columns: int, loss_masking: bool, target_format: TargetFormat
-) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor]:
-    device = "cuda" if torch.cuda.is_available() else "cpu"
-    # We want something moderately close to the target for the test to be meaningful
-    logits_var = torch.randn(256, num_columns, dtype=torch.float32, device=device) / 3
-    loss_mask = torch.randint(0, 2, (256,), dtype=torch.bool, device=device) if loss_masking else None
-    if target_format == TargetFormat.labels:
-        target = torch.randint(0, num_columns, (256,), dtype=torch.int64, device=device)
-        logits = torch.nn.functional.one_hot(target, num_columns) + logits_var
-        if loss_masking:
-            logits = torch.where(loss_mask.unsqueeze(-1), logits, -100)
-            loss_mask = None
-    else:
-        target = torch.randn(256, num_columns, dtype=torch.float32, device=device)
-        logits = target + logits_var
-        if target_format == TargetFormat.probabilities:
-            target = torch.softmax(target, -1)
-    return logits, target, loss_mask
-
-
-def _compare_entropy_loss_outputs(
-    loss: torch.Tensor,
-    ref_loss: torch.Tensor,
-    has_grad: bool,
-    grad: torch.Tensor | None,
-    ref_grad: torch.Tensor | None,
-    threshold=1e-5,
-    loss_min_threshold=1e-6,
-):
-    Assert.rms_close_relative(loss, ref_loss, threshold, loss_min_threshold)
-    if has_grad:
-        Assert.rms_close_relative(grad, ref_grad, threshold, 1e-8)
-    else:
-        assert grad is None
-        assert ref_grad is None
-
-
-@pytest.mark.slow
-@pytest.mark.parametrize(
-    ("num_columns", "grad_output", "logits_scale_factor", "loss_masking"),
-    (
-        (8192, 1.0, 1.0, False),  # Simple
-        (5000, 1.0, 1.0, False),  # Not a power of 2
-        (5000, None, 1.0, False),  # No grad
-        (5000, 1.0, 4.0, False),  # Loss scaling
-        (5000, 4.0, 1.0, False),  # Grad scaling
-        (5000, 1.0, 1.0, True),  # Loss masking
-        (65536, 1.0, 1.0, False),  # Max block size
-        (65537, 1.0, 1.0, False),  # Above max block size
-    ),
-)
-@pytest.mark.parametrize("target_format", TargetFormat)
-@pytest.mark.parametrize("entropy_loss_type", EntropyLossType)
-def test_entropy_loss(num_columns, grad_output, logits_scale_factor, loss_masking, target_format, entropy_loss_type):
-    if target_format == TargetFormat.labels and entropy_loss_type == EntropyLossType.reverse_kl:
-        pytest.skip(reason="Not implemented")
-    # TODO: Test tensor-parallel implementation.
-    logits, target, loss_mask = _get_cross_entropy_inputs(num_columns, loss_masking, target_format)
-    kwargs = {
-        "logits": logits,
-        "target": target,
-        "loss_mask": loss_mask,
-        "grad_output": grad_output,
-        "logits_scale_factor": logits_scale_factor,
-        "target_format": target_format,
-        "entropy_loss_type": entropy_loss_type,
-    }
-    # Torch serves as the reference implementation.
-    out_torch, grad_torch = entropy_loss_forward_backward(**kwargs, implementation=EntropyLossImplementation.torch)
-    out_fused, grad_fused = entropy_loss_forward_backward(**kwargs, implementation=EntropyLossImplementation.fused)
-
-    _compare_entropy_loss_outputs(
-        out_fused,
-        out_torch,
-        grad_output is not None,
-        grad_fused,
-        grad_torch,
-        loss_min_threshold=5e-6,
-    )
-
-    if entropy_loss_type != EntropyLossType.cross_entropy or not torch.cuda.is_available():
-        # Triton implementation only supports cross-entropy.
-        return
-    assert TritonConfig.TRITON_ENABLED
-    if num_columns > 65536:
-        with pytest.raises(AssertionError):
-            entropy_loss_forward_backward(**kwargs, implementation=EntropyLossImplementation.triton)
-    else:
-        out_triton, grad_triton = entropy_loss_forward_backward(
-            **kwargs, implementation=EntropyLossImplementation.triton
-        )
-        _compare_entropy_loss_outputs(out_triton, out_torch, grad_output is not None, grad_triton, grad_torch)
-
-
-def _entropy_loss_distributed(
-    target_format: TargetFormat,
-    entropy_loss_type: EntropyLossType,
-    loss_masking: bool,
-    group: torch.distributed.ProcessGroup,
-):
-    # Ensure all workers have the same inputs.
-    torch.manual_seed(0)
-    rank = group.rank()
-    world_size = group.size()
-    logits, target, loss_mask = _get_cross_entropy_inputs(1000, loss_masking, target_format)
-
-    kwargs = {
-        "loss_mask": loss_mask,
-        "grad_output": 1.0,
-        "target_format": target_format,
-        "implementation": EntropyLossImplementation.fused,
-        "entropy_loss_type": entropy_loss_type,
-    }
-    out_ref, grad_ref = entropy_loss_forward_backward(logits, target, **kwargs)
-
-    out, grad = entropy_loss_forward_backward(
-        logits.chunk(world_size, 1)[rank],
-        target if target_format == TargetFormat.labels else target.chunk(world_size, 1)[rank],
-        group=group,
-        **kwargs,
-    )
-    _compare_entropy_loss_outputs(out, out_ref, True, grad, grad_ref.chunk(world_size, 1)[rank], 1e-4)
-
-
-def _run_entropy_loss_distributed(test_context: DistributedTestContext, base_path: pathlib.Path):
-    for entropy_loss_type in EntropyLossType:
-        for target_format in TargetFormat:
-            if target_format == TargetFormat.labels and entropy_loss_type == EntropyLossType.reverse_kl:
-                continue
-            for loss_masking in [False, True]:
-                name = f"{entropy_loss_type}_{target_format}_{loss_masking}"
-                with test_context.subtest(base_path, name, 2) as subtest:
-                    if subtest.do_run:
-                        _entropy_loss_distributed(target_format, entropy_loss_type, loss_masking, test_context.group)
-
-
-@pytest.mark.slow
-def test_entropy_loss_distributed_dependency():
-    # Mock test so the distributed subtest are placed in the same dependency group.
-    pass
-
-
-@pytest.mark.slow
-@pytest.mark.depends_on(on=["test_entropy_loss_distributed_dependency"])
-def test_run_entropy_loss_distributed(run_parallel_script, result_path):
-    run_parallel_script(
-        _run_entropy_loss_distributed,
-        (result_path / "test_entropy_loss",),
-        world_size=2,
-        backend=DistributedBackend.gloo,
-        use_cuda=False,  # Disable device count check.
-    )
-
-
-# We don't want to depend on `test_run_entropy_loss_distributed` because we still want to run this in cas of failure.
-# This should still run after `test_run_entropy_loss_distributed`
-@pytest.mark.slow
-@pytest.mark.depends_on(on=["test_entropy_loss_distributed_dependency"])
-@pytest.mark.parametrize("target_format", TargetFormat)
-@pytest.mark.parametrize("entropy_loss_type", EntropyLossType)
-@pytest.mark.parametrize("loss_masking", (False, True))
-def test_entropy_loss_distributed(result_path, report_subtest, target_format, entropy_loss_type, loss_masking):
-    if target_format == TargetFormat.labels and entropy_loss_type == EntropyLossType.reverse_kl:
-        pytest.skip(reason="Not implemented")
-    report_subtest(result_path / f"test_entropy_loss/{entropy_loss_type}_{target_format}_{loss_masking}", 2)
diff --git a/tests/functional/test_functional.py b/tests/functional/test_functional.py
index 840e3846d..6471a516f 100644
--- a/tests/functional/test_functional.py
+++ b/tests/functional/test_functional.py
@@ -1,13 +1,10 @@
-import numpy as np
 import pytest
 import torch
 
 from fast_llm.functional.config import ActivationType, MLPRecomputeLevel
 from fast_llm.functional.triton.mlp import mlp_autograd, mlp_autograd_looped, torch_mlp_activation
 from fast_llm.functional.triton.sparse_copy import get_sparse_map
-from fast_llm.layers.language_model.loss.dpo import dpo_loss
 from fast_llm.utils import Assert
-from tests.utils.dataset import get_random_spans
 
 
 def _get_target_log_probability_for_spans(log_probabilities: torch.Tensor, spans: list[list[tuple[int, int]]]):
@@ -18,59 +15,6 @@ def _get_target_log_probability_for_spans(log_probabilities: torch.Tensor, spans
     )
 
 
-def reference_dpo_loss(
-    logits: torch.Tensor,
-    targets: torch.Tensor,
-    reference_model_logits: torch.Tensor,
-    chosen_spans: torch.Tensor,
-    rejected_spans: torch.Tensor,
-    beta: float,
-) -> torch.Tensor:
-    # TODO: Too similar to the actual implementation.
-    policy_log_probs = (
-        torch.nn.functional.log_softmax(logits.float(), dim=-1).gather(dim=-1, index=targets.unsqueeze(-1)).squeeze(-1)
-    )
-    policy_chosen_logps = sum(
-        policy_log_probs[sample_index, begin:end].sum()
-        for sample_index, sample_spans in enumerate(chosen_spans)
-        for begin, end in sample_spans
-    )
-    policy_rejected_logps = sum(
-        policy_log_probs[sample_index, begin:end].sum()
-        for sample_index, sample_spans in enumerate(rejected_spans)
-        for begin, end in sample_spans
-    )
-    reference_log_probs = (
-        torch.nn.functional.log_softmax(reference_model_logits.float(), dim=-1)
-        .gather(dim=-1, index=targets.unsqueeze(-1))
-        .squeeze(-1)
-    )
-    reference_chosen_logps = sum(
-        reference_log_probs[sample_index, begin:end].sum()
-        for sample_index, sample_spans in enumerate(chosen_spans)
-        for begin, end in sample_spans
-    )
-    reference_rejected_logps = sum(
-        reference_log_probs[sample_index, begin:end].sum()
-        for sample_index, sample_spans in enumerate(rejected_spans)
-        for begin, end in sample_spans
-    )
-    pi_logratios = policy_chosen_logps - policy_rejected_logps
-    ref_logratios = reference_chosen_logps - reference_rejected_logps
-    return -torch.nn.functional.logsigmoid(beta * (pi_logratios - ref_logratios)).mean()
-
-
-def test_dpo_loss():
-    logits = torch.normal(0, 1, (10, 50, 100))
-    reference_model_logits = torch.normal(0, 1, (10, 50, 100))
-    targets = torch.randint(0, 100, (10, 50))
-    spans = get_random_spans(np.full(10, 50), 0, 10)
-
-    fastllm_loss = dpo_loss(logits, targets, reference_model_logits, spans[::2], spans[1::2])
-    reference_loss = reference_dpo_loss(logits, targets, reference_model_logits, spans[::2], spans[1::2], beta=1)
-    Assert.rms_close(fastllm_loss, reference_loss, 1e-5)
-
-
 @pytest.mark.parametrize("gated", [True, False])
 @pytest.mark.parametrize(
     "activation", [ActivationType.gelu, ActivationType.silu, ActivationType.relu, ActivationType.squared_relu]
diff --git a/tests/layers/test_lm_losses.py b/tests/layers/test_lm_losses.py
new file mode 100644
index 000000000..38c69b98e
--- /dev/null
+++ b/tests/layers/test_lm_losses.py
@@ -0,0 +1,346 @@
+import contextlib
+import pathlib
+import random
+
+import numpy as np
+import pytest
+import torch
+
+from fast_llm.core.ops import split_op
+from fast_llm.engine.config_utils import data_type
+from fast_llm.engine.config_utils.data_type import DataType
+from fast_llm.engine.distributed.config import DistributedBackend
+from fast_llm.functional.config import EntropyLossImplementation, EntropyLossType, TargetFormat, TritonConfig
+from fast_llm.layers.language_model.loss.dpo import dpo_loss
+from fast_llm.layers.language_model.loss.entropy_loss import entropy_loss_forward_backward
+from fast_llm.layers.language_model.loss.loss import loss_forward_backward
+from fast_llm.layers.language_model.loss.z_loss import z_loss, z_loss_forward_backward
+from fast_llm.utils import Assert
+from tests.utils.dataset import get_random_spans
+from tests.utils.subtest import DistributedTestContext
+
+VOCAB_SIZE = 100
+NUM_TOKENS = 200
+
+
+def _get_lm_loss_inputs(
+    num_columns: int, loss_masking: bool, target_format: TargetFormat, batch_shape: tuple[int], dtype
+) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor]:
+    device = "cuda" if torch.cuda.is_available() else "cpu"
+    # We want something moderately close to the target for the test to be meaningful
+    logits_var = torch.randn((*batch_shape, num_columns), dtype=dtype.torch, device=device) / 3
+    loss_mask = torch.randint(0, 2, batch_shape, dtype=torch.bool, device=device) if loss_masking else None
+    if target_format == TargetFormat.labels:
+        target = torch.randint(0, num_columns, batch_shape, dtype=torch.int64, device=device)
+        logits = torch.nn.functional.one_hot(target, num_columns) + logits_var
+        if loss_masking:
+            target = torch.where(loss_mask, target, -100)
+            loss_mask = None
+    else:
+        # Target logits are typically in training precision, ex. with distillation model.
+        target = torch.randn((*batch_shape, num_columns), dtype=dtype.torch, device=device)
+        logits = target + logits_var
+        if target_format == TargetFormat.probabilities:
+            # Probabilities need to be in full precision for accuracy.
+            target = torch.softmax(target, -1, dtype=torch.float32)
+    return logits, target, loss_mask
+
+
+def _compare_losses_and_grads(
+    loss: torch.Tensor,
+    ref_loss: torch.Tensor,
+    has_grad: bool,
+    grad: torch.Tensor | None,
+    ref_grad: torch.Tensor | None,
+    threshold=1e-5,
+    group: torch.distributed.ProcessGroup | None = None,
+):
+    Assert.rms_close_relative(loss, ref_loss, threshold, 1e-6)
+    if has_grad:
+        Assert.rms_close_relative(
+            grad, split_op(ref_grad, group, -1), threshold, 1e-8 if grad.dtype == torch.float32 else 1e-7
+        )
+    else:
+        assert grad is None
+        assert ref_grad is None
+
+
+def reference_dpo_loss(
+    logits: torch.Tensor,
+    labels: torch.Tensor,
+    reference_model_logits: torch.Tensor,
+    chosen_spans: torch.Tensor,
+    rejected_spans: torch.Tensor,
+    beta: float,
+) -> torch.Tensor:
+    # TODO: Too similar to the actual implementation.
+    policy_log_probs = (
+        torch.nn.functional.log_softmax(logits.float(), dim=-1).gather(dim=-1, index=labels.unsqueeze(-1)).squeeze(-1)
+    )
+    policy_chosen_logps = sum(
+        policy_log_probs[sample_index, begin:end].sum()
+        for sample_index, sample_spans in enumerate(chosen_spans)
+        for begin, end in sample_spans
+    )
+    policy_rejected_logps = sum(
+        policy_log_probs[sample_index, begin:end].sum()
+        for sample_index, sample_spans in enumerate(rejected_spans)
+        for begin, end in sample_spans
+    )
+    reference_log_probs = (
+        torch.nn.functional.log_softmax(reference_model_logits.float(), dim=-1)
+        .gather(dim=-1, index=labels.unsqueeze(-1))
+        .squeeze(-1)
+    )
+    reference_chosen_logps = sum(
+        reference_log_probs[sample_index, begin:end].sum()
+        for sample_index, sample_spans in enumerate(chosen_spans)
+        for begin, end in sample_spans
+    )
+    reference_rejected_logps = sum(
+        reference_log_probs[sample_index, begin:end].sum()
+        for sample_index, sample_spans in enumerate(rejected_spans)
+        for begin, end in sample_spans
+    )
+    pi_logratios = policy_chosen_logps - policy_rejected_logps
+    ref_logratios = reference_chosen_logps - reference_rejected_logps
+    return -torch.nn.functional.logsigmoid(beta * (pi_logratios - ref_logratios)).mean()
+
+
+_BATCH_SHAPES = ((64,), (16, 8))
+_LOSS_PARAMETERS = (
+    (500, 1.0, 1.0, False, DataType.float32),  # Simple
+    (512, 1.0, 1.0, False, DataType.float32),  # Power of 2
+    (500, None, 1.0, False, DataType.float32),  # No grad
+    (500, 1.0, 4.0, False, DataType.float32),  # Loss scaling
+    (500, 4.0, 1.0, False, DataType.float32),  # Grad scaling
+    (500, 1.0, 1.0, True, DataType.float32),  # Loss masking
+    (500, 1.0, 1.0, True, DataType.float16),  # Fp16
+    (500, 1.0, 1.0, True, DataType.bfloat16),  # Bf16
+    (65538, 1.0, 1.0, False, DataType.float32),  # Above max block size
+)
+
+
+def _test_entropy_loss(
+    batch_shape,
+    num_columns,
+    grad_output,
+    logits_scale_factor,
+    loss_masking,
+    target_format,
+    entropy_loss_type,
+    dtype,
+    group=None,
+):
+    if target_format == TargetFormat.labels and entropy_loss_type == EntropyLossType.reverse_kl:
+        pytest.skip(reason="Not implemented")
+    # TODO: Test tensor-parallel implementation.
+    logits, target, loss_mask = _get_lm_loss_inputs(num_columns, loss_masking, target_format, batch_shape, dtype)
+    # Torch serves as the reference implementation.
+    out_ref, grad_ref = entropy_loss_forward_backward(
+        logits=logits,
+        target=target,
+        loss_mask=loss_mask,
+        grad_output=grad_output,
+        logits_scale_factor=logits_scale_factor,
+        target_format=target_format,
+        entropy_loss_type=entropy_loss_type,
+        implementation=EntropyLossImplementation.torch,
+    )
+    out_fused, grad_fused = entropy_loss_forward_backward(
+        logits=split_op(logits, group, -1),
+        target=target if target_format == TargetFormat.labels else split_op(target, group, -1),
+        loss_mask=loss_mask,
+        grad_output=grad_output,
+        group=group,
+        logits_scale_factor=logits_scale_factor,
+        target_format=target_format,
+        entropy_loss_type=entropy_loss_type,
+        implementation=EntropyLossImplementation.fused,
+    )
+
+    _compare_losses_and_grads(
+        out_fused,
+        out_ref,
+        grad_output is not None,
+        grad_fused,
+        grad_ref,
+        threshold=1e-5 if data_type == DataType.float32 else 1e-4,
+        group=group,
+    )
+
+    if entropy_loss_type != EntropyLossType.cross_entropy or not torch.cuda.is_available() or group is not None:
+        # Triton implementation only supports cross-entropy.
+        return
+    assert TritonConfig.TRITON_ENABLED
+    with pytest.raises(AssertionError) if num_columns > 65536 else contextlib.nullcontext():
+        out_triton, grad_triton = entropy_loss_forward_backward(
+            logits=logits,
+            target=target,
+            loss_mask=loss_mask,
+            grad_output=grad_output,
+            logits_scale_factor=logits_scale_factor,
+            target_format=target_format,
+            entropy_loss_type=entropy_loss_type,
+            implementation=EntropyLossImplementation.triton,
+        )
+        _compare_losses_and_grads(out_triton, out_ref, grad_output is not None, grad_triton, grad_ref)
+
+
+def _test_z_loss(batch_shape, num_columns, grad_output, logits_scale_factor, loss_masking, dtype, group=None):
+    logits, target, loss_mask = _get_lm_loss_inputs(num_columns, loss_masking, TargetFormat.logits, batch_shape, dtype)
+    out_ref, grad_ref = loss_forward_backward(
+        grad_output,
+        z_loss,
+        logits,
+        loss_mask,
+        logits_scale_factor=logits_scale_factor,
+    )
+    out_fused, grad_fused = z_loss_forward_backward(
+        split_op(logits, group, -1),
+        loss_mask,
+        grad_output,
+        group=group,
+        logits_scale_factor=logits_scale_factor,
+    )
+    _compare_losses_and_grads(out_fused, out_ref, grad_output is not None, grad_fused, grad_ref, group=group)
+
+
+@pytest.mark.slow
+@pytest.mark.parametrize("batch_shape", _BATCH_SHAPES)
+@pytest.mark.parametrize(
+    ("num_columns", "grad_output", "logits_scale_factor", "loss_masking", "dtype"), _LOSS_PARAMETERS
+)
+@pytest.mark.parametrize("target_format", TargetFormat)
+@pytest.mark.parametrize("entropy_loss_type", EntropyLossType)
+def test_entropy_loss(
+    batch_shape, num_columns, grad_output, logits_scale_factor, loss_masking, target_format, entropy_loss_type, dtype
+):
+    _test_entropy_loss(
+        batch_shape,
+        num_columns,
+        grad_output,
+        logits_scale_factor,
+        loss_masking,
+        target_format,
+        entropy_loss_type,
+        dtype,
+    )
+
+
+@pytest.mark.slow
+@pytest.mark.parametrize("batch_shape", _BATCH_SHAPES)
+@pytest.mark.parametrize(
+    ("num_columns", "grad_output", "logits_scale_factor", "loss_masking", "dtype"), _LOSS_PARAMETERS
+)
+def test_z_loss(batch_shape, num_columns, grad_output, logits_scale_factor, loss_masking, dtype):
+    _test_z_loss(batch_shape, num_columns, grad_output, logits_scale_factor, loss_masking, dtype)
+
+
+@pytest.mark.skip(reason="DPO loss is broken")
+def test_dpo_loss():
+    logits = torch.normal(0, 1, (NUM_TOKENS, VOCAB_SIZE))
+    reference_model_logits = torch.normal(0, 1, (NUM_TOKENS, VOCAB_SIZE))
+    labels = torch.randint(0, VOCAB_SIZE, (NUM_TOKENS,))
+    spans = get_random_spans(np.full(10, 50), 0, 10)
+
+    fast_llm_loss = dpo_loss(logits, labels, reference_model_logits, spans[::2], spans[1::2])
+    reference_loss = reference_dpo_loss(logits, labels, reference_model_logits, spans[::2], spans[1::2], beta=1)
+    Assert.rms_close(fast_llm_loss, reference_loss, 1e-5)
+
+
+def _run_lm_loss_distributed(test_context: DistributedTestContext, base_path: pathlib.Path, seed: int):
+    for batch_shape in _BATCH_SHAPES:
+        for num_columns, grad_output, logits_scale_factor, loss_masking, dtype in _LOSS_PARAMETERS:
+            suffix = f"{num_columns}-{grad_output}-{logits_scale_factor}-{loss_masking}-{dtype}-{"_".join([str(i) for i in batch_shape])}"
+            # Entropy loss
+            for entropy_loss_type in EntropyLossType:
+                for target_format in TargetFormat:
+                    if target_format == TargetFormat.labels and entropy_loss_type == EntropyLossType.reverse_kl:
+                        continue
+                    with test_context.subtest(
+                        base_path, f"{entropy_loss_type}-{target_format}-{suffix}", 2
+                    ) as subtest:
+                        if subtest.do_run:
+                            torch.manual_seed((seed + hash(subtest.name)) % 2**32)
+                            _test_entropy_loss(
+                                batch_shape,
+                                num_columns,
+                                grad_output,
+                                logits_scale_factor,
+                                loss_masking,
+                                target_format,
+                                entropy_loss_type,
+                                dtype,
+                                test_context.group,
+                            )
+            # Z loss
+            with test_context.subtest(base_path, f"z_loss-{suffix}", 2) as subtest:
+                if subtest.do_run:
+                    torch.manual_seed((seed + hash(subtest.name)) % 2**32)
+                    _test_z_loss(
+                        batch_shape,
+                        num_columns,
+                        grad_output,
+                        logits_scale_factor,
+                        loss_masking,
+                        dtype,
+                        test_context.group,
+                    )
+
+
+@pytest.mark.slow
+def test_lm_loss_distributed_dependency():
+    # Mock test so the distributed subtest are placed in the same dependency group.
+    pass
+
+
+# We don't want to depend on `test_run_entropy_loss_distributed` because we still want to run this in cas of failure.
+# This should still run after `test_run_entropy_loss_distributed`
+@pytest.mark.slow
+@pytest.mark.depends_on(on=["test_lm_loss_distributed_dependency"])
+def test_run_lm_loss_distributed(run_parallel_script, result_path):
+    run_parallel_script(
+        _run_lm_loss_distributed,
+        (result_path / "test_losses", random.randint(0, 2**32 - 1)),
+        world_size=2,
+        backend=DistributedBackend.gloo,
+        use_cuda=False,  # Disable device count check.
+    )
+
+
+@pytest.mark.slow
+@pytest.mark.depends_on(on=["test_lm_loss_distributed_dependency"])
+@pytest.mark.parametrize("batch_shape", _BATCH_SHAPES)
+@pytest.mark.parametrize(
+    ("num_columns", "grad_output", "logits_scale_factor", "loss_masking", "dtype"), _LOSS_PARAMETERS
+)
+@pytest.mark.parametrize(
+    "loss_type",
+    (
+        *(
+            f"{entropy_loss_type}-{target_format}"
+            for entropy_loss_type in EntropyLossType
+            for target_format in TargetFormat
+            if target_format != TargetFormat.labels or entropy_loss_type != EntropyLossType.reverse_kl
+        ),
+        "z_loss",
+    ),
+)
+def test_lm_loss_distributed(
+    result_path,
+    report_subtest,
+    loss_type,
+    batch_shape,
+    num_columns,
+    grad_output,
+    logits_scale_factor,
+    loss_masking,
+    dtype,
+):
+    report_subtest(
+        result_path
+        / f"test_losses/{loss_type}-{num_columns}-{grad_output}-{logits_scale_factor}-{loss_masking}-{dtype}-{"_".join([str(i) for i in batch_shape])}",
+        2,
+        use_cuda=False,
+    )
diff --git a/tests/models/test_checkpoint.py b/tests/models/test_checkpoint.py
index 955fa534c..4741699be 100644
--- a/tests/models/test_checkpoint.py
+++ b/tests/models/test_checkpoint.py
@@ -479,10 +479,6 @@ def test_load_parallel_checkpoint_in_single_gpu(
     distributed_save_load_config = distributed_save_load_config.resolve(
         base_path=run_test_script_base_path, model_testing_config=model_testing_config
     )
-    if torch.cuda.device_count() < distributed_save_load_config.num_gpus:
-        pytest.skip(
-            f"Not enough GPUs to run dependency: {torch.cuda.device_count()} < {distributed_save_load_config.num_gpus}"
-        )
     report_subtest(distributed_save_load_config.save_path, distributed_save_load_config.num_gpus)
     load_and_compare_checkpoints(
         DistributedCheckpointFormat,
diff --git a/tests/models/test_model.py b/tests/models/test_model.py
index 0c58afade..df3e52b7a 100644
--- a/tests/models/test_model.py
+++ b/tests/models/test_model.py
@@ -94,8 +94,6 @@ def test_model_distributed(
     config = DISTRIBUTED_TESTING_CONFIGS[config_name]
     if model_testing_config.should_skip(config):
         pytest.skip(f"Configuration not supported.")
-    if torch.cuda.device_count() < config.num_gpus:
-        pytest.skip(f"Not enough GPUs: {torch.cuda.device_count()} < {config.num_gpus}")
     report_subtest(run_test_script_base_path / config.name, config.num_gpus)
     if config.compare is not None:
         if not check_subtest_success(run_test_script_base_path / config.compare):
diff --git a/tests/utils/dataset.py b/tests/utils/dataset.py
index 854ecec36..4ad122947 100644
--- a/tests/utils/dataset.py
+++ b/tests/utils/dataset.py
@@ -322,9 +322,10 @@ def get_model_test_dataset(config_only: bool = False):
     return _get_test_dataset(
         DATASET_CACHE / "model_dataset",
         seed=1234,
+        num_documents=200,
         max_loss_masking_spans=5,
         max_vocab_size=MODEL_TEST_VOCAB_SIZE,
-        splits={"training": 969, "validation": 30, "test": 1},
+        splits={"training": 180, "validation": 19, "test": 1},
         config_only=config_only,
     )
 
@@ -333,6 +334,7 @@ def get_multimodal_test_dataset(config_only: bool = False):
     return _get_test_dataset(
         DATASET_CACHE / "model_dataset_multimodal",
         seed=1234,
+        num_documents=200,
         max_vocab_size=MODEL_TEST_VOCAB_SIZE,
         max_images=2,
         image_patch_config=ImagePatchConfig(
@@ -343,6 +345,6 @@ def get_multimodal_test_dataset(config_only: bool = False):
             image_break_token=None,
             image_end_token=None,
         ),
-        splits={"training": 969, "validation": 30, "test": 1},
+        splits={"training": 180, "validation": 19, "test": 1},
         config_only=config_only,
     )
diff --git a/tests/utils/subtest.py b/tests/utils/subtest.py
index b6764c0e2..b8f0b5b7a 100644
--- a/tests/utils/subtest.py
+++ b/tests/utils/subtest.py
@@ -51,12 +51,12 @@ def __enter__(self):
         self._configure_logging()
         self._group = self._pool.get_process_group(range(self._world_size), self._rank)
         # TODO: Barriers needed?
-        safe_barrier(self._group, "start", device=self._pool.device)
+        safe_barrier(self._group, "start")
         return self
 
     def __exit__(self, exc_type, exc_val, exc_tb):
         # Final barrier to ensure everything is done before torchrun potentially kills workers.
-        safe_barrier(self._group, "testing end", device=self._pool.device)
+        safe_barrier(self._group, "testing end")
         # Let pytest know how things went.
         # These should already be reported above, we repeat for convenience.
         if self._failures:
@@ -138,13 +138,8 @@ def __exit__(self, exc_type, exc_val, exc_tb):
 
             if (group := self._test_context._group) is not None:
                 # Barrier so `allreduce_scalar` doesn't go crazy in case of desync.
-                safe_barrier(group, self._name, device=self._test_context._pool.device)
-                self._success = (
-                    allreduce_scalar(
-                        self._success, dtype=torch.int64, group=group, device=self._test_context._pool.device
-                    )
-                    == group.size()
-                )
+                safe_barrier(group, self._name)
+                self._success = allreduce_scalar(self._success, dtype=torch.int64, group=group) == group.size()
 
             if self._do_capture and torch.cuda.is_available():
                 # Free resources to limit memory usage.
@@ -165,6 +160,10 @@ def __exit__(self, exc_type, exc_val, exc_tb):
         def do_run(self) -> bool:
             return self._do_run and not self._skip
 
+        @property
+        def name(self) -> str:
+            return self._name
+
 
 def set_subtest_success(path: pathlib.Path, success: bool = True):
     path.joinpath("pytest_success").write_text(str(int(success)))
@@ -201,7 +200,9 @@ def report_subtest(request: pytest.FixtureRequest):
     verbose = request.config.getoption("verbose")
     do_capture = request.config.getoption("distributed_capture")
 
-    def do_report_subtest(path: pathlib.Path, world_size: int) -> None:
+    def do_report_subtest(path: pathlib.Path, world_size: int, use_cuda: bool = True) -> None:
+        if use_cuda and torch.cuda.device_count() < world_size:
+            pytest.skip(f"Not enough GPUs to run dependency: {torch.cuda.device_count()} < {world_size}")
         success = check_subtest_success(path)
         if not do_capture:
             logger.warning("Distributed capture is disabled. See distributed test for run output.")

From 741832cef01b28fb7e75bf3545b44f1ec7dd8789 Mon Sep 17 00:00:00 2001
From: Joel Lamy-Poirier <joel.lamy-poirier@servicenow.com>
Date: Thu, 29 Jan 2026 16:22:44 -0500
Subject: [PATCH 02/37] fix

---
 tests/models/test_checkpoint.py | 4 ++++
 tests/models/test_model.py      | 2 ++
 2 files changed, 6 insertions(+)

diff --git a/tests/models/test_checkpoint.py b/tests/models/test_checkpoint.py
index 4741699be..955fa534c 100644
--- a/tests/models/test_checkpoint.py
+++ b/tests/models/test_checkpoint.py
@@ -479,6 +479,10 @@ def test_load_parallel_checkpoint_in_single_gpu(
     distributed_save_load_config = distributed_save_load_config.resolve(
         base_path=run_test_script_base_path, model_testing_config=model_testing_config
     )
+    if torch.cuda.device_count() < distributed_save_load_config.num_gpus:
+        pytest.skip(
+            f"Not enough GPUs to run dependency: {torch.cuda.device_count()} < {distributed_save_load_config.num_gpus}"
+        )
     report_subtest(distributed_save_load_config.save_path, distributed_save_load_config.num_gpus)
     load_and_compare_checkpoints(
         DistributedCheckpointFormat,
diff --git a/tests/models/test_model.py b/tests/models/test_model.py
index df3e52b7a..0c58afade 100644
--- a/tests/models/test_model.py
+++ b/tests/models/test_model.py
@@ -94,6 +94,8 @@ def test_model_distributed(
     config = DISTRIBUTED_TESTING_CONFIGS[config_name]
     if model_testing_config.should_skip(config):
         pytest.skip(f"Configuration not supported.")
+    if torch.cuda.device_count() < config.num_gpus:
+        pytest.skip(f"Not enough GPUs: {torch.cuda.device_count()} < {config.num_gpus}")
     report_subtest(run_test_script_base_path / config.name, config.num_gpus)
     if config.compare is not None:
         if not check_subtest_success(run_test_script_base_path / config.compare):

From b1d4b8df88d595cc21db899f23e47c380e42ffc2 Mon Sep 17 00:00:00 2001
From: Joel Lamy-Poirier <joel.lamy-poirier@servicenow.com>
Date: Thu, 29 Jan 2026 16:41:51 -0500
Subject: [PATCH 03/37] fix

---
 fast_llm/functional/entropy_loss.py | 16 ++++++++--------
 tests/layers/test_lm_losses.py      |  4 ++--
 2 files changed, 10 insertions(+), 10 deletions(-)

diff --git a/fast_llm/functional/entropy_loss.py b/fast_llm/functional/entropy_loss.py
index 4bdf87c3f..d56c745ae 100644
--- a/fast_llm/functional/entropy_loss.py
+++ b/fast_llm/functional/entropy_loss.py
@@ -46,7 +46,7 @@ def torch_entropy_loss_forward_backward(
         if entropy_loss_type == EntropyLossType.cross_entropy:
             if target_format == TargetFormat.logits:
                 target = torch.softmax(target, dim=-1)
-            loss = torch.nn.functional.cross_entropy(logits_scaled, target, reduction="none")
+            per_sample_loss = torch.nn.functional.cross_entropy(logits_scaled, target, reduction="none")
         else:
             predicted_log_probability = torch.nn.functional.log_softmax(logits_scaled, dim=-1)
             if target_format == TargetFormat.logits:
@@ -61,14 +61,14 @@ def torch_entropy_loss_forward_backward(
                     target_probability = target_probability * loss_mask.unsqueeze(-1)
                 target_log_probability = target_probability.add(1.0e-10).log()
             if entropy_loss_type == EntropyLossType.forward_kl:
-                loss = torch.nn.functional.kl_div(
+                per_sample_loss = torch.nn.functional.kl_div(
                     predicted_log_probability,
                     target_log_probability,
                     reduction="none",
                     log_target=True,
                 )
             elif entropy_loss_type == EntropyLossType.reverse_kl:
-                loss = torch.nn.functional.kl_div(
+                per_sample_loss = torch.nn.functional.kl_div(
                     target_log_probability,
                     predicted_log_probability,
                     reduction="none",
@@ -76,11 +76,11 @@ def torch_entropy_loss_forward_backward(
                 )
             else:
                 raise NotImplementedError(entropy_loss_type)
-            loss = loss.sum(dim=-1)
+            per_sample_loss = per_sample_loss.sum(dim=-1)
 
         if loss_mask is not None:
-            loss = loss * loss_mask
-        loss = loss.mean()
+            per_sample_loss = per_sample_loss * loss_mask
+        loss = per_sample_loss.mean()
 
         if grad_output is None:
             grad = None
@@ -145,7 +145,7 @@ def _fused_reverse_kl_base(
     # Compute loss terms: student_probs * log_ratio, then sum over vocab
     # This is equivalent to kl_div(..., log_target=True) but more memory efficient
     log_ratio = predicted_log_probability - target_log_probability
-    per_sample_loss = (predicted_probability * log_ratio).sum(dim=-1, keepdim=True)
+    per_sample_loss = (predicted_probability * log_ratio).sum(dim=-1)
     if group is not None:
         all_reduce(per_sample_loss, op=ReduceOp.SUM, group=group)
 
@@ -154,7 +154,7 @@ def _fused_reverse_kl_base(
     else:
         # Gradient: d/d(logits) KL(q||p) = q * (log(q/p) - E_q[log(q/p)])
         # where E_q[log(q/p)] is the expected log ratio under the student distribution
-        grad = (log_ratio - per_sample_loss) * predicted_probability * grad_output
+        grad = (log_ratio - per_sample_loss.unsqueeze(-1)) * predicted_probability * grad_output
 
     return per_sample_loss, grad
 
diff --git a/tests/layers/test_lm_losses.py b/tests/layers/test_lm_losses.py
index 38c69b98e..639a3ba7c 100644
--- a/tests/layers/test_lm_losses.py
+++ b/tests/layers/test_lm_losses.py
@@ -115,8 +115,8 @@ def reference_dpo_loss(
     (500, 1.0, 4.0, False, DataType.float32),  # Loss scaling
     (500, 4.0, 1.0, False, DataType.float32),  # Grad scaling
     (500, 1.0, 1.0, True, DataType.float32),  # Loss masking
-    (500, 1.0, 1.0, True, DataType.float16),  # Fp16
-    (500, 1.0, 1.0, True, DataType.bfloat16),  # Bf16
+    (500, 1.0, 1.0, False, DataType.float16),  # Fp16
+    (500, 1.0, 1.0, True, DataType.bfloat16),  # Bf16, loss masking
     (65538, 1.0, 1.0, False, DataType.float32),  # Above max block size
 )
 

From c326bffceae8d118ccc7d1bb502de1ebe188e131 Mon Sep 17 00:00:00 2001
From: Joel Lamy-Poirier <joel.lamy-poirier@servicenow.com>
Date: Thu, 29 Jan 2026 22:49:24 -0500
Subject: [PATCH 04/37] fix

---
 tests/conftest.py            | 2 +-
 tests/utils/dataset.py       | 7 +++++--
 tests/utils/model_configs.py | 2 +-
 3 files changed, 7 insertions(+), 4 deletions(-)

diff --git a/tests/conftest.py b/tests/conftest.py
index f93eec215..4f7d7bad0 100644
--- a/tests/conftest.py
+++ b/tests/conftest.py
@@ -256,7 +256,7 @@ def pytest_runtest_call(item: pytest.Function):
     if torch.cuda.is_available():
         # Empty cache to check is cuda is still working (TODO: Is there a better way? Can we kill the worker?)
         try:
-            torch.cuda.empty_cache()
+            torch.cuda.synchronize()
         except RuntimeError:
             pytest.skip("Cuda runtime unavailable due to an error in an earlier test.")
     manager.handle_missing(item)
diff --git a/tests/utils/dataset.py b/tests/utils/dataset.py
index 4ad122947..d1b627ecc 100644
--- a/tests/utils/dataset.py
+++ b/tests/utils/dataset.py
@@ -10,6 +10,7 @@
 from fast_llm.data.preprocessing.abstract import NullPreprocessingConfig
 from fast_llm.data.preprocessing.image_patch import ImagePatchConfig
 from fast_llm.data.preprocessing.language_model import LanguageModelPreprocessingConfig
+from fast_llm.engine.distributed.config import DistributedConfig
 from fast_llm.utils import padded_cumsum
 from tests.utils.global_variables import DATASET_CACHE, MODEL_TEST_VOCAB_SIZE, TOKENIZER_FILE, TOKENIZER_PATH
 
@@ -184,6 +185,8 @@ def _get_test_dataset(
     hf_path = path / "hf"
 
     if not config_only and not all(config_path.is_file() for config_path in config_paths):
+        # Not supported for parallel tests, but dataset should already exist anyway.
+        assert DistributedConfig.default_world_size == 1
         dataset = _get_hf_test_dataset(
             seed=seed,
             num_documents=num_documents,
@@ -325,7 +328,7 @@ def get_model_test_dataset(config_only: bool = False):
         num_documents=200,
         max_loss_masking_spans=5,
         max_vocab_size=MODEL_TEST_VOCAB_SIZE,
-        splits={"training": 180, "validation": 19, "test": 1},
+        splits={"training": 180, "validation": 18, "test": 2},
         config_only=config_only,
     )
 
@@ -345,6 +348,6 @@ def get_multimodal_test_dataset(config_only: bool = False):
             image_break_token=None,
             image_end_token=None,
         ),
-        splits={"training": 180, "validation": 19, "test": 1},
+        splits={"training": 180, "validation": 18, "test": 2},
         config_only=config_only,
     )
diff --git a/tests/utils/model_configs.py b/tests/utils/model_configs.py
index 5e7526377..5a6aff831 100644
--- a/tests/utils/model_configs.py
+++ b/tests/utils/model_configs.py
@@ -986,7 +986,7 @@ def update_and_add_testing_config(
         ModelTestingGroup.megatron: ModelTestingGroupAction.not_implemented,
         ModelTestingGroup.distributed: ModelTestingGroupAction.normal,
     },
-    compare_factor=10.0,  # similar to gdn with compare_factor 2 fails fp16 and bf16 tests in the normalizaiton layer when using rms_norm_gated from fla
+    compare_factor=15.0,  # similar to gdn with compare_factor 2 fails fp16 and bf16 tests in the normalization layer when using rms_norm_gated from fla
     # note: tp is excluded because there is currently no gradient reductions implemented for tp norm in gdn.py (STP works though).
     # we should be using STP with this model, not TP!
     skip_tests=("sdp", "ms", TP_NO_STP),

From 02c28a50103a38ced74593fc0e0f48121c63acde Mon Sep 17 00:00:00 2001
From: Joel Lamy-Poirier <joel.lamy-poirier@servicenow.com>
Date: Fri, 30 Jan 2026 22:30:48 -0500
Subject: [PATCH 05/37] Triton loss

---
 fast_llm/functional/triton/cross_entropy.py |  2 +-
 tests/layers/test_lm_losses.py              | 24 ++++++++++-----------
 2 files changed, 12 insertions(+), 14 deletions(-)

diff --git a/fast_llm/functional/triton/cross_entropy.py b/fast_llm/functional/triton/cross_entropy.py
index ef2039ade..a8becfb68 100644
--- a/fast_llm/functional/triton/cross_entropy.py
+++ b/fast_llm/functional/triton/cross_entropy.py
@@ -128,6 +128,7 @@ def triton_cross_entropy_forward_backward(
     target_format: TargetFormat,
     entropy_loss_type: EntropyLossType,
     temperature: float = 1.0,
+    looped: bool = False,
 ) -> tuple[torch.Tensor, torch.Tensor]:
     """
     A fast triton implementation of cross-entropy, which combines the casting and forward and backward passes,
@@ -143,7 +144,6 @@ def triton_cross_entropy_forward_backward(
     n_rows = logits.shape[:-1].numel()
     n_cols = logits.size(-1)
     block_size = triton.next_power_of_2(n_cols)
-    assert block_size <= TritonConfig.MAX_BLOCK_SIZE_BYTES
     num_warps = 4 if block_size < 2048 else (8 if block_size < 8192 else 16)
     losses = torch.empty(n_rows, dtype=torch.float, device=logits.device)
     # TODO: Safe to do inplace?
diff --git a/tests/layers/test_lm_losses.py b/tests/layers/test_lm_losses.py
index 639a3ba7c..1a31db90a 100644
--- a/tests/layers/test_lm_losses.py
+++ b/tests/layers/test_lm_losses.py
@@ -1,4 +1,3 @@
-import contextlib
 import pathlib
 import random
 
@@ -173,18 +172,17 @@ def _test_entropy_loss(
         # Triton implementation only supports cross-entropy.
         return
     assert TritonConfig.TRITON_ENABLED
-    with pytest.raises(AssertionError) if num_columns > 65536 else contextlib.nullcontext():
-        out_triton, grad_triton = entropy_loss_forward_backward(
-            logits=logits,
-            target=target,
-            loss_mask=loss_mask,
-            grad_output=grad_output,
-            logits_scale_factor=logits_scale_factor,
-            target_format=target_format,
-            entropy_loss_type=entropy_loss_type,
-            implementation=EntropyLossImplementation.triton,
-        )
-        _compare_losses_and_grads(out_triton, out_ref, grad_output is not None, grad_triton, grad_ref)
+    out_triton, grad_triton = entropy_loss_forward_backward(
+        logits=logits,
+        target=target,
+        loss_mask=loss_mask,
+        grad_output=grad_output,
+        logits_scale_factor=logits_scale_factor,
+        target_format=target_format,
+        entropy_loss_type=entropy_loss_type,
+        implementation=EntropyLossImplementation.triton,
+    )
+    _compare_losses_and_grads(out_triton, out_ref, grad_output is not None, grad_triton, grad_ref)
 
 
 def _test_z_loss(batch_shape, num_columns, grad_output, logits_scale_factor, loss_masking, dtype, group=None):

From 22c8e0ba0935a63db086042a18f824903c8f4f08 Mon Sep 17 00:00:00 2001
From: Joel Lamy-Poirier <joel.lamy-poirier@servicenow.com>
Date: Fri, 30 Jan 2026 22:33:49 -0500
Subject: [PATCH 06/37] Triton loss

---
 fast_llm/functional/triton/cross_entropy.py | 1 -
 1 file changed, 1 deletion(-)

diff --git a/fast_llm/functional/triton/cross_entropy.py b/fast_llm/functional/triton/cross_entropy.py
index a8becfb68..354223a96 100644
--- a/fast_llm/functional/triton/cross_entropy.py
+++ b/fast_llm/functional/triton/cross_entropy.py
@@ -128,7 +128,6 @@ def triton_cross_entropy_forward_backward(
     target_format: TargetFormat,
     entropy_loss_type: EntropyLossType,
     temperature: float = 1.0,
-    looped: bool = False,
 ) -> tuple[torch.Tensor, torch.Tensor]:
     """
     A fast triton implementation of cross-entropy, which combines the casting and forward and backward passes,

From 7491e0f8bf0619a5ec647d4af858589a191f4761 Mon Sep 17 00:00:00 2001
From: Joel Lamy-Poirier <joel.lamy-poirier@servicenow.com>
Date: Fri, 30 Jan 2026 23:39:32 -0500
Subject: [PATCH 07/37] Parallel attempt

---
 fast_llm/functional/entropy_loss.py           |  3 +-
 fast_llm/functional/triton/cross_entropy.py   | 62 ++++++++++++++++++-
 .../language_model/loss/entropy_loss.py       | 35 ++++-------
 3 files changed, 73 insertions(+), 27 deletions(-)

diff --git a/fast_llm/functional/entropy_loss.py b/fast_llm/functional/entropy_loss.py
index d56c745ae..37486ddc0 100644
--- a/fast_llm/functional/entropy_loss.py
+++ b/fast_llm/functional/entropy_loss.py
@@ -14,6 +14,7 @@ def torch_entropy_loss_forward_backward(
     logits_scale_factor: float,
     target_format: TargetFormat,
     entropy_loss_type: EntropyLossType,
+    group: ProcessGroup | None = None,
     temperature: float = 1.0,
 ) -> tuple[torch.Tensor, torch.Tensor | None]:  # (), (*batch, vocab)
     """
@@ -21,7 +22,7 @@ def torch_entropy_loss_forward_backward(
     The cross-entropy kernels themselves are well-optimized, but the need for explicit casting
     and separate forward and backward kernels lead to poor performance.
     """
-
+    assert group is None
     # Torch methods require flattened batch dimension.
     target = target.flatten() if target_format == TargetFormat.labels else target.flatten(0, -2)
     if target_format == TargetFormat.labels:
diff --git a/fast_llm/functional/triton/cross_entropy.py b/fast_llm/functional/triton/cross_entropy.py
index 354223a96..12d96a881 100644
--- a/fast_llm/functional/triton/cross_entropy.py
+++ b/fast_llm/functional/triton/cross_entropy.py
@@ -5,12 +5,42 @@
 from fast_llm.utils import Assert
 
 
+@triton_jit()
+def triton_softmax_base_kernel(
+    logits_ptr,
+    max_logits_ptr,
+    sum_exp_logits_ptr,
+    n_cols: tl_constexpr,
+    logits_stride_0: tl_constexpr,
+    logits_scale_factor: tl_constexpr,
+    block_size: tl_constexpr,
+):
+    # TODO: Int64 ptr only if needed?
+    block_idx = tl.program_id(0).to(tl.int64)
+    col_offsets = tl.arange(0, block_size)
+    logits_ptr = logits_ptr + block_idx * logits_stride_0
+    mask = col_offsets < n_cols
+
+    logits = tl.load(logits_ptr + col_offsets, mask=mask, other=-float("inf")).to(tl.float32)
+    if logits_scale_factor != 1.0:
+        logits *= logits_scale_factor
+
+    max_logits = tl.max(logits, 0)
+    exp_logits = tl.exp(logits - max_logits)
+    sum_exp_logits = tl.sum(exp_logits, 0)
+
+    tl.store(max_logits_ptr + block_idx, max_logits)
+    tl.store(sum_exp_logits_ptr + block_idx, sum_exp_logits)
+
+
 @triton_jit()
 def triton_cross_entropy_forward_backward_kernel(
     logits_ptr,
     labels_ptr,
     grad_logits_ptr,
     losses_ptr,
+    max_logits_ptr,
+    sum_exp_logits_ptr,
     grad_losses,
     n_cols: tl_constexpr,
     logits_stride_0: tl_constexpr,
@@ -28,9 +58,15 @@ def triton_cross_entropy_forward_backward_kernel(
     if logits_scale_factor != 1.0:
         logits *= logits_scale_factor
 
-    max_logits = tl.max(logits, 0)
+    if max_logits_ptr is None:
+        max_logits = tl.max(logits, 0)
+    else:
+        max_logits = tl.load(max_logits_ptr + block_idx)
     exp_logits = tl.exp(logits - max_logits)
-    sum_exp_logits = tl.sum(exp_logits, 0)
+    if sum_exp_logits_ptr is None:
+        sum_exp_logits = tl.sum(exp_logits, 0)
+    else:
+        sum_exp_logits = tl.load(sum_exp_logits_ptr + block_idx)
 
     label_idx = tl.load(labels_ptr + block_idx)
 
@@ -127,6 +163,7 @@ def triton_cross_entropy_forward_backward(
     logits_scale_factor: float,
     target_format: TargetFormat,
     entropy_loss_type: EntropyLossType,
+    group: torch.distributed.ProcessGroup | None = None,
     temperature: float = 1.0,
 ) -> tuple[torch.Tensor, torch.Tensor]:
     """
@@ -148,11 +185,31 @@ def triton_cross_entropy_forward_backward(
     # TODO: Safe to do inplace?
     grad_logits = None if grad_output is None else torch.empty_like(logits)
     if target_format == TargetFormat.labels:
+        if group is None:
+            max_logits = sum_exp_logits = None
+        else:
+            local_max_logits = torch.empty_like(losses)
+            sum_exp_logits = torch.empty_like(losses)
+            triton_softmax_base_kernel[(n_rows,)](
+                logits,
+                local_max_logits,
+                sum_exp_logits,
+                n_cols,
+                logits.stride(-2),
+                logits_scale_factor,
+                block_size=block_size,
+            )
+            max_logits = local_max_logits.clone()
+            torch.distributedall_reduce(max_logits, op=torch.distributed.ReduceOp.MAX, group=group)
+            sum_exp_logits = sum_exp_logits * (local_max_logits - max_logits).exp()
+            torch.distributedall_reduce(sum_exp_logits, op=torch.distributed.ReduceOp.SUM, group=group)
         triton_cross_entropy_forward_backward_kernel[(n_rows,)](
             logits,
             target,
             grad_logits,
             losses,
+            max_logits,
+            sum_exp_logits,
             None if grad_output is None else grad_output / n_rows,
             n_cols,
             logits.stride(-2),
@@ -162,6 +219,7 @@ def triton_cross_entropy_forward_backward(
             num_warps=num_warps,
         )
     else:
+        assert group is None
         if loss_mask is not None:
             assert loss_mask.is_contiguous()
         triton_cross_entropy_from_distribution_forward_backward_kernel[(n_rows,)](
diff --git a/fast_llm/layers/language_model/loss/entropy_loss.py b/fast_llm/layers/language_model/loss/entropy_loss.py
index 1dfd3920c..550f8f330 100644
--- a/fast_llm/layers/language_model/loss/entropy_loss.py
+++ b/fast_llm/layers/language_model/loss/entropy_loss.py
@@ -122,27 +122,14 @@ def entropy_loss_forward_backward(
         assert target.dtype.is_floating_point, target.dtype
         if loss_mask is not None:
             Assert.eq(loss_mask.shape, logits.shape[:-1])
-    if group:
-        Assert.eq(implementation, EntropyLossImplementation.fused)
-        return fused_entropy_loss_forward_backward(
-            logits,
-            target,
-            loss_mask,
-            grad_output,
-            logits_scale_factor,
-            target_format,
-            entropy_loss_type,
-            group,
-            temperature,
-        )
-    else:
-        return _ENTROPY_LOSS_IMPLEMENTATIONS[implementation](
-            logits,
-            target,
-            loss_mask,
-            grad_output,
-            logits_scale_factor,
-            target_format,
-            entropy_loss_type,
-            temperature=temperature,
-        )
+    return _ENTROPY_LOSS_IMPLEMENTATIONS[implementation](
+        logits,
+        target,
+        loss_mask,
+        grad_output,
+        logits_scale_factor,
+        target_format,
+        entropy_loss_type,
+        group,
+        temperature=temperature,
+    )

From b8e7179976f49c64947c177d93293c3786e013b0 Mon Sep 17 00:00:00 2001
From: Joel Lamy-Poirier <joel.lamy-poirier@servicenow.com>
Date: Tue, 3 Feb 2026 00:26:45 -0500
Subject: [PATCH 08/37] fix

---
 fast_llm/functional/triton/cross_entropy.py | 145 ++++++++++++++------
 1 file changed, 105 insertions(+), 40 deletions(-)

diff --git a/fast_llm/functional/triton/cross_entropy.py b/fast_llm/functional/triton/cross_entropy.py
index 12d96a881..22498cf48 100644
--- a/fast_llm/functional/triton/cross_entropy.py
+++ b/fast_llm/functional/triton/cross_entropy.py
@@ -6,10 +6,13 @@
 
 
 @triton_jit()
-def triton_softmax_base_kernel(
+def triton_cross_entropy_forward_parallel_kernel(
     logits_ptr,
+    labels_ptr,
     max_logits_ptr,
     sum_exp_logits_ptr,
+    predicted_logits_ptr,
+    col_min: tl_constexpr,
     n_cols: tl_constexpr,
     logits_stride_0: tl_constexpr,
     logits_scale_factor: tl_constexpr,
@@ -29,6 +32,17 @@ def triton_softmax_base_kernel(
     exp_logits = tl.exp(logits - max_logits)
     sum_exp_logits = tl.sum(exp_logits, 0)
 
+    if labels_ptr is not None and predicted_logits_ptr is not None:
+        label_idx = tl.load(labels_ptr + block_idx) - col_min
+        if label_idx < 0 or label_idx >= n_cols:
+            # Loss mask
+            predicted_logits = 0.0
+        else:
+            predicted_logits = tl.load(logits_ptr + label_idx).to(tl.float32)
+            if logits_scale_factor != 1.0:
+                predicted_logits *= logits_scale_factor
+        tl.store(predicted_logits_ptr + block_idx, predicted_logits)
+
     tl.store(max_logits_ptr + block_idx, max_logits)
     tl.store(sum_exp_logits_ptr + block_idx, sum_exp_logits)
 
@@ -42,6 +56,7 @@ def triton_cross_entropy_forward_backward_kernel(
     max_logits_ptr,
     sum_exp_logits_ptr,
     grad_losses,
+    col_min: tl_constexpr,
     n_cols: tl_constexpr,
     logits_stride_0: tl_constexpr,
     grad_logits_stride_0: tl_constexpr,
@@ -68,26 +83,32 @@ def triton_cross_entropy_forward_backward_kernel(
     else:
         sum_exp_logits = tl.load(sum_exp_logits_ptr + block_idx)
 
-    label_idx = tl.load(labels_ptr + block_idx)
+    label_idx = tl.load(labels_ptr + block_idx) - col_min
 
-    if label_idx < 0:
-        # Loss mask
-        loss = 0.0
-    else:
-        label_logits = tl.load(logits_ptr + label_idx).to(tl.float32)
-        if logits_scale_factor != 1.0:
-            label_logits *= logits_scale_factor
-        loss = tl.log(sum_exp_logits) + max_logits - label_logits
-    tl.store(losses_ptr + block_idx, loss)
+    if losses_ptr is not None:
+        if label_idx < 0 or label_idx >= n_cols:
+            # Loss mask
+            loss = 0.0
+        else:
+            predicted_logits = tl.load(logits_ptr + label_idx).to(tl.float32)
+            if logits_scale_factor != 1.0:
+                predicted_logits *= logits_scale_factor
+            loss = tl.log(sum_exp_logits) + max_logits - predicted_logits
+        tl.store(losses_ptr + block_idx, loss)
 
     if grad_losses is not None:
-        if label_idx < 0:
+        if label_idx < -col_min:
             grad_losses = 0.0
+        elif logits_scale_factor != 1.0:
+            grad_losses *= logits_scale_factor
         grad_base = exp_logits / sum_exp_logits
-        grad_logits = grad_losses * tl.where(col_offsets == label_idx, grad_base - 1.0, grad_base)
-        if logits_scale_factor != 1.0:
-            grad_logits *= logits_scale_factor
-        tl.store(grad_logits_ptr + block_idx * grad_logits_stride_0 + col_offsets, grad_logits, mask=mask)
+        if label_idx < 0 or label_idx >= n_cols:
+            grad_logits = grad_base
+        else:
+            grad_logits = tl.where(col_offsets == label_idx, grad_base - 1.0, grad_base)
+        tl.store(
+            grad_logits_ptr + block_idx * grad_logits_stride_0 + col_offsets, grad_logits * grad_losses, mask=mask
+        )
 
 
 @triton_jit()
@@ -155,6 +176,25 @@ def triton_cross_entropy_from_distribution_forward_backward_kernel(
         tl.store(grad_logits_ptr + block_idx * grad_logits_stride_0 + col_offsets, grad_logits, mask=mask)
 
 
+@torch.compile
+def _rescale_sum_exp_logits(
+    sum_exp_logits: torch.Tensor,
+    local_max_logits: torch.Tensor,
+    max_logits: torch.Tensor,
+) -> torch.Tensor:
+    return sum_exp_logits * (local_max_logits - max_logits).exp()
+
+
+@torch.compile
+def _calculate_loss(
+    predicted_logits: torch.Tensor,
+    target: torch.Tensor,
+    sum_exp_logits: torch.Tensor,
+    max_logits: torch.Tensor,
+) -> torch.Tensor:
+    return torch.where(target.flatten() >= 0, sum_exp_logits.log() + max_logits - predicted_logits, 0).mean()
+
+
 def triton_cross_entropy_forward_backward(
     logits: torch.Tensor,
     target: torch.Tensor,
@@ -181,45 +221,69 @@ def triton_cross_entropy_forward_backward(
     n_cols = logits.size(-1)
     block_size = triton.next_power_of_2(n_cols)
     num_warps = 4 if block_size < 2048 else (8 if block_size < 8192 else 16)
-    losses = torch.empty(n_rows, dtype=torch.float, device=logits.device)
     # TODO: Safe to do inplace?
     grad_logits = None if grad_output is None else torch.empty_like(logits)
     if target_format == TargetFormat.labels:
         if group is None:
-            max_logits = sum_exp_logits = None
+            losses = torch.empty(n_rows, dtype=torch.float, device=logits.device)
+            triton_cross_entropy_forward_backward_kernel[(n_rows,)](
+                logits,
+                target,
+                grad_logits,
+                losses,
+                None,
+                None,
+                None if grad_output is None else grad_output / n_rows,
+                0,
+                n_cols,
+                logits.stride(-2),
+                None if grad_output is None else grad_logits.stride(-2),
+                logits_scale_factor,
+                block_size=block_size,
+                num_warps=num_warps,
+            )
+            loss = losses.mean()
         else:
-            local_max_logits = torch.empty_like(losses)
-            sum_exp_logits = torch.empty_like(losses)
-            triton_softmax_base_kernel[(n_rows,)](
+            predicted_logits = torch.empty(n_rows, dtype=torch.float, device=logits.device)
+            local_max_logits = torch.empty_like(predicted_logits)
+            sum_exp_logits = torch.empty_like(predicted_logits)
+            triton_cross_entropy_forward_parallel_kernel[(n_rows,)](
                 logits,
+                target,
                 local_max_logits,
                 sum_exp_logits,
+                predicted_logits,
+                n_cols * group.rank(),
                 n_cols,
                 logits.stride(-2),
                 logits_scale_factor,
                 block_size=block_size,
             )
             max_logits = local_max_logits.clone()
-            torch.distributedall_reduce(max_logits, op=torch.distributed.ReduceOp.MAX, group=group)
-            sum_exp_logits = sum_exp_logits * (local_max_logits - max_logits).exp()
-            torch.distributedall_reduce(sum_exp_logits, op=torch.distributed.ReduceOp.SUM, group=group)
-        triton_cross_entropy_forward_backward_kernel[(n_rows,)](
-            logits,
-            target,
-            grad_logits,
-            losses,
-            max_logits,
-            sum_exp_logits,
-            None if grad_output is None else grad_output / n_rows,
-            n_cols,
-            logits.stride(-2),
-            None if grad_output is None else grad_logits.stride(-2),
-            logits_scale_factor,
-            block_size=block_size,
-            num_warps=num_warps,
-        )
+            torch.distributed.all_reduce(max_logits, op=torch.distributed.ReduceOp.MAX, group=group)
+            sum_exp_logits = _rescale_sum_exp_logits(sum_exp_logits, local_max_logits, max_logits)
+            torch.distributed.all_reduce(sum_exp_logits, op=torch.distributed.ReduceOp.SUM, group=group)
+            torch.distributed.all_reduce(predicted_logits, op=torch.distributed.ReduceOp.SUM, group=group)
+            loss = _calculate_loss(predicted_logits, target, sum_exp_logits, max_logits)
+            triton_cross_entropy_forward_backward_kernel[(n_rows,)](
+                logits,
+                target,
+                grad_logits,
+                None,
+                max_logits,
+                sum_exp_logits,
+                None if grad_output is None else grad_output / n_rows,
+                n_cols * group.rank(),
+                n_cols,
+                logits.stride(-2),
+                None if grad_output is None else grad_logits.stride(-2),
+                logits_scale_factor,
+                block_size=block_size,
+                num_warps=num_warps,
+            )
     else:
         assert group is None
+        losses = torch.empty(n_rows, dtype=torch.float, device=logits.device)
         if loss_mask is not None:
             assert loss_mask.is_contiguous()
         triton_cross_entropy_from_distribution_forward_backward_kernel[(n_rows,)](
@@ -238,4 +302,5 @@ def triton_cross_entropy_forward_backward(
             num_warps=num_warps,
             from_logits=target_format == TargetFormat.logits,
         )
-    return losses.mean(), grad_logits
+        loss = losses.mean()
+    return loss, grad_logits

From 3c3e0c8704d14fdfe77d41370e70a6b0b1242bce Mon Sep 17 00:00:00 2001
From: Joel Lamy-Poirier <joel.lamy-poirier@servicenow.com>
Date: Tue, 3 Feb 2026 15:45:19 -0500
Subject: [PATCH 09/37] fixes

---
 fast_llm/functional/triton/cross_entropy.py   | 97 ++++++++++++-------
 .../language_model/loss/entropy_loss.py       |  2 +
 2 files changed, 64 insertions(+), 35 deletions(-)

diff --git a/fast_llm/functional/triton/cross_entropy.py b/fast_llm/functional/triton/cross_entropy.py
index 22498cf48..82312b99e 100644
--- a/fast_llm/functional/triton/cross_entropy.py
+++ b/fast_llm/functional/triton/cross_entropy.py
@@ -5,6 +5,32 @@
 from fast_llm.utils import Assert
 
 
+@triton_jit()
+def triton_fused_softmax_base(
+    logits_ptr,
+    n_cols: tl_constexpr,
+    logits_scale_factor: tl_constexpr,
+    block_size: tl_constexpr,
+):
+    for col_offset in tl.static_range(0, n_cols, block_size):
+        col_offsets = tl.arange(col_offset, col_offset + block_size)
+        mask = col_offsets < n_cols
+        logits = tl.load(logits_ptr + col_offsets, mask=mask, other=-float("inf")).to(tl.float32)
+        if logits_scale_factor != 1.0:
+            logits *= logits_scale_factor
+
+        if col_offset == 0:
+            max_logits = tl.max(logits, 0)
+            exp_logits = tl.exp(logits - max_logits)
+            sum_exp_logits = tl.sum(exp_logits, 0)
+        else:
+            new_max_logits = tl.maximum(tl.max(logits, 0), max_logits)
+            exp_logits = tl.exp(logits - new_max_logits)
+            sum_exp_logits = tl.sum(exp_logits, 0) + sum_exp_logits * tl.exp(max_logits - new_max_logits)
+            max_logits = new_max_logits
+    return exp_logits, sum_exp_logits, max_logits, mask
+
+
 @triton_jit()
 def triton_cross_entropy_forward_parallel_kernel(
     logits_ptr,
@@ -20,17 +46,11 @@ def triton_cross_entropy_forward_parallel_kernel(
 ):
     # TODO: Int64 ptr only if needed?
     block_idx = tl.program_id(0).to(tl.int64)
-    col_offsets = tl.arange(0, block_size)
     logits_ptr = logits_ptr + block_idx * logits_stride_0
-    mask = col_offsets < n_cols
-
-    logits = tl.load(logits_ptr + col_offsets, mask=mask, other=-float("inf")).to(tl.float32)
-    if logits_scale_factor != 1.0:
-        logits *= logits_scale_factor
 
-    max_logits = tl.max(logits, 0)
-    exp_logits = tl.exp(logits - max_logits)
-    sum_exp_logits = tl.sum(exp_logits, 0)
+    exp_logits, sum_exp_logits, max_logits, mask = triton_fused_softmax_base(
+        logits_ptr, n_cols, logits_scale_factor, block_size
+    )
 
     if labels_ptr is not None and predicted_logits_ptr is not None:
         label_idx = tl.load(labels_ptr + block_idx) - col_min
@@ -65,22 +85,14 @@ def triton_cross_entropy_forward_backward_kernel(
 ):
     # TODO: Int64 ptr only if needed?
     block_idx = tl.program_id(0).to(tl.int64)
-    col_offsets = tl.arange(0, block_size)
     logits_ptr = logits_ptr + block_idx * logits_stride_0
-    mask = col_offsets < n_cols
-
-    logits = tl.load(logits_ptr + col_offsets, mask=mask, other=-float("inf")).to(tl.float32)
-    if logits_scale_factor != 1.0:
-        logits *= logits_scale_factor
 
-    if max_logits_ptr is None:
-        max_logits = tl.max(logits, 0)
+    if max_logits_ptr is None or sum_exp_logits_ptr is None:
+        exp_logits, sum_exp_logits, max_logits, mask = triton_fused_softmax_base(
+            logits_ptr, n_cols, logits_scale_factor, block_size
+        )
     else:
         max_logits = tl.load(max_logits_ptr + block_idx)
-    exp_logits = tl.exp(logits - max_logits)
-    if sum_exp_logits_ptr is None:
-        sum_exp_logits = tl.sum(exp_logits, 0)
-    else:
         sum_exp_logits = tl.load(sum_exp_logits_ptr + block_idx)
 
     label_idx = tl.load(labels_ptr + block_idx) - col_min
@@ -89,6 +101,7 @@ def triton_cross_entropy_forward_backward_kernel(
         if label_idx < 0 or label_idx >= n_cols:
             # Loss mask
             loss = 0.0
+            predicted_logits = 0.0
         else:
             predicted_logits = tl.load(logits_ptr + label_idx).to(tl.float32)
             if logits_scale_factor != 1.0:
@@ -97,18 +110,28 @@ def triton_cross_entropy_forward_backward_kernel(
         tl.store(losses_ptr + block_idx, loss)
 
     if grad_losses is not None:
-        if label_idx < -col_min:
-            grad_losses = 0.0
-        elif logits_scale_factor != 1.0:
-            grad_losses *= logits_scale_factor
-        grad_base = exp_logits / sum_exp_logits
-        if label_idx < 0 or label_idx >= n_cols:
-            grad_logits = grad_base
-        else:
-            grad_logits = tl.where(col_offsets == label_idx, grad_base - 1.0, grad_base)
-        tl.store(
-            grad_logits_ptr + block_idx * grad_logits_stride_0 + col_offsets, grad_logits * grad_losses, mask=mask
-        )
+        # Run in reverse order to maximize input and cache reuse.
+        for col_offset in tl.static_range((n_cols - 1) // block_size * block_size, -1, -block_size):
+            if max_logits_ptr is None or sum_exp_logits_ptr is None or col_offset != n_cols - block_size:
+                col_offsets = tl.arange(col_offset, col_offset + block_size)
+                mask = col_offsets < n_cols
+                logits = tl.load(logits_ptr + col_offsets, mask=mask, other=-float("inf")).to(tl.float32)
+                if logits_scale_factor != 1.0:
+                    logits *= logits_scale_factor
+                exp_logits = tl.exp(logits - max_logits)
+
+            if label_idx < -col_min:
+                grad_losses = 0.0
+            elif logits_scale_factor != 1.0:
+                grad_losses *= logits_scale_factor
+            grad_base = exp_logits / sum_exp_logits
+            if label_idx < 0 or label_idx >= n_cols:
+                grad_logits = grad_base
+            else:
+                grad_logits = tl.where(col_offsets == label_idx, grad_base - 1.0, grad_base)
+            tl.store(
+                grad_logits_ptr + block_idx * grad_logits_stride_0 + col_offsets, grad_logits * grad_losses, mask=mask
+            )
 
 
 @triton_jit()
@@ -205,6 +228,8 @@ def triton_cross_entropy_forward_backward(
     entropy_loss_type: EntropyLossType,
     group: torch.distributed.ProcessGroup | None = None,
     temperature: float = 1.0,
+    block_size: int | None = None,
+    num_warps: int | None = None,
 ) -> tuple[torch.Tensor, torch.Tensor]:
     """
     A fast triton implementation of cross-entropy, which combines the casting and forward and backward passes,
@@ -219,8 +244,10 @@ def triton_cross_entropy_forward_backward(
     assert target.is_contiguous()
     n_rows = logits.shape[:-1].numel()
     n_cols = logits.size(-1)
-    block_size = triton.next_power_of_2(n_cols)
-    num_warps = 4 if block_size < 2048 else (8 if block_size < 8192 else 16)
+    if block_size is None:
+        block_size = min(triton.next_power_of_2(n_cols), 32768)
+    if num_warps is None:
+        num_warps = 4 if block_size < 2048 else (8 if block_size < 8192 else 16)
     # TODO: Safe to do inplace?
     grad_logits = None if grad_output is None else torch.empty_like(logits)
     if target_format == TargetFormat.labels:
diff --git a/fast_llm/layers/language_model/loss/entropy_loss.py b/fast_llm/layers/language_model/loss/entropy_loss.py
index 550f8f330..351aa210b 100644
--- a/fast_llm/layers/language_model/loss/entropy_loss.py
+++ b/fast_llm/layers/language_model/loss/entropy_loss.py
@@ -106,6 +106,7 @@ def entropy_loss_forward_backward(
     temperature: float = 1.0,
     target_format: TargetFormat = TargetFormat.labels,
     entropy_loss_type: EntropyLossType = EntropyLossType.cross_entropy,
+    **kwargs,
 ) -> tuple[torch.Tensor, torch.Tensor | None]:
     """
     Select the appropriate implementation of cross-entropy.
@@ -132,4 +133,5 @@ def entropy_loss_forward_backward(
         entropy_loss_type,
         group,
         temperature=temperature,
+        **kwargs,
     )

From 2d293eaf7dc5782c2c3c204d3fe7f8c1747bd138 Mon Sep 17 00:00:00 2001
From: Joel Lamy-Poirier <joel.lamy-poirier@servicenow.com>
Date: Thu, 5 Feb 2026 02:51:31 -0500
Subject: [PATCH 10/37] Cross-entropy from distribution

---
 fast_llm/functional/entropy_loss.py         |   8 +-
 fast_llm/functional/triton/__init__.py      |  17 +
 fast_llm/functional/triton/cross_entropy.py | 509 ++++++++++++++------
 tests/layers/test_lm_losses.py              |  89 ++--
 4 files changed, 444 insertions(+), 179 deletions(-)

diff --git a/fast_llm/functional/entropy_loss.py b/fast_llm/functional/entropy_loss.py
index 37486ddc0..25e1ae317 100644
--- a/fast_llm/functional/entropy_loss.py
+++ b/fast_llm/functional/entropy_loss.py
@@ -121,7 +121,7 @@ def fused_softmax_base(
 
 
 @torch.compile
-def _fused_reverse_kl_base(
+def _fused_reverse_kl_base_from_distribution(
     logits: torch.Tensor,  # (*batch, vocab)
     target: torch.Tensor,  # (*batch, vocab)
     grad_output: float | None,
@@ -161,7 +161,7 @@ def _fused_reverse_kl_base(
 
 
 @torch.compile
-def _fused_cross_entropy_base(
+def _fused_cross_entropy_base_from_distribution(
     logits: torch.Tensor,  # (*batch, vocab)
     target: torch.Tensor,  # (*batch, vocab)
     grad_output: float | None,
@@ -302,7 +302,7 @@ def fused_entropy_loss_forward_backward(
             group,
         )
     elif entropy_loss_type in (EntropyLossType.cross_entropy, EntropyLossType.forward_kl):
-        per_sample_loss, grad = _fused_cross_entropy_base(
+        per_sample_loss, grad = _fused_cross_entropy_base_from_distribution(
             logits,
             target,
             grad_output,
@@ -313,7 +313,7 @@ def fused_entropy_loss_forward_backward(
             return_kl_loss=entropy_loss_type == EntropyLossType.forward_kl,
         )
     elif entropy_loss_type == EntropyLossType.reverse_kl:
-        per_sample_loss, grad = _fused_reverse_kl_base(
+        per_sample_loss, grad = _fused_reverse_kl_base_from_distribution(
             logits,
             target,
             grad_output,
diff --git a/fast_llm/functional/triton/__init__.py b/fast_llm/functional/triton/__init__.py
index 778559db1..82f67621e 100644
--- a/fast_llm/functional/triton/__init__.py
+++ b/fast_llm/functional/triton/__init__.py
@@ -1,16 +1,33 @@
+import torch
+
 from fast_llm.utils import InvalidObject, try_decorate
 
 try:
     import triton
+    import triton.knobs
     import triton.language as tl
 
     tl_constexpr = tl.constexpr
     TritonConfig = triton.Config
+    triton_available = torch.cuda.is_available() or triton.knobs.runtime.interpret
 except ImportError as e:
     triton = InvalidObject(e)
     tl = triton
     tl_constexpr = None
     TritonConfig = lambda *args, **kwargs: None
+    triton_available = False
 
 triton_jit = try_decorate(lambda: triton.jit)
 triton_autotune = try_decorate(lambda: triton.autotune)
+
+
+if not triton_available:
+    tl_arange = None
+elif triton.knobs.runtime.interpret:
+    # Workaround for a triton bug.
+    @triton_jit
+    def tl_arange(start, end):
+        return tl.arange(int(start), int(end))
+
+else:
+    tl_arange = tl.arange
diff --git a/fast_llm/functional/triton/cross_entropy.py b/fast_llm/functional/triton/cross_entropy.py
index 82312b99e..6fb8e930d 100644
--- a/fast_llm/functional/triton/cross_entropy.py
+++ b/fast_llm/functional/triton/cross_entropy.py
@@ -1,7 +1,7 @@
 import torch
 
 from fast_llm.functional.config import EntropyLossType, TargetFormat, TritonConfig
-from fast_llm.functional.triton import tl, tl_constexpr, triton, triton_jit
+from fast_llm.functional.triton import tl, tl_arange, tl_constexpr, triton, triton_jit
 from fast_llm.utils import Assert
 
 
@@ -9,11 +9,11 @@
 def triton_fused_softmax_base(
     logits_ptr,
     n_cols: tl_constexpr,
-    logits_scale_factor: tl_constexpr,
     block_size: tl_constexpr,
+    logits_scale_factor: tl_constexpr = 1.0,
 ):
     for col_offset in tl.static_range(0, n_cols, block_size):
-        col_offsets = tl.arange(col_offset, col_offset + block_size)
+        col_offsets = tl_arange(col_offset, col_offset + block_size)
         mask = col_offsets < n_cols
         logits = tl.load(logits_ptr + col_offsets, mask=mask, other=-float("inf")).to(tl.float32)
         if logits_scale_factor != 1.0:
@@ -28,28 +28,28 @@ def triton_fused_softmax_base(
             exp_logits = tl.exp(logits - new_max_logits)
             sum_exp_logits = tl.sum(exp_logits, 0) + sum_exp_logits * tl.exp(max_logits - new_max_logits)
             max_logits = new_max_logits
-    return exp_logits, sum_exp_logits, max_logits, mask
+    return exp_logits, sum_exp_logits, max_logits
 
 
 @triton_jit()
-def triton_cross_entropy_forward_parallel_kernel(
+def triton_cross_entropy_forward_from_labels_parallel_kernel(
     logits_ptr,
     labels_ptr,
-    max_logits_ptr,
-    sum_exp_logits_ptr,
-    predicted_logits_ptr,
-    col_min: tl_constexpr,
     n_cols: tl_constexpr,
     logits_stride_0: tl_constexpr,
-    logits_scale_factor: tl_constexpr,
     block_size: tl_constexpr,
+    max_logits_ptr=None,
+    sum_exp_logits_ptr=None,
+    predicted_logits_ptr=None,
+    col_min: tl_constexpr = 0,
+    logits_scale_factor: tl_constexpr = 1.0,
 ):
     # TODO: Int64 ptr only if needed?
     block_idx = tl.program_id(0).to(tl.int64)
     logits_ptr = logits_ptr + block_idx * logits_stride_0
 
-    exp_logits, sum_exp_logits, max_logits, mask = triton_fused_softmax_base(
-        logits_ptr, n_cols, logits_scale_factor, block_size
+    exp_logits, sum_exp_logits, max_logits = triton_fused_softmax_base(
+        logits_ptr, n_cols=n_cols, block_size=block_size, logits_scale_factor=logits_scale_factor
     )
 
     if labels_ptr is not None and predicted_logits_ptr is not None:
@@ -63,33 +63,35 @@ def triton_cross_entropy_forward_parallel_kernel(
                 predicted_logits *= logits_scale_factor
         tl.store(predicted_logits_ptr + block_idx, predicted_logits)
 
-    tl.store(max_logits_ptr + block_idx, max_logits)
-    tl.store(sum_exp_logits_ptr + block_idx, sum_exp_logits)
+    if max_logits_ptr is not None:
+        tl.store(max_logits_ptr + block_idx, max_logits)
+    if sum_exp_logits_ptr is not None:
+        tl.store(sum_exp_logits_ptr + block_idx, sum_exp_logits)
 
 
 @triton_jit()
-def triton_cross_entropy_forward_backward_kernel(
+def triton_cross_entropy_forward_backward_from_labels_kernel(
     logits_ptr,
     labels_ptr,
-    grad_logits_ptr,
-    losses_ptr,
-    max_logits_ptr,
-    sum_exp_logits_ptr,
-    grad_losses,
-    col_min: tl_constexpr,
     n_cols: tl_constexpr,
     logits_stride_0: tl_constexpr,
-    grad_logits_stride_0: tl_constexpr,
-    logits_scale_factor: tl_constexpr,
     block_size: tl_constexpr,
+    losses_ptr=None,
+    max_logits_ptr=None,
+    sum_exp_logits_ptr=None,
+    grad_losses=None,
+    grad_logits_ptr=None,
+    grad_logits_stride_0: tl_constexpr = None,
+    col_min: tl_constexpr = 0,
+    logits_scale_factor: tl_constexpr = 1.0,
 ):
     # TODO: Int64 ptr only if needed?
     block_idx = tl.program_id(0).to(tl.int64)
     logits_ptr = logits_ptr + block_idx * logits_stride_0
 
     if max_logits_ptr is None or sum_exp_logits_ptr is None:
-        exp_logits, sum_exp_logits, max_logits, mask = triton_fused_softmax_base(
-            logits_ptr, n_cols, logits_scale_factor, block_size
+        exp_logits, sum_exp_logits, max_logits = triton_fused_softmax_base(
+            logits_ptr, n_cols=n_cols, block_size=block_size, logits_scale_factor=logits_scale_factor
         )
     else:
         max_logits = tl.load(max_logits_ptr + block_idx)
@@ -101,7 +103,6 @@ def triton_cross_entropy_forward_backward_kernel(
         if label_idx < 0 or label_idx >= n_cols:
             # Loss mask
             loss = 0.0
-            predicted_logits = 0.0
         else:
             predicted_logits = tl.load(logits_ptr + label_idx).to(tl.float32)
             if logits_scale_factor != 1.0:
@@ -110,20 +111,21 @@ def triton_cross_entropy_forward_backward_kernel(
         tl.store(losses_ptr + block_idx, loss)
 
     if grad_losses is not None:
+        if label_idx < -col_min:
+            grad_losses = 0.0
+        elif logits_scale_factor != 1.0:
+            grad_losses *= logits_scale_factor
         # Run in reverse order to maximize input and cache reuse.
-        for col_offset in tl.static_range((n_cols - 1) // block_size * block_size, -1, -block_size):
-            if max_logits_ptr is None or sum_exp_logits_ptr is None or col_offset != n_cols - block_size:
-                col_offsets = tl.arange(col_offset, col_offset + block_size)
-                mask = col_offsets < n_cols
+        col_offset_start = (n_cols - 1) // block_size * block_size
+        for col_offset in tl.static_range(col_offset_start, -1, -block_size):
+            col_offsets = tl_arange(col_offset, col_offset + block_size)
+            mask = col_offsets < n_cols
+            if max_logits_ptr is not None or sum_exp_logits_ptr is not None or col_offset != col_offset_start:
                 logits = tl.load(logits_ptr + col_offsets, mask=mask, other=-float("inf")).to(tl.float32)
                 if logits_scale_factor != 1.0:
                     logits *= logits_scale_factor
                 exp_logits = tl.exp(logits - max_logits)
 
-            if label_idx < -col_min:
-                grad_losses = 0.0
-            elif logits_scale_factor != 1.0:
-                grad_losses *= logits_scale_factor
             grad_base = exp_logits / sum_exp_logits
             if label_idx < 0 or label_idx >= n_cols:
                 grad_logits = grad_base
@@ -135,68 +137,209 @@ def triton_cross_entropy_forward_backward_kernel(
 
 
 @triton_jit()
-def triton_cross_entropy_from_distribution_forward_backward_kernel(
+def triton_predicted_logits_from_distribution(
+    logits_ptr,
+    target_ptr,
+    n_cols: tl_constexpr,
+    block_size: tl_constexpr,
+    from_logits: tl_constexpr = True,
+    target_logits_scale_factor: tl_constexpr = 1.0,
+    logits_scale_factor: tl_constexpr = 1.0,
+    unscaled_probabilities: tl_constexpr = False,  # Skip division by sum_exp_logits in the logits case.
+):
+    for col_offset in tl.static_range(0, n_cols, block_size):
+        col_offsets = tl_arange(col_offset, col_offset + block_size)
+        mask = col_offsets < n_cols
+        logits = tl.load(logits_ptr + col_offsets, mask=mask, other=-float("inf")).to(tl.float32)
+        if logits_scale_factor != 1.0:
+            logits *= logits_scale_factor
+
+        if from_logits:
+            target_logits = tl.load(target_ptr + col_offsets, mask=mask, other=-float("inf")).to(tl.float32)
+            if target_logits_scale_factor != 1.0:
+                target_logits *= target_logits_scale_factor
+        else:
+            target = tl.load(target_ptr + col_offsets, mask=mask, other=-float("inf")).to(tl.float32)
+
+        if col_offset == 0:
+            max_logits = tl.max(logits, 0)
+            exp_logits = tl.exp(logits - max_logits)
+            sum_exp_logits = tl.sum(exp_logits, 0)
+            if from_logits:
+                target_max_logits = tl.max(target_logits, 0)
+                target_exp_logits = tl.exp(target_logits - target_max_logits)
+                target_sum_exp_logits = tl.sum(target_exp_logits, 0)
+                predicted_logits = tl.sum(tl.where(mask, target_exp_logits * logits, 0))
+            else:
+                target = tl.load(target_ptr + col_offsets, mask=mask, other=-float("inf")).to(tl.float32)
+                predicted_logits = tl.sum(tl.where(mask, target * logits, 0))
+                target_max_logits = None
+                target_sum_exp_logits = None
+        else:
+            new_max_logits = tl.maximum(tl.max(logits, 0), max_logits)
+            exp_logits = tl.exp(logits - new_max_logits)
+            sum_exp_logits = tl.sum(exp_logits, 0) + sum_exp_logits * tl.exp(max_logits - new_max_logits)
+            max_logits = new_max_logits
+            if from_logits:
+                target_new_max_logits = tl.maximum(tl.max(target_logits, 0), target_max_logits)
+                target_exp_logits = tl.exp(target_logits - target_new_max_logits)
+                target_sum_exp_logits = tl.sum(target_exp_logits, 0) + target_sum_exp_logits * tl.exp(
+                    target_max_logits - target_new_max_logits
+                )
+                predicted_logits = predicted_logits * tl.exp(target_max_logits - target_new_max_logits) + tl.sum(
+                    tl.where(mask, target_exp_logits * logits, 0)
+                )
+                target_max_logits = target_new_max_logits
+            else:
+                predicted_logits += tl.sum(tl.where(mask, target * logits, 0))
+
+    if from_logits:
+        target = target_exp_logits
+        if not unscaled_probabilities:
+            predicted_logits /= target_sum_exp_logits
+            target /= target_sum_exp_logits
+
+    return predicted_logits, exp_logits, sum_exp_logits, max_logits, target_sum_exp_logits, target_max_logits, target
+
+
+@triton_jit()
+def triton_cross_entropy_from_distribution_forward_parallel_kernel(
     logits_ptr,
     target_ptr,
-    loss_mask_ptr,
-    grad_logits_ptr,
-    losses_ptr,
-    grad_losses,
     n_cols: tl_constexpr,
     logits_stride_0: tl_constexpr,
     target_stride_0: tl_constexpr,
-    grad_logits_stride_0: tl_constexpr,
-    logits_scale_factor: tl_constexpr,
-    from_logits: tl_constexpr,
     block_size: tl_constexpr,
+    loss_mask_ptr=None,
+    max_logits_ptr=None,
+    sum_exp_logits_ptr=None,
+    target_max_logits_ptr=None,
+    target_sum_exp_logits_ptr=None,
+    predicted_logits_ptr=None,
+    from_logits: tl_constexpr = True,
+    logits_scale_factor: tl_constexpr = 1.0,
+    target_logits_scale_factor: tl_constexpr = 1.0,
 ):
     # TODO: Int64 ptr only if needed?
     block_idx = tl.program_id(0).to(tl.int64)
-    col_offsets = tl.arange(0, block_size)
-    mask = col_offsets < n_cols
+    logits_ptr = logits_ptr + block_idx * logits_stride_0
+    target_ptr = target_ptr + block_idx * target_stride_0
 
-    if loss_mask_ptr is not None:
-        loss_mask = tl.load(loss_mask_ptr + block_idx)
-        if loss_mask == 0:
-            tl.store(losses_ptr + block_idx, 0)
-            if grad_losses is not None:
-                tl.store(grad_logits_ptr + block_idx * grad_logits_stride_0 + col_offsets, 0, mask=mask)
-            return
+    if loss_mask_ptr is not None and tl.load(loss_mask_ptr + block_idx) == 0:
+        # This entry is masked, ignore.
+        tl.store(predicted_logits_ptr + block_idx, 0)
+        return
 
-    logits = tl.load(logits_ptr + block_idx * logits_stride_0 + col_offsets, mask=mask, other=-float("inf")).to(
-        tl.float32
+    predicted_logits, _, sum_exp_logits, max_logits, target_sum_exp_logits, target_max_logits, target = (
+        triton_predicted_logits_from_distribution(
+            logits_ptr,
+            target_ptr,
+            n_cols=n_cols,
+            block_size=block_size,
+            from_logits=from_logits,
+            logits_scale_factor=logits_scale_factor,
+            target_logits_scale_factor=target_logits_scale_factor,
+            unscaled_probabilities=True,
+        )
     )
-    if logits_scale_factor != 1.0:
-        logits *= logits_scale_factor
+    if predicted_logits_ptr is not None:
+        tl.store(predicted_logits_ptr + block_idx, predicted_logits)
+    if max_logits_ptr is not None:
+        tl.store(max_logits_ptr + block_idx, max_logits)
+    if sum_exp_logits_ptr is not None:
+        tl.store(sum_exp_logits_ptr + block_idx, sum_exp_logits)
 
-    max_logits = tl.max(logits, 0)
-    logits_norm = logits - max_logits
-    exp_logits = tl.exp(logits_norm)
-    sum_exp_logits = tl.sum(exp_logits, 0)
+    if target_max_logits_ptr is not None:
+        tl.store(target_max_logits_ptr + block_idx, target_max_logits)
+    if target_sum_exp_logits_ptr is not None:
+        tl.store(target_sum_exp_logits_ptr + block_idx, target_sum_exp_logits)
 
-    target = tl.load(target_ptr + block_idx * target_stride_0 + col_offsets, mask=mask, other=-float("inf")).to(
-        tl.float32
-    )
-    if from_logits:
-        if logits_scale_factor != 1.0:
-            target *= logits_scale_factor
-        max_target_logits = tl.max(target, 0)
-        exp_target_logits = tl.exp(target - max_target_logits)
-        sum_exp_target_logits = tl.sum(exp_target_logits, 0)
-        target = exp_target_logits / sum_exp_target_logits
 
-    # per_sample_loss = log(sum_exp_logits) - sum(probabilities * logits)
-    loss = tl.log(sum_exp_logits) - tl.sum(tl.where(mask, target * logits_norm, 0), 0)
-    tl.store(losses_ptr + block_idx, loss)
+@triton_jit()
+def triton_cross_entropy_from_distribution_forward_backward_kernel(
+    logits_ptr,
+    target_ptr,
+    n_cols: tl_constexpr,
+    logits_stride_0: tl_constexpr,
+    target_stride_0: tl_constexpr,
+    block_size: tl_constexpr,
+    loss_mask_ptr=None,
+    losses_ptr=None,
+    max_logits_ptr=None,
+    sum_exp_logits_ptr=None,
+    target_max_logits_ptr=None,
+    target_sum_exp_logits_ptr=None,
+    from_logits: tl_constexpr = True,
+    grad_losses=None,
+    grad_logits_ptr=None,
+    grad_logits_stride_0: tl_constexpr = None,
+    logits_scale_factor: tl_constexpr = 1.0,
+    target_logits_scale_factor: tl_constexpr = 1.0,
+):
+    # TODO: Int64 ptr only if needed?
+    block_idx = tl.program_id(0).to(tl.int64)
+    logits_ptr = logits_ptr + block_idx * logits_stride_0
+    target_ptr = target_ptr + block_idx * target_stride_0
+
+    if loss_mask_ptr is not None and tl.load(loss_mask_ptr + block_idx) == 0:
+        # This entry is masked, ignore.
+        if losses_ptr is not None:
+            tl.store(losses_ptr + block_idx, 0)
+        if grad_losses is not None:
+            for col_offset in tl.static_range(0, n_cols, block_size):
+                col_offsets = tl_arange(int(col_offset), int(col_offset + block_size))
+                tl.store(
+                    grad_logits_ptr + block_idx * grad_logits_stride_0 + col_offsets, 0, mask=col_offsets < n_cols
+                )
+        return
+
+    if max_logits_ptr is None or sum_exp_logits_ptr is None:
+        predicted_logits, exp_logits, sum_exp_logits, max_logits, target_sum_exp_logits, target_max_logits, target = (
+            triton_predicted_logits_from_distribution(
+                logits_ptr,
+                target_ptr,
+                n_cols=n_cols,
+                block_size=block_size,
+                from_logits=from_logits,
+                logits_scale_factor=logits_scale_factor,
+                target_logits_scale_factor=target_logits_scale_factor,
+            )
+        )
+    else:
+        max_logits = tl.load(max_logits_ptr + block_idx)
+        sum_exp_logits = tl.load(sum_exp_logits_ptr + block_idx)
+        if grad_losses is not None and from_logits:
+            target_max_logits = tl.load(target_max_logits_ptr + block_idx)
+            target_sum_exp_logits = tl.load(target_sum_exp_logits_ptr + block_idx)
+
+    if losses_ptr is not None:
+        # per_sample_loss = log(sum_exp_logits) - sum(probabilities * logits)
+        loss = tl.log(sum_exp_logits) + max_logits - predicted_logits
+        tl.store(losses_ptr + block_idx, loss)
 
     if grad_losses is not None:
-        # grad / grad_output = exp_logits / sum_exp_logits - target_probabilities.
-        grad_logits = grad_losses * (exp_logits / sum_exp_logits - target)
         if logits_scale_factor != 1.0:
-            grad_logits *= logits_scale_factor
-        if loss_mask_ptr is not None:
-            grad_logits = grad_logits
-        tl.store(grad_logits_ptr + block_idx * grad_logits_stride_0 + col_offsets, grad_logits, mask=mask)
+            grad_losses *= logits_scale_factor
+        # grad / grad_output = exp_logits / sum_exp_logits - target_probabilities.
+        col_offset_start = (n_cols - 1) // block_size * block_size
+        for col_offset in tl.static_range(col_offset_start, -1, -block_size):
+            col_offsets = tl_arange(col_offset, col_offset + block_size)
+            mask = col_offsets < n_cols
+            if max_logits_ptr is not None or sum_exp_logits_ptr is not None or col_offset != col_offset_start:
+                logits = tl.load(logits_ptr + col_offsets, mask=mask, other=-float("inf")).to(tl.float32)
+                if logits_scale_factor != 1.0:
+                    logits *= logits_scale_factor
+                exp_logits = tl.exp(logits - max_logits)
+                if from_logits:
+                    target_logits = tl.load(target_ptr + col_offsets, mask=mask, other=-float("inf")).to(tl.float32)
+                    if target_logits_scale_factor != 1.0:
+                        target_logits *= target_logits_scale_factor
+                    target = tl.exp(target_logits - target_max_logits) / target_sum_exp_logits
+                else:
+                    target = tl.load(target_ptr + col_offsets, mask=mask, other=-float("inf")).to(tl.float32)
+
+            grad_logits = grad_losses * (exp_logits / sum_exp_logits - target)
+            tl.store(grad_logits_ptr + block_idx * grad_logits_stride_0 + col_offsets, grad_logits, mask=mask)
 
 
 @torch.compile
@@ -208,8 +351,20 @@ def _rescale_sum_exp_logits(
     return sum_exp_logits * (local_max_logits - max_logits).exp()
 
 
+def _parallel_sum_exp_logits(
+    sum_exp_logits: torch.Tensor,
+    local_max_logits: torch.Tensor,
+    group: torch.distributed.ProcessGroup | None,
+) -> torch.Tensor:
+    max_logits = local_max_logits.clone()
+    torch.distributed.all_reduce(max_logits, op=torch.distributed.ReduceOp.MAX, group=group)
+    sum_exp_logits = _rescale_sum_exp_logits(sum_exp_logits, local_max_logits, max_logits)
+    torch.distributed.all_reduce(sum_exp_logits, op=torch.distributed.ReduceOp.SUM, group=group)
+    return max_logits, sum_exp_logits
+
+
 @torch.compile
-def _calculate_loss(
+def _cross_entropy_loss_from_labels(
     predicted_logits: torch.Tensor,
     target: torch.Tensor,
     sum_exp_logits: torch.Tensor,
@@ -218,6 +373,30 @@ def _calculate_loss(
     return torch.where(target.flatten() >= 0, sum_exp_logits.log() + max_logits - predicted_logits, 0).mean()
 
 
+@torch.compile
+def _rescale_predicted_logits(
+    predicted_logits: torch.Tensor,
+    target_sum_exp_logits: torch.Tensor,
+    local_target_max_logits: torch.Tensor,
+    target_max_logits: torch.Tensor,
+):
+    # We skipped the division by `target_sum_exp_logits` in the triton kernel so we do it here.
+    return predicted_logits * torch.exp(local_target_max_logits - target_max_logits) / target_sum_exp_logits
+
+
+@torch.compile
+def _cross_entropy_loss_from_distribution(
+    predicted_logits: torch.Tensor,
+    loss_mask: torch.Tensor | None,
+    sum_exp_logits: torch.Tensor,
+    max_logits: torch.Tensor,
+) -> torch.Tensor:
+    per_sample_losses = sum_exp_logits.log() + max_logits - predicted_logits
+    if loss_mask is not None:
+        per_sample_losses = torch.where(loss_mask.flatten(), per_sample_losses, 0)
+    return per_sample_losses.mean()
+
+
 def triton_cross_entropy_forward_backward(
     logits: torch.Tensor,
     target: torch.Tensor,
@@ -248,86 +427,134 @@ def triton_cross_entropy_forward_backward(
         block_size = min(triton.next_power_of_2(n_cols), 32768)
     if num_warps is None:
         num_warps = 4 if block_size < 2048 else (8 if block_size < 8192 else 16)
+    kwargs = {
+        "logits_stride_0": logits.stride(-2),
+        "n_cols": n_cols,
+        "logits_scale_factor": logits_scale_factor,
+        "block_size": block_size,
+        "num_warps": num_warps,
+    }
+
     # TODO: Safe to do inplace?
     grad_logits = None if grad_output is None else torch.empty_like(logits)
+    backward_kwargs = (
+        {}
+        if grad_output is None
+        else {
+            "grad_logits_ptr": grad_logits,
+            "grad_losses": grad_output / n_rows,
+            "grad_logits_stride_0": grad_logits.stride(-2),
+        }
+    )
     if target_format == TargetFormat.labels:
         if group is None:
             losses = torch.empty(n_rows, dtype=torch.float, device=logits.device)
-            triton_cross_entropy_forward_backward_kernel[(n_rows,)](
+            triton_cross_entropy_forward_backward_from_labels_kernel[(n_rows,)](
                 logits,
                 target,
-                grad_logits,
-                losses,
-                None,
-                None,
-                None if grad_output is None else grad_output / n_rows,
-                0,
-                n_cols,
-                logits.stride(-2),
-                None if grad_output is None else grad_logits.stride(-2),
-                logits_scale_factor,
-                block_size=block_size,
-                num_warps=num_warps,
+                losses_ptr=losses,
+                **kwargs,
+                **backward_kwargs,
             )
             loss = losses.mean()
         else:
             predicted_logits = torch.empty(n_rows, dtype=torch.float, device=logits.device)
             local_max_logits = torch.empty_like(predicted_logits)
             sum_exp_logits = torch.empty_like(predicted_logits)
-            triton_cross_entropy_forward_parallel_kernel[(n_rows,)](
+            triton_cross_entropy_forward_from_labels_parallel_kernel[(n_rows,)](
                 logits,
                 target,
-                local_max_logits,
-                sum_exp_logits,
-                predicted_logits,
-                n_cols * group.rank(),
-                n_cols,
-                logits.stride(-2),
-                logits_scale_factor,
-                block_size=block_size,
+                max_logits_ptr=local_max_logits,
+                sum_exp_logits_ptr=sum_exp_logits,
+                predicted_logits_ptr=predicted_logits,
+                col_min=n_cols * group.rank(),
+                **kwargs,
             )
-            max_logits = local_max_logits.clone()
-            torch.distributed.all_reduce(max_logits, op=torch.distributed.ReduceOp.MAX, group=group)
-            sum_exp_logits = _rescale_sum_exp_logits(sum_exp_logits, local_max_logits, max_logits)
-            torch.distributed.all_reduce(sum_exp_logits, op=torch.distributed.ReduceOp.SUM, group=group)
+            max_logits, sum_exp_logits = _parallel_sum_exp_logits(sum_exp_logits, local_max_logits, group)
             torch.distributed.all_reduce(predicted_logits, op=torch.distributed.ReduceOp.SUM, group=group)
-            loss = _calculate_loss(predicted_logits, target, sum_exp_logits, max_logits)
-            triton_cross_entropy_forward_backward_kernel[(n_rows,)](
+            loss = _cross_entropy_loss_from_labels(predicted_logits, target, sum_exp_logits, max_logits)
+            if grad_output is not None:
+                triton_cross_entropy_forward_backward_from_labels_kernel[(n_rows,)](
+                    logits,
+                    target,
+                    max_logits_ptr=max_logits,
+                    sum_exp_logits_ptr=sum_exp_logits,
+                    col_min=n_cols * group.rank(),
+                    **kwargs,
+                    **backward_kwargs,
+                )
+    else:
+        if group is None:
+            losses = torch.empty(n_rows, dtype=torch.float, device=logits.device)
+            if loss_mask is not None:
+                assert loss_mask.is_contiguous()
+            triton_cross_entropy_from_distribution_forward_backward_kernel[(n_rows,)](
                 logits,
                 target,
-                grad_logits,
-                None,
-                max_logits,
-                sum_exp_logits,
-                None if grad_output is None else grad_output / n_rows,
-                n_cols * group.rank(),
-                n_cols,
-                logits.stride(-2),
-                None if grad_output is None else grad_logits.stride(-2),
-                logits_scale_factor,
-                block_size=block_size,
-                num_warps=num_warps,
+                loss_mask_ptr=loss_mask,
+                losses_ptr=losses,
+                max_logits_ptr=None,
+                sum_exp_logits_ptr=None,
+                target_max_logits_ptr=None,
+                target_sum_exp_logits_ptr=None,
+                target_stride_0=target.stride(-2),
+                target_logits_scale_factor=logits_scale_factor / temperature,
+                from_logits=target_format == TargetFormat.logits,
+                **kwargs,
+                **backward_kwargs,
+            )
+            loss = losses.mean()
+        else:
+            predicted_logits = torch.empty(n_rows, dtype=torch.float, device=logits.device)
+            local_max_logits = torch.empty_like(predicted_logits)
+            sum_exp_logits = torch.empty_like(predicted_logits)
+            if target_format == TargetFormat.logits:
+                local_target_max_logits = torch.empty_like(predicted_logits)
+                target_sum_exp_logits = torch.empty_like(predicted_logits)
+            else:
+                local_target_max_logits = target_sum_exp_logits = None
+
+            triton_cross_entropy_from_distribution_forward_parallel_kernel[(n_rows,)](
+                logits,
+                target,
+                loss_mask_ptr=loss_mask,
+                max_logits_ptr=local_max_logits,
+                sum_exp_logits_ptr=sum_exp_logits,
+                target_max_logits_ptr=local_target_max_logits,
+                target_sum_exp_logits_ptr=target_sum_exp_logits,
+                predicted_logits_ptr=predicted_logits,
+                target_stride_0=target.stride(-2),
+                target_logits_scale_factor=logits_scale_factor / temperature,
+                from_logits=target_format == TargetFormat.logits,
+                **kwargs,
+                **backward_kwargs,
+            )
+            max_logits, sum_exp_logits = _parallel_sum_exp_logits(sum_exp_logits, local_max_logits, group)
+            if target_format == TargetFormat.logits:
+                target_max_logits, target_sum_exp_logits = _parallel_sum_exp_logits(
+                    target_sum_exp_logits, local_target_max_logits, group
+                )
+                predicted_logits = _rescale_predicted_logits(
+                    predicted_logits, target_sum_exp_logits, local_target_max_logits, target_max_logits
+                )
+            else:
+                target_max_logits = None
+            torch.distributed.all_reduce(predicted_logits, op=torch.distributed.ReduceOp.SUM, group=group)
+
+            loss = _cross_entropy_loss_from_distribution(predicted_logits, loss_mask, sum_exp_logits, max_logits)
+            triton_cross_entropy_from_distribution_forward_backward_kernel[(n_rows,)](
+                logits,
+                target,
+                loss_mask_ptr=loss_mask,
+                max_logits_ptr=max_logits,
+                sum_exp_logits_ptr=sum_exp_logits,
+                target_max_logits_ptr=target_max_logits,
+                target_sum_exp_logits_ptr=target_sum_exp_logits,
+                predicted_logits_ptr=predicted_logits,
+                target_stride_0=target.stride(-2),
+                target_logits_scale_factor=logits_scale_factor / temperature,
+                from_logits=target_format == TargetFormat.logits,
+                **kwargs,
+                **backward_kwargs,
             )
-    else:
-        assert group is None
-        losses = torch.empty(n_rows, dtype=torch.float, device=logits.device)
-        if loss_mask is not None:
-            assert loss_mask.is_contiguous()
-        triton_cross_entropy_from_distribution_forward_backward_kernel[(n_rows,)](
-            logits,
-            target / temperature,
-            loss_mask,
-            grad_logits,
-            losses,
-            None if grad_output is None else grad_output / n_rows,
-            n_cols,
-            logits.stride(-2),
-            target.stride(-2),
-            None if grad_output is None else grad_logits.stride(-2),
-            logits_scale_factor,
-            block_size=block_size,
-            num_warps=num_warps,
-            from_logits=target_format == TargetFormat.logits,
-        )
-        loss = losses.mean()
     return loss, grad_logits
diff --git a/tests/layers/test_lm_losses.py b/tests/layers/test_lm_losses.py
index 1a31db90a..37cd99fb0 100644
--- a/tests/layers/test_lm_losses.py
+++ b/tests/layers/test_lm_losses.py
@@ -10,6 +10,7 @@
 from fast_llm.engine.config_utils.data_type import DataType
 from fast_llm.engine.distributed.config import DistributedBackend
 from fast_llm.functional.config import EntropyLossImplementation, EntropyLossType, TargetFormat, TritonConfig
+from fast_llm.functional.triton import triton_available
 from fast_llm.layers.language_model.loss.dpo import dpo_loss
 from fast_llm.layers.language_model.loss.entropy_loss import entropy_loss_forward_backward
 from fast_llm.layers.language_model.loss.loss import loss_forward_backward
@@ -18,9 +19,6 @@
 from tests.utils.dataset import get_random_spans
 from tests.utils.subtest import DistributedTestContext
 
-VOCAB_SIZE = 100
-NUM_TOKENS = 200
-
 
 def _get_lm_loss_inputs(
     num_columns: int, loss_masking: bool, target_format: TargetFormat, batch_shape: tuple[int], dtype
@@ -108,15 +106,15 @@ def reference_dpo_loss(
 
 _BATCH_SHAPES = ((64,), (16, 8))
 _LOSS_PARAMETERS = (
-    (500, 1.0, 1.0, False, DataType.float32),  # Simple
-    (512, 1.0, 1.0, False, DataType.float32),  # Power of 2
-    (500, None, 1.0, False, DataType.float32),  # No grad
-    (500, 1.0, 4.0, False, DataType.float32),  # Loss scaling
-    (500, 4.0, 1.0, False, DataType.float32),  # Grad scaling
-    (500, 1.0, 1.0, True, DataType.float32),  # Loss masking
-    (500, 1.0, 1.0, False, DataType.float16),  # Fp16
-    (500, 1.0, 1.0, True, DataType.bfloat16),  # Bf16, loss masking
-    (65538, 1.0, 1.0, False, DataType.float32),  # Above max block size
+    (500, 1.0, 1.0, False, DataType.float32, None),  # Simple
+    (256, 1.0, 1.0, False, DataType.float32, None),  # Power of 2
+    (500, None, 1.0, False, DataType.float32, None),  # No grad
+    (500, 1.0, 4.0, False, DataType.float32, None),  # Loss scaling
+    (500, 4.0, 1.0, False, DataType.float32, None),  # Grad scaling
+    (500, 1.0, 1.0, True, DataType.float32, None),  # Loss masking
+    (500, 1.0, 1.0, False, DataType.float16, None),  # Fp16
+    (500, 1.0, 1.0, False, DataType.float32, 256),  # Looped
+    (1000, 2.0, 3.0, True, DataType.float16, 256),  # Hard
 )
 
 
@@ -129,12 +127,15 @@ def _test_entropy_loss(
     target_format,
     entropy_loss_type,
     dtype,
+    block_size,
     group=None,
 ):
     if target_format == TargetFormat.labels and entropy_loss_type == EntropyLossType.reverse_kl:
         pytest.skip(reason="Not implemented")
     # TODO: Test tensor-parallel implementation.
     logits, target, loss_mask = _get_lm_loss_inputs(num_columns, loss_masking, target_format, batch_shape, dtype)
+    local_logits = split_op(logits, group, -1).contiguous()
+    local_target = target if target_format == TargetFormat.labels else split_op(target, group, -1).contiguous()
     # Torch serves as the reference implementation.
     out_ref, grad_ref = entropy_loss_forward_backward(
         logits=logits,
@@ -147,8 +148,8 @@ def _test_entropy_loss(
         implementation=EntropyLossImplementation.torch,
     )
     out_fused, grad_fused = entropy_loss_forward_backward(
-        logits=split_op(logits, group, -1),
-        target=target if target_format == TargetFormat.labels else split_op(target, group, -1),
+        logits=local_logits,
+        target=local_target,
         loss_mask=loss_mask,
         grad_output=grad_output,
         group=group,
@@ -157,7 +158,6 @@ def _test_entropy_loss(
         entropy_loss_type=entropy_loss_type,
         implementation=EntropyLossImplementation.fused,
     )
-
     _compare_losses_and_grads(
         out_fused,
         out_ref,
@@ -168,21 +168,23 @@ def _test_entropy_loss(
         group=group,
     )
 
-    if entropy_loss_type != EntropyLossType.cross_entropy or not torch.cuda.is_available() or group is not None:
+    if entropy_loss_type != EntropyLossType.cross_entropy or not triton_available:
         # Triton implementation only supports cross-entropy.
         return
     assert TritonConfig.TRITON_ENABLED
     out_triton, grad_triton = entropy_loss_forward_backward(
-        logits=logits,
-        target=target,
+        logits=local_logits,
+        target=local_target,
         loss_mask=loss_mask,
         grad_output=grad_output,
         logits_scale_factor=logits_scale_factor,
         target_format=target_format,
         entropy_loss_type=entropy_loss_type,
         implementation=EntropyLossImplementation.triton,
+        group=group,
+        block_size=block_size,
     )
-    _compare_losses_and_grads(out_triton, out_ref, grad_output is not None, grad_triton, grad_ref)
+    _compare_losses_and_grads(out_triton, out_ref, grad_output is not None, grad_triton, grad_ref, group=group)
 
 
 def _test_z_loss(batch_shape, num_columns, grad_output, logits_scale_factor, loss_masking, dtype, group=None):
@@ -201,18 +203,34 @@ def _test_z_loss(batch_shape, num_columns, grad_output, logits_scale_factor, los
         group=group,
         logits_scale_factor=logits_scale_factor,
     )
-    _compare_losses_and_grads(out_fused, out_ref, grad_output is not None, grad_fused, grad_ref, group=group)
+    _compare_losses_and_grads(
+        out_fused,
+        out_ref,
+        grad_output is not None,
+        grad_fused,
+        grad_ref,
+        threshold=1e-5 if data_type == DataType.float32 else 1e-4,
+        group=group,
+    )
 
 
 @pytest.mark.slow
 @pytest.mark.parametrize("batch_shape", _BATCH_SHAPES)
 @pytest.mark.parametrize(
-    ("num_columns", "grad_output", "logits_scale_factor", "loss_masking", "dtype"), _LOSS_PARAMETERS
+    ("num_columns", "grad_output", "logits_scale_factor", "loss_masking", "dtype", "block_size"), _LOSS_PARAMETERS
 )
-@pytest.mark.parametrize("target_format", TargetFormat)
+@pytest.mark.parametrize("target_format", (TargetFormat.logits,))
 @pytest.mark.parametrize("entropy_loss_type", EntropyLossType)
 def test_entropy_loss(
-    batch_shape, num_columns, grad_output, logits_scale_factor, loss_masking, target_format, entropy_loss_type, dtype
+    batch_shape,
+    num_columns,
+    grad_output,
+    logits_scale_factor,
+    loss_masking,
+    target_format,
+    entropy_loss_type,
+    dtype,
+    block_size,
 ):
     _test_entropy_loss(
         batch_shape,
@@ -223,23 +241,24 @@ def test_entropy_loss(
         target_format,
         entropy_loss_type,
         dtype,
+        block_size,
     )
 
 
 @pytest.mark.slow
 @pytest.mark.parametrize("batch_shape", _BATCH_SHAPES)
 @pytest.mark.parametrize(
-    ("num_columns", "grad_output", "logits_scale_factor", "loss_masking", "dtype"), _LOSS_PARAMETERS
+    ("num_columns", "grad_output", "logits_scale_factor", "loss_masking", "dtype", "block_size"), _LOSS_PARAMETERS
 )
-def test_z_loss(batch_shape, num_columns, grad_output, logits_scale_factor, loss_masking, dtype):
+def test_z_loss(batch_shape, num_columns, grad_output, logits_scale_factor, loss_masking, dtype, block_size):
     _test_z_loss(batch_shape, num_columns, grad_output, logits_scale_factor, loss_masking, dtype)
 
 
 @pytest.mark.skip(reason="DPO loss is broken")
 def test_dpo_loss():
-    logits = torch.normal(0, 1, (NUM_TOKENS, VOCAB_SIZE))
-    reference_model_logits = torch.normal(0, 1, (NUM_TOKENS, VOCAB_SIZE))
-    labels = torch.randint(0, VOCAB_SIZE, (NUM_TOKENS,))
+    logits = torch.normal(0, 1, (200, 100))
+    reference_model_logits = torch.normal(0, 1, (200, 100))
+    labels = torch.randint(0, 100, (200,))
     spans = get_random_spans(np.full(10, 50), 0, 10)
 
     fast_llm_loss = dpo_loss(logits, labels, reference_model_logits, spans[::2], spans[1::2])
@@ -249,8 +268,8 @@ def test_dpo_loss():
 
 def _run_lm_loss_distributed(test_context: DistributedTestContext, base_path: pathlib.Path, seed: int):
     for batch_shape in _BATCH_SHAPES:
-        for num_columns, grad_output, logits_scale_factor, loss_masking, dtype in _LOSS_PARAMETERS:
-            suffix = f"{num_columns}-{grad_output}-{logits_scale_factor}-{loss_masking}-{dtype}-{"_".join([str(i) for i in batch_shape])}"
+        for num_columns, grad_output, logits_scale_factor, loss_masking, dtype, block_size in _LOSS_PARAMETERS:
+            suffix = f"{num_columns}-{grad_output}-{logits_scale_factor}-{loss_masking}-{dtype}-{block_size}-{"_".join([str(i) for i in batch_shape])}"
             # Entropy loss
             for entropy_loss_type in EntropyLossType:
                 for target_format in TargetFormat:
@@ -270,6 +289,7 @@ def _run_lm_loss_distributed(test_context: DistributedTestContext, base_path: pa
                                 target_format,
                                 entropy_loss_type,
                                 dtype,
+                                block_size,
                                 test_context.group,
                             )
             # Z loss
@@ -302,8 +322,8 @@ def test_run_lm_loss_distributed(run_parallel_script, result_path):
         _run_lm_loss_distributed,
         (result_path / "test_losses", random.randint(0, 2**32 - 1)),
         world_size=2,
-        backend=DistributedBackend.gloo,
-        use_cuda=False,  # Disable device count check.
+        backend=DistributedBackend.nccl if (use_nccl := torch.cuda.device_count() >= 2) else DistributedBackend.gloo,
+        use_cuda=use_nccl,  # Disable device count check.
     )
 
 
@@ -311,7 +331,7 @@ def test_run_lm_loss_distributed(run_parallel_script, result_path):
 @pytest.mark.depends_on(on=["test_lm_loss_distributed_dependency"])
 @pytest.mark.parametrize("batch_shape", _BATCH_SHAPES)
 @pytest.mark.parametrize(
-    ("num_columns", "grad_output", "logits_scale_factor", "loss_masking", "dtype"), _LOSS_PARAMETERS
+    ("num_columns", "grad_output", "logits_scale_factor", "loss_masking", "dtype", "block_size"), _LOSS_PARAMETERS
 )
 @pytest.mark.parametrize(
     "loss_type",
@@ -335,10 +355,11 @@ def test_lm_loss_distributed(
     logits_scale_factor,
     loss_masking,
     dtype,
+    block_size,
 ):
     report_subtest(
         result_path
-        / f"test_losses/{loss_type}-{num_columns}-{grad_output}-{logits_scale_factor}-{loss_masking}-{dtype}-{"_".join([str(i) for i in batch_shape])}",
+        / f"test_losses/{loss_type}-{num_columns}-{grad_output}-{logits_scale_factor}-{loss_masking}-{dtype}-{block_size}-{"_".join([str(i) for i in batch_shape])}",
         2,
         use_cuda=False,
     )

From 1d0439e0c6419a7040932ba520a89ba2554437fe Mon Sep 17 00:00:00 2001
From: Joel Lamy-Poirier <joel.lamy-poirier@servicenow.com>
Date: Thu, 5 Feb 2026 05:06:43 -0500
Subject: [PATCH 11/37] Forward KL

---
 fast_llm/functional/entropy_loss.py         |  4 +-
 fast_llm/functional/triton/cross_entropy.py | 41 ++++++++++++++++++---
 tests/layers/test_lm_losses.py              |  4 +-
 3 files changed, 40 insertions(+), 9 deletions(-)

diff --git a/fast_llm/functional/entropy_loss.py b/fast_llm/functional/entropy_loss.py
index 25e1ae317..4d39b3a77 100644
--- a/fast_llm/functional/entropy_loss.py
+++ b/fast_llm/functional/entropy_loss.py
@@ -183,7 +183,7 @@ def _fused_cross_entropy_base_from_distribution(
     # KL loss = mean(log(sum_exp_logits) - sum(probabilities * (logits - log_probabilities))
     if return_kl_loss:
         if target_format == TargetFormat.logits:
-            target_log_probability = target_logits_norm - sum_exp_target_logits.log().unsqueeze(-1)
+            target_log_probability = target_logits_norm
         else:
             target_log_probability = torch.log(target)
         logits_norm = logits_norm - target_log_probability
@@ -194,6 +194,8 @@ def _fused_cross_entropy_base_from_distribution(
         all_reduce(predicted_logits, op=ReduceOp.SUM, group=group)
 
     per_sample_loss = sum_exp_logits.log() - predicted_logits
+    if return_kl_loss and target_format == TargetFormat.logits:
+        per_sample_loss = per_sample_loss - sum_exp_target_logits.log()
 
     if grad_output is None:
         grad = None
diff --git a/fast_llm/functional/triton/cross_entropy.py b/fast_llm/functional/triton/cross_entropy.py
index 6fb8e930d..516df0463 100644
--- a/fast_llm/functional/triton/cross_entropy.py
+++ b/fast_llm/functional/triton/cross_entropy.py
@@ -146,6 +146,7 @@ def triton_predicted_logits_from_distribution(
     target_logits_scale_factor: tl_constexpr = 1.0,
     logits_scale_factor: tl_constexpr = 1.0,
     unscaled_probabilities: tl_constexpr = False,  # Skip division by sum_exp_logits in the logits case.
+    return_kl_loss: tl.constexpr = False,
 ):
     for col_offset in tl.static_range(0, n_cols, block_size):
         col_offsets = tl_arange(col_offset, col_offset + block_size)
@@ -169,10 +170,14 @@ def triton_predicted_logits_from_distribution(
                 target_max_logits = tl.max(target_logits, 0)
                 target_exp_logits = tl.exp(target_logits - target_max_logits)
                 target_sum_exp_logits = tl.sum(target_exp_logits, 0)
-                predicted_logits = tl.sum(tl.where(mask, target_exp_logits * logits, 0))
+                # entropy = sum(logits*exp_logits)/sum_exp_logits - log_sum_exp_logits
+                # `log_sum_exp_logits` term and division by `sum_exp_logits` kept for later,
+                logits_shifted = logits - target_logits if return_kl_loss else logits
+                predicted_logits = tl.sum(tl.where(mask, target_exp_logits * logits_shifted, 0))
             else:
                 target = tl.load(target_ptr + col_offsets, mask=mask, other=-float("inf")).to(tl.float32)
-                predicted_logits = tl.sum(tl.where(mask, target * logits, 0))
+                logits_shifted = logits - tl.log(target) if return_kl_loss else logits
+                predicted_logits = tl.sum(tl.where(mask, target * logits_shifted, 0))
                 target_max_logits = None
                 target_sum_exp_logits = None
         else:
@@ -186,18 +191,22 @@ def triton_predicted_logits_from_distribution(
                 target_sum_exp_logits = tl.sum(target_exp_logits, 0) + target_sum_exp_logits * tl.exp(
                     target_max_logits - target_new_max_logits
                 )
+                logits_shifted = logits - target_logits if return_kl_loss else logits
                 predicted_logits = predicted_logits * tl.exp(target_max_logits - target_new_max_logits) + tl.sum(
-                    tl.where(mask, target_exp_logits * logits, 0)
+                    tl.where(mask, target_exp_logits * logits_shifted, 0)
                 )
                 target_max_logits = target_new_max_logits
             else:
-                predicted_logits += tl.sum(tl.where(mask, target * logits, 0))
+                logits_shifted = logits - tl.log(target) if return_kl_loss else logits
+                predicted_logits += tl.sum(tl.where(mask, target * logits_shifted, 0))
 
     if from_logits:
         target = target_exp_logits
         if not unscaled_probabilities:
             predicted_logits /= target_sum_exp_logits
             target /= target_sum_exp_logits
+            if return_kl_loss:
+                predicted_logits = predicted_logits + tl.log(target_sum_exp_logits) + target_max_logits
 
     return predicted_logits, exp_logits, sum_exp_logits, max_logits, target_sum_exp_logits, target_max_logits, target
 
@@ -219,6 +228,7 @@ def triton_cross_entropy_from_distribution_forward_parallel_kernel(
     from_logits: tl_constexpr = True,
     logits_scale_factor: tl_constexpr = 1.0,
     target_logits_scale_factor: tl_constexpr = 1.0,
+    return_kl_loss: tl.constexpr = False,
 ):
     # TODO: Int64 ptr only if needed?
     block_idx = tl.program_id(0).to(tl.int64)
@@ -240,6 +250,7 @@ def triton_cross_entropy_from_distribution_forward_parallel_kernel(
             logits_scale_factor=logits_scale_factor,
             target_logits_scale_factor=target_logits_scale_factor,
             unscaled_probabilities=True,
+            return_kl_loss=return_kl_loss,
         )
     )
     if predicted_logits_ptr is not None:
@@ -275,6 +286,7 @@ def triton_cross_entropy_from_distribution_forward_backward_kernel(
     grad_logits_stride_0: tl_constexpr = None,
     logits_scale_factor: tl_constexpr = 1.0,
     target_logits_scale_factor: tl_constexpr = 1.0,
+    return_kl_loss: tl.constexpr = False,
 ):
     # TODO: Int64 ptr only if needed?
     block_idx = tl.program_id(0).to(tl.int64)
@@ -303,6 +315,7 @@ def triton_cross_entropy_from_distribution_forward_backward_kernel(
                 from_logits=from_logits,
                 logits_scale_factor=logits_scale_factor,
                 target_logits_scale_factor=target_logits_scale_factor,
+                return_kl_loss=return_kl_loss,
             )
         )
     else:
@@ -390,7 +403,12 @@ def _cross_entropy_loss_from_distribution(
     loss_mask: torch.Tensor | None,
     sum_exp_logits: torch.Tensor,
     max_logits: torch.Tensor,
+    target_sum_exp_logits: torch.Tensor | None,
+    target_max_logits: torch.Tensor | None,
+    return_kl_loss: bool = False,
 ) -> torch.Tensor:
+    if return_kl_loss:
+        predicted_logits = predicted_logits + target_sum_exp_logits.log() + target_max_logits
     per_sample_losses = sum_exp_logits.log() + max_logits - predicted_logits
     if loss_mask is not None:
         per_sample_losses = torch.where(loss_mask.flatten(), per_sample_losses, 0)
@@ -417,7 +435,7 @@ def triton_cross_entropy_forward_backward(
     TODO: Better handling of `grad_output = None`
     """
     assert TritonConfig.TRITON_ENABLED
-    Assert.eq(entropy_loss_type, EntropyLossType.cross_entropy)
+    Assert.incl(entropy_loss_type, (EntropyLossType.cross_entropy, EntropyLossType.forward_kl))
     # TODO: Improve assumptions.
     assert logits.is_contiguous()
     assert target.is_contiguous()
@@ -500,6 +518,7 @@ def triton_cross_entropy_forward_backward(
                 target_stride_0=target.stride(-2),
                 target_logits_scale_factor=logits_scale_factor / temperature,
                 from_logits=target_format == TargetFormat.logits,
+                return_kl_loss=entropy_loss_type == EntropyLossType.forward_kl,
                 **kwargs,
                 **backward_kwargs,
             )
@@ -526,6 +545,7 @@ def triton_cross_entropy_forward_backward(
                 target_stride_0=target.stride(-2),
                 target_logits_scale_factor=logits_scale_factor / temperature,
                 from_logits=target_format == TargetFormat.logits,
+                return_kl_loss=entropy_loss_type == EntropyLossType.forward_kl,
                 **kwargs,
                 **backward_kwargs,
             )
@@ -541,7 +561,16 @@ def triton_cross_entropy_forward_backward(
                 target_max_logits = None
             torch.distributed.all_reduce(predicted_logits, op=torch.distributed.ReduceOp.SUM, group=group)
 
-            loss = _cross_entropy_loss_from_distribution(predicted_logits, loss_mask, sum_exp_logits, max_logits)
+            loss = _cross_entropy_loss_from_distribution(
+                predicted_logits,
+                loss_mask,
+                sum_exp_logits,
+                max_logits,
+                target_sum_exp_logits=target_sum_exp_logits,
+                target_max_logits=target_max_logits,
+                return_kl_loss=entropy_loss_type == EntropyLossType.forward_kl
+                and target_format == TargetFormat.logits,
+            )
             triton_cross_entropy_from_distribution_forward_backward_kernel[(n_rows,)](
                 logits,
                 target,
diff --git a/tests/layers/test_lm_losses.py b/tests/layers/test_lm_losses.py
index 37cd99fb0..e54197204 100644
--- a/tests/layers/test_lm_losses.py
+++ b/tests/layers/test_lm_losses.py
@@ -168,7 +168,7 @@ def _test_entropy_loss(
         group=group,
     )
 
-    if entropy_loss_type != EntropyLossType.cross_entropy or not triton_available:
+    if entropy_loss_type == EntropyLossType.reverse_kl or not triton_available:
         # Triton implementation only supports cross-entropy.
         return
     assert TritonConfig.TRITON_ENABLED
@@ -219,7 +219,7 @@ def _test_z_loss(batch_shape, num_columns, grad_output, logits_scale_factor, los
 @pytest.mark.parametrize(
     ("num_columns", "grad_output", "logits_scale_factor", "loss_masking", "dtype", "block_size"), _LOSS_PARAMETERS
 )
-@pytest.mark.parametrize("target_format", (TargetFormat.logits,))
+@pytest.mark.parametrize("target_format", TargetFormat)
 @pytest.mark.parametrize("entropy_loss_type", EntropyLossType)
 def test_entropy_loss(
     batch_shape,

From 1b40518e3550710d03628fc82adde8d6c4811ab3 Mon Sep 17 00:00:00 2001
From: Joel Lamy-Poirier <joel.lamy-poirier@servicenow.com>
Date: Fri, 6 Feb 2026 04:17:43 -0500
Subject: [PATCH 12/37] Reverse KL, triton tweaks

---
 fast_llm/engine/config_utils/run.py           |   2 +-
 fast_llm/functional/config.py                 |  13 +
 fast_llm/functional/triton/__init__.py        |  13 +-
 fast_llm/functional/triton/adam.py            |   6 +-
 fast_llm/functional/triton/cross_entropy.py   | 495 ++++++++++++++----
 fast_llm/functional/triton/mlp.py             |  13 +-
 fast_llm/functional/triton/normalization.py   |  16 +-
 fast_llm/functional/triton/pointwise.py       |  19 +-
 fast_llm/functional/triton/rotary.py          |   6 +-
 fast_llm/functional/triton/sparse_copy.py     |  17 +-
 fast_llm/functional/triton/sparse_linear.py   |  30 +-
 fast_llm/layers/attention/config.py           |   5 -
 fast_llm/layers/attention/rotary/rotary.py    |  12 +-
 .../common/normalization/normalization.py     |   4 +-
 fast_llm/layers/decoder/mlp/mlp.py            |   4 +-
 fast_llm/layers/language_model/loss/config.py |  21 +-
 .../language_model/loss/entropy_loss.py       |  44 +-
 tests/conftest.py                             |   5 +
 tests/functional/test_functional.py           |  32 +-
 tests/functional/test_sparse_matmul.py        |  53 +-
 tests/functional/test_triton_kernels.py       |  81 ++-
 tests/layers/test_lm_losses.py                |  34 +-
 tests/layers/test_rotary.py                   |  15 +-
 tests/layers/test_ssm.py                      |   4 +-
 tests/models/test_checkpoint.py               |  13 +-
 tests/test_loss_mask.py                       |   5 +-
 tests/utils/model_configs.py                  |   2 +
 tests/utils/utils.py                          |   2 +
 28 files changed, 628 insertions(+), 338 deletions(-)

diff --git a/fast_llm/engine/config_utils/run.py b/fast_llm/engine/config_utils/run.py
index 2c6c8105f..baa386337 100644
--- a/fast_llm/engine/config_utils/run.py
+++ b/fast_llm/engine/config_utils/run.py
@@ -101,7 +101,7 @@ def configure_logging(
     def get_run(self, distributed: "Distributed") -> "Run":
         from fast_llm.functional.config import TritonConfig
 
-        TritonConfig.TRITON_ENABLED = self.run.enable_triton_kernels  # and distributed.config.use_cuda
+        TritonConfig.TRITON_ENABLED = self.run.enable_triton_kernels
         TritonConfig.TRITON_LINEAR = self.run.triton_linear_kernels
         run = Run(config=self, distributed=distributed)
         set_global_variables(not self.run.torch_dynamo_enable)
diff --git a/fast_llm/functional/config.py b/fast_llm/functional/config.py
index 050c700c9..f863a99ac 100644
--- a/fast_llm/functional/config.py
+++ b/fast_llm/functional/config.py
@@ -14,6 +14,19 @@ class TritonConfig:
     POINTWISE_BLOCK_SIZE = 1024
     MAX_BLOCK_SIZE_BYTES = 65536
 
+    @classmethod
+    def enabled(cls, device: "torch.device|None" = None, default: bool | None = None) -> bool:
+        if default is False:
+            return False
+        from fast_llm.functional.triton import triton_available, triton_interpret
+
+        available = triton_available and (device is None or device.type == "cuda" or triton_interpret)
+        if default is None:
+            default = available and cls.TRITON_ENABLED
+        else:
+            assert available
+        return default
+
 
 class MLPRecomputeLevel(enum.StrEnum):
     none = "none"
diff --git a/fast_llm/functional/triton/__init__.py b/fast_llm/functional/triton/__init__.py
index 82f67621e..61ead1c60 100644
--- a/fast_llm/functional/triton/__init__.py
+++ b/fast_llm/functional/triton/__init__.py
@@ -9,25 +9,32 @@
 
     tl_constexpr = tl.constexpr
     TritonConfig = triton.Config
-    triton_available = torch.cuda.is_available() or triton.knobs.runtime.interpret
+    # Use `TRITON_INTERPRET=1` to enable triton on CPU.
+    triton_interpret = triton.knobs.runtime.interpret
+    triton_available = torch.cuda.is_available() or triton_interpret
 except ImportError as e:
     triton = InvalidObject(e)
     tl = triton
     tl_constexpr = None
     TritonConfig = lambda *args, **kwargs: None
+    triton_interpret = False
     triton_available = False
 
 triton_jit = try_decorate(lambda: triton.jit)
 triton_autotune = try_decorate(lambda: triton.autotune)
 
-
 if not triton_available:
     tl_arange = None
-elif triton.knobs.runtime.interpret:
+    tl_full = None
+elif triton_interpret:
     # Workaround for a triton bug.
     @triton_jit
     def tl_arange(start, end):
         return tl.arange(int(start), int(end))
 
+    @triton_jit
+    def tl_full(shape, value, dtype):
+        return tl.full(tuple(int(x) for x in shape), value, dtype)
+
 else:
     tl_arange = tl.arange
diff --git a/fast_llm/functional/triton/adam.py b/fast_llm/functional/triton/adam.py
index 07ba2df4e..2c835ca05 100644
--- a/fast_llm/functional/triton/adam.py
+++ b/fast_llm/functional/triton/adam.py
@@ -8,7 +8,7 @@
 from torch.optim.adamw import adamw  # noqa
 
 from fast_llm.functional.config import TritonConfig
-from fast_llm.functional.triton import tl, tl_constexpr, triton, triton_jit
+from fast_llm.functional.triton import tl, tl_arange, tl_constexpr, triton, triton_jit
 
 
 @triton_jit()
@@ -37,7 +37,7 @@ def triton_adam_kernel(
 
     # TODO: Int64 ptr only if needed?
     block_start = tl.program_id(axis=0).to(tl.int64) * block_size
-    offsets = block_start + tl.arange(0, block_size)
+    offsets = block_start + tl_arange(0, block_size)
     mask = offsets < numel
 
     params = tl.load(params_ptr + offsets, mask=mask)
@@ -75,7 +75,7 @@ def triton_adam(
     epsilon: float,
     use_triton=True,
 ) -> None:
-    if not use_triton or (use_triton is None and TritonConfig.TRITON_ENABLED):
+    if not TritonConfig.enabled(params.device, use_triton):
         if noop_flag.item() == 0:
             return adamw(
                 [params],
diff --git a/fast_llm/functional/triton/cross_entropy.py b/fast_llm/functional/triton/cross_entropy.py
index 516df0463..335048770 100644
--- a/fast_llm/functional/triton/cross_entropy.py
+++ b/fast_llm/functional/triton/cross_entropy.py
@@ -1,34 +1,61 @@
 import torch
 
-from fast_llm.functional.config import EntropyLossType, TargetFormat, TritonConfig
+from fast_llm.functional.config import EntropyLossType, TargetFormat
 from fast_llm.functional.triton import tl, tl_arange, tl_constexpr, triton, triton_jit
-from fast_llm.utils import Assert
 
 
 @triton_jit()
-def triton_fused_softmax_base(
+def triton_fused_softmax_iter_base(
     logits_ptr,
+    col_offset: tl.constexpr,
     n_cols: tl_constexpr,
     block_size: tl_constexpr,
+    max_logits=None,
+    sum_exp_logits=None,
+    col_offsets=None,
+    mask=None,
     logits_scale_factor: tl_constexpr = 1.0,
 ):
-    for col_offset in tl.static_range(0, n_cols, block_size):
+    if col_offsets is None:
         col_offsets = tl_arange(col_offset, col_offset + block_size)
+    if mask is None:
         mask = col_offsets < n_cols
-        logits = tl.load(logits_ptr + col_offsets, mask=mask, other=-float("inf")).to(tl.float32)
-        if logits_scale_factor != 1.0:
-            logits *= logits_scale_factor
+    logits = tl.load(logits_ptr + col_offsets, mask=mask, other=-float("inf")).to(tl.float32)
+    if logits_scale_factor != 1.0:
+        logits *= logits_scale_factor
+
+    if col_offset == 0:
+        new_max_logits = tl.max(logits, 0)
+        exp_logits = tl.exp(logits - new_max_logits)
+        sum_exp_logits = tl.sum(exp_logits, 0)
+    else:
+        new_max_logits = tl.maximum(tl.max(logits, 0), max_logits)
+        exp_logits = tl.exp(logits - new_max_logits)
+        sum_exp_logits = tl.sum(exp_logits, 0) + sum_exp_logits * tl.exp(max_logits - new_max_logits)
+    return logits, exp_logits, sum_exp_logits, new_max_logits, col_offsets, mask
 
-        if col_offset == 0:
-            max_logits = tl.max(logits, 0)
-            exp_logits = tl.exp(logits - max_logits)
-            sum_exp_logits = tl.sum(exp_logits, 0)
-        else:
-            new_max_logits = tl.maximum(tl.max(logits, 0), max_logits)
-            exp_logits = tl.exp(logits - new_max_logits)
-            sum_exp_logits = tl.sum(exp_logits, 0) + sum_exp_logits * tl.exp(max_logits - new_max_logits)
-            max_logits = new_max_logits
-    return exp_logits, sum_exp_logits, max_logits
+
+@triton_jit()
+def triton_fused_softmax_base(
+    logits_ptr,
+    n_cols: tl_constexpr,
+    block_size: tl_constexpr,
+    logits_scale_factor: tl_constexpr = 1.0,
+):
+    exp_logits = None
+    sum_exp_logits = None
+    max_logits = None
+    for col_offset in tl.static_range(0, n_cols, block_size):
+        logits, exp_logits, sum_exp_logits, max_logits, col_offsets, mask = triton_fused_softmax_iter_base(
+            logits_ptr,
+            col_offset=col_offset,
+            n_cols=n_cols,
+            block_size=block_size,
+            max_logits=max_logits,
+            sum_exp_logits=sum_exp_logits,
+            logits_scale_factor=logits_scale_factor,
+        )
+    return exp_logits, sum_exp_logits, max_logits, col_offsets, mask
 
 
 @triton_jit()
@@ -48,7 +75,7 @@ def triton_cross_entropy_forward_from_labels_parallel_kernel(
     block_idx = tl.program_id(0).to(tl.int64)
     logits_ptr = logits_ptr + block_idx * logits_stride_0
 
-    exp_logits, sum_exp_logits, max_logits = triton_fused_softmax_base(
+    exp_logits, sum_exp_logits, max_logits, _, _ = triton_fused_softmax_base(
         logits_ptr, n_cols=n_cols, block_size=block_size, logits_scale_factor=logits_scale_factor
     )
 
@@ -90,7 +117,7 @@ def triton_cross_entropy_forward_backward_from_labels_kernel(
     logits_ptr = logits_ptr + block_idx * logits_stride_0
 
     if max_logits_ptr is None or sum_exp_logits_ptr is None:
-        exp_logits, sum_exp_logits, max_logits = triton_fused_softmax_base(
+        exp_logits, sum_exp_logits, max_logits, col_offsets, mask = triton_fused_softmax_base(
             logits_ptr, n_cols=n_cols, block_size=block_size, logits_scale_factor=logits_scale_factor
         )
     else:
@@ -116,11 +143,11 @@ def triton_cross_entropy_forward_backward_from_labels_kernel(
         elif logits_scale_factor != 1.0:
             grad_losses *= logits_scale_factor
         # Run in reverse order to maximize input and cache reuse.
-        col_offset_start = (n_cols - 1) // block_size * block_size
+        col_offset_start: tl.constexpr = (n_cols - 1) // block_size * block_size
         for col_offset in tl.static_range(col_offset_start, -1, -block_size):
-            col_offsets = tl_arange(col_offset, col_offset + block_size)
-            mask = col_offsets < n_cols
             if max_logits_ptr is not None or sum_exp_logits_ptr is not None or col_offset != col_offset_start:
+                col_offsets = tl_arange(col_offset, col_offset + block_size)
+                mask = col_offsets < n_cols
                 logits = tl.load(logits_ptr + col_offsets, mask=mask, other=-float("inf")).to(tl.float32)
                 if logits_scale_factor != 1.0:
                     logits *= logits_scale_factor
@@ -145,68 +172,68 @@ def triton_predicted_logits_from_distribution(
     from_logits: tl_constexpr = True,
     target_logits_scale_factor: tl_constexpr = 1.0,
     logits_scale_factor: tl_constexpr = 1.0,
-    unscaled_probabilities: tl_constexpr = False,  # Skip division by sum_exp_logits in the logits case.
+    return_partial_loss: tl_constexpr = False,  # Skip division by sum_exp_logits in the logits case.
     return_kl_loss: tl.constexpr = False,
 ):
+    max_logits = None
+    sum_exp_logits = None
+    if from_logits:
+        target_max_logits = None
+        target_sum_exp_logits = None
+    else:
+        target_max_logits = 0
+        target_sum_exp_logits = 0
+
     for col_offset in tl.static_range(0, n_cols, block_size):
-        col_offsets = tl_arange(col_offset, col_offset + block_size)
-        mask = col_offsets < n_cols
-        logits = tl.load(logits_ptr + col_offsets, mask=mask, other=-float("inf")).to(tl.float32)
-        if logits_scale_factor != 1.0:
-            logits *= logits_scale_factor
+        logits, exp_logits, sum_exp_logits, max_logits, col_offsets, mask = triton_fused_softmax_iter_base(
+            logits_ptr,
+            col_offset=col_offset,
+            n_cols=n_cols,
+            block_size=block_size,
+            max_logits=max_logits,
+            sum_exp_logits=sum_exp_logits,
+            logits_scale_factor=logits_scale_factor,
+        )
 
         if from_logits:
-            target_logits = tl.load(target_ptr + col_offsets, mask=mask, other=-float("inf")).to(tl.float32)
-            if target_logits_scale_factor != 1.0:
-                target_logits *= target_logits_scale_factor
-        else:
-            target = tl.load(target_ptr + col_offsets, mask=mask, other=-float("inf")).to(tl.float32)
-
-        if col_offset == 0:
-            max_logits = tl.max(logits, 0)
-            exp_logits = tl.exp(logits - max_logits)
-            sum_exp_logits = tl.sum(exp_logits, 0)
-            if from_logits:
-                target_max_logits = tl.max(target_logits, 0)
-                target_exp_logits = tl.exp(target_logits - target_max_logits)
-                target_sum_exp_logits = tl.sum(target_exp_logits, 0)
-                # entropy = sum(logits*exp_logits)/sum_exp_logits - log_sum_exp_logits
-                # `log_sum_exp_logits` term and division by `sum_exp_logits` kept for later,
+            target_logits, target_exp_logits, target_sum_exp_logits, target_new_max_logits, _, _ = (
+                triton_fused_softmax_iter_base(
+                    target_ptr,
+                    col_offset=col_offset,
+                    n_cols=n_cols,
+                    block_size=block_size,
+                    max_logits=target_max_logits,
+                    sum_exp_logits=target_sum_exp_logits,
+                    logits_scale_factor=target_logits_scale_factor,
+                    col_offsets=col_offsets,
+                    mask=mask,
+                )
+            )
+            if col_offset == 0:
                 logits_shifted = logits - target_logits if return_kl_loss else logits
                 predicted_logits = tl.sum(tl.where(mask, target_exp_logits * logits_shifted, 0))
             else:
-                target = tl.load(target_ptr + col_offsets, mask=mask, other=-float("inf")).to(tl.float32)
-                logits_shifted = logits - tl.log(target) if return_kl_loss else logits
-                predicted_logits = tl.sum(tl.where(mask, target * logits_shifted, 0))
-                target_max_logits = None
-                target_sum_exp_logits = None
-        else:
-            new_max_logits = tl.maximum(tl.max(logits, 0), max_logits)
-            exp_logits = tl.exp(logits - new_max_logits)
-            sum_exp_logits = tl.sum(exp_logits, 0) + sum_exp_logits * tl.exp(max_logits - new_max_logits)
-            max_logits = new_max_logits
-            if from_logits:
-                target_new_max_logits = tl.maximum(tl.max(target_logits, 0), target_max_logits)
-                target_exp_logits = tl.exp(target_logits - target_new_max_logits)
-                target_sum_exp_logits = tl.sum(target_exp_logits, 0) + target_sum_exp_logits * tl.exp(
-                    target_max_logits - target_new_max_logits
-                )
                 logits_shifted = logits - target_logits if return_kl_loss else logits
                 predicted_logits = predicted_logits * tl.exp(target_max_logits - target_new_max_logits) + tl.sum(
                     tl.where(mask, target_exp_logits * logits_shifted, 0)
                 )
-                target_max_logits = target_new_max_logits
+            target_max_logits = target_new_max_logits
+        else:
+            target = tl.load(target_ptr + col_offsets, mask=mask, other=-float("inf")).to(tl.float32)
+            if col_offset == 0:
+                logits_shifted = logits - tl.log(target) if return_kl_loss else logits
+                predicted_logits = tl.sum(tl.where(mask, target * logits_shifted, 0))
             else:
                 logits_shifted = logits - tl.log(target) if return_kl_loss else logits
                 predicted_logits += tl.sum(tl.where(mask, target * logits_shifted, 0))
 
     if from_logits:
         target = target_exp_logits
-        if not unscaled_probabilities:
+        if not return_partial_loss:
             predicted_logits /= target_sum_exp_logits
             target /= target_sum_exp_logits
             if return_kl_loss:
-                predicted_logits = predicted_logits + tl.log(target_sum_exp_logits) + target_max_logits
+                predicted_logits += tl.log(target_sum_exp_logits) + target_max_logits
 
     return predicted_logits, exp_logits, sum_exp_logits, max_logits, target_sum_exp_logits, target_max_logits, target
 
@@ -224,7 +251,7 @@ def triton_cross_entropy_from_distribution_forward_parallel_kernel(
     sum_exp_logits_ptr=None,
     target_max_logits_ptr=None,
     target_sum_exp_logits_ptr=None,
-    predicted_logits_ptr=None,
+    partial_losses_ptr=None,
     from_logits: tl_constexpr = True,
     logits_scale_factor: tl_constexpr = 1.0,
     target_logits_scale_factor: tl_constexpr = 1.0,
@@ -237,7 +264,7 @@ def triton_cross_entropy_from_distribution_forward_parallel_kernel(
 
     if loss_mask_ptr is not None and tl.load(loss_mask_ptr + block_idx) == 0:
         # This entry is masked, ignore.
-        tl.store(predicted_logits_ptr + block_idx, 0)
+        tl.store(partial_losses_ptr + block_idx, 0)
         return
 
     predicted_logits, _, sum_exp_logits, max_logits, target_sum_exp_logits, target_max_logits, target = (
@@ -249,12 +276,12 @@ def triton_cross_entropy_from_distribution_forward_parallel_kernel(
             from_logits=from_logits,
             logits_scale_factor=logits_scale_factor,
             target_logits_scale_factor=target_logits_scale_factor,
-            unscaled_probabilities=True,
+            return_partial_loss=True,
             return_kl_loss=return_kl_loss,
         )
     )
-    if predicted_logits_ptr is not None:
-        tl.store(predicted_logits_ptr + block_idx, predicted_logits)
+    if partial_losses_ptr is not None:
+        tl.store(partial_losses_ptr + block_idx, predicted_logits)
     if max_logits_ptr is not None:
         tl.store(max_logits_ptr + block_idx, max_logits)
     if sum_exp_logits_ptr is not None:
@@ -275,6 +302,7 @@ def triton_cross_entropy_from_distribution_forward_backward_kernel(
     target_stride_0: tl_constexpr,
     block_size: tl_constexpr,
     loss_mask_ptr=None,
+    partial_losses_ptr=None,
     losses_ptr=None,
     max_logits_ptr=None,
     sum_exp_logits_ptr=None,
@@ -321,11 +349,22 @@ def triton_cross_entropy_from_distribution_forward_backward_kernel(
     else:
         max_logits = tl.load(max_logits_ptr + block_idx)
         sum_exp_logits = tl.load(sum_exp_logits_ptr + block_idx)
-        if grad_losses is not None and from_logits:
+        if from_logits:
             target_max_logits = tl.load(target_max_logits_ptr + block_idx)
             target_sum_exp_logits = tl.load(target_sum_exp_logits_ptr + block_idx)
 
     if losses_ptr is not None:
+        # if return_kl_loss:
+        #    predicted_logits = predicted_logits + target_sum_exp_logits.log() + target_max_logits
+        # per_sample_losses = sum_exp_logits.log() + max_logits - predicted_logits
+        # if loss_mask is not None:
+        #    per_sample_losses = torch.where(loss_mask.flatten(), per_sample_losses, 0)
+        if partial_losses_ptr is not None:
+            predicted_logits = tl.load(partial_losses_ptr + block_idx)
+            if from_logits:
+                predicted_logits /= target_sum_exp_logits
+                if return_kl_loss:
+                    predicted_logits += tl.log(target_sum_exp_logits) + target_max_logits
         # per_sample_loss = log(sum_exp_logits) - sum(probabilities * logits)
         loss = tl.log(sum_exp_logits) + max_logits - predicted_logits
         tl.store(losses_ptr + block_idx, loss)
@@ -334,7 +373,7 @@ def triton_cross_entropy_from_distribution_forward_backward_kernel(
         if logits_scale_factor != 1.0:
             grad_losses *= logits_scale_factor
         # grad / grad_output = exp_logits / sum_exp_logits - target_probabilities.
-        col_offset_start = (n_cols - 1) // block_size * block_size
+        col_offset_start: tl.constexpr = (n_cols - 1) // block_size * block_size
         for col_offset in tl.static_range(col_offset_start, -1, -block_size):
             col_offsets = tl_arange(col_offset, col_offset + block_size)
             mask = col_offsets < n_cols
@@ -355,6 +394,239 @@ def triton_cross_entropy_from_distribution_forward_backward_kernel(
             tl.store(grad_logits_ptr + block_idx * grad_logits_stride_0 + col_offsets, grad_logits, mask=mask)
 
 
+@triton_jit()
+def triton_reverse_kl_forward_from_distribution(
+    logits_ptr,
+    target_ptr,
+    n_cols: tl_constexpr,
+    block_size: tl_constexpr,
+    from_logits: tl_constexpr = True,
+    target_logits_scale_factor: tl_constexpr = 1.0,
+    logits_scale_factor: tl_constexpr = 1.0,
+    return_partial_loss: tl_constexpr = False,
+):
+    max_logits = None
+    sum_exp_logits = None
+    if from_logits:
+        target_max_logits = None
+        target_sum_exp_logits = None
+    else:
+        target_max_logits = 0
+        target_sum_exp_logits = 0
+
+    for col_offset in tl.static_range(0, n_cols, block_size):
+        logits, exp_logits, sum_exp_logits, new_max_logits, col_offsets, mask = triton_fused_softmax_iter_base(
+            logits_ptr,
+            col_offset=col_offset,
+            n_cols=n_cols,
+            block_size=block_size,
+            max_logits=max_logits,
+            sum_exp_logits=sum_exp_logits,
+            logits_scale_factor=logits_scale_factor,
+        )
+
+        # print("sum_exp_logits", sum_exp_logits)
+        # print("max_logits", new_max_logits)
+        if from_logits:
+            # log_target excludes the log_sum_exp term to be added later
+            log_target, _, target_sum_exp_logits, target_new_max_logits, _, _ = triton_fused_softmax_iter_base(
+                target_ptr,
+                col_offset=col_offset,
+                n_cols=n_cols,
+                block_size=block_size,
+                max_logits=target_max_logits,
+                sum_exp_logits=target_sum_exp_logits,
+                logits_scale_factor=target_logits_scale_factor,
+                col_offsets=col_offsets,
+                mask=mask,
+            )
+            target = log_target
+            # print("target_sum_exp_logits", target_sum_exp_logits)
+            # print("new_max_logits", target_new_max_logits)
+        else:
+            target = tl.load(target_ptr + col_offsets, mask=mask, other=-float("inf")).to(tl.float32)
+            log_target = tl.log(target)
+        if col_offset == 0:
+            # predicted_log_probability=logits - new_max_logits - tl.log(sum_exp_logits)
+            # target_log_probability=log_target-target_new_max_logits-tl.log(target_sum_exp_logits)
+            # print("predicted_log_probability", predicted_log_probability)
+            # print("target_log_probability", target_log_probability)
+            # print("IUWH", exp_logits * (predicted_log_probability-target_log_probability)/sum_exp_logits)
+            loss = tl.sum(tl.where(mask, exp_logits * (logits - log_target), 0))
+            # print("max_logits", new_max_logits)
+            # print("partial_losses", exp_logits * (logits-log_target))
+
+        else:
+            loss = loss * tl.exp(max_logits - new_max_logits) + tl.sum(
+                tl.where(mask, exp_logits * (logits - log_target), 0)
+            )
+        max_logits = new_max_logits
+        if from_logits:
+            target_max_logits = target_new_max_logits
+
+    # print("partial_loss", loss)
+    if not return_partial_loss:
+        loss = loss / sum_exp_logits - tl.log(sum_exp_logits) - max_logits
+        if from_logits:
+            loss = loss + tl.log(target_sum_exp_logits) + target_max_logits
+
+    return loss, logits, target, sum_exp_logits, max_logits, target_sum_exp_logits, target_max_logits
+
+
+@triton_jit()
+def triton_reverse_kl_forward_kernel_from_distribution(
+    logits_ptr,
+    target_ptr,
+    n_cols: tl_constexpr,
+    logits_stride_0: tl_constexpr,
+    target_stride_0: tl_constexpr,
+    block_size: tl_constexpr,
+    loss_mask_ptr=None,
+    max_logits_ptr=None,
+    sum_exp_logits_ptr=None,
+    target_max_logits_ptr=None,
+    target_sum_exp_logits_ptr=None,
+    partial_losses_ptr=None,
+    from_logits: tl_constexpr = True,
+    logits_scale_factor: tl_constexpr = 1.0,
+    target_logits_scale_factor: tl_constexpr = 1.0,
+):
+    # TODO: Int64 ptr only if needed?
+    block_idx = tl.program_id(0).to(tl.int64)
+    logits_ptr = logits_ptr + block_idx * logits_stride_0
+    target_ptr = target_ptr + block_idx * target_stride_0
+
+    if loss_mask_ptr is not None and tl.load(loss_mask_ptr + block_idx) == 0:
+        # This entry is masked, ignore.
+        tl.store(partial_losses_ptr + block_idx, 0)
+        return
+
+    partial_loss, _, _, sum_exp_logits, max_logits, target_sum_exp_logits, target_max_logits = (
+        triton_reverse_kl_forward_from_distribution(
+            logits_ptr,
+            target_ptr,
+            n_cols=n_cols,
+            block_size=block_size,
+            from_logits=from_logits,
+            logits_scale_factor=logits_scale_factor,
+            target_logits_scale_factor=target_logits_scale_factor,
+            return_partial_loss=True,
+        )
+    )
+    if partial_losses_ptr is not None:
+        tl.store(partial_losses_ptr + block_idx, partial_loss)
+    if max_logits_ptr is not None:
+        tl.store(max_logits_ptr + block_idx, max_logits)
+    if sum_exp_logits_ptr is not None:
+        tl.store(sum_exp_logits_ptr + block_idx, sum_exp_logits)
+
+    if target_max_logits_ptr is not None:
+        tl.store(target_max_logits_ptr + block_idx, target_max_logits)
+    if target_sum_exp_logits_ptr is not None:
+        tl.store(target_sum_exp_logits_ptr + block_idx, target_sum_exp_logits)
+
+
+@triton_jit()
+def triton_reverse_kl_forward_backward_kernel_from_distribution(
+    logits_ptr,
+    target_ptr,
+    n_cols: tl_constexpr,
+    logits_stride_0: tl_constexpr,
+    target_stride_0: tl_constexpr,
+    block_size: tl_constexpr,
+    loss_mask_ptr=None,
+    partial_losses_ptr=None,
+    losses_ptr=None,
+    max_logits_ptr=None,
+    sum_exp_logits_ptr=None,
+    target_max_logits_ptr=None,
+    target_sum_exp_logits_ptr=None,
+    from_logits: tl_constexpr = True,
+    grad_losses=None,
+    grad_logits_ptr=None,
+    grad_logits_stride_0: tl_constexpr = None,
+    logits_scale_factor: tl_constexpr = 1.0,
+    target_logits_scale_factor: tl_constexpr = 1.0,
+):
+    # TODO: Int64 ptr only if needed?
+    block_idx = tl.program_id(0).to(tl.int64)
+    logits_ptr = logits_ptr + block_idx * logits_stride_0
+    target_ptr = target_ptr + block_idx * target_stride_0
+
+    if loss_mask_ptr is not None and tl.load(loss_mask_ptr + block_idx) == 0:
+        # This entry is masked, ignore.
+        if losses_ptr is not None:
+            tl.store(losses_ptr + block_idx, 0)
+        if grad_losses is not None:
+            for col_offset in tl.static_range(0, n_cols, block_size):
+                col_offsets = tl_arange(int(col_offset), int(col_offset + block_size))
+                tl.store(
+                    grad_logits_ptr + block_idx * grad_logits_stride_0 + col_offsets, 0, mask=col_offsets < n_cols
+                )
+        return
+
+    if max_logits_ptr is None or sum_exp_logits_ptr is None:
+        loss, logits, target, sum_exp_logits, max_logits, target_sum_exp_logits, target_max_logits = (
+            triton_reverse_kl_forward_from_distribution(
+                logits_ptr,
+                target_ptr,
+                n_cols=n_cols,
+                block_size=block_size,
+                from_logits=from_logits,
+                logits_scale_factor=logits_scale_factor,
+                target_logits_scale_factor=target_logits_scale_factor,
+            )
+        )
+    else:
+        max_logits = tl.load(max_logits_ptr + block_idx)
+        sum_exp_logits = tl.load(sum_exp_logits_ptr + block_idx)
+        if from_logits:
+            target_max_logits = tl.load(target_max_logits_ptr + block_idx)
+            target_sum_exp_logits = tl.load(target_sum_exp_logits_ptr + block_idx)
+
+    # print("sum_exp_logits", sum_exp_logits)
+    # print("max_logits", max_logits)
+
+    # if from_logits:
+    #    print("target_sum_exp_logits", target_sum_exp_logits)
+    #    print("target_max_logits", target_max_logits)
+
+    if losses_ptr is not None:
+        if partial_losses_ptr is not None:
+            loss = tl.load(partial_losses_ptr + block_idx)
+            # print("partial_loss", loss)
+            loss = loss / sum_exp_logits - tl.log(sum_exp_logits) - max_logits
+            if from_logits:
+                loss = loss + tl.log(target_sum_exp_logits) + target_max_logits
+        tl.store(losses_ptr + block_idx, loss)
+
+    if grad_losses is not None:
+        if logits_scale_factor != 1.0:
+            grad_losses *= logits_scale_factor
+        col_offset_start: tl.constexpr = (n_cols - 1) // block_size * block_size
+        for col_offset in tl.static_range(col_offset_start, -1, -block_size):
+            col_offsets = tl_arange(col_offset, col_offset + block_size)
+            mask = col_offsets < n_cols
+            if max_logits_ptr is not None or sum_exp_logits_ptr is not None or col_offset != col_offset_start:
+                logits = tl.load(logits_ptr + col_offsets, mask=mask, other=-float("inf")).to(tl.float32)
+                if logits_scale_factor != 1.0:
+                    logits *= logits_scale_factor
+                target = tl.load(target_ptr + col_offsets, mask=mask, other=-float("inf")).to(tl.float32)
+                if from_logits and target_logits_scale_factor != 1.0:
+                    target *= target_logits_scale_factor
+            if from_logits:
+                target_log_probability = target - target_max_logits - tl.log(target_sum_exp_logits)
+            else:
+                target_log_probability = tl.log(target)
+
+            predicted_probability = tl.exp(logits - max_logits) / sum_exp_logits
+            predicted_log_probability = logits - max_logits - tl.log(sum_exp_logits)
+            grad_logits = (
+                grad_losses * (predicted_log_probability - target_log_probability - loss) * predicted_probability
+            )
+            tl.store(grad_logits_ptr + block_idx * grad_logits_stride_0 + col_offsets, grad_logits, mask=mask)
+
+
 @torch.compile
 def _rescale_sum_exp_logits(
     sum_exp_logits: torch.Tensor,
@@ -389,12 +661,11 @@ def _cross_entropy_loss_from_labels(
 @torch.compile
 def _rescale_predicted_logits(
     predicted_logits: torch.Tensor,
-    target_sum_exp_logits: torch.Tensor,
     local_target_max_logits: torch.Tensor,
     target_max_logits: torch.Tensor,
 ):
     # We skipped the division by `target_sum_exp_logits` in the triton kernel so we do it here.
-    return predicted_logits * torch.exp(local_target_max_logits - target_max_logits) / target_sum_exp_logits
+    return predicted_logits * torch.exp(local_target_max_logits - target_max_logits)
 
 
 @torch.compile
@@ -415,7 +686,7 @@ def _cross_entropy_loss_from_distribution(
     return per_sample_losses.mean()
 
 
-def triton_cross_entropy_forward_backward(
+def triton_entropy_loss_forward_backward(
     logits: torch.Tensor,
     target: torch.Tensor,
     loss_mask: torch.Tensor | None,
@@ -434,8 +705,6 @@ def triton_cross_entropy_forward_backward(
      Compared to a standard pytorch implementation, this reduces memory usage (of logits) by 3x and memory I/O by 5x.
     TODO: Better handling of `grad_output = None`
     """
-    assert TritonConfig.TRITON_ENABLED
-    Assert.incl(entropy_loss_type, (EntropyLossType.cross_entropy, EntropyLossType.forward_kl))
     # TODO: Improve assumptions.
     assert logits.is_contiguous()
     assert target.is_contiguous()
@@ -465,6 +734,7 @@ def triton_cross_entropy_forward_backward(
         }
     )
     if target_format == TargetFormat.labels:
+        assert entropy_loss_type != EntropyLossType.reverse_kl
         if group is None:
             losses = torch.empty(n_rows, dtype=torch.float, device=logits.device)
             triton_cross_entropy_forward_backward_from_labels_kernel[(n_rows,)](
@@ -476,21 +746,21 @@ def triton_cross_entropy_forward_backward(
             )
             loss = losses.mean()
         else:
-            predicted_logits = torch.empty(n_rows, dtype=torch.float, device=logits.device)
-            local_max_logits = torch.empty_like(predicted_logits)
-            sum_exp_logits = torch.empty_like(predicted_logits)
+            partial_losses = torch.empty(n_rows, dtype=torch.float, device=logits.device)
+            local_max_logits = torch.empty_like(partial_losses)
+            sum_exp_logits = torch.empty_like(partial_losses)
             triton_cross_entropy_forward_from_labels_parallel_kernel[(n_rows,)](
                 logits,
                 target,
                 max_logits_ptr=local_max_logits,
                 sum_exp_logits_ptr=sum_exp_logits,
-                predicted_logits_ptr=predicted_logits,
+                predicted_logits_ptr=partial_losses,
                 col_min=n_cols * group.rank(),
                 **kwargs,
             )
             max_logits, sum_exp_logits = _parallel_sum_exp_logits(sum_exp_logits, local_max_logits, group)
-            torch.distributed.all_reduce(predicted_logits, op=torch.distributed.ReduceOp.SUM, group=group)
-            loss = _cross_entropy_loss_from_labels(predicted_logits, target, sum_exp_logits, max_logits)
+            torch.distributed.all_reduce(partial_losses, op=torch.distributed.ReduceOp.SUM, group=group)
+            loss = _cross_entropy_loss_from_labels(partial_losses, target, sum_exp_logits, max_logits)
             if grad_output is not None:
                 triton_cross_entropy_forward_backward_from_labels_kernel[(n_rows,)](
                     logits,
@@ -502,11 +772,17 @@ def triton_cross_entropy_forward_backward(
                     **backward_kwargs,
                 )
     else:
+        if loss_mask is not None:
+            assert loss_mask.is_contiguous()
+        if entropy_loss_type == EntropyLossType.reverse_kl:
+            kernel = triton_reverse_kl_forward_backward_kernel_from_distribution
+        else:
+            kernel = triton_cross_entropy_from_distribution_forward_backward_kernel
+            kwargs["return_kl_loss"] = entropy_loss_type == EntropyLossType.forward_kl
+
         if group is None:
             losses = torch.empty(n_rows, dtype=torch.float, device=logits.device)
-            if loss_mask is not None:
-                assert loss_mask.is_contiguous()
-            triton_cross_entropy_from_distribution_forward_backward_kernel[(n_rows,)](
+            kernel[(n_rows,)](
                 logits,
                 target,
                 loss_mask_ptr=loss_mask,
@@ -518,22 +794,27 @@ def triton_cross_entropy_forward_backward(
                 target_stride_0=target.stride(-2),
                 target_logits_scale_factor=logits_scale_factor / temperature,
                 from_logits=target_format == TargetFormat.logits,
-                return_kl_loss=entropy_loss_type == EntropyLossType.forward_kl,
                 **kwargs,
                 **backward_kwargs,
             )
             loss = losses.mean()
         else:
-            predicted_logits = torch.empty(n_rows, dtype=torch.float, device=logits.device)
-            local_max_logits = torch.empty_like(predicted_logits)
-            sum_exp_logits = torch.empty_like(predicted_logits)
+            partial_losses = torch.empty(n_rows, dtype=torch.float, device=logits.device)
+            local_max_logits = torch.empty_like(partial_losses)
+            sum_exp_logits = torch.empty_like(partial_losses)
             if target_format == TargetFormat.logits:
-                local_target_max_logits = torch.empty_like(predicted_logits)
-                target_sum_exp_logits = torch.empty_like(predicted_logits)
+                local_target_max_logits = torch.empty_like(partial_losses)
+                target_sum_exp_logits = torch.empty_like(partial_losses)
             else:
                 local_target_max_logits = target_sum_exp_logits = None
 
-            triton_cross_entropy_from_distribution_forward_parallel_kernel[(n_rows,)](
+            forward_kernel = (
+                triton_reverse_kl_forward_kernel_from_distribution
+                if entropy_loss_type == EntropyLossType.reverse_kl
+                else triton_cross_entropy_from_distribution_forward_parallel_kernel
+            )
+
+            forward_kernel[(n_rows,)](
                 logits,
                 target,
                 loss_mask_ptr=loss_mask,
@@ -541,11 +822,10 @@ def triton_cross_entropy_forward_backward(
                 sum_exp_logits_ptr=sum_exp_logits,
                 target_max_logits_ptr=local_target_max_logits,
                 target_sum_exp_logits_ptr=target_sum_exp_logits,
-                predicted_logits_ptr=predicted_logits,
+                partial_losses_ptr=partial_losses,
                 target_stride_0=target.stride(-2),
                 target_logits_scale_factor=logits_scale_factor / temperature,
                 from_logits=target_format == TargetFormat.logits,
-                return_kl_loss=entropy_loss_type == EntropyLossType.forward_kl,
                 **kwargs,
                 **backward_kwargs,
             )
@@ -554,24 +834,17 @@ def triton_cross_entropy_forward_backward(
                 target_max_logits, target_sum_exp_logits = _parallel_sum_exp_logits(
                     target_sum_exp_logits, local_target_max_logits, group
                 )
-                predicted_logits = _rescale_predicted_logits(
-                    predicted_logits, target_sum_exp_logits, local_target_max_logits, target_max_logits
-                )
+                if entropy_loss_type != EntropyLossType.reverse_kl:
+                    partial_losses = _rescale_predicted_logits(
+                        partial_losses, local_target_max_logits, target_max_logits
+                    )
             else:
                 target_max_logits = None
-            torch.distributed.all_reduce(predicted_logits, op=torch.distributed.ReduceOp.SUM, group=group)
-
-            loss = _cross_entropy_loss_from_distribution(
-                predicted_logits,
-                loss_mask,
-                sum_exp_logits,
-                max_logits,
-                target_sum_exp_logits=target_sum_exp_logits,
-                target_max_logits=target_max_logits,
-                return_kl_loss=entropy_loss_type == EntropyLossType.forward_kl
-                and target_format == TargetFormat.logits,
-            )
-            triton_cross_entropy_from_distribution_forward_backward_kernel[(n_rows,)](
+            if entropy_loss_type == EntropyLossType.reverse_kl:
+                partial_losses = _rescale_predicted_logits(partial_losses, local_max_logits, max_logits)
+            torch.distributed.all_reduce(partial_losses, op=torch.distributed.ReduceOp.SUM, group=group)
+
+            kernel[(n_rows,)](
                 logits,
                 target,
                 loss_mask_ptr=loss_mask,
@@ -579,11 +852,13 @@ def triton_cross_entropy_forward_backward(
                 sum_exp_logits_ptr=sum_exp_logits,
                 target_max_logits_ptr=target_max_logits,
                 target_sum_exp_logits_ptr=target_sum_exp_logits,
-                predicted_logits_ptr=predicted_logits,
+                partial_losses_ptr=partial_losses,
+                losses_ptr=partial_losses,
                 target_stride_0=target.stride(-2),
                 target_logits_scale_factor=logits_scale_factor / temperature,
                 from_logits=target_format == TargetFormat.logits,
                 **kwargs,
                 **backward_kwargs,
             )
+            loss = partial_losses.mean()
     return loss, grad_logits
diff --git a/fast_llm/functional/triton/mlp.py b/fast_llm/functional/triton/mlp.py
index 286e7159a..7949faaf0 100644
--- a/fast_llm/functional/triton/mlp.py
+++ b/fast_llm/functional/triton/mlp.py
@@ -14,7 +14,7 @@
     output_parallel_linear_forward,
     update_linear_gradients,
 )
-from fast_llm.functional.triton import tl, tl_constexpr, triton_jit
+from fast_llm.functional.triton import tl, tl_arange, tl_constexpr, triton_jit
 from fast_llm.functional.triton.sparse_copy import (
     SparseMap,
     copy_dense_to_sparse_backward,
@@ -37,7 +37,7 @@ def triton_mlp_activation_forward_kernel(
 ):
     # TODO: Int64 ptr only if needed?
     row_idx = tl.program_id(0).to(tl.int64)
-    columns = tl.program_id(1) * block_size + tl.arange(0, block_size)
+    columns = tl.program_id(1) * block_size + tl_arange(0, block_size)
 
     output_offsets = n_cols * row_idx + columns
     input_offsets = 2 * n_cols * row_idx + columns if gated else output_offsets
@@ -85,7 +85,7 @@ def triton_mlp_activation_backward_kernel(
 ):
     # TODO: Int64 ptr only if needed?
     row_idx = tl.program_id(0).to(tl.int64)
-    columns = tl.program_id(1) * block_size + tl.arange(0, block_size)
+    columns = tl.program_id(1) * block_size + tl_arange(0, block_size)
 
     output_offsets = n_cols * row_idx + columns
     input_offsets = 2 * n_cols * row_idx + columns if gated else output_offsets
@@ -219,6 +219,7 @@ def mlp_forward(
     recompute_level: MLPRecomputeLevel = MLPRecomputeLevel.none,
     transposed_layer_2_weight: bool = False,
     sparse_map: SparseMap | None = None,
+    use_triton: bool | None = None,
 ) -> tuple[torch.Tensor, list[typing.Any] | None]:
     # Sparse copy
     input_shape = input_.shape
@@ -235,7 +236,7 @@ def mlp_forward(
         input_ = None
 
     # Activation
-    if TritonConfig.TRITON_ENABLED and intermediate_1.device.type == "cuda":
+    if TritonConfig.enabled(intermediate_1.device, use_triton):
         intermediate_2, _ = triton_mlp_activation_forward(intermediate_1, gated, activation_type)
     else:
         do_grad = training and not recompute_level.recompute_activation
@@ -287,6 +288,7 @@ def mlp_forward(
             transposed_layer_2_weight,
             sparse_map,
             input_shape,
+            use_triton,
         ]
         if training
         else None
@@ -313,6 +315,7 @@ def mlp_backward(grad_output: torch.Tensor, context: list[typing.Any]) -> tuple[
         transposed_layer_2_weight,
         sparse_map,
         input_shape,
+        use_triton,
     ) = context
     context.clear()
 
@@ -344,7 +347,7 @@ def mlp_backward(grad_output: torch.Tensor, context: list[typing.Any]) -> tuple[
         )[0]
 
     # Activation recomputation and/or backward
-    if TritonConfig.TRITON_ENABLED and grad_output.device.type == "cuda":
+    if TritonConfig.enabled(grad_output.device, use_triton):
         grad_intermediate_1, intermediate_2_ = triton_mlp_activation_backward(
             grad_intermediate_2, (intermediate_1, gated, activation_type), intermediate_2 is None
         )
diff --git a/fast_llm/functional/triton/normalization.py b/fast_llm/functional/triton/normalization.py
index a018ad44b..9538a9275 100644
--- a/fast_llm/functional/triton/normalization.py
+++ b/fast_llm/functional/triton/normalization.py
@@ -4,7 +4,7 @@
 
 from fast_llm.functional.autograd import wrap_forward_backward
 from fast_llm.functional.config import TritonConfig
-from fast_llm.functional.triton import tl, tl_constexpr, triton, triton_jit
+from fast_llm.functional.triton import tl, tl_arange, tl_constexpr, tl_full, triton, triton_jit
 from fast_llm.tensor import param_get_and_unset_is_zero
 
 
@@ -23,7 +23,7 @@ def triton_normalization_forward_kernel(
 ):
     # Program dimensions
     row = tl.program_id(0).to(tl.int64)
-    cols = tl.arange(0, block_size)
+    cols = tl_arange(0, block_size)
     mask = cols < n_cols
     offsets = row * n_cols + cols
 
@@ -75,10 +75,10 @@ def triton_normalization_backward_kernel_1(
     block_size_row: tl_constexpr,
 ):
     # row_start = tl.program_id(0)*block_size_row
-    rows = tl.program_id(0) * block_size_row + tl.arange(0, block_size_row)[:, None]
+    rows = tl.program_id(0) * block_size_row + tl_arange(0, block_size_row)[:, None]
     row_mask = rows < n_rows
 
-    cols = tl.arange(0, block_size)[None, :]
+    cols = tl_arange(0, block_size)[None, :]
 
     col_mask = cols < n_cols
     mask = col_mask & row_mask
@@ -140,15 +140,15 @@ def triton_normalization_backward_kernel_2(
     block_size_n: tl_constexpr,
 ):
     pid = tl.program_id(0)
-    cols = pid * block_size_n + tl.arange(0, block_size_n)
-    grad_weight_partial_sum = tl.zeros((block_size_m, block_size_n), dtype=tl.float32)
+    cols = pid * block_size_n + tl_arange(0, block_size_n)
+    grad_weight_partial_sum = tl_full((block_size_m, block_size_n), 0, dtype=tl.float32)
     if has_bias:
-        grad_bias_partial_sum = tl.zeros((block_size_m, block_size_n), dtype=tl.float32)
+        grad_bias_partial_sum = tl_full((block_size_m, block_size_n), 0, dtype=tl.float32)
     col_mask = cols < n_cols
 
     # Partial sums.
     for i in range(0, m, block_size_m):
-        rows = i + tl.arange(0, block_size_m)
+        rows = i + tl_arange(0, block_size_m)
         mask = (rows[:, None] < m) & (cols[None, :] < n_cols)
         offsets = rows[:, None] * n_cols + cols[None, :]
         grad_weight_partial_sum += tl.load(grad_weight_partial_ptr + offsets, mask=mask, other=0.0)
diff --git a/fast_llm/functional/triton/pointwise.py b/fast_llm/functional/triton/pointwise.py
index 22676ae1a..44bb805f2 100644
--- a/fast_llm/functional/triton/pointwise.py
+++ b/fast_llm/functional/triton/pointwise.py
@@ -7,7 +7,7 @@
 
 from fast_llm.engine.config_utils.data_type import DataType
 from fast_llm.functional.config import TritonConfig
-from fast_llm.functional.triton import tl, tl_constexpr, triton, triton_jit
+from fast_llm.functional.triton import tl, tl_arange, tl_constexpr, tl_full, triton, triton_jit
 
 
 @triton_jit()
@@ -19,7 +19,7 @@ def triton_copy_kernel(
 ):
     # TODO: Int64 ptr only if needed?
     block_start = tl.program_id(axis=0).to(tl.int64) * block_size
-    offsets = block_start + tl.arange(0, block_size)
+    offsets = block_start + tl_arange(0, block_size)
     mask = offsets < numel
     input_ = tl.load(input_ptr + offsets, mask=mask)
     tl.store(out_ptr + offsets, input_, mask=mask)
@@ -28,11 +28,12 @@ def triton_copy_kernel(
 def triton_copy(
     input_: torch.Tensor,
     out: torch.Tensor,
+    use_triton: bool | None = None,
 ) -> torch.Tensor:
     """
     A triton implementation of tensor copying (`torch.Tensor.copy_()`).
     """
-    if not TritonConfig.TRITON_ENABLED or input_.device.type != "cuda":
+    if not TritonConfig.enabled(input_.device, use_triton):
         return out.copy_(input_)
     # TODO: Improve assumptions.
     assert input_.is_contiguous()
@@ -53,19 +54,20 @@ def triton_fill_kernel(
 ):
     # TODO: Int64 ptr only if needed?
     block_start = tl.program_id(axis=0).to(tl.int64) * block_size
-    offsets = block_start + tl.arange(0, block_size)
+    offsets = block_start + tl_arange(0, block_size)
     mask = offsets < numel
-    tl.store(input_ptr + offsets, tl.full((block_size,), value, dtype), mask=mask)
+    tl.store(input_ptr + offsets, tl_full((block_size,), value, dtype), mask=mask)
 
 
 def triton_fill(
     input_: torch.Tensor,
     value: float | int,
+    use_triton: bool | None = None,
 ) -> torch.Tensor:
     """
     A faster triton implementation of tensor copying (`torch.Tensor.fill_()`).
     """
-    if not TritonConfig.TRITON_ENABLED or input_.device.type != "cuda":
+    if not TritonConfig.enabled(input_.device, use_triton):
         return input_.fill_(value)
     # TODO: Improve assumptions.
     assert input_.is_contiguous()
@@ -91,7 +93,7 @@ def triton_add_kernel(
 ):
     # TODO: Int64 ptr only if needed?
     block_start = tl.program_id(axis=0).to(tl.int64) * block_size
-    offsets = block_start + tl.arange(0, block_size)
+    offsets = block_start + tl_arange(0, block_size)
     mask = offsets < numel
     input_ = tl.load(input_ptr + offsets, mask=mask)
     other = tl.load(other_ptr + offsets, mask=mask)
@@ -102,11 +104,12 @@ def triton_add(
     input_: torch.Tensor,
     other: torch.Tensor,
     out: torch.Tensor | None = None,
+    use_triton: bool | None = None,
 ) -> torch.Tensor:
     """
     A faster triton implementation of tensor addition (`torch.Tensor.add()`).
     """
-    if not TritonConfig.TRITON_ENABLED or input_.device.type != "cuda":
+    if not TritonConfig.enabled(input_.device, use_triton):
         return torch.add(input_, other, out=out)
     # TODO: Improve assumptions.
     assert input_.is_contiguous()
diff --git a/fast_llm/functional/triton/rotary.py b/fast_llm/functional/triton/rotary.py
index c510925c6..2c93776af 100644
--- a/fast_llm/functional/triton/rotary.py
+++ b/fast_llm/functional/triton/rotary.py
@@ -2,7 +2,7 @@
 
 from fast_llm.functional.autograd import wrap_forward_backward
 from fast_llm.functional.config import TritonConfig
-from fast_llm.functional.triton import tl, tl_constexpr, triton, triton_jit
+from fast_llm.functional.triton import tl, tl_arange, tl_constexpr, triton, triton_jit
 from fast_llm.utils import div
 
 
@@ -25,8 +25,8 @@ def triton_rotary_kernel(
     pid_1 = tl.program_id(axis=1)  # Head index
     position_id = pid_0 % seq_len
 
-    offsets = tl.arange(0, rotary_block_size)
-    head_offsets = pid_1 * head_block_size + tl.arange(0, head_block_size)[:, None]
+    offsets = tl_arange(0, rotary_block_size)
+    head_offsets = pid_1 * head_block_size + tl_arange(0, head_block_size)[:, None]
     input_offsets = stride_0 * (pid_0 // seq_len) + stride_1 * position_id + stride_2 * head_offsets + offsets[None, :]
     input_re_ptr = input_ptr + input_offsets
     input_im_ptr = input_re_ptr + rotary_dim
diff --git a/fast_llm/functional/triton/sparse_copy.py b/fast_llm/functional/triton/sparse_copy.py
index 7c803689c..e68692d9c 100644
--- a/fast_llm/functional/triton/sparse_copy.py
+++ b/fast_llm/functional/triton/sparse_copy.py
@@ -5,7 +5,7 @@
 from fast_llm.engine.config_utils.data_type import DataType
 from fast_llm.functional.autograd import wrap_forward_backward
 from fast_llm.functional.config import MAX_DROPLESS_BLOCK_SIZE_ROW, TritonConfig
-from fast_llm.functional.triton import tl, tl_constexpr, triton, triton_jit
+from fast_llm.functional.triton import tl, tl_arange, tl_constexpr, triton, triton_jit
 
 
 @dataclasses.dataclass()
@@ -36,7 +36,7 @@ def copy_dense_to_sparse_kernel(
     block_size: tl_constexpr,
 ):
     dense_row = tl.program_id(0)
-    offsets = tl.arange(0, block_size) + block_size * tl.program_id(1)
+    offsets = tl_arange(0, block_size) + block_size * tl.program_id(1)
     mask = None if num_columns % block_size == 0 else offsets < num_columns
     out = tl.load(input_ptr + dense_row * num_columns + offsets, mask=mask)
     # Write to each expert.
@@ -78,7 +78,7 @@ def copy_sparse_to_dense_kernel(
     block_size: tl_constexpr,
 ):
     dense_row = tl.program_id(0)
-    offsets = tl.arange(0, block_size) + block_size * tl.program_id(1)
+    offsets = tl_arange(0, block_size) + block_size * tl.program_id(1)
     mask = None if num_columns % block_size == 0 else offsets < num_columns
     out = tl.zeros((block_size,), tl.float32)
     # Sum over experts.
@@ -125,7 +125,7 @@ def copy_sparse_to_dense_grad_score_kernel(
 
     grad_output_ptr += dense_row * num_columns
     input_ptr += sparse_row * num_columns
-    offsets = tl.arange(0, block_size)
+    offsets = tl_arange(0, block_size)
 
     if num_columns % block_size == 0:
         grad_scores = tl.load(input_ptr + offsets).to(tl.float32) * tl.load(grad_output_ptr + offsets).to(tl.float32)
@@ -216,8 +216,8 @@ def sparse_map_kernel(
     we use a one-hot representation to get the quantities we want.
     TODO: Next triton release will support tl.histogram, maybe argsort.
     """
-    block_range = tl.arange(0, block_size)
-    expert_range = tl.arange(0, block_size_expert)
+    block_range = tl_arange(0, block_size)
+    expert_range = tl_arange(0, block_size_expert)
     expert_mask = None if block_size_expert == num_experts else expert_range < num_experts
 
     if num_sparse_rows >= block_size:
@@ -256,7 +256,7 @@ def sparse_map_kernel(
     if sparse_rows_ptr is not None:
         # Assign a new unique index to each row so that it lies in the range (expert_begin, expert_end)
         # for its assigned expert.
-        block_range = tl.arange(0, block_size)
+        block_range = tl_arange(0, block_size)
         for i in range(tl.cdiv(num_sparse_rows, block_size)):
             if num_sparse_rows % block_size == 0:
                 mask = None
@@ -307,7 +307,8 @@ def get_sparse_map(
     num_rows_unpadded = num_rows_dense * num_experts_per_token
     max_rows = (num_rows_unpadded + num_experts * pad_to_multiple) // pad_to_multiple * pad_to_multiple
     dtype = torch.int16 if max_rows < 32768 else torch.int32
-    if (use_triton is None and TritonConfig.TRITON_ENABLED) or use_triton:
+
+    if TritonConfig.enabled(top_experts.device, use_triton):
         expert_ends, expert_pad_begins = top_experts.new_empty((2 * num_experts,), dtype=dtype).chunk(2)
         sparse_rows = expert_ends.new_empty(num_rows_dense, num_experts_per_token)
         sparse_map_kernel[(triton.cdiv(num_rows_dense, block_size),)](
diff --git a/fast_llm/functional/triton/sparse_linear.py b/fast_llm/functional/triton/sparse_linear.py
index ae46655ea..15af789d7 100644
--- a/fast_llm/functional/triton/sparse_linear.py
+++ b/fast_llm/functional/triton/sparse_linear.py
@@ -2,7 +2,7 @@
 
 import torch
 
-from fast_llm.functional.triton import TritonConfig, tl, tl_constexpr, triton, triton_autotune, triton_jit
+from fast_llm.functional.triton import TritonConfig, tl, tl_arange, tl_constexpr, triton, triton_autotune, triton_jit
 from fast_llm.functional.triton.sparse_copy import SparseMap
 from fast_llm.utils import Assert, div
 
@@ -99,9 +99,9 @@ def dense_matmul_kernel(
     col_offset = pid_col * block_size_col
 
     # Pointers
-    row_range = tl.arange(0, block_size_row)[:, None] + row_offset
-    col_range = tl.arange(0, block_size_col)[None, :] + col_offset
-    inner_range = tl.arange(0, block_size_inner)
+    row_range = tl_arange(0, block_size_row)[:, None] + row_offset
+    col_range = tl_arange(0, block_size_col)[None, :] + col_offset
+    inner_range = tl_arange(0, block_size_inner)
     lhs_ptr += row_range * lhs_stride_row + inner_range[None, :] * lhs_stride_inner
     rhs_ptr += inner_range[:, None] * rhs_stride_inner + col_range * rhs_stride_col
     out_ptr += row_range * out_stride_row + col_range * out_stride_col
@@ -228,7 +228,7 @@ def output_sparse_matmul_kernel(
     # Grid offsets
     row_offset = pid_row * block_size_row
     col_sparse_offset = pid_col * block_size_col
-    sparse_range = tl.arange(0, padded_sparse_dim)
+    sparse_range = tl_arange(0, padded_sparse_dim)
     expert_ends = tl.load(expert_ends_ptr + sparse_range, mask=sparse_range < sparse_dim, other=row_dim)
     sparse_index = tl.sum((expert_ends <= row_offset).to(tl.int64))  # noqa
     if sparse_index == sparse_dim:
@@ -236,9 +236,9 @@ def output_sparse_matmul_kernel(
     col_dense_offset = col_sparse_offset + sparse_index * col_sparse_dim
 
     # Pointers
-    row_range = tl.arange(0, block_size_row)[:, None]
-    col_range = tl.arange(0, block_size_col)[None, :]
-    inner_range = tl.arange(0, block_size_inner)
+    row_range = tl_arange(0, block_size_row)[:, None]
+    col_range = tl_arange(0, block_size_col)[None, :]
+    inner_range = tl_arange(0, block_size_inner)
     lhs_ptr += (row_offset + row_range) * lhs_stride_row + inner_range[None, :] * lhs_stride_inner
     rhs_ptr += inner_range[:, None] * rhs_stride_inner + (col_dense_offset + col_range) * rhs_stride_col
     out_ptr += (row_offset + row_range) * out_stride_row + (col_sparse_offset + col_range) * out_stride_col
@@ -351,7 +351,7 @@ def input_inner_sparse_matmul_kernel(
     # Grid offsets
     row_offset = pid_row * block_size_row
 
-    sparse_range = tl.arange(0, padded_sparse_dim)
+    sparse_range = tl_arange(0, padded_sparse_dim)
     expert_ends = tl.load(expert_ends_ptr + sparse_range, mask=sparse_range < sparse_dim, other=row_dim)
     sparse_index = tl.sum((expert_ends <= row_offset).to(tl.int64))  # noqa
     if sparse_index == sparse_dim:
@@ -360,9 +360,9 @@ def input_inner_sparse_matmul_kernel(
     col_offset = pid_col * block_size_col
 
     # Pointers
-    row_range = tl.arange(0, block_size_row)[:, None]
-    col_range = tl.arange(0, block_size_col)[None, :]
-    inner_range = tl.arange(0, block_size_inner)
+    row_range = tl_arange(0, block_size_row)[:, None]
+    col_range = tl_arange(0, block_size_col)[None, :]
+    inner_range = tl_arange(0, block_size_inner)
     lhs_ptr += (row_offset + row_range) * lhs_stride_row + inner_range[None, :] * lhs_stride_inner
     rhs_ptr += (inner_dense_offset + inner_range[:, None]) * rhs_stride_inner + (
         col_offset + col_range
@@ -485,9 +485,9 @@ def input_row_sparse_matmul_kernel(
     inner_offset = (inner_begin // block_size_inner) * block_size_inner
 
     # Pointers
-    row_range = tl.arange(0, block_size_row)[:, None]
-    col_range = tl.arange(0, block_size_col)[None, :]
-    inner_range = tl.arange(0, block_size_inner) + inner_offset
+    row_range = tl_arange(0, block_size_row)[:, None]
+    col_range = tl_arange(0, block_size_col)[None, :]
+    inner_range = tl_arange(0, block_size_inner) + inner_offset
     lhs_ptr += (row_sparse_offset + row_range) * lhs_stride_row
     rhs_ptr += (col_offset + col_range) * rhs_stride_col
     out_ptr += (row_dense_offset + row_range) * out_stride_row + (col_offset + col_range) * out_stride_col
diff --git a/fast_llm/layers/attention/config.py b/fast_llm/layers/attention/config.py
index 626a8fde6..40baf2009 100644
--- a/fast_llm/layers/attention/config.py
+++ b/fast_llm/layers/attention/config.py
@@ -1,10 +1,8 @@
 import enum
 import logging
 import typing
-import warnings
 
 from fast_llm.config import Field, FieldHint, check_field, config_class, skip_valid_if_none
-from fast_llm.functional.config import TritonConfig
 from fast_llm.layers.attention.rotary.config import RotaryConfig
 from fast_llm.layers.block.config import BlockKwargs
 from fast_llm.layers.common.linear.config import AffineLinearConfig
@@ -132,9 +130,6 @@ class AttentionConfig(MixerConfig):
     def _validate(self) -> None:
         super()._validate()
 
-        if not TritonConfig.TRITON_ENABLED:
-            warnings.warn("Triton is disabled, but triton rotary kernel will be used anyway.")
-
         Assert.multiple(self.heads, self.head_groups)
 
         if not self.causal:
diff --git a/fast_llm/layers/attention/rotary/rotary.py b/fast_llm/layers/attention/rotary/rotary.py
index 304f96b83..307256a72 100644
--- a/fast_llm/layers/attention/rotary/rotary.py
+++ b/fast_llm/layers/attention/rotary/rotary.py
@@ -100,11 +100,7 @@ def preprocess(self, kwargs: dict[str, typing.Any]) -> None:
     def forward(
         self, query: torch.Tensor, key: torch.Tensor, kwargs: dict[str, typing.Any]
     ) -> tuple[torch.Tensor, torch.Tensor]:
-        rotary_fn = (
-            triton_rotary_autograd_
-            if TritonConfig.TRITON_ENABLED and query.device.type == "cuda"
-            else rotary_embeddings_real
-        )
+        rotary_fn = triton_rotary_autograd_ if TritonConfig.enabled(query.device) else rotary_embeddings_real
         query = rotary_fn(query, kwargs[AttentionKwargs.rotary_freq_q])
         key = rotary_fn(key, kwargs[AttentionKwargs.rotary_freq_k])
         return query, key
@@ -238,11 +234,7 @@ def preprocess(self, kwargs: dict[str, typing.Any]) -> None:
     def forward(
         self, query: torch.Tensor, key: torch.Tensor, kwargs: dict[str, typing.Any]
     ) -> tuple[torch.Tensor, torch.Tensor]:
-        rotary_fn = (
-            triton_rotary_autograd_
-            if TritonConfig.TRITON_ENABLED and query.device.type == "cuda"
-            else rotary_embeddings_real
-        )
+        rotary_fn = triton_rotary_autograd_ if TritonConfig.enabled(query.device) else rotary_embeddings_real
         query = rotary_fn(query, kwargs[AttentionKwargs.rotary_freq_q])
         key = rotary_fn(key, kwargs[AttentionKwargs.rotary_freq_k])
         return query, key
diff --git a/fast_llm/layers/common/normalization/normalization.py b/fast_llm/layers/common/normalization/normalization.py
index 55e62af22..6fe1ea519 100644
--- a/fast_llm/layers/common/normalization/normalization.py
+++ b/fast_llm/layers/common/normalization/normalization.py
@@ -190,7 +190,7 @@ def __init__(self, config: ConfigType, hidden_dim: TensorDim, lr_scale: float |
                 and not self._config.zero_centered
             ):
                 implementation = NormalizationImplementation.fast
-            elif (TritonConfig.TRITON_ENABLED and torch.cuda.is_available()) or self._config.zero_centered:
+            elif TritonConfig.enabled(torch.device("cuda")) or self._config.zero_centered:
                 log_main_rank("Fast layer norm unavailable, using backup triton implementation.")
                 implementation = NormalizationImplementation.triton
             elif _fused_normalization_available:
@@ -259,7 +259,7 @@ def __init__(self, config: ConfigType, hidden_dim: TensorDim, lr_scale: float |
         assert not hidden_dim.is_parallel
         implementation = self._config.implementation
         if implementation == NormalizationImplementation.auto:
-            if (TritonConfig.TRITON_ENABLED and torch.cuda.is_available()) or self._config.zero_centered:
+            if TritonConfig.enabled(torch.device("cuda")) or self._config.zero_centered:
                 implementation = NormalizationImplementation.triton
             elif _fused_normalization_available:
                 log_main_rank("Triton RMS norm unavailable, using fused implementation.")
diff --git a/fast_llm/layers/decoder/mlp/mlp.py b/fast_llm/layers/decoder/mlp/mlp.py
index 882963ce9..88c86c8aa 100644
--- a/fast_llm/layers/decoder/mlp/mlp.py
+++ b/fast_llm/layers/decoder/mlp/mlp.py
@@ -44,7 +44,9 @@ def __init__(
         self._parallel_dim = self._distributed_config.get_distributed_dim(DistributedDimNames.tensor)
         intermediate_1_dim, self._intermediate_2_dim = self._get_intermediate_dims()
 
-        self._activation_fn = triton_mlp_activation_autograd if TritonConfig.TRITON_ENABLED else torch_mlp_activation
+        self._activation_fn = (
+            triton_mlp_activation_autograd if TritonConfig.enabled(torch.device("cuda")) else torch_mlp_activation
+        )
 
         # So both layers' weights have shape (num_experts [* gate_up] * ffn, hidden_size)
         self.layer_1 = self._config.layer_1.get_layer(
diff --git a/fast_llm/layers/language_model/loss/config.py b/fast_llm/layers/language_model/loss/config.py
index f531a1d46..d636d6af7 100644
--- a/fast_llm/layers/language_model/loss/config.py
+++ b/fast_llm/layers/language_model/loss/config.py
@@ -2,7 +2,7 @@
 
 from fast_llm.config import Config, Field, FieldHint, check_field, config_class
 from fast_llm.engine.distributed.config import DistributedConfig
-from fast_llm.functional.config import EntropyLossImplementation, EntropyLossType
+from fast_llm.functional.config import EntropyLossType
 from fast_llm.layers.block.config import BlockKwargs
 from fast_llm.utils import Assert
 
@@ -77,11 +77,10 @@ class LanguageModelLabelEntropyLossConfig(LanguageModelLossConfig):
         desc="Type of loss to use.",
         hint=FieldHint.core,
     )
-
-    implementation: EntropyLossImplementation = Field(
-        default=EntropyLossImplementation.auto,
-        desc="Loss implementation.",
-        hint=FieldHint.performance,
+    use_triton: bool | None = Field(
+        default=None,
+        desc="Enable triton implementation. Default: use if available.",
+        hint=FieldHint.expert,
     )
 
     @property
@@ -100,11 +99,6 @@ class LanguageModelDistillationLossConfig(LanguageModelLossConfig):
         desc="Type of loss to use.",
         hint=FieldHint.core,
     )
-    implementation: EntropyLossImplementation = Field(
-        default=EntropyLossImplementation.auto,
-        desc="Loss implementation.",
-        hint=FieldHint.performance,
-    )
     reference_model: str = Field(
         default="teacher",
         desc="Name of the reference model for knowledge distillation.",
@@ -116,6 +110,11 @@ class LanguageModelDistillationLossConfig(LanguageModelLossConfig):
         desc="Temperature for teacher softmax.",
         valid=check_field(Assert.gt, 0.0),
     )
+    use_triton: bool | None = Field(
+        default=None,
+        desc="Enable triton implementation. Default: use if available.",
+        hint=FieldHint.expert,
+    )
 
     @property
     def loss_class(self) -> "type[LanguageModelDistillationLoss]":
diff --git a/fast_llm/layers/language_model/loss/entropy_loss.py b/fast_llm/layers/language_model/loss/entropy_loss.py
index 351aa210b..25e0c19b6 100644
--- a/fast_llm/layers/language_model/loss/entropy_loss.py
+++ b/fast_llm/layers/language_model/loss/entropy_loss.py
@@ -4,7 +4,7 @@
 
 from fast_llm.functional.config import EntropyLossImplementation, EntropyLossType, TargetFormat, TritonConfig
 from fast_llm.functional.entropy_loss import fused_entropy_loss_forward_backward, torch_entropy_loss_forward_backward
-from fast_llm.functional.triton.cross_entropy import triton_cross_entropy_forward_backward
+from fast_llm.functional.triton.cross_entropy import triton_entropy_loss_forward_backward
 from fast_llm.layers.language_model.loss.config import (
     LanguageModelDistillationLossConfig,
     LanguageModelLabelEntropyLossConfig,
@@ -13,32 +13,9 @@
 from fast_llm.utils import Assert
 
 
-def _get_implementation(
-    default: EntropyLossImplementation = EntropyLossImplementation.auto,
-    loss_type: EntropyLossType = EntropyLossType.cross_entropy,
-    vocab_parallel: bool = False,
-) -> EntropyLossImplementation:
-    # Vocab parallel requires fused.
-    if vocab_parallel:
-        assert default in (EntropyLossImplementation.auto, EntropyLossImplementation.fused)
-        return EntropyLossImplementation.fused
-
-    # Triton only available for cross_entropy
-    if TritonConfig.TRITON_ENABLED and torch.cuda.is_available() and loss_type == EntropyLossType.cross_entropy:
-        return EntropyLossImplementation.triton if default == EntropyLossImplementation.auto else default
-    else:
-        assert default != EntropyLossImplementation.triton
-
-    # Otherwise, use fused.
-    return EntropyLossImplementation.fused if default == EntropyLossImplementation.auto else default
-
-
 class LanguageModelLabelEntropyLoss[ConfigType: LanguageModelLabelEntropyLossConfig](LanguageModelLoss[ConfigType]):
     def __init__(self, *args, **kwargs):
         super().__init__(*args, **kwargs)
-        self._implementation = _get_implementation(
-            self._config.implementation, self._config.loss_type, self._vocab_parallel
-        )
 
     def forward_backward(
         self,
@@ -52,10 +29,10 @@ def forward_backward(
             None,  # Labels are already masked
             grad_output=self._get_grad_output(kwargs),
             group=self._parallel_dim.group if self._vocab_parallel else None,
-            implementation=self._implementation,
             logits_scale_factor=self._logits_scale_factor,
             target_format=TargetFormat.labels,
             entropy_loss_type=self._config.loss_type,
+            use_triton=self._config.use_triton,
         )
 
 
@@ -65,10 +42,6 @@ def __init__(self, *args, **kwargs):
         if self._prediction_distance > 0:
             raise NotImplementedError()
 
-        self._implementation = _get_implementation(
-            self._config.implementation, self._config.loss_type, self._vocab_parallel
-        )
-
     def forward_backward(
         self,
         logits: "torch.Tensor",
@@ -81,17 +54,17 @@ def forward_backward(
             self._get_loss_mask(kwargs, split_index),
             grad_output=self._get_grad_output(kwargs),
             group=self._parallel_dim.group if self._vocab_parallel else None,
-            implementation=self._implementation,
             logits_scale_factor=self._logits_scale_factor,
             target_format=TargetFormat.logits,
             entropy_loss_type=self._config.loss_type,
+            use_triton=self._config.use_triton,
         )
 
 
 _ENTROPY_LOSS_IMPLEMENTATIONS = {
     EntropyLossImplementation.torch: torch_entropy_loss_forward_backward,
     EntropyLossImplementation.fused: fused_entropy_loss_forward_backward,
-    EntropyLossImplementation.triton: triton_cross_entropy_forward_backward,
+    EntropyLossImplementation.triton: triton_entropy_loss_forward_backward,
 }
 
 
@@ -101,11 +74,11 @@ def entropy_loss_forward_backward(
     loss_mask: torch.Tensor | None,  # (*batch,)
     grad_output: float | None,
     group: torch.distributed.ProcessGroup | None = None,
-    implementation: EntropyLossImplementation = EntropyLossImplementation.fused,
     logits_scale_factor: float = 1.0,
     temperature: float = 1.0,
     target_format: TargetFormat = TargetFormat.labels,
     entropy_loss_type: EntropyLossType = EntropyLossType.cross_entropy,
+    use_triton: bool | None = None,
     **kwargs,
 ) -> tuple[torch.Tensor, torch.Tensor | None]:
     """
@@ -114,6 +87,7 @@ def entropy_loss_forward_backward(
     It doesn't have a tensor-parallel implementation, but can be computed in a sequence-tensor-parallel way,
     which is faster and has a relatively small memory overhead.
     """
+
     if target_format == TargetFormat.labels:
         Assert.eq(target.shape, logits.shape[:-1])
         Assert.eq(target.dtype, torch.int64)
@@ -123,7 +97,11 @@ def entropy_loss_forward_backward(
         assert target.dtype.is_floating_point, target.dtype
         if loss_mask is not None:
             Assert.eq(loss_mask.shape, logits.shape[:-1])
-    return _ENTROPY_LOSS_IMPLEMENTATIONS[implementation](
+    return (
+        triton_entropy_loss_forward_backward
+        if TritonConfig.enabled(logits.device, use_triton)
+        else fused_entropy_loss_forward_backward
+    )(
         logits,
         target,
         loss_mask,
diff --git a/tests/conftest.py b/tests/conftest.py
index 4f7d7bad0..23fc58b16 100644
--- a/tests/conftest.py
+++ b/tests/conftest.py
@@ -279,3 +279,8 @@ def pytest_xdist_make_scheduler(config, log):
     # Always use grouped load balancing to handle dependencies, and make it work with `-n`.
     assert config.getvalue("dist") == "load"
     return xdist.scheduler.LoadGroupScheduling(config, log)
+
+
+@pytest.fixture(scope="session")
+def testing_device() -> torch.device:
+    return torch.device("cuda" if torch.cuda.is_available() else "cpu")
diff --git a/tests/functional/test_functional.py b/tests/functional/test_functional.py
index 6471a516f..7980f05bf 100644
--- a/tests/functional/test_functional.py
+++ b/tests/functional/test_functional.py
@@ -2,6 +2,7 @@
 import torch
 
 from fast_llm.functional.config import ActivationType, MLPRecomputeLevel
+from fast_llm.functional.triton import triton_available
 from fast_llm.functional.triton.mlp import mlp_autograd, mlp_autograd_looped, torch_mlp_activation
 from fast_llm.functional.triton.sparse_copy import get_sparse_map
 from fast_llm.utils import Assert
@@ -19,12 +20,12 @@ def _get_target_log_probability_for_spans(log_probabilities: torch.Tensor, spans
 @pytest.mark.parametrize(
     "activation", [ActivationType.gelu, ActivationType.silu, ActivationType.relu, ActivationType.squared_relu]
 )
-def test_mlp_recomputation(gated, activation):
-    device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
-    tokens = 1024
-    hidden_size = 2048
-    intermediate_size = 4096
-    std = 1 / 64
+def test_mlp_recomputation(gated, activation, testing_device):
+    device = torch.device(testing_device)
+    tokens = 64
+    hidden_size = 128
+    intermediate_size = 256
+    std = 1 / 16
     input_ = torch.randn(tokens, hidden_size, device=device, requires_grad=True)
     output_grad = torch.randn(tokens, hidden_size, device=device, requires_grad=True)
     weight_1 = torch.normal(0, std, (intermediate_size * (gated + 1), hidden_size), device=device, requires_grad=True)
@@ -53,7 +54,20 @@ def test_mlp_recomputation(gated, activation):
             param.grad = None
             param.grad_buffer = torch.empty_like(param)
             param.param_grad_is_zero = True
-        output = mlp_autograd(input_, None, *params, gated, activation, None, False, True, recompute_level, True)
+        output = mlp_autograd(
+            input_,
+            None,
+            *params,
+            gated,
+            activation,
+            None,
+            False,
+            True,
+            recompute_level,
+            True,
+            None,
+            triton_available and torch.cuda.is_available(),
+        )
         output.backward(output_grad)
         if i == 0:
             Assert.rms_close(output, output_ref, 1e-5)
@@ -74,8 +88,8 @@ def test_mlp_recomputation(gated, activation):
 # Takes ~6s, much more if it needs to compile, reducing the hidden size doesn't help.
 @pytest.mark.slow
 @pytest.mark.skip("Dropless MoE is broken")
-def test_dropless_mlp():
-    device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+def test_dropless_mlp(testing_device):
+    device = torch.device(testing_device)
     num_experts = 4
     experts_per_token = 4
     tokens = 256
diff --git a/tests/functional/test_sparse_matmul.py b/tests/functional/test_sparse_matmul.py
index 899dad967..0ebf9c5a5 100644
--- a/tests/functional/test_sparse_matmul.py
+++ b/tests/functional/test_sparse_matmul.py
@@ -12,7 +12,7 @@
     output_sparse_matmul,
 )
 from fast_llm.utils import Assert
-from tests.utils.utils import requires_cuda
+from tests.utils.utils import requires_triton
 
 
 @dataclasses.dataclass
@@ -46,12 +46,11 @@ def sparse_dim_expanded(self) -> int:
     def num_experts(self) -> int:
         return len(self.expert_begins)
 
-    @functools.cached_property
-    def sparse_map(self) -> SparseMap:
+    def get_sparse_map(self, device: torch.device) -> SparseMap:
         return SparseMap(
             num_experts=self.num_experts,
-            expert_ends=torch.tensor(self.expert_ends, device="cuda"),
-            expert_pad_begins=torch.tensor(self.expert_pad_begins, device="cuda"),
+            expert_ends=torch.tensor(self.expert_ends, device=device),
+            expert_pad_begins=torch.tensor(self.expert_pad_begins, device=device),
             num_rows=self.expert_ends[-1],
             # Not needed
             sparse_rows=None,
@@ -60,8 +59,8 @@ def sparse_map(self) -> SparseMap:
             num_experts_per_token=None,
         )
 
-    def normal(self, dim_0: int, dim_1: int) -> torch.Tensor:
-        return torch.normal(0, self.std, (dim_0, dim_1), device="cuda")
+    def normal(self, dim_0: int, dim_1: int, device: torch.device) -> torch.Tensor:
+        return torch.normal(0, self.std, (dim_0, dim_1), device=device)
 
 
 _SPARSE_TEST_DATAS = (
@@ -80,28 +79,28 @@ def normal(self, dim_0: int, dim_1: int) -> torch.Tensor:
 )
 
 
-@requires_cuda
+@requires_triton
 @pytest.mark.slow
 @pytest.mark.parametrize("sparse_test_data", _SPARSE_TEST_DATAS)
-def test_dense_matmul(sparse_test_data):
-    lhs = sparse_test_data.normal(sparse_test_data.token_dim, sparse_test_data.dense_dim)
-    rhs = sparse_test_data.normal(sparse_test_data.dense_dim, sparse_test_data.sparse_dim)
+def test_dense_matmul(sparse_test_data, testing_device):
+    lhs = sparse_test_data.normal(sparse_test_data.token_dim, sparse_test_data.dense_dim, testing_device)
+    rhs = sparse_test_data.normal(sparse_test_data.dense_dim, sparse_test_data.sparse_dim, testing_device)
 
     output = dense_matmul(lhs, rhs)
     output_ref = torch.matmul(lhs, rhs)
     Assert.rms_close(output, output_ref, 1e-3)
 
 
-@requires_cuda
+@requires_triton
 @pytest.mark.slow
 @pytest.mark.parametrize("sparse_test_data", _SPARSE_TEST_DATAS)
-def test_output_sparse_matmul(sparse_test_data):
-    lhs = sparse_test_data.normal(sparse_test_data.token_dim, sparse_test_data.dense_dim)
-    rhs = sparse_test_data.normal(sparse_test_data.dense_dim, sparse_test_data.sparse_dim_expanded)
+def test_output_sparse_matmul(sparse_test_data, testing_device):
+    lhs = sparse_test_data.normal(sparse_test_data.token_dim, sparse_test_data.dense_dim, testing_device)
+    rhs = sparse_test_data.normal(sparse_test_data.dense_dim, sparse_test_data.sparse_dim_expanded, testing_device)
 
     # Randomly initialize the output to ensure padded values have no effect.
-    out = sparse_test_data.normal(sparse_test_data.token_dim, sparse_test_data.sparse_dim)
-    output = output_sparse_matmul(lhs, rhs, sparse_test_data.sparse_map, out)
+    out = sparse_test_data.normal(sparse_test_data.token_dim, sparse_test_data.sparse_dim, testing_device)
+    output = output_sparse_matmul(lhs, rhs, sparse_test_data.get_sparse_map(testing_device), out)
 
     output_ref = torch.zeros_like(output)
     for i in range(sparse_test_data.num_experts):
@@ -114,14 +113,14 @@ def test_output_sparse_matmul(sparse_test_data):
     Assert.rms_close(output, output_ref, 1e-3)
 
 
-@requires_cuda
+@requires_triton
 @pytest.mark.slow
 @pytest.mark.parametrize("sparse_test_data", _SPARSE_TEST_DATAS)
-def test_input_inner_sparse_matmul(sparse_test_data):
-    lhs = sparse_test_data.normal(sparse_test_data.token_dim, sparse_test_data.sparse_dim)
-    rhs = sparse_test_data.normal(sparse_test_data.sparse_dim_expanded, sparse_test_data.dense_dim)
+def test_input_inner_sparse_matmul(sparse_test_data, testing_device):
+    lhs = sparse_test_data.normal(sparse_test_data.token_dim, sparse_test_data.sparse_dim, testing_device)
+    rhs = sparse_test_data.normal(sparse_test_data.sparse_dim_expanded, sparse_test_data.dense_dim, testing_device)
 
-    output = input_inner_sparse_matmul(lhs, rhs, sparse_test_data.sparse_map)
+    output = input_inner_sparse_matmul(lhs, rhs, sparse_test_data.get_sparse_map(testing_device))
 
     output_ref = torch.zeros_like(output)
     for i in range(sparse_test_data.num_experts):
@@ -134,14 +133,14 @@ def test_input_inner_sparse_matmul(sparse_test_data):
     Assert.rms_close(output, output_ref, 1e-3)
 
 
-@requires_cuda
+@requires_triton
 @pytest.mark.slow
 @pytest.mark.parametrize("sparse_test_data", _SPARSE_TEST_DATAS)
-def test_input_row_sparse_matmul(sparse_test_data):
-    lhs = sparse_test_data.normal(sparse_test_data.sparse_dim, sparse_test_data.token_dim)
-    rhs = sparse_test_data.normal(sparse_test_data.token_dim, sparse_test_data.dense_dim)
+def test_input_row_sparse_matmul(sparse_test_data, testing_device):
+    lhs = sparse_test_data.normal(sparse_test_data.sparse_dim, sparse_test_data.token_dim, testing_device)
+    rhs = sparse_test_data.normal(sparse_test_data.token_dim, sparse_test_data.dense_dim, testing_device)
 
-    output = input_row_sparse_matmul(lhs, rhs, sparse_test_data.sparse_map)
+    output = input_row_sparse_matmul(lhs, rhs, sparse_test_data.get_sparse_map(testing_device))
 
     output_ref = torch.zeros_like(output)
     for i in range(sparse_test_data.num_experts):
diff --git a/tests/functional/test_triton_kernels.py b/tests/functional/test_triton_kernels.py
index 79817bb03..2886ab14e 100644
--- a/tests/functional/test_triton_kernels.py
+++ b/tests/functional/test_triton_kernels.py
@@ -2,7 +2,7 @@
 import torch
 
 from fast_llm.engine.config_utils.tensor_dim import TensorDim
-from fast_llm.functional.config import MAX_DROPLESS_BLOCK_SIZE_ROW, ActivationType, TritonConfig
+from fast_llm.functional.config import MAX_DROPLESS_BLOCK_SIZE_ROW, ActivationType
 from fast_llm.functional.triton.adam import triton_adam
 from fast_llm.functional.triton.mlp import (
     torch_mlp_activation,
@@ -25,71 +25,66 @@
     rotary_embeddings_real,
 )
 from fast_llm.utils import Assert, rms_diff
-from tests.utils.utils import requires_cuda
+from tests.utils.utils import requires_cuda, requires_triton
 
 
-@requires_cuda
-def test_triton_fill():
-    assert TritonConfig.TRITON_ENABLED
-    x = torch.randn(425, 549, dtype=torch.bfloat16, device="cuda")
-    triton_fill(x, 32)
+@requires_triton
+def test_triton_fill(testing_device):
+    x = torch.randn(425, 549, dtype=torch.float16, device=testing_device)
+    triton_fill(x, 32, use_triton=True)
     assert x.min().item() == x.max().item() == 32
 
 
-@requires_cuda
-def test_triton_copy():
-    assert TritonConfig.TRITON_ENABLED
-    x = torch.randn(7563, dtype=torch.bfloat16, device="cuda")
+@requires_triton
+def test_triton_copy(testing_device):
+    x = torch.randn(7563, dtype=torch.float32, device=testing_device).to(torch.float16)
     x1 = x.clone()
     y = torch.zeros_like(x)
     Assert.all_different(x, y)
-    triton_copy(x, y)
+    triton_copy(x, y, use_triton=True)
     Assert.all_equal(x, y)
     Assert.all_equal(x, x1)
 
 
-@requires_cuda
-def test_triton_copy_cast():
-    assert TritonConfig.TRITON_ENABLED
-    x = torch.randn(7563, dtype=torch.bfloat16, device="cuda")
+@requires_triton
+def test_triton_copy_cast(testing_device):
+    x = torch.randn(7563, dtype=torch.float32, device=testing_device).to(torch.float16)
     x1 = x.clone()
     y = torch.zeros_like(x, dtype=torch.float32)
     Assert.all_different(x.float(), y)
-    triton_copy(x, y)
+    triton_copy(x, y, use_triton=True)
     Assert.rms_close(x, y, 1e-4)
     Assert.all_equal(x, x1)
 
 
-@requires_cuda
-def test_triton_add():
-    assert TritonConfig.TRITON_ENABLED
-    x = torch.randn(8934, dtype=torch.float32, device="cuda")
+@requires_triton
+def test_triton_add(testing_device):
+    x = torch.randn(8934, dtype=torch.float32, device=testing_device)
     x1 = x.clone()
     y = torch.zeros_like(x)
     y1 = y.clone()
     Assert.all_different(x, y)
-    z = triton_add(x, y)
+    z = triton_add(x, y, use_triton=True)
     z1 = x1 + y1
     Assert.rms_close(z, z1, 1e-5)
     Assert.all_equal(x, x1)
     Assert.all_equal(y, y1)
 
 
-@requires_cuda
+@requires_triton
 @pytest.mark.parametrize(
     ("batch_size", "sequence_length", "num_heads", "head_size"),
-    [(4, 1024, 8, 128), (1, 32, 1, 16), (2, 2048, 2, 192), (3, 519, 7, 134), (2, 100000, 2, 4)],
+    [(4, 32, 2, 16), (1, 32, 1, 16), (2, 64, 2, 96), (3, 59, 7, 22)],
 )
-def test_triton_rotary(batch_size, sequence_length, num_heads, head_size):
-    assert TritonConfig.TRITON_ENABLED
-    x = torch.randn(batch_size, sequence_length, num_heads, head_size, dtype=torch.float32, device="cuda")
+def test_triton_rotary(batch_size, sequence_length, num_heads, head_size, testing_device):
+    x = torch.randn(batch_size, sequence_length, num_heads, head_size, dtype=torch.float32, device=testing_device)
     frequencies = (
         DefaultRotaryConfig()
         .get_layer(TensorDim("", head_size))
         ._get_frequencies(
             sequence_length,
             head_size,
-            device="cuda",
+            device=testing_device,
         )
     )
 
@@ -110,15 +105,14 @@ def test_triton_rotary(batch_size, sequence_length, num_heads, head_size):
     Assert.rms_close(y_real, y_triton, 1e-4)
 
 
-@requires_cuda
+@requires_triton
 @pytest.mark.parametrize("has_bias", [True, False])
 @pytest.mark.parametrize("zero_centered", [True, False])
-def test_triton_normalization(has_bias, zero_centered):
-    assert TritonConfig.TRITON_ENABLED
-    input_ = torch.randn(4096, 1024, device="cuda", requires_grad=True)
+def test_triton_normalization(has_bias, zero_centered, testing_device):
+    input_ = torch.randn(32, 128, device=testing_device, requires_grad=True)
     output_grad = torch.randn_like(input_)
 
-    weight = torch.randn(1024, device="cuda", requires_grad=True)
+    weight = torch.randn(128, device=testing_device, requires_grad=True)
     weight.grad_buffer = torch.empty_like(weight)
     weight.param_grad_is_zero = True
 
@@ -160,7 +154,7 @@ def test_triton_normalization(has_bias, zero_centered):
         Assert.rms_close(bias_grad0, bias.grad, 1e-3)
 
 
-@requires_cuda
+@requires_triton
 @pytest.mark.parametrize("gated", [True, False])
 @pytest.mark.parametrize(
     "activation",
@@ -173,10 +167,9 @@ def test_triton_normalization(has_bias, zero_centered):
     ],
 )
 @pytest.mark.parametrize("recompute", [True, False])
-def test_triton_mlp_activation(gated, activation, recompute):
-    assert TritonConfig.TRITON_ENABLED
-    input_ = torch.randn(1024, 4096 * (2 if gated else 1), device="cuda", requires_grad=True)
-    output_grad = torch.randn(1024, 4096, device="cuda")
+def test_triton_mlp_activation(gated, activation, recompute, testing_device):
+    input_ = torch.randn(32, 128 * (2 if gated else 1), device=testing_device, requires_grad=True)
+    output_grad = torch.randn(32, 128, device=testing_device)
 
     output1, context = triton_mlp_activation_forward(input_, gated, activation)
     input_grad1, output3 = triton_mlp_activation_backward(output_grad, context, recompute)
@@ -190,10 +183,9 @@ def test_triton_mlp_activation(gated, activation, recompute):
         Assert.rms_close(output1, output3, 1e-5)
 
 
-@requires_cuda
-def test_triton_adam():
-    assert TritonConfig.TRITON_ENABLED
-    params = torch.randn(4576427, dtype=torch.float32, device="cuda")
+@requires_triton
+def test_triton_adam(testing_device):
+    params = torch.randn(45764, dtype=torch.float32, device=testing_device)
     grads = torch.randn_like(params)
     exp_avgs = torch.randn_like(params)
     exp_avg_sqs = torch.randn_like(params).abs()
@@ -248,13 +240,14 @@ def compare(i, j, fn, arg):
     compare(0, 4, Assert.eq, 0)
 
 
+# TODO: Failing with triton interpreter
 @requires_cuda
 @pytest.mark.parametrize(
     ("num_rows_dense", "num_experts", "num_experts_per_token"),
     [(2048, 8, 2), (2048, 6, 2), (2048, 8, 8), (256, 8, 2), (5627, 8, 2)],
 )
-def test_triton_sparse_map(num_rows_dense, num_experts, num_experts_per_token):
-    logits = torch.randn((num_rows_dense, num_experts), device="cuda")
+def test_triton_sparse_map(num_rows_dense, num_experts, num_experts_per_token, testing_device):
+    logits = torch.randn((num_rows_dense, num_experts), device=testing_device)
     _, top_experts = torch.topk(logits, num_experts_per_token, dim=-1)
 
     sparse_map_triton = get_sparse_map(top_experts, num_experts, use_triton=True)
diff --git a/tests/layers/test_lm_losses.py b/tests/layers/test_lm_losses.py
index e54197204..9ca78d64e 100644
--- a/tests/layers/test_lm_losses.py
+++ b/tests/layers/test_lm_losses.py
@@ -9,10 +9,11 @@
 from fast_llm.engine.config_utils import data_type
 from fast_llm.engine.config_utils.data_type import DataType
 from fast_llm.engine.distributed.config import DistributedBackend
-from fast_llm.functional.config import EntropyLossImplementation, EntropyLossType, TargetFormat, TritonConfig
+from fast_llm.functional.config import EntropyLossType, TargetFormat
+from fast_llm.functional.entropy_loss import fused_entropy_loss_forward_backward, torch_entropy_loss_forward_backward
 from fast_llm.functional.triton import triton_available
+from fast_llm.functional.triton.cross_entropy import triton_entropy_loss_forward_backward
 from fast_llm.layers.language_model.loss.dpo import dpo_loss
-from fast_llm.layers.language_model.loss.entropy_loss import entropy_loss_forward_backward
 from fast_llm.layers.language_model.loss.loss import loss_forward_backward
 from fast_llm.layers.language_model.loss.z_loss import z_loss, z_loss_forward_backward
 from fast_llm.utils import Assert
@@ -104,8 +105,10 @@ def reference_dpo_loss(
     return -torch.nn.functional.logsigmoid(beta * (pi_logratios - ref_logratios)).mean()
 
 
-_BATCH_SHAPES = ((64,), (16, 8))
+# _BATCH_SHAPES = ((64,), (16, 8))
+_BATCH_SHAPES = ((1,),)
 _LOSS_PARAMETERS = (
+    (8, 1.0, 1.0, False, DataType.float32, None),  # Simple
     (500, 1.0, 1.0, False, DataType.float32, None),  # Simple
     (256, 1.0, 1.0, False, DataType.float32, None),  # Power of 2
     (500, None, 1.0, False, DataType.float32, None),  # No grad
@@ -131,13 +134,13 @@ def _test_entropy_loss(
     group=None,
 ):
     if target_format == TargetFormat.labels and entropy_loss_type == EntropyLossType.reverse_kl:
-        pytest.skip(reason="Not implemented")
+        pytest.skip(reason="Reverse KL loss not implemented for target labels")
     # TODO: Test tensor-parallel implementation.
     logits, target, loss_mask = _get_lm_loss_inputs(num_columns, loss_masking, target_format, batch_shape, dtype)
     local_logits = split_op(logits, group, -1).contiguous()
     local_target = target if target_format == TargetFormat.labels else split_op(target, group, -1).contiguous()
     # Torch serves as the reference implementation.
-    out_ref, grad_ref = entropy_loss_forward_backward(
+    out_ref, grad_ref = torch_entropy_loss_forward_backward(
         logits=logits,
         target=target,
         loss_mask=loss_mask,
@@ -145,9 +148,8 @@ def _test_entropy_loss(
         logits_scale_factor=logits_scale_factor,
         target_format=target_format,
         entropy_loss_type=entropy_loss_type,
-        implementation=EntropyLossImplementation.torch,
     )
-    out_fused, grad_fused = entropy_loss_forward_backward(
+    out_fused, grad_fused = fused_entropy_loss_forward_backward(
         logits=local_logits,
         target=local_target,
         loss_mask=loss_mask,
@@ -156,7 +158,6 @@ def _test_entropy_loss(
         logits_scale_factor=logits_scale_factor,
         target_format=target_format,
         entropy_loss_type=entropy_loss_type,
-        implementation=EntropyLossImplementation.fused,
     )
     _compare_losses_and_grads(
         out_fused,
@@ -168,11 +169,9 @@ def _test_entropy_loss(
         group=group,
     )
 
-    if entropy_loss_type == EntropyLossType.reverse_kl or not triton_available:
-        # Triton implementation only supports cross-entropy.
+    if not triton_available:
         return
-    assert TritonConfig.TRITON_ENABLED
-    out_triton, grad_triton = entropy_loss_forward_backward(
+    out_triton, grad_triton = triton_entropy_loss_forward_backward(
         logits=local_logits,
         target=local_target,
         loss_mask=loss_mask,
@@ -180,11 +179,18 @@ def _test_entropy_loss(
         logits_scale_factor=logits_scale_factor,
         target_format=target_format,
         entropy_loss_type=entropy_loss_type,
-        implementation=EntropyLossImplementation.triton,
         group=group,
         block_size=block_size,
     )
-    _compare_losses_and_grads(out_triton, out_ref, grad_output is not None, grad_triton, grad_ref, group=group)
+    _compare_losses_and_grads(
+        out_triton,
+        out_ref,
+        grad_output is not None,
+        grad_triton,
+        grad_ref,
+        threshold=1e-5 if target_format != TargetFormat.probabilities and data_type == DataType.float32 else 1e-4,
+        group=group,
+    )
 
 
 def _test_z_loss(batch_shape, num_columns, grad_output, logits_scale_factor, loss_masking, dtype, group=None):
diff --git a/tests/layers/test_rotary.py b/tests/layers/test_rotary.py
index 112c88a66..f34b9a35d 100644
--- a/tests/layers/test_rotary.py
+++ b/tests/layers/test_rotary.py
@@ -8,24 +8,27 @@
 from fast_llm.utils import Assert
 
 
-def test_rotary_2d():
+def test_rotary_2d(testing_device):
     """
     Compare Fast-LLM's implementation of 2d rotary embeddings with Pixtral.
     """
     head_dim = 16
     num_heads = 8
-    device = "cuda" if torch.cuda.is_available() else "cpu"
 
     patch_positions = torch.tensor(
         [[h, w] for h in range(4) for w in range(4)],
         dtype=torch.int64,
-        device=device,
+        device=testing_device,
     )
-    query = torch.empty(2, len(patch_positions), num_heads, head_dim, dtype=torch.float32, device=device).normal_()
+    query = torch.empty(
+        2, len(patch_positions), num_heads, head_dim, dtype=torch.float32, device=testing_device
+    ).normal_()
     key = torch.empty_like(query).normal_()
 
     pixtral_config = transformers.PixtralVisionConfig(hidden_size=head_dim * num_heads, num_attention_heads=num_heads)
-    pixtral_rotary = transformers.models.pixtral.modeling_pixtral.PixtralRotaryEmbedding(pixtral_config).to(device)
+    pixtral_rotary = transformers.models.pixtral.modeling_pixtral.PixtralRotaryEmbedding(pixtral_config).to(
+        testing_device
+    )
     # Convert patch positions (h, w) to Pixtral's linear position IDs
     # Pixtral expects: position_id = h * max_patches_per_side + w
     position_ids = (
@@ -37,7 +40,7 @@ def test_rotary_2d():
     )
 
     fast_llm_rotary = Rotary2DConfig().get_layer(TensorDim("head_dim", head_dim))
-    kwargs = {VisionKwargs.patch_positions: patch_positions, AttentionKwargs.device: device}
+    kwargs = {VisionKwargs.patch_positions: patch_positions, AttentionKwargs.device: testing_device}
     fast_llm_rotary.preprocess(kwargs)
     output_fast_llm_query, output_fast_llm_key = fast_llm_rotary.forward(query, key, kwargs)
 
diff --git a/tests/layers/test_ssm.py b/tests/layers/test_ssm.py
index 777214aae..c12fe52e9 100644
--- a/tests/layers/test_ssm.py
+++ b/tests/layers/test_ssm.py
@@ -85,7 +85,7 @@ def _compare_mixers(
 @pytest.mark.slow
 # Arguments ('seq_idx',) not implemented for torch implementation of 1d convolution.
 @pytest.mark.skipif(not transformers.utils.import_utils.is_causal_conv1d_available(), reason="GDN deps missing")
-def test_gdn():
+def test_gdn(testing_device):
     dtype = torch.bfloat16
 
     NUM_V_HEADS = 4
@@ -103,7 +103,7 @@ def test_gdn():
 
     hf_layer = (
         Apriel2GatedDeltaNet(HIDDEN_SIZE, {**config_common, "norm_eps": 1e-5}, layer_idx=0, dtype=dtype)
-        .to(device="cuda" if torch.cuda.is_available() else "cpu", dtype=dtype)
+        .to(device=testing_device, dtype=dtype)
         .eval()
     )
     fast_llm_config = GatedDeltaNetConfig.from_dict(config_common, {"normalization": {"epsilon": 1e-5}})
diff --git a/tests/models/test_checkpoint.py b/tests/models/test_checkpoint.py
index 955fa534c..1da264739 100644
--- a/tests/models/test_checkpoint.py
+++ b/tests/models/test_checkpoint.py
@@ -231,14 +231,14 @@ def do_load_and_compare_checkpoints(
 @pytest.mark.depends_on(on=["test_conversion[{model_testing_config}]"])
 @pytest.mark.model_testing_group(ModelTestingGroup.convert)
 def test_load_pretrained(
-    model_testing_config, run_test_script_base_path, get_convert_path, load_and_compare_checkpoints
+    model_testing_config, run_test_script_base_path, get_convert_path, load_and_compare_checkpoints, testing_device
 ):
     # Test that loadind a pretrained model from either converted checkpoint always yields the exact same model.
     reference_config = model_testing_config.model_config_class.from_dict(
         yaml.safe_load(get_convert_path().parents[1].joinpath("config.yaml").open("r"))["model"]
     )
     reference_shard = safetensors.torch.load_file(
-        get_convert_path() / "rank_0.safetensors", device="cuda" if torch.cuda.is_available() else "cpu"
+        get_convert_path() / "rank_0.safetensors", device=str(testing_device)
     )[_WEIGHT_SHARD_SAVE_NAME]
     load_and_compare_checkpoints(
         FastLLMCheckpointFormat,
@@ -304,8 +304,7 @@ def test_load_pretrained(
 
 @pytest.mark.depends_on(on=["test_load_pretrained[{model_testing_config}]"])
 @pytest.mark.model_testing_group(ModelTestingGroup.convert)
-def test_huggingface_model(model_testing_config, get_convert_path):
-    device = "cuda" if torch.cuda.is_available() else "cpu"
+def test_huggingface_model(model_testing_config, get_convert_path, testing_device):
     distributed_update = {("distributed", "use_cuda"): torch.cuda.is_available()}
     if model_testing_config.checkpoint_format is None:
         return
@@ -331,11 +330,11 @@ def test_huggingface_model(model_testing_config, get_convert_path):
         384,
         size=(4, 100),
         dtype=torch.int64,
-        device=device,
+        device=testing_device,
     )
     kwargs = {}
     if model_testing_config.model_type == "multimodal":
-        kwargs["pixel_values"] = torch.rand([6, 3, 20, 20]).to(device)
+        kwargs["pixel_values"] = torch.rand([6, 3, 20, 20]).to(testing_device)
         kwargs["image_sizes"] = torch.tensor(
             [
                 [20, 20],  # Full image, 25 patches
@@ -373,7 +372,7 @@ def test_huggingface_model(model_testing_config, get_convert_path):
     errors = []
     model_as_hf = (
         model_testing_config.auto_model_class.from_pretrained(hf_path, trust_remote_code=True)
-        .to("cuda" if torch.cuda.is_available() else "cpu")
+        .to(testing_device)
         .eval()
     )
     for name, model in zip(
diff --git a/tests/test_loss_mask.py b/tests/test_loss_mask.py
index ca92f0b74..8c131dfa7 100644
--- a/tests/test_loss_mask.py
+++ b/tests/test_loss_mask.py
@@ -15,7 +15,7 @@
 from fast_llm.engine.distributed.config import PhaseType
 from fast_llm.layers.language_model.config import LanguageModelKwargs
 from fast_llm.models.gpt.config import GPTBatchConfig, GPTModelConfig
-from tests.utils.utils import get_base_model, requires_cuda
+from tests.utils.utils import get_base_model
 
 
 def create_test_batch(
@@ -46,7 +46,7 @@ def get_minimal_model():
                 "embeddings": {"vocab_size": 1000},
                 "hidden_size": 64,
             },
-            "distributed": {},
+            "distributed": {"use_cuda": torch.cuda.is_available()},
         },
     )
     model, distributed = get_base_model(config)
@@ -82,7 +82,6 @@ def run_preprocess_batch(model, distributed_config, batch: LanguageModelBatch, p
     )
 
 
-@requires_cuda
 class TestLossMaskIntegration:
     """
     Integration tests for loss_mask computation in preprocess_batch.
diff --git a/tests/utils/model_configs.py b/tests/utils/model_configs.py
index 5a6aff831..a4f28d14c 100644
--- a/tests/utils/model_configs.py
+++ b/tests/utils/model_configs.py
@@ -211,6 +211,8 @@ def update_and_add_testing_config(
                 "save": True,
                 "show": False,
             },
+            # Triton kernels are extremely slow in interpreter mode.
+            "enable_triton_kernels": torch.cuda.is_available(),
             # Uncomment to enable model debug logging:
             # "model_debug_level": _LOG_LEVEL,
         },
diff --git a/tests/utils/utils.py b/tests/utils/utils.py
index f0ca20db8..da293e1df 100644
--- a/tests/utils/utils.py
+++ b/tests/utils/utils.py
@@ -9,11 +9,13 @@
 from fast_llm.engine.distributed.distributed import Distributed
 from fast_llm.engine.multi_stage.config import FastLLMModelConfig, StageConfig
 from fast_llm.engine.multi_stage.stage import Stage
+from fast_llm.functional.triton import triton_available
 from tests.utils.global_variables import TEST_RESULTS_PATH
 
 logger = logging.getLogger(__name__)
 
 requires_cuda = pytest.mark.skipif(not torch.cuda.is_available(), reason="CUDA is not available")
+requires_triton = pytest.mark.skipif(not triton_available, reason="Triton is not available")
 
 
 @pytest.fixture(scope="session")

From d99511b2ee83a7d41c0c68ebead9e08e6ddb5343 Mon Sep 17 00:00:00 2001
From: Joel Lamy-Poirier <joel.lamy-poirier@servicenow.com>
Date: Fri, 6 Feb 2026 04:21:09 -0500
Subject: [PATCH 13/37] rename

---
 .../functional/triton/{cross_entropy.py => entropy_loss.py}     | 0
 fast_llm/layers/language_model/loss/entropy_loss.py             | 2 +-
 tests/layers/test_lm_losses.py                                  | 2 +-
 3 files changed, 2 insertions(+), 2 deletions(-)
 rename fast_llm/functional/triton/{cross_entropy.py => entropy_loss.py} (100%)

diff --git a/fast_llm/functional/triton/cross_entropy.py b/fast_llm/functional/triton/entropy_loss.py
similarity index 100%
rename from fast_llm/functional/triton/cross_entropy.py
rename to fast_llm/functional/triton/entropy_loss.py
diff --git a/fast_llm/layers/language_model/loss/entropy_loss.py b/fast_llm/layers/language_model/loss/entropy_loss.py
index 25e0c19b6..f81e4e4ba 100644
--- a/fast_llm/layers/language_model/loss/entropy_loss.py
+++ b/fast_llm/layers/language_model/loss/entropy_loss.py
@@ -4,7 +4,7 @@
 
 from fast_llm.functional.config import EntropyLossImplementation, EntropyLossType, TargetFormat, TritonConfig
 from fast_llm.functional.entropy_loss import fused_entropy_loss_forward_backward, torch_entropy_loss_forward_backward
-from fast_llm.functional.triton.cross_entropy import triton_entropy_loss_forward_backward
+from fast_llm.functional.triton.entropy_loss import triton_entropy_loss_forward_backward
 from fast_llm.layers.language_model.loss.config import (
     LanguageModelDistillationLossConfig,
     LanguageModelLabelEntropyLossConfig,
diff --git a/tests/layers/test_lm_losses.py b/tests/layers/test_lm_losses.py
index 9ca78d64e..2e8786919 100644
--- a/tests/layers/test_lm_losses.py
+++ b/tests/layers/test_lm_losses.py
@@ -12,7 +12,7 @@
 from fast_llm.functional.config import EntropyLossType, TargetFormat
 from fast_llm.functional.entropy_loss import fused_entropy_loss_forward_backward, torch_entropy_loss_forward_backward
 from fast_llm.functional.triton import triton_available
-from fast_llm.functional.triton.cross_entropy import triton_entropy_loss_forward_backward
+from fast_llm.functional.triton.entropy_loss import triton_entropy_loss_forward_backward
 from fast_llm.layers.language_model.loss.dpo import dpo_loss
 from fast_llm.layers.language_model.loss.loss import loss_forward_backward
 from fast_llm.layers.language_model.loss.z_loss import z_loss, z_loss_forward_backward

From 094ac85615c81c30305bf142a5fed05ea4a43c41 Mon Sep 17 00:00:00 2001
From: Joel Lamy-Poirier <joel.lamy-poirier@servicenow.com>
Date: Fri, 6 Feb 2026 05:12:54 -0500
Subject: [PATCH 14/37] Z loss

---
 fast_llm/functional/triton/__init__.py        |   1 +
 fast_llm/functional/triton/entropy_loss.py    |   9 +-
 fast_llm/functional/triton/z_loss.py          | 138 ++++++++++++++++++
 fast_llm/layers/language_model/loss/z_loss.py |   8 +-
 tests/layers/test_lm_losses.py                |  31 +++-
 5 files changed, 176 insertions(+), 11 deletions(-)
 create mode 100644 fast_llm/functional/triton/z_loss.py

diff --git a/fast_llm/functional/triton/__init__.py b/fast_llm/functional/triton/__init__.py
index 61ead1c60..f5b394bfb 100644
--- a/fast_llm/functional/triton/__init__.py
+++ b/fast_llm/functional/triton/__init__.py
@@ -38,3 +38,4 @@ def tl_full(shape, value, dtype):
 
 else:
     tl_arange = tl.arange
+    tl_full = tl.full
diff --git a/fast_llm/functional/triton/entropy_loss.py b/fast_llm/functional/triton/entropy_loss.py
index 335048770..ad826f3e6 100644
--- a/fast_llm/functional/triton/entropy_loss.py
+++ b/fast_llm/functional/triton/entropy_loss.py
@@ -636,7 +636,7 @@ def _rescale_sum_exp_logits(
     return sum_exp_logits * (local_max_logits - max_logits).exp()
 
 
-def _parallel_sum_exp_logits(
+def parallel_sum_exp_logits(
     sum_exp_logits: torch.Tensor,
     local_max_logits: torch.Tensor,
     group: torch.distributed.ProcessGroup | None,
@@ -758,7 +758,7 @@ def triton_entropy_loss_forward_backward(
                 col_min=n_cols * group.rank(),
                 **kwargs,
             )
-            max_logits, sum_exp_logits = _parallel_sum_exp_logits(sum_exp_logits, local_max_logits, group)
+            max_logits, sum_exp_logits = parallel_sum_exp_logits(sum_exp_logits, local_max_logits, group)
             torch.distributed.all_reduce(partial_losses, op=torch.distributed.ReduceOp.SUM, group=group)
             loss = _cross_entropy_loss_from_labels(partial_losses, target, sum_exp_logits, max_logits)
             if grad_output is not None:
@@ -827,11 +827,10 @@ def triton_entropy_loss_forward_backward(
                 target_logits_scale_factor=logits_scale_factor / temperature,
                 from_logits=target_format == TargetFormat.logits,
                 **kwargs,
-                **backward_kwargs,
             )
-            max_logits, sum_exp_logits = _parallel_sum_exp_logits(sum_exp_logits, local_max_logits, group)
+            max_logits, sum_exp_logits = parallel_sum_exp_logits(sum_exp_logits, local_max_logits, group)
             if target_format == TargetFormat.logits:
-                target_max_logits, target_sum_exp_logits = _parallel_sum_exp_logits(
+                target_max_logits, target_sum_exp_logits = parallel_sum_exp_logits(
                     target_sum_exp_logits, local_target_max_logits, group
                 )
                 if entropy_loss_type != EntropyLossType.reverse_kl:
diff --git a/fast_llm/functional/triton/z_loss.py b/fast_llm/functional/triton/z_loss.py
new file mode 100644
index 000000000..298c3c2a7
--- /dev/null
+++ b/fast_llm/functional/triton/z_loss.py
@@ -0,0 +1,138 @@
+import torch
+
+from fast_llm.functional.triton import tl, tl_arange, tl_constexpr, triton, triton_jit
+from fast_llm.functional.triton.entropy_loss import (
+    parallel_sum_exp_logits,
+    triton_cross_entropy_forward_from_labels_parallel_kernel,
+    triton_fused_softmax_base,
+)
+
+
+@triton_jit()
+def triton_z_loss_forward_backward_kernel(
+    logits_ptr,
+    loss_mask_ptr,
+    n_cols: tl_constexpr,
+    logits_stride_0: tl_constexpr,
+    block_size: tl_constexpr,
+    losses_ptr=None,
+    max_logits_ptr=None,
+    sum_exp_logits_ptr=None,
+    grad_losses=None,
+    grad_logits_ptr=None,
+    grad_logits_stride_0: tl_constexpr = None,
+    logits_scale_factor: tl_constexpr = 1.0,
+):
+    # TODO: Int64 ptr only if needed?
+    block_idx = tl.program_id(0).to(tl.int64)
+    logits_ptr = logits_ptr + block_idx * logits_stride_0
+
+    if loss_mask_ptr is not None and tl.load(loss_mask_ptr + block_idx) == 0:
+        # This entry is masked, ignore.
+        if losses_ptr is not None:
+            tl.store(losses_ptr + block_idx, 0)
+        if grad_losses is not None:
+            for col_offset in tl.static_range(0, n_cols, block_size):
+                col_offsets = tl_arange(int(col_offset), int(col_offset + block_size))
+                tl.store(
+                    grad_logits_ptr + block_idx * grad_logits_stride_0 + col_offsets, 0, mask=col_offsets < n_cols
+                )
+        return
+
+    if max_logits_ptr is None or sum_exp_logits_ptr is None:
+        exp_logits, sum_exp_logits, max_logits, col_offsets, mask = triton_fused_softmax_base(
+            logits_ptr, n_cols=n_cols, block_size=block_size, logits_scale_factor=logits_scale_factor
+        )
+    else:
+        max_logits = tl.load(max_logits_ptr + block_idx)
+        sum_exp_logits = tl.load(sum_exp_logits_ptr + block_idx)
+
+    log_sum_exp_logits = tl.log(sum_exp_logits) + max_logits
+
+    if losses_ptr is not None:
+        tl.store(losses_ptr + block_idx, log_sum_exp_logits * log_sum_exp_logits)
+
+    if grad_losses is not None:
+        if logits_scale_factor != 1.0:
+            grad_losses *= logits_scale_factor
+        grad_losses *= 2 * log_sum_exp_logits / sum_exp_logits
+        # Run in reverse order to maximize input and cache reuse.
+        col_offset_start: tl.constexpr = (n_cols - 1) // block_size * block_size
+        for col_offset in tl.static_range(col_offset_start, -1, -block_size):
+            if max_logits_ptr is not None or sum_exp_logits_ptr is not None or col_offset != col_offset_start:
+                col_offsets = tl_arange(col_offset, col_offset + block_size)
+                mask = col_offsets < n_cols
+                logits = tl.load(logits_ptr + col_offsets, mask=mask, other=-float("inf")).to(tl.float32)
+                if logits_scale_factor != 1.0:
+                    logits *= logits_scale_factor
+                exp_logits = tl.exp(logits - max_logits)
+            tl.store(
+                grad_logits_ptr + block_idx * grad_logits_stride_0 + col_offsets, exp_logits * grad_losses, mask=mask
+            )
+
+
+def triton_z_loss_forward_backward(
+    logits: torch.Tensor,
+    loss_mask: torch.Tensor | None,
+    grad_output: float | None,
+    group: torch.distributed.ProcessGroup | None = None,
+    logits_scale_factor: float = 1.0,
+    block_size: int | None = None,
+    num_warps: int | None = None,
+) -> tuple[torch.Tensor, torch.Tensor]:
+    assert logits.is_contiguous()
+    if loss_mask is not None:
+        assert loss_mask.is_contiguous()
+    n_rows = logits.shape[:-1].numel()
+    n_cols = logits.size(-1)
+    if block_size is None:
+        block_size = min(triton.next_power_of_2(n_cols), 32768)
+    if num_warps is None:
+        num_warps = 4 if block_size < 2048 else (8 if block_size < 8192 else 16)
+    kwargs = {
+        "logits_stride_0": logits.stride(-2),
+        "n_cols": n_cols,
+        "logits_scale_factor": logits_scale_factor,
+        "block_size": block_size,
+        "num_warps": num_warps,
+    }
+    grad_logits = None if grad_output is None else torch.empty_like(logits)
+    backward_kwargs = (
+        {}
+        if grad_output is None
+        else {
+            "grad_logits_ptr": grad_logits,
+            "grad_losses": grad_output / n_rows,
+            "grad_logits_stride_0": grad_logits.stride(-2),
+        }
+    )
+    losses = torch.empty(n_rows, dtype=torch.float, device=logits.device)
+    if group is None:
+        triton_z_loss_forward_backward_kernel[(n_rows,)](
+            logits,
+            loss_mask_ptr=loss_mask,
+            losses_ptr=losses,
+            **kwargs,
+            **backward_kwargs,
+        )
+    else:
+        local_max_logits = torch.empty(n_rows, dtype=torch.float, device=logits.device)
+        sum_exp_logits = torch.empty_like(local_max_logits)
+        triton_cross_entropy_forward_from_labels_parallel_kernel[(n_rows,)](
+            logits,
+            None,
+            max_logits_ptr=local_max_logits,
+            sum_exp_logits_ptr=sum_exp_logits,
+            **kwargs,
+        )
+        max_logits, sum_exp_logits = parallel_sum_exp_logits(sum_exp_logits, local_max_logits, group)
+        triton_z_loss_forward_backward_kernel[(n_rows,)](
+            logits,
+            loss_mask_ptr=loss_mask,
+            losses_ptr=losses,
+            max_logits_ptr=max_logits,
+            sum_exp_logits_ptr=sum_exp_logits,
+            **kwargs,
+            **backward_kwargs,
+        )
+    return losses.mean(), grad_logits
diff --git a/fast_llm/layers/language_model/loss/z_loss.py b/fast_llm/layers/language_model/loss/z_loss.py
index 82b8d5318..0e675d338 100644
--- a/fast_llm/layers/language_model/loss/z_loss.py
+++ b/fast_llm/layers/language_model/loss/z_loss.py
@@ -2,7 +2,9 @@
 
 import torch
 
+from fast_llm.functional.config import TritonConfig
 from fast_llm.functional.entropy_loss import fused_softmax_base
+from fast_llm.functional.triton.z_loss import triton_z_loss_forward_backward
 from fast_llm.layers.language_model.loss.config import LanguageModelZLossConfig
 from fast_llm.layers.language_model.loss.loss import LanguageModelLoss
 
@@ -20,7 +22,9 @@ def forward_backward(
         kwargs: dict[str, typing.Any],
         split_index: int = 0,
     ) -> "tuple[torch.Tensor, torch.Tensor | None]":
-        return z_loss_forward_backward(
+        return (
+            triton_z_loss_forward_backward if TritonConfig.enabled(logits.device) else fused_z_loss_forward_backward
+        )(
             logits,
             self._get_loss_mask(kwargs, split_index),
             grad_output=self._get_grad_output(kwargs),
@@ -44,7 +48,7 @@ def z_loss(
 
 
 @torch.compile
-def z_loss_forward_backward(
+def fused_z_loss_forward_backward(
     logits: torch.Tensor,
     loss_mask: torch.Tensor | None,
     grad_output: float | None,
diff --git a/tests/layers/test_lm_losses.py b/tests/layers/test_lm_losses.py
index 2e8786919..2f04a38ee 100644
--- a/tests/layers/test_lm_losses.py
+++ b/tests/layers/test_lm_losses.py
@@ -13,9 +13,10 @@
 from fast_llm.functional.entropy_loss import fused_entropy_loss_forward_backward, torch_entropy_loss_forward_backward
 from fast_llm.functional.triton import triton_available
 from fast_llm.functional.triton.entropy_loss import triton_entropy_loss_forward_backward
+from fast_llm.functional.triton.z_loss import triton_z_loss_forward_backward
 from fast_llm.layers.language_model.loss.dpo import dpo_loss
 from fast_llm.layers.language_model.loss.loss import loss_forward_backward
-from fast_llm.layers.language_model.loss.z_loss import z_loss, z_loss_forward_backward
+from fast_llm.layers.language_model.loss.z_loss import fused_z_loss_forward_backward, z_loss
 from fast_llm.utils import Assert
 from tests.utils.dataset import get_random_spans
 from tests.utils.subtest import DistributedTestContext
@@ -193,7 +194,9 @@ def _test_entropy_loss(
     )
 
 
-def _test_z_loss(batch_shape, num_columns, grad_output, logits_scale_factor, loss_masking, dtype, group=None):
+def _test_z_loss(
+    batch_shape, num_columns, grad_output, logits_scale_factor, loss_masking, dtype, block_size, group=None
+):
     logits, target, loss_mask = _get_lm_loss_inputs(num_columns, loss_masking, TargetFormat.logits, batch_shape, dtype)
     out_ref, grad_ref = loss_forward_backward(
         grad_output,
@@ -202,7 +205,7 @@ def _test_z_loss(batch_shape, num_columns, grad_output, logits_scale_factor, los
         loss_mask,
         logits_scale_factor=logits_scale_factor,
     )
-    out_fused, grad_fused = z_loss_forward_backward(
+    out_fused, grad_fused = fused_z_loss_forward_backward(
         split_op(logits, group, -1),
         loss_mask,
         grad_output,
@@ -218,6 +221,25 @@ def _test_z_loss(batch_shape, num_columns, grad_output, logits_scale_factor, los
         threshold=1e-5 if data_type == DataType.float32 else 1e-4,
         group=group,
     )
+    if not triton_available:
+        return
+    out_triton, grad_triton = triton_z_loss_forward_backward(
+        split_op(logits, group, -1),
+        loss_mask,
+        grad_output,
+        group=group,
+        logits_scale_factor=logits_scale_factor,
+        block_size=block_size,
+    )
+    _compare_losses_and_grads(
+        out_triton,
+        out_ref,
+        grad_output is not None,
+        grad_triton,
+        grad_ref,
+        threshold=1e-5 if data_type == DataType.float32 else 1e-4,
+        group=group,
+    )
 
 
 @pytest.mark.slow
@@ -257,7 +279,7 @@ def test_entropy_loss(
     ("num_columns", "grad_output", "logits_scale_factor", "loss_masking", "dtype", "block_size"), _LOSS_PARAMETERS
 )
 def test_z_loss(batch_shape, num_columns, grad_output, logits_scale_factor, loss_masking, dtype, block_size):
-    _test_z_loss(batch_shape, num_columns, grad_output, logits_scale_factor, loss_masking, dtype)
+    _test_z_loss(batch_shape, num_columns, grad_output, logits_scale_factor, loss_masking, dtype, block_size)
 
 
 @pytest.mark.skip(reason="DPO loss is broken")
@@ -309,6 +331,7 @@ def _run_lm_loss_distributed(test_context: DistributedTestContext, base_path: pa
                         logits_scale_factor,
                         loss_masking,
                         dtype,
+                        block_size,
                         test_context.group,
                     )
 

From 35fd220a7661746884db1cc2a2f0655d9c8788b1 Mon Sep 17 00:00:00 2001
From: Joel Lamy-Poirier <joel.lamy-poirier@servicenow.com>
Date: Fri, 6 Feb 2026 05:14:16 -0500
Subject: [PATCH 15/37] fix

---
 fast_llm/layers/language_model/loss/config.py | 6 ++++++
 fast_llm/layers/language_model/loss/z_loss.py | 4 +++-
 2 files changed, 9 insertions(+), 1 deletion(-)

diff --git a/fast_llm/layers/language_model/loss/config.py b/fast_llm/layers/language_model/loss/config.py
index d636d6af7..970003122 100644
--- a/fast_llm/layers/language_model/loss/config.py
+++ b/fast_llm/layers/language_model/loss/config.py
@@ -160,6 +160,12 @@ class LanguageModelZLossConfig(LanguageModelLossConfig):
 
     _abstract: typing.ClassVar[bool] = False
 
+    use_triton: bool | None = Field(
+        default=None,
+        desc="Enable triton implementation. Default: use if available.",
+        hint=FieldHint.expert,
+    )
+
     @property
     def loss_class(self) -> "type[LanguageModelZLoss]":
         from fast_llm.layers.language_model.loss.z_loss import LanguageModelZLoss
diff --git a/fast_llm/layers/language_model/loss/z_loss.py b/fast_llm/layers/language_model/loss/z_loss.py
index 0e675d338..1df54f7a5 100644
--- a/fast_llm/layers/language_model/loss/z_loss.py
+++ b/fast_llm/layers/language_model/loss/z_loss.py
@@ -23,7 +23,9 @@ def forward_backward(
         split_index: int = 0,
     ) -> "tuple[torch.Tensor, torch.Tensor | None]":
         return (
-            triton_z_loss_forward_backward if TritonConfig.enabled(logits.device) else fused_z_loss_forward_backward
+            triton_z_loss_forward_backward
+            if TritonConfig.enabled(logits.device, self._config.use_triton)
+            else fused_z_loss_forward_backward
         )(
             logits,
             self._get_loss_mask(kwargs, split_index),

From 9133fcd0967a882871675c22570ac0b464eebfa4 Mon Sep 17 00:00:00 2001
From: Joel Lamy-Poirier <joel.lamy-poirier@servicenow.com>
Date: Sat, 7 Feb 2026 07:11:37 -0500
Subject: [PATCH 16/37] Grad accumulation

---
 fast_llm/functional/entropy_loss.py           | 17 ++--
 fast_llm/functional/triton/entropy_loss.py    | 97 ++++++++++---------
 fast_llm/functional/triton/z_loss.py          | 28 +++---
 fast_llm/layers/language_model/head.py        |  6 +-
 fast_llm/layers/language_model/loss/config.py | 15 +++
 fast_llm/layers/language_model/loss/dpo.py    | 10 +-
 .../language_model/loss/entropy_loss.py       | 77 +++------------
 fast_llm/layers/language_model/loss/loss.py   |  1 +
 fast_llm/layers/language_model/loss/z_loss.py | 15 ++-
 tests/layers/test_lm_losses.py                | 86 +++++++++++-----
 10 files changed, 190 insertions(+), 162 deletions(-)

diff --git a/fast_llm/functional/entropy_loss.py b/fast_llm/functional/entropy_loss.py
index 4d39b3a77..65dcee32b 100644
--- a/fast_llm/functional/entropy_loss.py
+++ b/fast_llm/functional/entropy_loss.py
@@ -278,12 +278,13 @@ def fused_entropy_loss_forward_backward(
     logits: torch.Tensor,  # (*batch, vocab)
     target: torch.Tensor,  # (*batch,) or (*batch, vocab)
     loss_mask: torch.Tensor | None,  # (*batch,)
-    grad_output: float | None,
-    logits_scale_factor: float,
-    target_format: TargetFormat,
-    entropy_loss_type: EntropyLossType,
-    group: ProcessGroup | None = None,
+    grad_logits: torch.Tensor | None = None,
+    grad_output: float | None = None,
+    group: torch.distributed.ProcessGroup | None = None,
+    logits_scale_factor: float = 1.0,
     temperature: float = 1.0,
+    target_format: TargetFormat = TargetFormat.labels,
+    entropy_loss_type: EntropyLossType = EntropyLossType.cross_entropy,
 ) -> tuple[torch.Tensor, torch.Tensor | None]:
     """
     A fused implementation of cross-entropy with torch compile.
@@ -335,5 +336,9 @@ def fused_entropy_loss_forward_backward(
         if loss_mask is not None:
             grad = grad * loss_mask.unsqueeze(-1)
         grad = grad.to(logits.dtype)
+        if grad_logits is None:
+            grad_logits = grad
+        else:
+            grad_logits.add_(grad)
 
-    return loss, grad
+    return loss, grad_logits
diff --git a/fast_llm/functional/triton/entropy_loss.py b/fast_llm/functional/triton/entropy_loss.py
index ad826f3e6..3d9937439 100644
--- a/fast_llm/functional/triton/entropy_loss.py
+++ b/fast_llm/functional/triton/entropy_loss.py
@@ -111,11 +111,27 @@ def triton_cross_entropy_forward_backward_from_labels_kernel(
     grad_logits_stride_0: tl_constexpr = None,
     col_min: tl_constexpr = 0,
     logits_scale_factor: tl_constexpr = 1.0,
+    accumulate: tl_constexpr = False,
 ):
     # TODO: Int64 ptr only if needed?
     block_idx = tl.program_id(0).to(tl.int64)
     logits_ptr = logits_ptr + block_idx * logits_stride_0
 
+    label_idx = tl.load(labels_ptr + block_idx)
+    if label_idx < 0:
+        # This entry is masked, ignore.
+        if losses_ptr is not None:
+            tl.store(losses_ptr + block_idx, 0)
+        if grad_losses is not None and not accumulate:
+            for col_offset in tl.static_range(0, n_cols, block_size):
+                col_offsets = tl_arange(int(col_offset), int(col_offset + block_size))
+                tl.store(
+                    grad_logits_ptr + block_idx * grad_logits_stride_0 + col_offsets, 0, mask=col_offsets < n_cols
+                )
+        return
+
+    label_idx -= col_min
+
     if max_logits_ptr is None or sum_exp_logits_ptr is None:
         exp_logits, sum_exp_logits, max_logits, col_offsets, mask = triton_fused_softmax_base(
             logits_ptr, n_cols=n_cols, block_size=block_size, logits_scale_factor=logits_scale_factor
@@ -124,8 +140,6 @@ def triton_cross_entropy_forward_backward_from_labels_kernel(
         max_logits = tl.load(max_logits_ptr + block_idx)
         sum_exp_logits = tl.load(sum_exp_logits_ptr + block_idx)
 
-    label_idx = tl.load(labels_ptr + block_idx) - col_min
-
     if losses_ptr is not None:
         if label_idx < 0 or label_idx >= n_cols:
             # Loss mask
@@ -138,9 +152,7 @@ def triton_cross_entropy_forward_backward_from_labels_kernel(
         tl.store(losses_ptr + block_idx, loss)
 
     if grad_losses is not None:
-        if label_idx < -col_min:
-            grad_losses = 0.0
-        elif logits_scale_factor != 1.0:
+        if logits_scale_factor != 1.0:
             grad_losses *= logits_scale_factor
         # Run in reverse order to maximize input and cache reuse.
         col_offset_start: tl.constexpr = (n_cols - 1) // block_size * block_size
@@ -158,9 +170,11 @@ def triton_cross_entropy_forward_backward_from_labels_kernel(
                 grad_logits = grad_base
             else:
                 grad_logits = tl.where(col_offsets == label_idx, grad_base - 1.0, grad_base)
-            tl.store(
-                grad_logits_ptr + block_idx * grad_logits_stride_0 + col_offsets, grad_logits * grad_losses, mask=mask
-            )
+            grad_logits *= grad_losses
+            grad_logits_col_ptr = grad_logits_ptr + block_idx * grad_logits_stride_0 + col_offsets
+            if accumulate:
+                grad_logits += tl.load(grad_logits_col_ptr, mask=mask)
+            tl.store(grad_logits_col_ptr, grad_logits, mask=mask)
 
 
 @triton_jit()
@@ -315,6 +329,7 @@ def triton_cross_entropy_from_distribution_forward_backward_kernel(
     logits_scale_factor: tl_constexpr = 1.0,
     target_logits_scale_factor: tl_constexpr = 1.0,
     return_kl_loss: tl.constexpr = False,
+    accumulate: tl_constexpr = False,
 ):
     # TODO: Int64 ptr only if needed?
     block_idx = tl.program_id(0).to(tl.int64)
@@ -325,7 +340,7 @@ def triton_cross_entropy_from_distribution_forward_backward_kernel(
         # This entry is masked, ignore.
         if losses_ptr is not None:
             tl.store(losses_ptr + block_idx, 0)
-        if grad_losses is not None:
+        if grad_losses is not None and not accumulate:
             for col_offset in tl.static_range(0, n_cols, block_size):
                 col_offsets = tl_arange(int(col_offset), int(col_offset + block_size))
                 tl.store(
@@ -391,7 +406,10 @@ def triton_cross_entropy_from_distribution_forward_backward_kernel(
                     target = tl.load(target_ptr + col_offsets, mask=mask, other=-float("inf")).to(tl.float32)
 
             grad_logits = grad_losses * (exp_logits / sum_exp_logits - target)
-            tl.store(grad_logits_ptr + block_idx * grad_logits_stride_0 + col_offsets, grad_logits, mask=mask)
+            grad_logits_col_ptr = grad_logits_ptr + block_idx * grad_logits_stride_0 + col_offsets
+            if accumulate:
+                grad_logits += tl.load(grad_logits_col_ptr, mask=mask)
+            tl.store(grad_logits_col_ptr, grad_logits, mask=mask)
 
 
 @triton_jit()
@@ -424,9 +442,6 @@ def triton_reverse_kl_forward_from_distribution(
             sum_exp_logits=sum_exp_logits,
             logits_scale_factor=logits_scale_factor,
         )
-
-        # print("sum_exp_logits", sum_exp_logits)
-        # print("max_logits", new_max_logits)
         if from_logits:
             # log_target excludes the log_sum_exp term to be added later
             log_target, _, target_sum_exp_logits, target_new_max_logits, _, _ = triton_fused_softmax_iter_base(
@@ -441,20 +456,11 @@ def triton_reverse_kl_forward_from_distribution(
                 mask=mask,
             )
             target = log_target
-            # print("target_sum_exp_logits", target_sum_exp_logits)
-            # print("new_max_logits", target_new_max_logits)
         else:
             target = tl.load(target_ptr + col_offsets, mask=mask, other=-float("inf")).to(tl.float32)
             log_target = tl.log(target)
         if col_offset == 0:
-            # predicted_log_probability=logits - new_max_logits - tl.log(sum_exp_logits)
-            # target_log_probability=log_target-target_new_max_logits-tl.log(target_sum_exp_logits)
-            # print("predicted_log_probability", predicted_log_probability)
-            # print("target_log_probability", target_log_probability)
-            # print("IUWH", exp_logits * (predicted_log_probability-target_log_probability)/sum_exp_logits)
             loss = tl.sum(tl.where(mask, exp_logits * (logits - log_target), 0))
-            # print("max_logits", new_max_logits)
-            # print("partial_losses", exp_logits * (logits-log_target))
 
         else:
             loss = loss * tl.exp(max_logits - new_max_logits) + tl.sum(
@@ -464,7 +470,6 @@ def triton_reverse_kl_forward_from_distribution(
         if from_logits:
             target_max_logits = target_new_max_logits
 
-    # print("partial_loss", loss)
     if not return_partial_loss:
         loss = loss / sum_exp_logits - tl.log(sum_exp_logits) - max_logits
         if from_logits:
@@ -547,6 +552,7 @@ def triton_reverse_kl_forward_backward_kernel_from_distribution(
     grad_logits_stride_0: tl_constexpr = None,
     logits_scale_factor: tl_constexpr = 1.0,
     target_logits_scale_factor: tl_constexpr = 1.0,
+    accumulate: tl_constexpr = False,
 ):
     # TODO: Int64 ptr only if needed?
     block_idx = tl.program_id(0).to(tl.int64)
@@ -557,7 +563,7 @@ def triton_reverse_kl_forward_backward_kernel_from_distribution(
         # This entry is masked, ignore.
         if losses_ptr is not None:
             tl.store(losses_ptr + block_idx, 0)
-        if grad_losses is not None:
+        if grad_losses is not None and not accumulate:
             for col_offset in tl.static_range(0, n_cols, block_size):
                 col_offsets = tl_arange(int(col_offset), int(col_offset + block_size))
                 tl.store(
@@ -584,17 +590,9 @@ def triton_reverse_kl_forward_backward_kernel_from_distribution(
             target_max_logits = tl.load(target_max_logits_ptr + block_idx)
             target_sum_exp_logits = tl.load(target_sum_exp_logits_ptr + block_idx)
 
-    # print("sum_exp_logits", sum_exp_logits)
-    # print("max_logits", max_logits)
-
-    # if from_logits:
-    #    print("target_sum_exp_logits", target_sum_exp_logits)
-    #    print("target_max_logits", target_max_logits)
-
     if losses_ptr is not None:
         if partial_losses_ptr is not None:
             loss = tl.load(partial_losses_ptr + block_idx)
-            # print("partial_loss", loss)
             loss = loss / sum_exp_logits - tl.log(sum_exp_logits) - max_logits
             if from_logits:
                 loss = loss + tl.log(target_sum_exp_logits) + target_max_logits
@@ -624,7 +622,10 @@ def triton_reverse_kl_forward_backward_kernel_from_distribution(
             grad_logits = (
                 grad_losses * (predicted_log_probability - target_log_probability - loss) * predicted_probability
             )
-            tl.store(grad_logits_ptr + block_idx * grad_logits_stride_0 + col_offsets, grad_logits, mask=mask)
+            grad_logits_col_ptr = grad_logits_ptr + block_idx * grad_logits_stride_0 + col_offsets
+            if accumulate:
+                grad_logits += tl.load(grad_logits_col_ptr, mask=mask)
+            tl.store(grad_logits_col_ptr, grad_logits, mask=mask)
 
 
 @torch.compile
@@ -687,15 +688,16 @@ def _cross_entropy_loss_from_distribution(
 
 
 def triton_entropy_loss_forward_backward(
-    logits: torch.Tensor,
-    target: torch.Tensor,
-    loss_mask: torch.Tensor | None,
-    grad_output: float | None,
-    logits_scale_factor: float,
-    target_format: TargetFormat,
-    entropy_loss_type: EntropyLossType,
+    logits: torch.Tensor,  # (*batch, vocab)
+    target: torch.Tensor,  # (*batch,) or (*batch, vocab)
+    loss_mask: torch.Tensor | None,  # (*batch,)
+    grad_logits: torch.Tensor | None = None,
+    grad_output: float | None = None,
     group: torch.distributed.ProcessGroup | None = None,
+    logits_scale_factor: float = 1.0,
     temperature: float = 1.0,
+    target_format: TargetFormat = TargetFormat.labels,
+    entropy_loss_type: EntropyLossType = EntropyLossType.cross_entropy,
     block_size: int | None = None,
     num_warps: int | None = None,
 ) -> tuple[torch.Tensor, torch.Tensor]:
@@ -721,18 +723,17 @@ def triton_entropy_loss_forward_backward(
         "block_size": block_size,
         "num_warps": num_warps,
     }
-
-    # TODO: Safe to do inplace?
-    grad_logits = None if grad_output is None else torch.empty_like(logits)
-    backward_kwargs = (
-        {}
-        if grad_output is None
-        else {
+    if grad_output is None:
+        backward_kwargs = {}
+    else:
+        accumulate = grad_logits is not None
+        grad_logits = torch.empty_like(logits) if grad_logits is None else grad_logits
+        backward_kwargs = {
             "grad_logits_ptr": grad_logits,
             "grad_losses": grad_output / n_rows,
             "grad_logits_stride_0": grad_logits.stride(-2),
+            "accumulate": accumulate,
         }
-    )
     if target_format == TargetFormat.labels:
         assert entropy_loss_type != EntropyLossType.reverse_kl
         if group is None:
diff --git a/fast_llm/functional/triton/z_loss.py b/fast_llm/functional/triton/z_loss.py
index 298c3c2a7..cb3220131 100644
--- a/fast_llm/functional/triton/z_loss.py
+++ b/fast_llm/functional/triton/z_loss.py
@@ -22,6 +22,7 @@ def triton_z_loss_forward_backward_kernel(
     grad_logits_ptr=None,
     grad_logits_stride_0: tl_constexpr = None,
     logits_scale_factor: tl_constexpr = 1.0,
+    accumulate: tl_constexpr = False,
 ):
     # TODO: Int64 ptr only if needed?
     block_idx = tl.program_id(0).to(tl.int64)
@@ -31,7 +32,7 @@ def triton_z_loss_forward_backward_kernel(
         # This entry is masked, ignore.
         if losses_ptr is not None:
             tl.store(losses_ptr + block_idx, 0)
-        if grad_losses is not None:
+        if grad_losses is not None and not accumulate:
             for col_offset in tl.static_range(0, n_cols, block_size):
                 col_offsets = tl_arange(int(col_offset), int(col_offset + block_size))
                 tl.store(
@@ -66,15 +67,18 @@ def triton_z_loss_forward_backward_kernel(
                 if logits_scale_factor != 1.0:
                     logits *= logits_scale_factor
                 exp_logits = tl.exp(logits - max_logits)
-            tl.store(
-                grad_logits_ptr + block_idx * grad_logits_stride_0 + col_offsets, exp_logits * grad_losses, mask=mask
-            )
+            grad_logits = exp_logits * grad_losses
+            grad_logits_col_ptr = grad_logits_ptr + block_idx * grad_logits_stride_0 + col_offsets
+            if accumulate:
+                grad_logits += tl.load(grad_logits_col_ptr, mask=mask)
+            tl.store(grad_logits_col_ptr, grad_logits, mask=mask)
 
 
 def triton_z_loss_forward_backward(
     logits: torch.Tensor,
     loss_mask: torch.Tensor | None,
-    grad_output: float | None,
+    grad_logits: torch.Tensor | None = None,
+    grad_output: float | None = None,
     group: torch.distributed.ProcessGroup | None = None,
     logits_scale_factor: float = 1.0,
     block_size: int | None = None,
@@ -96,16 +100,18 @@ def triton_z_loss_forward_backward(
         "block_size": block_size,
         "num_warps": num_warps,
     }
-    grad_logits = None if grad_output is None else torch.empty_like(logits)
-    backward_kwargs = (
-        {}
-        if grad_output is None
-        else {
+    if grad_output is None:
+        backward_kwargs = {}
+    else:
+        accumulate = grad_logits is not None
+        grad_logits = torch.empty_like(logits) if grad_logits is None else grad_logits
+
+        backward_kwargs = {
             "grad_logits_ptr": grad_logits,
             "grad_losses": grad_output / n_rows,
             "grad_logits_stride_0": grad_logits.stride(-2),
+            "accumulate": accumulate,
         }
-    )
     losses = torch.empty(n_rows, dtype=torch.float, device=logits.device)
     if group is None:
         triton_z_loss_forward_backward_kernel[(n_rows,)](
diff --git a/fast_llm/layers/language_model/head.py b/fast_llm/layers/language_model/head.py
index d9220d3e1..144074ca5 100644
--- a/fast_llm/layers/language_model/head.py
+++ b/fast_llm/layers/language_model/head.py
@@ -284,15 +284,13 @@ def _logits_loss_forward_backward_partial(
         losses, grad = {}, None
         for loss in self._losses:
             # losses are returned unscaled but the grads are already scaled
-            loss_value, grad_ = loss.forward_backward(
+            loss_value, grad = loss.forward_backward(
                 logits,
                 kwargs,
                 split_index,
+                grad,
             )
             losses[loss.name] = loss_value.detach()
-            if grad_ is not None:
-                # TODO: Accumulate grads in-place to reduce memory and compute overhead.
-                grad = grad_ if grad is None else grad + grad_
 
         return losses, output_parallel_linear_backward(grad, context) if self.training else None
 
diff --git a/fast_llm/layers/language_model/loss/config.py b/fast_llm/layers/language_model/loss/config.py
index 970003122..b6a2ef175 100644
--- a/fast_llm/layers/language_model/loss/config.py
+++ b/fast_llm/layers/language_model/loss/config.py
@@ -1,4 +1,5 @@
 import typing
+import warnings
 
 from fast_llm.config import Config, Field, FieldHint, check_field, config_class
 from fast_llm.engine.distributed.config import DistributedConfig
@@ -83,6 +84,13 @@ class LanguageModelLabelEntropyLossConfig(LanguageModelLossConfig):
         hint=FieldHint.expert,
     )
 
+    @classmethod
+    def _from_dict(cls, default: dict[str, typing.Any], strict: bool = True) -> typing.Self:
+        if "implementation" in default:
+            warnings.warn("`implementation` field is no longer supported for loss type `label`.")
+            del default["implementation"]
+        return super()._from_dict(default, strict)
+
     @property
     def loss_class(self) -> "type[LanguageModelLabelEntropyLoss]":
         from fast_llm.layers.language_model.loss.entropy_loss import LanguageModelLabelEntropyLoss
@@ -116,6 +124,13 @@ class LanguageModelDistillationLossConfig(LanguageModelLossConfig):
         hint=FieldHint.expert,
     )
 
+    @classmethod
+    def _from_dict(cls, default: dict[str, typing.Any], strict: bool = True) -> typing.Self:
+        if "implementation" in default:
+            warnings.warn("`implementation` field is no longer supported for loss type `distillation`.")
+            del default["implementation"]
+        return super()._from_dict(default, strict)
+
     @property
     def loss_class(self) -> "type[LanguageModelDistillationLoss]":
         from fast_llm.layers.language_model.loss.entropy_loss import LanguageModelDistillationLoss
diff --git a/fast_llm/layers/language_model/loss/dpo.py b/fast_llm/layers/language_model/loss/dpo.py
index 2194c6f86..177a681a4 100644
--- a/fast_llm/layers/language_model/loss/dpo.py
+++ b/fast_llm/layers/language_model/loss/dpo.py
@@ -23,12 +23,13 @@ def forward_backward(
         logits: "torch.Tensor",
         kwargs: dict[str, typing.Any],
         split_index: int = 0,
+        grad_logits: torch.Tensor | None = None,
     ) -> "tuple[torch.Tensor, torch.Tensor | None]":
 
         if self._get_loss_mask(kwargs, split_index) is not None:
             raise NotImplementedError()
 
-        return loss_forward_backward(
+        loss, grad = loss_forward_backward(
             self._get_grad_output(kwargs),
             dpo_loss,
             logits,
@@ -39,6 +40,13 @@ def forward_backward(
             self._config.beta,
         )
 
+        if grad is not None:
+            if grad_logits is None:
+                grad_logits = grad
+            else:
+                grad_logits.add_(grad)
+        return loss, grad_logits
+
 
 def dpo_loss(
     logits: torch.Tensor,
diff --git a/fast_llm/layers/language_model/loss/entropy_loss.py b/fast_llm/layers/language_model/loss/entropy_loss.py
index f81e4e4ba..537c7996d 100644
--- a/fast_llm/layers/language_model/loss/entropy_loss.py
+++ b/fast_llm/layers/language_model/loss/entropy_loss.py
@@ -2,15 +2,14 @@
 
 import torch
 
-from fast_llm.functional.config import EntropyLossImplementation, EntropyLossType, TargetFormat, TritonConfig
-from fast_llm.functional.entropy_loss import fused_entropy_loss_forward_backward, torch_entropy_loss_forward_backward
+from fast_llm.functional.config import TargetFormat, TritonConfig
+from fast_llm.functional.entropy_loss import fused_entropy_loss_forward_backward
 from fast_llm.functional.triton.entropy_loss import triton_entropy_loss_forward_backward
 from fast_llm.layers.language_model.loss.config import (
     LanguageModelDistillationLossConfig,
     LanguageModelLabelEntropyLossConfig,
 )
 from fast_llm.layers.language_model.loss.loss import LanguageModelLoss
-from fast_llm.utils import Assert
 
 
 class LanguageModelLabelEntropyLoss[ConfigType: LanguageModelLabelEntropyLossConfig](LanguageModelLoss[ConfigType]):
@@ -22,17 +21,22 @@ def forward_backward(
         logits: "torch.Tensor",
         kwargs: dict[str, typing.Any],
         split_index: int = 0,
+        grad_logits: torch.Tensor | None = None,
     ) -> "tuple[torch.Tensor, torch.Tensor | None]":
-        return entropy_loss_forward_backward(
+        return (
+            triton_entropy_loss_forward_backward
+            if TritonConfig.enabled(logits.device, self._config.use_triton)
+            else fused_entropy_loss_forward_backward
+        )(
             logits,
             self._get_labels(kwargs, split_index),
             None,  # Labels are already masked
+            grad_logits=grad_logits,
             grad_output=self._get_grad_output(kwargs),
             group=self._parallel_dim.group if self._vocab_parallel else None,
             logits_scale_factor=self._logits_scale_factor,
             target_format=TargetFormat.labels,
             entropy_loss_type=self._config.loss_type,
-            use_triton=self._config.use_triton,
         )
 
 
@@ -47,69 +51,20 @@ def forward_backward(
         logits: "torch.Tensor",
         kwargs: dict[str, typing.Any],
         split_index: int = 0,
+        grad_logits: torch.Tensor | None = None,
     ) -> "tuple[torch.Tensor, torch.Tensor | None]":
-        return entropy_loss_forward_backward(
+        return (
+            triton_entropy_loss_forward_backward
+            if TritonConfig.enabled(logits.device, self._config.use_triton)
+            else fused_entropy_loss_forward_backward
+        )(
             logits,
             self._get_reference_model_logits(self._config.reference_model, kwargs, split_index),
             self._get_loss_mask(kwargs, split_index),
             grad_output=self._get_grad_output(kwargs),
+            grad_logits=grad_logits,
             group=self._parallel_dim.group if self._vocab_parallel else None,
             logits_scale_factor=self._logits_scale_factor,
             target_format=TargetFormat.logits,
             entropy_loss_type=self._config.loss_type,
-            use_triton=self._config.use_triton,
         )
-
-
-_ENTROPY_LOSS_IMPLEMENTATIONS = {
-    EntropyLossImplementation.torch: torch_entropy_loss_forward_backward,
-    EntropyLossImplementation.fused: fused_entropy_loss_forward_backward,
-    EntropyLossImplementation.triton: triton_entropy_loss_forward_backward,
-}
-
-
-def entropy_loss_forward_backward(
-    logits: torch.Tensor,  # (*batch, vocab)
-    target: torch.Tensor,  # (*batch,) or (*batch, vocab)
-    loss_mask: torch.Tensor | None,  # (*batch,)
-    grad_output: float | None,
-    group: torch.distributed.ProcessGroup | None = None,
-    logits_scale_factor: float = 1.0,
-    temperature: float = 1.0,
-    target_format: TargetFormat = TargetFormat.labels,
-    entropy_loss_type: EntropyLossType = EntropyLossType.cross_entropy,
-    use_triton: bool | None = None,
-    **kwargs,
-) -> tuple[torch.Tensor, torch.Tensor | None]:
-    """
-    Select the appropriate implementation of cross-entropy.
-    The triton implementation from the triton submodule is the fastest and recommended one.
-    It doesn't have a tensor-parallel implementation, but can be computed in a sequence-tensor-parallel way,
-    which is faster and has a relatively small memory overhead.
-    """
-
-    if target_format == TargetFormat.labels:
-        Assert.eq(target.shape, logits.shape[:-1])
-        Assert.eq(target.dtype, torch.int64)
-        assert loss_mask is None
-    else:
-        Assert.eq(target.shape, logits.shape)
-        assert target.dtype.is_floating_point, target.dtype
-        if loss_mask is not None:
-            Assert.eq(loss_mask.shape, logits.shape[:-1])
-    return (
-        triton_entropy_loss_forward_backward
-        if TritonConfig.enabled(logits.device, use_triton)
-        else fused_entropy_loss_forward_backward
-    )(
-        logits,
-        target,
-        loss_mask,
-        grad_output,
-        logits_scale_factor,
-        target_format,
-        entropy_loss_type,
-        group,
-        temperature=temperature,
-        **kwargs,
-    )
diff --git a/fast_llm/layers/language_model/loss/loss.py b/fast_llm/layers/language_model/loss/loss.py
index 41e8942ac..766a5ed54 100644
--- a/fast_llm/layers/language_model/loss/loss.py
+++ b/fast_llm/layers/language_model/loss/loss.py
@@ -43,6 +43,7 @@ def forward_backward(
         logits: "torch.Tensor",
         kwargs: dict[str, typing.Any],
         split_index: int = 0,
+        grad_logits: torch.Tensor | None = None,
     ) -> "tuple[torch.Tensor, torch.Tensor | None]":
         pass
 
diff --git a/fast_llm/layers/language_model/loss/z_loss.py b/fast_llm/layers/language_model/loss/z_loss.py
index 1df54f7a5..c606e2d68 100644
--- a/fast_llm/layers/language_model/loss/z_loss.py
+++ b/fast_llm/layers/language_model/loss/z_loss.py
@@ -21,6 +21,7 @@ def forward_backward(
         logits: "torch.Tensor",
         kwargs: dict[str, typing.Any],
         split_index: int = 0,
+        grad_logits: torch.Tensor | None = None,
     ) -> "tuple[torch.Tensor, torch.Tensor | None]":
         return (
             triton_z_loss_forward_backward
@@ -32,6 +33,7 @@ def forward_backward(
             grad_output=self._get_grad_output(kwargs),
             group=self._parallel_dim.group if self._vocab_parallel else None,
             logits_scale_factor=self._logits_scale_factor,
+            grad_logits=grad_logits,
         )
 
 
@@ -53,7 +55,8 @@ def z_loss(
 def fused_z_loss_forward_backward(
     logits: torch.Tensor,
     loss_mask: torch.Tensor | None,
-    grad_output: float | None,
+    grad_logits: torch.Tensor | None = None,
+    grad_output: float | None = None,
     group: torch.distributed.ProcessGroup | None = None,
     logits_scale_factor: float = 1.0,
 ) -> tuple[torch.Tensor, torch.Tensor | None]:
@@ -70,12 +73,14 @@ def fused_z_loss_forward_backward(
         per_sample_loss = per_sample_loss * loss_mask
     loss = per_sample_loss.mean()
 
-    if grad_output is None:
-        grad = None
-    else:
+    if grad_output is not None:
         grad_base = 2 * grad_output * (log_sum_exp_logits / sum_exp_logits)
         if loss_mask is not None:
             grad_base = grad_base * loss_mask
         grad = (grad_base.unsqueeze(-1) * exp_logits).to(logits.dtype)
+        if grad_logits is None:
+            grad_logits = grad
+        else:
+            grad_logits.add_(grad)
 
-    return loss, grad
+    return loss, grad_logits
diff --git a/tests/layers/test_lm_losses.py b/tests/layers/test_lm_losses.py
index 2f04a38ee..eefe5fbb4 100644
--- a/tests/layers/test_lm_losses.py
+++ b/tests/layers/test_lm_losses.py
@@ -109,16 +109,16 @@ def reference_dpo_loss(
 # _BATCH_SHAPES = ((64,), (16, 8))
 _BATCH_SHAPES = ((1,),)
 _LOSS_PARAMETERS = (
-    (8, 1.0, 1.0, False, DataType.float32, None),  # Simple
-    (500, 1.0, 1.0, False, DataType.float32, None),  # Simple
-    (256, 1.0, 1.0, False, DataType.float32, None),  # Power of 2
-    (500, None, 1.0, False, DataType.float32, None),  # No grad
-    (500, 1.0, 4.0, False, DataType.float32, None),  # Loss scaling
-    (500, 4.0, 1.0, False, DataType.float32, None),  # Grad scaling
-    (500, 1.0, 1.0, True, DataType.float32, None),  # Loss masking
-    (500, 1.0, 1.0, False, DataType.float16, None),  # Fp16
-    (500, 1.0, 1.0, False, DataType.float32, 256),  # Looped
-    (1000, 2.0, 3.0, True, DataType.float16, 256),  # Hard
+    (500, 1.0, 1.0, False, DataType.float32, None, False),  # Simple
+    (256, 1.0, 1.0, False, DataType.float32, None, False),  # Power of 2
+    (500, None, 1.0, False, DataType.float32, None, False),  # No grad
+    (500, 1.0, 1.0, False, DataType.float32, None, True),  # Accumulate
+    (500, 1.0, 4.0, False, DataType.float32, None, False),  # Loss scaling
+    (500, 4.0, 1.0, False, DataType.float32, None, False),  # Grad scaling
+    (500, 1.0, 1.0, True, DataType.float32, None, False),  # Loss masking
+    (500, 1.0, 1.0, False, DataType.float16, None, False),  # Fp16
+    (500, 1.0, 1.0, False, DataType.float32, 256, False),  # Looped
+    (1000, 2.0, 3.0, True, DataType.float32, 256, True),  # Hard
 )
 
 
@@ -132,6 +132,7 @@ def _test_entropy_loss(
     entropy_loss_type,
     dtype,
     block_size,
+    accumulate,
     group=None,
 ):
     if target_format == TargetFormat.labels and entropy_loss_type == EntropyLossType.reverse_kl:
@@ -150,10 +151,15 @@ def _test_entropy_loss(
         target_format=target_format,
         entropy_loss_type=entropy_loss_type,
     )
+    if accumulate:
+        previous_grad = torch.randn_like(grad_ref)
+        grad_ref = grad_ref + previous_grad
+        local_previous_grad = split_op(previous_grad, group, -1).contiguous()
     out_fused, grad_fused = fused_entropy_loss_forward_backward(
         logits=local_logits,
         target=local_target,
         loss_mask=loss_mask,
+        grad_logits=local_previous_grad.clone() if accumulate else None,
         grad_output=grad_output,
         group=group,
         logits_scale_factor=logits_scale_factor,
@@ -176,6 +182,7 @@ def _test_entropy_loss(
         logits=local_logits,
         target=local_target,
         loss_mask=loss_mask,
+        grad_logits=local_previous_grad.clone() if accumulate else None,
         grad_output=grad_output,
         logits_scale_factor=logits_scale_factor,
         target_format=target_format,
@@ -195,20 +202,26 @@ def _test_entropy_loss(
 
 
 def _test_z_loss(
-    batch_shape, num_columns, grad_output, logits_scale_factor, loss_masking, dtype, block_size, group=None
+    batch_shape, num_columns, grad_output, logits_scale_factor, loss_masking, dtype, block_size, accumulate, group=None
 ):
     logits, target, loss_mask = _get_lm_loss_inputs(num_columns, loss_masking, TargetFormat.logits, batch_shape, dtype)
+    local_logits = split_op(logits, group, -1).contiguous()
     out_ref, grad_ref = loss_forward_backward(
         grad_output,
         z_loss,
         logits,
-        loss_mask,
+        loss_mask=loss_mask,
         logits_scale_factor=logits_scale_factor,
     )
+    if accumulate:
+        previous_grad = torch.randn_like(grad_ref)
+        grad_ref = grad_ref + previous_grad
+        local_previous_grad = split_op(previous_grad, group, -1).contiguous()
     out_fused, grad_fused = fused_z_loss_forward_backward(
-        split_op(logits, group, -1),
-        loss_mask,
-        grad_output,
+        logits=local_logits,
+        loss_mask=loss_mask,
+        grad_logits=local_previous_grad.clone() if accumulate else None,
+        grad_output=grad_output,
         group=group,
         logits_scale_factor=logits_scale_factor,
     )
@@ -224,9 +237,10 @@ def _test_z_loss(
     if not triton_available:
         return
     out_triton, grad_triton = triton_z_loss_forward_backward(
-        split_op(logits, group, -1),
-        loss_mask,
-        grad_output,
+        logits=local_logits,
+        loss_mask=loss_mask,
+        grad_logits=local_previous_grad.clone() if accumulate else None,
+        grad_output=grad_output,
         group=group,
         logits_scale_factor=logits_scale_factor,
         block_size=block_size,
@@ -245,7 +259,8 @@ def _test_z_loss(
 @pytest.mark.slow
 @pytest.mark.parametrize("batch_shape", _BATCH_SHAPES)
 @pytest.mark.parametrize(
-    ("num_columns", "grad_output", "logits_scale_factor", "loss_masking", "dtype", "block_size"), _LOSS_PARAMETERS
+    ("num_columns", "grad_output", "logits_scale_factor", "loss_masking", "dtype", "block_size", "accumulate"),
+    _LOSS_PARAMETERS,
 )
 @pytest.mark.parametrize("target_format", TargetFormat)
 @pytest.mark.parametrize("entropy_loss_type", EntropyLossType)
@@ -259,6 +274,7 @@ def test_entropy_loss(
     entropy_loss_type,
     dtype,
     block_size,
+    accumulate,
 ):
     _test_entropy_loss(
         batch_shape,
@@ -270,16 +286,22 @@ def test_entropy_loss(
         entropy_loss_type,
         dtype,
         block_size,
+        accumulate,
     )
 
 
 @pytest.mark.slow
 @pytest.mark.parametrize("batch_shape", _BATCH_SHAPES)
 @pytest.mark.parametrize(
-    ("num_columns", "grad_output", "logits_scale_factor", "loss_masking", "dtype", "block_size"), _LOSS_PARAMETERS
+    ("num_columns", "grad_output", "logits_scale_factor", "loss_masking", "dtype", "block_size", "accumulate"),
+    _LOSS_PARAMETERS,
 )
-def test_z_loss(batch_shape, num_columns, grad_output, logits_scale_factor, loss_masking, dtype, block_size):
-    _test_z_loss(batch_shape, num_columns, grad_output, logits_scale_factor, loss_masking, dtype, block_size)
+def test_z_loss(
+    batch_shape, num_columns, grad_output, logits_scale_factor, loss_masking, dtype, block_size, accumulate
+):
+    _test_z_loss(
+        batch_shape, num_columns, grad_output, logits_scale_factor, loss_masking, dtype, block_size, accumulate
+    )
 
 
 @pytest.mark.skip(reason="DPO loss is broken")
@@ -296,8 +318,16 @@ def test_dpo_loss():
 
 def _run_lm_loss_distributed(test_context: DistributedTestContext, base_path: pathlib.Path, seed: int):
     for batch_shape in _BATCH_SHAPES:
-        for num_columns, grad_output, logits_scale_factor, loss_masking, dtype, block_size in _LOSS_PARAMETERS:
-            suffix = f"{num_columns}-{grad_output}-{logits_scale_factor}-{loss_masking}-{dtype}-{block_size}-{"_".join([str(i) for i in batch_shape])}"
+        for (
+            num_columns,
+            grad_output,
+            logits_scale_factor,
+            loss_masking,
+            dtype,
+            block_size,
+            accumulate,
+        ) in _LOSS_PARAMETERS:
+            suffix = f"{num_columns}-{grad_output}-{logits_scale_factor}-{loss_masking}-{dtype}-{block_size}-{accumulate}-{"_".join([str(i) for i in batch_shape])}"
             # Entropy loss
             for entropy_loss_type in EntropyLossType:
                 for target_format in TargetFormat:
@@ -318,6 +348,7 @@ def _run_lm_loss_distributed(test_context: DistributedTestContext, base_path: pa
                                 entropy_loss_type,
                                 dtype,
                                 block_size,
+                                accumulate,
                                 test_context.group,
                             )
             # Z loss
@@ -332,6 +363,7 @@ def _run_lm_loss_distributed(test_context: DistributedTestContext, base_path: pa
                         loss_masking,
                         dtype,
                         block_size,
+                        accumulate,
                         test_context.group,
                     )
 
@@ -360,7 +392,8 @@ def test_run_lm_loss_distributed(run_parallel_script, result_path):
 @pytest.mark.depends_on(on=["test_lm_loss_distributed_dependency"])
 @pytest.mark.parametrize("batch_shape", _BATCH_SHAPES)
 @pytest.mark.parametrize(
-    ("num_columns", "grad_output", "logits_scale_factor", "loss_masking", "dtype", "block_size"), _LOSS_PARAMETERS
+    ("num_columns", "grad_output", "logits_scale_factor", "loss_masking", "dtype", "block_size", "accumulate"),
+    _LOSS_PARAMETERS,
 )
 @pytest.mark.parametrize(
     "loss_type",
@@ -385,10 +418,11 @@ def test_lm_loss_distributed(
     loss_masking,
     dtype,
     block_size,
+    accumulate,
 ):
     report_subtest(
         result_path
-        / f"test_losses/{loss_type}-{num_columns}-{grad_output}-{logits_scale_factor}-{loss_masking}-{dtype}-{block_size}-{"_".join([str(i) for i in batch_shape])}",
+        / f"test_losses/{loss_type}-{num_columns}-{grad_output}-{logits_scale_factor}-{loss_masking}-{dtype}-{block_size}-{accumulate}-{"_".join([str(i) for i in batch_shape])}",
         2,
         use_cuda=False,
     )

From 945dadc9ba644dd86dcde8cc86191693c9b30a09 Mon Sep 17 00:00:00 2001
From: Joel Lamy-Poirier <joel.lamy-poirier@servicenow.com>
Date: Wed, 11 Feb 2026 13:22:44 -0500
Subject: [PATCH 17/37] Token dim

---
 fast_llm/engine/base_model/base_model.py      |   1 +
 fast_llm/engine/schedule/runner.py            |  24 ++-
 fast_llm/functional/autograd.py               |   4 +-
 fast_llm/layers/attention/attention.py        |  78 +++-----
 fast_llm/layers/attention/rotary/rotary.py    |   1 +
 fast_llm/layers/block/block.py                |  23 +--
 fast_llm/layers/block/config.py               |   5 +-
 fast_llm/layers/decoder/block.py              | 168 +++++-----------
 .../layers/decoder/mlp/mixture_of_experts.py  |  34 +---
 fast_llm/layers/decoder/mlp/mlp.py            |  15 +-
 fast_llm/layers/language_model/config.py      |  10 -
 fast_llm/layers/language_model/embedding.py   |  55 ++---
 fast_llm/layers/language_model/head.py        |  87 ++++----
 .../language_model/loss/entropy_loss.py       |   1 +
 fast_llm/layers/language_model/loss/loss.py   |  24 ++-
 .../language_model/multi_token_prediction.py  |   4 +-
 fast_llm/layers/ssm/gdn.py                    |   7 -
 fast_llm/layers/ssm/kda.py                    |  15 --
 fast_llm/layers/ssm/mamba.py                  |  26 +--
 fast_llm/layers/vision/embeddings.py          |  11 +-
 fast_llm/models/gpt/huggingface.py            |  14 +-
 fast_llm/models/gpt/model.py                  | 188 +++++++++---------
 fast_llm/models/multimodal/model.py           |  57 +++---
 tests/layers/test_lm_head.py                  |  55 +++--
 tests/layers/test_ssm.py                      |   2 -
 tests/layers/test_varlen.py                   |  13 +-
 tests/test_loss_mask.py                       |   8 +-
 tests/utils/distributed_configs.py            |  32 +--
 tests/utils/model_configs.py                  |   4 +
 29 files changed, 368 insertions(+), 598 deletions(-)

diff --git a/fast_llm/engine/base_model/base_model.py b/fast_llm/engine/base_model/base_model.py
index ffffbed50..de64d905a 100644
--- a/fast_llm/engine/base_model/base_model.py
+++ b/fast_llm/engine/base_model/base_model.py
@@ -179,6 +179,7 @@ def preprocess_batch(
         phase: PhaseType,
         iteration: int,
         metrics: dict | None = None,
+        extra_kwargs: dict[str, typing.Any] | None = None,
     ) -> list[tuple[torch.Tensor, dict]]:
         # TODO Move batch splitting elsewhere, align interface with LayerBase
         pass
diff --git a/fast_llm/engine/schedule/runner.py b/fast_llm/engine/schedule/runner.py
index 4d31324fe..2d7e02f77 100644
--- a/fast_llm/engine/schedule/runner.py
+++ b/fast_llm/engine/schedule/runner.py
@@ -19,6 +19,7 @@
 from fast_llm.engine.optimizer.optimizer import Optimizer
 from fast_llm.engine.schedule.config import EventType, MockEvent, MockStream, ScheduleConfig, StepType, StreamType
 from fast_llm.engine.schedule.schedule import Schedule, Step
+from fast_llm.layers.block.config import BlockKwargs
 from fast_llm.logging import log_memory_usage
 from fast_llm.utils import Assert
 
@@ -339,15 +340,15 @@ def _preprocess_data(
                     phase=context.phase,
                     iteration=context.iteration,
                     metrics=context.metrics,
+                    extra_kwargs={
+                        "grad_output": grad_output,
+                        "micro_batch": micro_batch,
+                        "num_micro_batches": batch_config.sequential_micro_batches,
+                        "micro_batch_splits": batch_config.micro_batch_splits,
+                    },
                 )
             for micro_batch_split, (input_, kwargs) in enumerate(micro_batch_data):
-                kwargs.update(
-                    grad_output=grad_output,
-                    micro_batch=micro_batch,
-                    micro_batch_split=micro_batch_split,
-                    num_micro_batches=batch_config.sequential_micro_batches,
-                    micro_batch_splits=batch_config.micro_batch_splits,
-                )
+                kwargs.update(micro_batch_split=micro_batch_split)
                 data_index = context.schedule.get_data_index(micro_batch, micro_batch_split)
                 if self._stages_owned[0]:
                     context.inputs[context.schedule.get_step(StepType.forward, 0, data_index).global_index] = input_
@@ -405,6 +406,15 @@ def _recv(self, context: BatchContext, step: Step) -> None:
             self._record_event(context, EventType.compute_wait_pipe, step)
 
     def _forward(self, context: BatchContext, step: Step) -> None:
+        print(
+            "IASINBUI",
+            step,
+            (
+                context.batch[step.data_index].get(BlockKwargs.grad_output)
+                if step.data_index in context.batch
+                else "PPPPP"
+            ),
+        )
         output, grad_context = self._stages[step.stage].forward(
             self._get_forward_input(context, step),
             context.batch[step.data_index],
diff --git a/fast_llm/functional/autograd.py b/fast_llm/functional/autograd.py
index 3e8e31cea..586f833b3 100644
--- a/fast_llm/functional/autograd.py
+++ b/fast_llm/functional/autograd.py
@@ -62,8 +62,8 @@ def grad_is_context(grad_output: torch.Tensor, context: torch.Tensor) -> torch.T
 
 class AuxiliaryLoss(torch.autograd.Function):
     @staticmethod
-    def forward(ctx, input_: torch.Tensor, aux_loss: torch.Tensor, grad: float) -> torch.Tensor:  # noqa
-        ctx.grad = torch.full_like(aux_loss, grad)
+    def forward(ctx, input_: torch.Tensor, aux_loss: torch.Tensor, grad: float | None) -> torch.Tensor:  # noqa
+        ctx.grad = None if grad is None else torch.full_like(aux_loss, grad)
         return input_
 
     @staticmethod
diff --git a/fast_llm/layers/attention/attention.py b/fast_llm/layers/attention/attention.py
index d6eab0eb2..be8b31f39 100644
--- a/fast_llm/layers/attention/attention.py
+++ b/fast_llm/layers/attention/attention.py
@@ -3,7 +3,7 @@
 import torch
 
 from fast_llm.core.distributed import set_generator
-from fast_llm.core.ops import gather_op, reduce_op, reduce_scatter_op, swap_mult_dim
+from fast_llm.core.ops import gather_op, reduce_op, reduce_scatter_op
 from fast_llm.engine.base_model.config import ResourceUsageConfig
 from fast_llm.engine.config_utils.data_type import DataType
 from fast_llm.engine.config_utils.initialization import init_normal_
@@ -12,7 +12,6 @@
 from fast_llm.functional.autograd import wrap_forward_backward
 from fast_llm.layers.attention.config import AttentionConfig, AttentionImplementation, AttentionKwargs
 from fast_llm.layers.attention.preprocessing import preprocess_for_varlen
-from fast_llm.layers.block.config import BlockDimNames
 from fast_llm.layers.common.peft.config import PeftConfig
 from fast_llm.layers.decoder.block import BlockWithBias
 from fast_llm.tensor import TensorMeta
@@ -113,7 +112,7 @@ def __init__(
                 CompositeTensorDim("value", (head_group_dim, head_size_dim)),
             ),
         )
-        dense_dim = CompositeTensorDim("dense", (head_group_dim, group_heads_dim, head_size_dim))
+        self._dense_dim = CompositeTensorDim("dense", (head_group_dim, group_heads_dim, head_size_dim))
 
         self._softmax_scale = self._config.head_size ** (-self._config.softmax_scale_power)
 
@@ -152,7 +151,7 @@ def __init__(
 
         # Output.
         self.dense = self._config.dense_layer.get_layer(
-            dense_dim,
+            self._dense_dim,
             hidden_dim,
             default_weight_initialization=init_normal_(std=self._hidden_size**-0.5),
             default_add_bias=self._config.add_linear_biases,
@@ -163,22 +162,13 @@ def __init__(
 
         # Debug dims
         self._query_dims = (
-            BlockDimNames.batch,
-            BlockDimNames.sequence_q,
             CompositeTensorDim("heads", (head_group_dim, group_heads_dim)),
             head_size_dim,
         )
         self._kv_dims = (
-            BlockDimNames.batch,
-            BlockDimNames.sequence_q,
             head_group_dim,
             head_size_dim,
         )
-        self._context_dims = (
-            BlockDimNames.batch,
-            BlockDimNames.sequence_q,
-            dense_dim,
-        )
 
     def _attn_backup(
         self,
@@ -269,7 +259,7 @@ def _attn_flash(
             )
 
     def _query_key_value_forward(
-        self, input_: torch.Tensor, sequence_first: bool
+        self, input_: torch.Tensor
     ) -> tuple[torch.Tensor, torch.Tensor, dict[str, typing.Any]]:
         key_value, key_value_context = self.key_value.forward_only(input_)
 
@@ -292,10 +282,7 @@ def _query_key_value_forward(
         if handle:
             handle.wait()
 
-        if self._sequence_data_parallel_dim.group and not sequence_first:
-            key_value = swap_mult_dim(key_value, self._sequence_parallel, 0, 1)
-
-        context = {"query": query_context, "key_value": key_value_context, "sequence_first": sequence_first}
+        context = {"query": query_context, "key_value": key_value_context}
         return query, key_value, context
 
     def _query_key_value_backward(
@@ -305,7 +292,7 @@ def _query_key_value_backward(
         key_value_grad, handle = reduce_scatter_op(
             key_value_grad,
             group=self._sequence_data_parallel_dim.group,
-            dim=1 - context["sequence_first"],
+            dim=0,
             async_op=True,
         )
 
@@ -331,15 +318,20 @@ def _forward(
         losses: dict[str, typing.Any] | None = None,
         metrics: dict[str, typing.Any] | None = None,
     ) -> tuple[torch.Tensor, torch.Tensor | None]:
-        sequence_first = kwargs[AttentionKwargs.sequence_first]
-        query, key_value = self._query_key_value(input_, sequence_first)
+        query, key_value = self._query_key_value(input_)
+
+        # Separate the batch and sequence dimensions
+        token_dims = (kwargs[AttentionKwargs.batch_dim], kwargs[AttentionKwargs.sequence_q_dim])
+        token_shape = tuple(dim.size for dim in token_dims)
+        query = query.unflatten(0, token_shape)
+        key_value = key_value.unflatten(0, token_shape)
 
         # TODO: Move the rest to function.
 
         if (past_key_values := kwargs.get(AttentionKwargs.past_key_values)) is not None:
-            assert sequence_first
             # Clear the lists so tensors can be de-allocated
-            key_value = torch.cat((past_key_values.pop(0), key_value), dim=0)
+            # TODO: ===== Check =====
+            key_value = torch.cat((past_key_values.pop(0), key_value), dim=1)
 
         if (presents := kwargs.get(AttentionKwargs.presents)) is not None:
             # Return the presents as a leaf tensors so the gradients from later micro-sequences
@@ -348,26 +340,17 @@ def _forward(
             # Manually add the gradients from later micro-sequences.
             key_value = AttachGrad.apply(key_value, present)
 
-        if self._sequence_data_parallel_dim.group:
-            key_value = (
-                key_value[: kwargs[AttentionKwargs.sequence_k_dim].size]
-                if sequence_first
-                else key_value[:, : kwargs[AttentionKwargs.sequence_k_dim].size]
-            )
-
-        if sequence_first:
-            # TODO: Optimize (is contiguous avoidable?)
-            query = query.transpose(0, 1).contiguous()
-            key_value = key_value.transpose(0, 1).contiguous()
-
+        # TODO: ===== Check =====
+        key_value = key_value[:, : kwargs[AttentionKwargs.sequence_k_dim].size]
         key, value = key_value.split(self._local_head_groups * self._config.head_size, dim=-1)
 
+        # TODO: ===== Expand batch seq dim =====
         query = query.view(*query.shape[:2], self._local_heads, self._config.head_size)
         key = key.view(*key.shape[:2], self._local_head_groups, self._config.head_size)
         value = value.view(*value.shape[:2], self._local_head_groups, self._config.head_size)
 
-        self._debug(query, "query_rotary_input", self._query_dims, kwargs)
-        self._debug(key, "key_rotary_input", self._kv_dims, kwargs)
+        self._debug(query, "query_rotary_input", token_dims + self._query_dims, kwargs)
+        self._debug(key, "key_rotary_input", token_dims + self._kv_dims, kwargs)
         query, key = self._rotary(query, key, kwargs)
 
         with set_generator(self._distributed.tp_generator):
@@ -379,22 +362,17 @@ def _forward(
             else:
                 raise NotImplementedError(self._implementation)
 
-        self._debug(query, "query", self._query_dims, kwargs)
-        self._debug(key, "key", self._kv_dims, kwargs)
-        self._debug(value, "value", self._kv_dims, kwargs)
-        self._debug(input_, "context", self._context_dims, kwargs)
+        self._debug(query, "query", token_dims + self._query_dims, kwargs)
+        self._debug(key, "key", token_dims + self._kv_dims, kwargs)
+        self._debug(value, "value", token_dims + self._kv_dims, kwargs)
+        self._debug(input_, "context", token_dims + (self._dense_dim,), kwargs)
 
-        if sequence_first:
-            # TODO: Optimize (is contiguous avoidable? Transpose dense output?)
-            input_ = input_.transpose(0, 1).contiguous()
-        out, bias = self.dense(input_)
-        self._debug(out, None, kwargs.get(AttentionKwargs.hidden_dims), kwargs)
+        out, bias = self.dense(input_.flatten(0, 1))
+        self._debug(out, None, token_dims + (self._hidden_dim,), kwargs)
         return out, bias
 
     def get_compute_usage(self, input_: TensorMeta, kwargs: dict[str, typing.Any], config: ResourceUsageConfig) -> int:
-        batch_dim: TensorDim = kwargs[AttentionKwargs.hidden_dims][1 if kwargs[AttentionKwargs.sequence_first] else 0]
-
-        # Using this one since `hidden_dims` may be sequence-tensor-parallel, and attention is not.
+        batch_dim: TensorDim = kwargs[AttentionKwargs.batch_dim]
         sequence_q_dim: TensorDim = kwargs[AttentionKwargs.sequence_q_dim]
         sequence_k_dim: TensorDim = kwargs[AttentionKwargs.sequence_k_dim]
 
@@ -435,7 +413,7 @@ def get_compute_usage(self, input_: TensorMeta, kwargs: dict[str, typing.Any], c
                 partly_out_of_window = max(sequence_k - fully_out_of_window - self._config.window_size, 0)
                 attention_compute -= (partly_out_of_window * (partly_out_of_window + 1) * attn_compute_base) // 2
 
-        dense_input = TensorMeta.from_dims((batch_dim, sequence_q_dim, self._context_dims[-1]))
+        dense_input = TensorMeta.from_dims((*input_.dims[:-1], self._dense_dim))
 
         # TODO: Add marginal compute? (ex. softmax)
         return sum(
diff --git a/fast_llm/layers/attention/rotary/rotary.py b/fast_llm/layers/attention/rotary/rotary.py
index 307256a72..e24d85e36 100644
--- a/fast_llm/layers/attention/rotary/rotary.py
+++ b/fast_llm/layers/attention/rotary/rotary.py
@@ -235,6 +235,7 @@ def forward(
         self, query: torch.Tensor, key: torch.Tensor, kwargs: dict[str, typing.Any]
     ) -> tuple[torch.Tensor, torch.Tensor]:
         rotary_fn = triton_rotary_autograd_ if TritonConfig.enabled(query.device) else rotary_embeddings_real
+        print("AAAAA", query.shape, kwargs[AttentionKwargs.rotary_freq_q].shape)
         query = rotary_fn(query, kwargs[AttentionKwargs.rotary_freq_q])
         key = rotary_fn(key, kwargs[AttentionKwargs.rotary_freq_k])
         return query, key
diff --git a/fast_llm/layers/block/block.py b/fast_llm/layers/block/block.py
index a1942cab1..dc7334b45 100644
--- a/fast_llm/layers/block/block.py
+++ b/fast_llm/layers/block/block.py
@@ -47,7 +47,7 @@ def __call__(
         if bias is not None:
             assert tensor is not None
             tensor = tensor + bias
-        meta = self._get_meta(tensor, name, dims, kwargs)
+        meta = self._get_meta(tensor, name, dims)
 
         if output_hidden_state:
             kwargs[BlockKwargs.hidden_states][name] = (meta, tensor)
@@ -68,7 +68,7 @@ def __call__(
                     "",
                     tensor,
                     level=level,
-                    meta=self._get_meta(tensor, name + f"{name}.grad", dims, kwargs),
+                    meta=self._get_meta(tensor, name + f"{name}.grad", dims),
                     **logging_kwargs,
                 )
 
@@ -76,26 +76,13 @@ def _get_meta(
         self,
         tensor: torch.Tensor | None,
         name: str,
-        dims: tuple[TensorDim | str, ...] | None,
-        kwargs: dict[str, typing.Any],
-    ) -> TensorMeta | None:
-        if tensor is None:
-            return None
+        dims: tuple[TensorDim | str | None, ...] | None,
+    ) -> TensorMeta:
         if dims is None:
             dims = tuple(f"dim_{i}" for i in range(tensor.ndim))
-        hidden_dims = {}
-        if BlockKwargs.hidden_dims in kwargs:
-            for dim in kwargs[BlockKwargs.hidden_dims]:
-                hidden_dims[dim.name] = dim
-        if BlockKwargs.sequence_q_dim in kwargs:
-            hidden_dims[kwargs[BlockKwargs.sequence_q_dim].name] = kwargs[BlockKwargs.sequence_q_dim]
         return TensorMeta.from_dims(
             tuple(
-                (
-                    dim
-                    if isinstance(dim, TensorDim)
-                    else hidden_dims[dim] if dim in hidden_dims else TensorDim(dim, tensor.size(i))
-                )
+                (dim if isinstance(dim, TensorDim) else TensorDim(f"dim_{i}" if dim is None else dim, tensor.size(i)))
                 for i, dim in enumerate(dims)
             ),
             tensor_name=name,
diff --git a/fast_llm/layers/block/config.py b/fast_llm/layers/block/config.py
index fd76d36cb..a1b600445 100644
--- a/fast_llm/layers/block/config.py
+++ b/fast_llm/layers/block/config.py
@@ -31,10 +31,11 @@ class BlockDimNames:
 
 
 class BlockKwargs:
-    sequence_first = "sequence_first"
-    hidden_dims = "hidden_dims"
+    batch_dim = "batch_dim"
     sequence_q_dim = "sequence_q_dim"
     sequence_k_dim = "sequence_k_dim"
+    token_dim = "token_dim"
+    hidden_token_dim = "hidden_token_dim"
     # TODO: These are confusing
     sequence_length = "sequence_length"
     sequence_lengths = "sequence_lengths"
diff --git a/fast_llm/layers/decoder/block.py b/fast_llm/layers/decoder/block.py
index 8f6e360fd..bb9df3fb9 100644
--- a/fast_llm/layers/decoder/block.py
+++ b/fast_llm/layers/decoder/block.py
@@ -126,143 +126,77 @@ def forward(
         metrics: dict[str, typing.Any] | None = None,
     ) -> torch.Tensor:
         if isinstance(input_, TensorMeta):
-            dims = kwargs[BlockKwargs.hidden_dims]
+            dims = input_.dims
             if self._return_input:
                 dims = (TensorDim("stacked_input_output", 2),) + dims
             return TensorMeta.from_dims(dims, tensor_name=f"{self.module_name} output", dtype=input_.dtype)
         generator = self._distributed.tp_generator if self._sequence_parallel else self._distributed.pp_generator
-        self._debug(None, "begin", kwargs.get(BlockKwargs.hidden_dims), kwargs)
+        hidden_dims = (kwargs.get(BlockKwargs.hidden_token_dim), self._hidden_dim)
+        self._debug(None, "begin", hidden_dims, kwargs)
         fw_input = input_
         hidden_states = self.norm_1(input_)
-        self._debug(hidden_states, "norm_1", kwargs.get(BlockKwargs.hidden_dims), kwargs)
+        self._debug(hidden_states, "norm_1", hidden_dims, kwargs)
         hidden_states, bias = self.mixer(hidden_states, kwargs, metrics=metrics)
 
-        hidden_states, bias = self.activation_distillation_loss(hidden_states, bias, kwargs, losses, metrics)
+        self._debug(hidden_states.detach(), "mixer_output", hidden_dims, kwargs, bias=bias)
+        if self._config.distillation_model is not None and self.training:
+            if bias is not None:
+                hidden_states = hidden_states + bias
+                bias = None
+            hidden_states = self._activation_distillation_loss(hidden_states, kwargs, losses, metrics)
 
         with set_generator(generator):
             input_ = self._bias_dropout_add(hidden_states, bias, input_)
-        self._debug(input_, "mixer_residual", kwargs.get(BlockKwargs.hidden_dims), kwargs)
+        self._debug(input_, "mixer_residual", hidden_dims, kwargs)
         hidden_states = self.norm_2(input_)
-        self._debug(hidden_states, "norm_2", kwargs.get(BlockKwargs.hidden_dims), kwargs)
+        self._debug(hidden_states, "norm_2", hidden_dims, kwargs)
         hidden_states, bias = self.mlp(hidden_states, kwargs, losses, metrics)
         with set_generator(generator):
             hidden_states = self._bias_dropout_add(hidden_states, bias, input_)
-        self._debug(hidden_states, None, kwargs.get(BlockKwargs.hidden_dims), kwargs)
+        self._debug(hidden_states, None, hidden_dims, kwargs)
 
         if self._return_input:
             hidden_states = torch.stack((fw_input, hidden_states), dim=0)
         return hidden_states
 
-    def activation_distillation_loss(self, hidden_states, bias, kwargs, losses, metrics):
-        """
-        Maybe apply activation distillation loss and setup backward hooks.
-        """
-        mixer_output = hidden_states if bias is None else hidden_states + bias
-
-        # Teacher: output mixer activations via _debug interface
-        self._debug(mixer_output.detach(), "mixer_output", kwargs.get(BlockKwargs.hidden_dims), kwargs)
-
-        # Student gets teacher activations and computes the activation-level loss.
-        activation_targets = kwargs.get(BlockKwargs.activation_distillation_targets)
-        key = f"{self.module_name}.mixer_output"
-        if (
-            activation_targets is not None
-            and self.training
-            and (teacher_output := activation_targets.pop(key, None)) is not None
-        ):
-            # Compare student mixer output with the teacher's stored activation and accumulate the loss.
-            teacher_tensor = teacher_output.detach().to(device=mixer_output.device, dtype=mixer_output.dtype)
-            Assert.eq(teacher_tensor.shape, mixer_output.shape)
-            # TODO: un-scaled loss for reporting? Average loss over layers?
-            # L2 loss
-            activation_loss_factor = self._config.distillation_loss_weight
-            # (batch, sequence, hidden) or (sequence, batch, hidden). Take the norm over hidden dim.
-
-            # Handle possible padding by using pre-computed activation mask
-            sequence_first = kwargs.get(BlockKwargs.sequence_first, False)
-            activation_mask = kwargs.get(BlockKwargs.activation_mask)
-
-            if activation_mask is not None:
-                # Use pre-computed activation mask (bool tensor where True = valid token)
-                mask = activation_mask.to(dtype=mixer_output.dtype)
-                if sequence_first:
-                    # (batch, sequence) -> (sequence, batch)
-                    mask = mask.T
-
-                # Compute masked L2 loss: norm over hidden dim, then apply mask
-                per_token_loss = torch.norm(
-                    mixer_output - teacher_tensor, p=2, dim=-1
-                )  # (batch, sequence) or (sequence, batch)
-
-                # Slice mask to match per_token_loss shape (for sequence parallelism)
-                # When sequence_tensor_parallel is enabled, per_token_loss only has local sequence length
-                if mask.shape != per_token_loss.shape:
-                    # Calculate the sequence offset for this rank using the hidden_dims parallel rank
-                    hidden_dims = kwargs.get(BlockKwargs.hidden_dims)
-                    seq_dim_idx = 0 if sequence_first else 1
-                    hidden_seq_dim = hidden_dims[seq_dim_idx] if hidden_dims else None
-
-                    if hidden_seq_dim and hidden_seq_dim.parallel_dim:
-                        # Use the rank from the actual parallel dimension used by hidden states
-                        local_seq_length = per_token_loss.shape[0] if sequence_first else per_token_loss.shape[1]
-                        seq_offset = hidden_seq_dim.parallel_dim.rank * local_seq_length
-                    else:
-                        seq_offset = 0
-
-                    if sequence_first:
-                        # mask: (sequence, batch), per_token_loss: (local_sequence, batch)
-                        mask = mask[seq_offset : seq_offset + per_token_loss.shape[0], :]
-                    else:
-                        # mask: (batch, sequence), per_token_loss: (batch, local_sequence)
-                        mask = mask[:, seq_offset : seq_offset + per_token_loss.shape[1]]
-
-                masked_loss = per_token_loss * mask
-                local_loss_sum = torch.sum(masked_loss)
-                total_count = int(mask.sum().item())
-            else:
-                # No activation_mask available, compute loss on all tokens
-                per_token_loss = torch.norm(
-                    mixer_output - teacher_tensor, p=2, dim=-1
-                )  # (batch, sequence) or (sequence, batch)
-                local_loss_sum = torch.sum(per_token_loss)
-                # mixer_output.shape is (batch, sequence, hidden) or (sequence, batch, hidden)
-                # In either case, dims 0 and 1 are batch and sequence
-                total_count = mixer_output.shape[0] * mixer_output.shape[1]
-
-            # All-reduce across tensor-parallel group if sequence-parallel is enabled
-            if self._sequence_parallel and self._distributed.tensor_group is not None:
-                all_reduce(local_loss_sum, group=self._distributed.tensor_group, op=ReduceOp.SUM)
-                if activation_mask is not None:
-                    # Different ranks may have different amounts of padding
-                    total_count_tensor = torch.tensor(total_count, device=mixer_output.device, dtype=torch.int64)
-                    all_reduce(total_count_tensor, group=self._distributed.tensor_group, op=ReduceOp.SUM)
-                    total_count = int(total_count_tensor.item())
-                else:
-                    # All ranks contribute the same count
-                    total_count *= self._distributed.tensor_group.size()
-
-            activation_loss = local_loss_sum / total_count
-            scaled_activation_loss = activation_loss_factor * activation_loss
-
-            # Backward hooks
-            hidden_states = AuxiliaryLoss.apply(hidden_states, scaled_activation_loss, 1.0)
-            bias = AuxiliaryLoss.apply(bias, scaled_activation_loss, 1.0) if bias is not None else None
-            # Logging
-            if losses is not None and self._distillation_loss_name in losses:
-                losses[self._distillation_loss_name].append(activation_loss.detach())
-            # Per-layer metrics
-            if metrics is not None:
-                metrics[f"{self.module_name}/activation_distillation_loss"] = activation_loss.detach()
-
-                # If using stochastic mixer, also log per-mixer-type activation distillation loss
-                from fast_llm.layers.decoder.stochastic_mixer import StochasticMixer
-
-                if isinstance(self.mixer, StochasticMixer):
-                    selected_mixer = self.mixer._last_selected_mixer
-                    metrics[f"{self.module_name}/activation_distillation_loss/{selected_mixer}"] = (
-                        activation_loss.detach()
-                    )
-        return hidden_states, bias
+    def _activation_distillation_loss(self, hidden_states, kwargs, losses, metrics):
+        Assert.incl(
+            mixer_output_name := f"{self.module_name}.mixer_output",
+            reference_hidden_states := kwargs[f"reference_{self._config.distillation_model}_hidden_states"],
+        )
+        teacher_hidden_states = reference_hidden_states.pop(mixer_output_name)
+
+        # L2 loss
+        per_token_loss = torch.norm(hidden_states - teacher_hidden_states, dim=-1, dtype=torch.float32)
+        if (activation_mask := kwargs.get(BlockKwargs.activation_mask)) is not None:
+            per_token_loss = per_token_loss * activation_mask
+        loss = torch.mean(per_token_loss)
+
+        # All-reduce across tensor-parallel group if sequence-parallel is enabled
+        if self._sequence_parallel and self._distributed.tensor_group is not None:
+            all_reduce(loss, group=self._distributed.tensor_group, op=ReduceOp.AVG)
+
+        scaled_activation_loss = self._config.distillation_loss_weight * loss
+
+        # Backward hook
+        print(kwargs[BlockKwargs.grad_output])
+        hidden_states = AuxiliaryLoss.apply(hidden_states, scaled_activation_loss, kwargs.get(BlockKwargs.grad_output))
+
+        # Logging
+        if losses is not None and self._distillation_loss_name in losses:
+            losses[self._distillation_loss_name].append(loss.detach())
+
+        if metrics is not None:
+            metrics[f"{self.module_name}/activation_distillation_loss"] = loss.detach()
+
+            # If using stochastic mixer, also log per-mixer-type activation distillation loss
+            from fast_llm.layers.decoder.stochastic_mixer import StochasticMixer
+
+            if isinstance(self.mixer, StochasticMixer):
+                metrics[f"{self.module_name}/activation_distillation_loss/{self.mixer._last_selected_mixer}"] = (
+                    loss.detach()
+                )
+        return hidden_states
 
     def get_compute_usage(self, input_: TensorMeta, kwargs: dict[str, typing.Any], config: ResourceUsageConfig) -> int:
         # TODO: Add marginal compute? (normalization, bias_dropout_add)
diff --git a/fast_llm/layers/decoder/mlp/mixture_of_experts.py b/fast_llm/layers/decoder/mlp/mixture_of_experts.py
index 413a88ed6..13ba79a7a 100644
--- a/fast_llm/layers/decoder/mlp/mixture_of_experts.py
+++ b/fast_llm/layers/decoder/mlp/mixture_of_experts.py
@@ -12,7 +12,6 @@
 from fast_llm.functional.autograd import AuxiliaryLoss
 from fast_llm.functional.triton.mlp import mlp_autograd, mlp_autograd_looped
 from fast_llm.functional.triton.sparse_copy import get_sparse_map
-from fast_llm.layers.attention.config import AttentionKwargs
 from fast_llm.layers.block.config import BlockKwargs
 from fast_llm.layers.common.peft.config import PeftConfig
 from fast_llm.layers.decoder.mlp.config import MLPLossNames, MoEMLPConfig, RoutingType
@@ -94,11 +93,8 @@ def _forward(
             return TensorMeta.from_dims(input_.dims[:-1] + (self._output_dim,), "MLP output"), None
         hidden_states = input_.flatten(0, -2)
         logits = self.router(hidden_states)
-        logit_dims = (
-            kwargs[BlockKwargs.hidden_dims][:-1] + (self._top_expert_dim,)
-            if BlockKwargs.hidden_dims in kwargs
-            else None
-        )
+        hidden_token_dim = kwargs[BlockKwargs.hidden_token_dim]
+        logit_dims = (hidden_token_dim, self._top_expert_dim)
         self._debug(logits, "Router logits", logit_dims, kwargs)
 
         # Apply z_loss if applicable
@@ -130,7 +126,7 @@ def _forward(
         self._debug(top_experts, "router_top_experts", logit_dims, kwargs)
 
         out = self._mlp_forward(hidden_states, scores, top_experts).view_as(input_)  # noqa
-        self._debug(out, None, kwargs.get(BlockKwargs.hidden_dims), kwargs)
+        self._debug(out, None, (hidden_token_dim, self._hidden_dim), kwargs)
         return out, None
 
     def _forward_dropless(
@@ -241,24 +237,14 @@ def _sinkhorn_activation(self, logits: torch.Tensor) -> torch.Tensor:
         )
 
     def get_compute_usage(self, input_: TensorMeta, kwargs: dict[str, typing.Any], config: ResourceUsageConfig) -> int:
-        if kwargs[AttentionKwargs.sequence_first]:
-            sequence_dim, batch_dim, hidden_dim = input_.dims
-        else:
-            batch_dim, sequence_dim, hidden_dim = input_.dims
-
-        # Applying the tokens per expert on the batch dim so the super() call works as intended.
-        moe_batch_dim = TensorDim(
-            f"moe_{batch_dim.name}", batch_dim.global_size * self._config.experts_per_token, batch_dim.parallel_dim
+        token_dim, hidden_dim = input_.dims
+        # Applying the tokens per expert on the token dim so the super() call works as intended.
+        moe_token_dim = TensorDim(
+            f"moe_{token_dim.name}", token_dim.global_size * self._config.experts_per_token, token_dim.parallel_dim
+        )
+        moe_input = TensorMeta.from_dims(
+            (moe_token_dim, hidden_dim), tensor_name=f"moe_{input_.tensor_name}", dtype=input_.dtype
         )
-
-        if kwargs[AttentionKwargs.sequence_first]:
-            dims = sequence_dim, moe_batch_dim, hidden_dim
-        else:
-            dims = moe_batch_dim, sequence_dim, hidden_dim
-
-        # Also adjust the dtype in case of full-precision residual
-        moe_input = TensorMeta.from_dims(dims, tensor_name=f"moe_{input_.tensor_name}", dtype=input_.dtype)
-
         return super().get_compute_usage(moe_input, kwargs, config) + self.router.get_compute_usage(input_, config)
 
     def get_loss_definitions(self, count: int = 1) -> list[LossDef]:
diff --git a/fast_llm/layers/decoder/mlp/mlp.py b/fast_llm/layers/decoder/mlp/mlp.py
index 88c86c8aa..1048f7c2a 100644
--- a/fast_llm/layers/decoder/mlp/mlp.py
+++ b/fast_llm/layers/decoder/mlp/mlp.py
@@ -9,7 +9,6 @@
 from fast_llm.engine.distributed.config import DistributedConfig, DistributedDimNames
 from fast_llm.functional.config import TritonConfig
 from fast_llm.functional.triton.mlp import mlp_autograd, torch_mlp_activation, triton_mlp_activation_autograd
-from fast_llm.layers.attention.config import AttentionKwargs
 from fast_llm.layers.block.config import BlockKwargs
 from fast_llm.layers.common.peft.config import PeftConfig
 from fast_llm.layers.decoder.block import BlockWithBias
@@ -85,16 +84,11 @@ def get_compute_usage(self, input_: TensorMeta, kwargs: dict[str, typing.Any], c
             if config.hardware and self._config.recompute_level.recompute_layer_1
             else config
         )
-
-        # Get the layer 2 input dims, accounting for ordering and possible sequence-parallelism.
-        # TODO: Don't rely on kwargs dimensions.
-        if kwargs[AttentionKwargs.sequence_first]:
-            dims = (kwargs[AttentionKwargs.sequence_q_dim], input_.dims[1], self._intermediate_2_dim)
-        else:
-            dims = (input_.dims[0], kwargs[AttentionKwargs.sequence_q_dim], self._intermediate_2_dim)
         # Also adjust the dtype in case of full-precision residual
         layer_2_input = TensorMeta.from_dims(
-            dims, tensor_name="intermediate_1", dtype=self._distributed_config.compute_dtype.torch
+            (input_.dims[0], self._intermediate_2_dim),
+            tensor_name="intermediate_1",
+            dtype=self._distributed_config.compute_dtype.torch,
         )
 
         # TODO: Add marginal compute? (ex. activation, gate + up)
@@ -141,6 +135,5 @@ def _forward(
         bias = self.layer_2.bias if self._parallel_dim.group else None
         # Use None for dims when output_dim differs from hidden_dim (e.g., adapter projections)
         # to let _debug infer dims from actual tensor shape
-        dims = None if self._output_dim != self._hidden_dim else kwargs.get(BlockKwargs.hidden_dims)
-        self._debug(out, None, dims, kwargs, bias=bias)
+        self._debug(out, None, (kwargs.get(BlockKwargs.hidden_token_dim), self._hidden_dim), kwargs, bias=bias)
         return out, bias
diff --git a/fast_llm/layers/language_model/config.py b/fast_llm/layers/language_model/config.py
index 9ba1f3433..e3446bba6 100644
--- a/fast_llm/layers/language_model/config.py
+++ b/fast_llm/layers/language_model/config.py
@@ -146,8 +146,6 @@ class LanguageModelHeadConfig(LanguageModelHeadBaseConfig):
         desc="Configuration for the LM output layer (weight). Ignored for tied embeddings",
         hint=FieldHint.architecture,
     )
-    # TODO: Option to chose whether to split in batch or sequence dimension?
-    #   (Currently split merged batch and sequence, depends on `sequence_first`)
     cross_entropy_splits: int = Field(
         default=1,
         desc="Split the logit and cross-entropy computation into this many fragment, to reduce memory usage.",
@@ -274,14 +272,6 @@ class LanguageModelConfig(BlockConfig):
         hint=FieldHint.architecture,
         valid=check_field(Assert.gt, 0),
     )
-    sequence_first: bool | None = Field(
-        default=None,
-        desc="Override the default dimension ordering",
-        doc="By default, the hidden states are stored with dimensions (batch, sequence, ...), as it makes attention more efficient."
-        " However, some settings such as sequence-tensor/data/pipelineo-parallel instead require the ordering (sequence, batch, ...)."
-        " Setting this parameter overrides the default choice. Note that setting to `False` will either do nothing or raise an error.",
-        hint=FieldHint.testing,
-    )
 
     @property
     def layer_class(self) -> "type[LanguageModel]":
diff --git a/fast_llm/layers/language_model/embedding.py b/fast_llm/layers/language_model/embedding.py
index 93850d24c..c6df8f62b 100644
--- a/fast_llm/layers/language_model/embedding.py
+++ b/fast_llm/layers/language_model/embedding.py
@@ -8,6 +8,7 @@
 from fast_llm.engine.config_utils.initialization import init_normal_
 from fast_llm.engine.config_utils.tensor_dim import TensorDim
 from fast_llm.engine.distributed.config import DistributedConfig, DistributedDimNames
+from fast_llm.layers.attention.preprocessing import preprocess_for_varlen
 from fast_llm.layers.block.block import Block
 from fast_llm.layers.common.peft.config import PeftConfig
 from fast_llm.layers.language_model.config import LanguageModelEmbeddingsConfig, LanguageModelKwargs
@@ -28,11 +29,6 @@ class LanguageModelEmbedding[ConfigType: LanguageModelEmbeddingsConfig](Block[Co
     layer_count: float = 1000.0
     _config: ConfigType
 
-    # Preprocessing
-    _rotary_embedding_frequencies: torch.Tensor
-    _position_ids: torch.Tensor
-    _tensor_cache_max_sequence_length: int = -1
-
     def __init__(
         self,
         config: ConfigType,
@@ -84,7 +80,7 @@ def _forward(
         token_ids: torch.Tensor,
         position_ids: torch.Tensor | None,
         mask_inputs: bool,
-        embedding_map: tuple[torch.Tensor, torch.Tensor] | None,
+        embedding_map: torch.Tensor,
     ) -> torch.Tensor:
         Assert.eq(position_ids is None, self.position_embeddings_weight is None)
         group = self._parallel_dim.group
@@ -102,7 +98,7 @@ def _forward(
                 if self._sequence_parallel:
                     input_ = gather(input_, group=group, dim=0)
                 # Out-of-place equivalent of `embeddings[embedding_map] += input_`
-                embeddings = embeddings.index_put(embedding_map, input_[: embedding_map[0].size(0)], accumulate=True)
+                embeddings = embeddings.index_put((embedding_map,), input_[: embedding_map.size(0)], accumulate=True)
 
             if self._sequence_parallel:
                 embeddings = split(embeddings, group=group, dim=0)
@@ -122,7 +118,7 @@ def _forward(
             if self.position_embeddings_weight is not None:
                 embeddings = embeddings + torch.nn.functional.embedding(position_ids, self.position_embeddings_weight)
             if mask_inputs:
-                embeddings = embeddings * token_mask.unsqueeze(2)
+                embeddings = embeddings * token_mask.unsqueeze(-1)
 
             if input_ is not None:
                 # TODO: Accumulate redundant with masking?
@@ -131,12 +127,12 @@ def _forward(
                     input_ = gather(input_, group=group, dim=0)
                     embeddings_ = embeddings.new_zeros(embeddings.shape[0] * group.size(), *embeddings.shape[1:])
                     embeddings_ = embeddings_.index_put(
-                        embedding_map, input_[: embedding_map[0].size(0)], accumulate=True
+                        (embedding_map,), input_[: embedding_map.size(0)], accumulate=True
                     )
                     embeddings = embeddings + split(embeddings_, group=group, dim=0)
                 else:
                     embeddings = embeddings.index_put(
-                        embedding_map, input_[: embedding_map[0].size(0)], accumulate=True
+                        (embedding_map,), input_[: embedding_map.size(0)], accumulate=True
                     )
 
         with set_generator(
@@ -154,7 +150,7 @@ def forward(
     ) -> torch.Tensor:
         if isinstance(input_, TensorMeta):
             return TensorMeta.from_dims(
-                kwargs[LanguageModelKwargs.hidden_dims],
+                (kwargs[LanguageModelKwargs.hidden_token_dim], self._hidden_dim),
                 tensor_name=f"{self.module_name} output",
                 dtype=self._residual_dtype,
             )
@@ -167,8 +163,6 @@ def forward(
             # TODO: Support multiple encoders.
             # TODO: Support pipeline-parallel.
             token_ids = kwargs.get(LanguageModelKwargs.token_ids)
-            # Drop the placeholder batch dimension, remove patch padding.
-            input_ = input_.squeeze(int(kwargs[LanguageModelKwargs.sequence_first]))
 
         out = self._forward(
             input_,
@@ -178,7 +172,7 @@ def forward(
             kwargs.get(LanguageModelKwargs.mask_inputs),
             embedding_map,
         )
-        self._debug(out, None, kwargs.get(LanguageModelKwargs.hidden_dims), kwargs)
+        self._debug(out, None, (kwargs.get(LanguageModelKwargs.hidden_token_dim), self._hidden_dim), kwargs)
         return out
 
     def get_compute_usage(self, input_: TensorMeta, kwargs: dict[str, typing.Any], config: ResourceUsageConfig) -> int:
@@ -188,29 +182,12 @@ def get_compute_usage(self, input_: TensorMeta, kwargs: dict[str, typing.Any], c
     def preprocess(self, kwargs: dict[str, typing.Any]) -> None:
         if not self._config.position_embeddings.enabled:
             return
-        self._create_position_embeddings(kwargs[LanguageModelKwargs.sequence_length], self._distributed.device)
-        sequence_k = kwargs[LanguageModelKwargs.sequence_k_dim].size
-        sequence_q = kwargs[LanguageModelKwargs.sequence_q_dim].size
-        if not self._config.cross_document_position_embeddings:
-            position_ids = torch.stack(
-                [
-                    torch.cat([torch.arange(x) for x in sample_lens])
-                    for sample_lens in kwargs[LanguageModelKwargs.sequence_lengths]
-                ]
-            ).to(self._distributed.device, dtype=torch.int64)
-            position_ids = position_ids[:, sequence_k - sequence_q : sequence_k]
-            if kwargs[LanguageModelKwargs.sequence_first]:
-                position_ids = position_ids.transpose(0, 1)
-            kwargs[LanguageModelKwargs.position_ids] = position_ids
+        # TODO: Move to data preprocessing.
+        if self._config.cross_document_position_embeddings:
+            sequence_q = kwargs[LanguageModelKwargs.sequence_q_dim].size
+            sequence_k = kwargs[LanguageModelKwargs.sequence_k_dim].size
+            kwargs[LanguageModelKwargs.position_ids] = torch.arange(
+                sequence_k - sequence_q, sequence_k, device=self._distributed.device, dtype=torch.int64
+            ).repeat(kwargs[LanguageModelKwargs.batch_dim].size)
         else:
-            kwargs[LanguageModelKwargs.position_ids] = self._position_ids[
-                sequence_k - sequence_q : sequence_k
-            ].unsqueeze(int(kwargs[LanguageModelKwargs.sequence_first]))
-
-    def _create_position_embeddings(self, sequence_length: int, device: torch.device) -> None:
-        if sequence_length <= self._tensor_cache_max_sequence_length:
-            return
-        self._tensor_cache_max_sequence_length = sequence_length
-
-        Assert.leq(sequence_length, self._config.num_position_embeddings)
-        self._position_ids = torch.arange(0, sequence_length, device=device, dtype=torch.int64)
+            preprocess_for_varlen(kwargs, self._distributed.device, return_position_ids=True)
diff --git a/fast_llm/layers/language_model/head.py b/fast_llm/layers/language_model/head.py
index 144074ca5..c5bf9ff9b 100644
--- a/fast_llm/layers/language_model/head.py
+++ b/fast_llm/layers/language_model/head.py
@@ -7,7 +7,6 @@
 from torch._C._distributed_c10d import ReduceOp  # noqa
 from torch.distributed import all_reduce
 
-from fast_llm.core.ops import gather_op
 from fast_llm.engine.base_model.config import LossDef, ResourceUsageConfig
 from fast_llm.engine.config_utils.data_type import DataType
 from fast_llm.engine.config_utils.initialization import init_normal_
@@ -15,8 +14,7 @@
 from fast_llm.engine.distributed.config import DistributedConfig, DistributedDimNames
 from fast_llm.functional.autograd import AuxiliaryLoss, grad_is_context, wrap_forward_backward
 from fast_llm.functional.linear import output_parallel_linear_backward, output_parallel_linear_forward
-from fast_llm.layers.block.block import Block
-from fast_llm.layers.block.config import BlockDimNames
+from fast_llm.layers.block.block import Block, BlockBase
 from fast_llm.layers.common.peft.config import PeftConfig
 from fast_llm.layers.language_model.config import (
     LM_HEAD_LOSS_NAME,
@@ -34,13 +32,15 @@
 OUTPUT_WEIGHTS = "output_weights"
 
 
-class LanguageModelHeadBase[ConfigType: LanguageModelHeadBaseConfig](Block[ConfigType]):
+class LanguageModelHeadBase[ConfigType: LanguageModelHeadBaseConfig](BlockBase[ConfigType]):
+    heads: "list[LanguageModelHead]"
+
     @abc.abstractmethod
     def get_output_weights(self) -> list[torch.Tensor]:
         pass
 
 
-class LanguageModelHead[ConfigType: LanguageModelHeadConfig](LanguageModelHeadBase[ConfigType]):
+class LanguageModelHead[ConfigType: LanguageModelHeadConfig](LanguageModelHeadBase[ConfigType], Block):
     """
     A language model head (GPT), which combines the final layer norm, logits and cross-entropy (if applicable).
     TODO: Cleanup (dynamic type? composition?)
@@ -99,19 +99,21 @@ def __init__(
         loss_configs = (
             self._config.losses if self._config.losses else {"cross_entropy": LanguageModelLabelEntropyLossConfig()}
         )
-        self._losses = [
-            loss_config.get_layer(
-                distributed_config,
-                self._get_full_loss_name(name),
-                self._prediction_distance,
-                self._prediction_heads,
-                self._vocab_parallel,
-                self._config.cross_entropy_splits,
-                self._config.logits_scale_factor,
-                self._loss_coefficient,
-            )
-            for name, loss_config in loss_configs.items()
-        ]
+        self.losses = torch.nn.ModuleList(
+            [
+                loss_config.get_layer(
+                    distributed_config,
+                    self._get_full_loss_name(name),
+                    self._prediction_distance,
+                    self._prediction_heads,
+                    self._vocab_parallel,
+                    self._config.cross_entropy_splits,
+                    self._config.logits_scale_factor,
+                    self._loss_coefficient,
+                )
+                for name, loss_config in loss_configs.items()
+            ]
+        )
 
     def get_compute_usage(self, input_: TensorMeta, kwargs: dict[str, typing.Any], config: ResourceUsageConfig) -> int:
         # TODO: Add marginal compute? (loss)
@@ -168,7 +170,12 @@ def _forward_backward(
             ln_output = self.final_norm(input_)
             # Transformers expect normalized outputs for the last transformer layer,
             # so we add the norm output to the hidden states.
-            self._debug(ln_output, "final_norm", kwargs.get(LanguageModelKwargs.hidden_dims), kwargs)
+            self._debug(
+                ln_output,
+                "final_norm",
+                (kwargs.get(LanguageModelKwargs.hidden_token_dim), self._hidden_dim),
+                kwargs,
+            )
         loss, ln_output_grad = self._logits_loss_forward_backward(ln_output.detach(), kwargs, losses)
         if ln_output_grad is None:
             return loss, None
@@ -185,18 +192,7 @@ def _logits_loss_forward_backward(
 
         if not self.training:
             logits, _ = self._logits_loss_forward_backward_partial(input_, kwargs, return_logits=True)
-            # TODO: Make a proper way of returning the model output.
-            logits = logits.detach()
-            if kwargs.get("global_logits"):
-                if self._vocab_parallel:
-                    logits = gather_op(logits, self._parallel_dim.group, 2)
-                elif self._sequence_parallel_logits:
-                    logits = gather_op(
-                        logits, self._parallel_dim.group, 0 if kwargs[LanguageModelKwargs.sequence_first] else 1
-                    )
-            kwargs["logits" if self._prediction_distance == 0 else f"logits_{self._prediction_distance}"] = (
-                logits.detach()
-            )
+            self._debug(logits, "logits", (kwargs[LanguageModelKwargs.hidden_token_dim], self._vocab_dim), kwargs)
             return None, None
 
         input_ = input_.flatten(0, -2)
@@ -230,7 +226,7 @@ def _logits_loss_forward_backward(
 
         total_loss = sum(
             (loss_.weight / self._config.cross_entropy_splits) * loss_dict[loss_.name]
-            for loss_ in self._losses
+            for loss_ in self.losses
             if loss_.weight != 0.0 and loss_.name in loss_dict
         )
 
@@ -240,7 +236,7 @@ def _logits_loss_forward_backward(
 
         if all_losses_dict is not None:
             all_losses_dict[self._total_loss_name].append(total_loss)
-            if len(self._losses) > 1 or any(loss_.weight != 1.0 for loss_ in self._losses):
+            if len(self.losses) > 1 or any(loss_.weight != 1.0 for loss_ in self.losses):
                 for name, loss_value in loss_dict.items():
                     if self._config.cross_entropy_splits != 1:
                         loss_value /= self._config.cross_entropy_splits
@@ -265,24 +261,19 @@ def _logits_loss_forward_backward_partial(
             group=self._parallel_dim.group if self._vocab_parallel else None,
             sequence_parallel=self._sequence_parallel and self._vocab_parallel,
         )
-
-        sequence_dim = BlockDimNames.sequence_q_tp if self._sequence_parallel_logits else BlockDimNames.sequence_q
-        if LanguageModelKwargs.hidden_dims in kwargs:
-            batch_dim = kwargs[LanguageModelKwargs.hidden_dims][1 if kwargs[LanguageModelKwargs.sequence_first] else 0]
-            dims = (
-                (sequence_dim, batch_dim, self._vocab_dim)
-                if kwargs[LanguageModelKwargs.sequence_first]
-                else (batch_dim, sequence_dim, self._vocab_dim)
-            )
-        else:
-            dims = None
-        self._debug(logits, "logits", dims, kwargs, scale=self._config.logits_scale_factor)
+        self._debug(
+            logits,
+            f"logits{"" if self._config.cross_entropy_splits == 1 else f"_{split_index}"}",
+            (kwargs.get(LanguageModelKwargs.hidden_token_dim), self._hidden_dim),
+            kwargs,
+            scale=self._config.logits_scale_factor,
+        )
 
         if return_logits:
             return logits, None
 
         losses, grad = {}, None
-        for loss in self._losses:
+        for loss in self.losses:
             # losses are returned unscaled but the grads are already scaled
             loss_value, grad = loss.forward_backward(
                 logits,
@@ -304,7 +295,7 @@ def get_loss_definitions(self, count: int = 1) -> list[LossDef]:
                     count=count,
                     dtype=DataType.float32,
                 )
-                for loss in self._losses
+                for loss in self.losses
             ),
         ]
 
@@ -316,6 +307,6 @@ def _total_loss_name(self) -> str:
         return self._get_full_loss_name(LM_HEAD_LOSS_NAME)
 
     @property
-    def heads(self):
+    def heads(self) -> "list[LanguageModelHead]":
         # For compatibility with MTP.
         return [self]
diff --git a/fast_llm/layers/language_model/loss/entropy_loss.py b/fast_llm/layers/language_model/loss/entropy_loss.py
index 537c7996d..d7a76dd83 100644
--- a/fast_llm/layers/language_model/loss/entropy_loss.py
+++ b/fast_llm/layers/language_model/loss/entropy_loss.py
@@ -53,6 +53,7 @@ def forward_backward(
         split_index: int = 0,
         grad_logits: torch.Tensor | None = None,
     ) -> "tuple[torch.Tensor, torch.Tensor | None]":
+        print("logits", logits.shape)
         return (
             triton_entropy_loss_forward_backward
             if TritonConfig.enabled(logits.device, self._config.use_triton)
diff --git a/fast_llm/layers/language_model/loss/loss.py b/fast_llm/layers/language_model/loss/loss.py
index 766a5ed54..8dc88c4a1 100644
--- a/fast_llm/layers/language_model/loss/loss.py
+++ b/fast_llm/layers/language_model/loss/loss.py
@@ -11,7 +11,7 @@
 from fast_llm.utils import Assert
 
 
-class LanguageModelLoss[ConfigType: LanguageModelLossConfig](Configurable[ConfigType]):
+class LanguageModelLoss[ConfigType: LanguageModelLossConfig](Configurable[ConfigType], torch.nn.Module):
     def __init__(
         self,
         config: ConfigType,
@@ -62,19 +62,17 @@ def _prepare_target(
         split_index: int = 0,
         *,
         multi_token_format: bool = False,
+        sequence_parallel: bool = True,
     ) -> torch.Tensor | None:
         # MTP shift
         if multi_token_format and self._prediction_heads > 1:
-            sequence_first: bool = kwargs[LanguageModelLossKwargs.sequence_first]
-            sequence_q_length = target.size(1 - sequence_first) + 1 - self._prediction_heads
-            target_slice = slice(self._prediction_distance, self._prediction_distance + sequence_q_length)
-            target = target[target_slice] if sequence_first else target[:, target_slice]
-
-        # Flatten the batch and sequence dimensions.
-        target = target.flatten(0, 1)
+            sequence_q = kwargs[LanguageModelKwargs.sequence_q_dim].size
+            target = target.unflatten(
+                0, (kwargs[LanguageModelKwargs.batch_dim].size, sequence_q + self._prediction_heads - 1)
+            )[:, self._prediction_distance : self._prediction_distance + sequence_q].flatten(0, 1)
 
         # Get the local chunk.
-        if self._sequence_parallel:
+        if sequence_parallel and self._sequence_parallel:
             target = split_op(target, self._parallel_dim.group, 0)
 
         # Get the chunk for the current split.
@@ -104,7 +102,13 @@ def _get_loss_mask(self, kwargs: dict[str, typing.Any], split_index: int = 0):
         return None if loss_mask is None else self._prepare_target(loss_mask, kwargs, split_index)
 
     def _get_reference_model_logits(self, reference_model: str, kwargs: dict[str, typing.Any], split_index: int = 0):
-        return self._prepare_target(kwargs[f"{reference_model}_logits"], kwargs, split_index)
+        assert self._prediction_distance == 0
+        Assert.incl(
+            logits_name := self.module_name.rsplit(".", 2)[0] + f".logits",
+            reference_hidden_states := kwargs[f"reference_{reference_model}_hidden_states"],
+        )
+        # The logits are already sequence-parallel if needed, we don't want to split again.
+        return self._prepare_target(reference_hidden_states[logits_name], kwargs, split_index, sequence_parallel=False)
 
 
 def loss_forward_backward(
diff --git a/fast_llm/layers/language_model/multi_token_prediction.py b/fast_llm/layers/language_model/multi_token_prediction.py
index ad3395a0f..5efe2d836 100644
--- a/fast_llm/layers/language_model/multi_token_prediction.py
+++ b/fast_llm/layers/language_model/multi_token_prediction.py
@@ -7,12 +7,12 @@
 from fast_llm.engine.base_model.config import LossDef
 from fast_llm.engine.config_utils.tensor_dim import TensorDim
 from fast_llm.engine.distributed.config import DistributedConfig
-from fast_llm.layers.block.block import BlockBase
 from fast_llm.layers.common.peft.config import PeftConfig
 from fast_llm.layers.language_model.config import LanguageModelEmbeddingsConfig, MultiTokenPredictionConfig
+from fast_llm.layers.language_model.head import LanguageModelHeadBase
 
 
-class MultiTokenPrediction[ConfigType: MultiTokenPredictionConfig](BlockBase[ConfigType]):
+class MultiTokenPrediction[ConfigType: MultiTokenPredictionConfig](LanguageModelHeadBase[ConfigType]):
     _config: ConfigType
 
     def __init__(
diff --git a/fast_llm/layers/ssm/gdn.py b/fast_llm/layers/ssm/gdn.py
index c7a2c1c59..5e721d424 100644
--- a/fast_llm/layers/ssm/gdn.py
+++ b/fast_llm/layers/ssm/gdn.py
@@ -12,7 +12,6 @@
 from fast_llm.functional.config import ActivationType
 from fast_llm.layers.attention.config import MixerKwargs
 from fast_llm.layers.attention.preprocessing import preprocess_for_varlen
-from fast_llm.layers.block.config import BlockKwargs
 from fast_llm.layers.common.peft.config import PeftConfig
 from fast_llm.layers.decoder.block import BlockWithBias
 from fast_llm.layers.ssm.config import GatedDeltaNetConfig
@@ -301,16 +300,12 @@ def _forward(
         -
         """
 
-        sequence_first = kwargs[BlockKwargs.sequence_first]
         # in sequence parallel TP the input here is already scattered across sequence dimension
         # TODO: fuse soome of the reshapes into rearranges
         hidden_states = input_
 
         projected_states_qkvz = self.in_proj_qkvz(hidden_states)  # bs/seq x seq_len/bs x (qkvz)
         projected_states_ba = self.in_proj_ba(hidden_states)  # bs/seq x seq_len/bs x (b a)
-        if sequence_first:
-            projected_states_qkvz = projected_states_qkvz.transpose(0, 1)
-            projected_states_ba = projected_states_ba.transpose(0, 1)
 
         batch_size, sequence_length = projected_states_qkvz.shape[:2]
 
@@ -371,8 +366,6 @@ def _forward(
         core_attn_out = self.norm(core_attn_out, z)
         core_attn_out = core_attn_out.reshape(z_shape_og)
         core_attn_out = core_attn_out.reshape(core_attn_out.shape[0], core_attn_out.shape[1], -1)
-        if sequence_first:
-            core_attn_out = core_attn_out.transpose(0, 1)
         output = self.out_proj(core_attn_out)
 
         return output
diff --git a/fast_llm/layers/ssm/kda.py b/fast_llm/layers/ssm/kda.py
index 94cde7d5f..07ca3a997 100644
--- a/fast_llm/layers/ssm/kda.py
+++ b/fast_llm/layers/ssm/kda.py
@@ -11,7 +11,6 @@
 from fast_llm.functional.config import ActivationType
 from fast_llm.layers.attention.config import MixerKwargs
 from fast_llm.layers.attention.preprocessing import preprocess_for_varlen
-from fast_llm.layers.block.config import BlockKwargs
 from fast_llm.layers.common.peft.config import PeftConfig
 from fast_llm.layers.decoder.block import BlockWithBias
 from fast_llm.layers.ssm.config import KimiDeltaAttentionConfig
@@ -229,7 +228,6 @@ def _forward(
         """
         Same as in gdn, the idea is to always do forward pass in a packed way, whcih is required for varlen support.
         """
-        sequence_first = kwargs[BlockKwargs.sequence_first]
         hidden_states = input_
 
         # TODO: can be made more efficeint by rearranging hidden states directly and only once
@@ -239,11 +237,6 @@ def _forward(
         k = self.k_proj(hidden_states)
         v = self.v_proj(hidden_states)
 
-        if sequence_first:
-            q = q.transpose(0, 1)
-            k = k.transpose(0, 1)
-            v = v.transpose(0, 1)
-
         batch_size, sequence_length, _ = q.size()
         q = rearrange(q, "b s ... -> (b s) ...").unsqueeze(0)
         k = rearrange(k, "b s ... -> (b s) ...").unsqueeze(0)
@@ -257,8 +250,6 @@ def _forward(
         v = self._apply_conv(v, self.v_conv, seq_idx)
 
         g_kernel = self.f_b_proj(self.f_a_proj(hidden_states))
-        if sequence_first:
-            g_kernel = g_kernel.transpose(0, 1)
         g_kernel = self._reshape_heads(g_kernel)
         g_kernel = rearrange(g_kernel, "b s ... -> (b s) ...").unsqueeze(0)
 
@@ -268,8 +259,6 @@ def _forward(
         q = self._reshape_heads(q)
         k = self._reshape_heads(k)
         v = self._reshape_heads(v)
-        if sequence_first:
-            beta = beta.transpose(0, 1)
         beta = rearrange(beta, "b s h -> (b s) h").unsqueeze(0)
 
         # need to install nightly triton for this to work on H100, see https://github.com/fla-org/flash-linear-attention/blob/main/FAQs.md
@@ -290,14 +279,10 @@ def _forward(
 
         g_out = self.g_b_proj(self.g_a_proj(hidden_states))  # bs x seq x n_local_heads x head dim
         g_out = self._reshape_heads(g_out)
-        if sequence_first:
-            g_out = g_out.transpose(0, 1)
 
         attn_out = rearrange(attn_out.squeeze(0), "(b s) h d -> b s h d", b=batch_size, s=sequence_length)
         attn_out = self.norm(attn_out, g_out)
         attn_out = rearrange(attn_out, "b s h d -> b s (h d)")
-        if sequence_first:
-            attn_out = attn_out.transpose(0, 1)
         attn_out = self.o_proj(attn_out)
 
         return attn_out
diff --git a/fast_llm/layers/ssm/mamba.py b/fast_llm/layers/ssm/mamba.py
index 81b82d08e..fd6255e6c 100644
--- a/fast_llm/layers/ssm/mamba.py
+++ b/fast_llm/layers/ssm/mamba.py
@@ -166,16 +166,11 @@ def _forward(
     ) -> tuple[torch.Tensor, torch.Tensor | None]:
         assert _mamba_available
 
-        # inner_projection : (batch/local_sequence, local_sequence/batch, hidden)
-        #   -> (batch/sequence, sequence/batch, local_inner_projection)
-        inner_projection = self.in_proj(input_)
-        dt = self.dt_proj(self.dt_in_proj(input_))
-        # Standardize to (batch, sequence, local_inner_projection)
-        if kwargs[BlockKwargs.sequence_first]:
-            inner_projection = inner_projection.transpose(0, 1)
-            dt = dt.transpose(0, 1)
-
-        sequence_length = inner_projection.size(1)
+        sequence_length = kwargs[BlockKwargs.sequence_q_dim].size
+        token_shape = (kwargs[BlockKwargs.batch_dim].size, kwargs[BlockKwargs.sequence_q_dim].size)
+        # inner_projection : (local_tokens, hidden) -> (batch, sequence, local_inner_projection)
+        inner_projection = self.in_proj(input_).unflatten(0, token_shape)
+        dt = self.dt_proj(self.dt_in_proj(input_)).unflatten(0, token_shape)
 
         z, x, b, c = torch.split(
             inner_projection,
@@ -245,13 +240,10 @@ def _forward(
 
         # y: (batch, local_heads * state, sequence) -> (batch, sequence, local_heads * state)
         y = y.transpose(1, 2)[:, :sequence_length]
-        if kwargs[BlockKwargs.sequence_first]:
-            # TODO: Is contiguous needed?
-            y = y.transpose(0, 1).contiguous()
-        # (batch/sequence, sequence/batch, local_heads * state)
-        #   -> (batch/local_sequence, local_sequence/batch, hidden)
-        out, bias = self.out_proj(y)
-        self._debug(out, None, kwargs.get(BlockKwargs.hidden_dims), kwargs)
+        # (batch, sequence, local_heads * state)
+        #   -> (local_tokens, hidden)
+        out, bias = self.out_proj(y.flatten(0, 1))
+        self._debug(out, None, (kwargs.get(BlockKwargs.hidden_token_dim), self._hidden_dim), kwargs)
         return out, bias
 
     def get_compute_usage(self, input_: TensorMeta, kwargs: dict[str, typing.Any], config: ResourceUsageConfig) -> int:
diff --git a/fast_llm/layers/vision/embeddings.py b/fast_llm/layers/vision/embeddings.py
index 2076f72e5..0b0434f56 100644
--- a/fast_llm/layers/vision/embeddings.py
+++ b/fast_llm/layers/vision/embeddings.py
@@ -6,7 +6,6 @@
 from fast_llm.engine.config_utils.initialization import init_normal_
 from fast_llm.engine.config_utils.tensor_dim import TensorDim
 from fast_llm.engine.distributed.config import DistributedConfig, DistributedDimNames
-from fast_llm.layers.attention.config import AttentionKwargs
 from fast_llm.layers.block.block import Block
 from fast_llm.layers.common.peft.config import PeftConfig
 from fast_llm.layers.vision.config import PatchEmbeddingsConfig, VisionKwargs
@@ -60,17 +59,13 @@ def forward(
     ) -> torch.Tensor:
         if isinstance(input_, TensorMeta):
             return TensorMeta.from_dims(
-                kwargs[VisionKwargs.hidden_dims],
+                (kwargs[VisionKwargs.hidden_token_dim], self._hidden_dim),
                 tensor_name="Patch convolution output",
                 dtype=self._residual_dtype,
             )
         if self._sequence_parallel:
             input_ = split(input_, group=self._parallel_dim.group, dim=0)
 
-        out = (
-            self.normalization(self.patch_embeddings(input_.flatten(1)))
-            .unsqueeze(int(kwargs[AttentionKwargs.sequence_first]))
-            .to(self._residual_dtype)
-        )
-        self._debug(out, None, kwargs.get(VisionKwargs.hidden_dims), kwargs)
+        out = self.normalization(self.patch_embeddings(input_.flatten(1))).to(self._residual_dtype)
+        self._debug(out, None, (kwargs.get(VisionKwargs.hidden_token_dim), self._hidden_dim), kwargs)
         return out
diff --git a/fast_llm/models/gpt/huggingface.py b/fast_llm/models/gpt/huggingface.py
index a418c3fb5..387610a46 100644
--- a/fast_llm/models/gpt/huggingface.py
+++ b/fast_llm/models/gpt/huggingface.py
@@ -135,20 +135,20 @@ def _inner_forward(
             # The transformers will save the present keys and values to this list.
             kwargs[AttentionKwargs.presents] = []
 
-        kwargs["global_logits"] = True
-
         self._inference_runner.forward(input_, kwargs, iteration=iteration)
 
         # TODO: Make a proper way of returning the model output.
-        if kwargs[AttentionKwargs.sequence_first]:
-            logits = kwargs["logits"].transpose(0, 1)
-        else:
-            logits = kwargs["logits"]
+        # TODO: Handle MTP.
+        logits_meta, logits = kwargs[AttentionKwargs.hidden_states]["head.logits"]
+        logits, _ = logits_meta.local_to_global(logits)
+        logits = logits.unflatten(
+            0, (kwargs[AttentionKwargs.batch_dim].global_size, kwargs[AttentionKwargs.sequence_q_dim].global_size)
+        )
 
         if output_hidden_states:
             hidden_states = {
                 key: tensor if meta is None else meta.local_to_global(tensor)[0]
-                for key, (meta, tensor) in kwargs["hidden_states"].items()
+                for key, (meta, tensor) in kwargs[AttentionKwargs.hidden_states].items()
             }
         else:
             hidden_states = None
diff --git a/fast_llm/models/gpt/model.py b/fast_llm/models/gpt/model.py
index bd2932984..cabcdc489 100644
--- a/fast_llm/models/gpt/model.py
+++ b/fast_llm/models/gpt/model.py
@@ -1,3 +1,4 @@
+import functools
 import logging
 import re
 import typing
@@ -72,35 +73,29 @@ def preprocess_meta(
             micro_sequence_length,
             self._distributed_config.get_distributed_dim(DistributedDimNames.sequence_data),
         )
-        hidden_sequence_q_dim = (
-            TensorDim(
-                BlockDimNames.sequence_q_tp,
-                micro_sequence_length,
-                self._distributed_config.get_distributed_dim(DistributedDimNames.tensor_and_sequence_data),
+        token_dim = TensorDim(
+            "token",
+            batch_dim.global_size * sequence_q_dim.global_size,
+            self._distributed_config.get_distributed_dim(DistributedDimNames.data),
+        )
+        # The token dimension as appears in hidden states, i.e. with possible sequence-tensor-parallel split.
+        hidden_token_dim = (
+            (
+                "token_tp",
+                token_dim.global_size,
+                self._distributed_config.get_distributed_dim(DistributedDimNames.tensor_and_data),
             )
             if self._distributed_config.sequence_tensor_parallel
-            else sequence_q_dim
-        )
-
-        need_sequence_first = hidden_sequence_q_dim.size != sequence_length
-        if self._config.sequence_first is None:
-            sequence_first = need_sequence_first
-        else:
-            sequence_first = self._config.sequence_first
-            assert not (need_sequence_first and not sequence_first)
-
-        hidden_dims = (
-            (hidden_sequence_q_dim, batch_dim, self._hidden_dim)
-            if sequence_first
-            else (batch_dim, hidden_sequence_q_dim, self._hidden_dim)
+            else token_dim
         )
 
         common_kwargs = {
             LanguageModelKwargs.phase: phase,
-            AttentionKwargs.sequence_first: sequence_first,
-            AttentionKwargs.hidden_dims: hidden_dims,
             AttentionKwargs.sequence_length: sequence_length,
+            AttentionKwargs.batch_dim: batch_dim,
             AttentionKwargs.sequence_q_dim: sequence_q_dim,
+            AttentionKwargs.token_dim: token_dim,
+            AttentionKwargs.hidden_token_dim: hidden_token_dim,
             LanguageModelKwargs.mask_inputs: not truncate_documents,
         }
 
@@ -122,7 +117,7 @@ def preprocess_meta(
             sequence_k_dim = TensorDim(BlockDimNames.sequence_k, sequence_k)
 
             tokens = TensorMeta.from_dims(
-                hidden_dims[:2], tensor_name=f"tokens_{sequence_k_past}_to_{sequence_k-1}", dtype=torch.int64
+                (token_dim,), tensor_name=f"tokens_{sequence_k_past}_to_{sequence_k-1}", dtype=torch.int64
             )
 
             kwargs = {
@@ -131,16 +126,18 @@ def preprocess_meta(
             }
             if phase != PhaseType.inference:
                 kwargs[LanguageModelKwargs.labels] = TensorMeta.from_dims(
-                    hidden_dims[:2], tensor_name="labels", dtype=torch.int64
+                    (token_dim,), tensor_name="labels", dtype=torch.int64
                 )
             reference_kwargs = {}
             for name, reference_preprocessed_meta in reference_preprocessed_metas.items():
                 reference_tokens, reference_kwargs_ = reference_preprocessed_meta[i]
                 for key in (
-                    AttentionKwargs.sequence_first,
                     AttentionKwargs.sequence_length,
+                    AttentionKwargs.batch_dim,
                     AttentionKwargs.sequence_q_dim,
                     AttentionKwargs.sequence_k_dim,
+                    AttentionKwargs.token_dim,
+                    AttentionKwargs.hidden_token_dim,
                 ):
                     Assert.eq(reference_kwargs_[key], kwargs[key])
                 reference_kwargs[name] = reference_kwargs_
@@ -158,6 +155,7 @@ def preprocess_batch(
         phase: PhaseType,
         iteration: int,
         metrics: dict | None = None,
+        extra_kwargs: dict[str, typing.Any] | None = None,
     ) -> list[tuple[torch.Tensor, dict]]:
         # TODO Move batch splitting elsewhere, align interface with LayerBase
         assert self._is_setup
@@ -167,44 +165,18 @@ def preprocess_batch(
         if preprocessed_meta is None:
             preprocessed_meta = self.preprocess_meta(batch, phase)
 
-        distillation_models = self._config.decoder.get_reference_models()
-        # TODO: Support multiple distillation models?
-        assert len(distillation_models) <= 1
-        reference_logits = [{} for _ in preprocessed_meta]
+        reference_preprocessed_batches = {}
         for name, reference_model in self._reference_models.items():
             reference_preprocessed_meta = [
                 (tokens_meta, kwargs_meta["reference_models"][name]) for tokens_meta, kwargs_meta in preprocessed_meta
             ]
-
-            # Set output_hidden_states in reference metadata before preprocessing if needed for distillation
-            if name in distillation_models:
-                reference_output_hidden_states = [r"decoder\.\d+\.mixer_output$"]
-                for _, ref_kwargs_meta in reference_preprocessed_meta:
-                    ref_kwargs_meta[BlockKwargs.output_hidden_states] = [
-                        re.compile(pattern) for pattern in reference_output_hidden_states
-                    ]
-
-            reference_batch = reference_model.fast_llm_model.base_model.preprocess_batch(
+            reference_preprocessed_batches[name] = reference_model.fast_llm_model.base_model.preprocess_batch(
                 batch,
                 reference_preprocessed_meta,
                 phase=PhaseType.inference,
                 iteration=iteration,
             )
 
-            # TODO: Do things work with >1?
-            Assert.eq(len(reference_batch), len(preprocessed_meta), 1)
-            for i, (reference_tokens, reference_kwargs) in enumerate(reference_batch):
-                reference_model.forward(reference_tokens, reference_kwargs, iteration=iteration)
-                reference_logits[i][f"{name}_logits"] = reference_kwargs["logits"]
-                if BlockKwargs.hidden_states in reference_kwargs and reference_kwargs[BlockKwargs.hidden_states]:
-                    # Extract activations from hidden_states dict (stored by _debug method)
-                    # Format: {layer_name: (meta, tensor), ...}
-                    activations = {
-                        layer_name: tensor
-                        for layer_name, (meta, tensor) in reference_kwargs[BlockKwargs.hidden_states].items()
-                    }
-                    reference_logits[i][f"{name}_activations"] = activations
-
         preprocessed = []
         presents = None
         for i, (_, kwargs_meta) in enumerate(preprocessed_meta):
@@ -217,50 +189,66 @@ def preprocess_batch(
             pasts = presents
             presents = None if i == len(preprocessed_meta) - 1 else []
 
-            # Create activation mask for activation distillation
-            # This mask should:
-            # - Be 0 on padding tokens (added at the end when documents aren't truncated)
-            # - Be 1 on image placeholder tokens (token value -100 but not padding)
-            # - Be 1 on all other valid tokens (ignores loss-masking-spans)
-            #
-            # Note: Padding is added as a separate document with all tokens = -100
-            # We detect padding by checking if all tokens in a document segment are -100
-            activation_mask = torch.ones_like(cropped_tokens.tokens, dtype=torch.bool)
-
-            for sample_index, sample_lengths in enumerate(cropped_tokens.lengths):
-                # Iterate through documents in this sample
-                pos = 0
-                for doc_length in sample_lengths:
-                    # Check if this document is padding (all tokens are -100)
-                    doc_tokens = cropped_tokens.tokens[sample_index, pos : pos + doc_length]
-                    is_padding_doc = torch.all(doc_tokens == -100).item()
-
-                    if is_padding_doc:
-                        # This is a padding document, mask it out
-                        activation_mask[sample_index, pos : pos + doc_length] = False
-
-                    pos += doc_length
-
             kwargs: dict[str, typing.Any] = {
                 **kwargs_meta,
                 AttentionKwargs.past_key_values: pasts,
                 AttentionKwargs.presents: presents,
                 BlockKwargs.iteration: iteration,
                 AttentionKwargs.sequence_lengths: cropped_tokens.lengths,
-                BlockKwargs.activation_mask: activation_mask,
                 AttentionKwargs.device: self._distributed.device,
+                BlockKwargs.output_hidden_states: [],
                 BlockKwargs.hidden_states: {},
-                **reference_logits[i],
             }
+            if extra_kwargs is not None:
+                Assert.empty(kwargs.keys() & extra_kwargs.keys())
+                kwargs.update(extra_kwargs)
+
+            # TODO: Simplify, check more carefully if needed.
+            if self._decoder_reference_models:
+                # Create activation mask for activation distillation
+                # This mask should:
+                # - Be 0 on padding tokens (added at the end when documents aren't truncated)
+                # - Be 1 on image placeholder tokens (token value -100 but not padding)
+                # - Be 1 on all other valid tokens (ignores loss-masking-spans)
+                #
+                # Note: Padding is added as a separate document with all tokens = -100
+                # We detect padding by checking if all tokens in a document segment are -100
+                activation_mask = torch.ones_like(cropped_tokens.tokens, dtype=torch.bool)
+
+                for sample_index, sample_lengths in enumerate(cropped_tokens.lengths):
+                    # Iterate through documents in this sample
+                    pos = 0
+                    for doc_length in sample_lengths:
+                        # Check if this document is padding (all tokens are -100)
+                        doc_tokens = cropped_tokens.tokens[sample_index, pos : pos + doc_length]
+                        is_padding_doc = torch.all(doc_tokens == -100).item()
+
+                        if is_padding_doc:
+                            # This is a padding document, mask it out
+                            activation_mask[sample_index, pos : pos + doc_length] = False
+
+                        pos += doc_length
+
+                kwargs[BlockKwargs.activation_mask] = activation_mask.flatten()
+
+            for name, reference_model in self._reference_models.items():
+                reference_tokens, reference_kwargs = reference_preprocessed_batches[name][i]
+                if name in self._decoder_reference_models:
+                    # TODO: Get the actual names
+                    reference_kwargs[BlockKwargs.output_hidden_states].append(
+                        re.compile(r"decoder\.\d+\.mixer_output$")
+                    )
 
-            # Add activation-distillation targets
-            assert len(distillation_models) <= 1
-            for distillation_model in distillation_models:
-                teacher_key = f"{distillation_model}_activations"
-                if teacher_key in reference_logits[i]:
-                    kwargs[BlockKwargs.activation_distillation_targets] = reference_logits[i].pop(teacher_key)
+                reference_model.forward(reference_tokens, reference_kwargs, iteration=iteration)
 
-            if phase != PhaseType.inference:
+                kwargs[f"reference_{name}_hidden_states"] = {
+                    layer_name: tensor
+                    for layer_name, (meta, tensor) in reference_kwargs[BlockKwargs.hidden_states].items()
+                }
+
+            if phase == PhaseType.inference:
+                kwargs[BlockKwargs.output_hidden_states].append(re.compile(r"head\..*logits.*$"))
+            else:
                 labels_begin = tokens_begin + 1
                 labels_end = tokens_end + self._config.head.max_prediction_distance
                 labels = batch.tokens.crop(labels_begin, labels_end).tokens
@@ -273,18 +261,13 @@ def preprocess_batch(
                             loss_mask[sample_index, begin:end] = False
                     labels = torch.where(loss_mask, labels, -100)
 
+                labels = labels.flatten(0, 1)
+                kwargs[LanguageModelKwargs.labels] = labels
+
                 if self._config.head.get_reference_models():  # loss masks only used for distillation currently
                     # loss masks contain all three sources of masking: padding, user-defined spans, image placeholders
                     kwargs[LanguageModelKwargs.loss_mask] = labels >= 0
 
-                kwargs[LanguageModelKwargs.labels] = (
-                    labels.transpose(0, 1) if kwargs[AttentionKwargs.sequence_first] else labels
-                ).contiguous()
-                if LanguageModelKwargs.loss_mask in kwargs and kwargs[AttentionKwargs.sequence_first]:
-                    kwargs[LanguageModelKwargs.loss_mask] = (
-                        kwargs[LanguageModelKwargs.loss_mask].transpose(0, 1).contiguous()
-                    )
-
                 if batch.chosen_spans is not None:
                     kwargs[LanguageModelKwargs.chosen_spans] = batch.chosen_spans.crop(labels_begin, labels_end).ranges
 
@@ -293,11 +276,7 @@ def preprocess_batch(
                         labels_begin, labels_end
                     ).ranges
 
-            tokens = (
-                cropped_tokens.tokens.transpose(0, 1)
-                if kwargs[AttentionKwargs.sequence_first]
-                else cropped_tokens.tokens
-            ).contiguous()
+            tokens = cropped_tokens.tokens.flatten(0, 1)
             self.preprocess(kwargs)
             preprocessed.append((tokens, kwargs))
 
@@ -310,6 +289,19 @@ def get_tied_parameters(self) -> dict[str, tuple[ParameterMeta, tuple[int, ...]]
             output_weights.insert(0, self.embeddings.word_embeddings_weight)
         return {output_weights[0].tensor_name: output_weights} if len(output_weights) > 1 else {}
 
+    @functools.cached_property
+    def _decoder_reference_models(self) -> set[str]:
+        out = self._config.decoder.get_reference_models()
+        Assert.leq(out, self._reference_models.keys())
+        Assert.leq(len(out), 1)
+        return out
+
+    @functools.cached_property
+    def _head_reference_models(self) -> set[str]:
+        out = self._config.head.get_reference_models()
+        Assert.leq(out, self._reference_models.keys())
+        return out
+
 
 class GPTModel[ConfigType: GPTModelConfig](FastLLMModel[ConfigType]):
     # TODO: Can we drop class?
diff --git a/fast_llm/models/multimodal/model.py b/fast_llm/models/multimodal/model.py
index 890d5760e..e90bd4d89 100644
--- a/fast_llm/models/multimodal/model.py
+++ b/fast_llm/models/multimodal/model.py
@@ -9,7 +9,6 @@
 from fast_llm.engine.distributed.config import DistributedDim, DistributedDimNames, PhaseType
 from fast_llm.engine.inference.runner import InferenceRunner
 from fast_llm.layers.attention.config import AttentionKwargs
-from fast_llm.layers.block.config import BlockDimNames, BlockKwargs
 from fast_llm.layers.language_model.config import LanguageModelKwargs
 from fast_llm.layers.vision.config import VisionKwargs
 from fast_llm.layers.vision.vision_encoder import VisionMultiModalModel
@@ -97,54 +96,48 @@ def preprocess_meta(
             # TODO: What about sequence data?
             batch_data_dim = self._distributed_config.get_distributed_dim(DistributedDimNames.batch_data)
 
-            micro_sequence_length = tokens.global_shape.numel()
-
-            batch_and_sequence_q_dim = PatchSequenceTensorDim(
-                BlockDimNames.sequence_q,
-                micro_sequence_length,
+            token_dim = PatchSequenceTensorDim(
+                "token",
+                kwargs[VisionKwargs.token_dim].global_size,
                 self._distributed_config.get_distributed_dim(DistributedDimNames.data),
                 batch_data_dim,
             )
-            hidden_batch_and_sequence_q_dim = (
+            hidden_token_dim = (
                 PatchSequenceTensorDim(
-                    BlockDimNames.sequence_q_tp,
-                    micro_sequence_length,
+                    "token_tp",
+                    token_dim.global_size,
                     self._distributed_config.get_distributed_dim(DistributedDimNames.tensor_and_data),
                     batch_data_dim,
                 )
                 if self._distributed_config.sequence_tensor_parallel
-                else batch_and_sequence_q_dim
+                else token_dim
             )
             # These are used by the model (preprocessing) and shouldn't see the batch-parallel dim.
             sequence_q_dim = TensorDim(
-                BlockDimNames.sequence_q,
-                micro_sequence_length,
+                "sequence_q",
+                token_dim.global_size,
                 self._distributed_config.get_distributed_dim(DistributedDimNames.sequence_data),
             )
-            sequence_k_dim = TensorDim(BlockDimNames.sequence_k, micro_sequence_length)
+            TensorDim("sequence_k", token_dim.global_size)
 
             image_patches = TensorMeta.from_dims(
                 (
                     # We combine the batch and sequence dims to allow for variable sequence lengths.
                     # Gives the same result, assuming we disable cross-image attention (TODO: Enforce)
-                    batch_and_sequence_q_dim,
+                    token_dim,
                     # TODO: Relate to tensor dims in patch convolution.
                     TensorDim("input_channels", self._config.vision_encoder.embeddings.input_channels),
                     TensorDim("patch_height", self._config.vision_encoder.embeddings.patch_height),
                     TensorDim("patch_width", self._config.vision_encoder.embeddings.patch_width),
                 )
             )
-            # Use vision encoder's internal hidden dim (for embeddings/encoder), not the output dim (for adapter)
-            hidden_dims = (
-                (hidden_batch_and_sequence_q_dim, scalar_dim, self.vision_encoder._vision_hidden_dim)
-                if (sequence_first := kwargs[LanguageModelKwargs.sequence_first])
-                else (scalar_dim, hidden_batch_and_sequence_q_dim, self.vision_encoder._vision_hidden_dim)
-            )
             kwargs[self._vision_encoder_namespace] = {
-                VisionKwargs.sequence_first: sequence_first,
-                VisionKwargs.sequence_k_dim: sequence_k_dim,
-                VisionKwargs.sequence_q_dim: sequence_q_dim,
-                VisionKwargs.hidden_dims: hidden_dims,
+                VisionKwargs.sequence_length: kwargs[VisionKwargs.sequence_length],
+                VisionKwargs.batch_dim: scalar_dim,
+                VisionKwargs.sequence_q_dim: token_dim,
+                VisionKwargs.sequence_k_dim: token_dim,
+                VisionKwargs.token_dim: token_dim,
+                VisionKwargs.hidden_token_dim: hidden_token_dim,
             }
 
             preprocessed_meta.append((image_patches, kwargs))
@@ -159,9 +152,10 @@ def preprocess_batch(
         phase: PhaseType,
         iteration: int,
         metrics: dict | None = None,
+        extra_kwargs: dict[str, typing.Any] | None = None,
     ) -> list[tuple[torch.Tensor, dict]]:
         preprocessed = super().preprocess_batch(
-            batch, preprocessed_meta, phase=phase, iteration=iteration, metrics=metrics
+            batch, preprocessed_meta, phase=phase, iteration=iteration, metrics=metrics, extra_kwargs=extra_kwargs
         )
         # TODO: Support micro-sequences.
         assert len(preprocessed) == 1, "Micro-sequences not supported for MultiModalModel."
@@ -194,22 +188,17 @@ def preprocess_batch(
             VisionKwargs.sequence_lengths: [cropped_image_patches.lengths + [pad_size]],
             VisionKwargs.sequence_length: sequence_length,
             VisionKwargs.device: self._distributed.device,
-            BlockKwargs.output_hidden_states: kwargs.get(BlockKwargs.output_hidden_states, []),
-            BlockKwargs.hidden_states: kwargs[BlockKwargs.hidden_states],
+            VisionKwargs.output_hidden_states: kwargs.get(VisionKwargs.output_hidden_states, []),
+            VisionKwargs.hidden_states: kwargs[VisionKwargs.hidden_states],
         }
         # We need to modify `local_unpadded_size` directly in `preprocessed_meta` since it's the one used by the engine.
         # Unsafe, but only needed for testing.
         # TODO: Doesn't work with gradient accumulation (only sees the last value).
-        hidden_batch_and_sequence_q_dim = kwargs[self._vision_encoder_namespace][VisionKwargs.hidden_dims][
-            0 if kwargs[self._vision_encoder_namespace][VisionKwargs.sequence_first] else 1
-        ]
-        assert isinstance(hidden_batch_and_sequence_q_dim, PatchSequenceTensorDim)
         PatchSequenceTensorDim.local_unpadded_size = cropped_image_patches.patches.size(0)
 
         kwargs[LanguageModelKwargs.embedding_map] = (
-            (cropped_image_patches.token_map, cropped_image_patches.sample_map)
-            if kwargs[LanguageModelKwargs.sequence_first]
-            else (cropped_image_patches.sample_map, cropped_image_patches.token_map)
+            cropped_image_patches.sample_map * kwargs[VisionKwargs.sequence_q_dim].size
+            + cropped_image_patches.token_map
         )
 
         super().preprocess(kwargs)
diff --git a/tests/layers/test_lm_head.py b/tests/layers/test_lm_head.py
index ee3e0e2e1..b1a922099 100644
--- a/tests/layers/test_lm_head.py
+++ b/tests/layers/test_lm_head.py
@@ -6,6 +6,7 @@
 import torch
 
 from fast_llm.engine.config_utils.data_type import DataType
+from fast_llm.engine.config_utils.tensor_dim import TensorDim
 from fast_llm.layers.attention.config import AttentionKwargs
 from fast_llm.layers.language_model.config import LM_HEAD_LOSS_NAME, LanguageModelKwargs
 from fast_llm.layers.language_model.head import LanguageModelHead
@@ -28,7 +29,6 @@ class LMHeadTestConfig:
     logits_scale_factor: float = 1.0
     compute_dtype: DataType = DataType.float32
     full_precision_residual: bool = False
-    sequence_first: bool = False
     loss_masking: bool = False
     prediction_heads: int = 1
     tied_embedding_weight: bool = False
@@ -88,22 +88,15 @@ def get_config(self) -> GPTModelConfig:
     def get_inputs(self) -> tuple[torch.Tensor, dict[str, typing.Any]]:
         device = "cuda" if torch.cuda.is_available() else "cpu"
         input_ = torch.randn(
-            (
-                (SEQUENCE_LENGTH, BATCH_SIZE, HIDDEN_SIZE)
-                if self.sequence_first
-                else (BATCH_SIZE, SEQUENCE_LENGTH, HIDDEN_SIZE)
-            ),
+            (BATCH_SIZE * SEQUENCE_LENGTH, HIDDEN_SIZE),
             dtype=(torch.float32 if self.full_precision_residual else self.compute_dtype.torch),
             device=device,
             requires_grad=True,
         )
-        label_shape = (
-            (SEQUENCE_LENGTH + self.prediction_heads - 1, BATCH_SIZE)
-            if self.sequence_first
-            else (BATCH_SIZE, SEQUENCE_LENGTH + self.prediction_heads - 1)
-        )
+        label_shape = (BATCH_SIZE * (SEQUENCE_LENGTH + self.prediction_heads - 1),)
         kwargs: dict[str, typing.Any] = {
-            AttentionKwargs.sequence_first: self.sequence_first,
+            AttentionKwargs.batch_dim: TensorDim("batch", BATCH_SIZE),
+            AttentionKwargs.sequence_q_dim: TensorDim("sequence_q", SEQUENCE_LENGTH),
             AttentionKwargs.grad_output: 1.0,
         }
         if self.loss_masking:
@@ -122,11 +115,13 @@ def get_inputs(self) -> tuple[torch.Tensor, dict[str, typing.Any]]:
 
         if self.distillation_loss is not False:
             assert self.prediction_heads == 1
-            kwargs[f"distillation_logits"] = torch.randn(
-                input_.shape[:-1] + (VOCAB_SIZE,),
-                dtype=input_.dtype,
-                device=device,
-            )
+            kwargs[f"reference_distillation_hidden_states"] = {
+                "head.logits": torch.randn(
+                    input_.shape[:-1] + (VOCAB_SIZE,),
+                    dtype=input_.dtype,
+                    device=device,
+                )
+            }
         return input_, kwargs
 
     def get_reference_outputs(
@@ -153,28 +148,25 @@ def get_reference_outputs(
         losses = {}
 
         if self.actual_label_loss is not False:
-            if self.sequence_first:
-                labels = kwargs[LanguageModelKwargs.labels][
-                    head._prediction_distance : head._prediction_distance + logits.size(0)
-                ]
-            else:
-                labels = kwargs[LanguageModelKwargs.labels][
-                    :, head._prediction_distance : head._prediction_distance + logits.size(1)
+            labels = (
+                kwargs[LanguageModelKwargs.labels]
+                .view(BATCH_SIZE, (SEQUENCE_LENGTH + self.prediction_heads - 1))[
+                    :, head._prediction_distance : head._prediction_distance + SEQUENCE_LENGTH
                 ]
-            label_loss = torch.nn.functional.cross_entropy(
-                logits.flatten(0, -2), labels.flatten(), reduction="none"
-            ).mean()
+                .flatten()
+            )
+            label_loss = torch.nn.functional.cross_entropy(logits, labels, reduction="none").mean()
             losses["label"] = label_loss.detach()
             total_loss = total_loss + float(self.actual_label_loss) * label_loss
 
         if self.distillation_loss is not False:
             distillation_loss = torch.nn.functional.cross_entropy(
-                logits.flatten(0, -2),
-                torch.softmax(kwargs[f"distillation_logits"].flatten(0, -2), -1),
+                logits,
+                torch.softmax(kwargs[f"reference_distillation_hidden_states"]["head.logits"], -1),
                 reduction="none",
             )
             if LanguageModelKwargs.loss_mask in kwargs:
-                distillation_loss = distillation_loss * kwargs[LanguageModelKwargs.loss_mask].flatten()
+                distillation_loss = distillation_loss * kwargs[LanguageModelKwargs.loss_mask]
             distillation_loss = distillation_loss.mean()
             losses["distillation"] = distillation_loss.detach()
             total_loss = total_loss + float(self.distillation_loss) * distillation_loss
@@ -220,7 +212,6 @@ def _add_configs(base_name: str, **kwargs):
 _add_configs("default")
 _add_configs("bfloat16", compute_dtype=DataType.bfloat16)
 _add_configs("full_precision_residual", full_precision_residual=True)
-_add_configs("sequence_first", sequence_first=True)
 _add_configs("logit_scaling", logits_scale_factor=5.0)
 _add_configs("tied_embedding_weight", tied_embedding_weight=True)
 _add_configs("multi_token_prediction", prediction_heads=2)
@@ -240,7 +231,7 @@ def _add_configs(base_name: str, **kwargs):
         for _lm_head_test_config in _lm_head_test_configs
     ],
 )
-def test_lm_head(test_config):
+def test_lm_head(test_config: LMHeadTestConfig):
     model_config = test_config.get_config()
     model, distributed = get_base_model(model_config)
     input_, kwargs = test_config.get_inputs()
diff --git a/tests/layers/test_ssm.py b/tests/layers/test_ssm.py
index c12fe52e9..d096b4af3 100644
--- a/tests/layers/test_ssm.py
+++ b/tests/layers/test_ssm.py
@@ -69,9 +69,7 @@ def _compare_mixers(
     sequence_lengths = [[SEQ_LEN] for _ in range(hidden_states.size(0))]
     fast_kwargs = {
         BlockKwargs.device: distributed.device,
-        BlockKwargs.sequence_first: False,
         BlockKwargs.sequence_lengths: sequence_lengths,
-        BlockKwargs.hidden_dims: (HIDDEN_SIZE,),
         BlockKwargs.sequence_q_dim: TensorDim("", SEQ_LEN),
         BlockKwargs.sequence_k_dim: TensorDim("", SEQ_LEN),
     }
diff --git a/tests/layers/test_varlen.py b/tests/layers/test_varlen.py
index bc538f9a0..d31cffa50 100644
--- a/tests/layers/test_varlen.py
+++ b/tests/layers/test_varlen.py
@@ -45,8 +45,7 @@ def test_mixer_varlen_stacking_equivalence(config: MixerConfig):
     """
     Check that Gated Delta Net forward/backward match with and without packing.
     """
-    hidden_size = 32
-    hidden_dim = TensorDim("hidden", hidden_size)
+    hidden_dim = TensorDim("hidden", hidden_size := 32)
     distributed = Distributed(
         distributed_config := DistributedConfig(compute_dtype=DataType.float16, use_cuda=torch.cuda.is_available())
     )
@@ -68,20 +67,19 @@ def test_mixer_varlen_stacking_equivalence(config: MixerConfig):
 
     kwargs = {
         BlockKwargs.device: distributed.device,
-        BlockKwargs.sequence_first: False,
-        BlockKwargs.hidden_dims: (hidden_dim,),
     }
 
     kwargs_packed = {
         **kwargs,
         BlockKwargs.sequence_lengths: sequence_lengths,
         BlockKwargs.sequence_length: seq_len,
+        BlockKwargs.batch_dim: TensorDim("", batch_size),
         BlockKwargs.sequence_q_dim: TensorDim("", seq_len),
         BlockKwargs.sequence_k_dim: TensorDim("", seq_len),
     }
     mixer.preprocess(kwargs_packed)
 
-    out_packed, context = stage.forward(hidden_states, kwargs_packed)
+    out_packed, context = stage.forward(hidden_states.flatten(0, 1), kwargs_packed)
     stage.backward(torch.ones_like(out_packed), context)
 
     names, parameters = zip(*list(mixer.named_parameters()))
@@ -97,14 +95,15 @@ def test_mixer_varlen_stacking_equivalence(config: MixerConfig):
                 **kwargs,
                 BlockKwargs.sequence_lengths: [[seq_len_]],
                 BlockKwargs.sequence_length: seq_len_,
+                BlockKwargs.batch_dim: TensorDim("", 1),
                 BlockKwargs.sequence_q_dim: TensorDim("", seq_len_),
                 BlockKwargs.sequence_k_dim: TensorDim("", seq_len_),
             }
             mixer.preprocess(kwargs_seq)
-            out, context = stage.forward(seq.unsqueeze(0), kwargs_seq)
+            out, context = stage.forward(seq, kwargs_seq)
             stage.backward(torch.ones_like(out), context)
             out_refs.append(out)
-    out_ref = torch.cat(out_refs, dim=1).view_as(out_packed)
+    out_ref = torch.cat(out_refs, dim=0).view_as(out_packed)
 
     Assert.rms_close_relative(out_packed, out_ref, 1e-3, 1e-4)
 
diff --git a/tests/test_loss_mask.py b/tests/test_loss_mask.py
index 8c131dfa7..cdf2295e0 100644
--- a/tests/test_loss_mask.py
+++ b/tests/test_loss_mask.py
@@ -220,13 +220,7 @@ def test_all_padding_sample(self):
         labels = kwargs[LanguageModelKwargs.labels]
 
         # Get labels for sample 1 (all should be -100)
-        # Handle sequence_first dimension ordering
-        if labels.shape[0] > labels.shape[1]:
-            # sequence_first=True: shape is (seq, batch)
-            sample1_labels = labels[:, 1]
-        else:
-            # sequence_first=False: shape is (batch, seq)
-            sample1_labels = labels[1, :]
+        sample1_labels = labels[8:]
 
         assert torch.all(sample1_labels == -100), f"All labels in padding sample should be -100, got {sample1_labels}"
 
diff --git a/tests/utils/distributed_configs.py b/tests/utils/distributed_configs.py
index f08e9a488..bd5a92720 100644
--- a/tests/utils/distributed_configs.py
+++ b/tests/utils/distributed_configs.py
@@ -123,14 +123,6 @@ def get_config(relative: float = 0, absolute: float = 0, **kwargs) -> CompareCon
         num_gpus=1,
         compare_config=_fp16_compare,
     ),
-    # Sequence-first baseline
-    DistributedTestingConfig(
-        name="sf",
-        compare="simple",
-        config_args=["model.base_model.sequence_first=True"],
-        num_gpus=1,
-        compare_config=_compare_layer_mismatch,
-    ),
     # Cross-entropy splits.
     DistributedTestingConfig(
         name="ce4",
@@ -171,14 +163,6 @@ def get_config(relative: float = 0, absolute: float = 0, **kwargs) -> CompareCon
         num_gpus=1,
         compare_config=_compare_layer_match,
     ),
-    # Sequence-first gradient accumulation baseline.
-    DistributedTestingConfig(
-        name="df4_sf",
-        compare="simple",
-        config_args=["batch.depth_first_micro_batches=4", "model.base_model.sequence_first=True"],
-        num_gpus=1,
-        compare_config=_compare_layer_mismatch,
-    ),
 ]
 
 SINGLE_GPU_TESTING_CONFIGS = {config.name: config for config in _SINGLE_GPU_TESTING_CONFIGS}
@@ -221,7 +205,7 @@ def get_config(relative: float = 0, absolute: float = 0, **kwargs) -> CompareCon
     # Sequence-data-parallel
     DistributedTestingConfig(
         name="sdp2",
-        compare="sf",
+        compare="simple",
         config_args=["model.distributed.sequence_data_parallel=2"],
         num_gpus=2,
         compare_config=_compare_layer_match,
@@ -238,7 +222,7 @@ def get_config(relative: float = 0, absolute: float = 0, **kwargs) -> CompareCon
     # Simple sequence-tensor-parallel
     DistributedTestingConfig(
         name="stp2",
-        compare="sf",
+        compare="simple",
         config_args=[
             "model.distributed.tensor_parallel=2",
             "model.distributed.sequence_tensor_parallel=True",
@@ -260,7 +244,7 @@ def get_config(relative: float = 0, absolute: float = 0, **kwargs) -> CompareCon
     # Cross-entropy splits
     DistributedTestingConfig(
         name="stp2_ce4",
-        compare="sf",
+        compare="simple",
         config_args=[
             "model.distributed.tensor_parallel=2",
             "model.distributed.sequence_tensor_parallel=True",
@@ -274,7 +258,7 @@ def get_config(relative: float = 0, absolute: float = 0, **kwargs) -> CompareCon
     # Simple
     DistributedTestingConfig(
         name="dp2_stp2",
-        compare="sf",
+        compare="simple",
         config_args=[
             "model.distributed.tensor_parallel=2",
             "model.distributed.sequence_tensor_parallel=True",
@@ -285,7 +269,7 @@ def get_config(relative: float = 0, absolute: float = 0, **kwargs) -> CompareCon
     # Breadth-first micro-batches
     DistributedTestingConfig(
         name="sdp2_stp2_bf4",
-        compare="df4_sf",
+        compare="df4",
         config_args=[
             "model.distributed.sequence_data_parallel=2",
             "model.distributed.tensor_parallel=2",
@@ -298,7 +282,7 @@ def get_config(relative: float = 0, absolute: float = 0, **kwargs) -> CompareCon
     # Sequence-data-parallel
     DistributedTestingConfig(
         name="sdp2_stp2",
-        compare="sf",
+        compare="simple",
         config_args=[
             "model.distributed.sequence_data_parallel=2",
             "model.distributed.tensor_parallel=2",
@@ -358,10 +342,10 @@ def get_config(relative: float = 0, absolute: float = 0, **kwargs) -> CompareCon
         compare_config=_compare_layer_match,
     ),
     # ===== 2d configs (Tensor + Pipeline)
-    # Simple [sf, mb]
+    # Simple [mb]
     DistributedTestingConfig(
         name="stp2_pp2s1_bf4",
-        compare="df4_sf",
+        compare="df4",
         config_args=[
             "model.distributed.tensor_parallel=2",
             "model.distributed.sequence_tensor_parallel=True",
diff --git a/tests/utils/model_configs.py b/tests/utils/model_configs.py
index a4f28d14c..7b41c1f50 100644
--- a/tests/utils/model_configs.py
+++ b/tests/utils/model_configs.py
@@ -314,6 +314,7 @@ def update_and_add_testing_config(
         ModelTestingGroup.megatron: ModelTestingGroupAction.normal,
         ModelTestingGroup.distributed: ModelTestingGroupAction.normal,
     },
+    compare_factor=1.5,
 )
 
 update_and_add_testing_config(
@@ -333,6 +334,7 @@ def update_and_add_testing_config(
         ModelTestingGroup.megatron: ModelTestingGroupAction.unimportant,
         ModelTestingGroup.distributed: ModelTestingGroupAction.unimportant,
     },
+    compare_factor=1.5,
 )
 
 update_and_add_testing_config(
@@ -360,6 +362,7 @@ def update_and_add_testing_config(
         ModelTestingGroup.megatron: ModelTestingGroupAction.unimportant,
         ModelTestingGroup.distributed: ModelTestingGroupAction.unimportant,
     },
+    compare_factor=1.0,
 )
 del MODEL_CONFIGS["starcoder_2"].config_dict["model"]["base_model"]["embeddings"]["num_position_embeddings"]
 
@@ -394,6 +397,7 @@ def update_and_add_testing_config(
         ModelTestingGroup.megatron: ModelTestingGroupAction.normal,
         ModelTestingGroup.distributed: ModelTestingGroupAction.normal,
     },
+    compare_factor=1.0,
 )
 
 update_and_add_testing_config(

From e0d0d7da27300eb7c9a70745c0ec5fdc7567273c Mon Sep 17 00:00:00 2001
From: Joel Lamy-Poirier <joel.lamy-poirier@servicenow.com>
Date: Wed, 11 Feb 2026 13:25:40 -0500
Subject: [PATCH 18/37] cleaanp

---
 fast_llm/engine/schedule/runner.py                  | 10 ----------
 fast_llm/layers/attention/rotary/rotary.py          |  1 -
 fast_llm/layers/language_model/loss/entropy_loss.py |  1 -
 3 files changed, 12 deletions(-)

diff --git a/fast_llm/engine/schedule/runner.py b/fast_llm/engine/schedule/runner.py
index 2d7e02f77..4a6f3b3cb 100644
--- a/fast_llm/engine/schedule/runner.py
+++ b/fast_llm/engine/schedule/runner.py
@@ -19,7 +19,6 @@
 from fast_llm.engine.optimizer.optimizer import Optimizer
 from fast_llm.engine.schedule.config import EventType, MockEvent, MockStream, ScheduleConfig, StepType, StreamType
 from fast_llm.engine.schedule.schedule import Schedule, Step
-from fast_llm.layers.block.config import BlockKwargs
 from fast_llm.logging import log_memory_usage
 from fast_llm.utils import Assert
 
@@ -406,15 +405,6 @@ def _recv(self, context: BatchContext, step: Step) -> None:
             self._record_event(context, EventType.compute_wait_pipe, step)
 
     def _forward(self, context: BatchContext, step: Step) -> None:
-        print(
-            "IASINBUI",
-            step,
-            (
-                context.batch[step.data_index].get(BlockKwargs.grad_output)
-                if step.data_index in context.batch
-                else "PPPPP"
-            ),
-        )
         output, grad_context = self._stages[step.stage].forward(
             self._get_forward_input(context, step),
             context.batch[step.data_index],
diff --git a/fast_llm/layers/attention/rotary/rotary.py b/fast_llm/layers/attention/rotary/rotary.py
index e24d85e36..307256a72 100644
--- a/fast_llm/layers/attention/rotary/rotary.py
+++ b/fast_llm/layers/attention/rotary/rotary.py
@@ -235,7 +235,6 @@ def forward(
         self, query: torch.Tensor, key: torch.Tensor, kwargs: dict[str, typing.Any]
     ) -> tuple[torch.Tensor, torch.Tensor]:
         rotary_fn = triton_rotary_autograd_ if TritonConfig.enabled(query.device) else rotary_embeddings_real
-        print("AAAAA", query.shape, kwargs[AttentionKwargs.rotary_freq_q].shape)
         query = rotary_fn(query, kwargs[AttentionKwargs.rotary_freq_q])
         key = rotary_fn(key, kwargs[AttentionKwargs.rotary_freq_k])
         return query, key
diff --git a/fast_llm/layers/language_model/loss/entropy_loss.py b/fast_llm/layers/language_model/loss/entropy_loss.py
index d7a76dd83..537c7996d 100644
--- a/fast_llm/layers/language_model/loss/entropy_loss.py
+++ b/fast_llm/layers/language_model/loss/entropy_loss.py
@@ -53,7 +53,6 @@ def forward_backward(
         split_index: int = 0,
         grad_logits: torch.Tensor | None = None,
     ) -> "tuple[torch.Tensor, torch.Tensor | None]":
-        print("logits", logits.shape)
         return (
             triton_entropy_loss_forward_backward
             if TritonConfig.enabled(logits.device, self._config.use_triton)

From 99e6400e8acf8e8e30493e0583e12ffe2c62b339 Mon Sep 17 00:00:00 2001
From: Joel Lamy-Poirier <joel.lamy-poirier@servicenow.com>
Date: Wed, 11 Feb 2026 14:22:53 -0500
Subject: [PATCH 19/37] fix

---
 fast_llm/layers/attention/attention.py | 3 ---
 fast_llm/layers/decoder/block.py       | 1 -
 2 files changed, 4 deletions(-)

diff --git a/fast_llm/layers/attention/attention.py b/fast_llm/layers/attention/attention.py
index be8b31f39..859bafea2 100644
--- a/fast_llm/layers/attention/attention.py
+++ b/fast_llm/layers/attention/attention.py
@@ -330,7 +330,6 @@ def _forward(
 
         if (past_key_values := kwargs.get(AttentionKwargs.past_key_values)) is not None:
             # Clear the lists so tensors can be de-allocated
-            # TODO: ===== Check =====
             key_value = torch.cat((past_key_values.pop(0), key_value), dim=1)
 
         if (presents := kwargs.get(AttentionKwargs.presents)) is not None:
@@ -340,11 +339,9 @@ def _forward(
             # Manually add the gradients from later micro-sequences.
             key_value = AttachGrad.apply(key_value, present)
 
-        # TODO: ===== Check =====
         key_value = key_value[:, : kwargs[AttentionKwargs.sequence_k_dim].size]
         key, value = key_value.split(self._local_head_groups * self._config.head_size, dim=-1)
 
-        # TODO: ===== Expand batch seq dim =====
         query = query.view(*query.shape[:2], self._local_heads, self._config.head_size)
         key = key.view(*key.shape[:2], self._local_head_groups, self._config.head_size)
         value = value.view(*value.shape[:2], self._local_head_groups, self._config.head_size)
diff --git a/fast_llm/layers/decoder/block.py b/fast_llm/layers/decoder/block.py
index bb9df3fb9..dd19c1086 100644
--- a/fast_llm/layers/decoder/block.py
+++ b/fast_llm/layers/decoder/block.py
@@ -179,7 +179,6 @@ def _activation_distillation_loss(self, hidden_states, kwargs, losses, metrics):
         scaled_activation_loss = self._config.distillation_loss_weight * loss
 
         # Backward hook
-        print(kwargs[BlockKwargs.grad_output])
         hidden_states = AuxiliaryLoss.apply(hidden_states, scaled_activation_loss, kwargs.get(BlockKwargs.grad_output))
 
         # Logging

From 15c0e4325fe64634e9813a901a6ff8b25591fb4a Mon Sep 17 00:00:00 2001
From: Joel Lamy-Poirier <joel.lamy-poirier@servicenow.com>
Date: Wed, 11 Feb 2026 15:50:27 -0500
Subject: [PATCH 20/37] Simplify MTP

---
 fast_llm/layers/block/config.py               |  14 ++
 fast_llm/layers/block/sequence.py             |  16 ++-
 fast_llm/layers/language_model/config.py      | 131 ++++--------------
 fast_llm/layers/language_model/head.py        |  35 ++---
 .../layers/language_model/language_model.py   |  20 ++-
 .../language_model/multi_token_prediction.py  |  46 +++---
 fast_llm/models/gpt/config.py                 |   4 +-
 fast_llm/models/gpt/conversion/llama.py       |   7 +-
 fast_llm/models/gpt/conversion/mtp_llama.py   |  41 ++----
 fast_llm/models/gpt/model.py                  |   2 +-
 fast_llm/models/gpt/trainer.py                |   2 +-
 .../models/multimodal/conversion/llava.py     |   7 +-
 tests/layers/test_lm_head.py                  |  14 +-
 tests/utils/model_configs.py                  |   7 +-
 14 files changed, 137 insertions(+), 209 deletions(-)

diff --git a/fast_llm/layers/block/config.py b/fast_llm/layers/block/config.py
index a1b600445..4f8595250 100644
--- a/fast_llm/layers/block/config.py
+++ b/fast_llm/layers/block/config.py
@@ -84,6 +84,7 @@ def get_layer(
         *,
         lr_scale: float | None,
         peft: PeftConfig | None,
+        **kwargs,
     ) -> "BlockBase":
         return self.layer_class(
             self,
@@ -91,6 +92,7 @@ def get_layer(
             hidden_dim=hidden_dim,
             lr_scale=combine_lr_scales(lr_scale, self.lr_scale),
             peft=peft,
+            **kwargs,
         )
 
     def get_reference_models(self) -> set[str]:
@@ -106,6 +108,10 @@ def _from_dict(cls, default: dict[str, typing.Any], strict: bool = True) -> typi
             return FixedBlockSequenceConfig._from_dict(default, strict)
         return super()._from_dict(default, strict=strict)
 
+    @property
+    def last_block_config(self) -> BlockConfig:
+        raise NotImplementedError()
+
 
 @config_class(dynamic_type={BlockSequenceConfig: "fixed"})
 class FixedBlockSequenceConfig(BlockSequenceConfig):
@@ -130,6 +136,10 @@ def layer_class(self) -> "type[FixedBlockSequence]":
     def get_reference_models(self) -> set[str]:
         return self.block.get_reference_models()
 
+    @property
+    def last_block_config(self) -> BlockConfig:
+        return self.block
+
 
 @config_class(dynamic_type={BlockSequenceConfig: "pattern"})
 class PatternBlockSequenceConfig(BlockSequenceConfig):
@@ -161,6 +171,10 @@ def _validate(self):
 
         super()._validate()
 
+    @property
+    def last_block_config(self) -> BlockConfig:
+        return self.blocks[self.expanded_pattern[-1]]
+
     @property
     def layer_class(self) -> "type[PatternBlockSequence]":
         from fast_llm.layers.block.sequence import PatternBlockSequence
diff --git a/fast_llm/layers/block/sequence.py b/fast_llm/layers/block/sequence.py
index 54a5b3471..2e7425343 100644
--- a/fast_llm/layers/block/sequence.py
+++ b/fast_llm/layers/block/sequence.py
@@ -24,6 +24,7 @@ def __init__(
         hidden_dim: TensorDim,
         lr_scale: float | None,
         peft: PeftConfig | None,
+        return_last_layer_input: bool = False,
     ):
         super().__init__(
             config,
@@ -40,8 +41,13 @@ def __init__(
                     hidden_dim,
                     lr_scale=self._lr_scale,
                     peft=self._peft,
+                    **(
+                        {"return_input": True}
+                        if return_last_layer_input and block_index == self._config.num_blocks - 1
+                        else {}
+                    ),
                 )
-                for _ in range(self._config.num_blocks)
+                for block_index in range(self._config.num_blocks)
             ]
         )
 
@@ -75,6 +81,7 @@ def __init__(
         hidden_dim: TensorDim,
         lr_scale: float | None,
         peft: PeftConfig | None,
+        return_last_layer_input: bool = False,
     ):
         super().__init__(
             config,
@@ -90,8 +97,13 @@ def __init__(
                     hidden_dim,
                     lr_scale=self._lr_scale,
                     peft=self._peft,
+                    **(
+                        {"return_input": True}
+                        if return_last_layer_input and block_index == self._config.num_blocks - 1
+                        else {}
+                    ),
                 )
-                for name in self._config.expanded_pattern
+                for block_index, name in enumerate(self._config.expanded_pattern)
             ]
         )
 
diff --git a/fast_llm/layers/language_model/config.py b/fast_llm/layers/language_model/config.py
index e3446bba6..0e54e7583 100644
--- a/fast_llm/layers/language_model/config.py
+++ b/fast_llm/layers/language_model/config.py
@@ -1,4 +1,3 @@
-import abc
 import typing
 
 from fast_llm.config import Field, FieldHint, check_field, config_class, skip_valid_if_none
@@ -14,7 +13,7 @@
 
 if typing.TYPE_CHECKING:
     from fast_llm.layers.language_model.embedding import LanguageModelEmbedding
-    from fast_llm.layers.language_model.head import LanguageModelHead, LanguageModelHeadBase
+    from fast_llm.layers.language_model.head import LanguageModelHead
     from fast_llm.layers.language_model.language_model import LanguageModel
     from fast_llm.layers.language_model.multi_token_prediction import MultiTokenPrediction
 
@@ -95,41 +94,8 @@ def layer_class(self) -> "type[LanguageModelEmbedding]":
         return LanguageModelEmbedding
 
 
-@config_class(registry=True)
-class LanguageModelHeadBaseConfig(BlockConfig):
-    @classmethod
-    def _from_dict(cls, default: dict[str, typing.Any], strict: bool = True) -> typing.Self:
-        if cls is LanguageModelHeadBaseConfig and cls.get_subclass(default.get("type")) is None:
-            # Default subclass.
-            return LanguageModelHeadConfig._from_dict(default, strict)
-        return super()._from_dict(default, strict=strict)
-
-    def get_layer(
-        self,
-        distributed_config: DistributedConfig,
-        embeddings_config: LanguageModelEmbeddingsConfig,
-        *,
-        hidden_dim: TensorDim,
-        lr_scale: float | None,
-        peft: PeftConfig | None,
-    ) -> "LanguageModelHeadBase":
-        return self.layer_class(
-            self,
-            distributed_config,
-            embeddings_config,
-            hidden_dim=hidden_dim,
-            lr_scale=combine_lr_scales(lr_scale, self.lr_scale),
-            peft=peft,
-        )
-
-    @property
-    @abc.abstractmethod
-    def max_prediction_distance(self) -> int:
-        pass
-
-
-@config_class(dynamic_type={LanguageModelHeadBaseConfig: "language_model_head"})
-class LanguageModelHeadConfig(LanguageModelHeadBaseConfig):
+@config_class()
+class LanguageModelHeadConfig(BlockConfig):
     _abstract = False
     normalization: NormalizationConfig = Field(
         desc="Configuration for the final normalization layer.",
@@ -160,6 +126,18 @@ class LanguageModelHeadConfig(LanguageModelHeadBaseConfig):
         hint=FieldHint.feature,
         valid=check_field(Assert.geq, 0),
     )
+    prediction_heads: int = Field(
+        default=1,
+        desc="Prediction heads.",
+        hint=FieldHint.architecture,
+        valid=check_field(Assert.gt, 0),
+    )
+    prediction_loss_coefficient: list[float] | None = Field(
+        default=None,
+        desc="Loss coefficient for each prediction head.",
+        doc="If not provided, all heads are equally weighted.",
+        hint=FieldHint.feature,
+    )
 
     def get_layer(
         self,
@@ -169,85 +147,36 @@ def get_layer(
         hidden_dim: TensorDim,
         lr_scale: float | None,
         peft: PeftConfig | None,
-        prediction_distance: int = 0,
-        prediction_heads: int = 1,
-        loss_coefficient: float = 1.0,
-    ):
-        return self.layer_class(
+        block_config: DecoderBlockConfig | None = None,
+    ) -> "tuple[LanguageModelHead, MultiTokenPrediction]":
+        from fast_llm.layers.language_model.head import LanguageModelHead
+        from fast_llm.layers.language_model.multi_token_prediction import MultiTokenPrediction
+
+        return LanguageModelHead(
+            self,
+            distributed_config,
+            embeddings_config,
+            hidden_dim=hidden_dim,
+            lr_scale=combine_lr_scales(lr_scale, self.lr_scale),
+            peft=peft,
+        ), MultiTokenPrediction(
             self,
             distributed_config,
             embeddings_config,
             hidden_dim=hidden_dim,
             lr_scale=combine_lr_scales(lr_scale, self.lr_scale),
             peft=peft,
-            prediction_distance=prediction_distance,
-            prediction_heads=prediction_heads,
-            loss_coefficient=loss_coefficient,
+            block_config=block_config,
         )
 
-    @property
-    def layer_class(self) -> "type[LanguageModelHead]":
-        from fast_llm.layers.language_model.head import LanguageModelHead
-
-        return LanguageModelHead
-
     def _validate(self) -> None:
         super()._validate()
         assert LM_HEAD_LOSS_NAME not in self.losses
 
-    @property
-    def max_prediction_distance(self) -> int:
-        return 1
-
     def get_reference_models(self) -> set[str]:
         return {reference_model for loss in self.losses.values() for reference_model in loss.get_reference_models()}
 
 
-@config_class(dynamic_type={LanguageModelHeadBaseConfig: "multi_token_prediction"})
-class MultiTokenPredictionConfig(LanguageModelHeadBaseConfig):
-    _abstract = False
-    # Needs to be `DecoderBlockConfig` for the `return_input` interface.
-    # TODO: Make a generic wrapper for returning input instead?
-    block: DecoderBlockConfig = Field(
-        desc="Configuration for the decoder block before each head.",
-        hint=FieldHint.architecture,
-    )
-    # TODO: Generalize? (needs the extra initialization arguments)
-    head: LanguageModelHeadConfig = Field(
-        desc="Configuration for the multi-token-prediction heads.",
-        hint=FieldHint.architecture,
-    )
-    prediction_heads: int = Field(
-        default=1,
-        desc="Prediction heads.",
-        hint=FieldHint.architecture,
-        valid=check_field(Assert.gt, 0),
-    )
-    prediction_loss_coefficient: list[float] | None = Field(
-        default=None,
-        desc="Loss coefficient for each prediction head.",
-        doc="If not provided, all heads are equally weighted.",
-        hint=FieldHint.feature,
-    )
-
-    def _validate(self) -> None:
-        super()._validate()
-        if isinstance(self.prediction_loss_coefficient, list):
-            Assert.eq(len(self.prediction_loss_coefficient), self.prediction_heads)
-            for coeff in self.prediction_loss_coefficient:
-                Assert.geq(coeff, 0)
-
-    @property
-    def layer_class(self) -> "type[MultiTokenPrediction]":
-        from fast_llm.layers.language_model.multi_token_prediction import MultiTokenPrediction
-
-        return MultiTokenPrediction
-
-    @property
-    def max_prediction_distance(self) -> int:
-        return self.prediction_heads
-
-
 @config_class()
 class LanguageModelConfig(BlockConfig):
     decoder: BlockSequenceConfig = Field(
@@ -258,7 +187,7 @@ class LanguageModelConfig(BlockConfig):
         hint=FieldHint.architecture,
         desc="Configuration for the language model embeddings.",
     )
-    head: LanguageModelHeadBaseConfig = Field(
+    head: LanguageModelHeadConfig = Field(
         hint=FieldHint.architecture, desc="Configuration for the language model head(s)."
     )
     tied_embedding_weight: bool = Field(
diff --git a/fast_llm/layers/language_model/head.py b/fast_llm/layers/language_model/head.py
index c5bf9ff9b..85b9bde1d 100644
--- a/fast_llm/layers/language_model/head.py
+++ b/fast_llm/layers/language_model/head.py
@@ -1,4 +1,3 @@
-import abc
 import functools
 import logging
 import typing
@@ -14,12 +13,11 @@
 from fast_llm.engine.distributed.config import DistributedConfig, DistributedDimNames
 from fast_llm.functional.autograd import AuxiliaryLoss, grad_is_context, wrap_forward_backward
 from fast_llm.functional.linear import output_parallel_linear_backward, output_parallel_linear_forward
-from fast_llm.layers.block.block import Block, BlockBase
+from fast_llm.layers.block.block import Block
 from fast_llm.layers.common.peft.config import PeftConfig
 from fast_llm.layers.language_model.config import (
     LM_HEAD_LOSS_NAME,
     LanguageModelEmbeddingsConfig,
-    LanguageModelHeadBaseConfig,
     LanguageModelHeadConfig,
     LanguageModelKwargs,
 )
@@ -32,15 +30,7 @@
 OUTPUT_WEIGHTS = "output_weights"
 
 
-class LanguageModelHeadBase[ConfigType: LanguageModelHeadBaseConfig](BlockBase[ConfigType]):
-    heads: "list[LanguageModelHead]"
-
-    @abc.abstractmethod
-    def get_output_weights(self) -> list[torch.Tensor]:
-        pass
-
-
-class LanguageModelHead[ConfigType: LanguageModelHeadConfig](LanguageModelHeadBase[ConfigType], Block):
+class LanguageModelHead[ConfigType: LanguageModelHeadConfig](Block[ConfigType]):
     """
     A language model head (GPT), which combines the final layer norm, logits and cross-entropy (if applicable).
     TODO: Cleanup (dynamic type? composition?)
@@ -58,7 +48,6 @@ def __init__(
         lr_scale: float | None,
         peft: PeftConfig | None,
         prediction_distance: int = 0,
-        prediction_heads: int = 1,
         loss_coefficient: float = 1.0,
     ):
         super().__init__(
@@ -68,11 +57,9 @@ def __init__(
             lr_scale=lr_scale,
             peft=peft,
         )
-        Assert.in_range(prediction_distance, 0, prediction_heads)
+        Assert.in_range(prediction_distance, 0, self._config.prediction_heads)
         self._prediction_distance = prediction_distance
-        self._prediction_heads = prediction_heads
-        self._loss_coefficient = loss_coefficient
-        self._is_last_head = self._prediction_distance == self._prediction_heads - 1
+        self._is_last_head = self._prediction_distance == self._config.prediction_heads - 1
 
         self._vocab_parallel = self._distributed_config.tensor_parallel > 1 and embeddings_config.vocab_parallel
         self._parallel_dim = self._distributed_config.get_distributed_dim(DistributedDimNames.tensor)
@@ -99,17 +86,22 @@ def __init__(
         loss_configs = (
             self._config.losses if self._config.losses else {"cross_entropy": LanguageModelLabelEntropyLossConfig()}
         )
+        loss_coefficient = (
+            1.0
+            if self._config.prediction_loss_coefficient is None
+            else self._config.prediction_loss_coefficient[self._prediction_distance]
+        )
         self.losses = torch.nn.ModuleList(
             [
                 loss_config.get_layer(
                     distributed_config,
                     self._get_full_loss_name(name),
                     self._prediction_distance,
-                    self._prediction_heads,
+                    self._config.prediction_heads,
                     self._vocab_parallel,
                     self._config.cross_entropy_splits,
                     self._config.logits_scale_factor,
-                    self._loss_coefficient,
+                    loss_coefficient,
                 )
                 for name, loss_config in loss_configs.items()
             ]
@@ -305,8 +297,3 @@ def _get_full_loss_name(self, name) -> str:
     @functools.cached_property
     def _total_loss_name(self) -> str:
         return self._get_full_loss_name(LM_HEAD_LOSS_NAME)
-
-    @property
-    def heads(self) -> "list[LanguageModelHead]":
-        # For compatibility with MTP.
-        return [self]
diff --git a/fast_llm/layers/language_model/language_model.py b/fast_llm/layers/language_model/language_model.py
index 385bab7ef..32e2ccbf9 100644
--- a/fast_llm/layers/language_model/language_model.py
+++ b/fast_llm/layers/language_model/language_model.py
@@ -44,28 +44,42 @@ def __init__(
             self._hidden_dim,
             lr_scale=self._lr_scale,
             peft=self._peft,
+            **({"return_last_layer_input": True} if self._config.head.prediction_heads > 1 else {}),
         )
-        self.head = self._config.head.get_layer(
+        self.head, self.multi_token_prediction = self._config.head.get_layer(
             distributed_config,
             self._config.embeddings,
             hidden_dim=self._hidden_dim,
             lr_scale=self._lr_scale,
             peft=self._peft,
+            **(
+                {"block_config": self._config.decoder.last_block_config}
+                if self._config.head.prediction_heads > 1
+                else {}
+            ),
         )
 
     def get_layers(self) -> list[Layer]:
-        return self.embeddings.get_layers() + self.decoder.get_layers() + self.head.get_layers()
+        layers = self.embeddings.get_layers() + self.decoder.get_layers() + self.head.get_layers()
+        if self.multi_token_prediction is not None:
+            layers += self.multi_token_prediction.get_layers()
+        return layers
 
     def preprocess(self, kwargs: dict[str, typing.Any]) -> None:
         # Needed because the base class uses `get_layers` which may bypass the decoder and head. TODO: Avoidable?
         self.embeddings.preprocess(kwargs)
         self.decoder.preprocess(kwargs)
         self.head.preprocess(kwargs)
+        if self.multi_token_prediction is not None:
+            self.multi_token_prediction.preprocess(kwargs)
 
     def get_loss_definitions(self, count: int = 1) -> list[LossDef]:
         # Needed because the base class uses `get_layers` which may bypass the decoder and head. TODO: Avoidable?
-        return (
+        losses = (
             self.embeddings.get_loss_definitions(count)
             + self.decoder.get_loss_definitions(count)
             + self.head.get_loss_definitions(count)
         )
+        if self.multi_token_prediction is not None:
+            losses += self.multi_token_prediction.get_loss_definitions(count)
+        return losses
diff --git a/fast_llm/layers/language_model/multi_token_prediction.py b/fast_llm/layers/language_model/multi_token_prediction.py
index 5efe2d836..d7665cf00 100644
--- a/fast_llm/layers/language_model/multi_token_prediction.py
+++ b/fast_llm/layers/language_model/multi_token_prediction.py
@@ -7,12 +7,14 @@
 from fast_llm.engine.base_model.config import LossDef
 from fast_llm.engine.config_utils.tensor_dim import TensorDim
 from fast_llm.engine.distributed.config import DistributedConfig
+from fast_llm.layers.block.block import BlockBase
 from fast_llm.layers.common.peft.config import PeftConfig
-from fast_llm.layers.language_model.config import LanguageModelEmbeddingsConfig, MultiTokenPredictionConfig
-from fast_llm.layers.language_model.head import LanguageModelHeadBase
+from fast_llm.layers.decoder.config import DecoderBlockConfig
+from fast_llm.layers.language_model.config import LanguageModelEmbeddingsConfig, LanguageModelHeadConfig
+from fast_llm.layers.language_model.head import LanguageModelHead
 
 
-class MultiTokenPrediction[ConfigType: MultiTokenPredictionConfig](LanguageModelHeadBase[ConfigType]):
+class MultiTokenPrediction[ConfigType: LanguageModelHeadConfig](BlockBase[ConfigType]):
     _config: ConfigType
 
     def __init__(
@@ -24,6 +26,7 @@ def __init__(
         hidden_dim: TensorDim,
         lr_scale: float | None,
         peft: PeftConfig | None,
+        block_config: DecoderBlockConfig | None = None,
     ):
         super().__init__(
             config,
@@ -32,9 +35,12 @@ def __init__(
             lr_scale=lr_scale,
             peft=peft,
         )
+        self._enabled = self._config.prediction_heads > 1
+        if self._enabled:
+            assert block_config is not None
         self.blocks = torch.nn.ModuleList(
             [
-                self._config.block.get_layer(
+                block_config.get_layer(
                     self._distributed_config,
                     self._hidden_dim,
                     lr_scale=self._lr_scale,
@@ -43,26 +49,21 @@ def __init__(
                     # The previous blocks return a stack of shared_hidden and transformer_output.
                     return_input=index < self._config.prediction_heads - 1,
                 )
-                for index in range(self._config.prediction_heads)
+                for index in range(1, self._config.prediction_heads)
             ]
         )
         self.heads = torch.nn.ModuleList(
             [
-                self._config.head.get_layer(
+                LanguageModelHead(
+                    self._config,
                     distributed_config,
                     embeddings_config,
                     hidden_dim=hidden_dim,
                     lr_scale=lr_scale,
                     peft=peft,
                     prediction_distance=index,
-                    prediction_heads=self._config.prediction_heads,
-                    loss_coefficient=(
-                        1.0
-                        if self._config.prediction_loss_coefficient is None
-                        else self._config.prediction_loss_coefficient[index]
-                    ),
                 )
-                for index in range(self._config.prediction_heads)
+                for index in range(1, self._config.prediction_heads)
             ]
         )
 
@@ -70,8 +71,11 @@ def __init__(
     def _layers_with_namespace(self) -> list[Layer]:
         # Wrap all blocks in a namespace using the unique module name of the first one.
         # This needs to be in a property because `module_name` is set after `__init__`.
-        namespace = self.blocks[0].module_name
-        return [LayerWithNamespace(sublayer, namespace) for layer in self.blocks for sublayer in layer.get_layers()]
+        return [
+            LayerWithNamespace(sublayer, self.blocks[0].module_name)
+            for layer in self.blocks
+            for sublayer in layer.get_layers()
+        ]
 
     def get_layers(self) -> list[Layer]:
         return [
@@ -84,9 +88,13 @@ def get_output_weights(self) -> list[torch.Tensor]:
         return sum((head.get_output_weights() for head in self.heads), [])
 
     def preprocess(self, kwargs: dict[str, typing.Any]) -> None:
-        self._layers_with_namespace[0].preprocess(kwargs)
+        if self._enabled:
+            self._layers_with_namespace[0].preprocess(kwargs)
 
     def get_loss_definitions(self, count: int = 1) -> list[LossDef]:
-        return self.blocks[0].get_loss_definitions(count=count * self._config.prediction_heads) + [
-            loss_definition for head in self.heads for loss_definition in head.get_loss_definitions(count=count)
-        ]
+        return (
+            self.blocks[0].get_loss_definitions(count=count * (self._config.prediction_heads - 1))
+            + [loss_definition for head in self.heads for loss_definition in head.get_loss_definitions(count=count)]
+            if self._enabled
+            else []
+        )
diff --git a/fast_llm/models/gpt/config.py b/fast_llm/models/gpt/config.py
index 314741c3b..ddcbcf696 100644
--- a/fast_llm/models/gpt/config.py
+++ b/fast_llm/models/gpt/config.py
@@ -168,8 +168,8 @@ def _validate(self) -> None:
 
         for reference_model in self.reference_models.values():
             Assert.geq(
-                reference_model.model.base_model.head.max_prediction_distance,
-                self.model.base_model.head.max_prediction_distance,
+                reference_model.model.base_model.head.prediction_heads,
+                self.model.base_model.head.prediction_heads,
             )
             Assert.empty(reference_model.model.base_model.get_reference_models())
             Assert.eq(
diff --git a/fast_llm/models/gpt/conversion/llama.py b/fast_llm/models/gpt/conversion/llama.py
index 00d871dbf..983df9869 100644
--- a/fast_llm/models/gpt/conversion/llama.py
+++ b/fast_llm/models/gpt/conversion/llama.py
@@ -488,16 +488,15 @@ def get_converters(
         cls,
         config: LanguageModelHeadConfig,
         exported_config: dict,
-        fast_llm_prefix: str,
     ) -> list[WeightConverter]:
         return [
             *cls.normalization_converter_class.get_converters(
                 config.normalization,
-                f"{fast_llm_prefix}.final_norm",
+                f"head.final_norm",
                 f"model.norm",
             ),
             get_parameter_converter(
-                f"{fast_llm_prefix}.output_weights",
+                f"head.output_weights",
                 "lm_head.weight",
                 drop_on_import=exported_config["tie_word_embeddings"],
                 drop_on_export=exported_config["tie_word_embeddings"],
@@ -539,7 +538,7 @@ def get_converters(cls, config: GPTBaseModelConfig, exported_config: dict) -> li
         return [
             *cls.embeddings_converter_class.get_converters(config.embeddings, "embeddings", "model"),
             *cls.decoder_converter_class.get_converters(config.decoder, "decoder", "model.layers"),
-            *cls.head_converter_class.get_converters(config.head, exported_config, "head"),
+            *cls.head_converter_class.get_converters(config.head, exported_config),
         ]
 
 
diff --git a/fast_llm/models/gpt/conversion/mtp_llama.py b/fast_llm/models/gpt/conversion/mtp_llama.py
index 5b83fed69..0c58b7be5 100644
--- a/fast_llm/models/gpt/conversion/mtp_llama.py
+++ b/fast_llm/models/gpt/conversion/mtp_llama.py
@@ -5,16 +5,14 @@
 from fast_llm.engine.checkpoint.config import CheckpointFormat
 from fast_llm.engine.checkpoint.external import WeightConverter
 from fast_llm.layers.block.config import FixedBlockSequenceConfig
-from fast_llm.layers.language_model.config import LanguageModelHeadConfig, MultiTokenPredictionConfig
+from fast_llm.layers.language_model.config import LanguageModelHeadConfig
 from fast_llm.models.gpt.config import GPTModelConfig
 from fast_llm.models.gpt.conversion.config import MTPLlamaCheckpointFormat
 from fast_llm.models.gpt.conversion.llama import (
     LlamaBaseModelConverter,
-    LlamaBlockConverter,
     LlamaDecoderConverter,
     LlamaHeadConverter,
     LlamaHuggingfaceCheckpointHandler,
-    get_parameter_converter,
 )
 from fast_llm.utils import Assert, safe_merge_dicts
 
@@ -23,17 +21,14 @@ class MTPLlamaHeadConverter(LlamaHeadConverter):
     @classmethod
     def import_config(cls, config: dict) -> dict:
         return {
-            "type": "multi_token_prediction",
-            "block": LlamaBlockConverter.import_config(config),
-            "head": super().import_config(config),
+            **super().import_config(config),
             "prediction_heads": config["prediction_heads"],
         }
 
     @classmethod
-    def export_config(cls, config: MultiTokenPredictionConfig) -> dict:
-        Assert.custom(isinstance, config, MultiTokenPredictionConfig)
+    def export_config(cls, config: LanguageModelHeadConfig) -> dict:
         return safe_merge_dicts(
-            super().export_config(config.head),
+            super().export_config(config),
             {"prediction_heads": config.prediction_heads},
         )
 
@@ -42,33 +37,15 @@ def get_converters(
         cls,
         config: LanguageModelHeadConfig,
         exported_config: dict,
-        fast_llm_prefix: str,
     ) -> list[WeightConverter]:
-        converters = []
-        for prediction_distance in range(config.prediction_heads):
-            converters += cls.block_converter_class.get_converters(
-                config.block,
-                f"{fast_llm_prefix}.blocks.{prediction_distance}",
-                (
-                    f"model.layers.{exported_config["num_hidden_layers"]-1}"
-                    if prediction_distance == 0
-                    else f"model.mtp_heads.{prediction_distance - 1}"
-                ),
-            )
-            converters += cls.normalization_converter_class.get_converters(
+        return super().get_converters(config, exported_config) + [
+            cls.normalization_converter_class.get_converters(
                 config.head.normalization,
-                f"{fast_llm_prefix}.heads.{prediction_distance}.final_norm",
+                f"multi_token_prediction.heads.{prediction_distance - 1}.final_norm",
                 f"model.mtp_norms.{prediction_distance}",
             )
-        converters.append(
-            get_parameter_converter(
-                f"{fast_llm_prefix}.heads.0.output_weights",
-                "lm_head.weight",
-                drop_on_import=exported_config["tie_word_embeddings"],
-            )
-        )
-
-        return converters
+            for prediction_distance in range(1, config.prediction_heads)
+        ]
 
 
 class MTPLlamaDecoderConverter(LlamaDecoderConverter):
diff --git a/fast_llm/models/gpt/model.py b/fast_llm/models/gpt/model.py
index cabcdc489..698f624ed 100644
--- a/fast_llm/models/gpt/model.py
+++ b/fast_llm/models/gpt/model.py
@@ -250,7 +250,7 @@ def preprocess_batch(
                 kwargs[BlockKwargs.output_hidden_states].append(re.compile(r"head\..*logits.*$"))
             else:
                 labels_begin = tokens_begin + 1
-                labels_end = tokens_end + self._config.head.max_prediction_distance
+                labels_end = tokens_end + self._config.head.prediction_heads
                 labels = batch.tokens.crop(labels_begin, labels_end).tokens
 
                 if batch.loss_masking_spans is not None:
diff --git a/fast_llm/models/gpt/trainer.py b/fast_llm/models/gpt/trainer.py
index ded0f81c8..ef4956176 100644
--- a/fast_llm/models/gpt/trainer.py
+++ b/fast_llm/models/gpt/trainer.py
@@ -25,7 +25,7 @@ def _get_sampling_parameters(
             {
                 "sequence_length": self._config.batch.sequence_length,
                 "truncate_documents": self._config.batch.truncate_documents,
-                "extra_tokens": self._config.model.base_model.head.max_prediction_distance,
+                "extra_tokens": self._config.model.base_model.head.prediction_heads,
             }
         )
         return parameters if _return_dict else SamplingParameters(**parameters)
diff --git a/fast_llm/models/multimodal/conversion/llava.py b/fast_llm/models/multimodal/conversion/llava.py
index 8703ef920..a75d732b8 100644
--- a/fast_llm/models/multimodal/conversion/llava.py
+++ b/fast_llm/models/multimodal/conversion/llava.py
@@ -258,16 +258,15 @@ def get_converters(
         cls,
         config: LanguageModelHeadConfig,
         exported_config: dict,
-        fast_llm_prefix: str,
     ) -> list[WeightConverter]:
         return [
             *cls.normalization_converter_class.get_converters(
                 config.normalization,
-                f"{fast_llm_prefix}.final_norm",
+                f"head.final_norm",
                 f"language_model.model.norm",
             ),
             get_parameter_converter(
-                f"{fast_llm_prefix}.output_weights",
+                f"head.output_weights",
                 "language_model.lm_head.weight",
                 drop_on_import=exported_config["tie_word_embeddings"],
             ),
@@ -320,7 +319,7 @@ def get_converters(cls, config: MultiModalBaseModelConfig, exported_config: dict
                 config.decoder, "decoder", "language_model.model.layers"
             ),
             *cls.language_model_converter_class.head_converter_class.get_converters(
-                config.head, {"tie_word_embeddings": False}, "head"
+                config.head, {"tie_word_embeddings": False}
             ),
         ]
 
diff --git a/tests/layers/test_lm_head.py b/tests/layers/test_lm_head.py
index b1a922099..a8ae85c12 100644
--- a/tests/layers/test_lm_head.py
+++ b/tests/layers/test_lm_head.py
@@ -47,6 +47,7 @@ def get_config(self) -> GPTModelConfig:
             "normalization": {"type": "rms_norm"},
             "logits_scale_factor": self.logits_scale_factor,
             "cross_entropy_splits": self.num_splits,
+            "prediction_heads": self.prediction_heads,
         }
         losses = {}
         if self.label_loss is not False:
@@ -69,15 +70,7 @@ def get_config(self) -> GPTModelConfig:
                 "base_model": {
                     "decoder": {"num_blocks": 0},
                     "embeddings": {"vocab_size": VOCAB_SIZE, "full_precision_residual": self.full_precision_residual},
-                    "head": (
-                        head_config
-                        if self.prediction_heads == 1
-                        else {
-                            "type": "multi_token_prediction",
-                            "head": head_config,
-                            "prediction_heads": self.prediction_heads,
-                        }
-                    ),
+                    "head": head_config,
                     "hidden_size": HIDDEN_SIZE,
                     "tied_embedding_weight": self.tied_embedding_weight,
                 },
@@ -246,8 +239,9 @@ def test_lm_head(test_config: LMHeadTestConfig):
         else None
     )
 
-    for prediction_distance, head in enumerate(model.head.heads):
+    for prediction_distance in range(model_config.base_model.head.prediction_heads):
         # Prepare the LM head
+        head = model.head if prediction_distance == 0 else model.multi_token_prediction.heads[prediction_distance - 1]
         Assert.custom(isinstance, head, LanguageModelHead)
         Assert.eq(head._prediction_distance, prediction_distance)
         is_duplicate = test_config.tied_embedding_weight or prediction_distance > 0
diff --git a/tests/utils/model_configs.py b/tests/utils/model_configs.py
index 7b41c1f50..40dbb7d29 100644
--- a/tests/utils/model_configs.py
+++ b/tests/utils/model_configs.py
@@ -470,13 +470,8 @@ def update_and_add_testing_config(
     "llama",
     "mtp_llama",
     updates={
-        ("model", "base_model", "head"): {
-            "type": "multi_token_prediction",
-            "block": _llama_block,
-            "head": MODEL_CONFIGS["llama"].config_dict["model"]["base_model"]["head"],
-            "prediction_heads": 2,
-        },
         ("model", "base_model", "decoder", "num_blocks"): 1,
+        ("model", "base_model", "head", "prediction_heads"): 1,
     },
     # Megatron doesn't support multi-token prediction.
     megatron_args=None,

From f803e822cc65592787e519c6227b373244f36a81 Mon Sep 17 00:00:00 2001
From: Joel Lamy-Poirier <joel.lamy-poirier@servicenow.com>
Date: Wed, 11 Feb 2026 16:12:34 -0500
Subject: [PATCH 21/37] misc

---
 fast_llm/layers/language_model/loss/entropy_loss.py | 8 --------
 fast_llm/layers/language_model/loss/loss.py         | 1 -
 fast_llm/layers/language_model/loss/z_loss.py       | 6 ------
 3 files changed, 15 deletions(-)

diff --git a/fast_llm/layers/language_model/loss/entropy_loss.py b/fast_llm/layers/language_model/loss/entropy_loss.py
index 537c7996d..e326b9555 100644
--- a/fast_llm/layers/language_model/loss/entropy_loss.py
+++ b/fast_llm/layers/language_model/loss/entropy_loss.py
@@ -13,9 +13,6 @@
 
 
 class LanguageModelLabelEntropyLoss[ConfigType: LanguageModelLabelEntropyLossConfig](LanguageModelLoss[ConfigType]):
-    def __init__(self, *args, **kwargs):
-        super().__init__(*args, **kwargs)
-
     def forward_backward(
         self,
         logits: "torch.Tensor",
@@ -41,11 +38,6 @@ def forward_backward(
 
 
 class LanguageModelDistillationLoss[ConfigType: LanguageModelDistillationLossConfig](LanguageModelLoss[ConfigType]):
-    def __init__(self, *args, **kwargs):
-        super().__init__(*args, **kwargs)
-        if self._prediction_distance > 0:
-            raise NotImplementedError()
-
     def forward_backward(
         self,
         logits: "torch.Tensor",
diff --git a/fast_llm/layers/language_model/loss/loss.py b/fast_llm/layers/language_model/loss/loss.py
index 8dc88c4a1..f1f65ac39 100644
--- a/fast_llm/layers/language_model/loss/loss.py
+++ b/fast_llm/layers/language_model/loss/loss.py
@@ -102,7 +102,6 @@ def _get_loss_mask(self, kwargs: dict[str, typing.Any], split_index: int = 0):
         return None if loss_mask is None else self._prepare_target(loss_mask, kwargs, split_index)
 
     def _get_reference_model_logits(self, reference_model: str, kwargs: dict[str, typing.Any], split_index: int = 0):
-        assert self._prediction_distance == 0
         Assert.incl(
             logits_name := self.module_name.rsplit(".", 2)[0] + f".logits",
             reference_hidden_states := kwargs[f"reference_{reference_model}_hidden_states"],
diff --git a/fast_llm/layers/language_model/loss/z_loss.py b/fast_llm/layers/language_model/loss/z_loss.py
index c606e2d68..720592c41 100644
--- a/fast_llm/layers/language_model/loss/z_loss.py
+++ b/fast_llm/layers/language_model/loss/z_loss.py
@@ -10,12 +10,6 @@
 
 
 class LanguageModelZLoss[ConfigType: LanguageModelZLossConfig](LanguageModelLoss[ConfigType]):
-    def __init__(self, *args, **kwargs):
-        super().__init__(*args, **kwargs)
-        # TODO: Support vocab_parallel
-        if self._vocab_parallel:
-            raise NotImplementedError()
-
     def forward_backward(
         self,
         logits: "torch.Tensor",

From 7469f83eb0d26875e92ffaa52791ee2a20dd9698 Mon Sep 17 00:00:00 2001
From: Joel Lamy-Poirier <joel.lamy-poirier@servicenow.com>
Date: Tue, 17 Feb 2026 16:50:38 -0500
Subject: [PATCH 22/37] stuff

---
 fast_llm/batch/__init__.py                    |   0
 fast_llm/batch/config.py                      |  54 ++++
 fast_llm/batch/language_model.py              | 144 +++++++++++
 fast_llm/data/data/abstract.py                |   6 +-
 fast_llm/data/data/gpt/data.py                |   5 +-
 fast_llm/data/preprocessing/language_model.py |   2 +-
 fast_llm/data/sample/abstract.py              |   3 +
 fast_llm/data/sample/language_model.py        |  11 +
 fast_llm/data/sample/patch.py                 |   5 +
 fast_llm/data/sample/token.py                 |  62 ++++-
 fast_llm/engine/base_model/base_model.py      |   9 +
 fast_llm/engine/training/trainer.py           |  31 ++-
 fast_llm/layers/attention/attention.py        | 190 ++++++--------
 fast_llm/layers/attention/config.py           |   6 -
 fast_llm/layers/block/config.py               |   1 +
 fast_llm/layers/block/sequence.py             |  12 +-
 fast_llm/layers/decoder/block.py              |   7 +-
 fast_llm/layers/language_model/config.py      |   7 -
 fast_llm/layers/language_model/embedding.py   |  20 +-
 .../layers/language_model/language_model.py   |  11 +-
 .../language_model/multi_token_prediction.py  |   6 +-
 fast_llm/layers/ssm/gdn.py                    |  12 +-
 fast_llm/layers/ssm/kda.py                    |  12 +-
 fast_llm/layers/ssm/mamba.py                  |  14 +-
 fast_llm/layers/vision/vision_encoder.py      |  17 +-
 fast_llm/models/gpt/model.py                  | 234 +++---------------
 fast_llm/models/gpt/trainer.py                |  14 +-
 .../models/multimodal/conversion/apriel2.py   |   3 +-
 .../models/multimodal/conversion/llava.py     |   2 -
 fast_llm/models/multimodal/model.py           |   3 +-
 tests/layers/test_attention.py                |   4 +-
 tests/layers/test_lm_head.py                  |   3 -
 tests/layers/test_varlen.py                   |   4 +-
 tests/utils/model_configs.py                  |   3 -
 34 files changed, 502 insertions(+), 415 deletions(-)
 create mode 100644 fast_llm/batch/__init__.py
 create mode 100644 fast_llm/batch/config.py
 create mode 100644 fast_llm/batch/language_model.py

diff --git a/fast_llm/batch/__init__.py b/fast_llm/batch/__init__.py
new file mode 100644
index 000000000..e69de29bb
diff --git a/fast_llm/batch/config.py b/fast_llm/batch/config.py
new file mode 100644
index 000000000..f857d115b
--- /dev/null
+++ b/fast_llm/batch/config.py
@@ -0,0 +1,54 @@
+import functools
+import logging
+import typing
+
+from fast_llm.config import Field, FieldUpdate, config_class
+from fast_llm.data.preprocessing.abstract import NullPreprocessingConfig, PreprocessingConfig
+from fast_llm.data.preprocessing.image_patch import ImagePatchConfig
+from fast_llm.data.preprocessing.language_model import LanguageModelPreprocessingConfig
+from fast_llm.data.preprocessing.tokenizer import TokenizerConfig
+from fast_llm.engine.distributed.config import PhaseType
+from fast_llm.engine.schedule.config import BatchConfig
+from fast_llm.models.gpt.config import GPTBatchConfig
+from fast_llm.utils import Assert
+
+logger = logging.getLogger(__name__)
+
+
+@config_class(registry=True)
+class BatchPreprocessingConfig(PreprocessingConfig):
+    batch: BatchConfig = Field()
+
+
+@config_class(dynamic_type={PreprocessingConfig: "language_model"})
+class LanguageModelBatchPreprocessingConfig(LanguageModelPreprocessingConfig):
+    _abstract = False
+    # TODO: Duplicate `use_loss_masking_spans`, `use_preference_spans`
+    batch: GPTBatchConfig = FieldUpdate()
+    phase: PhaseType = Field(default=PhaseType.inference)
+    predicted_tokens: int = Field(default=1)
+    return_cumulative_sequence_lengths: bool = Field(default=False)
+    return_max_sequence_lengths: bool = Field(default=False)
+    return_document_index: bool = Field(default=False)
+    return_position_index: bool = Field(default=False)
+    return_prediction_mask: bool = Field(default=False)
+
+    def _validate(self) -> None:
+        super()._validate()
+        Assert.custom(isinstance, self.image_patches, (ImagePatchConfig, NullPreprocessingConfig))
+        Assert.custom(isinstance, self.tokenizer, (TokenizerConfig, NullPreprocessingConfig))
+
+    @functools.cached_property
+    def use_image_patches(self) -> bool:
+        return isinstance(self.image_patches, ImagePatchConfig)
+
+    def check_compatibility(self, preprocessing: typing.Self) -> None:
+        Assert.custom(isinstance, preprocessing, LanguageModelPreprocessingConfig)
+        # TODO: Check more tokenizer data, ex. bos/eos tokens? path if points to HF hub?
+        if self.vocab_size is not None and preprocessing.vocab_size is not None:
+            Assert.leq(self.vocab_size, preprocessing.vocab_size)
+        if preprocessing.use_preference_spans:
+            # Preference spans are strictly needed for DPO loss.
+            assert self.use_preference_spans, "The dataset is missing required preference spans"
+        if preprocessing.use_image_patches and self.use_image_patches:
+            self.image_patches.check_compatibility(preprocessing.image_patches)
diff --git a/fast_llm/batch/language_model.py b/fast_llm/batch/language_model.py
new file mode 100644
index 000000000..7de5c07e3
--- /dev/null
+++ b/fast_llm/batch/language_model.py
@@ -0,0 +1,144 @@
+import dataclasses
+import typing
+
+import torch
+
+from fast_llm.batch.config import LanguageModelBatchPreprocessingConfig
+from fast_llm.data.sample.language_model import LanguageModelSample
+from fast_llm.engine.config_utils.tensor_dim import TensorDim
+from fast_llm.engine.distributed.config import DistributedConfig, DistributedDimNames
+
+
+@dataclasses.dataclass
+class LanguageModelBatchNew:
+    tokens: torch.Tensor
+    token_dim: TensorDim
+    hidden_token_dim: TensorDim
+    sequence_k_dim: TensorDim
+    # TODO: Adjust names
+    num_tokens: int  # Number of tokens in the micro-batch excluding padding at the end.
+    sequence_length: int  # Total number of tokens across all micro-batches, including padding.
+    document_lengths: list[int]
+    labels: list[torch.Tensor] = dataclasses.field(default_factory=list)
+    prediction_masks: list[torch.Tensor] = dataclasses.field(default_factory=list)
+    cumulative_lengths_q: torch.Tensor | None = None
+    cumulative_lengths_k: torch.Tensor | None = None
+    max_length_q: torch.Tensor | None = None
+    max_length_k: torch.Tensor | None = None
+    document_index: torch.Tensor | None = None
+    position_index: torch.Tensor | None = None
+    chosen_spans: list[tuple[int, int]] | None = None
+    rejected_spans: list[tuple[int, int]] | None = None
+
+    def to_device_(self, device: torch.device):
+        self.tokens = self.tokens.to(device, non_blocking=True)
+        if self.cumulative_lengths_q is not None:
+            self.cumulative_lengths_q = self.cumulative_lengths_q.to(device, non_blocking=True)
+        if self.cumulative_lengths_k is not None:
+            self.cumulative_lengths_k = self.cumulative_lengths_k.to(device, non_blocking=True)
+        if self.max_length_q is not None:
+            self.max_length_q = self.max_length_q.to(device, non_blocking=True)
+        if self.max_length_k is not None:
+            self.max_length_k = self.max_length_k.to(device, non_blocking=True)
+        if self.document_index is not None:
+            self.document_index = self.document_index.to(device, non_blocking=True)
+        if self.position_index is not None:
+            self.position_index = self.position_index.to(device, non_blocking=True)
+
+    @classmethod
+    def from_documents(
+        cls,
+        config: LanguageModelBatchPreprocessingConfig,
+        distributed_config: DistributedConfig,
+        documents: list[LanguageModelSample],
+        device: torch.device | None = None,
+    ) -> list[typing.Self]:
+        num_tokens = sum(len(document) for document in documents)
+        padding = config.batch.sequence_length + config.predicted_tokens - num_tokens
+        sample = LanguageModelSample.from_documents(documents + [documents[0].get_padding(padding)])
+        # sample.tokens.lengths
+        # lengths = [len(document) for document in documents]
+        # num_tokens = sum(lengths)
+
+        if device is None:
+            device = sample.tokens.tokens.device
+        sample.to_device_(device)
+
+        token_dim = TensorDim(
+            "token",
+            config.batch.micro_sequence_length,
+            distributed_config.get_distributed_dim(DistributedDimNames.sequence_data),
+        )
+        hidden_token_dim = (
+            (
+                "token_tp",
+                token_dim.global_size,
+                distributed_config.get_distributed_dim(DistributedDimNames.tensor_and_data),
+            )
+            if distributed_config.sequence_tensor_parallel
+            else token_dim
+        )
+        micro_batches = []
+        for micro_sequence_index, sequence_k_past in enumerate(
+            range(
+                token_dim.size * distributed_config.sequence_data_rank,
+                config.batch.sequence_length,
+                token_dim.global_size,
+            )
+        ):
+            sequence_k = sequence_k_past + token_dim.size
+            sequence_k_dim = TensorDim("sequence_k", sequence_k)
+            cropped_sample = sample.crop(sequence_k_past, sequence_k)
+
+            # document_lengths, cumulative_lengths_q, cumulative_lengths_k, first_document_index, remaining_tokens = crop_lengths(
+            #    sample.tokens.lengths, sequence_k_past, sequence_k_past + token_dim.size)
+
+            micro_batch = LanguageModelBatchNew(
+                tokens=sample.tokens.tokens[sequence_k_past:sequence_k],
+                token_dim=token_dim,
+                hidden_token_dim=hidden_token_dim,
+                sequence_k_dim=sequence_k_dim,
+                num_tokens=min(sequence_k, num_tokens) - sequence_k_past,
+                sequence_length=config.batch.sequence_length,
+                document_lengths=sample.tokens.lengths,
+            )
+            if config.return_cumulative_sequence_lengths:
+                micro_batch.cumulative_lengths_q, micro_batch.cumulative_lengths_k = (
+                    cropped_sample.tokens.get_cumulative_lengths(device)
+                )
+            if config.return_max_sequence_lengths:
+                micro_batch.max_length_q, micro_batch.max_length_k = cropped_sample.tokens.get_max_lengths(device)
+            if config.return_document_index:
+                micro_batch.document_index = cropped_sample.tokens.get_document_index()
+            if config.return_position_index:
+                micro_batch.position_index = cropped_sample.tokens.get_position_index()
+            if config.use_preference_spans:
+                micro_batch.chosen_spans = cropped_sample.chosen_spans.ranges
+                micro_batch.rejected_spans = cropped_sample.rejected_spans.ranges
+
+            for prediction_distance in range(1, config.predicted_tokens + 1):
+                label_begin = sequence_k_past + prediction_distance
+                label_end = sequence_k + prediction_distance
+                label_tokens = sample.tokens.crop(label_begin, label_end)
+                labels = label_tokens.tokens.clone()
+
+                # Apply loss masking spans.
+                if config.use_loss_masking_spans:
+                    for span_begin, span_end in sample.loss_masking_spans.crop(label_begin, label_end).ranges:
+                        labels[span_begin:span_end] = -100
+
+                # Mask cross-document predictions.
+                document_end = 0
+                for length in label_tokens.lengths:
+                    document_end += length
+                    labels[max(document_end - prediction_distance, 0) : document_end] = -100
+
+                # Labels contain all four sources of masking: padding, user-defined spans, image placeholders, cross-document predictions.
+                micro_batch.labels.append(labels)
+                if config.return_prediction_mask:
+                    # TODO: Does the prediction mask really need all sources of masking?
+                    #   (i.e. lack of labels doesn't mean we can't do predictions and compute other losses.)
+                    micro_batch.prediction_masks.append(labels > 0)
+
+            micro_batches.append(micro_batch)
+        return micro_batches
diff --git a/fast_llm/data/data/abstract.py b/fast_llm/data/data/abstract.py
index 2c1902796..e01331be2 100644
--- a/fast_llm/data/data/abstract.py
+++ b/fast_llm/data/data/abstract.py
@@ -9,6 +9,7 @@
 from fast_llm.data.sample.abstract import Batch
 from fast_llm.engine.distributed.config import DistributedConfig
 from fast_llm.engine.schedule.config import BatchConfig
+from fast_llm.utils import Assert
 
 if typing.TYPE_CHECKING:
     from fast_llm.engine.distributed.distributed import Distributed
@@ -17,7 +18,7 @@
 class Data[ConfigType: DataConfig](Configurable[ConfigType], abc.ABC):
     _distributed: "Distributed"
     _sampling_parameters: dict[str, SamplingParameters]
-    _preprocessing: PreprocessingConfig
+    _preprocessing: dict[str, PreprocessingConfig]
     _cache_directory: pathlib.Path | None
 
     def __init__(self, config: DataConfig, distributed_config: DistributedConfig) -> None:
@@ -29,10 +30,11 @@ def setup(
         self,
         distributed: "Distributed",
         sampling_parameters: dict[str, SamplingParameters],
-        preprocessing: PreprocessingConfig,
+        preprocessing: dict[str, PreprocessingConfig],
         cache_directory: pathlib.Path,
         timeout: float | None = None,
     ) -> None:
+        Assert.eq(sampling_parameters.keys(), preprocessing.keys())
         self._distributed = distributed
         self._sampling_parameters = sampling_parameters
         self._preprocessing = preprocessing
diff --git a/fast_llm/data/data/gpt/data.py b/fast_llm/data/data/gpt/data.py
index 17f151919..3a1e99e6d 100644
--- a/fast_llm/data/data/gpt/data.py
+++ b/fast_llm/data/data/gpt/data.py
@@ -32,6 +32,7 @@ class GPTData[ConfigType: GPTDataConfig](Data[ConfigType]):
 
     _datasets: dict[str, SampledDataset]
     _sampling_parameters: dict[str, SamplingParameters]
+    _preprocessing: dict[str, LanguageModelPreprocessingConfig]
     _is_setup: bool = False
 
     def __init__(
@@ -49,7 +50,7 @@ def setup(
         self,
         distributed: "Distributed",
         sampling_parameters: dict[str, SamplingParameters],
-        preprocessing: LanguageModelPreprocessingConfig,
+        preprocessing: dict[str, LanguageModelPreprocessingConfig],
         cache_directory: pathlib.Path,
         timeout: float | None = None,
     ) -> None:
@@ -84,7 +85,7 @@ def setup(
                 sampling = GPTSamplingData(
                     config=self._config.sampling,
                     parameters=sampling_parameters,
-                    preprocessing=preprocessing,
+                    preprocessing=self._preprocessing[dataset_name],
                     cache_directory=self._cache_directory,
                     distributed=distributed,
                     dataset_name=dataset_name,
diff --git a/fast_llm/data/preprocessing/language_model.py b/fast_llm/data/preprocessing/language_model.py
index d54776eec..b4f1a69a7 100644
--- a/fast_llm/data/preprocessing/language_model.py
+++ b/fast_llm/data/preprocessing/language_model.py
@@ -20,7 +20,7 @@ class LanguageModelPreprocessingConfig(PreprocessingConfig):
     # so we provide the vocab size and use it for compatibility checks.
     image_patches: PreprocessingConfig = Field()
     vocab_size: int | None = Field(default=None)
-    use_loss_masking_spans: bool = Field(default=False)
+    use_loss_masking_spans: bool = Field(default=True)
     use_preference_spans: bool = Field(default=False)
 
     def _validate(self) -> None:
diff --git a/fast_llm/data/sample/abstract.py b/fast_llm/data/sample/abstract.py
index 494a5c4a5..c5dcf165e 100644
--- a/fast_llm/data/sample/abstract.py
+++ b/fast_llm/data/sample/abstract.py
@@ -29,6 +29,9 @@ def __len__(self) -> int:
     def get_padding(self, size: int) -> typing.Self:
         pass
 
+    def to_device_(self, device: "torch.device | str"):
+        pass
+
 
 class Batch(abc.ABC):
     # TODO: Relate to `BatchConfig`?
diff --git a/fast_llm/data/sample/language_model.py b/fast_llm/data/sample/language_model.py
index 22b89acf1..db7e89d87 100644
--- a/fast_llm/data/sample/language_model.py
+++ b/fast_llm/data/sample/language_model.py
@@ -91,6 +91,17 @@ def get_padding(self, size: int) -> typing.Self:
             None if self.image_patches is None else self.image_patches.get_padding(size),
         )
 
+    def to_device_(self, device: "torch.device | str"):
+        self.tokens.to_device_(device)
+        if self.loss_masking_spans is not None:
+            self.loss_masking_spans.to_device_(device)
+        if self.chosen_spans is not None:
+            self.chosen_spans.to_device_(device)
+        if self.rejected_spans is not None:
+            self.rejected_spans.to_device_(device)
+        if self.image_patches is not None:
+            self.image_patches.to_device_(device)
+
 
 class LanguageModelBatch(Batch):
     def __init__(
diff --git a/fast_llm/data/sample/patch.py b/fast_llm/data/sample/patch.py
index 32ea60cb8..0be91f0c8 100644
--- a/fast_llm/data/sample/patch.py
+++ b/fast_llm/data/sample/patch.py
@@ -93,6 +93,11 @@ def get_padding(self, size: int) -> typing.Self:
             [],
         )
 
+    def to_device_(self, device: "torch.device | str"):
+        self.patches = self.patches.to(device, non_blocking=True)
+        self.token_map = self.token_map.to(device, non_blocking=True)
+        self.positions = self.positions.to(device, non_blocking=True)
+
 
 class PatchBatch(Batch):
     def __init__(
diff --git a/fast_llm/data/sample/token.py b/fast_llm/data/sample/token.py
index 6ab55dbba..17078cef9 100644
--- a/fast_llm/data/sample/token.py
+++ b/fast_llm/data/sample/token.py
@@ -14,7 +14,7 @@
     Sample,
 )
 from fast_llm.engine.config_utils.data_type import DataType
-from fast_llm.utils import Assert, get_unique
+from fast_llm.utils import Assert, get_unique, padded_cumsum
 
 
 def crop_lengths(lengths: list[int], begin: int, end: int) -> list[int]:
@@ -35,7 +35,13 @@ def crop_lengths(lengths: list[int], begin: int, end: int) -> list[int]:
 
 
 class TokenSample(Sample):
-    def __init__(self, tokens: torch.Tensor, lengths: list[int] | None = None):
+    def __init__(
+        self,
+        tokens: torch.Tensor,
+        lengths: list[int] | None = None,
+        sequence_k_past: int = 0,
+        current_document_begin: int = 0,
+    ):
         self.tokens = tokens
         # Length of each document in the sample. TODO: Use cumsums instead?
         if lengths is None:
@@ -43,6 +49,8 @@ def __init__(self, tokens: torch.Tensor, lengths: list[int] | None = None):
         else:
             Assert.eq(sum(lengths), len(tokens))
         self.lengths = lengths
+        self.sequence_k_past = sequence_k_past
+        self.current_document_begin = current_document_begin
 
     @classmethod
     def from_documents(cls, documents: typing.Iterable[typing.Self]) -> typing.Self:
@@ -52,7 +60,23 @@ def from_documents(cls, documents: typing.Iterable[typing.Self]) -> typing.Self:
         )
 
     def crop(self, begin: int, end: int) -> typing.Self:
-        return self.__class__(self.tokens[begin:end], crop_lengths(self.lengths, begin, end))
+        Assert.eq(self.sequence_k_past, self.current_document_begin, 0)
+
+        document_begin = 0
+        lengths_ = []
+        current_document_begin = None
+        for length in self.lengths:
+            document_end = document_begin + length
+            cropped_length = min(document_end, end) - max(document_begin, begin)
+            if cropped_length > 0:
+                lengths_.append(cropped_length)
+                if not current_document_begin:
+                    current_document_begin = document_begin
+            if document_end > end:
+                break
+            document_begin = document_end
+
+        return self.__class__(self.tokens[begin:end], lengths_, begin, current_document_begin)
 
     def __len__(self) -> int:
         return len(self.tokens)
@@ -60,6 +84,38 @@ def __len__(self) -> int:
     def get_padding(self, size: int) -> typing.Self:
         return self.__class__(torch.full([size], -100, dtype=self.tokens.dtype), [size])
 
+    def to_device_(self, device: "torch.device | str"):
+        # Also standardize the dtype while we're here.
+        self.tokens = self.tokens.to(device, dtype=torch.int64, non_blocking=True)
+
+    def get_cumulative_lengths(self, device: torch.device | None = None) -> tuple[torch.Tensor, torch.Tensor]:
+        cumulative_lengths_q = torch.from_numpy(padded_cumsum(self.lengths)).to(dtype=torch.int32, device=device)
+        cumulative_lengths_k = torch.cat(
+            [self.current_document_begin, cumulative_lengths_q[1:] + self.sequence_k_past]
+        )
+        return cumulative_lengths_q, cumulative_lengths_k
+
+    def get_max_lengths(self, device: torch.device | None = None) -> tuple[torch.Tensor, torch.Tensor]:
+        max_length_q = max(self.lengths)
+        max_length_k = max(self.max_length_q, self.sequence_k_past + self.lengths[0] - self.current_document_begin)
+        return (
+            torch.full((1,), max_length_q, dtype=torch.int32, device=device),
+            torch.full((1,), max_length_k, dtype=torch.int32, device=device),
+        )
+
+    def get_document_index(self, device: torch.device | None = None) -> torch.Tensor:
+        return torch.cat(
+            [
+                torch.full((document_length,), i, dtype=torch.int32, device=device)
+                for i, document_length in enumerate(self.lengths)
+            ]
+        )
+
+    def get_position_index(self, device: torch.device | None = None) -> torch.Tensor:
+        return torch.cat(
+            [torch.arange(document_length, dtype=torch.int32, device=device) for document_length in self.lengths]
+        )
+
 
 class TokenBatch(Batch):
     def __init__(self, tokens: torch.Tensor, lengths: list[list[int]] | None) -> None:
diff --git a/fast_llm/engine/base_model/base_model.py b/fast_llm/engine/base_model/base_model.py
index de64d905a..f5f8dc5e7 100644
--- a/fast_llm/engine/base_model/base_model.py
+++ b/fast_llm/engine/base_model/base_model.py
@@ -9,6 +9,7 @@
 from fast_llm.engine.distributed.config import DistributedConfig, PhaseType
 from fast_llm.engine.distributed.distributed import Distributed
 from fast_llm.tensor import ParameterMeta, TensorMeta
+from fast_llm.utils import safe_merge_dicts
 
 if typing.TYPE_CHECKING:
     from fast_llm.engine.inference.runner import InferenceRunner
@@ -53,6 +54,11 @@ def get_loss_definitions(self, count: int = 1) -> list[LossDef]:
                 losses += layer.get_loss_definitions(count)
         return losses
 
+    def get_preprocessing_config(self, phase: PhaseType) -> dict[str, typing.Any]:
+        return safe_merge_dicts(
+            *(layer.get_preprocessing_config(phase) for layer in self.get_layers() if layer is not self)
+        )
+
     def preprocess(self, kwargs: dict[str, typing.Any]) -> None:
         for layer in self.get_layers():
             if layer is not self:
@@ -107,6 +113,9 @@ def get_layers(self) -> list["Layer"]:
         """
         return self._layers_with_namespace
 
+    def get_preprocessing_config(self, phase: PhaseType) -> dict[str, typing.Any]:
+        return self._layer.get_preprocessing_config(phase)
+
     def preprocess(self, kwargs: dict[str, typing.Any]) -> None:
         """
         Preprocess with namespace.
diff --git a/fast_llm/engine/training/trainer.py b/fast_llm/engine/training/trainer.py
index b35733cc7..68c73bf70 100644
--- a/fast_llm/engine/training/trainer.py
+++ b/fast_llm/engine/training/trainer.py
@@ -229,20 +229,23 @@ def setup(self, distributed: Distributed, run: Run) -> None:
             self._runner.setup(distributed, self._optimizer)
         # Setup the datasets.
         log_main_rank("Preparing datasets...")
+        sampling_parameters = {}
+        preprocessing_configs = {}
+        for phase, datasets in self._samples_per_split.items():
+            for dataset_name, samples in datasets.items():
+                sampling_parameters[dataset_name] = self._get_sampling_parameters({"num_samples": samples})
+                preprocessing_configs[dataset_name] = self._get_preprocessing_config(phase)
+        for eval_sampling_params in self._evaluator_runner.get_sampling_parameters():
+            sampling_parameters[eval_sampling_params.dataset_name] = self._get_sampling_parameters(
+                {"num_samples": eval_sampling_params.num_samples}
+            )
+            preprocessing_configs[eval_sampling_params.dataset_name] = self._get_preprocessing_config(
+                PhaseType.inference
+            )
         self._data.setup(
             distributed,
-            {
-                dataset_name: self._get_sampling_parameters({"num_samples": samples})
-                for datasets in self._samples_per_split.values()
-                for dataset_name, samples in datasets.items()
-            }
-            | {
-                eval_sampling_params.dataset_name: self._get_sampling_parameters(
-                    {"num_samples": eval_sampling_params.num_samples}
-                )
-                for eval_sampling_params in self._evaluator_runner.get_sampling_parameters()
-            },
-            self._get_preprocessing_config(),
+            sampling_parameters,
+            preprocessing_configs,
             None if run.experiment_directory is None else run.experiment_directory / "dataset_cache",
             timeout=self._config.training.timeout,
         )
@@ -269,7 +272,9 @@ def _get_sampling_parameters(
     ) -> SamplingParameters | dict[str, typing.Any]:
         return parameters if _return_dict else SamplingParameters(**parameters)
 
-    def _get_preprocessing_config(self, *, _return_dict: bool = False) -> PreprocessingConfig | dict[str, typing.Any]:
+    def _get_preprocessing_config(
+        self, phase: PhaseType, *, _return_dict: bool = False
+    ) -> PreprocessingConfig | dict[str, typing.Any]:
         return {} if _return_dict else NullPreprocessingConfig()
 
     @property
diff --git a/fast_llm/layers/attention/attention.py b/fast_llm/layers/attention/attention.py
index 859bafea2..0eaae34f7 100644
--- a/fast_llm/layers/attention/attention.py
+++ b/fast_llm/layers/attention/attention.py
@@ -8,7 +8,7 @@
 from fast_llm.engine.config_utils.data_type import DataType
 from fast_llm.engine.config_utils.initialization import init_normal_
 from fast_llm.engine.config_utils.tensor_dim import CompositeTensorDim, ConcatenatedTensorDim, TensorDim
-from fast_llm.engine.distributed.config import DistributedConfig, DistributedDimNames
+from fast_llm.engine.distributed.config import DistributedConfig, DistributedDimNames, PhaseType
 from fast_llm.functional.autograd import wrap_forward_backward
 from fast_llm.layers.attention.config import AttentionConfig, AttentionImplementation, AttentionKwargs
 from fast_llm.layers.attention.preprocessing import preprocess_for_varlen
@@ -172,30 +172,28 @@ def __init__(
 
     def _attn_backup(
         self,
-        query: torch.Tensor,
-        key: torch.Tensor,
-        value: torch.Tensor,
+        query: torch.Tensor,  # sq, head_per_group * head_group, head_size
+        key: torch.Tensor,  # sk, head_group, head_size
+        value: torch.Tensor,  # sk, head_group, head_size
         kwargs: dict[str, typing.Any],
-    ) -> torch.Tensor:
+    ) -> torch.Tensor:  # sq, head_per_group * head_group, head_size
         # Backup attention (inefficient)
-        b, sq, _, _ = query.shape
-        sk = key.size(1)
-
-        if self._local_head_groups == 1:
-            query = query.view(b, sq * self._local_heads, self._config.head_size)
-            key = key.flatten(-2).transpose(-1, -2)
-            value = value.flatten(-2)
-        else:
-            query = (
-                query.unflatten(2, (self._local_head_groups, self._local_heads_per_group))
-                .transpose(1, 2)
-                .reshape(b * self._local_head_groups, sq * self._local_heads_per_group, self._config.head_size)
-            )
-            key = key.movedim(1, 3).flatten(0, 1)
-            value = value.transpose(1, 2).flatten(0, 1)
+        sq = query.size(0)
+        sk = key.size(0)
+
+        # sq, head_per_group * head_group, head_size -> head_group, sq * head_per_group, head_size
+        query = (
+            query.unflatten(1, (self._local_head_groups, self._local_heads_per_group))
+            .transpose(0, 1)
+            .view(self._local_head_groups, sq * self._local_heads_per_group, self._config.head_size)
+        )
+        # sk, head_group, head_size -> head_group, head_size, sk
+        key = key.movedim(0, 2)
+        # sk, head_group, head_size -> head_group, sk, head_size
+        value = value.transpose(0, 1)
 
         attn_weights = torch.empty(
-            (b * self._local_head_groups, sq * self._local_heads_per_group, sk), device=query.device, dtype=query.dtype
+            (self._local_head_groups, sq * self._local_heads_per_group, sk), device=query.device, dtype=query.dtype
         )
         attn_weights = torch.baddbmm(
             attn_weights,
@@ -203,7 +201,7 @@ def _attn_backup(
             key,
             beta=0,
             alpha=self._softmax_scale,
-        ).view(b, self._local_head_groups, sq, self._local_heads_per_group, sk)
+        ).view(self._local_head_groups, sq, self._local_heads_per_group, sk)
 
         attn_weights = attn_weights.to(torch.float32)
         if (attention_mask := kwargs[AttentionKwargs.attention_mask]) is not None:
@@ -212,51 +210,33 @@ def _attn_backup(
 
         attn_weights = torch.dropout(attn_weights, self._config.dropout, self.training)
         attn_output = torch.bmm(
-            attn_weights.view(b * self._local_head_groups, sq * self._local_heads_per_group, sk).to(value.dtype), value
+            attn_weights.view(self._local_head_groups, sq * self._local_heads_per_group, sk).to(value.dtype), value
+        )
+        # head_group, sq * head_per_group, head_size -> sq, head_per_group * head_group, head_size
+        return (
+            attn_output.view(self._local_head_groups, sq, self._local_heads_per_group, self._config.head_size)
+            .transpose(0, 1)
+            .flatten(1, 2)
         )
-
-        if self._local_head_groups == 1:
-            return attn_output.view(b, sq, -1)
-        else:
-            return (
-                attn_output.view(b, self._local_head_groups, sq, self._local_heads_per_group, self._config.head_size)
-                .transpose(1, 2)
-                .flatten(2)
-            )
 
     def _attn_flash(
         self, query: torch.Tensor, key: torch.Tensor, value: torch.Tensor, kwargs: dict[str, typing.Any]
     ) -> torch.Tensor:
         assert _flash_available
         window_size = (-1, -1) if self._config.window_size is None else (self._config.window_size - 1, 0)
-        if self._config.cross_document_attention:
-            return _flash_attn_func(
-                query,
-                key,
-                value,
-                window_size=window_size,
-                dropout_p=self._config.dropout if self.training else 0.0,
-                causal=self._config.causal,
-                softmax_scale=self._softmax_scale,
-            ).flatten(-2)
-        else:
-            return (
-                _flash_attn_varlen_func(
-                    query.view(-1, query.size(-2), query.size(-1)),
-                    key.view(-1, key.size(-2), key.size(-1)),
-                    value.view(-1, value.size(-2), value.size(-1)),
-                    kwargs[AttentionKwargs.cu_seqlens_q],
-                    kwargs[AttentionKwargs.cu_seqlens_k],
-                    kwargs[AttentionKwargs.max_seqlen_q],
-                    kwargs[AttentionKwargs.max_seqlen_k],
-                    dropout_p=self._config.dropout if self.training else 0.0,
-                    window_size=window_size,
-                    causal=self._config.causal,
-                    softmax_scale=self._softmax_scale,
-                )
-                .view(query.size())
-                .flatten(-2)
-            )
+        _flash_attn_varlen_func(
+            query,
+            key,
+            value,
+            kwargs[AttentionKwargs.cu_seqlens_q],
+            kwargs[AttentionKwargs.cu_seqlens_k],
+            kwargs[AttentionKwargs.max_seqlen_q],
+            kwargs[AttentionKwargs.max_seqlen_k],
+            dropout_p=self._config.dropout if self.training else 0.0,
+            window_size=window_size,
+            causal=self._config.causal,
+            softmax_scale=self._softmax_scale,
+        )
 
     def _query_key_value_forward(
         self, input_: torch.Tensor
@@ -320,17 +300,10 @@ def _forward(
     ) -> tuple[torch.Tensor, torch.Tensor | None]:
         query, key_value = self._query_key_value(input_)
 
-        # Separate the batch and sequence dimensions
-        token_dims = (kwargs[AttentionKwargs.batch_dim], kwargs[AttentionKwargs.sequence_q_dim])
-        token_shape = tuple(dim.size for dim in token_dims)
-        query = query.unflatten(0, token_shape)
-        key_value = key_value.unflatten(0, token_shape)
-
-        # TODO: Move the rest to function.
-
+        # TODO: These get unnecessarily big with lots of small documents.
         if (past_key_values := kwargs.get(AttentionKwargs.past_key_values)) is not None:
             # Clear the lists so tensors can be de-allocated
-            key_value = torch.cat((past_key_values.pop(0), key_value), dim=1)
+            key_value = torch.cat((past_key_values.pop(0), key_value), dim=0)
 
         if (presents := kwargs.get(AttentionKwargs.presents)) is not None:
             # Return the presents as a leaf tensors so the gradients from later micro-sequences
@@ -342,12 +315,14 @@ def _forward(
         key_value = key_value[:, : kwargs[AttentionKwargs.sequence_k_dim].size]
         key, value = key_value.split(self._local_head_groups * self._config.head_size, dim=-1)
 
-        query = query.view(*query.shape[:2], self._local_heads, self._config.head_size)
-        key = key.view(*key.shape[:2], self._local_head_groups, self._config.head_size)
-        value = value.view(*value.shape[:2], self._local_head_groups, self._config.head_size)
+        query = query.unflatten(-1, (self._local_heads, self._config.head_size))
+        key = key.unflatten(-1, (self._local_head_groups, self._config.head_size))
+        value = value.unflatten(-1, (self._local_head_groups, self._config.head_size))
 
-        self._debug(query, "query_rotary_input", token_dims + self._query_dims, kwargs)
-        self._debug(key, "key_rotary_input", token_dims + self._kv_dims, kwargs)
+        self._debug(
+            query, "query_rotary_input", (token_dim := kwargs[AttentionKwargs.token_dim], *self._query_dims), kwargs
+        )
+        self._debug(key, "key_rotary_input", (token_dim, *self._kv_dims), kwargs)
         query, key = self._rotary(query, key, kwargs)
 
         with set_generator(self._distributed.tp_generator):
@@ -359,28 +334,36 @@ def _forward(
             else:
                 raise NotImplementedError(self._implementation)
 
-        self._debug(query, "query", token_dims + self._query_dims, kwargs)
-        self._debug(key, "key", token_dims + self._kv_dims, kwargs)
-        self._debug(value, "value", token_dims + self._kv_dims, kwargs)
-        self._debug(input_, "context", token_dims + (self._dense_dim,), kwargs)
+        self._debug(query, "query", (token_dim, *self._query_dims), kwargs)
+        self._debug(key, "key", (token_dim, *self._kv_dims), kwargs)
+        self._debug(value, "value", (token_dim, *self._kv_dims), kwargs)
+        self._debug(input_, "context", (token_dim, self._dense_dim), kwargs)
 
-        out, bias = self.dense(input_.flatten(0, 1))
-        self._debug(out, None, token_dims + (self._hidden_dim,), kwargs)
+        out, bias = self.dense(input_.flatten(1))
+        self._debug(
+            out,
+            None,
+            (
+                token_dim,
+                self._hidden_dim,
+            ),
+            kwargs,
+        )
         return out, bias
 
     def get_compute_usage(self, input_: TensorMeta, kwargs: dict[str, typing.Any], config: ResourceUsageConfig) -> int:
-        batch_dim: TensorDim = kwargs[AttentionKwargs.batch_dim]
+        # TODO: ====== Account for varlen =======
         sequence_q_dim: TensorDim = kwargs[AttentionKwargs.sequence_q_dim]
         sequence_k_dim: TensorDim = kwargs[AttentionKwargs.sequence_k_dim]
 
         if config.global_:
-            batch_size, sequence_q = batch_dim.global_size, sequence_q_dim.global_size
+            sequence_q = sequence_q_dim.global_size
             # In case of sequence-data-parallel, we need to undo the shift in k-sequence-length.
             sequence_k = sequence_k_dim.global_size - sequence_q_dim.size * (
                 sequence_q_dim.parallel_dim.size - sequence_q_dim.parallel_dim.rank - 1
             )
         else:
-            batch_size, sequence_q = batch_dim.size, sequence_q_dim.size
+            sequence_q = sequence_q_dim.size
             sequence_k = sequence_k_dim.size
 
         # 2 for multiply and accumulate, 2 operations (Q * K, attn * V), double for backward + Q * K recomputation.
@@ -422,12 +405,17 @@ def get_compute_usage(self, input_: TensorMeta, kwargs: dict[str, typing.Any], c
             )
         )
 
+    def get_preprocessing_config(self, phase: PhaseType) -> dict[str, typing.Any]:
+        out = {}
+        if self._implementation == AttentionImplementation.flash:
+            out["return_cumulative_sequence_lengths"] = True
+            out["return_max_sequence_lengths"] = True
+        return out
+
     def preprocess(self, kwargs: dict[str, typing.Any]) -> None:
         self._rotary.preprocess(kwargs)
         if self._implementation == AttentionImplementation.backup:
             self._preprocess_for_backup_attention(kwargs)
-        elif self._implementation == AttentionImplementation.flash:
-            self._preprocess_for_flash_attention(kwargs)
 
     def _preprocess_for_backup_attention(self, kwargs: dict[str, typing.Any]) -> None:
         device = kwargs[AttentionKwargs.device] if AttentionKwargs.device in kwargs else self._distributed.device
@@ -453,20 +441,15 @@ def _preprocess_for_backup_attention(self, kwargs: dict[str, typing.Any]) -> Non
             ]
         else:
             attention_mask = None
-        if not self._config.cross_document_attention:
-            seq_ids = torch.stack(
-                [
-                    torch.cat([torch.full((x,), i, device=device) for i, x in enumerate(sample_lens)])
-                    for sample_lens in kwargs[AttentionKwargs.sequence_lengths]
-                ]
-            )
-            document_mask = (seq_ids[:, None, :] == seq_ids[:, :, None])[
-                :, None, sequence_k - sequence_q : sequence_k, None, :sequence_k
-            ]
-            if attention_mask is None:
-                attention_mask = document_mask
-            else:
-                attention_mask = attention_mask & document_mask
+
+        preprocess_for_varlen(kwargs, device, return_seq_idx=True)
+        document_mask = (kwargs[AttentionKwargs.seq_idx][:, None, :] == kwargs[AttentionKwargs.seq_idx][:, :, None])[
+            :, None, sequence_k - sequence_q : sequence_k, None, :sequence_k
+        ]
+        if attention_mask is None:
+            attention_mask = document_mask
+        else:
+            attention_mask = attention_mask & document_mask
 
         kwargs[AttentionKwargs.attention_mask] = attention_mask
 
@@ -479,12 +462,3 @@ def _preprocess_for_backup_attention(self, kwargs: dict[str, typing.Any]) -> Non
                     device=device,
                 )
             kwargs[AttentionKwargs.attention_mask_value] = self._backup_attention_mask_value
-
-    def _preprocess_for_flash_attention(self, kwargs: dict[str, typing.Any]) -> None:
-        if not self._config.cross_document_attention:
-            preprocess_for_varlen(
-                kwargs,
-                kwargs[AttentionKwargs.device] if AttentionKwargs.device in kwargs else self._distributed.device,
-                return_cu_seqlens=True,
-                return_max_seqlen=True,
-            )
diff --git a/fast_llm/layers/attention/config.py b/fast_llm/layers/attention/config.py
index 40baf2009..a2221eff7 100644
--- a/fast_llm/layers/attention/config.py
+++ b/fast_llm/layers/attention/config.py
@@ -120,12 +120,6 @@ class AttentionConfig(MixerConfig):
         desc="The implementation to use for the attention layer. Default: `flash` if supported, otherwise `backup`.",
         hint=FieldHint.feature,
     )
-    cross_document_attention: bool = Field(
-        default=True,
-        desc="Allow for cross-document attention.",
-        doc="Disable to prevent attention between tokens belonging to different documents.",
-        hint=FieldHint.feature,
-    )
 
     def _validate(self) -> None:
         super()._validate()
diff --git a/fast_llm/layers/block/config.py b/fast_llm/layers/block/config.py
index 4f8595250..bf35765d0 100644
--- a/fast_llm/layers/block/config.py
+++ b/fast_llm/layers/block/config.py
@@ -35,6 +35,7 @@ class BlockKwargs:
     sequence_q_dim = "sequence_q_dim"
     sequence_k_dim = "sequence_k_dim"
     token_dim = "token_dim"
+    num_tokens = "num_tokens"
     hidden_token_dim = "hidden_token_dim"
     # TODO: These are confusing
     sequence_length = "sequence_length"
diff --git a/fast_llm/layers/block/sequence.py b/fast_llm/layers/block/sequence.py
index 2e7425343..eacc04611 100644
--- a/fast_llm/layers/block/sequence.py
+++ b/fast_llm/layers/block/sequence.py
@@ -7,10 +7,11 @@
 from fast_llm.engine.base_model.base_model import Layer, LayerWithNamespace
 from fast_llm.engine.base_model.config import LossDef
 from fast_llm.engine.config_utils.tensor_dim import TensorDim
-from fast_llm.engine.distributed.config import DistributedConfig
+from fast_llm.engine.distributed.config import DistributedConfig, PhaseType
 from fast_llm.layers.block.block import BlockBase
 from fast_llm.layers.block.config import FixedBlockSequenceConfig, PatternBlockSequenceConfig
 from fast_llm.layers.common.peft.config import PeftConfig
+from fast_llm.utils import safe_merge_dicts
 
 
 class FixedBlockSequence[ConfigType: FixedBlockSequenceConfig](BlockBase[ConfigType], torch.nn.ModuleList):
@@ -61,6 +62,9 @@ def _layers_with_namespace(self) -> list[Layer]:
     def get_layers(self) -> list["Layer"]:
         return self._layers_with_namespace
 
+    def get_preprocessing_config(self, phase: PhaseType) -> dict[str, typing.Any]:
+        return self._layers_with_namespace[0].get_preprocessing_config(phase)
+
     def preprocess(self, kwargs: dict[str, typing.Any]) -> None:
         self._layers_with_namespace[0].preprocess(kwargs)
 
@@ -121,6 +125,12 @@ def _layers_with_namespace(self) -> list[Layer]:
     def get_layers(self) -> list[Layer]:
         return self._layers_with_namespace
 
+    def get_preprocessing_config(self, phase: PhaseType) -> dict[str, typing.Any]:
+        return safe_merge_dicts(
+            self._layers_with_namespace[index].get_preprocessing_config(phase)
+            for _, index in self._config.preprocessing_layers.items()
+        )
+
     def preprocess(self, kwargs: dict[str, typing.Any]) -> None:
         for _, index in self._config.preprocessing_layers.items():
             self._layers_with_namespace[index].preprocess(kwargs)
diff --git a/fast_llm/layers/decoder/block.py b/fast_llm/layers/decoder/block.py
index dd19c1086..4a2e066c3 100644
--- a/fast_llm/layers/decoder/block.py
+++ b/fast_llm/layers/decoder/block.py
@@ -7,7 +7,7 @@
 from fast_llm.core.distributed import ReduceOp, all_reduce, set_generator
 from fast_llm.engine.base_model.config import LossDef, ResourceUsageConfig
 from fast_llm.engine.config_utils.tensor_dim import TensorDim
-from fast_llm.engine.distributed.config import DistributedConfig
+from fast_llm.engine.distributed.config import DistributedConfig, PhaseType
 from fast_llm.engine.distributed.distributed import Distributed
 from fast_llm.functional.autograd import AuxiliaryLoss
 from fast_llm.layers.block.block import Block
@@ -15,7 +15,7 @@
 from fast_llm.layers.common.peft.config import PeftConfig
 from fast_llm.layers.decoder.config import BlockWithBiasConfig, DecoderBlockConfig
 from fast_llm.tensor import TensorMeta
-from fast_llm.utils import Assert
+from fast_llm.utils import Assert, safe_merge_dicts
 
 logger = logging.getLogger(__name__)
 
@@ -206,6 +206,9 @@ def get_compute_usage(self, input_: TensorMeta, kwargs: dict[str, typing.Any], c
             )
         )
 
+    def get_preprocessing_config(self, phase: PhaseType) -> dict[str, typing.Any]:
+        return safe_merge_dicts(self.mixer.get_preprocessing_config(phase), self.mlp.get_preprocessing_config(phase))
+
     def preprocess(self, kwargs: dict[str, typing.Any]) -> None:
         self.mixer.preprocess(kwargs)
         self.mlp.preprocess(kwargs)
diff --git a/fast_llm/layers/language_model/config.py b/fast_llm/layers/language_model/config.py
index 0e54e7583..4a2422cd9 100644
--- a/fast_llm/layers/language_model/config.py
+++ b/fast_llm/layers/language_model/config.py
@@ -56,13 +56,6 @@ class LanguageModelEmbeddingsConfig(BlockConfig):
         hint=FieldHint.architecture,
         valid=check_field(Assert.gt, 0),
     )
-    cross_document_position_embeddings: bool = Field(
-        default=True,
-        desc="Allow for cross-document position embeddings.",
-        doc="Disable to reset position ids at the beginning of each document.",
-        hint=FieldHint.feature,
-    )
-
     dropout: float = Field(
         default=0.0,
         desc="Dropout applied to the embedding layer.",
diff --git a/fast_llm/layers/language_model/embedding.py b/fast_llm/layers/language_model/embedding.py
index c6df8f62b..ed685b416 100644
--- a/fast_llm/layers/language_model/embedding.py
+++ b/fast_llm/layers/language_model/embedding.py
@@ -7,8 +7,7 @@
 from fast_llm.engine.base_model.config import ResourceUsageConfig
 from fast_llm.engine.config_utils.initialization import init_normal_
 from fast_llm.engine.config_utils.tensor_dim import TensorDim
-from fast_llm.engine.distributed.config import DistributedConfig, DistributedDimNames
-from fast_llm.layers.attention.preprocessing import preprocess_for_varlen
+from fast_llm.engine.distributed.config import DistributedConfig, DistributedDimNames, PhaseType
 from fast_llm.layers.block.block import Block
 from fast_llm.layers.common.peft.config import PeftConfig
 from fast_llm.layers.language_model.config import LanguageModelEmbeddingsConfig, LanguageModelKwargs
@@ -179,15 +178,8 @@ def get_compute_usage(self, input_: TensorMeta, kwargs: dict[str, typing.Any], c
         # TODO: Add marginal compute? (embeddings)
         return 0
 
-    def preprocess(self, kwargs: dict[str, typing.Any]) -> None:
-        if not self._config.position_embeddings.enabled:
-            return
-        # TODO: Move to data preprocessing.
-        if self._config.cross_document_position_embeddings:
-            sequence_q = kwargs[LanguageModelKwargs.sequence_q_dim].size
-            sequence_k = kwargs[LanguageModelKwargs.sequence_k_dim].size
-            kwargs[LanguageModelKwargs.position_ids] = torch.arange(
-                sequence_k - sequence_q, sequence_k, device=self._distributed.device, dtype=torch.int64
-            ).repeat(kwargs[LanguageModelKwargs.batch_dim].size)
-        else:
-            preprocess_for_varlen(kwargs, self._distributed.device, return_position_ids=True)
+    def get_preprocessing_config(self, phase: PhaseType) -> dict[str, typing.Any]:
+        out = {"vocab_size": self.embeddings.vocab_size}
+        if self._config.position_embeddings.enabled:
+            out["return_position_index"] = True
+        return out
diff --git a/fast_llm/layers/language_model/language_model.py b/fast_llm/layers/language_model/language_model.py
index 32e2ccbf9..bdd261d28 100644
--- a/fast_llm/layers/language_model/language_model.py
+++ b/fast_llm/layers/language_model/language_model.py
@@ -4,11 +4,12 @@
 from fast_llm.engine.base_model.base_model import Layer
 from fast_llm.engine.base_model.config import LossDef
 from fast_llm.engine.config_utils.tensor_dim import TensorDim
-from fast_llm.engine.distributed.config import DistributedConfig
+from fast_llm.engine.distributed.config import DistributedConfig, PhaseType
 from fast_llm.layers.block.block import BlockBase
 from fast_llm.layers.common.peft.config import PeftConfig
 from fast_llm.layers.language_model.config import LanguageModelConfig
 from fast_llm.layers.language_model.embedding import LanguageModelEmbedding
+from fast_llm.utils import safe_merge_dicts
 
 logger = logging.getLogger(__name__)
 
@@ -65,6 +66,14 @@ def get_layers(self) -> list[Layer]:
             layers += self.multi_token_prediction.get_layers()
         return layers
 
+    def get_preprocessing_config(self, phase: PhaseType) -> dict[str, typing.Any]:
+        return safe_merge_dicts(
+            self.embeddings.get_preprocessing_config(phase),
+            self.decoder.get_preprocessing_config(phase),
+            self.head.get_preprocessing_config(phase),
+            {} if self.multi_token_prediction is None else self.multi_token_prediction.get_preprocessing_config(phase),
+        )
+
     def preprocess(self, kwargs: dict[str, typing.Any]) -> None:
         # Needed because the base class uses `get_layers` which may bypass the decoder and head. TODO: Avoidable?
         self.embeddings.preprocess(kwargs)
diff --git a/fast_llm/layers/language_model/multi_token_prediction.py b/fast_llm/layers/language_model/multi_token_prediction.py
index d7665cf00..a828cacc1 100644
--- a/fast_llm/layers/language_model/multi_token_prediction.py
+++ b/fast_llm/layers/language_model/multi_token_prediction.py
@@ -6,7 +6,7 @@
 from fast_llm.engine.base_model.base_model import Layer, LayerWithNamespace
 from fast_llm.engine.base_model.config import LossDef
 from fast_llm.engine.config_utils.tensor_dim import TensorDim
-from fast_llm.engine.distributed.config import DistributedConfig
+from fast_llm.engine.distributed.config import DistributedConfig, PhaseType
 from fast_llm.layers.block.block import BlockBase
 from fast_llm.layers.common.peft.config import PeftConfig
 from fast_llm.layers.decoder.config import DecoderBlockConfig
@@ -87,6 +87,10 @@ def get_layers(self) -> list[Layer]:
     def get_output_weights(self) -> list[torch.Tensor]:
         return sum((head.get_output_weights() for head in self.heads), [])
 
+    def get_preprocessing_config(self, phase: PhaseType) -> dict[str, typing.Any]:
+        if self._enabled:
+            self._layers_with_namespace[0].get_preprocessing_config(phase)
+
     def preprocess(self, kwargs: dict[str, typing.Any]) -> None:
         if self._enabled:
             self._layers_with_namespace[0].preprocess(kwargs)
diff --git a/fast_llm/layers/ssm/gdn.py b/fast_llm/layers/ssm/gdn.py
index 5e721d424..5f6374820 100644
--- a/fast_llm/layers/ssm/gdn.py
+++ b/fast_llm/layers/ssm/gdn.py
@@ -8,10 +8,9 @@
 from fast_llm.engine.base_model.config import ResourceUsageConfig
 from fast_llm.engine.config_utils.initialization import LambdaInitializer, init_normal_, init_ones_
 from fast_llm.engine.config_utils.tensor_dim import CompositeTensorDim, ConcatenatedTensorDim, TensorDim
-from fast_llm.engine.distributed.config import DistributedConfig, DistributedDimNames
+from fast_llm.engine.distributed.config import DistributedConfig, DistributedDimNames, PhaseType
 from fast_llm.functional.config import ActivationType
 from fast_llm.layers.attention.config import MixerKwargs
-from fast_llm.layers.attention.preprocessing import preprocess_for_varlen
 from fast_llm.layers.common.peft.config import PeftConfig
 from fast_llm.layers.decoder.block import BlockWithBias
 from fast_llm.layers.ssm.config import GatedDeltaNetConfig
@@ -370,13 +369,8 @@ def _forward(
 
         return output
 
-    def preprocess(self, kwargs: dict[str, typing.Any]) -> None:
-        preprocess_for_varlen(
-            kwargs,
-            kwargs[MixerKwargs.device] if MixerKwargs.device in kwargs else self._distributed.device,
-            return_cu_seqlens=True,
-            return_seq_idx=True,
-        )
+    def get_preprocessing_config(self, phase: PhaseType) -> dict[str, typing.Any]:
+        return {"return_cumulative_sequence_lengths": True, "return_document_index": True}
 
     def get_compute_usage(self, input_: TensorMeta, kwargs: dict[str, typing.Any], config: ResourceUsageConfig) -> int:
         raise NotImplementedError()
diff --git a/fast_llm/layers/ssm/kda.py b/fast_llm/layers/ssm/kda.py
index 07ca3a997..1fe56470e 100644
--- a/fast_llm/layers/ssm/kda.py
+++ b/fast_llm/layers/ssm/kda.py
@@ -7,10 +7,9 @@
 from fast_llm.engine.base_model.config import ResourceUsageConfig
 from fast_llm.engine.config_utils.initialization import LambdaInitializer, init_normal_, init_ones_
 from fast_llm.engine.config_utils.tensor_dim import CompositeTensorDim, TensorDim
-from fast_llm.engine.distributed.config import DistributedConfig, DistributedDimNames
+from fast_llm.engine.distributed.config import DistributedConfig, DistributedDimNames, PhaseType
 from fast_llm.functional.config import ActivationType
 from fast_llm.layers.attention.config import MixerKwargs
-from fast_llm.layers.attention.preprocessing import preprocess_for_varlen
 from fast_llm.layers.common.peft.config import PeftConfig
 from fast_llm.layers.decoder.block import BlockWithBias
 from fast_llm.layers.ssm.config import KimiDeltaAttentionConfig
@@ -290,10 +289,5 @@ def _forward(
     def get_compute_usage(self, input_: TensorMeta, kwargs: dict[str, typing.Any], config: ResourceUsageConfig) -> int:
         raise NotImplementedError()
 
-    def preprocess(self, kwargs: dict[str, typing.Any]) -> None:
-        preprocess_for_varlen(
-            kwargs,
-            kwargs[MixerKwargs.device] if MixerKwargs.device in kwargs else self._distributed.device,
-            return_cu_seqlens=True,
-            return_seq_idx=True,
-        )
+    def get_preprocessing_config(self, phase: PhaseType) -> dict[str, typing.Any]:
+        return {"return_cumulative_sequence_lengths": True, "return_document_index": True}
diff --git a/fast_llm/layers/ssm/mamba.py b/fast_llm/layers/ssm/mamba.py
index fd6255e6c..275a1fae9 100644
--- a/fast_llm/layers/ssm/mamba.py
+++ b/fast_llm/layers/ssm/mamba.py
@@ -7,10 +7,9 @@
 from fast_llm.engine.base_model.config import ResourceUsageConfig
 from fast_llm.engine.config_utils.initialization import init_normal_, init_ones_, init_uniform_centered_
 from fast_llm.engine.config_utils.tensor_dim import CompositeTensorDim, ConcatenatedTensorDim, TensorDim
-from fast_llm.engine.distributed.config import DistributedConfig, DistributedDimNames
+from fast_llm.engine.distributed.config import DistributedConfig, DistributedDimNames, PhaseType
 from fast_llm.functional.config import ActivationType
 from fast_llm.layers.attention.config import MixerKwargs
-from fast_llm.layers.attention.preprocessing import preprocess_for_varlen
 from fast_llm.layers.block.config import BlockDimNames, BlockKwargs
 from fast_llm.layers.common.peft.config import PeftConfig
 from fast_llm.layers.decoder.block import BlockWithBias
@@ -167,7 +166,7 @@ def _forward(
         assert _mamba_available
 
         sequence_length = kwargs[BlockKwargs.sequence_q_dim].size
-        token_shape = (kwargs[BlockKwargs.batch_dim].size, kwargs[BlockKwargs.sequence_q_dim].size)
+        token_shape = (1, kwargs[BlockKwargs.sequence_q_dim].size)
         # inner_projection : (local_tokens, hidden) -> (batch, sequence, local_inner_projection)
         inner_projection = self.in_proj(input_).unflatten(0, token_shape)
         dt = self.dt_proj(self.dt_in_proj(input_)).unflatten(0, token_shape)
@@ -250,14 +249,9 @@ def get_compute_usage(self, input_: TensorMeta, kwargs: dict[str, typing.Any], c
         # TODO: Implement.
         raise NotImplementedError()
 
-    def preprocess(self, kwargs: dict[str, typing.Any]) -> None:
+    def get_preprocessing_config(self, phase: PhaseType) -> dict[str, typing.Any]:
         if not self._config.cross_document_attention:
             assert (
                 _mamba_varlen_available
             ), f"Varlen mamba requires custom mamba installation from `https://github.com/jxiw/varlen_mamba`"
-            preprocess_for_varlen(
-                kwargs,
-                kwargs[MixerKwargs.device] if MixerKwargs.device in kwargs else self._distributed.device,
-                return_seq_idx=True,
-                return_position_ids=True,
-            )
+        return {"return_position_index": True, "return_document_index": True}
diff --git a/fast_llm/layers/vision/vision_encoder.py b/fast_llm/layers/vision/vision_encoder.py
index 1bd499f97..a014f6f5a 100644
--- a/fast_llm/layers/vision/vision_encoder.py
+++ b/fast_llm/layers/vision/vision_encoder.py
@@ -5,11 +5,12 @@
 from fast_llm.engine.base_model.base_model import Layer, LayerBaseWithNamespace
 from fast_llm.engine.base_model.config import LossDef
 from fast_llm.engine.config_utils.tensor_dim import TensorDim
-from fast_llm.engine.distributed.config import DistributedConfig
+from fast_llm.engine.distributed.config import DistributedConfig, PhaseType
 from fast_llm.layers.block.block import BlockBase
 from fast_llm.layers.common.peft.config import PeftConfig
 from fast_llm.layers.language_model.language_model import LanguageModel
 from fast_llm.layers.vision.config import VisionEncoderConfig, VisionMultiModalModelConfig
+from fast_llm.utils import safe_merge_dicts
 
 logger = logging.getLogger(__name__)
 
@@ -53,6 +54,14 @@ def __init__(
     def get_layers(self) -> list["Layer"]:
         return self.embeddings.get_layers() + self.encoder.get_layers() + self.adapter.get_layers()
 
+    def get_preprocessing_config(self, phase: PhaseType) -> dict[str, typing.Any]:
+        # Needed because the base class uses `get_layers` which may bypass the decoder. TODO: Avoidable?
+        return safe_merge_dicts(
+            self.embeddings.get_preprocessing_config(phase),
+            self.encoder.get_preprocessing_config(phase),
+            self.adapter.get_preprocessing_config(phase),
+        )
+
     def preprocess(self, kwargs: dict[str, typing.Any]) -> None:
         # Needed because the base class uses `get_layers` which may bypass the decoder. TODO: Avoidable?
         self.embeddings.preprocess(kwargs)
@@ -98,6 +107,12 @@ def __init__(
     def get_layers(self) -> list[Layer]:
         return self._vision_encoder_with_namespace.get_layers() + super().get_layers()
 
+    def get_preprocessing_config(self, phase: PhaseType) -> dict[str, typing.Any]:
+        return safe_merge_dicts(
+            self._vision_encoder_with_namespace.get_preprocessing_config(phase),
+            super().get_preprocessing_config(phase),
+        )
+
     def preprocess(self, kwargs: dict[str, typing.Any]) -> None:
         self._vision_encoder_with_namespace.preprocess(kwargs)
         super().preprocess(kwargs)
diff --git a/fast_llm/models/gpt/model.py b/fast_llm/models/gpt/model.py
index 698f624ed..e32b78ff9 100644
--- a/fast_llm/models/gpt/model.py
+++ b/fast_llm/models/gpt/model.py
@@ -5,19 +5,18 @@
 
 import torch
 
-from fast_llm.data.sample.language_model import LanguageModelBatch
+from fast_llm.batch.language_model import LanguageModelBatchNew
 from fast_llm.engine.base_model.base_model import BaseModel
-from fast_llm.engine.config_utils.tensor_dim import TensorDim
-from fast_llm.engine.distributed.config import DistributedConfig, DistributedDimNames, PhaseType
+from fast_llm.engine.distributed.config import DistributedConfig, PhaseType
 from fast_llm.engine.inference.runner import InferenceRunner
 from fast_llm.engine.multi_stage.fast_llm_model import FastLLMModel
 from fast_llm.layers.attention.config import AttentionKwargs
-from fast_llm.layers.block.config import BlockDimNames, BlockKwargs
+from fast_llm.layers.block.config import BlockKwargs
 from fast_llm.layers.language_model.config import LanguageModelKwargs
 from fast_llm.layers.language_model.language_model import LanguageModel
 from fast_llm.models.gpt.config import GPTBaseModelConfig, GPTBatchConfig, GPTModelConfig
 from fast_llm.models.gpt.megatron import get_init_megatron
-from fast_llm.tensor import ParameterMeta, TensorMeta
+from fast_llm.tensor import ParameterMeta
 from fast_llm.utils import Assert
 
 logger = logging.getLogger(__name__)
@@ -41,116 +40,9 @@ def __init__(
                 Assert.custom(isinstance, param, ParameterMeta)
                 param.init_parameter = get_init_megatron(param, self._config.decoder.block, config.hidden_size)  # Noqa
 
-    def preprocess_meta(
-        self, batch_meta: GPTBatchConfig | LanguageModelBatch, phase: PhaseType
-    ) -> list[tuple[TensorMeta, dict]]:
-        # TODO Remove (Move batch splitting elsewhere)
-        # TODO: Use parallel/sequential dims, distinguish micro and full batch/sequence
-
-        if isinstance(batch_meta, GPTBatchConfig):
-            micro_batch_size = batch_meta.micro_batch_size
-            sequence_length = batch_meta.sequence_length
-            micro_sequence_length = batch_meta.micro_sequence_length
-            truncate_documents = batch_meta.truncate_documents
-        else:
-            micro_batch_size, sequence_length = batch_meta.tokens.tokens.shape
-            if phase != PhaseType.inference:
-                sequence_length -= self._config.head.prediction_heads
-            micro_sequence_length = sequence_length
-            truncate_documents = True
-
-        batch_data = self._distributed_config.get_distributed_dim(DistributedDimNames.batch_data)
-        batch_dim = TensorDim(BlockDimNames.batch, micro_batch_size * batch_data.size, batch_data)
-
-        if micro_sequence_length is None:
-            micro_sequence_length = sequence_length
-        else:
-            Assert.multiple(sequence_length, micro_sequence_length)
-
-        # TODO: Calculate hidden dims elsewhere?
-        sequence_q_dim = TensorDim(
-            BlockDimNames.sequence_q,
-            micro_sequence_length,
-            self._distributed_config.get_distributed_dim(DistributedDimNames.sequence_data),
-        )
-        token_dim = TensorDim(
-            "token",
-            batch_dim.global_size * sequence_q_dim.global_size,
-            self._distributed_config.get_distributed_dim(DistributedDimNames.data),
-        )
-        # The token dimension as appears in hidden states, i.e. with possible sequence-tensor-parallel split.
-        hidden_token_dim = (
-            (
-                "token_tp",
-                token_dim.global_size,
-                self._distributed_config.get_distributed_dim(DistributedDimNames.tensor_and_data),
-            )
-            if self._distributed_config.sequence_tensor_parallel
-            else token_dim
-        )
-
-        common_kwargs = {
-            LanguageModelKwargs.phase: phase,
-            AttentionKwargs.sequence_length: sequence_length,
-            AttentionKwargs.batch_dim: batch_dim,
-            AttentionKwargs.sequence_q_dim: sequence_q_dim,
-            AttentionKwargs.token_dim: token_dim,
-            AttentionKwargs.hidden_token_dim: hidden_token_dim,
-            LanguageModelKwargs.mask_inputs: not truncate_documents,
-        }
-
-        sequence_k_pasts = range(
-            sequence_q_dim.size * self._distributed_config.sequence_data_rank,
-            sequence_length,
-            micro_sequence_length,
-        )
-        reference_preprocessed_metas = {}
-        for name, reference_model in self._reference_models.items():
-            reference_preprocessed_metas[name] = reference_model.fast_llm_model.base_model.preprocess_meta(
-                batch_meta, PhaseType.inference
-            )
-            Assert.eq(len(reference_preprocessed_metas[name]), len(sequence_k_pasts))
-
-        preprocessed_meta = []
-        for i, sequence_k_past in enumerate(sequence_k_pasts):
-            sequence_k = sequence_k_past + sequence_q_dim.size
-            sequence_k_dim = TensorDim(BlockDimNames.sequence_k, sequence_k)
-
-            tokens = TensorMeta.from_dims(
-                (token_dim,), tensor_name=f"tokens_{sequence_k_past}_to_{sequence_k-1}", dtype=torch.int64
-            )
-
-            kwargs = {
-                **common_kwargs,
-                AttentionKwargs.sequence_k_dim: sequence_k_dim,
-            }
-            if phase != PhaseType.inference:
-                kwargs[LanguageModelKwargs.labels] = TensorMeta.from_dims(
-                    (token_dim,), tensor_name="labels", dtype=torch.int64
-                )
-            reference_kwargs = {}
-            for name, reference_preprocessed_meta in reference_preprocessed_metas.items():
-                reference_tokens, reference_kwargs_ = reference_preprocessed_meta[i]
-                for key in (
-                    AttentionKwargs.sequence_length,
-                    AttentionKwargs.batch_dim,
-                    AttentionKwargs.sequence_q_dim,
-                    AttentionKwargs.sequence_k_dim,
-                    AttentionKwargs.token_dim,
-                    AttentionKwargs.hidden_token_dim,
-                ):
-                    Assert.eq(reference_kwargs_[key], kwargs[key])
-                reference_kwargs[name] = reference_kwargs_
-            kwargs["reference_models"] = reference_kwargs
-
-            preprocessed_meta.append((tokens, kwargs))
-
-        return preprocessed_meta
-
     def preprocess_batch(
         self,
-        batch: LanguageModelBatch,
-        preprocessed_meta: list[tuple[TensorMeta, dict]] | None = None,
+        batches: list[LanguageModelBatchNew],
         *,
         phase: PhaseType,
         iteration: int,
@@ -160,79 +52,53 @@ def preprocess_batch(
         # TODO Move batch splitting elsewhere, align interface with LayerBase
         assert self._is_setup
 
-        batch.to_device_(self._distributed.device)
-
-        if preprocessed_meta is None:
-            preprocessed_meta = self.preprocess_meta(batch, phase)
-
         reference_preprocessed_batches = {}
         for name, reference_model in self._reference_models.items():
-            reference_preprocessed_meta = [
-                (tokens_meta, kwargs_meta["reference_models"][name]) for tokens_meta, kwargs_meta in preprocessed_meta
-            ]
             reference_preprocessed_batches[name] = reference_model.fast_llm_model.base_model.preprocess_batch(
-                batch,
-                reference_preprocessed_meta,
+                batches,
                 phase=PhaseType.inference,
                 iteration=iteration,
             )
 
         preprocessed = []
         presents = None
-        for i, (_, kwargs_meta) in enumerate(preprocessed_meta):
-            tokens_end = kwargs_meta[AttentionKwargs.sequence_k_dim].size
-            tokens_begin = tokens_end - kwargs_meta[AttentionKwargs.sequence_q_dim].size
-            cropped_tokens = batch.tokens.crop(tokens_begin, tokens_end)
-
-            # TODO: Add pasts/presents to meta input?
-            # Use lists as pointers so `past_key_values` is populated during the previous micro_sequence.
+        for micro_sequence_index, batch in enumerate(batches):
             pasts = presents
-            presents = None if i == len(preprocessed_meta) - 1 else []
-
+            presents = None if micro_sequence_index == len(batches) - 1 else []
+            batch.to_device_(self._distributed.device)
             kwargs: dict[str, typing.Any] = {
-                **kwargs_meta,
+                LanguageModelKwargs.phase: phase,
                 AttentionKwargs.past_key_values: pasts,
                 AttentionKwargs.presents: presents,
-                BlockKwargs.iteration: iteration,
-                AttentionKwargs.sequence_lengths: cropped_tokens.lengths,
-                AttentionKwargs.device: self._distributed.device,
-                BlockKwargs.output_hidden_states: [],
-                BlockKwargs.hidden_states: {},
+                LanguageModelKwargs.iteration: iteration,
+                LanguageModelKwargs.device: self._distributed.device,
+                LanguageModelKwargs.output_hidden_states: [],
+                LanguageModelKwargs.hidden_states: {},
+                LanguageModelKwargs.token_dim: batch.token_dim,
+                LanguageModelKwargs.hidden_token_dim: batch.hidden_token_dim,
+                LanguageModelKwargs.sequence_k_dim: batch.sequence_k_dim,
+                LanguageModelKwargs.num_tokens: batch.num_tokens,
+                LanguageModelKwargs.sequence_length: batch.sequence_length,
+                LanguageModelKwargs.sequence_lengths: batch.document_lengths,
+                LanguageModelKwargs.labels: batch.labels,
+                LanguageModelKwargs.loss_mask: batch.prediction_masks,
+                AttentionKwargs.cu_seqlens_q: batch.cumulative_lengths_q,
+                AttentionKwargs.cu_seqlens_k: batch.cumulative_lengths_k,
+                AttentionKwargs.max_seqlen_q: batch.max_length_q,
+                AttentionKwargs.max_seqlen_k: batch.max_length_k,
+                LanguageModelKwargs.seq_idx: batch.document_index,
+                LanguageModelKwargs.position_ids: batch.position_index,
+                LanguageModelKwargs.chosen_spans: batch.chosen_spans,
+                LanguageModelKwargs.rejected_spans: batch.rejected_spans,
             }
             if extra_kwargs is not None:
                 Assert.empty(kwargs.keys() & extra_kwargs.keys())
                 kwargs.update(extra_kwargs)
-
-            # TODO: Simplify, check more carefully if needed.
-            if self._decoder_reference_models:
-                # Create activation mask for activation distillation
-                # This mask should:
-                # - Be 0 on padding tokens (added at the end when documents aren't truncated)
-                # - Be 1 on image placeholder tokens (token value -100 but not padding)
-                # - Be 1 on all other valid tokens (ignores loss-masking-spans)
-                #
-                # Note: Padding is added as a separate document with all tokens = -100
-                # We detect padding by checking if all tokens in a document segment are -100
-                activation_mask = torch.ones_like(cropped_tokens.tokens, dtype=torch.bool)
-
-                for sample_index, sample_lengths in enumerate(cropped_tokens.lengths):
-                    # Iterate through documents in this sample
-                    pos = 0
-                    for doc_length in sample_lengths:
-                        # Check if this document is padding (all tokens are -100)
-                        doc_tokens = cropped_tokens.tokens[sample_index, pos : pos + doc_length]
-                        is_padding_doc = torch.all(doc_tokens == -100).item()
-
-                        if is_padding_doc:
-                            # This is a padding document, mask it out
-                            activation_mask[sample_index, pos : pos + doc_length] = False
-
-                        pos += doc_length
-
-                kwargs[BlockKwargs.activation_mask] = activation_mask.flatten()
+            if phase == PhaseType.inference:
+                kwargs[BlockKwargs.output_hidden_states].append(re.compile(r"head\..*logits.*$"))
 
             for name, reference_model in self._reference_models.items():
-                reference_tokens, reference_kwargs = reference_preprocessed_batches[name][i]
+                reference_tokens, reference_kwargs = reference_preprocessed_batches[name][micro_sequence_index]
                 if name in self._decoder_reference_models:
                     # TODO: Get the actual names
                     reference_kwargs[BlockKwargs.output_hidden_states].append(
@@ -245,40 +111,8 @@ def preprocess_batch(
                     layer_name: tensor
                     for layer_name, (meta, tensor) in reference_kwargs[BlockKwargs.hidden_states].items()
                 }
-
-            if phase == PhaseType.inference:
-                kwargs[BlockKwargs.output_hidden_states].append(re.compile(r"head\..*logits.*$"))
-            else:
-                labels_begin = tokens_begin + 1
-                labels_end = tokens_end + self._config.head.prediction_heads
-                labels = batch.tokens.crop(labels_begin, labels_end).tokens
-
-                if batch.loss_masking_spans is not None:
-                    loss_masking_spans = batch.loss_masking_spans.crop(labels_begin, labels_end)
-                    loss_mask = torch.ones_like(labels, dtype=torch.bool)
-                    for sample_index, loss_masking_spans in enumerate(loss_masking_spans.ranges):
-                        for begin, end in loss_masking_spans:
-                            loss_mask[sample_index, begin:end] = False
-                    labels = torch.where(loss_mask, labels, -100)
-
-                labels = labels.flatten(0, 1)
-                kwargs[LanguageModelKwargs.labels] = labels
-
-                if self._config.head.get_reference_models():  # loss masks only used for distillation currently
-                    # loss masks contain all three sources of masking: padding, user-defined spans, image placeholders
-                    kwargs[LanguageModelKwargs.loss_mask] = labels >= 0
-
-                if batch.chosen_spans is not None:
-                    kwargs[LanguageModelKwargs.chosen_spans] = batch.chosen_spans.crop(labels_begin, labels_end).ranges
-
-                if batch.rejected_spans is not None:
-                    kwargs[LanguageModelKwargs.rejected_spans] = batch.rejected_spans.crop(
-                        labels_begin, labels_end
-                    ).ranges
-
-            tokens = cropped_tokens.tokens.flatten(0, 1)
             self.preprocess(kwargs)
-            preprocessed.append((tokens, kwargs))
+            preprocessed.append((batch.tokens, kwargs))
 
         return preprocessed
 
diff --git a/fast_llm/models/gpt/trainer.py b/fast_llm/models/gpt/trainer.py
index ef4956176..df7f78643 100644
--- a/fast_llm/models/gpt/trainer.py
+++ b/fast_llm/models/gpt/trainer.py
@@ -1,9 +1,10 @@
 import logging
 import typing
 
+from fast_llm.batch.config import LanguageModelBatchPreprocessingConfig
 from fast_llm.data.data.gpt.data import GPTData
 from fast_llm.data.dataset.config import SamplingParameters
-from fast_llm.data.preprocessing.language_model import LanguageModelPreprocessingConfig
+from fast_llm.engine.distributed.config import PhaseType
 from fast_llm.engine.training.trainer import Trainer
 from fast_llm.models.gpt.config import GPTTrainerConfig
 
@@ -31,13 +32,12 @@ def _get_sampling_parameters(
         return parameters if _return_dict else SamplingParameters(**parameters)
 
     def _get_preprocessing_config(
-        self, *, _return_dict: bool = False
-    ) -> LanguageModelPreprocessingConfig | dict[str, typing.Any]:
-
+        self, phase: PhaseType, *, _return_dict: bool = False
+    ) -> LanguageModelBatchPreprocessingConfig | dict[str, typing.Any]:
         out = {
-            "type": "language_model",
-            "vocab_size": self._config.model.base_model.embeddings.vocab_size,
+            "phase": phase,
             "use_loss_masking_spans": self._config.batch.use_loss_masking_spans,
             "use_preference_spans": self._config.batch.use_preference_spans,
+            **self._multi_stage.base_model.get_preprocessing_config(phase),
         }
-        return out if _return_dict else LanguageModelPreprocessingConfig.from_dict(out)
+        return out if _return_dict else LanguageModelBatchPreprocessingConfig.from_dict(out)
diff --git a/fast_llm/models/multimodal/conversion/apriel2.py b/fast_llm/models/multimodal/conversion/apriel2.py
index 307a67c63..d7bff8477 100644
--- a/fast_llm/models/multimodal/conversion/apriel2.py
+++ b/fast_llm/models/multimodal/conversion/apriel2.py
@@ -53,7 +53,6 @@ def import_config(cls, config: dict) -> dict:
             "head_size": config["head_size"],
             "add_linear_biases": config["add_linear_biases"],
             "causal": config["causal"],
-            "cross_document_attention": config["cross_document_attention"],
         }
 
     @classmethod
@@ -74,7 +73,7 @@ def export_config(cls, config: AttentionConfig) -> dict:
             "head_size": config.head_size,
             "add_linear_biases": config.add_linear_biases,
             "causal": config.causal,
-            "cross_document_attention": config.cross_document_attention,
+            "cross_document_attention": False,
             "rotary": {
                 "type": rotary_type,
                 "theta": config.rotary.theta,
diff --git a/fast_llm/models/multimodal/conversion/llava.py b/fast_llm/models/multimodal/conversion/llava.py
index a75d732b8..8af22e065 100644
--- a/fast_llm/models/multimodal/conversion/llava.py
+++ b/fast_llm/models/multimodal/conversion/llava.py
@@ -56,7 +56,6 @@ def import_config(cls, config: dict) -> dict:
         out = super().import_config(config)
         out["rotary"]["type"] = "default_2d"
         out["causal"] = False
-        out["cross_document_attention"] = False
         return out
 
     @classmethod
@@ -66,7 +65,6 @@ def export_config(cls, config: AttentionConfig) -> dict:
         Assert.is_(type(config.rotary), Rotary2DConfig)
         assert not config.add_linear_biases
         assert not config.causal
-        assert not config.cross_document_attention
         Assert.eq(config.head_groups, config.heads)
         return {
             "num_attention_heads": config.heads,
diff --git a/fast_llm/models/multimodal/model.py b/fast_llm/models/multimodal/model.py
index e90bd4d89..87d8f3310 100644
--- a/fast_llm/models/multimodal/model.py
+++ b/fast_llm/models/multimodal/model.py
@@ -5,7 +5,7 @@
 
 from fast_llm.core.distributed import all_gather_scalar
 from fast_llm.data.sample.language_model import LanguageModelBatch
-from fast_llm.engine.config_utils.tensor_dim import TensorDim, scalar_dim
+from fast_llm.engine.config_utils.tensor_dim import TensorDim
 from fast_llm.engine.distributed.config import DistributedDim, DistributedDimNames, PhaseType
 from fast_llm.engine.inference.runner import InferenceRunner
 from fast_llm.layers.attention.config import AttentionKwargs
@@ -133,7 +133,6 @@ def preprocess_meta(
             )
             kwargs[self._vision_encoder_namespace] = {
                 VisionKwargs.sequence_length: kwargs[VisionKwargs.sequence_length],
-                VisionKwargs.batch_dim: scalar_dim,
                 VisionKwargs.sequence_q_dim: token_dim,
                 VisionKwargs.sequence_k_dim: token_dim,
                 VisionKwargs.token_dim: token_dim,
diff --git a/tests/layers/test_attention.py b/tests/layers/test_attention.py
index 924c2cc7f..fa7207926 100644
--- a/tests/layers/test_attention.py
+++ b/tests/layers/test_attention.py
@@ -8,10 +8,9 @@
 from fast_llm.utils import Assert
 
 
-@pytest.mark.parametrize("cross_document_attention", (True, False))
 @pytest.mark.parametrize(("causal", "window_size"), ((True, None), (True, 50), (False, None)))
 @pytest.mark.skipif(not _flash_available, reason="Flash attention not available")
-def test_attention_implementations(cross_document_attention: bool, causal: bool, window_size: int | None):
+def test_attention_implementations(causal: bool, window_size: int | None):
     """
     Check that the flash and backup attention implementation give the same result.
     """
@@ -21,7 +20,6 @@ def test_attention_implementations(cross_document_attention: bool, causal: bool,
         heads=4,
         head_groups=2,
         window_size=window_size,
-        cross_document_attention=cross_document_attention,
         causal=causal,
     ).get_layer(
         DistributedConfig(compute_dtype="bfloat16"),
diff --git a/tests/layers/test_lm_head.py b/tests/layers/test_lm_head.py
index a8ae85c12..c14232b4f 100644
--- a/tests/layers/test_lm_head.py
+++ b/tests/layers/test_lm_head.py
@@ -6,7 +6,6 @@
 import torch
 
 from fast_llm.engine.config_utils.data_type import DataType
-from fast_llm.engine.config_utils.tensor_dim import TensorDim
 from fast_llm.layers.attention.config import AttentionKwargs
 from fast_llm.layers.language_model.config import LM_HEAD_LOSS_NAME, LanguageModelKwargs
 from fast_llm.layers.language_model.head import LanguageModelHead
@@ -88,8 +87,6 @@ def get_inputs(self) -> tuple[torch.Tensor, dict[str, typing.Any]]:
         )
         label_shape = (BATCH_SIZE * (SEQUENCE_LENGTH + self.prediction_heads - 1),)
         kwargs: dict[str, typing.Any] = {
-            AttentionKwargs.batch_dim: TensorDim("batch", BATCH_SIZE),
-            AttentionKwargs.sequence_q_dim: TensorDim("sequence_q", SEQUENCE_LENGTH),
             AttentionKwargs.grad_output: 1.0,
         }
         if self.loss_masking:
diff --git a/tests/layers/test_varlen.py b/tests/layers/test_varlen.py
index d31cffa50..d262e414c 100644
--- a/tests/layers/test_varlen.py
+++ b/tests/layers/test_varlen.py
@@ -20,14 +20,13 @@
 @pytest.mark.parametrize(
     "config",
     [
-        AttentionConfig(heads=4, head_groups=2, head_size=16, cross_document_attention=False),
+        AttentionConfig(heads=4, head_groups=2, head_size=16),
         pytest.param(
             MambaConfig(
                 d_inner=128,
                 d_xb=64,
                 state_size=16,
                 dt_rank=8,
-                cross_document_attention=False,
             ),
             marks=pytest.mark.skip("Mamba varlen kernel not available"),
         ),
@@ -73,7 +72,6 @@ def test_mixer_varlen_stacking_equivalence(config: MixerConfig):
         **kwargs,
         BlockKwargs.sequence_lengths: sequence_lengths,
         BlockKwargs.sequence_length: seq_len,
-        BlockKwargs.batch_dim: TensorDim("", batch_size),
         BlockKwargs.sequence_q_dim: TensorDim("", seq_len),
         BlockKwargs.sequence_k_dim: TensorDim("", seq_len),
     }
diff --git a/tests/utils/model_configs.py b/tests/utils/model_configs.py
index 40dbb7d29..b5b74fb9e 100644
--- a/tests/utils/model_configs.py
+++ b/tests/utils/model_configs.py
@@ -240,7 +240,6 @@ def update_and_add_testing_config(
                             "heads": 8,
                             "head_groups": 8,
                             "head_size": 32,
-                            # "cross_document_attention":False,
                         },
                         "mlp": {
                             "layer_1": {"weight": init_1},
@@ -711,7 +710,6 @@ def update_and_add_testing_config(
         ("model", "base_model", "vision_encoder", "encoder", "block", "mixer", "rotary", "type"): "default_2d",
         ("model", "base_model", "vision_encoder", "encoder", "num_blocks"): 1,
         ("model", "base_model", "vision_encoder", "encoder", "block", "mixer", "causal"): False,
-        ("model", "base_model", "vision_encoder", "encoder", "block", "mixer", "cross_document_attention"): False,
         # Pixtal doesn't support GQA
         ("model", "base_model", "vision_encoder", "encoder", "block", "mixer", "head_groups"): 8,
     },
@@ -932,7 +930,6 @@ def update_and_add_testing_config(
         ("model", "base_model", "vision_encoder", "encoder", "block", "mixer", "rotary", "type"): "default_2d",
         ("model", "base_model", "vision_encoder", "encoder", "num_blocks"): 1,
         ("model", "base_model", "vision_encoder", "encoder", "block", "mixer", "causal"): False,
-        ("model", "base_model", "vision_encoder", "encoder", "block", "mixer", "cross_document_attention"): False,
         # Pixtral doesn't support GQA
         ("model", "base_model", "vision_encoder", "encoder", "block", "mixer", "head_groups"): 8,
     },

From 295c25bfa88b7c856a33815071e89e8c1799b685 Mon Sep 17 00:00:00 2001
From: Joel Lamy-Poirier <joel.lamy-poirier@servicenow.com>
Date: Wed, 18 Feb 2026 18:32:49 -0500
Subject: [PATCH 23/37] stuff

---
 fast_llm/data/auto.py                         |  10 +-
 fast_llm/{ => data}/batch/__init__.py         |   0
 fast_llm/{ => data}/batch/config.py           |  42 +-
 fast_llm/{ => data}/batch/language_model.py   |  66 ++-
 fast_llm/data/data/abstract.py                |   5 +-
 fast_llm/data/data/gpt/config.py              |   4 +-
 fast_llm/data/data/gpt/data.py                |  34 +-
 fast_llm/data/dataset/abstract.py             |  14 +-
 fast_llm/data/dataset/blended.py              |   9 +-
 fast_llm/data/dataset/config.py               |  74 +--
 fast_llm/data/dataset/gpt/config.py           |  32 +-
 fast_llm/data/dataset/gpt/fim.py              |  34 +-
 fast_llm/data/dataset/gpt/legacy_memmap.py    |  24 +-
 fast_llm/data/dataset/gpt/random.py           |  33 +-
 fast_llm/data/dataset/indexed.py              |  18 +-
 .../{sample => dataset/memmap}/__init__.py    |   0
 fast_llm/data/dataset/memmap/abstract.py      | 119 ++++
 fast_llm/data/dataset/memmap/config.py        | 462 ++++++++++++++++
 .../data/dataset/memmap/language_model.py     | 237 ++++++++
 fast_llm/data/dataset/{ => memmap}/memmap.py  |  25 +-
 fast_llm/data/dataset/memmap/patch.py         | 141 +++++
 fast_llm/data/dataset/memmap/range.py         |  73 +++
 fast_llm/data/dataset/memmap/token.py         |  95 ++++
 fast_llm/data/dataset/monitor.py              |   8 +-
 fast_llm/data/dataset/sampled.py              |  48 +-
 fast_llm/data/document/__init__.py            |   0
 fast_llm/data/document/abstract.py            |  23 +
 fast_llm/data/document/language_model.py      |  90 +++
 fast_llm/data/document/patch.py               |  66 +++
 fast_llm/data/document/range.py               |  37 ++
 fast_llm/data/document/token.py               | 105 ++++
 .../preparator/dataset_discovery/prepare.py   |   2 +-
 .../data/preparator/gpt_memmap/prepare.py     |  45 +-
 fast_llm/data/sample/abstract.py              | 270 ---------
 fast_llm/data/sample/language_model.py        | 511 ------------------
 fast_llm/data/sample/patch.py                 | 359 ------------
 fast_llm/data/sample/range.py                 | 173 ------
 fast_llm/data/sample/token.py                 | 265 ---------
 fast_llm/models/gpt/huggingface.py            |   2 -
 fast_llm/models/gpt/model.py                  |  46 +-
 fast_llm/models/gpt/trainer.py                |   2 +-
 fast_llm/models/multimodal/huggingface.py     |   1 -
 fast_llm/models/multimodal/model.py           |   1 -
 tests/data/common.py                          |  31 +-
 tests/data/test_blending.py                   |   6 +-
 tests/data/test_concatenate.py                |   4 +-
 tests/data/test_image_patch.py                |  13 +-
 tests/data/test_loss_masking_spans.py         |  11 +-
 tests/data/test_preference_spans.py           |   6 +-
 tests/data/test_preparator.py                 |   5 +-
 tests/data/test_sampling.py                   |  14 +-
 tests/data/test_slice.py                      |   4 +-
 tests/models/test_match_megatron.py           |  39 +-
 tests/test_loss_mask.py                       |   3 -
 54 files changed, 1830 insertions(+), 1911 deletions(-)
 rename fast_llm/{ => data}/batch/__init__.py (100%)
 rename fast_llm/{ => data}/batch/config.py (75%)
 rename fast_llm/{ => data}/batch/language_model.py (73%)
 rename fast_llm/data/{sample => dataset/memmap}/__init__.py (100%)
 create mode 100644 fast_llm/data/dataset/memmap/abstract.py
 create mode 100644 fast_llm/data/dataset/memmap/config.py
 create mode 100644 fast_llm/data/dataset/memmap/language_model.py
 rename fast_llm/data/dataset/{ => memmap}/memmap.py (85%)
 create mode 100644 fast_llm/data/dataset/memmap/patch.py
 create mode 100644 fast_llm/data/dataset/memmap/range.py
 create mode 100644 fast_llm/data/dataset/memmap/token.py
 create mode 100644 fast_llm/data/document/__init__.py
 create mode 100644 fast_llm/data/document/abstract.py
 create mode 100644 fast_llm/data/document/language_model.py
 create mode 100644 fast_llm/data/document/patch.py
 create mode 100644 fast_llm/data/document/range.py
 create mode 100644 fast_llm/data/document/token.py
 delete mode 100644 fast_llm/data/sample/abstract.py
 delete mode 100644 fast_llm/data/sample/language_model.py
 delete mode 100644 fast_llm/data/sample/patch.py
 delete mode 100644 fast_llm/data/sample/range.py
 delete mode 100644 fast_llm/data/sample/token.py

diff --git a/fast_llm/data/auto.py b/fast_llm/data/auto.py
index f400978bf..2e89695b3 100644
--- a/fast_llm/data/auto.py
+++ b/fast_llm/data/auto.py
@@ -6,9 +6,16 @@
     BlendedDatasetConfig,
     ConcatenatedDatasetConfig,
     DatasetSliceConfig,
-    MemmapDatasetConfig,
     SampledDatasetUpdateConfig,
 )
+from fast_llm.data.dataset.memmap.config import (  # isort: skip
+    LanguageModelReaderConfig,
+    MemmapDatasetConfig,
+    NullReaderConfig,
+    PatchReaderConfig,
+    RangeReaderConfig,
+    TokenReaderConfig,
+)
 from fast_llm.data.dataset.gpt.config import (  # isort: skip
     GPTDatasetFromFileConfig,
     GPTFimSampledDatasetConfig,
@@ -16,4 +23,3 @@
 )
 from fast_llm.data.preparator.dataset_discovery.config import DatasetDiscoveryConfig  # isort: skip
 from fast_llm.data.preparator.gpt_memmap.config import GPTMemmapDatasetPreparatorConfig  # isort: skip
-from fast_llm.data.sample.abstract import NullReaderConfig  # isort: skip
diff --git a/fast_llm/batch/__init__.py b/fast_llm/data/batch/__init__.py
similarity index 100%
rename from fast_llm/batch/__init__.py
rename to fast_llm/data/batch/__init__.py
diff --git a/fast_llm/batch/config.py b/fast_llm/data/batch/config.py
similarity index 75%
rename from fast_llm/batch/config.py
rename to fast_llm/data/batch/config.py
index f857d115b..a3d192bae 100644
--- a/fast_llm/batch/config.py
+++ b/fast_llm/data/batch/config.py
@@ -1,30 +1,35 @@
+import dataclasses
 import functools
 import logging
 import typing
 
-from fast_llm.config import Field, FieldUpdate, config_class
+from fast_llm.config import Field, config_class
+from fast_llm.data.document.abstract import Document
 from fast_llm.data.preprocessing.abstract import NullPreprocessingConfig, PreprocessingConfig
 from fast_llm.data.preprocessing.image_patch import ImagePatchConfig
 from fast_llm.data.preprocessing.language_model import LanguageModelPreprocessingConfig
 from fast_llm.data.preprocessing.tokenizer import TokenizerConfig
-from fast_llm.engine.distributed.config import PhaseType
+from fast_llm.engine.distributed.config import DistributedConfig, PhaseType
 from fast_llm.engine.schedule.config import BatchConfig
 from fast_llm.models.gpt.config import GPTBatchConfig
 from fast_llm.utils import Assert
 
+if typing.TYPE_CHECKING:
+    import torch
+
 logger = logging.getLogger(__name__)
 
 
-@config_class(registry=True)
+@config_class()
 class BatchPreprocessingConfig(PreprocessingConfig):
-    batch: BatchConfig = Field()
+    pass
 
 
-@config_class(dynamic_type={PreprocessingConfig: "language_model"})
+@config_class()
 class LanguageModelBatchPreprocessingConfig(LanguageModelPreprocessingConfig):
     _abstract = False
     # TODO: Duplicate `use_loss_masking_spans`, `use_preference_spans`
-    batch: GPTBatchConfig = FieldUpdate()
+    batch: GPTBatchConfig = Field()
     phase: PhaseType = Field(default=PhaseType.inference)
     predicted_tokens: int = Field(default=1)
     return_cumulative_sequence_lengths: bool = Field(default=False)
@@ -52,3 +57,28 @@ def check_compatibility(self, preprocessing: typing.Self) -> None:
             assert self.use_preference_spans, "The dataset is missing required preference spans"
         if preprocessing.use_image_patches and self.use_image_patches:
             self.image_patches.check_compatibility(preprocessing.image_patches)
+
+
+@dataclasses.dataclass
+class MicroBatch:
+    pass
+
+
+@dataclasses.dataclass
+class PreprocessedBatch:
+    micro_batches: list[MicroBatch]
+
+
+@config_class(registry=True)
+class BatchPreprocessingConfig(PreprocessingConfig):
+    batch: BatchConfig = Field()
+
+    @classmethod
+    def from_documents(
+        cls,
+        config: BatchPreprocessingConfig,
+        distributed_config: DistributedConfig,
+        documents: list[Document],
+        device: "torch.device | None" = None,
+    ) -> typing.Self:
+        pass
diff --git a/fast_llm/batch/language_model.py b/fast_llm/data/batch/language_model.py
similarity index 73%
rename from fast_llm/batch/language_model.py
rename to fast_llm/data/batch/language_model.py
index 7de5c07e3..b0f67fc1c 100644
--- a/fast_llm/batch/language_model.py
+++ b/fast_llm/data/batch/language_model.py
@@ -3,14 +3,14 @@
 
 import torch
 
-from fast_llm.batch.config import LanguageModelBatchPreprocessingConfig
-from fast_llm.data.sample.language_model import LanguageModelSample
+from fast_llm.data.batch.config import LanguageModelBatchPreprocessingConfig, MicroBatch, PreprocessedBatch
+from fast_llm.data.document.language_model import LanguageModelBatch, LanguageModelDocument
 from fast_llm.engine.config_utils.tensor_dim import TensorDim
 from fast_llm.engine.distributed.config import DistributedConfig, DistributedDimNames
 
 
 @dataclasses.dataclass
-class LanguageModelBatchNew:
+class LanguageModelMicroBatch(MicroBatch):
     tokens: torch.Tensor
     token_dim: TensorDim
     hidden_token_dim: TensorDim
@@ -27,8 +27,7 @@ class LanguageModelBatchNew:
     max_length_k: torch.Tensor | None = None
     document_index: torch.Tensor | None = None
     position_index: torch.Tensor | None = None
-    chosen_spans: list[tuple[int, int]] | None = None
-    rejected_spans: list[tuple[int, int]] | None = None
+    # TODO: ====== Preference spans? ======
 
     def to_device_(self, device: torch.device):
         self.tokens = self.tokens.to(device, non_blocking=True)
@@ -45,24 +44,37 @@ def to_device_(self, device: torch.device):
         if self.position_index is not None:
             self.position_index = self.position_index.to(device, non_blocking=True)
 
+
+@dataclasses.dataclass
+class LanguageModelPreprocessedBatch(PreprocessedBatch):
+    micro_batches: list[LanguageModelMicroBatch]
+
     @classmethod
     def from_documents(
         cls,
+        documents: list[LanguageModelDocument],
+        *,
         config: LanguageModelBatchPreprocessingConfig,
         distributed_config: DistributedConfig,
-        documents: list[LanguageModelSample],
         device: torch.device | None = None,
-    ) -> list[typing.Self]:
-        num_tokens = sum(len(document) for document in documents)
-        padding = config.batch.sequence_length + config.predicted_tokens - num_tokens
-        sample = LanguageModelSample.from_documents(documents + [documents[0].get_padding(padding)])
-        # sample.tokens.lengths
-        # lengths = [len(document) for document in documents]
-        # num_tokens = sum(lengths)
+    ) -> typing.Self:
+        batch = LanguageModelBatch.from_documents(
+            documents, pad_to_size=config.batch.sequence_length + config.predicted_tokens
+        )
+        return cls.from_batch(batch, config=config, distributed_config=distributed_config, device=device)
 
+    @classmethod
+    def from_batch(
+        cls,
+        batch: LanguageModelBatch,
+        *,
+        config: LanguageModelBatchPreprocessingConfig,
+        distributed_config: DistributedConfig,
+        device: torch.device | None = None,
+    ) -> typing.Self:
         if device is None:
-            device = sample.tokens.tokens.device
-        sample.to_device_(device)
+            device = batch.tokens.tokens.device
+        batch.to_device_(device)
 
         token_dim = TensorDim(
             "token",
@@ -88,19 +100,16 @@ def from_documents(
         ):
             sequence_k = sequence_k_past + token_dim.size
             sequence_k_dim = TensorDim("sequence_k", sequence_k)
-            cropped_sample = sample.crop(sequence_k_past, sequence_k)
-
-            # document_lengths, cumulative_lengths_q, cumulative_lengths_k, first_document_index, remaining_tokens = crop_lengths(
-            #    sample.tokens.lengths, sequence_k_past, sequence_k_past + token_dim.size)
+            cropped_sample = batch.crop(sequence_k_past, sequence_k)
 
-            micro_batch = LanguageModelBatchNew(
-                tokens=sample.tokens.tokens[sequence_k_past:sequence_k],
+            micro_batch = LanguageModelMicroBatch(
+                tokens=batch.tokens.tokens[sequence_k_past:sequence_k],
                 token_dim=token_dim,
                 hidden_token_dim=hidden_token_dim,
                 sequence_k_dim=sequence_k_dim,
-                num_tokens=min(sequence_k, num_tokens) - sequence_k_past,
+                num_tokens=min(sequence_k, batch.num_tokens) - sequence_k_past,
                 sequence_length=config.batch.sequence_length,
-                document_lengths=sample.tokens.lengths,
+                document_lengths=batch.tokens.lengths,
             )
             if config.return_cumulative_sequence_lengths:
                 micro_batch.cumulative_lengths_q, micro_batch.cumulative_lengths_k = (
@@ -112,19 +121,16 @@ def from_documents(
                 micro_batch.document_index = cropped_sample.tokens.get_document_index()
             if config.return_position_index:
                 micro_batch.position_index = cropped_sample.tokens.get_position_index()
-            if config.use_preference_spans:
-                micro_batch.chosen_spans = cropped_sample.chosen_spans.ranges
-                micro_batch.rejected_spans = cropped_sample.rejected_spans.ranges
 
             for prediction_distance in range(1, config.predicted_tokens + 1):
                 label_begin = sequence_k_past + prediction_distance
                 label_end = sequence_k + prediction_distance
-                label_tokens = sample.tokens.crop(label_begin, label_end)
+                label_tokens = batch.tokens.crop(label_begin, label_end)
                 labels = label_tokens.tokens.clone()
 
                 # Apply loss masking spans.
-                if config.use_loss_masking_spans:
-                    for span_begin, span_end in sample.loss_masking_spans.crop(label_begin, label_end).ranges:
+                if config.use_loss_masking_spans and batch.loss_masking_spans is not None:
+                    for span_begin, span_end in batch.loss_masking_spans.crop(label_begin, label_end).ranges:
                         labels[span_begin:span_end] = -100
 
                 # Mask cross-document predictions.
@@ -141,4 +147,4 @@ def from_documents(
                     micro_batch.prediction_masks.append(labels > 0)
 
             micro_batches.append(micro_batch)
-        return micro_batches
+        return LanguageModelPreprocessedBatch(micro_batches=micro_batches)
diff --git a/fast_llm/data/data/abstract.py b/fast_llm/data/data/abstract.py
index e01331be2..c5400b6c7 100644
--- a/fast_llm/data/data/abstract.py
+++ b/fast_llm/data/data/abstract.py
@@ -3,10 +3,10 @@
 import typing
 
 from fast_llm.config import Configurable
+from fast_llm.data.batch.config import PreprocessedBatch
 from fast_llm.data.data.config import DataConfig
 from fast_llm.data.dataset.config import SamplingParameters
 from fast_llm.data.preprocessing.abstract import PreprocessingConfig
-from fast_llm.data.sample.abstract import Batch
 from fast_llm.engine.distributed.config import DistributedConfig
 from fast_llm.engine.schedule.config import BatchConfig
 from fast_llm.utils import Assert
@@ -54,5 +54,6 @@ def get_iterator(
         num_workers: int,
         prefetch_factor: int | None = None,
         timeout: float = 60,
-    ) -> typing.Iterator[Batch]:
+        preprocess: bool = True,
+    ) -> typing.Iterator[PreprocessedBatch]:
         pass
diff --git a/fast_llm/data/data/gpt/config.py b/fast_llm/data/data/gpt/config.py
index ba5be883a..914699b74 100644
--- a/fast_llm/data/data/gpt/config.py
+++ b/fast_llm/data/data/gpt/config.py
@@ -8,7 +8,7 @@
 from fast_llm.utils import Assert
 
 if typing.TYPE_CHECKING:
-    from fast_llm.data.sample.language_model import LanguageModelSample
+    from fast_llm.data.document.language_model import LanguageModelDocument
 logger = logging.getLogger(__name__)
 
 
@@ -23,7 +23,7 @@ class GPTDataConfig(DataConfig):
     _abstract = False
 
     # TODO: Review field. Move closer to phase definition in training config?
-    datasets: dict[str, SampledDatasetConfig["LanguageModelSample"]] = Field(
+    datasets: dict[str, SampledDatasetConfig["LanguageModelDocument"]] = Field(
         default_factory=dict,
         desc="Configuration for the dataset(s).",
         hint=FieldHint.core,
diff --git a/fast_llm/data/data/gpt/data.py b/fast_llm/data/data/gpt/data.py
index 3a1e99e6d..ff1fbd3bc 100644
--- a/fast_llm/data/data/gpt/data.py
+++ b/fast_llm/data/data/gpt/data.py
@@ -1,3 +1,4 @@
+import functools
 import logging
 import pathlib
 import typing
@@ -7,6 +8,8 @@
 import torch.utils.data
 
 from fast_llm.core.distributed import safe_barrier
+from fast_llm.data.batch.config import LanguageModelBatchPreprocessingConfig
+from fast_llm.data.batch.language_model import LanguageModelPreprocessedBatch
 from fast_llm.data.data.abstract import Data
 from fast_llm.data.data.data_loader import SampledDatasetIterator
 from fast_llm.data.data.gpt.config import GPTDataConfig
@@ -14,8 +17,7 @@
 from fast_llm.data.dataset.config import SamplingParameters
 from fast_llm.data.dataset.gpt.config import GPTSamplingData
 from fast_llm.data.dataset.monitor import DatasetMonitor
-from fast_llm.data.preprocessing.language_model import LanguageModelPreprocessingConfig
-from fast_llm.data.sample.language_model import LanguageModelBatch
+from fast_llm.data.document.language_model import LanguageModelBatch, LanguageModelDocument
 from fast_llm.engine.config_utils.run import log_main_rank
 from fast_llm.engine.distributed.config import DistributedConfig
 from fast_llm.engine.distributed.distributed import Distributed
@@ -32,7 +34,7 @@ class GPTData[ConfigType: GPTDataConfig](Data[ConfigType]):
 
     _datasets: dict[str, SampledDataset]
     _sampling_parameters: dict[str, SamplingParameters]
-    _preprocessing: dict[str, LanguageModelPreprocessingConfig]
+    _preprocessing: dict[str, LanguageModelBatchPreprocessingConfig]
     _is_setup: bool = False
 
     def __init__(
@@ -50,7 +52,7 @@ def setup(
         self,
         distributed: "Distributed",
         sampling_parameters: dict[str, SamplingParameters],
-        preprocessing: dict[str, LanguageModelPreprocessingConfig],
+        preprocessing: dict[str, LanguageModelBatchPreprocessingConfig],
         cache_directory: pathlib.Path,
         timeout: float | None = None,
     ) -> None:
@@ -105,7 +107,8 @@ def get_iterator(
         num_workers: int,
         prefetch_factor: int | None = None,
         timeout: float = 60,
-    ) -> typing.Iterator[LanguageModelBatch]:
+        preprocess: bool = True,
+    ) -> typing.Iterator[LanguageModelPreprocessedBatch]:
         assert self._is_setup
 
         # Some dataset names may come from phases and are capitalized,
@@ -130,7 +133,26 @@ def get_iterator(
                 num_workers=num_workers,
                 prefetch_factor=prefetch_factor,
                 pin_memory=True,
-                collate_fn=LanguageModelBatch.from_samples,
+                collate_fn=functools.partial(self._collate_fn, dataset_name=dataset_name, preprocess=preprocess),
                 multiprocessing_context=self._config.multiprocessing_context.value if num_workers > 0 else None,
             )
         )
+
+    def _collate_fn(
+        self,
+        documents: list[list[LanguageModelDocument]],
+        dataset_name: str,
+        preprocess: bool = True,
+    ) -> LanguageModelPreprocessedBatch | LanguageModelBatch:
+        documents = [document for documents_ in documents for document in documents_]
+        config = self._preprocessing[dataset_name]
+        if preprocess:
+            return LanguageModelPreprocessedBatch.from_documents(
+                documents,
+                config=config,
+                distributed_config=self._distributed_config,
+            )
+        else:
+            return LanguageModelBatch.from_documents(
+                documents, pad_to_size=config.batch.sequence_length + config.predicted_tokens
+            )
diff --git a/fast_llm/data/dataset/abstract.py b/fast_llm/data/dataset/abstract.py
index 33942708b..ee34b64fc 100644
--- a/fast_llm/data/dataset/abstract.py
+++ b/fast_llm/data/dataset/abstract.py
@@ -1,13 +1,13 @@
 import abc
 import typing
 
-from fast_llm.data.sample.abstract import Sample
+from fast_llm.data.document.abstract import Document
 
 if typing.TYPE_CHECKING:
     from fast_llm.data.dataset.config import SamplingData
 
 
-class Dataset[SampleType: Sample](abc.ABC):
+class Dataset[DocumentType: Document](abc.ABC):
     """
     A generic dataset class compatible with torch.utils.data.Dataset but with a slightly different signature.
     """
@@ -21,21 +21,21 @@ def name(self) -> str:
 
     def __getstate__(self):
         state = super().__getstate__()
-        # Pickling sometimes fails with bound `SampleType`.
+        # Pickling sometimes fails with bound `DocumentType`.
         # This is not needed at runtime, so we just drop it.
         if "__orig_class__" in state:
             del state["__orig_class__"]
         return state
 
 
-class SampledDataset[SampleType: Sample](Dataset[SampleType]):
+class SampledDataset[DocumentType: Document](Dataset[DocumentType]):
     """
     A sampled dataset class containing a prepared list of samples to be indexed sequentially (as-is) during training.
     (See the `Sampler` class below.)
     """
 
     @abc.abstractmethod
-    def __getitem__(self, index: int) -> SampleType:
+    def __getitem__(self, index: int) -> list[DocumentType]:
         pass
 
     @abc.abstractmethod
@@ -43,8 +43,8 @@ def __len__(self) -> int:
         pass
 
 
-class SamplableDataset[SampleType: Sample](Dataset[SampleType]):
+class SamplableDataset[DocumentType: Document](Dataset[DocumentType]):
 
     @abc.abstractmethod
-    def sample(self, config: "SamplingData") -> SampledDataset[SampleType]:
+    def sample(self, config: "SamplingData") -> SampledDataset[DocumentType]:
         pass
diff --git a/fast_llm/data/dataset/blended.py b/fast_llm/data/dataset/blended.py
index 264eb373d..0cae40656 100644
--- a/fast_llm/data/dataset/blended.py
+++ b/fast_llm/data/dataset/blended.py
@@ -4,13 +4,13 @@
 
 from fast_llm.data.dataset.abstract import SampledDataset
 from fast_llm.data.dataset.config import SamplingData
-from fast_llm.data.sample.abstract import Sample
+from fast_llm.data.document.abstract import Document
 from fast_llm.utils import Assert, normalize_probabilities
 
 logger = logging.getLogger(__name__)
 
 
-class BlendedDataset[SampleType: Sample](SampledDataset[SampleType]):
+class BlendedDataset[DocumentType: Document](SampledDataset[DocumentType]):
     """
     A blended sampling of multiple sampled datasets, where each dataset is sampled with the provided probability.
     The sampling order of each dataset is respected, but there is no strict guarantee
@@ -21,7 +21,7 @@ class BlendedDataset[SampleType: Sample](SampledDataset[SampleType]):
     def __init__(
         self,
         name: str,
-        datasets: list[SampledDataset[SampleType]],
+        datasets: list[SampledDataset[DocumentType]],
         weights: list[float],
         sampling_config: SamplingData,
     ):
@@ -35,7 +35,7 @@ def __init__(
     def __len__(self) -> int:
         return self._num_samples
 
-    def __getitem__(self, index: int) -> SampleType:
+    def __getitem__(self, index: int) -> list[DocumentType]:
         """
         Blending is typically done in one of the following iterative way (ex. in Megatron datasets):
         ```python
@@ -56,6 +56,7 @@ def __getitem__(self, index: int) -> SampleType:
         sampled = self._get_sampled(index)
         # Then get the present sample.
         dataset_index = self._get_next_dataset(index, sampled)
+        # TODO: ====== Can we mix documents from multiple datasets? ======
         return self._datasets[dataset_index][sampled[dataset_index].item()]
 
     def _get_sampled(self, num_samples: int) -> torch.Tensor:
diff --git a/fast_llm/data/dataset/config.py b/fast_llm/data/dataset/config.py
index 2858d8d18..1e1fece26 100644
--- a/fast_llm/data/dataset/config.py
+++ b/fast_llm/data/dataset/config.py
@@ -9,8 +9,8 @@
 
 from fast_llm.config import Config, Field, FieldHint, UpdateType, check_field, config_class
 from fast_llm.data.dataset.abstract import SamplableDataset, SampledDataset
+from fast_llm.data.document.abstract import Document
 from fast_llm.data.preprocessing.abstract import PreprocessingConfig
-from fast_llm.data.sample.abstract import Sample
 from fast_llm.utils import Assert, normalize_probabilities
 
 if typing.TYPE_CHECKING:
@@ -69,6 +69,10 @@ class SamplingParameters:
     # This is used to provide labels even for the last tokens in the sequence.
     extra_tokens: int = 1
 
+    @functools.cached_property
+    def total_length(self) -> int:
+        return self.sequence_length + self.extra_tokens
+
 
 @dataclasses.dataclass(kw_only=True)
 class SamplingData:
@@ -99,37 +103,37 @@ def get_next_rank(self) -> int:
 
 
 @config_class()
-class DatasetConfig[SampleType: Sample](Config):
+class DatasetConfig[DocumentType: Document](Config):
     _abstract: typing.ClassVar[bool] = True
 
 
 @config_class(registry=True)
-class SampledDatasetConfig[SampleType: Sample](DatasetConfig[SampleType]):
+class SampledDatasetConfig[DocumentType: Document](DatasetConfig[DocumentType]):
     """
     A sampled dataset containing a prepared list of samples to be indexed sequentially (as-is) during training.
     """
 
-    def build_and_sample(self, sampling: SamplingData) -> SampledDataset[SampleType]:
+    def build_and_sample(self, sampling: SamplingData) -> SampledDataset[DocumentType]:
         raise NotImplementedError()
 
 
 @config_class()
-class SamplableDatasetConfig[SampleType: Sample](SampledDatasetConfig[SampleType]):
-    def build(self, preprocessing: PreprocessingConfig) -> SamplableDataset[SampleType]:
+class SamplableDatasetConfig[DocumentType: Document](SampledDatasetConfig[DocumentType]):
+    def build(self, preprocessing: PreprocessingConfig) -> SamplableDataset[DocumentType]:
         raise NotImplementedError()
 
-    def build_and_sample(self, sampling: SamplingData) -> SampledDataset[SampleType]:
+    def build_and_sample(self, sampling: SamplingData) -> SampledDataset[DocumentType]:
         return self.build(sampling.preprocessing).sample(sampling)
 
 
 @config_class()
-class IndexedDatasetConfig[SampleType: Sample](SamplableDatasetConfig[SampleType]):
-    def build(self, preprocessing: PreprocessingConfig) -> "IndexedDataset[SampleType]":
+class IndexedDatasetConfig[DocumentType: Document](SamplableDatasetConfig[DocumentType]):
+    def build(self, preprocessing: PreprocessingConfig) -> "IndexedDataset[DocumentType]":
         raise NotImplementedError()
 
 
 @config_class(dynamic_type={SampledDatasetConfig: "concatenated"})
-class ConcatenatedDatasetConfig[SampleType: Sample](SamplableDatasetConfig[SampleType]):
+class ConcatenatedDatasetConfig[DocumentType: Document](SamplableDatasetConfig[DocumentType]):
     """
     Concatenate multiple indexed datasets as if they were one.
     TODO: Make a post-sampling version? (staged training)
@@ -141,7 +145,7 @@ class ConcatenatedDatasetConfig[SampleType: Sample](SamplableDatasetConfig[Sampl
         desc="The name of the dataset.",
         hint=FieldHint.core,
     )
-    datasets: list[IndexedDatasetConfig[SampleType]] = Field(
+    datasets: list[IndexedDatasetConfig[DocumentType]] = Field(
         default_factory=list,
         desc="The datasets to concatenate.",
         hint=FieldHint.core,
@@ -155,7 +159,7 @@ def build(self, preprocessing: PreprocessingConfig) -> "ConcatenatedDataset":
 
 
 @config_class(dynamic_type={SampledDatasetConfig: "slice"})
-class DatasetSliceConfig[SampleType: Sample](SamplableDatasetConfig[SampleType]):
+class DatasetSliceConfig[DocumentType: Document](SamplableDatasetConfig[DocumentType]):
     """
     Use a fraction of an indexed dataset, specified by the range (begin, end).
     Typically used to subsample a dataset, or to reserve part of the dataset for validation and/or testing.
@@ -165,7 +169,7 @@ class DatasetSliceConfig[SampleType: Sample](SamplableDatasetConfig[SampleType])
     """
 
     _abstract = False
-    dataset: IndexedDatasetConfig[SampleType] = Field(
+    dataset: IndexedDatasetConfig[DocumentType] = Field(
         default=None,
         desc="The dataset to split.",
         hint=FieldHint.core,
@@ -186,7 +190,7 @@ def build(self, preprocessing: PreprocessingConfig) -> "DatasetSlice":
 
         dataset = self.dataset.build(preprocessing)
         size = len(dataset)
-        return DatasetSlice[SampleType](
+        return DatasetSlice[DocumentType](
             f"{dataset.name}_{self.begin}_{self.end}",
             dataset,
             round(self.begin * size),
@@ -195,7 +199,7 @@ def build(self, preprocessing: PreprocessingConfig) -> "DatasetSlice":
 
 
 @config_class(dynamic_type={SampledDatasetConfig: "sampled"})
-class SampledDatasetUpdateConfig[SampleType: Sample](SampledDatasetConfig[SampleType]):
+class SampledDatasetUpdateConfig[DocumentType: Document](SampledDatasetConfig[DocumentType]):
     """
     Wrap a dataset to explicitly sample from it and optionally update its configuration parameters.
     Only explicitly set parameters (not None) will be updated, other will still be taken from `build_and_sample`'s argument.
@@ -206,24 +210,24 @@ class SampledDatasetUpdateConfig[SampleType: Sample](SampledDatasetConfig[Sample
         desc="Optional override to sampling configuration parameters.",
         hint=FieldHint.core,
     )
-    dataset: SampledDatasetConfig[SampleType] = Field(
+    dataset: SampledDatasetConfig[DocumentType] = Field(
         desc="The dataset to sample from.",
         hint=FieldHint.core,
     )
 
-    def build_and_sample(self, data: SamplingData) -> SampledDataset[SampleType]:
+    def build_and_sample(self, data: SamplingData) -> SampledDataset[DocumentType]:
         return self.dataset.build_and_sample(data.update_config(self.sampling))
 
 
 @config_class(dynamic_type={SampledDatasetConfig: "blended"})
-class BlendedDatasetConfig[SampleType: Sample](SampledDatasetConfig[SampleType]):
+class BlendedDatasetConfig[DocumentType: Document](SampledDatasetConfig[DocumentType]):
     _abstract = False
     name: str = Field(
         default="blended",
         desc="The name of the dataset.",
         hint=FieldHint.core,
     )
-    datasets: list[SampledDatasetConfig[SampleType]] = Field(
+    datasets: list[SampledDatasetConfig[DocumentType]] = Field(
         default_factory=list,
         desc="The datasets to blend.",
         hint=FieldHint.core,
@@ -243,7 +247,7 @@ def _validate(self) -> None:
     def build_and_sample(
         self,
         sampling: SamplingData,
-    ) -> SampledDataset[SampleType]:
+    ) -> SampledDataset[DocumentType]:
         from fast_llm.data.dataset.blended import BlendedDataset
 
         # Build and sample the datasets.
@@ -264,37 +268,9 @@ def build_and_sample(
             for i, (dataset, weight) in enumerate(zip(self.datasets, self.weights, strict=True))
         ]
         # Blend the datasets.
-        return BlendedDataset[SampleType](
+        return BlendedDataset[DocumentType](
             self.name,
             sampled_datasets,
             self.weights,
             sampling,
         )
-
-
-@config_class(dynamic_type={SampledDatasetConfig: "memmap"})
-class MemmapDatasetConfig[SampleType: Sample](IndexedDatasetConfig[SampleType]):
-    _abstract: typing.ClassVar[bool] = False
-    path: pathlib.Path = Field(
-        default=None,
-        desc="The path to the dataset, excluding the `.bin` or `.idx` suffix.",
-        hint=FieldHint.core,
-    )
-
-    def build(self, preprocessing: PreprocessingConfig) -> "IndexedDataset[SampleType]":
-        name = str(self.path).replace("/", "__")
-        if self.path.is_file():
-            from fast_llm.data.dataset.memmap import MemmapDataset
-
-            return MemmapDataset[SampleType](name, self.path, preprocessing)
-        elif self.path.with_suffix(".bin").is_file() and self.path.with_suffix(".idx").is_file():
-            logger.warning(
-                "Using the legacy memmap dataset format."
-                " This format is deprecated and will be removed in a future release."
-                " Please recreate the dataset in the new memmap format."
-            )
-            from fast_llm.data.dataset.gpt.legacy_memmap import LegacyMemmapDataset
-
-            return LegacyMemmapDataset[SampleType](name, self.path, preprocessing)
-        else:
-            raise FileNotFoundError(self.path)
diff --git a/fast_llm/data/dataset/gpt/config.py b/fast_llm/data/dataset/gpt/config.py
index 5e978ac2b..b66bc5445 100644
--- a/fast_llm/data/dataset/gpt/config.py
+++ b/fast_llm/data/dataset/gpt/config.py
@@ -16,7 +16,7 @@
 if typing.TYPE_CHECKING:
     from fast_llm.data.dataset.gpt.fim import GPTFimDataset
     from fast_llm.data.dataset.gpt.random import GPTRandomSampledDataset
-    from fast_llm.data.sample.language_model import LanguageModelSample
+    from fast_llm.data.document.language_model import LanguageModelDocument
 
 
 @dataclasses.dataclass(kw_only=True)
@@ -30,7 +30,7 @@ class GPTSamplingData(SamplingData):
 
 
 @config_class(dynamic_type={SampledDatasetConfig: "random"})
-class GPTRandomDatasetConfig[SampleType: LanguageModelSample](SampledDatasetConfig[SampleType]):
+class GPTRandomDatasetConfig[DocumentType: LanguageModelDocument](SampledDatasetConfig[DocumentType]):
     _abstract: typing.ClassVar[bool] = False
     name: str = Field(
         default="dummy",
@@ -38,14 +38,14 @@ class GPTRandomDatasetConfig[SampleType: LanguageModelSample](SampledDatasetConf
         hint=FieldHint.core,
     )
 
-    def build_and_sample(self, sampling: GPTSamplingData) -> "GPTRandomSampledDataset[SampleType]":
+    def build_and_sample(self, sampling: GPTSamplingData) -> "GPTRandomSampledDataset[DocumentType]":
         from fast_llm.data.dataset.gpt.random import GPTRandomSampledDataset
 
-        return GPTRandomSampledDataset[SampleType](sampling, self.name)
+        return GPTRandomSampledDataset[DocumentType](sampling, self.name)
 
 
 @config_class(dynamic_type={SampledDatasetConfig: "file"})
-class GPTDatasetFromFileConfig[SampleType: LanguageModelSample](SamplableDatasetConfig[SampleType]):
+class GPTDatasetFromFileConfig[DocumentType: LanguageModelDocument](SamplableDatasetConfig[DocumentType]):
     _abstract: typing.ClassVar[bool] = False
     path: pathlib.Path = Field(
         default=None,
@@ -53,22 +53,22 @@ class GPTDatasetFromFileConfig[SampleType: LanguageModelSample](SamplableDataset
         hint=FieldHint.core,
     )
 
-    def build_and_sample(self, sampling: SamplingData) -> SampledDataset[SampleType]:
+    def build_and_sample(self, sampling: SamplingData) -> SampledDataset[DocumentType]:
         config = self._load_config()
         return config.build_and_sample(sampling)
 
-    def build(self, preprocessing: PreprocessingConfig) -> SamplableDataset[SampleType]:
+    def build(self, preprocessing: PreprocessingConfig) -> SamplableDataset[DocumentType]:
         config = self._load_config()
         assert isinstance(config, SamplableDatasetConfig)
         return config.build(preprocessing)
 
-    def _load_config(self) -> SampledDatasetConfig[SampleType]:
+    def _load_config(self) -> SampledDatasetConfig[DocumentType]:
         assert self.path.is_file(), f"File {self.path} does not exist."
         config = yaml.safe_load(self.path.open("r"))
         if config.keys() == {"config", "metadata"}:
             # Newer format with metadata
             config = config["config"]
-        return SampledDatasetConfig[SampleType].from_dict(self._convert_paths(config))
+        return SampledDatasetConfig[DocumentType].from_dict(self._convert_paths(config))
 
     def _convert_paths(self, config):
         # Recursively convert paths relative to `self.path.parent` to make them relative to cwd.
@@ -159,14 +159,14 @@ class FimConfig(Config):
 
 
 @config_class(dynamic_type={SampledDatasetConfig: "fim"})
-class GPTFimSampledDatasetConfig[SampleType: LanguageModelSample](SampledDatasetConfig[SampleType], FimConfig):
+class GPTFimSampledDatasetConfig[DocumentType: LanguageModelDocument](SampledDatasetConfig[DocumentType], FimConfig):
     """
     Configuration for FIM.
     """
 
     _abstract: typing.ClassVar[bool] = False
 
-    dataset: SampledDatasetConfig[SampleType] = Field(
+    dataset: SampledDatasetConfig[DocumentType] = Field(
         default=None,
         desc="The dataset to wrap with fim.",
         hint=FieldHint.core,
@@ -175,14 +175,14 @@ class GPTFimSampledDatasetConfig[SampleType: LanguageModelSample](SampledDataset
     def build_and_sample(
         self,
         sampling: GPTSamplingData,
-    ) -> "GPTFimDataset[SampleType]":
+    ) -> "GPTFimDataset[DocumentType]":
         from fast_llm.data.dataset.gpt.fim import GPTFimDataset
 
-        return GPTFimDataset[SampleType](self, self.dataset.build_and_sample(sampling), sampling)
+        return GPTFimDataset[DocumentType](self, self.dataset.build_and_sample(sampling), sampling)
 
 
 @config_class(dynamic_type={SampledDatasetConfig: "test_slow"})
-class GPTTestSlowDatasetConfig[SampleType: LanguageModelSample](SampledDatasetConfig[SampleType]):
+class GPTTestSlowDatasetConfig[DocumentType: LanguageModelDocument](SampledDatasetConfig[DocumentType]):
     """
     A mock dataset that mimics a slow dataset creation on one rank, which may trigger a timeout.
     """
@@ -195,8 +195,8 @@ class GPTTestSlowDatasetConfig[SampleType: LanguageModelSample](SampledDatasetCo
         hint=FieldHint.core,
     )
 
-    def build_and_sample(self, sampling: SamplingData) -> SampledDataset[SampleType]:
+    def build_and_sample(self, sampling: SamplingData) -> SampledDataset[DocumentType]:
         assert sampling.distributed.config.world_size > 1
         if sampling.distributed.config.rank == 0:
             time.sleep(self.sleep)
-        return GPTRandomDatasetConfig[SampleType]().build_and_sample(sampling)
+        return GPTRandomDatasetConfig[DocumentType]().build_and_sample(sampling)
diff --git a/fast_llm/data/dataset/gpt/fim.py b/fast_llm/data/dataset/gpt/fim.py
index b70fc8360..55ae7c1f3 100644
--- a/fast_llm/data/dataset/gpt/fim.py
+++ b/fast_llm/data/dataset/gpt/fim.py
@@ -3,13 +3,13 @@
 
 from fast_llm.data.dataset.abstract import SampledDataset
 from fast_llm.data.dataset.gpt.config import FimConfig, GPTSamplingData
-from fast_llm.data.sample.language_model import LanguageModelSample
-from fast_llm.data.sample.token import TokenSample
+from fast_llm.data.document.language_model import LanguageModelDocument
+from fast_llm.data.document.token import TokenDocument
 from fast_llm.engine.config_utils.data_type import DataType
 from fast_llm.engine.distributed.config import MAX_SEED
 
 
-class GPTFimDataset[SampleType: LanguageModelSample](SampledDataset[SampleType]):
+class GPTFimDataset[DocumentType: LanguageModelDocument](SampledDataset[DocumentType]):
     """
     An implementation of FIM (fill in the middle) post-processing of GPT datasets.
     Adapted from https://github.com/EleutherAI/gpt-neox/blob/FIM-clean/megatron/data/gpt2_dataset.py
@@ -18,7 +18,7 @@ class GPTFimDataset[SampleType: LanguageModelSample](SampledDataset[SampleType])
     def __init__(
         self,
         config: FimConfig,
-        dataset: SampledDataset[SampleType],
+        dataset: SampledDataset[DocumentType],
         sampling: GPTSamplingData,
     ):
         if sampling.preprocessing.use_loss_masking_spans:
@@ -43,18 +43,28 @@ def __init__(
     def __len__(self) -> int:
         return len(self._dataset)
 
-    def __getitem__(self, index: int) -> SampleType:
+    def __getitem__(self, index: int) -> list[DocumentType]:
         # TODO: Use torch methods to avoid back and forth.
-        return LanguageModelSample(
-            TokenSample(
-                torch.from_numpy(
-                    self._fim(
-                        self._dataset[index].tokens.tokens.numpy(),
-                        np.random.RandomState(seed=(self._seed + index) % MAX_SEED),
+        documents = self._dataset[index]
+        for document in documents:
+            assert document.loss_masking_spans is None
+            assert document.chosen_spans is None
+            assert document.rejected_spans is None
+            assert document.image_patches is None
+
+        return [
+            LanguageModelDocument(
+                tokens=TokenDocument(
+                    tokens=torch.from_numpy(
+                        self._fim(
+                            document.tokens.tokens.numpy(),
+                            np.random.RandomState(seed=(self._seed + index) % MAX_SEED),
+                        )
                     )
                 )
             )
-        )
+            for document in documents
+        ]
 
     @property
     def name(self) -> str:
diff --git a/fast_llm/data/dataset/gpt/legacy_memmap.py b/fast_llm/data/dataset/gpt/legacy_memmap.py
index d29e31596..0b47999b9 100644
--- a/fast_llm/data/dataset/gpt/legacy_memmap.py
+++ b/fast_llm/data/dataset/gpt/legacy_memmap.py
@@ -5,10 +5,10 @@
 import torch
 
 from fast_llm.data.dataset.indexed import IndexedDataset
+from fast_llm.data.document.language_model import LanguageModelDocument
+from fast_llm.data.document.range import RangeDocument
+from fast_llm.data.document.token import TokenDocument
 from fast_llm.data.preprocessing.language_model import LanguageModelPreprocessingConfig
-from fast_llm.data.sample.language_model import LanguageModelSample
-from fast_llm.data.sample.range import RangeSample
-from fast_llm.data.sample.token import TokenSample
 from fast_llm.engine.config_utils.data_type import DataType
 from fast_llm.utils import Assert, div
 
@@ -25,7 +25,7 @@
 MEMMAP_INDEX_HEADER = b"MMIDIDX\x00\x00"
 
 
-class LegacyMemmapDataset[SampleType: LanguageModelSample](IndexedDataset[SampleType]):
+class LegacyMemmapDataset[DocumentType: LanguageModelDocument](IndexedDataset[DocumentType]):
     """
     A memory map dataset, which handles lazy loading of a pre-processed dataset in the Megatron-LM format,
     i.e. a pair of numpy file containing
@@ -153,7 +153,7 @@ def __del__(self):
             self._index_bin_buffer_mmap._mmap.close()  # noqa
             del self._index_bin_buffer_mmap
 
-    def get_document(self, index: int, begin: int = 0, end: int | None = None) -> SampleType:
+    def get_document(self, index: int, begin: int = 0, end: int | None = None) -> DocumentType:
         if end is None:
             end = self.get_document_size(index)
         sample_size = self._document_sizes[index].item()
@@ -175,29 +175,29 @@ def get_document(self, index: int, begin: int = 0, end: int | None = None) -> Sa
             assert self._spans is not None
             if hasattr(self, "_spans"):
                 # Convert to in range format (begin, end).
-                sample_spans = RangeSample(
-                    [(begin_, last_ + 1) for begin_, last_ in self._spans[index].tolist()], sample_size
+                sample_spans = RangeDocument(
+                    ranges=[(begin_, last_ + 1) for begin_, last_ in self._spans[index].tolist()]
                 ).crop(begin, end)
             else:
-                sample_spans = RangeSample([], end - begin)
+                sample_spans = RangeDocument(ranges=[])
         else:
             sample_spans = None
 
         if self._preprocessing.use_preference_spans:
             # Convert to in range format (begin, end).
-            chosen_spans = RangeSample(
+            chosen_spans = RangeDocument(
                 [(self._chosen_spans[index][0].item(), self._chosen_spans[index][1].item() + 1)],
                 sample_size,
             ).crop(begin, end)
-            rejected_spans = RangeSample(
+            rejected_spans = RangeDocument(
                 [(self._rejected_spans[index][0].item(), self._rejected_spans[index][1].item() + 1)],
                 sample_size,
             ).crop(begin, end)
         else:
             chosen_spans = rejected_spans = None
 
-        return LanguageModelSample(
-            tokens=TokenSample(token_ids),
+        return LanguageModelDocument(
+            tokens=TokenDocument(token_ids),
             loss_masking_spans=sample_spans,
             chosen_spans=chosen_spans,
             rejected_spans=rejected_spans,
diff --git a/fast_llm/data/dataset/gpt/random.py b/fast_llm/data/dataset/gpt/random.py
index 939b900e5..387403e9b 100644
--- a/fast_llm/data/dataset/gpt/random.py
+++ b/fast_llm/data/dataset/gpt/random.py
@@ -3,22 +3,19 @@
 
 from fast_llm.data.dataset.abstract import SampledDataset
 from fast_llm.data.dataset.gpt.config import GPTSamplingData
+from fast_llm.data.document.language_model import LanguageModelDocument
+from fast_llm.data.document.token import TokenDocument
 from fast_llm.data.preprocessing.language_model import LanguageModelPreprocessingConfig
-from fast_llm.data.sample.language_model import LanguageModelSample
-from fast_llm.data.sample.token import TokenSample
 from fast_llm.engine.config_utils.data_type import get_unsigned_integer_type
 
 
-class GPTRandomSampledDataset[SampleType: LanguageModelSample](SampledDataset[SampleType]):
+class GPTRandomSampledDataset[DocumentType: LanguageModelDocument](SampledDataset[DocumentType]):
     def __init__(self, sampling: GPTSamplingData, name: str):
         self._name = name
         self._seed = sampling.config.seed
         self._parameters = sampling.parameters
 
         assert isinstance(sampling.preprocessing, LanguageModelPreprocessingConfig)
-        assert not sampling.preprocessing.use_loss_masking_spans
-        assert not sampling.preprocessing.use_preference_spans
-        assert not sampling.preprocessing.use_image_patches
         self._vocab_size = sampling.preprocessing.vocab_size
 
         self._dtype = get_unsigned_integer_type(self._vocab_size).torch
@@ -26,19 +23,21 @@ def __init__(self, sampling: GPTSamplingData, name: str):
     def __len__(self) -> int:
         return self._parameters.num_samples
 
-    def __getitem__(self, index: int) -> SampleType:
+    def __getitem__(self, index: int) -> list[DocumentType]:
         # TODO: Sample in self._dtype (breaking)
-        return LanguageModelSample(
-            TokenSample(
-                torch.from_numpy(
-                    np.random.RandomState(self._seed + 48576439 + 74593 * index).randint(
-                        0,
-                        self._vocab_size,
-                        size=(self._parameters.sequence_length + self._parameters.extra_tokens,),
-                    )
-                ).to(self._dtype),
+        return [
+            LanguageModelDocument(
+                tokens=TokenDocument(
+                    tokens=torch.from_numpy(
+                        np.random.RandomState(self._seed + 48576439 + 74593 * index).randint(
+                            0,
+                            self._vocab_size,
+                            size=(self._parameters.sequence_length + self._parameters.extra_tokens,),
+                        )
+                    ).to(self._dtype),
+                )
             )
-        )
+        ]
 
     @property
     def name(self) -> str:
diff --git a/fast_llm/data/dataset/indexed.py b/fast_llm/data/dataset/indexed.py
index b2e6f7e3d..af4f72539 100644
--- a/fast_llm/data/dataset/indexed.py
+++ b/fast_llm/data/dataset/indexed.py
@@ -4,11 +4,11 @@
 
 from fast_llm.data.dataset.abstract import SamplableDataset
 from fast_llm.data.dataset.config import SamplingData, SamplingParameters
-from fast_llm.data.sample.abstract import Sample
+from fast_llm.data.document.abstract import Document
 from fast_llm.utils import Assert, padded_cumsum
 
 
-class IndexedDataset[SampleType: Sample](SamplableDataset[SampleType]):
+class IndexedDataset[DocumentType: Document](SamplableDataset[DocumentType]):
     """
     A dataset containing a list of samples.
     TODO: Move sampling responsibility here?
@@ -31,7 +31,7 @@ def get_document_size(self, index: int) -> int:
     @abc.abstractmethod
     def get_document(
         self, index: int, begin: int = 0, end: int | None = None, parameters: SamplingParameters | None = None
-    ) -> SampleType:
+    ) -> DocumentType:
         pass
 
     def __len__(self) -> int:
@@ -55,12 +55,12 @@ def sample(self, sampling: SamplingData) -> "GPTSampledIndexedDataset":
         return SampledIndexedDataset(self, sampling)
 
 
-class DatasetSlice[SampleType: Sample](IndexedDataset[SampleType]):
+class DatasetSlice[DocumentType: Document](IndexedDataset[DocumentType]):
 
     def __init__(
         self,
         name: str,
-        dataset: IndexedDataset[SampleType],
+        dataset: IndexedDataset[DocumentType],
         begin: int | None = None,
         end: int | None = None,
     ):
@@ -86,7 +86,7 @@ def get_document_size(self, index: int) -> int:
 
     def get_document(
         self, index: int, begin: int = 0, end: int | None = None, parameters: SamplingParameters | None = None
-    ) -> SampleType:
+    ) -> DocumentType:
         """
         Get the sample (document) with the given index (in the dataset slice),
         optionally subsampled to a specific offset (starting point) and maximum length
@@ -102,12 +102,12 @@ def name(self) -> str:
         return self._name
 
 
-class ConcatenatedDataset[SampleType: Sample](IndexedDataset[SampleType]):
+class ConcatenatedDataset[DocumentType: Document](IndexedDataset[DocumentType]):
 
     def __init__(
         self,
         name: str,
-        datasets: list[IndexedDataset[SampleType]],
+        datasets: list[IndexedDataset[DocumentType]],
     ):
         self._name = name
         self._datasets = datasets
@@ -134,7 +134,7 @@ def get_document_size(self, index: int) -> int:
 
     def get_document(
         self, index: int, begin: int = 0, end: int | None = None, parameters: SamplingParameters | None = None
-    ) -> SampleType:
+    ) -> DocumentType:
         dataset = torch.searchsorted(self._dataset_splits[1:], index, side="right")
         return self._datasets[dataset].get_document(
             index - self._dataset_splits[dataset].item(), begin, end, parameters
diff --git a/fast_llm/data/sample/__init__.py b/fast_llm/data/dataset/memmap/__init__.py
similarity index 100%
rename from fast_llm/data/sample/__init__.py
rename to fast_llm/data/dataset/memmap/__init__.py
diff --git a/fast_llm/data/dataset/memmap/abstract.py b/fast_llm/data/dataset/memmap/abstract.py
new file mode 100644
index 000000000..6090d188a
--- /dev/null
+++ b/fast_llm/data/dataset/memmap/abstract.py
@@ -0,0 +1,119 @@
+import abc
+import io
+import pathlib
+import typing
+
+import torch
+
+from fast_llm.config import Configurable
+from fast_llm.data.dataset.memmap.config import (
+    MemmapIndexDatasetReaderConfig,
+    MemmapReaderBaseConfig,
+    MemmapReaderConfig,
+    NullReaderConfig,
+)
+from fast_llm.data.document.abstract import Document
+from fast_llm.data.preprocessing.abstract import NullPreprocessingConfig, PreprocessingConfig
+from fast_llm.utils import Assert
+
+
+class MemmapReaderBase[ConfigType: MemmapReaderBaseConfig](Configurable[ConfigType]):
+    @abc.abstractmethod
+    def get_document(self, index: int, begin: int, end: int) -> Document | None:
+        pass
+
+
+class NullMemmapReader[ConfigType: NullReaderConfig](MemmapReaderBase[ConfigType]):
+    def get_document(self, index: int, begin: int, end: int) -> None:
+        return None
+
+
+class MemmapReader[ConfigType: MemmapReaderConfig](MemmapReaderBase[ConfigType]):
+    def __init__(self, config: ConfigType, buffer: memoryview, model_preprocessing: PreprocessingConfig | None = None):
+        super().__init__(config)
+        # Note: This is the requirement at reading time (ex. from the model),
+        # which may differ from how the dataset was actually preprocessed (`config.preprocessing`)
+        # Compatibility checked in `MemmapDataset`.
+        self._model_preprocessing = NullPreprocessingConfig if model_preprocessing is None else model_preprocessing
+        buffer_begin = self._config.begin + len(self._config.header)
+        buffer_end = self._config.end - len(self._config.footer)
+        Assert.eq(buffer[self._config.begin : buffer_begin].tobytes(), self._config.header)
+        Assert.eq(buffer[buffer_end : self._config.end].tobytes(), self._config.footer)
+        self._buffer = buffer[buffer_begin:buffer_end]
+
+    @abc.abstractmethod
+    def get_document(self, index: int, begin: int, end: int) -> Document:
+        pass
+
+
+class MemmapIndexedDatasetReader[ConfigType: MemmapIndexDatasetReaderConfig](MemmapReader[ConfigType]):
+    def __len__(self) -> int:
+        return len(self._config)
+
+    @property
+    def num_tokens(self) -> int:
+        return self._config.num_tokens
+
+    @abc.abstractmethod
+    def get_document_sizes(self) -> "torch.Tensor":
+        pass
+
+    @abc.abstractmethod
+    def get_document_size(self, index: int) -> int:
+        pass
+
+    def get_split(self, begin_ratio: float, end_ratio: float) -> tuple[int, int, dict[str, typing.Any]]:
+        raise NotImplementedError()
+
+
+class MemmapWriter(abc.ABC):
+    def __init__(
+        self, stream: io.BufferedWriter | pathlib.Path, preprocessing_config: PreprocessingConfig | None = None
+    ):
+        self._owns_stream = isinstance(stream, pathlib.Path)
+        if self._owns_stream:
+            stream = stream.open("wb")
+        self._stream = stream
+        self._preprocessing_config = (
+            NullPreprocessingConfig() if preprocessing_config is None else preprocessing_config
+        )
+
+    def __enter__(self):
+        self._begin = self._stream.tell()
+        self._stream.write(self._get_config_class().header)
+        return self
+
+    def write(self, document: Document):
+        assert hasattr(self, "_begin") and not hasattr(self, "_end")
+
+    def __exit__(self, exc_type, exc_val, exc_tb):
+        if exc_type is None:
+            self._stream.write(self._get_config_class().footer)
+            self._end = self._stream.tell()
+        if self._owns_stream:
+            self._stream.close()
+
+    @classmethod
+    @abc.abstractmethod
+    def _get_config_class(cls) -> type[MemmapReaderConfig]:
+        pass
+
+    def get_config(self, offset: int = 0) -> MemmapReaderConfig:
+        assert hasattr(self, "_end")
+        return self._get_config(self._begin + offset, self._end + offset)
+
+    @abc.abstractmethod
+    def _get_config(self, begin: int, end: int):
+        pass
+
+    @classmethod
+    def write_dataset(
+        cls,
+        stream: io.BufferedWriter,
+        documents: typing.Iterable[Document],
+        preprocessing_config: PreprocessingConfig | None = None,
+    ) -> MemmapReaderConfig:
+        with cls(stream, preprocessing_config) as writer:
+            for document in documents:
+                writer.write(document)
+        return writer.get_config()
diff --git a/fast_llm/data/dataset/memmap/config.py b/fast_llm/data/dataset/memmap/config.py
new file mode 100644
index 000000000..ce5ecb06c
--- /dev/null
+++ b/fast_llm/data/dataset/memmap/config.py
@@ -0,0 +1,462 @@
+import io
+import logging
+import math
+import pathlib
+import typing
+
+import torch
+
+from fast_llm.config import Config, Field, FieldHint, config_class
+from fast_llm.data.dataset.config import IndexedDatasetConfig, SampledDatasetConfig
+from fast_llm.data.dataset.indexed import IndexedDataset
+from fast_llm.data.preprocessing.abstract import NullPreprocessingConfig, PreprocessingConfig
+from fast_llm.data.preprocessing.image_patch import ImagePatchConfig
+from fast_llm.data.preprocessing.language_model import LanguageModelPreprocessingConfig
+from fast_llm.engine.config_utils.data_type import DataType
+from fast_llm.utils import Assert, get_unique
+
+if typing.TYPE_CHECKING:
+    from fast_llm.data.dataset.memmap.abstract import (
+        MemmapIndexedDatasetReader,
+        MemmapReader,
+        MemmapWriter,
+        NullMemmapReader,
+    )
+    from fast_llm.data.dataset.memmap.language_model import LanguageModelReader, LanguageModelWriter
+    from fast_llm.data.dataset.memmap.patch import PatchReader, PatchWriter
+    from fast_llm.data.dataset.memmap.range import RangeReader, RangeWriter
+    from fast_llm.data.dataset.memmap.token import TokenReader, TokenWriter
+    from fast_llm.data.document.abstract import Document
+
+logger = logging.getLogger(__name__)
+
+
+@config_class(dynamic_type={SampledDatasetConfig: "memmap"})
+class MemmapDatasetConfig[DocumentType: Document](IndexedDatasetConfig[DocumentType]):
+    _abstract: typing.ClassVar[bool] = False
+    path: pathlib.Path = Field(
+        default=None,
+        desc="The path to the dataset, excluding the `.bin` or `.idx` suffix.",
+        hint=FieldHint.core,
+    )
+
+    def build(self, preprocessing: PreprocessingConfig) -> "IndexedDataset[DocumentType]":
+        name = str(self.path).replace("/", "__")
+        if self.path.is_file():
+            from fast_llm.data.dataset.memmap.memmap import MemmapDataset
+
+            return MemmapDataset[DocumentType](name, self.path, preprocessing)
+        elif self.path.with_suffix(".bin").is_file() and self.path.with_suffix(".idx").is_file():
+            logger.warning(
+                "Using the legacy memmap dataset format."
+                " This format is deprecated and will be removed in a future release."
+                " Please recreate the dataset in the new memmap format."
+            )
+            from fast_llm.data.dataset.gpt.legacy_memmap import LegacyMemmapDataset
+
+            return LegacyMemmapDataset[DocumentType](name, self.path, preprocessing)
+        else:
+            raise FileNotFoundError(self.path)
+
+
+@config_class(registry=True)
+class MemmapReaderBaseConfig(Config):
+    """
+    Configuration for a memmap reader or reader-like object.
+    Note: `MemmapDataset` requires a `MemmapIndexedDatasetReader`.
+      Other readers need to be nested within a `MemmapIndexedDatasetReader`
+    Note: Reader configs are not typical configs, and do not need to be located in a separate `config.py` file.
+    """
+
+    _abstract = True
+
+    @classmethod
+    def _from_dict(cls, default: dict[str, typing.Any], strict: bool = True) -> typing.Self:
+        if cls is MemmapReaderBaseConfig and cls.get_subclass(default.get("type")) is None:
+            # Default subclass, necessary for loading configs where some components could be absent.
+            return NullReaderConfig._from_dict(default, strict)
+        return super()._from_dict(default, strict=strict)
+
+    def get_reader(self, buffer: memoryview) -> "MemmapReader|None":
+        raise NotImplementedError()
+
+    @property
+    def expected_buffer_size(self) -> int:
+        """
+        The expected buffer size in bytes, including header and footer. Used for self-validation.
+        """
+        raise NotImplementedError()
+
+    def get_metadata(self) -> dict[str, typing.Any]:
+        raise NotImplementedError()
+
+    @classmethod
+    def blend_metadata(cls, metadata: list[dict[str, typing.Any]]) -> dict[str, typing.Any]:
+        raise NotImplementedError()
+
+
+@config_class(dynamic_type={MemmapReaderBaseConfig: "none"})
+class NullReaderConfig(MemmapReaderBaseConfig):
+    """
+    Configuration for a dynamically disabled reader.
+    """
+
+    _abstract = False
+
+    def get_reader(self, buffer: memoryview) -> "NullMemmapReader":
+        from fast_llm.data.dataset.memmap.abstract import NullMemmapReader
+
+        return NullMemmapReader(self)
+
+    @property
+    def expected_buffer_size(self) -> int:
+        return 0
+
+
+@config_class(registry=True)
+class MemmapReaderConfig(MemmapReaderBaseConfig):
+    """
+    Configuration for a standard memmap reader.
+    """
+
+    # Data location in the file.
+    begin: int = Field()
+    end: int = Field()
+    # Constant strings for alignment safety.
+    header: typing.ClassVar[bytes]
+    footer: typing.ClassVar[bytes]
+    # Additional information about how the dataset was prepared.
+    preprocessing: PreprocessingConfig = Field()
+
+    @property
+    def reader_class(self) -> "type[MemmapReader]":
+        raise NotImplementedError()
+
+    def get_reader(self, buffer: memoryview, model_preprocessing: PreprocessingConfig | None = None) -> "MemmapReader":
+        return self.reader_class(self, buffer, model_preprocessing)
+
+    @property
+    def expected_buffer_size(self) -> int:
+        """
+        The expected buffer size in bytes, including header and footer. Used for self-validation.
+        """
+        return self._expected_buffer_size + len(self.header) + len(self.footer)
+
+    @property
+    def _expected_buffer_size(self) -> int:
+        """
+        The expected buffer size in bytes, excluding header and footer. Used for self-validation.
+        """
+        raise NotImplementedError()
+
+    @property
+    def writer_class(self) -> "type[MemmapWriter]":
+        raise NotImplementedError()
+
+    def get_writer(self, stream: io.BufferedWriter) -> "MemmapWriter":
+        return self.writer_class(stream)
+
+    def _validate(self):
+        super()._validate()
+        Assert.eq(self.end - self.begin, self.expected_buffer_size)
+
+
+@config_class()
+class PatchReaderBaseConfig(MemmapReaderBaseConfig):
+    _abstract = False
+    patch_shape: tuple[int, ...] = Field()
+    data_type: DataType = Field()
+
+    @property
+    def patch_size(self) -> int:
+        return math.prod(self.patch_shape)
+
+    @property
+    def grid_dims(self) -> int:
+        return len(self.patch_shape) - 1
+
+
+@config_class(dynamic_type={MemmapReaderBaseConfig: "patch"})
+class PatchReaderConfig(PatchReaderBaseConfig, MemmapReaderConfig):
+    header: typing.ClassVar[bytes] = b"patch begin"
+    footer: typing.ClassVar[bytes] = b"patch end"
+    num_documents: int = Field()
+    num_patches: int = Field()
+    num_patch_groups: int = Field()
+
+    def __len__(self) -> int:
+        return self.num_documents
+
+    @property
+    def reader_class(self) -> "type[PatchReader]":
+        from fast_llm.data.dataset.memmap.patch import PatchReader
+
+        return PatchReader
+
+    @property
+    def writer_class(self) -> "type[PatchWriter]":
+        from fast_llm.data.dataset.memmap.patch import PatchWriter
+
+        return PatchWriter
+
+    @property
+    def _expected_buffer_size(self) -> int:
+        return (
+            self.num_patches * self.patch_size * self.data_type.torch.itemsize
+            + ((1 + self.grid_dims) * self.num_patches + self.num_patch_groups + 2 * self.num_documents + 2)
+            * torch.int32.itemsize
+        )
+
+    def get_metadata(self) -> dict[str, typing.Any]:
+        return {
+            "num_documents": self.num_documents,
+            "num_patches": self.num_patches,
+            "num_patch_groups": self.num_patch_groups,
+            "num_pixels": self.patch_size * self.num_patches,
+            "patch_shape": self.patch_shape,
+            "data_type": str(self.data_type),
+        }
+
+    @classmethod
+    def blend_metadata(cls, metadata: list[dict[str, typing.Any]]) -> dict[str, typing.Any]:
+        return {
+            "num_documents": sum(metadata_["num_documents"] for metadata_ in metadata),
+            "num_patches": sum(metadata_["num_patches"] for metadata_ in metadata),
+            "num_patch_groups": sum(metadata_["num_patch_groups"] for metadata_ in metadata),
+            "num_pixels": sum(metadata_["num_pixels"] for metadata_ in metadata),
+            "patch_shape": get_unique(metadata_["patch_shape"] for metadata_ in metadata),
+            "data_type": get_unique(metadata_["data_type"] for metadata_ in metadata),
+        }
+
+
+@config_class()
+class RangeReaderBaseConfig(MemmapReaderBaseConfig):
+    _abstract = False
+
+
+@config_class(dynamic_type={MemmapReaderBaseConfig: "range"})
+class RangeReaderConfig(RangeReaderBaseConfig, MemmapReaderConfig):
+    header: typing.ClassVar[bytes] = b"range begin"
+    footer: typing.ClassVar[bytes] = b"range end"
+    num_documents: int = Field()
+    num_ranges: int = Field()
+
+    @property
+    def reader_class(self) -> "type[RangeReader]":
+        from fast_llm.data.dataset.memmap.range import RangeReader
+
+        return RangeReader
+
+    @property
+    def writer_class(self) -> "type[RangeWriter]":
+        from fast_llm.data.dataset.memmap.range import RangeWriter
+
+        return RangeWriter
+
+    @property
+    def _expected_buffer_size(self) -> int:
+        return self.num_ranges * torch.int32.itemsize * 2 + (self.num_documents + 1) * torch.int32.itemsize
+
+    def get_metadata(self) -> dict[str, typing.Any]:
+        return {
+            "num_documents": self.num_documents,
+            "num_ranges": self.num_ranges,
+        }
+
+    @classmethod
+    def blend_metadata(cls, metadata: list[dict[str, typing.Any]]) -> dict[str, typing.Any]:
+        return {
+            "num_documents": sum(metadata_["num_documents"] for metadata_ in metadata),
+            "num_ranges": sum(metadata_["num_ranges"] for metadata_ in metadata),
+        }
+
+
+@config_class(dynamic_type={MemmapReaderBaseConfig: "token"})
+class TokenReaderConfig(MemmapReaderConfig):
+    _abstract = False
+    header: typing.ClassVar[bytes] = b"token begin"
+    footer: typing.ClassVar[bytes] = b"token end"
+    num_documents: int = Field()
+    num_tokens: int = Field()
+    data_type: DataType = Field()
+
+    def __len__(self) -> int:
+        return self.num_documents
+
+    @property
+    def reader_class(self) -> "type[TokenReader]":
+        from fast_llm.data.dataset.memmap.token import TokenReader
+
+        return TokenReader
+
+    @property
+    def writer_class(self) -> "type[TokenWriter]":
+        from fast_llm.data.dataset.memmap.token import TokenWriter
+
+        return TokenWriter
+
+    @property
+    def _expected_buffer_size(self) -> int:
+        return self.num_tokens * self.data_type.torch.itemsize + (self.num_documents + 1) * torch.int64.itemsize
+
+    def get_metadata(self) -> dict[str, typing.Any]:
+        return {
+            "num_tokens": self.num_tokens,
+            "num_documents": self.num_documents,
+            "data_type": str(self.data_type),
+        }
+
+    @classmethod
+    def blend_metadata(cls, metadata: list[dict[str, typing.Any]]) -> dict[str, typing.Any]:
+        return {
+            "num_tokens": sum(metadata_["num_tokens"] for metadata_ in metadata),
+            "num_documents": sum(metadata_["num_documents"] for metadata_ in metadata),
+            "data_type": get_unique(metadata_["data_type"] for metadata_ in metadata),
+        }
+
+
+@config_class()
+class MemmapIndexDatasetReaderConfig(MemmapReaderConfig):
+    """
+    Configuration for a standard memmap reader matching the indexed dataset interface, i.e.,
+    consisting of a list of documents of known lengths.
+    """
+
+    def __len__(self) -> int:
+        raise NotImplementedError()
+
+    @property
+    def num_tokens(self) -> int:
+        raise NotImplementedError()
+
+    @property
+    def reader_class(self) -> "type[MemmapIndexedDatasetReader]":
+        raise NotImplementedError()
+
+    def get_reader(self, buffer: memoryview, model_preprocessing: PreprocessingConfig) -> "MemmapIndexedDatasetReader":
+        return self.reader_class(self, buffer, model_preprocessing)
+
+    def get_metadata(self) -> dict[str, typing.Any]:
+        return {"num_tokens": self.num_tokens}
+
+    @classmethod
+    def blend_metadata(cls, metadata: list[dict[str, typing.Any]]) -> dict[str, typing.Any]:
+        return {"num_tokens": sum(metadata_["num_tokens"] for metadata_ in metadata)}
+
+
+@config_class(dynamic_type={MemmapReaderBaseConfig: "language_model"})
+class LanguageModelReaderConfig(MemmapIndexDatasetReaderConfig):
+    _abstract = False
+    header: typing.ClassVar[bytes] = b"lm begin"
+    footer: typing.ClassVar[bytes] = b"lm end"
+    tokens: TokenReaderConfig = Field()
+    # Using dynamic type for optional readers for enabling/disabling
+    loss_masking_spans: MemmapReaderBaseConfig = Field()
+    chosen_spans: MemmapReaderBaseConfig = Field()
+    rejected_spans: MemmapReaderBaseConfig = Field()
+    image_patches: MemmapReaderBaseConfig = Field()
+
+    def _validate(self) -> None:
+        super()._validate()
+        if isinstance(self.preprocessing, NullPreprocessingConfig):
+            # Address missing config, mostly for backward compatibility.
+            # TODO: We can't tell which dataset this comes from.
+            logger.warning(
+                f"Preprocessing configuration not specified for dataset reader, generating partial configuration from known parameters."
+            )
+            if isinstance(self.image_patches, PatchReaderConfig):
+                Assert.eq(len(patch_shape := self.image_patches.patch_shape), 3)
+                image_patches = ImagePatchConfig(height=patch_shape[1], width=patch_shape[2])
+            else:
+                image_patches = NullPreprocessingConfig()
+            self.preprocessing = LanguageModelPreprocessingConfig(
+                image_patches=image_patches,
+                use_loss_masking_spans=isinstance(self.loss_masking_spans, RangeReaderConfig),
+                use_preference_spans=isinstance(self.chosen_spans, RangeReaderConfig),
+            )
+        # TODO: Avoid duplicated information.
+        Assert.custom(
+            isinstance,
+            self.loss_masking_spans,
+            RangeReaderConfig if self.preprocessing.use_loss_masking_spans else NullReaderConfig,
+        )
+        Assert.custom(
+            isinstance,
+            self.chosen_spans,
+            RangeReaderConfig if self.preprocessing.use_preference_spans else NullReaderConfig,
+        )
+        Assert.custom(
+            isinstance,
+            self.rejected_spans,
+            RangeReaderConfig if self.preprocessing.use_preference_spans else NullReaderConfig,
+        )
+        if self.preprocessing.use_image_patches:
+            Assert.custom(isinstance, self.image_patches, PatchReaderConfig)
+            Assert.eq(self.image_patches.patch_shape, self.preprocessing.image_patches.patch_shape)
+            Assert.eq(self.image_patches.data_type, DataType.uint8)
+        else:
+            Assert.custom(isinstance, self.image_patches, NullReaderConfig)
+
+    def __len__(self) -> int:
+        return len(self.tokens)
+
+    @property
+    def num_tokens(self) -> int:
+        return self.tokens.num_tokens
+
+    @property
+    def reader_class(self) -> "type[LanguageModelReader]":
+        from fast_llm.data.dataset.memmap.language_model import LanguageModelReader
+
+        return LanguageModelReader
+
+    @property
+    def writer_class(self) -> "type[LanguageModelWriter]":
+        from fast_llm.data.dataset.memmap.language_model import LanguageModelWriter
+
+        return LanguageModelWriter
+
+    @property
+    def _expected_buffer_size(self) -> int:
+        return (
+            self.tokens.expected_buffer_size
+            + self.loss_masking_spans.expected_buffer_size
+            + self.chosen_spans.expected_buffer_size
+            + self.rejected_spans.expected_buffer_size
+            + self.image_patches.expected_buffer_size
+        )
+
+    def get_metadata(self) -> dict[str, typing.Any]:
+        out = super().get_metadata()
+        out["tokens"] = self.tokens.get_metadata()
+        if not isinstance(self.loss_masking_spans, NullReaderConfig):
+            out["loss_masking_spans"] = self.loss_masking_spans.get_metadata()
+        if not isinstance(self.chosen_spans, NullReaderConfig):
+            out["chosen_spans"] = self.chosen_spans.get_metadata()
+        if not isinstance(self.rejected_spans, NullReaderConfig):
+            out["rejected_spans"] = self.rejected_spans.get_metadata()
+        if not isinstance(self.image_patches, NullReaderConfig):
+            out["image_patches"] = self.image_patches.get_metadata()
+        return out
+
+    @classmethod
+    def blend_metadata(cls, metadata: list[dict[str, typing.Any]]) -> dict[str, typing.Any]:
+        out = super().blend_metadata(metadata)
+        out["tokens"] = TokenReaderConfig.blend_metadata([metadata_["tokens"] for metadata_ in metadata])
+        if "loss_masking_spans" in metadata[0]:
+            out["loss_masking_spans"] = RangeReaderConfig.blend_metadata(
+                [metadata_["loss_masking_spans"] for metadata_ in metadata]
+            )
+        if "chosen_spans" in metadata[0]:
+            out["chosen_spans"] = RangeReaderConfig.blend_metadata(
+                [metadata_["chosen_spans"] for metadata_ in metadata]
+            )
+        if "rejected_spans" in metadata[0]:
+            out["image_patches"] = RangeReaderConfig.blend_metadata(
+                [metadata_["image_patches"] for metadata_ in metadata]
+            )
+        if "image_patches" in metadata[0]:
+            out["image_patches"] = PatchReaderConfig.blend_metadata(
+                [metadata_["image_patches"] for metadata_ in metadata]
+            )
+        return out
diff --git a/fast_llm/data/dataset/memmap/language_model.py b/fast_llm/data/dataset/memmap/language_model.py
new file mode 100644
index 000000000..34d71eba3
--- /dev/null
+++ b/fast_llm/data/dataset/memmap/language_model.py
@@ -0,0 +1,237 @@
+import io
+import pathlib
+import tempfile
+import typing
+
+import torch
+
+from fast_llm.data.dataset.memmap.abstract import MemmapIndexedDatasetReader, MemmapWriter
+from fast_llm.data.dataset.memmap.config import LanguageModelReaderConfig, NullReaderConfig
+from fast_llm.data.dataset.memmap.patch import PatchReader, PatchWriter
+from fast_llm.data.dataset.memmap.range import RangeReader, RangeWriter
+from fast_llm.data.dataset.memmap.token import TokenWriter
+from fast_llm.data.document.abstract import Document
+from fast_llm.data.document.language_model import LanguageModelDocument
+from fast_llm.data.preprocessing.image_patch import ImageNormalizationConfig
+from fast_llm.data.preprocessing.language_model import LanguageModelPreprocessingConfig
+from fast_llm.utils import Assert
+
+
+class LanguageModelReader[ConfigType: LanguageModelReaderConfig](MemmapIndexedDatasetReader[ConfigType]):
+    _model_preprocessing: LanguageModelPreprocessingConfig
+
+    def __init__(
+        self,
+        config: ConfigType,
+        buffer: memoryview,
+        model_preprocessing: LanguageModelPreprocessingConfig | None = None,
+    ):
+        super().__init__(config, buffer, model_preprocessing)
+        self._config.preprocessing.check_compatibility(self._model_preprocessing)
+        # Using `buffer` and not `self._buffer` because nested offsets (`begin`, `end`) are global.
+        self._tokens = self._config.tokens.get_reader(buffer)
+        null_reader = NullReaderConfig().get_reader(buffer)
+        self._loss_masking_spans = (
+            self._config.loss_masking_spans.get_reader(buffer)
+            if self._model_preprocessing.use_loss_masking_spans
+            else null_reader
+        )
+        self._chosen_spans = (
+            self._config.chosen_spans.get_reader(buffer)
+            if self._model_preprocessing.use_preference_spans
+            else null_reader
+        )
+        self._rejected_spans = (
+            self._config.rejected_spans.get_reader(buffer)
+            if self._model_preprocessing.use_preference_spans
+            else null_reader
+        )
+        self._image_patches = (
+            self._config.image_patches.get_reader(buffer)
+            if self._model_preprocessing.use_image_patches
+            else null_reader
+        )
+        # TODO: Make this configurable. (Add to `model_preprocessing`?)
+        self._image_normalization_config = ImageNormalizationConfig()
+
+    @property
+    def num_tokens(self) -> int:
+        return self._config.tokens.num_tokens
+
+    def get_document(self, index: int, begin: int, end: int) -> Document:
+        if self._model_preprocessing.use_image_patches:
+            image_patches = self._image_patches.get_document(index, begin, end)
+            if image_patches is not None:
+                image_patches.patches = self._image_normalization_config.normalize(image_patches.patches)
+        else:
+            image_patches = None
+        return LanguageModelDocument(
+            tokens=self._tokens.get_document(index, begin, end),
+            loss_masking_spans=self._loss_masking_spans.get_document(index, begin, end),
+            chosen_spans=self._chosen_spans.get_document(index, begin, end),
+            rejected_spans=self._rejected_spans.get_document(index, begin, end),
+            image_patches=image_patches,
+        )
+
+    def get_document_sizes(self) -> torch.Tensor:
+        return self._tokens.get_document_sizes()
+
+    def get_document_size(self, index: int) -> int:
+        return self._tokens.get_document_size(index)
+
+    def get_split(self, begin_ratio: float, end_ratio: float) -> tuple[int, int, dict[str, typing.Any]]:
+        begin_index, end_index, token_metadata = self._tokens.get_split(begin_ratio, end_ratio)
+        metadata = {
+            "num_tokens": token_metadata["num_tokens"],
+            "tokens": token_metadata,
+        }
+        if isinstance(self._loss_masking_spans, RangeReader):
+            metadata["loss_masking_spans"] = self._loss_masking_spans.get_split(begin_index, end_index)
+        if isinstance(self._chosen_spans, RangeReader):
+            metadata["chosen_spans"] = self._chosen_spans.get_split(begin_index, end_index)
+        if isinstance(self._rejected_spans, RangeReader):
+            metadata["rejected_spans"] = self._rejected_spans.get_split(begin_index, end_index)
+        if isinstance(self._image_patches, PatchReader):
+            metadata["image_patches"] = self._image_patches.get_split(begin_index, end_index)
+
+        return begin_index, end_index, metadata
+
+
+class LanguageModelWriter(MemmapWriter):
+    _preprocessing_config: LanguageModelPreprocessingConfig
+
+    def __enter__(self):
+        super().__enter__()
+        self._size_cumsum = [0]
+        self._data_type = None
+
+        self._directory = tempfile.TemporaryDirectory()
+        self._path = pathlib.Path(self._directory.name)
+        # We write intermediate results in separate files so we don't need to iterate over the dataset multiple times.
+        self._token_writer = TokenWriter(self._path.joinpath("tokens")).__enter__()
+        if self._preprocessing_config.use_loss_masking_spans:
+            self._loss_masking_span_writer = RangeWriter(self._path.joinpath("loss_masking_spans")).__enter__()
+        if self._preprocessing_config.use_preference_spans:
+            self._chosen_spans_writer = RangeWriter(self._path.joinpath("chosen_spans")).__enter__()
+            self._rejected_spans_writer = RangeWriter(self._path.joinpath("rejected_spans")).__enter__()
+        if self._preprocessing_config.use_image_patches:
+            self._image_patches_writer = PatchWriter(self._path.joinpath("image_patches")).__enter__()
+        return self
+
+    def write(self, document: LanguageModelDocument):
+        super().write(document)
+        # Write tokens.
+        self._token_writer.write(document.tokens)
+
+        # Write loss masking spans.
+        if self._preprocessing_config.use_loss_masking_spans:
+            assert document.loss_masking_spans is not None
+            self._loss_masking_span_writer.write(document.loss_masking_spans)
+
+        # Write preference spans.
+        if self._preprocessing_config.use_preference_spans:
+            assert document.chosen_spans is not None
+            assert document.rejected_spans is not None
+            self._chosen_spans_writer.write(document.chosen_spans)
+            self._rejected_spans_writer.write(document.rejected_spans)
+
+        # Write image patches
+        if self._preprocessing_config.use_image_patches:
+            assert document.image_patches is not None
+            self._image_patches_writer.write(document.image_patches)
+
+    def __exit__(self, exc_type, exc_val, exc_tb):
+        self._token_writer.__exit__(exc_type, exc_val, exc_tb)
+        if self._preprocessing_config.use_loss_masking_spans:
+            self._loss_masking_span_writer.__exit__(exc_type, exc_val, exc_tb)
+        if self._preprocessing_config.use_preference_spans:
+            self._chosen_spans_writer.__exit__(exc_type, exc_val, exc_tb)
+            self._rejected_spans_writer.__exit__(exc_type, exc_val, exc_tb)
+        if self._preprocessing_config.use_image_patches:
+            self._image_patches_writer.__exit__(exc_type, exc_val, exc_tb)
+
+        if exc_type is None:
+            # A dummy config so we can verify the begin and end offsets.
+            config = self._get_config(self._begin, None)
+            _copy_chunked(self._path.joinpath("tokens"), self._stream, config.tokens.begin, config.tokens.end)
+
+            if self._preprocessing_config.use_loss_masking_spans:
+                _copy_chunked(
+                    self._path.joinpath("loss_masking_spans"),
+                    self._stream,
+                    config.loss_masking_spans.begin,
+                    config.loss_masking_spans.end,
+                )
+            if self._preprocessing_config.use_preference_spans:
+                _copy_chunked(
+                    self._path.joinpath("chosen_spans"),
+                    self._stream,
+                    config.chosen_spans.begin,
+                    config.chosen_spans.end,
+                )
+                _copy_chunked(
+                    self._path.joinpath("rejected_spans"),
+                    self._stream,
+                    config.rejected_spans.begin,
+                    config.rejected_spans.end,
+                )
+
+            if self._preprocessing_config.use_image_patches:
+                _copy_chunked(
+                    self._path.joinpath("image_patches"),
+                    self._stream,
+                    config.image_patches.begin,
+                    config.image_patches.end,
+                )
+
+        self._directory.cleanup()
+        super().__exit__(exc_type, exc_val, exc_tb)
+
+    @classmethod
+    def _get_config_class(cls) -> type[LanguageModelReaderConfig]:
+        return LanguageModelReaderConfig
+
+    def _get_config(self, begin: int, end: int | None):
+        tokens = self._token_writer.get_config(begin + len(LanguageModelReaderConfig.header))
+        offset = tokens.end
+        if self._preprocessing_config.use_loss_masking_spans:
+            loss_masking_spans = self._loss_masking_span_writer.get_config(offset)
+            offset = loss_masking_spans.end
+        else:
+            loss_masking_spans = NullReaderConfig()
+        if self._preprocessing_config.use_preference_spans:
+            chosen_spans = self._chosen_spans_writer.get_config(offset)
+            offset = chosen_spans.end
+            rejected_spans = self._rejected_spans_writer.get_config(offset)
+            offset = rejected_spans.end
+        else:
+            chosen_spans = NullReaderConfig()
+            rejected_spans = NullReaderConfig()
+        if self._preprocessing_config.use_image_patches:
+            image_patches = self._image_patches_writer.get_config(offset)
+            offset = image_patches.end
+        else:
+            image_patches = NullReaderConfig()
+
+        if end is None:
+            end = offset + len(LanguageModelReaderConfig.footer)
+
+        return LanguageModelReaderConfig(
+            begin=begin,
+            end=end,
+            tokens=tokens,
+            loss_masking_spans=loss_masking_spans,
+            chosen_spans=chosen_spans,
+            rejected_spans=rejected_spans,
+            image_patches=image_patches,
+            preprocessing=self._preprocessing_config,
+        )
+
+
+def _copy_chunked(path: pathlib.Path, stream: io.BufferedWriter, expected_begin: int, expected_end: int):
+    # Copy temporary file content in chunks of 100 MB.
+    Assert.eq(stream.tell(), expected_begin)
+    with path.open("rb") as input_stream:
+        while data := input_stream.read(100000000):
+            stream.write(data)
+    Assert.eq(stream.tell(), expected_end)
diff --git a/fast_llm/data/dataset/memmap.py b/fast_llm/data/dataset/memmap/memmap.py
similarity index 85%
rename from fast_llm/data/dataset/memmap.py
rename to fast_llm/data/dataset/memmap/memmap.py
index e571fc433..49172e845 100644
--- a/fast_llm/data/dataset/memmap.py
+++ b/fast_llm/data/dataset/memmap/memmap.py
@@ -7,18 +7,17 @@
 
 from fast_llm.data.dataset.config import SamplingParameters
 from fast_llm.data.dataset.indexed import IndexedDataset
-from fast_llm.data.preprocessing.abstract import PreprocessingConfig
-from fast_llm.data.sample.abstract import (
-    MemmapIndexDatasetReaderConfig,
-    MemmapIndexedDatasetReader,
-    MemmapWriter,
-    Sample,
+from fast_llm.data.dataset.memmap.abstract import MemmapIndexedDatasetReader, MemmapWriter
+from fast_llm.data.dataset.memmap.config import MemmapIndexDatasetReaderConfig
+from fast_llm.data.document.abstract import (
+    Document,
 )
+from fast_llm.data.preprocessing.abstract import PreprocessingConfig
 
 FILE_HEADER = b"fast_llm_prepared_dataset"
 
 
-class MemmapDataset[SampleType: Sample](IndexedDataset[SampleType]):
+class MemmapDataset[DocumentType: Document](IndexedDataset[DocumentType]):
     """
     A memory map dataset, which handles lazy loading of a pre-processed dataset.
     """
@@ -28,12 +27,6 @@ def read_reader_config(path: pathlib.Path | str) -> MemmapIndexDatasetReaderConf
         """
         Read the MemmapIndexDatasetReaderConfig from a memmap file.
         """
-        # Import reader configs to register them in the dynamic class registry
-        from fast_llm.data.sample.language_model import LanguageModelReaderConfig  # noqa: F401
-        from fast_llm.data.sample.patch import PatchReaderConfig  # noqa: F401
-        from fast_llm.data.sample.range import RangeReaderConfig  # noqa: F401
-        from fast_llm.data.sample.token import TokenReaderConfig  # noqa: F401
-
         path = pathlib.Path(path) if isinstance(path, str) else path
         with path.open("rb") as stream:
             # Verify file type.
@@ -78,7 +71,7 @@ def __del__(self):
 
     def get_document(
         self, index: int, begin: int = 0, end: int | None = None, parameters: SamplingParameters | None = None
-    ) -> SampleType:
+    ) -> DocumentType:
         if end is None:
             end = self._reader.get_document_size(index)
         return self._reader.get_document(index, begin, end)
@@ -108,11 +101,11 @@ def reader(self) -> MemmapIndexedDatasetReader:
     def write_dataset(
         cls,
         path: pathlib.Path,
-        documents: typing.Iterable[Sample],
+        documents: typing.Iterable[Document],
         writer_class: type[MemmapWriter],
         preprocessing_config: PreprocessingConfig | None = None,
     ) -> MemmapIndexDatasetReaderConfig:
-        # TODO: Match `writer_class` with `SampleType`?
+        # TODO: Match `writer_class` with `DocumentType`?
         path.parent.mkdir(parents=True, exist_ok=True)
         with path.open("wb") as stream:
             # Write the file type header.
diff --git a/fast_llm/data/dataset/memmap/patch.py b/fast_llm/data/dataset/memmap/patch.py
new file mode 100644
index 000000000..2b551dbbf
--- /dev/null
+++ b/fast_llm/data/dataset/memmap/patch.py
@@ -0,0 +1,141 @@
+import typing
+
+import numpy as np
+import torch
+
+from fast_llm.data.dataset.memmap.abstract import MemmapReader, MemmapWriter
+from fast_llm.data.dataset.memmap.config import PatchReaderConfig
+from fast_llm.data.document.abstract import Document
+from fast_llm.data.document.patch import PatchDocument, filter_lengths
+from fast_llm.data.preprocessing.abstract import PreprocessingConfig
+from fast_llm.engine.config_utils.data_type import DataType
+from fast_llm.utils import Assert
+
+
+class PatchReader[ConfigType: PatchReaderConfig](MemmapReader[ConfigType]):
+    def __init__(self, config: ConfigType, buffer: memoryview, model_preprocessing: PreprocessingConfig | None = None):
+        super().__init__(config, buffer, model_preprocessing)
+        self._patches = torch.frombuffer(
+            self._buffer,
+            dtype=self._config.data_type.torch,
+            count=self._config.num_patches * self._config.patch_size,
+        ).view(self._config.num_patches, *self._config.patch_shape)
+        offset = self._patches.nbytes
+        self._token_map = torch.frombuffer(
+            self._buffer,
+            dtype=torch.int32,
+            count=self._config.num_patches,
+            offset=offset,
+        )
+        offset += self._token_map.nbytes
+        self._positions = torch.frombuffer(
+            self._buffer,
+            dtype=torch.int32,
+            count=self._config.num_patches * self._config.grid_dims,
+            offset=offset,
+        ).view(self._config.num_patches, self._config.grid_dims)
+        offset += self._positions.nbytes
+        self._patch_count_cumsums = torch.frombuffer(
+            self._buffer,
+            dtype=torch.int32,
+            count=self._config.num_documents + 1,
+            offset=offset,
+        )
+        offset += self._patch_count_cumsums.nbytes
+        self._group_lengths = torch.frombuffer(
+            self._buffer,
+            dtype=torch.int32,
+            count=self._config.num_patch_groups,
+            offset=offset,
+        )
+        offset += self._group_lengths.nbytes
+        self._group_count_cumsums = torch.frombuffer(
+            self._buffer,
+            dtype=torch.int32,
+            count=self._config.num_documents + 1,
+            offset=offset,
+        )
+
+    def get_document(self, index: int, begin: int, end: int) -> Document:
+        token_map = self._token_map[
+            token_slice := slice(self._patch_count_cumsums[index], self._patch_count_cumsums[index + 1])
+        ]
+        patch_filter = (token_map >= begin) & (token_map < end)
+        return PatchDocument(
+            patches=self._patches[token_slice][patch_filter],
+            token_map=token_map[patch_filter] - begin,
+            positions=self._positions[token_slice][patch_filter],
+            lengths=filter_lengths(
+                self._group_lengths[self._group_count_cumsums[index] : self._group_count_cumsums[index + 1]].tolist(),
+                patch_filter,
+            ),
+        )
+
+    def get_split(self, begin_index: int, end_index: int) -> dict[str, typing.Any]:
+        Assert.custom(lambda x: x == sorted(x), [0, begin_index, end_index, self._config.num_documents])
+        num_patches = self._patch_count_cumsums[end_index].item() - self._patch_count_cumsums[begin_index].item()
+        return {
+            "num_documents": end_index - begin_index,
+            "num_patches": num_patches,
+            "num_patch_groups": self._group_count_cumsums[end_index].item()
+            - self._group_count_cumsums[begin_index].item(),
+            "num_pixels": self._config.patch_size * num_patches,
+            "patch_shape": self._config.patch_shape,
+            "data_type": str(self._config.data_type),
+        }
+
+
+class PatchWriter(MemmapWriter):
+    def __enter__(self):
+        super().__enter__()
+        self._patch_count_cumsum = [0]
+        self._group_count_cumsum = [0]
+        self._token_map = []
+        self._positions = []
+        self._group_lengths = []
+        self._data_type = None
+        self._patch_shape = None
+        return self
+
+    def write(self, document: PatchDocument):
+        super().write(document)
+        if self._data_type is None:
+            self._data_type = document.patches.dtype
+        else:
+            Assert.eq(self._data_type, document.patches.dtype)
+        if self._patch_shape is None:
+            self._patch_shape = tuple(document.patches.shape[1:])
+        else:
+            Assert.eq(self._patch_shape, document.patches.shape[1:])
+        self._stream.write(document.patches.numpy().tobytes())
+        self._token_map.extend(document.token_map)
+        self._positions.extend(document.positions)
+        self._patch_count_cumsum.append(self._patch_count_cumsum[-1] + len(document.patches))
+        self._group_count_cumsum.append(self._group_count_cumsum[-1] + len(document.lengths))
+        self._group_lengths.extend(document.lengths)
+
+    def __exit__(self, exc_type, exc_val, exc_tb):
+        if exc_type is None:
+            Assert.lt(self._patch_count_cumsum[-1], np.iinfo(np.int32).max)
+            self._stream.write(np.array(self._token_map, dtype=np.int32).tobytes(order="C"))
+            self._stream.write(np.array(self._positions, dtype=np.int32).tobytes(order="C"))
+            self._stream.write(np.array(self._patch_count_cumsum, dtype=np.int32).tobytes(order="C"))
+            self._stream.write(np.array(self._group_lengths, dtype=np.int32).tobytes(order="C"))
+            self._stream.write(np.array(self._group_count_cumsum, dtype=np.int32).tobytes(order="C"))
+        super().__exit__(exc_type, exc_val, exc_tb)
+
+    @classmethod
+    def _get_config_class(cls) -> type[PatchReaderConfig]:
+        return PatchReaderConfig
+
+    def _get_config(self, begin: int, end: int):
+        return PatchReaderConfig(
+            begin=begin,
+            end=end,
+            num_documents=len(self._patch_count_cumsum) - 1,
+            num_patches=self._patch_count_cumsum[-1],
+            num_patch_groups=self._group_count_cumsum[-1],
+            patch_shape=self._patch_shape,
+            data_type=DataType.from_torch(self._data_type),
+            preprocessing=self._preprocessing_config,
+        )
diff --git a/fast_llm/data/dataset/memmap/range.py b/fast_llm/data/dataset/memmap/range.py
new file mode 100644
index 000000000..9bd1a3119
--- /dev/null
+++ b/fast_llm/data/dataset/memmap/range.py
@@ -0,0 +1,73 @@
+import typing
+
+import numpy as np
+import torch
+
+from fast_llm.data.dataset.memmap.abstract import MemmapReader, MemmapWriter
+from fast_llm.data.dataset.memmap.config import RangeReaderConfig
+from fast_llm.data.document.abstract import Document
+from fast_llm.data.document.range import RangeDocument
+from fast_llm.data.preprocessing.abstract import PreprocessingConfig
+from fast_llm.utils import Assert
+
+
+class RangeReader[ConfigType: RangeReaderConfig](MemmapReader[ConfigType]):
+    def __init__(self, config: ConfigType, buffer: memoryview, model_preprocessing: PreprocessingConfig | None = None):
+        super().__init__(config, buffer, model_preprocessing)
+        self._ranges = torch.frombuffer(
+            self._buffer,
+            dtype=torch.int32,
+            count=self._config.num_ranges * 2,
+        ).view(-1, 2)
+        self._count_cumsums = torch.frombuffer(
+            self._buffer,
+            dtype=torch.int32,
+            count=self._config.num_documents + 1,
+            offset=self._ranges.nbytes,
+        )
+
+    def get_document(self, index: int, begin: int, end: int) -> Document:
+        sample_size = end - begin
+        cropped_ranges = (
+            (max(begin_ - begin, 0), min(end_ - begin, sample_size))
+            for begin_, end_ in self._ranges[self._count_cumsums[index] : self._count_cumsums[index + 1]].tolist()
+        )
+        return RangeDocument(ranges=[(begin_, end_) for begin_, end_ in cropped_ranges if end_ > begin_])
+
+    def get_split(self, begin_index: int, end_index: int) -> dict[str, typing.Any]:
+        Assert.custom(lambda x: x == sorted(x), [0, begin_index, end_index, self._config.num_documents])
+        return {
+            "num_documents": end_index - begin_index,
+            "num_ranges": self._count_cumsums[end_index].item() - self._count_cumsums[begin_index].item(),
+        }
+
+
+class RangeWriter(MemmapWriter):
+    def __enter__(self):
+        super().__enter__()
+        self._count_cumsum = [0]
+        return self
+
+    def write(self, document: RangeDocument):
+        super().write(document)
+        self._stream.write(np.array(document.ranges, dtype=np.int32).tobytes(order="C"))
+        self._count_cumsum.append(self._count_cumsum[-1] + len(document.ranges))
+
+    def __exit__(self, exc_type, exc_val, exc_tb):
+        if exc_type is None:
+            Assert.lt(self._count_cumsum[-1], np.iinfo(np.int32).max)
+            self._stream.write(np.array(self._count_cumsum, dtype=np.int32).tobytes(order="C"))
+        super().__exit__(exc_type, exc_val, exc_tb)
+
+    @classmethod
+    def _get_config_class(cls) -> type[RangeReaderConfig]:
+        return RangeReaderConfig
+
+    def _get_config(self, begin: int, end: int):
+        return RangeReaderConfig(
+            begin=begin,
+            end=end,
+            num_documents=len(self._count_cumsum) - 1,
+            num_ranges=self._count_cumsum[-1],
+            preprocessing=self._preprocessing_config,
+        )
diff --git a/fast_llm/data/dataset/memmap/token.py b/fast_llm/data/dataset/memmap/token.py
new file mode 100644
index 000000000..7d4bcbc39
--- /dev/null
+++ b/fast_llm/data/dataset/memmap/token.py
@@ -0,0 +1,95 @@
+import typing
+
+import numpy as np
+import torch
+
+from fast_llm.data.dataset.memmap.abstract import MemmapIndexedDatasetReader, MemmapWriter
+from fast_llm.data.dataset.memmap.config import TokenReaderConfig
+from fast_llm.data.document.abstract import Document
+from fast_llm.data.document.token import TokenDocument
+from fast_llm.data.preprocessing.abstract import PreprocessingConfig
+from fast_llm.engine.config_utils.data_type import DataType
+from fast_llm.utils import Assert
+
+
+class TokenReader[ConfigType: TokenReaderConfig](MemmapIndexedDatasetReader[ConfigType]):
+    def __init__(self, config: ConfigType, buffer: memoryview, model_preprocessing: PreprocessingConfig | None = None):
+        super().__init__(config, buffer, model_preprocessing)
+        self._tokens = torch.frombuffer(
+            self._buffer,
+            dtype=self._config.data_type.torch,
+            count=self._config.num_tokens,
+        )
+        self._size_cumsums = torch.frombuffer(
+            self._buffer, dtype=torch.int64, count=self._config.num_documents + 1, offset=self._tokens.nbytes
+        )
+
+    def get_document(self, index: int, begin: int, end: int) -> Document:
+        begin_ = self._size_cumsums[index].item()
+        # Torch doesn't support type promotion between signed and unsigned types, so we convert here to avoid issues.
+        # Convert begin and end to int to avoid numpy dtype overflow when adding to begin_
+        return TokenDocument(tokens=self._tokens[begin_ + begin : begin_ + end].to(torch.int64))
+
+    def get_document_sizes(self) -> torch.Tensor:
+        return self._size_cumsums[1:] - self._size_cumsums[:-1]
+
+    def get_document_size(self, index: int) -> int:
+        return self._size_cumsums[index + 1].item() - self._size_cumsums[index].item()
+
+    def get_split(self, begin_ratio: float, end_ratio: float) -> tuple[int, int, dict[str, typing.Any]]:
+        Assert.custom(lambda x: x == sorted(x), [0, begin_ratio, end_ratio, 1])
+        begin_index = _get_nearest_split(self._size_cumsums[1:], begin_ratio * self.num_tokens)
+        end_index = _get_nearest_split(self._size_cumsums[1:], end_ratio * self.num_tokens)
+
+        return (
+            begin_index,
+            end_index,
+            {
+                "num_tokens": self._size_cumsums[end_index].item() - self._size_cumsums[begin_index].item(),
+                "num_documents": end_index - begin_index,
+                "data_type": str(self._config.data_type),
+            },
+        )
+
+
+def _get_nearest_split(cumsum: torch.Tensor, value: float) -> int:
+    left = torch.searchsorted(cumsum, value, side="right")
+    if left == len(cumsum):
+        return left.item()
+    return left.item() + 1 if (value - cumsum[left]) / (cumsum[left + 1] - cumsum[left]) > 0.5 else left.item()
+
+
+class TokenWriter(MemmapWriter):
+    def __enter__(self):
+        super().__enter__()
+        self._size_cumsum = [0]
+        self._data_type = None
+        return self
+
+    def write(self, document: TokenDocument):
+        super().write(document)
+        if self._data_type is None:
+            self._data_type = document.tokens.dtype
+        else:
+            Assert.eq(self._data_type, document.tokens.dtype)
+        self._stream.write(document.tokens.numpy().tobytes())
+        self._size_cumsum.append(self._size_cumsum[-1] + len(document.tokens))
+
+    def __exit__(self, exc_type, exc_val, exc_tb):
+        if exc_type is None:
+            self._stream.write(np.array(self._size_cumsum, dtype=np.int64).tobytes(order="C"))
+        super().__exit__(exc_type, exc_val, exc_tb)
+
+    @classmethod
+    def _get_config_class(cls) -> type[TokenReaderConfig]:
+        return TokenReaderConfig
+
+    def _get_config(self, begin: int, end: int):
+        return TokenReaderConfig(
+            begin=begin,
+            end=end,
+            num_documents=len(self._size_cumsum) - 1,
+            num_tokens=self._size_cumsum[-1],
+            data_type=DataType.from_torch(self._data_type),
+            preprocessing=self._preprocessing_config,
+        )
diff --git a/fast_llm/data/dataset/monitor.py b/fast_llm/data/dataset/monitor.py
index 01f3195e4..ab4af957b 100644
--- a/fast_llm/data/dataset/monitor.py
+++ b/fast_llm/data/dataset/monitor.py
@@ -2,7 +2,7 @@
 import time
 
 from fast_llm.data.dataset.abstract import SampledDataset
-from fast_llm.data.sample.abstract import Sample
+from fast_llm.data.document.abstract import Document
 
 try:
     from fast_llm.csrc.data import build_blending_indices  # noqa
@@ -14,7 +14,7 @@
 logger = logging.getLogger(__name__)
 
 
-class DatasetMonitor[SampleType: Sample](SampledDataset[SampleType]):
+class DatasetMonitor[DocumentType: Document](SampledDataset[DocumentType]):
     """
     A blended sampling of multiple sampled datasets, where each dataset is sampled with the provided probability.
     The sampling order of each dataset is respected, but there is no strict guarantee
@@ -24,7 +24,7 @@ class DatasetMonitor[SampleType: Sample](SampledDataset[SampleType]):
 
     def __init__(
         self,
-        dataset: SampledDataset[SampleType],
+        dataset: SampledDataset[DocumentType],
         data_sample_warn_time_ms: float,
     ):
         self._dataset = dataset
@@ -33,7 +33,7 @@ def __init__(
     def __len__(self) -> int:
         return len(self._dataset)
 
-    def __getitem__(self, index: int) -> SampleType:
+    def __getitem__(self, index: int) -> list[DocumentType]:
         start_time = time.perf_counter()
         try:
             sample = self._dataset[index]
diff --git a/fast_llm/data/dataset/sampled.py b/fast_llm/data/dataset/sampled.py
index 36b52d9f8..a3b7c05a5 100644
--- a/fast_llm/data/dataset/sampled.py
+++ b/fast_llm/data/dataset/sampled.py
@@ -11,7 +11,7 @@
 from fast_llm.data.dataset.abstract import SampledDataset
 from fast_llm.data.dataset.config import SamplingData, ShufflingType
 from fast_llm.data.dataset.indexed import IndexedDataset
-from fast_llm.data.sample.abstract import Sample
+from fast_llm.data.document.abstract import Document
 from fast_llm.engine.config_utils.data_type import DataType, get_unsigned_integer_type
 from fast_llm.engine.config_utils.run import log_main_rank
 from fast_llm.utils import Assert
@@ -66,14 +66,14 @@ def _lazy_load(self):
 TOKEN_CUMSUM_RATE = 10
 
 
-class SampledIndexedDataset[SampleType: Sample](SampledDataset[SampleType]):
+class SampledIndexedDataset[DocumentType: Document](SampledDataset[DocumentType]):
     """
     A sampled dataset.
     """
 
     def __init__(
         self,
-        indexed_dataset: IndexedDataset[SampleType],
+        indexed_dataset: IndexedDataset[DocumentType],
         sampling: SamplingData,
     ):
         self._indexed_dataset = indexed_dataset
@@ -126,17 +126,17 @@ def _sample(self) -> None:
                 "The C++ extension for dataset sampling is missing."
                 " Please make sure Fast-LLM is installed correctly."
             )
-            long_docs_filter = document_sizes > self._parameters.sequence_length + 1
+            long_docs_filter = document_sizes > self._parameters.total_length
             ignored_documents = long_docs_filter.sum().item()
             if ignored_documents:
                 log_main_rank(
-                    f" > {ignored_documents}/{documents_per_epoch} documents are longer than {self._parameters.sequence_length+1} tokens and will be ignored.",
+                    f" > {ignored_documents}/{documents_per_epoch} documents are longer than {self._parameters.total_length} tokens and will be ignored.",
                     log_fn=logger.warning,
                 )
             tokens_per_epoch = document_sizes[~long_docs_filter].sum().item()
             if tokens_per_epoch == 0:
                 raise RuntimeError(
-                    f" > No documents shorter than {self._parameters.sequence_length+1} tokens found in dataset {self._indexed_dataset.name}."
+                    f" > No documents shorter than {self._parameters.total_length} tokens found in dataset {self._indexed_dataset.name}."
                 )
 
         # We produce sequences of length `self._sequence_length + extra_tokens` so the last token has a label for all prediction heads,
@@ -148,10 +148,7 @@ def _sample(self) -> None:
                 / tokens_per_epoch
             )
         else:
-            num_epochs = math.ceil(
-                ((self._parameters.sequence_length + self._parameters.extra_tokens) * self._parameters.num_samples)
-                / tokens_per_epoch
-            )
+            num_epochs = math.ceil((self._parameters.total_length * self._parameters.num_samples) / tokens_per_epoch)
 
         # Prepare for shuffling.
         generator = torch.Generator(device=self._device)
@@ -320,14 +317,12 @@ def _get_token_cumsum(self, sizes: torch.Tensor, offset: int, dtype: DataType) -
         else:
             # TODO: dynamically handle int64 or int32 in CPP
             out = build_padded_token_cumsum(
-                sizes.cpu().numpy(), (self._parameters.sequence_length + 1), TOKEN_CUMSUM_RATE, offset
+                sizes.cpu().numpy(), self._parameters.total_length, TOKEN_CUMSUM_RATE, offset
             )
             num_tokens = out[-1]
             out = out[:-1][
                 : np.clip(
-                    np.searchsorted(
-                        out, self._parameters.num_samples * (self._parameters.sequence_length + 1), side="right"
-                    ),
+                    np.searchsorted(out, self._parameters.num_samples * self._parameters.total_length, side="right"),
                     0,
                     None,
                 )
@@ -337,7 +332,7 @@ def _get_token_cumsum(self, sizes: torch.Tensor, offset: int, dtype: DataType) -
     def __len__(self) -> int:
         return self._parameters.num_samples
 
-    def __getitem__(self, index: int) -> SampleType:
+    def __getitem__(self, index: int) -> list[DocumentType]:
         """
         Get the sample, (fixed-length sequence of tokens holding one or more complete or partial documents)
         with the requested sampling index.
@@ -347,13 +342,10 @@ def __getitem__(self, index: int) -> SampleType:
 
         # tokens at the boundary are included in only one sample when we pack without truncations
         # in case of packing with truncations, the last token from the previous sample is also the first token of the next sample
-        sample_length = (
-            self._parameters.sequence_length
-            if self._truncate_documents
-            else self._parameters.sequence_length + self._parameters.extra_tokens
+        token_start = index * (
+            self._parameters.sequence_length if self._truncate_documents else self._parameters.total_length
         )
-        token_start = index * sample_length
-        token_end = token_start + self._parameters.sequence_length + self._parameters.extra_tokens
+        token_end = token_start + self._parameters.total_length
 
         if token_start < self._unshuffled_tokens:
             token_start_array = self._token_cumsum_unshuffled.array
@@ -369,7 +361,7 @@ def __getitem__(self, index: int) -> SampleType:
 
         token_count = token_start_array[token_start_cumsum_index].item()
 
-        documents: list[SampleType] = []
+        documents: list[DocumentType] = []
         while token_count < token_end:
             # Find the document index in the dataset.
             if document_sampling_index < self._unshuffled_documents:
@@ -380,16 +372,15 @@ def __getitem__(self, index: int) -> SampleType:
             document_size = self._indexed_dataset.get_document_size(document_index)
 
             if not self._truncate_documents:
-                if document_size > self._parameters.sequence_length + 1:
+                if document_size > self._parameters.total_length:
                     # Document too long, ignore
                     document_sampling_index += 1
                     continue
-                tokens_in_sample = token_count % (self._parameters.sequence_length + 1)
-                if document_size + tokens_in_sample > self._parameters.sequence_length + 1:
+                tokens_in_sample = token_count % self._parameters.total_length
+                if document_size + tokens_in_sample > self._parameters.total_length:
                     # Document belongs to the next sample, need to account for padding.
-                    padding_size = self._parameters.sequence_length + 1 - tokens_in_sample
+                    padding_size = self._parameters.total_length - tokens_in_sample
                     if token_count > token_start:
-                        documents.append(documents[-1].get_padding(padding_size))
                         Assert.eq(token_count + padding_size, token_end)
                         break
                     else:
@@ -413,8 +404,7 @@ def __getitem__(self, index: int) -> SampleType:
             # Go to the next document.
             document_sampling_index += 1
             token_count += document_size
-
-        return documents[0].from_documents(documents)
+        return documents
 
     @property
     def name(self) -> str:
diff --git a/fast_llm/data/document/__init__.py b/fast_llm/data/document/__init__.py
new file mode 100644
index 000000000..e69de29bb
diff --git a/fast_llm/data/document/abstract.py b/fast_llm/data/document/abstract.py
new file mode 100644
index 000000000..eb6accfdc
--- /dev/null
+++ b/fast_llm/data/document/abstract.py
@@ -0,0 +1,23 @@
+import abc
+import dataclasses
+
+
+@dataclasses.dataclass(kw_only=True)
+class Document(abc.ABC):
+    pass
+
+
+@dataclasses.dataclass(kw_only=True)
+class Batch(Document):
+    pass
+    # @classmethod
+    # @abc.abstractmethod
+    # def from_documents(cls, documents: typing.Iterable[typing.Self]) -> typing.Self:
+    #    pass
+
+    # @abc.abstractmethod
+    # def crop(self, begin: int, end: int) -> typing.Self:
+    #    pass
+
+    # def to_device_(self, device: "torch.device | str"):
+    #    pass
diff --git a/fast_llm/data/document/language_model.py b/fast_llm/data/document/language_model.py
new file mode 100644
index 000000000..23de0605b
--- /dev/null
+++ b/fast_llm/data/document/language_model.py
@@ -0,0 +1,90 @@
+import dataclasses
+import logging
+import typing
+
+import torch
+
+from fast_llm.data.document.abstract import Batch, Document
+from fast_llm.data.document.patch import PatchBatch, PatchDocument
+from fast_llm.data.document.range import RangeBatch, RangeDocument
+from fast_llm.data.document.token import TokenBatch, TokenDocument
+from fast_llm.utils import Assert
+
+logger = logging.getLogger(__name__)
+
+
+@dataclasses.dataclass(kw_only=True)
+class LanguageModelDocument(Document):
+    tokens: TokenDocument
+    loss_masking_spans: RangeDocument | None = None
+    chosen_spans: RangeDocument | None = None
+    rejected_spans: RangeDocument | None = None
+    image_patches: PatchDocument | None = None
+
+    def __len__(self) -> int:
+        return len(self.tokens)
+
+
+@dataclasses.dataclass(kw_only=True)
+class LanguageModelBatch(LanguageModelDocument, Batch):
+    tokens: TokenBatch
+    loss_masking_spans: RangeBatch | None = None
+    chosen_spans: RangeBatch | None = None
+    rejected_spans: RangeBatch | None = None
+    image_patches: PatchBatch | None = None
+    num_tokens: int  # Number of tokens in the micro-batch excluding padding at the end.
+
+    @classmethod
+    def from_documents(
+        cls, documents: typing.Iterable[LanguageModelDocument], pad_to_size: int | None = None
+    ) -> typing.Self:
+        num_tokens = sum(len(document) for document in documents)
+        if pad_to_size is not None:
+            Assert.geq(pad_to_size, num_tokens)
+            padding = pad_to_size - num_tokens
+            if padding > 0:
+                documents = documents + [
+                    LanguageModelDocument(
+                        tokens=TokenDocument(tokens=documents[0].tokens.tokens.new_full([padding], -100))
+                    )
+                ]
+        sizes = [len(document) for document in documents]
+        return cls(
+            tokens=TokenBatch.from_documents([document.tokens for document in documents]),
+            loss_masking_spans=RangeBatch.from_documents(
+                [document.loss_masking_spans for document in documents], sizes
+            ),
+            chosen_spans=RangeBatch.from_documents([document.chosen_spans for document in documents], sizes),
+            rejected_spans=RangeBatch.from_documents([document.rejected_spans for document in documents], sizes),
+            image_patches=PatchBatch.from_documents([document.image_patches for document in documents], sizes),
+            num_tokens=num_tokens,
+        )
+
+    def crop(self, begin: int, end: int) -> typing.Self:
+        return self.__class__(
+            tokens=self.tokens.crop(begin, end),
+            loss_masking_spans=_crop_optional(self.loss_masking_spans, begin, end),
+            chosen_spans=_crop_optional(self.chosen_spans, begin, end),
+            rejected_spans=_crop_optional(self.rejected_spans, begin, end),
+            image_patches=_crop_optional(self.image_patches, begin, end),
+            num_tokens=min(end, self.num_tokens) - begin,
+        )
+
+    def to_device_(self, device: "torch.device | str"):
+        self.tokens.to_device_(device)
+        if self.loss_masking_spans is not None:
+            self.loss_masking_spans.to_device_(device)
+        if self.chosen_spans is not None:
+            self.chosen_spans.to_device_(device)
+        if self.rejected_spans is not None:
+            self.rejected_spans.to_device_(device)
+        if self.image_patches is not None:
+            self.image_patches.to_device_(device)
+
+
+def _merge_optional[T](fn: typing.Callable, args: typing.Iterable) -> T | None:
+    return None if any(arg is None for arg in args) else fn(args)
+
+
+def _crop_optional[T: Document](sample: T, begin: int, end: int) -> T | None:
+    return None if sample is None else sample.crop(begin, end)
diff --git a/fast_llm/data/document/patch.py b/fast_llm/data/document/patch.py
new file mode 100644
index 000000000..64bc2841b
--- /dev/null
+++ b/fast_llm/data/document/patch.py
@@ -0,0 +1,66 @@
+import dataclasses
+import typing
+
+import torch
+
+from fast_llm.data.document.abstract import Batch, Document
+from fast_llm.utils import Assert, padded_cumsum
+
+
+def filter_lengths(lengths: list[int], filter: torch.Tensor) -> list[int]:
+    length_cumsum = padded_cumsum(lengths)
+    filtered_lengths = (filter[begin:end].sum().item() for begin, end in zip(length_cumsum[:-1], length_cumsum[1:]))
+    return [length for length in filtered_lengths if length > 0]
+
+
+@dataclasses.dataclass(kw_only=True)
+class PatchDocument(Document):
+    """
+    A reusable component holding a set of fixed-shape patches (ex. images, audio, video),
+    each of which providing a single token embedding in a multimodal model.
+    """
+
+    patches: torch.Tensor
+    token_map: torch.Tensor
+    positions: torch.Tensor  # Position identifier for each patch in the patch grid.
+    lengths: list[int]  # Length of each patch group (ex. image) in the document. TODO: Use cumsums instead?
+
+    def __post_init__(self):
+        Assert.eq(self.positions.shape, (self.patches.size(0), self.patches.ndim - 2))
+        Assert.eq(sum(self.lengths), len(self.patches))
+
+
+@dataclasses.dataclass(kw_only=True)
+class PatchBatch(PatchDocument, Batch):
+    @classmethod
+    def from_documents(cls, documents: typing.Iterable[PatchDocument], sizes: typing.Iterable[int]) -> typing.Self:
+        document_begin = 0
+        embedding_maps = []
+        for document, size in zip(documents, sizes, strict=True):
+            if document is not None:
+                embedding_maps.append(document.token_map + document_begin)
+            document_begin += size
+        return (
+            cls(
+                patches=torch.cat([document.patches for document in documents if document is not None]),
+                token_map=torch.cat(embedding_maps),
+                positions=torch.cat([document.positions for document in documents if document is not None]),
+                lengths=sum((document.lengths for document in documents if document is not None), []),
+            )
+            if embedding_maps
+            else None
+        )
+
+    def crop(self, begin: int, end: int) -> typing.Self:
+        patch_filter = (self.token_map >= begin) & (self.token_map < end)
+        return self.__class__(
+            patches=self.patches[patch_filter],
+            token_map=self.token_map[patch_filter] - begin,
+            positions=self.positions[patch_filter],
+            lengths=filter_lengths(self.lengths, patch_filter),
+        )
+
+    def to_device_(self, device: "torch.device | str"):
+        self.patches = self.patches.to(device, non_blocking=True)
+        self.token_map = self.token_map.to(device, non_blocking=True)
+        self.positions = self.positions.to(device, non_blocking=True)
diff --git a/fast_llm/data/document/range.py b/fast_llm/data/document/range.py
new file mode 100644
index 000000000..27efe50fc
--- /dev/null
+++ b/fast_llm/data/document/range.py
@@ -0,0 +1,37 @@
+import dataclasses
+import typing
+
+from fast_llm.data.document.abstract import Batch, Document
+
+
+@dataclasses.dataclass(kw_only=True)
+class RangeDocument(Document):
+    """
+    A reusable component holding a set of ranges in a sample.
+    """
+
+    ranges: list[tuple[int, int]]
+
+
+@dataclasses.dataclass(kw_only=True)
+class RangeBatch(RangeDocument, Batch):
+    @classmethod
+    def from_documents(
+        cls, documents: typing.Iterable[RangeDocument | None], sizes: typing.Iterable[int]
+    ) -> typing.Self:
+        """
+        Used to merge ranges from multiple documents, i.e. when multiple documents are packed together.
+        """
+        document: RangeDocument
+        ranges = []
+        document_begin = 0
+        for document, size in zip(documents, sizes, strict=True):
+            if document is not None:
+                for begin, end in document.ranges:
+                    ranges.append((begin + document_begin, end + document_begin))
+            document_begin += size
+        return cls(ranges=ranges) if ranges else None
+
+    def crop(self, begin: int, end: int) -> typing.Self:
+        cropped_ranges = ((max(begin_ - begin, 0), min(end_ - begin, end - begin)) for begin_, end_ in self.ranges)
+        return self.__class__(ranges=[(begin_, end_) for begin_, end_ in cropped_ranges if end_ > begin_])
diff --git a/fast_llm/data/document/token.py b/fast_llm/data/document/token.py
new file mode 100644
index 000000000..529068170
--- /dev/null
+++ b/fast_llm/data/document/token.py
@@ -0,0 +1,105 @@
+import dataclasses
+import typing
+
+import torch
+
+from fast_llm.data.document.abstract import Batch, Document
+from fast_llm.utils import Assert, padded_cumsum
+
+
+def crop_lengths(lengths: list[int], begin: int, end: int) -> list[int]:
+    if len(lengths) == 1:
+        # Shortcut for the frequent case of a single document.
+        return [end - begin]
+    begin_ = 0
+    lengths_ = []
+    for length in lengths:
+        end_ = begin_ + length
+        cropped_length = min(end_, end) - max(begin_, begin)
+        if cropped_length > 0:
+            lengths_.append(cropped_length)
+        if end_ > end:
+            break
+        begin_ = end_
+    return lengths_
+
+
+@dataclasses.dataclass(kw_only=True)
+class TokenDocument(Document):
+    tokens: torch.Tensor
+
+    def __len__(self) -> int:
+        return len(self.tokens)
+
+
+@dataclasses.dataclass(kw_only=True)
+class TokenBatch(TokenDocument, Batch):
+    lengths: list[int]
+    sequence_k_past: int = 0
+    current_document_begin: int = 0
+
+    def __post_init__(self):
+        Assert.eq(sum(self.lengths), len(self.tokens))
+
+    @classmethod
+    def from_documents(cls, documents: typing.Iterable[TokenDocument]) -> typing.Self:
+        return cls(
+            tokens=torch.cat([document.tokens for document in documents]),
+            lengths=[len(document) for document in documents],
+        )
+
+    def crop(self, begin: int, end: int) -> typing.Self:
+        Assert.eq(self.sequence_k_past, self.current_document_begin, 0)
+
+        document_begin = 0
+        lengths_ = []
+        current_document_begin = None
+        for length in self.lengths:
+            document_end = document_begin + length
+            cropped_length = min(document_end, end) - max(document_begin, begin)
+            if cropped_length > 0:
+                lengths_.append(cropped_length)
+                if not current_document_begin:
+                    current_document_begin = document_begin
+            if document_end > end:
+                break
+            document_begin = document_end
+
+        return self.__class__(
+            tokens=self.tokens[begin:end],
+            lengths=lengths_,
+            sequence_k_past=begin,
+            current_document_begin=current_document_begin,
+        )
+
+    def to_device_(self, device: "torch.device | str"):
+        # Also standardize the dtype while we're here.
+        self.tokens = self.tokens.to(device, dtype=torch.int64, non_blocking=True)
+
+    def get_cumulative_lengths(self, device: torch.device | None = None) -> tuple[torch.Tensor, torch.Tensor]:
+        cumulative_lengths_q = torch.from_numpy(padded_cumsum(self.lengths)).to(dtype=torch.int32, device=device)
+        cumulative_lengths_k = torch.cat(
+            [self.current_document_begin, cumulative_lengths_q[1:] + self.sequence_k_past]
+        )
+        return cumulative_lengths_q, cumulative_lengths_k
+
+    def get_max_lengths(self, device: torch.device | None = None) -> tuple[torch.Tensor, torch.Tensor]:
+        max_length_q = max(self.lengths)
+        max_length_k = max(self.max_length_q, self.sequence_k_past + self.lengths[0] - self.current_document_begin)
+        return (
+            torch.full((1,), max_length_q, dtype=torch.int32, device=device),
+            torch.full((1,), max_length_k, dtype=torch.int32, device=device),
+        )
+
+    def get_document_index(self, device: torch.device | None = None) -> torch.Tensor:
+        return torch.cat(
+            [
+                torch.full((document_length,), i, dtype=torch.int32, device=device)
+                for i, document_length in enumerate(self.lengths)
+            ]
+        )
+
+    def get_position_index(self, device: torch.device | None = None) -> torch.Tensor:
+        return torch.cat(
+            [torch.arange(document_length, dtype=torch.int32, device=device) for document_length in self.lengths]
+        )
diff --git a/fast_llm/data/preparator/dataset_discovery/prepare.py b/fast_llm/data/preparator/dataset_discovery/prepare.py
index 25a29ca3e..f1fc6a63b 100644
--- a/fast_llm/data/preparator/dataset_discovery/prepare.py
+++ b/fast_llm/data/preparator/dataset_discovery/prepare.py
@@ -11,7 +11,7 @@
 
 import yaml
 
-from fast_llm.data.dataset.memmap import MemmapDataset
+from fast_llm.data.dataset.memmap.memmap import MemmapDataset
 from fast_llm.data.preparator.config import DatasetPreparator
 from fast_llm.data.preparator.dataset_discovery.config import DatasetDiscoveryConfig
 
diff --git a/fast_llm/data/preparator/gpt_memmap/prepare.py b/fast_llm/data/preparator/gpt_memmap/prepare.py
index 325d33c43..4d642d3b0 100644
--- a/fast_llm/data/preparator/gpt_memmap/prepare.py
+++ b/fast_llm/data/preparator/gpt_memmap/prepare.py
@@ -23,10 +23,15 @@
     BlendedDatasetConfig,
     DatasetSliceConfig,
     IndexedDatasetConfig,
-    MemmapDatasetConfig,
     SampledDatasetConfig,
 )
-from fast_llm.data.dataset.memmap import MemmapDataset
+from fast_llm.data.dataset.memmap.config import MemmapDatasetConfig, MemmapIndexDatasetReaderConfig
+from fast_llm.data.dataset.memmap.language_model import LanguageModelWriter
+from fast_llm.data.dataset.memmap.memmap import MemmapDataset
+from fast_llm.data.document.language_model import LanguageModelDocument
+from fast_llm.data.document.patch import PatchDocument
+from fast_llm.data.document.range import RangeDocument
+from fast_llm.data.document.token import TokenDocument
 from fast_llm.data.preparator.config import DatasetPreparator
 from fast_llm.data.preparator.gpt_memmap.config import (
     ConversationSourceConfig,
@@ -37,11 +42,6 @@
 from fast_llm.data.preprocessing.abstract import NullPreprocessingConfig
 from fast_llm.data.preprocessing.language_model import LanguageModelPreprocessingConfig
 from fast_llm.data.preprocessing.tokenizer import Tokenizer
-from fast_llm.data.sample.abstract import MemmapIndexDatasetReaderConfig
-from fast_llm.data.sample.language_model import LanguageModelSample, LanguageModelWriter
-from fast_llm.data.sample.patch import PatchSample
-from fast_llm.data.sample.range import RangeSample
-from fast_llm.data.sample.token import TokenSample
 from fast_llm.engine.config_utils.data_type import DataType, get_unsigned_integer_type
 from fast_llm.engine.config_utils.run import log_main_rank
 from fast_llm.utils import normalize_probabilities, padded_cumsum
@@ -59,7 +59,7 @@ class SpanType(enum.StrEnum):
 class GPTMemmapDatasetPreparator[ConfigType: GPTMemmapDatasetPreparatorConfig](DatasetPreparator[ConfigType]):
     _tokenizer: Tokenizer
     _data_type: DataType
-    _sample_type: typing.ClassVar[type[LanguageModelSample]] = LanguageModelSample
+    _sample_type: typing.ClassVar[type[LanguageModelDocument]] = LanguageModelDocument
     _config: GPTMemmapDatasetPreparatorConfig
 
     def __init__(self, config: ConfigType):
@@ -224,7 +224,7 @@ def _preprocessing_config(self) -> LanguageModelPreprocessingConfig:
             use_preference_spans=self._source_schema.has_preference_spans,
         )
 
-    def _prepare_sample(self, sample: dict[str, typing.Any]) -> LanguageModelSample:
+    def _prepare_sample(self, sample: dict[str, typing.Any]) -> LanguageModelDocument:
         token_spans_by_type = collections.defaultdict(list)
         image_patches = image_token_maps = image_position_ids = patch_counts = None
 
@@ -332,28 +332,33 @@ def _prepare_sample(self, sample: dict[str, typing.Any]) -> LanguageModelSample:
         else:
             raise NotImplementedError(f"Unsupported source schema type: {type(self._source_schema)}")
 
-        sample_size = len(tokens)
+        len(tokens)
 
-        return LanguageModelSample(
-            TokenSample(tokens, [sample_size]),
-            (
-                RangeSample(token_spans_by_type[SpanType.loss_masking], sample_size)
+        return LanguageModelDocument(
+            tokens=TokenDocument(tokens=tokens),
+            loss_masking_spans=(
+                RangeDocument(ranges=token_spans_by_type[SpanType.loss_masking])
                 if self._source_schema.has_loss_masking_span
                 else None
             ),
-            (
-                RangeSample(token_spans_by_type[SpanType.chosen], sample_size)
+            chosen_spans=(
+                RangeDocument(ranges=token_spans_by_type[SpanType.chosen])
                 if self._source_schema.has_preference_spans
                 else None
             ),
-            (
+            rejected_spans=(
                 # `tokenize_with_spans` excludes the final eod token from the rejected span, but we want to include it.
-                RangeSample([(begin, end + 1) for begin, end in token_spans_by_type[SpanType.rejected]], sample_size)
+                RangeDocument(ranges=[(begin, end + 1) for begin, end in token_spans_by_type[SpanType.rejected]])
                 if self._source_schema.has_preference_spans
                 else None
             ),
-            (
-                PatchSample(image_patches, image_token_maps, image_position_ids, sample_size, patch_counts)
+            image_patches=(
+                PatchDocument(
+                    patches=image_patches,
+                    token_map=image_token_maps,
+                    positions=image_position_ids,
+                    lengths=patch_counts,
+                )
                 if self._source_schema.has_images
                 else None
             ),
diff --git a/fast_llm/data/sample/abstract.py b/fast_llm/data/sample/abstract.py
deleted file mode 100644
index c5dcf165e..000000000
--- a/fast_llm/data/sample/abstract.py
+++ /dev/null
@@ -1,270 +0,0 @@
-import abc
-import io
-import pathlib
-import typing
-
-from fast_llm.config import Config, Configurable, Field, config_class
-from fast_llm.data.preprocessing.abstract import NullPreprocessingConfig, PreprocessingConfig
-from fast_llm.utils import Assert
-
-if typing.TYPE_CHECKING:
-    import torch
-
-
-class Sample(abc.ABC):
-    @classmethod
-    @abc.abstractmethod
-    def from_documents(cls, documents: typing.Iterable[typing.Self]) -> typing.Self:
-        pass
-
-    @abc.abstractmethod
-    def crop(self, begin: int, end: int) -> typing.Self:
-        pass
-
-    @abc.abstractmethod
-    def __len__(self) -> int:
-        pass
-
-    @abc.abstractmethod
-    def get_padding(self, size: int) -> typing.Self:
-        pass
-
-    def to_device_(self, device: "torch.device | str"):
-        pass
-
-
-class Batch(abc.ABC):
-    # TODO: Relate to `BatchConfig`?
-    @classmethod
-    @abc.abstractmethod
-    def from_samples(cls, samples: typing.Iterable[Sample]) -> typing.Self:
-        pass
-
-    @abc.abstractmethod
-    def crop(self, begin: int, end: int) -> typing.Self:
-        pass
-
-    def to_device_(self, device: "torch.device | str"):
-        pass
-
-
-@config_class(registry=True)
-class MemmapReaderBaseConfig(Config):
-    """
-    Configuration for a memmap reader or reader-like object.
-    Note: `MemmapDataset` requires a `MemmapIndexedDatasetReader`.
-      Other readers need to be nested within a `MemmapIndexedDatasetReader`
-    Note: Reader configs are not typical configs, and do not need to be located in a separate `config.py` file.
-    """
-
-    _abstract = True
-
-    @classmethod
-    def _from_dict(cls, default: dict[str, typing.Any], strict: bool = True) -> typing.Self:
-        if cls is MemmapReaderBaseConfig and cls.get_subclass(default.get("type")) is None:
-            # Default subclass, necessary for loading configs where some components could be absent.
-            return NullReaderConfig._from_dict(default, strict)
-        return super()._from_dict(default, strict=strict)
-
-    def get_reader(self, buffer: memoryview) -> "MemmapReader|None":
-        raise NotImplementedError()
-
-    @property
-    def expected_buffer_size(self) -> int:
-        """
-        The expected buffer size in bytes, including header and footer. Used for self-validation.
-        """
-        raise NotImplementedError()
-
-    def get_metadata(self) -> dict[str, typing.Any]:
-        raise NotImplementedError()
-
-    @classmethod
-    def blend_metadata(cls, metadata: list[dict[str, typing.Any]]) -> dict[str, typing.Any]:
-        raise NotImplementedError()
-
-
-@config_class(dynamic_type={MemmapReaderBaseConfig: "none"})
-class NullReaderConfig(MemmapReaderBaseConfig):
-    """
-    Configuration for a dynamically disabled reader.
-    """
-
-    _abstract = False
-
-    def get_reader(self, buffer: memoryview) -> None:
-        return None
-
-    @property
-    def expected_buffer_size(self) -> int:
-        return 0
-
-
-@config_class(registry=True)
-class MemmapReaderConfig(MemmapReaderBaseConfig):
-    """
-    Configuration for a standard memmap reader.
-    """
-
-    # Data location in the file.
-    begin: int = Field()
-    end: int = Field()
-    # Constant strings for alignment safety.
-    header: typing.ClassVar[bytes]
-    footer: typing.ClassVar[bytes]
-    # Additional information about how the dataset was prepared.
-    preprocessing: PreprocessingConfig = Field()
-
-    @property
-    def reader_class(self) -> "type[MemmapReader]":
-        raise NotImplementedError()
-
-    def get_reader(self, buffer: memoryview, model_preprocessing: PreprocessingConfig | None = None) -> "MemmapReader":
-        return self.reader_class(self, buffer, model_preprocessing)
-
-    @property
-    def expected_buffer_size(self) -> int:
-        """
-        The expected buffer size in bytes, including header and footer. Used for self-validation.
-        """
-        return self._expected_buffer_size + len(self.header) + len(self.footer)
-
-    @property
-    def _expected_buffer_size(self) -> int:
-        """
-        The expected buffer size in bytes, excluding header and footer. Used for self-validation.
-        """
-        raise NotImplementedError()
-
-    @property
-    def writer_class(self) -> "type[MemmapWriter]":
-        raise NotImplementedError()
-
-    def get_writer(self, stream: io.BufferedWriter) -> "MemmapWriter":
-        return self.writer_class(stream)
-
-    def _validate(self):
-        super()._validate()
-        Assert.eq(self.end - self.begin, self.expected_buffer_size)
-
-
-@config_class()
-class MemmapIndexDatasetReaderConfig(MemmapReaderConfig):
-    """
-    Configuration for a standard memmap reader matching the indexed dataset interface, i.e.,
-    consisting of a list of documents of known lengths.
-    """
-
-    def __len__(self) -> int:
-        raise NotImplementedError()
-
-    @property
-    def num_tokens(self) -> int:
-        raise NotImplementedError()
-
-    @property
-    def reader_class(self) -> "type[MemmapIndexedDatasetReader]":
-        raise NotImplementedError()
-
-    def get_reader(self, buffer: memoryview, model_preprocessing: PreprocessingConfig) -> "MemmapIndexedDatasetReader":
-        return self.reader_class(self, buffer, model_preprocessing)
-
-    def get_metadata(self) -> dict[str, typing.Any]:
-        return {"num_tokens": self.num_tokens}
-
-    @classmethod
-    def blend_metadata(cls, metadata: list[dict[str, typing.Any]]) -> dict[str, typing.Any]:
-        return {"num_tokens": sum(metadata_["num_tokens"] for metadata_ in metadata)}
-
-
-class MemmapReaderBase[ConfigType: MemmapReaderBaseConfig](Configurable[ConfigType]):
-    @abc.abstractmethod
-    def get_document(self, index: int, begin: int, end: int) -> Sample:
-        pass
-
-
-class MemmapReader[ConfigType: MemmapReaderConfig](MemmapReaderBase[ConfigType]):
-    def __init__(self, config: ConfigType, buffer: memoryview, model_preprocessing: PreprocessingConfig | None = None):
-        super().__init__(config)
-        # Note: This is the requirement at reading time (ex. from the model),
-        # which may differ from how the dataset was actually preprocessed (`config.preprocessing`)
-        # Compatibility checked in `MemmapDataset`.
-        self._model_preprocessing = NullPreprocessingConfig if model_preprocessing is None else model_preprocessing
-        buffer_begin = self._config.begin + len(self._config.header)
-        buffer_end = self._config.end - len(self._config.footer)
-        Assert.eq(buffer[self._config.begin : buffer_begin].tobytes(), self._config.header)
-        Assert.eq(buffer[buffer_end : self._config.end].tobytes(), self._config.footer)
-        self._buffer = buffer[buffer_begin:buffer_end]
-
-
-class MemmapIndexedDatasetReader[ConfigType: MemmapIndexDatasetReaderConfig](MemmapReader[ConfigType]):
-    def __len__(self) -> int:
-        return len(self._config)
-
-    @property
-    def num_tokens(self) -> int:
-        return self._config.num_tokens
-
-    @abc.abstractmethod
-    def get_document_sizes(self) -> "torch.Tensor":
-        pass
-
-    @abc.abstractmethod
-    def get_document_size(self, index: int) -> int:
-        pass
-
-    def get_split(self, begin_ratio: float, end_ratio: float) -> tuple[int, int, dict[str, typing.Any]]:
-        raise NotImplementedError()
-
-
-class MemmapWriter(abc.ABC):
-    def __init__(
-        self, stream: io.BufferedWriter | pathlib.Path, preprocessing_config: PreprocessingConfig | None = None
-    ):
-        self._owns_stream = isinstance(stream, pathlib.Path)
-        if self._owns_stream:
-            stream = stream.open("wb")
-        self._stream = stream
-        self._preprocessing_config = (
-            NullPreprocessingConfig() if preprocessing_config is None else preprocessing_config
-        )
-
-    def __enter__(self):
-        self._begin = self._stream.tell()
-        self._stream.write(self._get_config_class().header)
-        return self
-
-    def write(self, document: Sample):
-        assert hasattr(self, "_begin") and not hasattr(self, "_end")
-
-    def __exit__(self, exc_type, exc_val, exc_tb):
-        if exc_type is None:
-            self._stream.write(self._get_config_class().footer)
-            self._end = self._stream.tell()
-        if self._owns_stream:
-            self._stream.close()
-
-    @classmethod
-    @abc.abstractmethod
-    def _get_config_class(cls) -> type[MemmapReaderConfig]:
-        pass
-
-    def get_config(self, offset: int = 0) -> MemmapReaderConfig:
-        assert hasattr(self, "_end")
-        return self._get_config(self._begin + offset, self._end + offset)
-
-    @abc.abstractmethod
-    def _get_config(self, begin: int, end: int):
-        pass
-
-    @classmethod
-    def write_dataset(
-        cls,
-        stream: io.BufferedWriter,
-        documents: typing.Iterable[Sample],
-        preprocessing_config: PreprocessingConfig | None = None,
-    ) -> MemmapReaderConfig:
-        with cls(stream, preprocessing_config) as writer:
-            for document in documents:
-                writer.write(document)
-        return writer.get_config()
diff --git a/fast_llm/data/sample/language_model.py b/fast_llm/data/sample/language_model.py
deleted file mode 100644
index db7e89d87..000000000
--- a/fast_llm/data/sample/language_model.py
+++ /dev/null
@@ -1,511 +0,0 @@
-import io
-import logging
-import pathlib
-import tempfile
-import typing
-import warnings
-
-import torch
-
-from fast_llm.config import Field, config_class
-from fast_llm.data.preprocessing.abstract import NullPreprocessingConfig
-from fast_llm.data.preprocessing.image_patch import ImageNormalizationConfig, ImagePatchConfig
-from fast_llm.data.preprocessing.language_model import LanguageModelPreprocessingConfig
-from fast_llm.data.sample.abstract import (
-    Batch,
-    MemmapIndexDatasetReaderConfig,
-    MemmapIndexedDatasetReader,
-    MemmapReaderBaseConfig,
-    MemmapWriter,
-    NullReaderConfig,
-    Sample,
-)
-from fast_llm.data.sample.patch import (
-    EmptyPatchReader,
-    PatchBatch,
-    PatchReader,
-    PatchReaderBaseConfig,
-    PatchReaderConfig,
-    PatchSample,
-    PatchWriter,
-)
-from fast_llm.data.sample.range import (
-    EmptyRangeReader,
-    RangeBatch,
-    RangeReader,
-    RangeReaderBaseConfig,
-    RangeReaderConfig,
-    RangeSample,
-    RangeWriter,
-)
-from fast_llm.data.sample.token import TokenBatch, TokenReaderConfig, TokenSample, TokenWriter
-from fast_llm.engine.config_utils.data_type import DataType
-from fast_llm.utils import Assert
-
-logger = logging.getLogger(__name__)
-
-
-class LanguageModelSample(Sample):
-    def __init__(
-        self,
-        tokens: TokenSample,
-        loss_masking_spans: RangeSample | None = None,
-        chosen_spans: RangeSample | None = None,
-        rejected_spans: RangeSample | None = None,
-        image_patches: PatchSample | None = None,
-    ):
-        self.tokens = tokens
-        self.loss_masking_spans = loss_masking_spans
-        self.chosen_spans = chosen_spans
-        self.rejected_spans = rejected_spans
-        self.image_patches = image_patches
-
-    @classmethod
-    def from_documents(cls, documents: typing.Iterable[typing.Self]) -> typing.Self:
-        return cls(
-            TokenSample.from_documents([document.tokens for document in documents]),
-            _merge_optional(RangeSample.from_documents, [document.loss_masking_spans for document in documents]),
-            _merge_optional(RangeSample.from_documents, [document.chosen_spans for document in documents]),
-            _merge_optional(RangeSample.from_documents, [document.rejected_spans for document in documents]),
-            _merge_optional(PatchSample.from_documents, [document.image_patches for document in documents]),
-        )
-
-    def crop(self, begin: int, end: int) -> typing.Self:
-        return self.__class__(
-            self.tokens.crop(begin, end),
-            _crop_optional(self.loss_masking_spans, begin, end),
-            _crop_optional(self.chosen_spans, begin, end),
-            _crop_optional(self.rejected_spans, begin, end),
-            _crop_optional(self.image_patches, begin, end),
-        )
-
-    def __len__(self) -> int:
-        return len(self.tokens)
-
-    def get_padding(self, size: int) -> typing.Self:
-        return LanguageModelSample(
-            self.tokens.get_padding(size),
-            None if self.loss_masking_spans is None else self.loss_masking_spans.get_padding(size),
-            None if self.chosen_spans is None else self.chosen_spans.get_padding(size),
-            None if self.rejected_spans is None else self.rejected_spans.get_padding(size),
-            None if self.image_patches is None else self.image_patches.get_padding(size),
-        )
-
-    def to_device_(self, device: "torch.device | str"):
-        self.tokens.to_device_(device)
-        if self.loss_masking_spans is not None:
-            self.loss_masking_spans.to_device_(device)
-        if self.chosen_spans is not None:
-            self.chosen_spans.to_device_(device)
-        if self.rejected_spans is not None:
-            self.rejected_spans.to_device_(device)
-        if self.image_patches is not None:
-            self.image_patches.to_device_(device)
-
-
-class LanguageModelBatch(Batch):
-    def __init__(
-        self,
-        tokens: TokenBatch,
-        loss_masking_spans: RangeBatch | None = None,
-        chosen_spans: RangeBatch | None = None,
-        rejected_spans: RangeBatch | None = None,
-        image_patches: PatchBatch | None = None,
-    ):
-        self.tokens = tokens
-        self.loss_masking_spans = loss_masking_spans
-        self.chosen_spans = chosen_spans
-        self.rejected_spans = rejected_spans
-        self.image_patches = image_patches
-
-    @classmethod
-    def from_samples(cls, samples: typing.Iterable[LanguageModelSample]) -> typing.Self:
-        return cls(
-            TokenBatch.from_samples([sample.tokens for sample in samples]),
-            _merge_optional(RangeBatch.from_samples, [sample.loss_masking_spans for sample in samples]),
-            _merge_optional(RangeBatch.from_samples, [sample.chosen_spans for sample in samples]),
-            _merge_optional(RangeBatch.from_samples, [sample.rejected_spans for sample in samples]),
-            _merge_optional(PatchBatch.from_samples, [sample.image_patches for sample in samples]),
-        )
-
-    def crop(self, begin: int, end: int) -> typing.Self:
-        return self.__class__(
-            self.tokens.crop(begin, end),
-            _crop_optional(self.loss_masking_spans, begin, end),
-            _crop_optional(self.chosen_spans, begin, end),
-            _crop_optional(self.rejected_spans, begin, end),
-            _crop_optional(self.image_patches, begin, end),
-        )
-
-    def to_device_(self, device: "torch.device | str"):
-        self.tokens.to_device_(device)
-        if self.loss_masking_spans is not None:
-            self.loss_masking_spans.to_device_(device)
-        if self.chosen_spans is not None:
-            self.chosen_spans.to_device_(device)
-        if self.rejected_spans is not None:
-            self.rejected_spans.to_device_(device)
-        if self.image_patches is not None:
-            self.image_patches.to_device_(device)
-
-
-def _merge_optional[T](fn: typing.Callable[[typing.Iterable], T], args: typing.Iterable) -> T | None:
-    return None if any(arg is None for arg in args) else fn(args)
-
-
-def _crop_optional[T: Sample | Batch](sample_or_batch: T, begin: int, end: int) -> T | None:
-    return None if sample_or_batch is None else sample_or_batch.crop(begin, end)
-
-
-@config_class(dynamic_type={MemmapReaderBaseConfig: "language_model"})
-class LanguageModelReaderConfig(MemmapIndexDatasetReaderConfig):
-    _abstract = False
-    header: typing.ClassVar[bytes] = b"lm begin"
-    footer: typing.ClassVar[bytes] = b"lm end"
-    tokens: TokenReaderConfig = Field()
-    # Using dynamic type for optional readers for enabling/disabling
-    loss_masking_spans: MemmapReaderBaseConfig = Field()
-    chosen_spans: MemmapReaderBaseConfig = Field()
-    rejected_spans: MemmapReaderBaseConfig = Field()
-    image_patches: MemmapReaderBaseConfig = Field()
-
-    def _validate(self) -> None:
-        super()._validate()
-        if isinstance(self.preprocessing, NullPreprocessingConfig):
-            # Address missing config, mostly for backward compatibility.
-            # TODO: We can't tell which dataset this comes from.
-            logger.warning(
-                f"Preprocessing configuration not specified for dataset reader, generating partial configuration from known parameters."
-            )
-            if isinstance(self.image_patches, PatchReaderConfig):
-                Assert.eq(len(patch_shape := self.image_patches.patch_shape), 3)
-                image_patches = ImagePatchConfig(height=patch_shape[1], width=patch_shape[2])
-            else:
-                image_patches = NullPreprocessingConfig()
-            self.preprocessing = LanguageModelPreprocessingConfig(
-                image_patches=image_patches,
-                use_loss_masking_spans=isinstance(self.loss_masking_spans, RangeReaderConfig),
-                use_preference_spans=isinstance(self.chosen_spans, RangeReaderConfig),
-            )
-        # TODO: Avoid duplicated information.
-        Assert.custom(
-            isinstance,
-            self.loss_masking_spans,
-            RangeReaderConfig if self.preprocessing.use_loss_masking_spans else NullReaderConfig,
-        )
-        Assert.custom(
-            isinstance,
-            self.chosen_spans,
-            RangeReaderConfig if self.preprocessing.use_preference_spans else NullReaderConfig,
-        )
-        Assert.custom(
-            isinstance,
-            self.rejected_spans,
-            RangeReaderConfig if self.preprocessing.use_preference_spans else NullReaderConfig,
-        )
-        if self.preprocessing.use_image_patches:
-            Assert.custom(isinstance, self.image_patches, PatchReaderConfig)
-            Assert.eq(self.image_patches.patch_shape, self.preprocessing.image_patches.patch_shape)
-            Assert.eq(self.image_patches.data_type, DataType.uint8)
-        else:
-            Assert.custom(isinstance, self.image_patches, NullReaderConfig)
-
-    def __len__(self) -> int:
-        return len(self.tokens)
-
-    @property
-    def num_tokens(self) -> int:
-        return self.tokens.num_tokens
-
-    @property
-    def reader_class(self) -> "type[LanguageModelReader]":
-        return LanguageModelReader
-
-    @property
-    def writer_class(self) -> "type[LanguageModelWriter]":
-        return LanguageModelWriter
-
-    @property
-    def _expected_buffer_size(self) -> int:
-        return (
-            self.tokens.expected_buffer_size
-            + self.loss_masking_spans.expected_buffer_size
-            + self.chosen_spans.expected_buffer_size
-            + self.rejected_spans.expected_buffer_size
-            + self.image_patches.expected_buffer_size
-        )
-
-    def get_metadata(self) -> dict[str, typing.Any]:
-        out = super().get_metadata()
-        out["tokens"] = self.tokens.get_metadata()
-        if not isinstance(self.loss_masking_spans, NullReaderConfig):
-            out["loss_masking_spans"] = self.loss_masking_spans.get_metadata()
-        if not isinstance(self.chosen_spans, NullReaderConfig):
-            out["chosen_spans"] = self.chosen_spans.get_metadata()
-        if not isinstance(self.rejected_spans, NullReaderConfig):
-            out["rejected_spans"] = self.rejected_spans.get_metadata()
-        if not isinstance(self.image_patches, NullReaderConfig):
-            out["image_patches"] = self.image_patches.get_metadata()
-        return out
-
-    @classmethod
-    def blend_metadata(cls, metadata: list[dict[str, typing.Any]]) -> dict[str, typing.Any]:
-        out = super().blend_metadata(metadata)
-        out["tokens"] = TokenReaderConfig.blend_metadata([metadata_["tokens"] for metadata_ in metadata])
-        if "loss_masking_spans" in metadata[0]:
-            out["loss_masking_spans"] = RangeReaderConfig.blend_metadata(
-                [metadata_["loss_masking_spans"] for metadata_ in metadata]
-            )
-        if "chosen_spans" in metadata[0]:
-            out["chosen_spans"] = RangeReaderConfig.blend_metadata(
-                [metadata_["chosen_spans"] for metadata_ in metadata]
-            )
-        if "rejected_spans" in metadata[0]:
-            out["image_patches"] = RangeReaderConfig.blend_metadata(
-                [metadata_["image_patches"] for metadata_ in metadata]
-            )
-        if "image_patches" in metadata[0]:
-            out["image_patches"] = PatchReaderConfig.blend_metadata(
-                [metadata_["image_patches"] for metadata_ in metadata]
-            )
-        return out
-
-
-class LanguageModelReader[ConfigType: LanguageModelReaderConfig](MemmapIndexedDatasetReader[ConfigType]):
-    _model_preprocessing: LanguageModelPreprocessingConfig
-
-    def __init__(
-        self,
-        config: ConfigType,
-        buffer: memoryview,
-        model_preprocessing: LanguageModelPreprocessingConfig | None = None,
-    ):
-        super().__init__(config, buffer, model_preprocessing)
-        self._config.preprocessing.check_compatibility(self._model_preprocessing)
-        # Using `buffer` and not `self._buffer` because nested offsets (`begin`, `end`) are global.
-        self._tokens = self._config.tokens.get_reader(buffer)
-
-        if self._model_preprocessing.use_loss_masking_spans:
-            if isinstance(self._config.loss_masking_spans, NullReaderConfig):
-                # TODO: We can't tell which dataset this comes from.
-                warnings.warn(
-                    f"The model uses loss masking spans, but the dataset does not specify any."
-                    " Assuming empty span lists."
-                )
-                # TODO: this might have the same issue as empty PatchReaderConfig, so RangeReaderConfig.create_empty might be needed
-                self._loss_masking_spans = EmptyRangeReader(RangeReaderBaseConfig())
-            else:
-                self._loss_masking_spans = self._config.loss_masking_spans.get_reader(buffer)
-
-        if self._model_preprocessing.use_preference_spans:
-            self._chosen_spans = self._config.chosen_spans.get_reader(buffer)
-            self._rejected_spans = self._config.rejected_spans.get_reader(buffer)
-
-        if self._model_preprocessing.use_image_patches:
-            model_image_preprocessing: ImagePatchConfig = self._model_preprocessing.image_patches
-            if isinstance(self._config.image_patches, NullReaderConfig):
-                warnings.warn(
-                    f"The model uses image patches, but the dataset does not specify any."
-                    " Assuming empty patch lists."
-                )
-                self._image_patches = EmptyPatchReader(
-                    PatchReaderBaseConfig(patch_shape=model_image_preprocessing.patch_shape, data_type=DataType.uint8),
-                )
-            else:
-                self._image_patches = self._config.image_patches.get_reader(buffer)
-
-            # TODO: Make this configurable. (Add to `model_preprocessing`?)
-            self._image_normalization_config = ImageNormalizationConfig()
-
-    @property
-    def num_tokens(self) -> int:
-        return self._config.tokens.num_tokens
-
-    def get_document(self, index: int, begin: int, end: int) -> Sample:
-        if self._model_preprocessing.use_image_patches:
-            image_patches = self._image_patches.get_document(index, begin, end)
-            image_patches.patches = self._image_normalization_config.normalize(image_patches.patches)
-        else:
-            image_patches = None
-        return LanguageModelSample(
-            self._tokens.get_document(index, begin, end),
-            (
-                self._loss_masking_spans.get_document(index, begin, end)
-                if self._model_preprocessing.use_loss_masking_spans
-                else None
-            ),
-            (
-                self._chosen_spans.get_document(index, begin, end)
-                if self._model_preprocessing.use_preference_spans
-                else None
-            ),
-            (
-                self._rejected_spans.get_document(index, begin, end)
-                if self._model_preprocessing.use_preference_spans
-                else None
-            ),
-            image_patches,
-        )
-
-    def get_document_sizes(self) -> torch.Tensor:
-        return self._tokens.get_document_sizes()
-
-    def get_document_size(self, index: int) -> int:
-        return self._tokens.get_document_size(index)
-
-    def get_split(self, begin_ratio: float, end_ratio: float) -> tuple[int, int, dict[str, typing.Any]]:
-        begin_index, end_index, token_metadata = self._tokens.get_split(begin_ratio, end_ratio)
-        metadata = {
-            "num_tokens": token_metadata["num_tokens"],
-            "tokens": token_metadata,
-        }
-        if hasattr(self, "_loss_masking_spans") and isinstance(self._loss_masking_spans, RangeReader):
-            metadata["loss_masking_spans"] = self._loss_masking_spans.get_split(begin_index, end_index)
-        if hasattr(self, "_chosen_spans") and isinstance(self._chosen_spans, RangeReader):
-            metadata["chosen_spans"] = self._chosen_spans.get_split(begin_index, end_index)
-        if hasattr(self, "_rejected_spans") and isinstance(self._rejected_spans, RangeReader):
-            metadata["rejected_spans"] = self._rejected_spans.get_split(begin_index, end_index)
-        if hasattr(self, "_image_patches") and isinstance(self._image_patches, PatchReader):
-            metadata["image_patches"] = self._image_patches.get_split(begin_index, end_index)
-
-        return begin_index, end_index, metadata
-
-
-class LanguageModelWriter(MemmapWriter):
-    _preprocessing_config: LanguageModelPreprocessingConfig
-
-    def __enter__(self):
-        super().__enter__()
-        self._size_cumsum = [0]
-        self._data_type = None
-
-        self._directory = tempfile.TemporaryDirectory()
-        self._path = pathlib.Path(self._directory.name)
-        # We write intermediate results in separate files so we don't need to iterate over the dataset multiple times.
-        self._token_writer = TokenWriter(self._path.joinpath("tokens")).__enter__()
-        if self._preprocessing_config.use_loss_masking_spans:
-            self._loss_masking_span_writer = RangeWriter(self._path.joinpath("loss_masking_spans")).__enter__()
-        if self._preprocessing_config.use_preference_spans:
-            self._chosen_spans_writer = RangeWriter(self._path.joinpath("chosen_spans")).__enter__()
-            self._rejected_spans_writer = RangeWriter(self._path.joinpath("rejected_spans")).__enter__()
-        if self._preprocessing_config.use_image_patches:
-            self._image_patches_writer = PatchWriter(self._path.joinpath("image_patches")).__enter__()
-        return self
-
-    def write(self, document: LanguageModelSample):
-        super().write(document)
-        # Write tokens.
-        self._token_writer.write(document.tokens)
-
-        # Write loss masking spans.
-        if self._preprocessing_config.use_loss_masking_spans:
-            assert document.loss_masking_spans is not None
-            self._loss_masking_span_writer.write(document.loss_masking_spans)
-
-        # Write preference spans.
-        if self._preprocessing_config.use_preference_spans:
-            assert document.chosen_spans is not None
-            assert document.rejected_spans is not None
-            self._chosen_spans_writer.write(document.chosen_spans)
-            self._rejected_spans_writer.write(document.rejected_spans)
-
-        # Write image patches
-        if self._preprocessing_config.use_image_patches:
-            assert document.image_patches is not None
-            self._image_patches_writer.write(document.image_patches)
-
-    def __exit__(self, exc_type, exc_val, exc_tb):
-        self._token_writer.__exit__(exc_type, exc_val, exc_tb)
-        if self._preprocessing_config.use_loss_masking_spans:
-            self._loss_masking_span_writer.__exit__(exc_type, exc_val, exc_tb)
-        if self._preprocessing_config.use_preference_spans:
-            self._chosen_spans_writer.__exit__(exc_type, exc_val, exc_tb)
-            self._rejected_spans_writer.__exit__(exc_type, exc_val, exc_tb)
-        if self._preprocessing_config.use_image_patches:
-            self._image_patches_writer.__exit__(exc_type, exc_val, exc_tb)
-
-        if exc_type is None:
-            # A dummy config so we can verify the begin and end offsets.
-            config = self._get_config(self._begin, None)
-            _copy_chunked(self._path.joinpath("tokens"), self._stream, config.tokens.begin, config.tokens.end)
-
-            if self._preprocessing_config.use_loss_masking_spans:
-                _copy_chunked(
-                    self._path.joinpath("loss_masking_spans"),
-                    self._stream,
-                    config.loss_masking_spans.begin,
-                    config.loss_masking_spans.end,
-                )
-            if self._preprocessing_config.use_preference_spans:
-                _copy_chunked(
-                    self._path.joinpath("chosen_spans"),
-                    self._stream,
-                    config.chosen_spans.begin,
-                    config.chosen_spans.end,
-                )
-                _copy_chunked(
-                    self._path.joinpath("rejected_spans"),
-                    self._stream,
-                    config.rejected_spans.begin,
-                    config.rejected_spans.end,
-                )
-
-            if self._preprocessing_config.use_image_patches:
-                _copy_chunked(
-                    self._path.joinpath("image_patches"),
-                    self._stream,
-                    config.image_patches.begin,
-                    config.image_patches.end,
-                )
-
-        self._directory.cleanup()
-        super().__exit__(exc_type, exc_val, exc_tb)
-
-    @classmethod
-    def _get_config_class(cls) -> type[LanguageModelReaderConfig]:
-        return LanguageModelReaderConfig
-
-    def _get_config(self, begin: int, end: int | None):
-        tokens = self._token_writer.get_config(begin + len(LanguageModelReaderConfig.header))
-        offset = tokens.end
-        if self._preprocessing_config.use_loss_masking_spans:
-            loss_masking_spans = self._loss_masking_span_writer.get_config(offset)
-            offset = loss_masking_spans.end
-        else:
-            loss_masking_spans = NullReaderConfig()
-        if self._preprocessing_config.use_preference_spans:
-            chosen_spans = self._chosen_spans_writer.get_config(offset)
-            offset = chosen_spans.end
-            rejected_spans = self._rejected_spans_writer.get_config(offset)
-            offset = rejected_spans.end
-        else:
-            chosen_spans = NullReaderConfig()
-            rejected_spans = NullReaderConfig()
-        if self._preprocessing_config.use_image_patches:
-            image_patches = self._image_patches_writer.get_config(offset)
-            offset = image_patches.end
-        else:
-            image_patches = NullReaderConfig()
-
-        if end is None:
-            end = offset + len(LanguageModelReaderConfig.footer)
-
-        return LanguageModelReaderConfig(
-            begin=begin,
-            end=end,
-            tokens=tokens,
-            loss_masking_spans=loss_masking_spans,
-            chosen_spans=chosen_spans,
-            rejected_spans=rejected_spans,
-            image_patches=image_patches,
-            preprocessing=self._preprocessing_config,
-        )
-
-
-def _copy_chunked(path: pathlib.Path, stream: io.BufferedWriter, expected_begin: int, expected_end: int):
-    # Copy temporary file content in chunks of 100 MB.
-    Assert.eq(stream.tell(), expected_begin)
-    with path.open("rb") as input_stream:
-        while data := input_stream.read(100000000):
-            stream.write(data)
-    Assert.eq(stream.tell(), expected_end)
diff --git a/fast_llm/data/sample/patch.py b/fast_llm/data/sample/patch.py
deleted file mode 100644
index 0be91f0c8..000000000
--- a/fast_llm/data/sample/patch.py
+++ /dev/null
@@ -1,359 +0,0 @@
-import math
-import typing
-
-import numpy as np
-import torch
-
-from fast_llm.config import Field, config_class
-from fast_llm.data.preprocessing.abstract import PreprocessingConfig
-from fast_llm.data.sample.abstract import (
-    Batch,
-    MemmapReader,
-    MemmapReaderBase,
-    MemmapReaderBaseConfig,
-    MemmapReaderConfig,
-    MemmapWriter,
-    Sample,
-)
-from fast_llm.engine.config_utils.data_type import DataType
-from fast_llm.utils import Assert, get_unique, padded_cumsum
-
-
-def filter_lengths(lengths: list[int], filter: torch.Tensor) -> list[int]:
-    length_cumsum = padded_cumsum(lengths)
-    filtered_lengths = (filter[begin:end].sum().item() for begin, end in zip(length_cumsum[:-1], length_cumsum[1:]))
-    return [length for length in filtered_lengths if length > 0]
-
-
-class PatchSample(Sample):
-    """
-    A reusable component holding a set of fixed-shape patches (ex. images, audio, video),
-    each of which providing a single token embedding in a multimodal model.
-    """
-
-    def __init__(
-        self,
-        patches: torch.Tensor,
-        token_map: torch.Tensor,
-        positions: torch.Tensor,
-        sample_size: int,
-        lengths: list[int] | None = None,
-    ):
-        # Tensor of dimensions (patch, *patch_shape)
-        self.patches = patches
-        # Mapping from patch to token index
-        self.token_map = token_map
-        # A position identifier for each patch in the patch grid.
-        Assert.eq(positions.shape, (self.patches.size(0), self.patches.ndim - 2))
-        self.positions = positions
-        # Number of tokens in the sample (not the number of patches)
-        self.sample_size = sample_size
-        # Length of each patch group (ex. image) in the sample. TODO: Use cumsums instead?
-        if lengths is None:
-            lengths = [len(patches)]
-        else:
-            Assert.eq(sum(lengths), len(patches))
-        self.lengths = lengths
-
-    @classmethod
-    def from_documents(cls, documents: typing.Iterable[typing.Self]) -> typing.Self:
-        total_size = 0
-        embedding_maps = []
-        for document in documents:
-            embedding_maps.append(document.token_map + total_size)
-            total_size += document.sample_size
-        return cls(
-            torch.cat([document.patches for document in documents]),
-            torch.cat(embedding_maps),
-            torch.cat([document.positions for document in documents]),
-            total_size,
-            sum((document.lengths for document in documents), []),
-        )
-
-    def crop(self, begin: int, end: int) -> typing.Self:
-        sample_size = end - begin
-        patch_filter = (self.token_map >= begin) & (self.token_map < end)
-        return self.__class__(
-            self.patches[patch_filter],
-            self.token_map[patch_filter] - begin,
-            self.positions[patch_filter],
-            sample_size,
-            filter_lengths(self.lengths, patch_filter),
-        )
-
-    def __len__(self) -> int:
-        return self.sample_size
-
-    def get_padding(self, size: int) -> typing.Self:
-        return self.__class__(
-            self.patches.new_empty((0, *self.patches.shape[1:])),
-            self.token_map.new_empty(0),
-            self.positions.new_empty([0, self.patches.ndim - 2]),
-            size,
-            [],
-        )
-
-    def to_device_(self, device: "torch.device | str"):
-        self.patches = self.patches.to(device, non_blocking=True)
-        self.token_map = self.token_map.to(device, non_blocking=True)
-        self.positions = self.positions.to(device, non_blocking=True)
-
-
-class PatchBatch(Batch):
-    def __init__(
-        self,
-        patches: torch.Tensor,
-        sample_map: torch.Tensor,
-        token_map: torch.Tensor,
-        positions: torch.Tensor,
-        num_samples: int,
-        sample_size: int,
-        lengths: list[int],
-    ):
-        # Concatenated along patch index rather than stacked since the lengths are not constant
-        self.patches = patches
-        # Mapping from patch to sample index
-        self.sample_map = sample_map
-        self.token_map = token_map
-        self.positions = positions
-        self.num_samples = num_samples
-        self.sample_size = sample_size
-        self.lengths = lengths
-
-    @classmethod
-    def from_samples(cls, samples: typing.Sequence[PatchSample]) -> typing.Self:
-        return cls(
-            torch.cat([sample.patches for sample in samples]),
-            torch.cat(
-                [torch.full_like(sample.token_map, sample_index) for sample_index, sample in enumerate(samples)]
-            ),
-            torch.cat([sample.token_map for sample in samples]),
-            torch.cat([sample.positions for sample in samples]),
-            len(samples),
-            get_unique(sample.sample_size for sample in samples),
-            [length for sample in samples for length in sample.lengths],
-        )
-
-    def crop(self, begin: int, end: int) -> typing.Self:
-        sample_size = end - begin
-        patch_filter = (self.token_map >= begin) & (self.token_map < end)
-
-        return self.__class__(
-            self.patches[patch_filter],
-            self.sample_map[patch_filter],
-            self.token_map[patch_filter],
-            self.positions[patch_filter],
-            self.num_samples,
-            sample_size,
-            filter_lengths(self.lengths, patch_filter),
-        )
-
-    def to_device_(self, device: "torch.device | str"):
-        self.patches = self.patches.to(device, non_blocking=True)
-        self.sample_map = self.sample_map.to(device, non_blocking=True)
-        self.token_map = self.token_map.to(device, non_blocking=True)
-        self.positions = self.positions.to(device, non_blocking=True)
-
-
-@config_class()
-class PatchReaderBaseConfig(MemmapReaderBaseConfig):
-    _abstract = False
-    patch_shape: tuple[int, ...] = Field()
-    data_type: DataType = Field()
-
-    @property
-    def patch_size(self) -> int:
-        return math.prod(self.patch_shape)
-
-    @property
-    def grid_dims(self) -> int:
-        return len(self.patch_shape) - 1
-
-
-@config_class(dynamic_type={MemmapReaderBaseConfig: "patch"})
-class PatchReaderConfig(PatchReaderBaseConfig, MemmapReaderConfig):
-    header: typing.ClassVar[bytes] = b"patch begin"
-    footer: typing.ClassVar[bytes] = b"patch end"
-    num_documents: int = Field()
-    num_patches: int = Field()
-    num_patch_groups: int = Field()
-
-    def __len__(self) -> int:
-        return self.num_documents
-
-    @property
-    def reader_class(self) -> "type[PatchReader]":
-        return PatchReader
-
-    @property
-    def writer_class(self) -> "type[PatchWriter]":
-        return PatchWriter
-
-    @property
-    def _expected_buffer_size(self) -> int:
-        return (
-            self.num_patches * self.patch_size * self.data_type.torch.itemsize
-            + ((1 + self.grid_dims) * self.num_patches + self.num_patch_groups + 2 * self.num_documents + 2)
-            * torch.int32.itemsize
-        )
-
-    def get_metadata(self) -> dict[str, typing.Any]:
-        return {
-            "num_documents": self.num_documents,
-            "num_patches": self.num_patches,
-            "num_patch_groups": self.num_patch_groups,
-            "num_pixels": self.patch_size * self.num_patches,
-            "patch_shape": self.patch_shape,
-            "data_type": str(self.data_type),
-        }
-
-    @classmethod
-    def blend_metadata(cls, metadata: list[dict[str, typing.Any]]) -> dict[str, typing.Any]:
-        return {
-            "num_documents": sum(metadata_["num_documents"] for metadata_ in metadata),
-            "num_patches": sum(metadata_["num_patches"] for metadata_ in metadata),
-            "num_patch_groups": sum(metadata_["num_patch_groups"] for metadata_ in metadata),
-            "num_pixels": sum(metadata_["num_pixels"] for metadata_ in metadata),
-            "patch_shape": get_unique(metadata_["patch_shape"] for metadata_ in metadata),
-            "data_type": get_unique(metadata_["data_type"] for metadata_ in metadata),
-        }
-
-
-class PatchReader[ConfigType: PatchReaderConfig](MemmapReader[ConfigType]):
-    def __init__(self, config: ConfigType, buffer: memoryview, model_preprocessing: PreprocessingConfig | None = None):
-        super().__init__(config, buffer, model_preprocessing)
-        self._patches = torch.frombuffer(
-            self._buffer,
-            dtype=self._config.data_type.torch,
-            count=self._config.num_patches * self._config.patch_size,
-        ).view(self._config.num_patches, *self._config.patch_shape)
-        offset = self._patches.nbytes
-        self._token_map = torch.frombuffer(
-            self._buffer,
-            dtype=torch.int32,
-            count=self._config.num_patches,
-            offset=offset,
-        )
-        offset += self._token_map.nbytes
-        self._positions = torch.frombuffer(
-            self._buffer,
-            dtype=torch.int32,
-            count=self._config.num_patches * self._config.grid_dims,
-            offset=offset,
-        ).view(self._config.num_patches, self._config.grid_dims)
-        offset += self._positions.nbytes
-        self._patch_count_cumsums = torch.frombuffer(
-            self._buffer,
-            dtype=torch.int32,
-            count=self._config.num_documents + 1,
-            offset=offset,
-        )
-        offset += self._patch_count_cumsums.nbytes
-        self._group_lengths = torch.frombuffer(
-            self._buffer,
-            dtype=torch.int32,
-            count=self._config.num_patch_groups,
-            offset=offset,
-        )
-        offset += self._group_lengths.nbytes
-        self._group_count_cumsums = torch.frombuffer(
-            self._buffer,
-            dtype=torch.int32,
-            count=self._config.num_documents + 1,
-            offset=offset,
-        )
-
-    def get_document(self, index: int, begin: int, end: int) -> Sample:
-        token_map = self._token_map[
-            token_slice := slice(self._patch_count_cumsums[index], self._patch_count_cumsums[index + 1])
-        ]
-        patch_filter = (token_map >= begin) & (token_map < end)
-        return PatchSample(
-            self._patches[token_slice][patch_filter],
-            token_map[patch_filter] - begin,
-            self._positions[token_slice][patch_filter],
-            end - begin,
-            filter_lengths(
-                self._group_lengths[self._group_count_cumsums[index] : self._group_count_cumsums[index + 1]].tolist(),
-                patch_filter,
-            ),
-        )
-
-    def get_split(self, begin_index: int, end_index: int) -> dict[str, typing.Any]:
-        Assert.custom(lambda x: x == sorted(x), [0, begin_index, end_index, self._config.num_documents])
-        num_patches = self._patch_count_cumsums[end_index].item() - self._patch_count_cumsums[begin_index].item()
-        return {
-            "num_documents": end_index - begin_index,
-            "num_patches": num_patches,
-            "num_patch_groups": self._group_count_cumsums[end_index].item()
-            - self._group_count_cumsums[begin_index].item(),
-            "num_pixels": self._config.patch_size * num_patches,
-            "patch_shape": self._config.patch_shape,
-            "data_type": str(self._config.data_type),
-        }
-
-
-class EmptyPatchReader[ConfigType: PatchReaderBaseConfig](MemmapReaderBase[ConfigType]):
-    def get_document(self, index: int, begin: int, end: int) -> Sample:
-        return PatchSample(
-            torch.empty(0, *self._config.patch_shape, dtype=self._config.data_type.torch),
-            torch.empty(0, dtype=torch.int32),
-            torch.empty(0, self._config.grid_dims, dtype=torch.int32),
-            end - begin,
-        )
-
-
-class PatchWriter(MemmapWriter):
-    def __enter__(self):
-        super().__enter__()
-        self._patch_count_cumsum = [0]
-        self._group_count_cumsum = [0]
-        self._token_map = []
-        self._positions = []
-        self._group_lengths = []
-        self._data_type = None
-        self._patch_shape = None
-        return self
-
-    def write(self, document: PatchSample):
-        super().write(document)
-        if self._data_type is None:
-            self._data_type = document.patches.dtype
-        else:
-            Assert.eq(self._data_type, document.patches.dtype)
-        if self._patch_shape is None:
-            self._patch_shape = tuple(document.patches.shape[1:])
-        else:
-            Assert.eq(self._patch_shape, document.patches.shape[1:])
-        self._stream.write(document.patches.numpy().tobytes())
-        self._token_map.extend(document.token_map)
-        self._positions.extend(document.positions)
-        self._patch_count_cumsum.append(self._patch_count_cumsum[-1] + len(document.patches))
-        self._group_count_cumsum.append(self._group_count_cumsum[-1] + len(document.lengths))
-        self._group_lengths.extend(document.lengths)
-
-    def __exit__(self, exc_type, exc_val, exc_tb):
-        if exc_type is None:
-            Assert.lt(self._patch_count_cumsum[-1], np.iinfo(np.int32).max)
-            self._stream.write(np.array(self._token_map, dtype=np.int32).tobytes(order="C"))
-            self._stream.write(np.array(self._positions, dtype=np.int32).tobytes(order="C"))
-            self._stream.write(np.array(self._patch_count_cumsum, dtype=np.int32).tobytes(order="C"))
-            self._stream.write(np.array(self._group_lengths, dtype=np.int32).tobytes(order="C"))
-            self._stream.write(np.array(self._group_count_cumsum, dtype=np.int32).tobytes(order="C"))
-        super().__exit__(exc_type, exc_val, exc_tb)
-
-    @classmethod
-    def _get_config_class(cls) -> type[PatchReaderConfig]:
-        return PatchReaderConfig
-
-    def _get_config(self, begin: int, end: int):
-        return PatchReaderConfig(
-            begin=begin,
-            end=end,
-            num_documents=len(self._patch_count_cumsum) - 1,
-            num_patches=self._patch_count_cumsum[-1],
-            num_patch_groups=self._group_count_cumsum[-1],
-            patch_shape=self._patch_shape,
-            data_type=DataType.from_torch(self._data_type),
-            preprocessing=self._preprocessing_config,
-        )
diff --git a/fast_llm/data/sample/range.py b/fast_llm/data/sample/range.py
deleted file mode 100644
index f57ee04d9..000000000
--- a/fast_llm/data/sample/range.py
+++ /dev/null
@@ -1,173 +0,0 @@
-import typing
-
-import numpy as np
-import torch
-
-from fast_llm.config import Field, config_class
-from fast_llm.data.preprocessing.abstract import PreprocessingConfig
-from fast_llm.data.sample.abstract import (
-    Batch,
-    MemmapReader,
-    MemmapReaderBase,
-    MemmapReaderBaseConfig,
-    MemmapReaderConfig,
-    MemmapWriter,
-    Sample,
-)
-from fast_llm.utils import Assert, get_unique
-
-
-def crop_ranges(ranges: list[tuple[int, int]], begin: int, end: int) -> list[tuple[int, int]]:
-    cropped_ranges = ((max(begin_ - begin, 0), min(end_ - begin, end - begin)) for begin_, end_ in ranges)
-    return [(begin_, end_) for begin_, end_ in cropped_ranges if end_ > begin_]
-
-
-class RangeSample(Sample):
-    """
-    A reusable component holding a set of ranges in a sample.
-    """
-
-    def __init__(self, ranges: list[tuple[int, int]], sample_size: int):
-        self.ranges = ranges
-        self.sample_size = sample_size
-
-    @classmethod
-    def from_documents(cls, documents: typing.Iterable[typing.Self]) -> typing.Self:
-        """
-        Used to merge ranges from multiple documents, i.e. when multiple docuemnts are packed together.
-        """
-        document: RangeSample
-        ranges = []
-        sample_size = 0
-        for document in documents:
-            for begin, end in document.ranges:
-                ranges.append((begin + sample_size, end + sample_size))
-            sample_size += document.sample_size
-        return cls(ranges, sample_size)
-
-    def crop(self, begin: int, end: int) -> typing.Self:
-        return self.__class__(crop_ranges(self.ranges, begin, end), end - begin)
-
-    def __len__(self) -> int:
-        return self.sample_size
-
-    def get_padding(self, size: int) -> typing.Self:
-        return self.__class__([], size)
-
-
-class RangeBatch(Batch):
-    def __init__(self, ranges: list[list[tuple[int, int]]], sample_size: int):
-        self.sample_size = sample_size
-        self.ranges = ranges
-
-    @classmethod
-    def from_samples(cls, samples: typing.Iterable[RangeSample]) -> typing.Self:
-        return cls([sample.ranges for sample in samples], get_unique(sample.sample_size for sample in samples))
-
-    def crop(self, begin: int, end: int) -> typing.Self:
-        return self.__class__([crop_ranges(sample_ranges, begin, end) for sample_ranges in self.ranges], end - begin)
-
-
-@config_class()
-class RangeReaderBaseConfig(MemmapReaderBaseConfig):
-    _abstract = False
-
-
-@config_class(dynamic_type={MemmapReaderBaseConfig: "range"})
-class RangeReaderConfig(RangeReaderBaseConfig, MemmapReaderConfig):
-    header: typing.ClassVar[bytes] = b"range begin"
-    footer: typing.ClassVar[bytes] = b"range end"
-    num_documents: int = Field()
-    num_ranges: int = Field()
-
-    @property
-    def reader_class(self) -> "type[RangeReader]":
-        return RangeReader
-
-    @property
-    def writer_class(self) -> "type[RangeWriter]":
-        return RangeWriter
-
-    @property
-    def _expected_buffer_size(self) -> int:
-        return self.num_ranges * torch.int32.itemsize * 2 + (self.num_documents + 1) * torch.int32.itemsize
-
-    def get_metadata(self) -> dict[str, typing.Any]:
-        return {
-            "num_documents": self.num_documents,
-            "num_ranges": self.num_ranges,
-        }
-
-    @classmethod
-    def blend_metadata(cls, metadata: list[dict[str, typing.Any]]) -> dict[str, typing.Any]:
-        return {
-            "num_documents": sum(metadata_["num_documents"] for metadata_ in metadata),
-            "num_ranges": sum(metadata_["num_ranges"] for metadata_ in metadata),
-        }
-
-
-class RangeReader[ConfigType: RangeReaderConfig](MemmapReader[ConfigType]):
-    def __init__(self, config: ConfigType, buffer: memoryview, model_preprocessing: PreprocessingConfig | None = None):
-        super().__init__(config, buffer, model_preprocessing)
-        self._ranges = torch.frombuffer(
-            self._buffer,
-            dtype=torch.int32,
-            count=self._config.num_ranges * 2,
-        ).view(-1, 2)
-        self._count_cumsums = torch.frombuffer(
-            self._buffer,
-            dtype=torch.int32,
-            count=self._config.num_documents + 1,
-            offset=self._ranges.nbytes,
-        )
-
-    def get_document(self, index: int, begin: int, end: int) -> Sample:
-        sample_size = end - begin
-        cropped_ranges = (
-            (max(begin_ - begin, 0), min(end_ - begin, sample_size))
-            for begin_, end_ in self._ranges[self._count_cumsums[index] : self._count_cumsums[index + 1]].tolist()
-        )
-        return RangeSample([(begin_, end_) for begin_, end_ in cropped_ranges if end_ > begin_], sample_size)
-
-    def get_split(self, begin_index: int, end_index: int) -> dict[str, typing.Any]:
-        Assert.custom(lambda x: x == sorted(x), [0, begin_index, end_index, self._config.num_documents])
-        return {
-            "num_documents": end_index - begin_index,
-            "num_ranges": self._count_cumsums[end_index].item() - self._count_cumsums[begin_index].item(),
-        }
-
-
-class EmptyRangeReader[ConfigType: RangeReaderBaseConfig](MemmapReaderBase[ConfigType]):
-    def get_document(self, index: int, begin: int, end: int) -> Sample:
-        return RangeSample([], end - begin)
-
-
-class RangeWriter(MemmapWriter):
-    def __enter__(self):
-        super().__enter__()
-        self._count_cumsum = [0]
-        return self
-
-    def write(self, document: RangeSample):
-        super().write(document)
-        self._stream.write(np.array(document.ranges, dtype=np.int32).tobytes(order="C"))
-        self._count_cumsum.append(self._count_cumsum[-1] + len(document.ranges))
-
-    def __exit__(self, exc_type, exc_val, exc_tb):
-        if exc_type is None:
-            Assert.lt(self._count_cumsum[-1], np.iinfo(np.int32).max)
-            self._stream.write(np.array(self._count_cumsum, dtype=np.int32).tobytes(order="C"))
-        super().__exit__(exc_type, exc_val, exc_tb)
-
-    @classmethod
-    def _get_config_class(cls) -> type[RangeReaderConfig]:
-        return RangeReaderConfig
-
-    def _get_config(self, begin: int, end: int):
-        return RangeReaderConfig(
-            begin=begin,
-            end=end,
-            num_documents=len(self._count_cumsum) - 1,
-            num_ranges=self._count_cumsum[-1],
-            preprocessing=self._preprocessing_config,
-        )
diff --git a/fast_llm/data/sample/token.py b/fast_llm/data/sample/token.py
deleted file mode 100644
index 17078cef9..000000000
--- a/fast_llm/data/sample/token.py
+++ /dev/null
@@ -1,265 +0,0 @@
-import typing
-
-import numpy as np
-import torch
-
-from fast_llm.config import Field, config_class
-from fast_llm.data.preprocessing.abstract import PreprocessingConfig
-from fast_llm.data.sample.abstract import (
-    Batch,
-    MemmapIndexedDatasetReader,
-    MemmapReaderBaseConfig,
-    MemmapReaderConfig,
-    MemmapWriter,
-    Sample,
-)
-from fast_llm.engine.config_utils.data_type import DataType
-from fast_llm.utils import Assert, get_unique, padded_cumsum
-
-
-def crop_lengths(lengths: list[int], begin: int, end: int) -> list[int]:
-    if len(lengths) == 1:
-        # Shortcut for the frequent case of a single document.
-        return [end - begin]
-    begin_ = 0
-    lengths_ = []
-    for length in lengths:
-        end_ = begin_ + length
-        cropped_length = min(end_, end) - max(begin_, begin)
-        if cropped_length > 0:
-            lengths_.append(cropped_length)
-        if end_ > end:
-            break
-        begin_ = end_
-    return lengths_
-
-
-class TokenSample(Sample):
-    def __init__(
-        self,
-        tokens: torch.Tensor,
-        lengths: list[int] | None = None,
-        sequence_k_past: int = 0,
-        current_document_begin: int = 0,
-    ):
-        self.tokens = tokens
-        # Length of each document in the sample. TODO: Use cumsums instead?
-        if lengths is None:
-            lengths = [len(tokens)]
-        else:
-            Assert.eq(sum(lengths), len(tokens))
-        self.lengths = lengths
-        self.sequence_k_past = sequence_k_past
-        self.current_document_begin = current_document_begin
-
-    @classmethod
-    def from_documents(cls, documents: typing.Iterable[typing.Self]) -> typing.Self:
-        return cls(
-            torch.cat([document.tokens for document in documents]),
-            sum((document.lengths for document in documents), []),
-        )
-
-    def crop(self, begin: int, end: int) -> typing.Self:
-        Assert.eq(self.sequence_k_past, self.current_document_begin, 0)
-
-        document_begin = 0
-        lengths_ = []
-        current_document_begin = None
-        for length in self.lengths:
-            document_end = document_begin + length
-            cropped_length = min(document_end, end) - max(document_begin, begin)
-            if cropped_length > 0:
-                lengths_.append(cropped_length)
-                if not current_document_begin:
-                    current_document_begin = document_begin
-            if document_end > end:
-                break
-            document_begin = document_end
-
-        return self.__class__(self.tokens[begin:end], lengths_, begin, current_document_begin)
-
-    def __len__(self) -> int:
-        return len(self.tokens)
-
-    def get_padding(self, size: int) -> typing.Self:
-        return self.__class__(torch.full([size], -100, dtype=self.tokens.dtype), [size])
-
-    def to_device_(self, device: "torch.device | str"):
-        # Also standardize the dtype while we're here.
-        self.tokens = self.tokens.to(device, dtype=torch.int64, non_blocking=True)
-
-    def get_cumulative_lengths(self, device: torch.device | None = None) -> tuple[torch.Tensor, torch.Tensor]:
-        cumulative_lengths_q = torch.from_numpy(padded_cumsum(self.lengths)).to(dtype=torch.int32, device=device)
-        cumulative_lengths_k = torch.cat(
-            [self.current_document_begin, cumulative_lengths_q[1:] + self.sequence_k_past]
-        )
-        return cumulative_lengths_q, cumulative_lengths_k
-
-    def get_max_lengths(self, device: torch.device | None = None) -> tuple[torch.Tensor, torch.Tensor]:
-        max_length_q = max(self.lengths)
-        max_length_k = max(self.max_length_q, self.sequence_k_past + self.lengths[0] - self.current_document_begin)
-        return (
-            torch.full((1,), max_length_q, dtype=torch.int32, device=device),
-            torch.full((1,), max_length_k, dtype=torch.int32, device=device),
-        )
-
-    def get_document_index(self, device: torch.device | None = None) -> torch.Tensor:
-        return torch.cat(
-            [
-                torch.full((document_length,), i, dtype=torch.int32, device=device)
-                for i, document_length in enumerate(self.lengths)
-            ]
-        )
-
-    def get_position_index(self, device: torch.device | None = None) -> torch.Tensor:
-        return torch.cat(
-            [torch.arange(document_length, dtype=torch.int32, device=device) for document_length in self.lengths]
-        )
-
-
-class TokenBatch(Batch):
-    def __init__(self, tokens: torch.Tensor, lengths: list[list[int]] | None) -> None:
-        self.tokens = tokens
-        if lengths is None:
-            lengths = [[tokens.size(1)]] * tokens.size(0)
-        self.lengths = lengths
-
-    @classmethod
-    def from_samples(cls, samples: typing.Iterable[TokenSample]) -> typing.Self:
-        return cls(
-            torch.stack([sample.tokens for sample in samples]),
-            [sample.lengths for sample in samples],
-        )
-
-    def crop(self, begin: int, end: int) -> typing.Self:
-        return self.__class__(
-            self.tokens[:, begin:end],
-            [crop_lengths(lengths, begin, end) for lengths in self.lengths],
-        )
-
-    def to_device_(self, device: "torch.device | str"):
-        # Also standardize the dtype while we're here.
-        self.tokens = self.tokens.to(device, dtype=torch.int64, non_blocking=True)
-
-
-@config_class(dynamic_type={MemmapReaderBaseConfig: "token"})
-class TokenReaderConfig(MemmapReaderConfig):
-    _abstract = False
-    header: typing.ClassVar[bytes] = b"token begin"
-    footer: typing.ClassVar[bytes] = b"token end"
-    num_documents: int = Field()
-    num_tokens: int = Field()
-    data_type: DataType = Field()
-
-    def __len__(self) -> int:
-        return self.num_documents
-
-    @property
-    def reader_class(self) -> "type[TokenReader]":
-        return TokenReader
-
-    @property
-    def writer_class(self) -> "type[TokenWriter]":
-        return TokenWriter
-
-    @property
-    def _expected_buffer_size(self) -> int:
-        return self.num_tokens * self.data_type.torch.itemsize + (self.num_documents + 1) * torch.int64.itemsize
-
-    def get_metadata(self) -> dict[str, typing.Any]:
-        return {
-            "num_tokens": self.num_tokens,
-            "num_documents": self.num_documents,
-            "data_type": str(self.data_type),
-        }
-
-    @classmethod
-    def blend_metadata(cls, metadata: list[dict[str, typing.Any]]) -> dict[str, typing.Any]:
-        return {
-            "num_tokens": sum(metadata_["num_tokens"] for metadata_ in metadata),
-            "num_documents": sum(metadata_["num_documents"] for metadata_ in metadata),
-            "data_type": get_unique(metadata_["data_type"] for metadata_ in metadata),
-        }
-
-
-class TokenReader[ConfigType: TokenReaderConfig](MemmapIndexedDatasetReader[ConfigType]):
-    def __init__(self, config: ConfigType, buffer: memoryview, model_preprocessing: PreprocessingConfig | None = None):
-        super().__init__(config, buffer, model_preprocessing)
-        self._tokens = torch.frombuffer(
-            self._buffer,
-            dtype=self._config.data_type.torch,
-            count=self._config.num_tokens,
-        )
-        self._size_cumsums = torch.frombuffer(
-            self._buffer, dtype=torch.int64, count=self._config.num_documents + 1, offset=self._tokens.nbytes
-        )
-
-    def get_document(self, index: int, begin: int, end: int) -> Sample:
-        begin_ = self._size_cumsums[index].item()
-        # Torch doesn't support type promotion between signed and unsigned types, so we convert here to avoid issues.
-        # Convert begin and end to int to avoid numpy dtype overflow when adding to begin_
-        return TokenSample(self._tokens[begin_ + begin : begin_ + end].to(torch.int64), [end - begin])
-
-    def get_document_sizes(self) -> torch.Tensor:
-        return self._size_cumsums[1:] - self._size_cumsums[:-1]
-
-    def get_document_size(self, index: int) -> int:
-        return self._size_cumsums[index + 1].item() - self._size_cumsums[index].item()
-
-    def get_split(self, begin_ratio: float, end_ratio: float) -> tuple[int, int, dict[str, typing.Any]]:
-        Assert.custom(lambda x: x == sorted(x), [0, begin_ratio, end_ratio, 1])
-        begin_index = _get_nearest_split(self._size_cumsums[1:], begin_ratio * self.num_tokens)
-        end_index = _get_nearest_split(self._size_cumsums[1:], end_ratio * self.num_tokens)
-
-        return (
-            begin_index,
-            end_index,
-            {
-                "num_tokens": self._size_cumsums[end_index].item() - self._size_cumsums[begin_index].item(),
-                "num_documents": end_index - begin_index,
-                "data_type": str(self._config.data_type),
-            },
-        )
-
-
-def _get_nearest_split(cumsum: torch.Tensor, value: float) -> int:
-    left = torch.searchsorted(cumsum, value, side="right")
-    if left == len(cumsum):
-        return left.item()
-    return left.item() + 1 if (value - cumsum[left]) / (cumsum[left + 1] - cumsum[left]) > 0.5 else left.item()
-
-
-class TokenWriter(MemmapWriter):
-    def __enter__(self):
-        super().__enter__()
-        self._size_cumsum = [0]
-        self._data_type = None
-        return self
-
-    def write(self, document: TokenSample):
-        super().write(document)
-        if self._data_type is None:
-            self._data_type = document.tokens.dtype
-        else:
-            Assert.eq(self._data_type, document.tokens.dtype)
-        self._stream.write(document.tokens.numpy().tobytes())
-        self._size_cumsum.append(self._size_cumsum[-1] + len(document.tokens))
-
-    def __exit__(self, exc_type, exc_val, exc_tb):
-        if exc_type is None:
-            self._stream.write(np.array(self._size_cumsum, dtype=np.int64).tobytes(order="C"))
-        super().__exit__(exc_type, exc_val, exc_tb)
-
-    @classmethod
-    def _get_config_class(cls) -> type[TokenReaderConfig]:
-        return TokenReaderConfig
-
-    def _get_config(self, begin: int, end: int):
-        return TokenReaderConfig(
-            begin=begin,
-            end=end,
-            num_documents=len(self._size_cumsum) - 1,
-            num_tokens=self._size_cumsum[-1],
-            data_type=DataType.from_torch(self._data_type),
-            preprocessing=self._preprocessing_config,
-        )
diff --git a/fast_llm/models/gpt/huggingface.py b/fast_llm/models/gpt/huggingface.py
index 387610a46..fd02a6dc3 100644
--- a/fast_llm/models/gpt/huggingface.py
+++ b/fast_llm/models/gpt/huggingface.py
@@ -6,8 +6,6 @@
 import torch
 import transformers.modeling_outputs
 
-from fast_llm.data.sample.language_model import LanguageModelBatch
-from fast_llm.data.sample.token import TokenBatch
 from fast_llm.engine.distributed.config import PhaseType
 from fast_llm.engine.inference.config import HuggingfaceModelConfig
 from fast_llm.engine.inference.huggingface import HuggingfacePreTrainedModel
diff --git a/fast_llm/models/gpt/model.py b/fast_llm/models/gpt/model.py
index e32b78ff9..2f96f6f91 100644
--- a/fast_llm/models/gpt/model.py
+++ b/fast_llm/models/gpt/model.py
@@ -5,7 +5,7 @@
 
 import torch
 
-from fast_llm.batch.language_model import LanguageModelBatchNew
+from fast_llm.data.batch.language_model import LanguageModelPreprocessedBatch
 from fast_llm.engine.base_model.base_model import BaseModel
 from fast_llm.engine.distributed.config import DistributedConfig, PhaseType
 from fast_llm.engine.inference.runner import InferenceRunner
@@ -42,7 +42,7 @@ def __init__(
 
     def preprocess_batch(
         self,
-        batches: list[LanguageModelBatchNew],
+        batch: LanguageModelPreprocessedBatch,
         *,
         phase: PhaseType,
         iteration: int,
@@ -55,17 +55,17 @@ def preprocess_batch(
         reference_preprocessed_batches = {}
         for name, reference_model in self._reference_models.items():
             reference_preprocessed_batches[name] = reference_model.fast_llm_model.base_model.preprocess_batch(
-                batches,
+                batch,
                 phase=PhaseType.inference,
                 iteration=iteration,
             )
 
         preprocessed = []
         presents = None
-        for micro_sequence_index, batch in enumerate(batches):
+        for micro_sequence_index, micro_sequence in enumerate(batch.micro_batches):
             pasts = presents
-            presents = None if micro_sequence_index == len(batches) - 1 else []
-            batch.to_device_(self._distributed.device)
+            presents = None if micro_sequence_index == len(batch) - 1 else []
+            micro_sequence.to_device_(self._distributed.device)
             kwargs: dict[str, typing.Any] = {
                 LanguageModelKwargs.phase: phase,
                 AttentionKwargs.past_key_values: pasts,
@@ -74,22 +74,22 @@ def preprocess_batch(
                 LanguageModelKwargs.device: self._distributed.device,
                 LanguageModelKwargs.output_hidden_states: [],
                 LanguageModelKwargs.hidden_states: {},
-                LanguageModelKwargs.token_dim: batch.token_dim,
-                LanguageModelKwargs.hidden_token_dim: batch.hidden_token_dim,
-                LanguageModelKwargs.sequence_k_dim: batch.sequence_k_dim,
-                LanguageModelKwargs.num_tokens: batch.num_tokens,
-                LanguageModelKwargs.sequence_length: batch.sequence_length,
-                LanguageModelKwargs.sequence_lengths: batch.document_lengths,
-                LanguageModelKwargs.labels: batch.labels,
-                LanguageModelKwargs.loss_mask: batch.prediction_masks,
-                AttentionKwargs.cu_seqlens_q: batch.cumulative_lengths_q,
-                AttentionKwargs.cu_seqlens_k: batch.cumulative_lengths_k,
-                AttentionKwargs.max_seqlen_q: batch.max_length_q,
-                AttentionKwargs.max_seqlen_k: batch.max_length_k,
-                LanguageModelKwargs.seq_idx: batch.document_index,
-                LanguageModelKwargs.position_ids: batch.position_index,
-                LanguageModelKwargs.chosen_spans: batch.chosen_spans,
-                LanguageModelKwargs.rejected_spans: batch.rejected_spans,
+                LanguageModelKwargs.token_dim: micro_sequence.token_dim,
+                LanguageModelKwargs.hidden_token_dim: micro_sequence.hidden_token_dim,
+                LanguageModelKwargs.sequence_k_dim: micro_sequence.sequence_k_dim,
+                LanguageModelKwargs.num_tokens: micro_sequence.num_tokens,
+                LanguageModelKwargs.sequence_length: micro_sequence.sequence_length,
+                LanguageModelKwargs.sequence_lengths: micro_sequence.document_lengths,
+                LanguageModelKwargs.labels: micro_sequence.labels,
+                LanguageModelKwargs.loss_mask: micro_sequence.prediction_masks,
+                AttentionKwargs.cu_seqlens_q: micro_sequence.cumulative_lengths_q,
+                AttentionKwargs.cu_seqlens_k: micro_sequence.cumulative_lengths_k,
+                AttentionKwargs.max_seqlen_q: micro_sequence.max_length_q,
+                AttentionKwargs.max_seqlen_k: micro_sequence.max_length_k,
+                LanguageModelKwargs.seq_idx: micro_sequence.document_index,
+                LanguageModelKwargs.position_ids: micro_sequence.position_index,
+                LanguageModelKwargs.chosen_spans: micro_sequence.chosen_spans,
+                LanguageModelKwargs.rejected_spans: micro_sequence.rejected_spans,
             }
             if extra_kwargs is not None:
                 Assert.empty(kwargs.keys() & extra_kwargs.keys())
@@ -112,7 +112,7 @@ def preprocess_batch(
                     for layer_name, (meta, tensor) in reference_kwargs[BlockKwargs.hidden_states].items()
                 }
             self.preprocess(kwargs)
-            preprocessed.append((batch.tokens, kwargs))
+            preprocessed.append((micro_sequence.tokens, kwargs))
 
         return preprocessed
 
diff --git a/fast_llm/models/gpt/trainer.py b/fast_llm/models/gpt/trainer.py
index df7f78643..e65556501 100644
--- a/fast_llm/models/gpt/trainer.py
+++ b/fast_llm/models/gpt/trainer.py
@@ -1,7 +1,7 @@
 import logging
 import typing
 
-from fast_llm.batch.config import LanguageModelBatchPreprocessingConfig
+from fast_llm.data.batch.language_model import LanguageModelBatchPreprocessingConfig
 from fast_llm.data.data.gpt.data import GPTData
 from fast_llm.data.dataset.config import SamplingParameters
 from fast_llm.engine.distributed.config import PhaseType
diff --git a/fast_llm/models/multimodal/huggingface.py b/fast_llm/models/multimodal/huggingface.py
index 8b0859992..12491937f 100644
--- a/fast_llm/models/multimodal/huggingface.py
+++ b/fast_llm/models/multimodal/huggingface.py
@@ -5,7 +5,6 @@
 import transformers.modeling_outputs
 
 from fast_llm.data.preprocessing.image_patch import ImagePatchConfig
-from fast_llm.data.sample.patch import PatchBatch
 from fast_llm.engine.schedule.runner import ScheduleRunner
 from fast_llm.models.gpt.huggingface import HuggingfaceGPTModelConfig, HuggingfaceGPTModelForCausalLM
 from fast_llm.models.multimodal.config import MultiModalModelConfig
diff --git a/fast_llm/models/multimodal/model.py b/fast_llm/models/multimodal/model.py
index 87d8f3310..7eb784148 100644
--- a/fast_llm/models/multimodal/model.py
+++ b/fast_llm/models/multimodal/model.py
@@ -4,7 +4,6 @@
 import torch
 
 from fast_llm.core.distributed import all_gather_scalar
-from fast_llm.data.sample.language_model import LanguageModelBatch
 from fast_llm.engine.config_utils.tensor_dim import TensorDim
 from fast_llm.engine.distributed.config import DistributedDim, DistributedDimNames, PhaseType
 from fast_llm.engine.inference.runner import InferenceRunner
diff --git a/tests/data/common.py b/tests/data/common.py
index 7ec4a9018..26aeda845 100644
--- a/tests/data/common.py
+++ b/tests/data/common.py
@@ -5,6 +5,7 @@
 import torch
 
 from fast_llm.config import NoAutoValidate
+from fast_llm.data.batch.config import LanguageModelBatchPreprocessingConfig
 from fast_llm.data.data.gpt.config import GPTDataConfig
 from fast_llm.data.data.gpt.data import GPTData
 from fast_llm.data.dataset.abstract import SampledDataset
@@ -12,6 +13,7 @@
 from fast_llm.data.dataset.gpt.config import GPTSamplingData
 from fast_llm.data.dataset.indexed import IndexedDataset
 from fast_llm.data.dataset.sampled import SampledIndexedDataset
+from fast_llm.data.document.language_model import LanguageModelBatch
 from fast_llm.data.preprocessing.language_model import LanguageModelPreprocessingConfig
 from fast_llm.engine.distributed.config import DistributedConfig, PhaseType
 from fast_llm.engine.distributed.distributed import Distributed
@@ -86,17 +88,27 @@ def get_test_data_and_compare_samples(
 
     assert "sampling" not in config
     config["sampling"] = SamplingConfig(seed=seed, gpu=gpu, shuffle=shuffle)
-    data = GPTData(GPTDataConfig.from_dict(config), distributed_config)
-    data.setup(distributed, sampling_parameters, preprocessing, cache_directory)
     with NoAutoValidate():
         batch_config = GPTBatchConfig(batch_size=1, sequence_length=sequence_length)
     batch_config.setup(distributed_config)
     batch_config.validate()
+    preprocessing = LanguageModelBatchPreprocessingConfig.from_dict(
+        preprocessing, {"batch": batch_config, "type": None}
+    )
+    data = GPTData(GPTDataConfig.from_dict(config), distributed_config)
+    data.setup(
+        distributed,
+        sampling_parameters,
+        {dataset_name: preprocessing for dataset_name in samples_per_dataset},
+        cache_directory,
+    )
     tokens = {
         phase: torch.stack(
             [
-                batch.tokens.tokens[0]
-                for batch in data.get_iterator(batch_config, phase, consumed_samples=0, num_workers=0)
+                batch.tokens.tokens
+                for batch in data.get_iterator(
+                    batch_config, phase, consumed_samples=0, num_workers=0, preprocess=False
+                )
             ]
         )
         for phase, samples in samples_per_dataset.items()
@@ -128,7 +140,12 @@ def compare_sampled_dataset(sampled: SampledDataset, expected_samples: list[list
     # for i in range(len(expected_samples)):
     #     print(i, sampled[i].tokens.tokens.tolist())
     Assert.eq(len(sampled), len(expected_samples))
-    Assert.all_equal(torch.stack([sampled[i].tokens.tokens for i in range(len(expected_samples))]), expected_samples)
+    Assert.all_equal(
+        torch.stack(
+            [LanguageModelBatch.from_documents(sampled[i]).tokens.tokens for i in range(len(expected_samples))]
+        ),
+        expected_samples,
+    )
 
 
 def validate_indexed_dataset_sampling(sampled: SampledIndexedDataset, expected_samples: list[list[int]] | None = None):
@@ -163,7 +180,9 @@ def validate_indexed_dataset_sampling(sampled: SampledIndexedDataset, expected_s
         all_tokens[index * sampled._parameters.sequence_length : (index + 1) * sampled._parameters.sequence_length + 1]
         for index in range(sampled._parameters.num_samples)
     ]
-    token_ids = torch.stack([sampled[i].tokens.tokens for i in range(len(sampled))]).to(torch.int64)
+    token_ids = torch.stack(
+        [LanguageModelBatch.from_documents(sampled[i]).tokens.tokens for i in range(len(sampled))]
+    ).to(torch.int64)
     Assert.all_equal(token_ids, validate_samples)
     if expected_samples is not None:
         Assert.all_equal(token_ids, expected_samples)
diff --git a/tests/data/test_blending.py b/tests/data/test_blending.py
index 989e99b24..b49a44b2a 100644
--- a/tests/data/test_blending.py
+++ b/tests/data/test_blending.py
@@ -4,7 +4,7 @@
 import pytest
 
 from fast_llm.data.dataset.config import BlendedDatasetConfig
-from fast_llm.data.sample.language_model import LanguageModelSample
+from fast_llm.data.document.language_model import LanguageModelDocument
 from fast_llm.utils import Assert, normalize_probabilities
 from tests.data.common import (
     compare_sampled_dataset,
@@ -114,7 +114,7 @@ def test_gpt_blended():
             "datasets": [config, alt_config],
             "weights": [0.75, 0.25],
         },
-        BlendedDatasetConfig[LanguageModelSample],
+        BlendedDatasetConfig[LanguageModelDocument],
     ).build_and_sample(get_sampling_data(8, sequence_length=5, preprocessing=preprocessing))
     compare_sampled_dataset(sampled, GPT_BLENDED_SAMPLES)
 
@@ -142,7 +142,7 @@ def test_gpt_blended_mixed():
             ],
             "weights": [0.6, 0.4],
         },
-        BlendedDatasetConfig[LanguageModelSample],
+        BlendedDatasetConfig[LanguageModelDocument],
     ).build_and_sample(get_sampling_data(8, sequence_length=5, preprocessing=preprocessing))
     compare_sampled_dataset(sampled, GPT_BLENDED_MIXED_SAMPLES)
 
diff --git a/tests/data/test_concatenate.py b/tests/data/test_concatenate.py
index 19539cc8c..cf75ea413 100644
--- a/tests/data/test_concatenate.py
+++ b/tests/data/test_concatenate.py
@@ -1,7 +1,7 @@
 from fast_llm.data.dataset.config import ConcatenatedDatasetConfig
 from fast_llm.data.dataset.gpt.config import GPTDatasetFromFileConfig
+from fast_llm.data.document.language_model import LanguageModelDocument
 from fast_llm.data.preprocessing.language_model import LanguageModelPreprocessingConfig
-from fast_llm.data.sample.language_model import LanguageModelSample
 from tests.data.common import (
     compare_indexed_dataset_tokens,
     compare_sampled_dataset,
@@ -30,7 +30,7 @@ def test_gpt_concatenate():
     memmap_config = GPTDatasetFromFileConfig.from_dict(config)._load_config()
     dataset = get_dataset_config(
         dataset_config := {"type": "concatenated", "datasets": [memmap_config.to_dict() for _ in range(3)]},
-        ConcatenatedDatasetConfig[LanguageModelSample],
+        ConcatenatedDatasetConfig[LanguageModelDocument],
     ).build(LanguageModelPreprocessingConfig())
     compare_indexed_dataset_tokens(
         dataset,
diff --git a/tests/data/test_image_patch.py b/tests/data/test_image_patch.py
index 747f6a737..8d5d7301c 100644
--- a/tests/data/test_image_patch.py
+++ b/tests/data/test_image_patch.py
@@ -8,9 +8,8 @@
 
 from fast_llm.data.dataset.config import SamplingParameters
 from fast_llm.data.dataset.gpt.config import GPTDatasetFromFileConfig
-from fast_llm.data.dataset.memmap import MemmapDataset
-from fast_llm.data.preprocessing.language_model import LanguageModelPreprocessingConfig
-from fast_llm.data.sample.language_model import LanguageModelSample
+from fast_llm.data.dataset.memmap.memmap import MemmapDataset
+from fast_llm.data.document.language_model import LanguageModelDocument
 from fast_llm.utils import Assert
 from tests.data.common import get_dataset_config
 from tests.data.test_preparator import COMMON_DATASET_LENGTH, COMMON_DATASET_SAMPLES, COMMON_DATASET_TEXT
@@ -126,7 +125,7 @@ def _get_image_tokens(
 @pytest.mark.parametrize("image_end_token", (None, 132))
 def test_gpt_data_with_image_patches(image_break_token, image_end_token):
     _, config, hf_path, preprocessing = get_test_dataset_with_image_patches(image_break_token, image_end_token)
-    dataset: MemmapDataset[LanguageModelSample] = get_dataset_config(config, GPTDatasetFromFileConfig).build(
+    dataset: MemmapDataset[LanguageModelDocument] = get_dataset_config(config, GPTDatasetFromFileConfig).build(
         preprocessing
     )
     test_index = 2 * (image_break_token is not None) + (image_end_token is not None)
@@ -174,11 +173,9 @@ def test_gpt_data_with_image_patches(image_break_token, image_end_token):
 def test_gpt_data_with_missing_image_patches():
     path, config, hf_path, _ = get_common_test_dataset()
     _, _, _, preprocessing = get_test_dataset_with_image_patches(config_only=True)
-    LanguageModelPreprocessingConfig
-    with pytest.warns(match="The model uses image patches"):
-        dataset = get_dataset_config(config, GPTDatasetFromFileConfig).build(preprocessing)
+    dataset = get_dataset_config(config, GPTDatasetFromFileConfig).build(preprocessing)
 
     for index in COMMON_DATASET_SAMPLES:
         document = dataset.get_document(index, parameters=SamplingParameters(num_samples=0, sequence_length=0))
         Assert.eq(document.tokens.tokens.tolist(), COMMON_DATASET_SAMPLES[index])
-        Assert.eq(document.image_patches.patches.shape, (0,) + preprocessing.image_patches.patch_shape)
+        Assert.none(document.image_patches)
diff --git a/tests/data/test_loss_masking_spans.py b/tests/data/test_loss_masking_spans.py
index 30047163a..a963170fd 100644
--- a/tests/data/test_loss_masking_spans.py
+++ b/tests/data/test_loss_masking_spans.py
@@ -3,9 +3,9 @@
 
 from fast_llm.data.dataset.config import SamplingParameters
 from fast_llm.data.dataset.gpt.config import GPTDatasetFromFileConfig
-from fast_llm.data.dataset.memmap import MemmapDataset
+from fast_llm.data.dataset.memmap.memmap import MemmapDataset
+from fast_llm.data.document.language_model import LanguageModelDocument
 from fast_llm.data.preprocessing.tokenizer import TokenizerConfig
-from fast_llm.data.sample.language_model import LanguageModelSample
 from fast_llm.utils import Assert
 from tests.data.common import get_dataset_config
 from tests.data.test_preparator import COMMON_DATASET_LENGTH, COMMON_DATASET_SAMPLES, COMMON_DATASET_TEXT
@@ -39,7 +39,7 @@
 @pytest.mark.slow
 def test_gpt_data_with_loss_masking_spans():
     _, config, hf_path, preprocessing = get_test_dataset_with_loss_masking_spans()
-    dataset: MemmapDataset[LanguageModelSample] = get_dataset_config(config, GPTDatasetFromFileConfig).build(
+    dataset: MemmapDataset[LanguageModelDocument] = get_dataset_config(config, GPTDatasetFromFileConfig).build(
         preprocessing
     )
 
@@ -83,10 +83,9 @@ def test_gpt_data_with_loss_masking_spans():
 def test_gpt_data_with_missing_loss_masking_spans():
     path, config, hf_path, _ = get_common_test_dataset()
     _, _, _, preprocessing = get_test_dataset_with_loss_masking_spans(config_only=True)
-    with pytest.warns(match="The model uses loss masking spans"):
-        dataset = get_dataset_config(config, GPTDatasetFromFileConfig).build(preprocessing)
+    dataset = get_dataset_config(config, GPTDatasetFromFileConfig).build(preprocessing)
 
     for index in COMMON_DATASET_SAMPLES:
         document = dataset.get_document(index, parameters=SamplingParameters(num_samples=0, sequence_length=0))
         Assert.eq(document.tokens.tokens.tolist(), COMMON_DATASET_SAMPLES[index])
-        Assert.eq(document.loss_masking_spans.ranges, [])
+        Assert.none(document.loss_masking_spans)
diff --git a/tests/data/test_preference_spans.py b/tests/data/test_preference_spans.py
index 7ba4e04ac..ef12e3837 100644
--- a/tests/data/test_preference_spans.py
+++ b/tests/data/test_preference_spans.py
@@ -5,9 +5,9 @@
 
 from fast_llm.data.dataset.config import SamplingParameters
 from fast_llm.data.dataset.gpt.config import GPTDatasetFromFileConfig
-from fast_llm.data.dataset.memmap import MemmapDataset
+from fast_llm.data.dataset.memmap.memmap import MemmapDataset
+from fast_llm.data.document.language_model import LanguageModelDocument
 from fast_llm.data.preprocessing.tokenizer import TokenizerConfig
-from fast_llm.data.sample.language_model import LanguageModelSample
 from fast_llm.utils import Assert
 from tests.data.common import get_dataset_config
 from tests.data.test_preparator import COMMON_DATASET_LENGTH
@@ -41,7 +41,7 @@
 @pytest.mark.slow
 def test_gpt_data_with_spans():
     _, config, hf_path, preprocessing = get_test_dataset_with_preference_spans()
-    dataset: MemmapDataset[LanguageModelSample] = get_dataset_config(config, GPTDatasetFromFileConfig).build(
+    dataset: MemmapDataset[LanguageModelDocument] = get_dataset_config(config, GPTDatasetFromFileConfig).build(
         preprocessing
     )
 
diff --git a/tests/data/test_preparator.py b/tests/data/test_preparator.py
index f4f6fab82..ab5942c20 100644
--- a/tests/data/test_preparator.py
+++ b/tests/data/test_preparator.py
@@ -3,9 +3,10 @@
 import datasets
 import pytest
 
-from fast_llm.data.dataset.config import BlendedDatasetConfig, MemmapDatasetConfig, SamplingParameters
+from fast_llm.data.dataset.config import BlendedDatasetConfig, SamplingParameters
 from fast_llm.data.dataset.gpt.config import GPTDatasetFromFileConfig
-from fast_llm.data.dataset.memmap import MemmapDataset
+from fast_llm.data.dataset.memmap.config import MemmapDatasetConfig
+from fast_llm.data.dataset.memmap.memmap import MemmapDataset
 from fast_llm.data.preparator.gpt_memmap.config import GPTMemmapDatasetPreparatorConfig
 from fast_llm.data.preprocessing.language_model import LanguageModelPreprocessingConfig
 from fast_llm.data.preprocessing.tokenizer import TokenizerConfig
diff --git a/tests/data/test_sampling.py b/tests/data/test_sampling.py
index f28c9cce2..737609994 100644
--- a/tests/data/test_sampling.py
+++ b/tests/data/test_sampling.py
@@ -5,8 +5,8 @@
 from fast_llm.data.dataset.config import SamplingParameters, ShufflingType
 from fast_llm.data.dataset.gpt.config import GPTDatasetFromFileConfig
 from fast_llm.data.dataset.indexed import IndexedDataset
-from fast_llm.data.sample.language_model import LanguageModelSample
-from fast_llm.data.sample.token import TokenSample
+from fast_llm.data.document.language_model import LanguageModelDocument
+from fast_llm.data.document.token import TokenDocument
 from fast_llm.utils import Assert
 from tests.data.common import (
     get_dataset_config,
@@ -40,7 +40,7 @@ def test_gpt_sampled():
     # Make sure the memmap dataset works and check for unintended changes in behavior.
     _, config, _, preprocessing = get_common_test_dataset()
     sampled = get_dataset_config(
-        dataset_config := config, GPTDatasetFromFileConfig[LanguageModelSample]
+        dataset_config := config, GPTDatasetFromFileConfig[LanguageModelDocument]
     ).build_and_sample(get_sampling_data(8, sequence_length=5, preprocessing=preprocessing))
     validate_indexed_dataset_sampling(sampled, GPT_MEMMAP_SAMPLES)
 
@@ -54,17 +54,19 @@ def test_gpt_sampled():
     )
 
 
-class SimpleGPTIndexedDataset[SampleType: LanguageModelSample](IndexedDataset[SampleType]):
+class SimpleGPTIndexedDataset[DocumentType: LanguageModelDocument](IndexedDataset[DocumentType]):
     # TODO: worth adding to the main codebase?
     def __init__(self, samples):
         self._samples = samples
 
     def get_document(
         self, index: int, begin: int = 0, end: int | None = None, parameters: SamplingParameters | None = None
-    ) -> SampleType:
+    ) -> DocumentType:
         if end is None:
             end = len(self._samples[index])
-        return LanguageModelSample(TokenSample(torch.tensor(self._samples[index][begin:end], dtype=torch.int64)))
+        return LanguageModelDocument(
+            tokens=TokenDocument(tokens=torch.tensor(self._samples[index][begin:end], dtype=torch.int64))
+        )
 
     def __len__(self) -> int:
         return len(self._samples)
diff --git a/tests/data/test_slice.py b/tests/data/test_slice.py
index 54263b8e2..ddf16acf1 100644
--- a/tests/data/test_slice.py
+++ b/tests/data/test_slice.py
@@ -1,6 +1,6 @@
 from fast_llm.data.dataset.config import DatasetSliceConfig
 from fast_llm.data.dataset.gpt.config import GPTDatasetFromFileConfig
-from fast_llm.data.sample.language_model import LanguageModelSample
+from fast_llm.data.document.language_model import LanguageModelDocument
 from tests.data.common import (
     compare_indexed_dataset_tokens,
     get_dataset_config,
@@ -36,7 +36,7 @@ def test_gpt_slice():
     # samples[9:18]
     dataset = get_dataset_config(
         {"type": "slice", "dataset": memmap_config, "begin": 0.025, "end": 0.1},
-        DatasetSliceConfig[LanguageModelSample],
+        DatasetSliceConfig[LanguageModelDocument],
     ).build(preprocessing)
     compare_indexed_dataset_tokens(dataset, 75, 3399, {i - 25: sample for i, sample in COMMON_DATASET_SAMPLES.items()})
     sampled = dataset.sample(get_sampling_data(8, sequence_length=5, preprocessing=preprocessing))
diff --git a/tests/models/test_match_megatron.py b/tests/models/test_match_megatron.py
index e29050b28..011bb5aea 100644
--- a/tests/models/test_match_megatron.py
+++ b/tests/models/test_match_megatron.py
@@ -11,14 +11,15 @@
 
 from fast_llm.config import Field, FieldHint, config_class
 from fast_llm.data.dataset.abstract import SampledDataset
-from fast_llm.data.dataset.config import MemmapDatasetConfig, SampledDatasetConfig
+from fast_llm.data.dataset.config import SampledDatasetConfig
 from fast_llm.data.dataset.gpt.config import GPTSamplingData
 from fast_llm.data.dataset.gpt.legacy_memmap import MEMMAP_DTYPES, MEMMAP_INDEX_HEADER, LegacyMemmapDataset
+from fast_llm.data.dataset.memmap.config import MemmapDatasetConfig
 from fast_llm.data.dataset.sampled import logger
+from fast_llm.data.document.language_model import LanguageModelDocument
+from fast_llm.data.document.token import TokenDocument
 from fast_llm.data.preprocessing.abstract import PreprocessingConfig
 from fast_llm.data.preprocessing.tokenizer import TokenizerConfig
-from fast_llm.data.sample.language_model import LanguageModelSample
-from fast_llm.data.sample.token import TokenSample
 from fast_llm.engine.config_utils.data_type import DataType
 from fast_llm.utils import Assert
 from tests.utils.compare_tensor_logs import CompareConfig
@@ -48,8 +49,8 @@ def get_megatron_test_dataset(prefix: pathlib.Path = MEGATRON_DATASET_PREFIX):
         hf_dataset = datasets.load_from_disk(hf_path)["train"]
         tokenizer = TokenizerConfig(path=TOKENIZER_NAME).get_tokenizer()
         samples = [
-            LanguageModelSample(
-                TokenSample((tokenizer.tokenize(document["text"]) % MODEL_TEST_VOCAB_SIZE).to(torch.uint16))
+            LanguageModelDocument(
+                TokenDocument((tokenizer.tokenize(document["text"]) % MODEL_TEST_VOCAB_SIZE).to(torch.uint16))
             )
             for document in hf_dataset
         ]
@@ -116,14 +117,14 @@ def test_match_megatron(run_test_script_for_all_models, model_testing_config, co
 
 
 @config_class(dynamic_type={SampledDatasetConfig: "megatron"})
-class MegatronDatasetConfig[SampleType: LanguageModelSample](MemmapDatasetConfig[SampleType]):
+class MegatronDatasetConfig[DocumentType: LanguageModelDocument](MemmapDatasetConfig[DocumentType]):
     _abstract: typing.ClassVar[bool] = False
     path: str = Field(
         desc="Dataset path (prefix).",
         hint=FieldHint.core,
     )
 
-    def build(self, preprocessing: PreprocessingConfig) -> "LegacyMemmapDataset[SampleType]":
+    def build(self, preprocessing: PreprocessingConfig) -> "LegacyMemmapDataset[DocumentType]":
         return MegatronMemmapDataset(str(self.path).replace("/", "__"), self.path, preprocessing)
 
 
@@ -135,7 +136,7 @@ def sample(self, sampling: GPTSamplingData) -> "MegatronSampledIndexedDataset":
     def write_dataset(
         cls,
         prefix: pathlib.Path | str,
-        documents: typing.Iterable[LanguageModelSample],
+        documents: typing.Iterable[LanguageModelDocument],
     ) -> None:
         # Initialize metadata
         dtype = None
@@ -192,7 +193,7 @@ def write_dataset(
             idx_stream.write(np.arange(num_documents + 1, dtype=np.int64).tobytes(order="C"))
 
 
-class MegatronSampledIndexedDataset(SampledDataset):
+class MegatronSampledIndexedDataset[DocumentType: LanguageModelDocument](SampledDataset[DocumentType]):
     """
     A GPT sampled dataset that exactly matches Megatron-LM, for testing purposes.
     Minimalistic implementation, implements only the required features.
@@ -231,20 +232,18 @@ def __init__(
     def __len__(self) -> int:
         return self._num_samples
 
-    def __getitem__(self, idx: int) -> typing.Any:
+    def __getitem__(self, idx: int) -> list[DocumentType]:
         shuffled_idx = self._shuffle_idx[idx]
         doc_f, offset_f = self._sample_idx[shuffled_idx]
         doc_l, offset_l = self._sample_idx[shuffled_idx + 1]
-        return LanguageModelSample.from_documents(
-            [
-                self._indexed_dataset.get_document(
-                    self._doc_idx[doc].item(),
-                    begin=(doc == doc_f) * offset_f,
-                    end=offset_l + 1 if doc == doc_l else None,
-                )
-                for doc in range(doc_f, doc_l + 1)
-            ]
-        )
+        return [
+            self._indexed_dataset.get_document(
+                self._doc_idx[doc].item(),
+                begin=(doc == doc_f) * offset_f,
+                end=offset_l + 1 if doc == doc_l else None,
+            )
+            for doc in range(doc_f, doc_l + 1)
+        ]
 
     @property
     def name(self) -> str:
diff --git a/tests/test_loss_mask.py b/tests/test_loss_mask.py
index cdf2295e0..f0af94256 100644
--- a/tests/test_loss_mask.py
+++ b/tests/test_loss_mask.py
@@ -9,9 +9,6 @@
 import torch
 
 from fast_llm.config import NoAutoValidate
-from fast_llm.data.sample.language_model import LanguageModelBatch
-from fast_llm.data.sample.range import RangeBatch
-from fast_llm.data.sample.token import TokenBatch
 from fast_llm.engine.distributed.config import PhaseType
 from fast_llm.layers.language_model.config import LanguageModelKwargs
 from fast_llm.models.gpt.config import GPTBatchConfig, GPTModelConfig

From 1697a482fc23e7a71bc03f02d505bd8711136409 Mon Sep 17 00:00:00 2001
From: Joel Lamy-Poirier <joel.lamy-poirier@servicenow.com>
Date: Thu, 19 Feb 2026 19:28:10 -0500
Subject: [PATCH 24/37] stuff

---
 fast_llm/data/batch/config.py                 |  66 +++-
 fast_llm/data/batch/language_model.py         |  33 +-
 fast_llm/data/data/abstract.py                |  35 +-
 fast_llm/data/data/gpt/data.py                |  99 +++---
 fast_llm/data/dataset/config.py               |   7 +-
 fast_llm/data/dataset/gpt/config.py           |   4 +-
 fast_llm/data/dataset/sampled.py              |   2 +-
 fast_llm/engine/base_model/base_model.py      |   9 +-
 fast_llm/engine/config_utils/run.py           |   6 +-
 fast_llm/engine/distributed/config.py         |   9 +-
 fast_llm/engine/distributed/distributed.py    |   3 +-
 fast_llm/engine/evaluation/config.py          |  15 +-
 fast_llm/engine/evaluation/evaluator.py       | 309 +++++------------
 .../engine/evaluation/lm_eval/evaluator.py    |  52 +--
 .../evaluation/lm_eval/fast_llm_wrapper.py    |   4 +-
 fast_llm/engine/multi_stage/fast_llm_model.py |  10 +
 fast_llm/engine/schedule/config.py            |  14 +-
 fast_llm/engine/schedule/runner.py            |   3 +-
 fast_llm/engine/schedule/schedule.py          |  44 +--
 fast_llm/engine/training/config.py            |  18 +-
 fast_llm/engine/training/trainer.py           | 316 ++++--------------
 fast_llm/layers/language_model/head.py        |   7 +-
 fast_llm/layers/language_model/loss/dpo.py    |   4 +
 fast_llm/layers/language_model/loss/loss.py   |  17 +-
 fast_llm/logging.py                           |   2 -
 fast_llm/models/gpt/config.py                 |  10 -
 fast_llm/models/gpt/model.py                  |   8 +-
 fast_llm/models/gpt/trainer.py                |  28 --
 fast_llm/models/multimodal/trainer.py         |   3 +-
 tests/data/common.py                          |  21 +-
 30 files changed, 388 insertions(+), 770 deletions(-)

diff --git a/fast_llm/data/batch/config.py b/fast_llm/data/batch/config.py
index a3d192bae..360a07fb6 100644
--- a/fast_llm/data/batch/config.py
+++ b/fast_llm/data/batch/config.py
@@ -1,10 +1,11 @@
+import abc
 import dataclasses
 import functools
 import logging
 import typing
 
-from fast_llm.config import Field, config_class
-from fast_llm.data.document.abstract import Document
+from fast_llm.config import Configurable, Field, FieldUpdate, config_class
+from fast_llm.data.document.abstract import Batch, Document
 from fast_llm.data.preprocessing.abstract import NullPreprocessingConfig, PreprocessingConfig
 from fast_llm.data.preprocessing.image_patch import ImagePatchConfig
 from fast_llm.data.preprocessing.language_model import LanguageModelPreprocessingConfig
@@ -22,15 +23,18 @@
 
 @config_class()
 class BatchPreprocessingConfig(PreprocessingConfig):
-    pass
+    batch: BatchConfig = Field()
+    phase: PhaseType = Field(default=PhaseType.inference)
+
+    def get_batch_meta(self) -> "PreprocessedBatch":
+        raise NotImplementedError()
 
 
 @config_class()
-class LanguageModelBatchPreprocessingConfig(LanguageModelPreprocessingConfig):
+class LanguageModelBatchPreprocessingConfig(LanguageModelPreprocessingConfig, BatchPreprocessingConfig):
     _abstract = False
     # TODO: Duplicate `use_loss_masking_spans`, `use_preference_spans`
-    batch: GPTBatchConfig = Field()
-    phase: PhaseType = Field(default=PhaseType.inference)
+    batch: GPTBatchConfig = FieldUpdate()
     predicted_tokens: int = Field(default=1)
     return_cumulative_sequence_lengths: bool = Field(default=False)
     return_max_sequence_lengths: bool = Field(default=False)
@@ -43,10 +47,28 @@ def _validate(self) -> None:
         Assert.custom(isinstance, self.image_patches, (ImagePatchConfig, NullPreprocessingConfig))
         Assert.custom(isinstance, self.tokenizer, (TokenizerConfig, NullPreprocessingConfig))
 
+    def get_batch_meta(self) -> "PreprocessedBatch":
+        from fast_llm.data.batch.language_model import LanguageModelPreprocessedBatch
+        from fast_llm.data.document.language_model import LanguageModelBatch, LanguageModelDocument
+        from fast_llm.data.document.token import TokenDocument
+
+        device = torch.device("meta")
+        tokens = torch.empty(self.total_length, dtype=torch.int64, device=device)
+        batch = LanguageModelBatch.from_documents([LanguageModelDocument(tokens=TokenDocument(tokens=tokens))])
+        return LanguageModelPreprocessedBatch.from_batch(batch, config=self, device=device)
+
     @functools.cached_property
     def use_image_patches(self) -> bool:
         return isinstance(self.image_patches, ImagePatchConfig)
 
+    @functools.cached_property
+    def total_length(self) -> int:
+        return self.batch.sequence_length + self.predicted_tokens
+
+    @functools.cached_property
+    def distributed(self) -> DistributedConfig:
+        return self.batch.distributed
+
     def check_compatibility(self, preprocessing: typing.Self) -> None:
         Assert.custom(isinstance, preprocessing, LanguageModelPreprocessingConfig)
         # TODO: Check more tokenizer data, ex. bos/eos tokens? path if points to HF hub?
@@ -64,21 +86,37 @@ class MicroBatch:
     pass
 
 
-@dataclasses.dataclass
-class PreprocessedBatch:
-    micro_batches: list[MicroBatch]
+class PreprocessedBatch[ConfigType: BatchPreprocessingConfig, MicroBatchType: MicroBatch](Configurable[ConfigType]):
+    def __init__(self, config: ConfigType, micro_batches: list[MicroBatchType]):
+        super().__init__(config)
+        self._micro_batches = micro_batches
 
+    @property
+    def micro_batches(self) -> list[MicroBatch]:
+        return self._micro_batches
 
-@config_class(registry=True)
-class BatchPreprocessingConfig(PreprocessingConfig):
-    batch: BatchConfig = Field()
+    def __len__(self) -> int:
+        return len(self._micro_batches)
+
+    def __getitem__(self, idx: int) -> MicroBatchType:
+        return self._micro_batches[idx]
 
     @classmethod
+    @abc.abstractmethod
     def from_documents(
         cls,
-        config: BatchPreprocessingConfig,
-        distributed_config: DistributedConfig,
         documents: list[Document],
+        config: BatchPreprocessingConfig,
+        device: "torch.device | None" = None,
+    ) -> typing.Self:
+        pass
+
+    @classmethod
+    @abc.abstractmethod
+    def from_batch(
+        cls,
+        batch: Batch,
+        config: BatchPreprocessingConfig,
         device: "torch.device | None" = None,
     ) -> typing.Self:
         pass
diff --git a/fast_llm/data/batch/language_model.py b/fast_llm/data/batch/language_model.py
index b0f67fc1c..06bc90e37 100644
--- a/fast_llm/data/batch/language_model.py
+++ b/fast_llm/data/batch/language_model.py
@@ -6,7 +6,7 @@
 from fast_llm.data.batch.config import LanguageModelBatchPreprocessingConfig, MicroBatch, PreprocessedBatch
 from fast_llm.data.document.language_model import LanguageModelBatch, LanguageModelDocument
 from fast_llm.engine.config_utils.tensor_dim import TensorDim
-from fast_llm.engine.distributed.config import DistributedConfig, DistributedDimNames
+from fast_llm.engine.distributed.config import DistributedDimNames
 
 
 @dataclasses.dataclass
@@ -46,30 +46,27 @@ def to_device_(self, device: torch.device):
 
 
 @dataclasses.dataclass
-class LanguageModelPreprocessedBatch(PreprocessedBatch):
-    micro_batches: list[LanguageModelMicroBatch]
+class LanguageModelPreprocessedBatch[
+    ConfigType: LanguageModelBatchPreprocessingConfig, MicroBatchType: LanguageModelMicroBatch
+](PreprocessedBatch[ConfigType, MicroBatchType]):
+    def __init__(self, config: LanguageModelBatchPreprocessingConfig, micro_batches: list[MicroBatchType]):
+        super().__init__(config, micro_batches)
 
     @classmethod
     def from_documents(
         cls,
         documents: list[LanguageModelDocument],
-        *,
-        config: LanguageModelBatchPreprocessingConfig,
-        distributed_config: DistributedConfig,
+        config: ConfigType,
         device: torch.device | None = None,
     ) -> typing.Self:
-        batch = LanguageModelBatch.from_documents(
-            documents, pad_to_size=config.batch.sequence_length + config.predicted_tokens
-        )
-        return cls.from_batch(batch, config=config, distributed_config=distributed_config, device=device)
+        batch = LanguageModelBatch.from_documents(documents, pad_to_size=config.total_length)
+        return cls.from_batch(batch, config=config, device=device)
 
     @classmethod
     def from_batch(
         cls,
         batch: LanguageModelBatch,
-        *,
-        config: LanguageModelBatchPreprocessingConfig,
-        distributed_config: DistributedConfig,
+        config: ConfigType,
         device: torch.device | None = None,
     ) -> typing.Self:
         if device is None:
@@ -79,21 +76,21 @@ def from_batch(
         token_dim = TensorDim(
             "token",
             config.batch.micro_sequence_length,
-            distributed_config.get_distributed_dim(DistributedDimNames.sequence_data),
+            config.distributed.get_distributed_dim(DistributedDimNames.sequence_data),
         )
         hidden_token_dim = (
             (
                 "token_tp",
                 token_dim.global_size,
-                distributed_config.get_distributed_dim(DistributedDimNames.tensor_and_data),
+                config.distributed.get_distributed_dim(DistributedDimNames.tensor_and_data),
             )
-            if distributed_config.sequence_tensor_parallel
+            if config.distributed.sequence_tensor_parallel
             else token_dim
         )
         micro_batches = []
         for micro_sequence_index, sequence_k_past in enumerate(
             range(
-                token_dim.size * distributed_config.sequence_data_rank,
+                token_dim.size * config.distributed.sequence_data_rank,
                 config.batch.sequence_length,
                 token_dim.global_size,
             )
@@ -147,4 +144,4 @@ def from_batch(
                     micro_batch.prediction_masks.append(labels > 0)
 
             micro_batches.append(micro_batch)
-        return LanguageModelPreprocessedBatch(micro_batches=micro_batches)
+        return cls(micro_batches=micro_batches, config=config)
diff --git a/fast_llm/data/data/abstract.py b/fast_llm/data/data/abstract.py
index c5400b6c7..87b6ddd17 100644
--- a/fast_llm/data/data/abstract.py
+++ b/fast_llm/data/data/abstract.py
@@ -3,13 +3,10 @@
 import typing
 
 from fast_llm.config import Configurable
-from fast_llm.data.batch.config import PreprocessedBatch
+from fast_llm.data.batch.config import BatchPreprocessingConfig, PreprocessedBatch
 from fast_llm.data.data.config import DataConfig
-from fast_llm.data.dataset.config import SamplingParameters
-from fast_llm.data.preprocessing.abstract import PreprocessingConfig
 from fast_llm.engine.distributed.config import DistributedConfig
 from fast_llm.engine.schedule.config import BatchConfig
-from fast_llm.utils import Assert
 
 if typing.TYPE_CHECKING:
     from fast_llm.engine.distributed.distributed import Distributed
@@ -17,32 +14,28 @@
 
 class Data[ConfigType: DataConfig](Configurable[ConfigType], abc.ABC):
     _distributed: "Distributed"
-    _sampling_parameters: dict[str, SamplingParameters]
-    _preprocessing: dict[str, PreprocessingConfig]
+    # _sampling_parameters: dict[str, SamplingParameters]
+    # _preprocessing: dict[str, PreprocessingConfig]
     _cache_directory: pathlib.Path | None
+    _is_setup: bool = False
 
     def __init__(self, config: DataConfig, distributed_config: DistributedConfig) -> None:
         super().__init__(config)
         self._distributed_config = distributed_config
 
     # TODO: Improve interface
-    def setup(
-        self,
-        distributed: "Distributed",
-        sampling_parameters: dict[str, SamplingParameters],
-        preprocessing: dict[str, PreprocessingConfig],
-        cache_directory: pathlib.Path,
-        timeout: float | None = None,
-    ) -> None:
-        Assert.eq(sampling_parameters.keys(), preprocessing.keys())
-        self._distributed = distributed
-        self._sampling_parameters = sampling_parameters
-        self._preprocessing = preprocessing
+    def setup(self, cache_directory: pathlib.Path) -> None:
         self._cache_directory = cache_directory
+        self._is_setup = True
 
-    @property
-    def distributed(self):
-        return self._distributed
+    @abc.abstractmethod
+    def sample_dataset(
+        self,
+        dataset_name: str,
+        config: BatchPreprocessingConfig,
+        num_samples: int,
+    ) -> None:
+        pass
 
     @abc.abstractmethod
     def get_iterator(
diff --git a/fast_llm/data/data/gpt/data.py b/fast_llm/data/data/gpt/data.py
index ff1fbd3bc..e15d95e90 100644
--- a/fast_llm/data/data/gpt/data.py
+++ b/fast_llm/data/data/gpt/data.py
@@ -1,13 +1,11 @@
 import functools
 import logging
-import pathlib
 import typing
 import warnings
 
 import torch
 import torch.utils.data
 
-from fast_llm.core.distributed import safe_barrier
 from fast_llm.data.batch.config import LanguageModelBatchPreprocessingConfig
 from fast_llm.data.batch.language_model import LanguageModelPreprocessedBatch
 from fast_llm.data.data.abstract import Data
@@ -20,7 +18,6 @@
 from fast_llm.data.document.language_model import LanguageModelBatch, LanguageModelDocument
 from fast_llm.engine.config_utils.run import log_main_rank
 from fast_llm.engine.distributed.config import DistributedConfig
-from fast_llm.engine.distributed.distributed import Distributed
 from fast_llm.models.gpt.config import GPTBatchConfig
 from fast_llm.utils import Assert
 
@@ -33,9 +30,8 @@ class GPTData[ConfigType: GPTDataConfig](Data[ConfigType]):
     """
 
     _datasets: dict[str, SampledDataset]
-    _sampling_parameters: dict[str, SamplingParameters]
+    # _sampling_parameters: dict[str, SamplingParameters]
     _preprocessing: dict[str, LanguageModelBatchPreprocessingConfig]
-    _is_setup: bool = False
 
     def __init__(
         self,
@@ -47,56 +43,46 @@ def __init__(
         Should be `setup` before use.
         """
         super().__init__(config, distributed_config)
+        self._datasets = {}
+        self._preprocessing = {}
 
-    def setup(
+    def sample_dataset(
         self,
-        distributed: "Distributed",
-        sampling_parameters: dict[str, SamplingParameters],
-        preprocessing: dict[str, LanguageModelBatchPreprocessingConfig],
-        cache_directory: pathlib.Path,
-        timeout: float | None = None,
+        dataset_name: str,
+        config: LanguageModelBatchPreprocessingConfig,
+        num_samples: int,
     ) -> None:
-        """
-        Load the datasets, and prepare or load the samplings.
-        This may take a while and a significant amount of cpu memory.
-        """
-        super().setup(distributed, sampling_parameters, preprocessing, cache_directory)
-
-        # Check and raise an error if a used dataset is not defined.
-        for dataset_name in self._sampling_parameters.keys():
-            if dataset_name not in self._config.datasets:
-                raise ValueError(f"Dataset {dataset_name} not found.")
-
-        # Check and warn if there are defined datasets that are not used.
-        unused_datasets = self._config.datasets.keys() - self._sampling_parameters.keys()
-        if unused_datasets:
-            warnings.warn(
-                f"The following datasets are defined but not used: {', '.join(unused_datasets)}. "
-                "Ensure this is intentional, or update the configuration accordingly."
-            )
+        assert self._is_setup
+        Assert.gt(num_samples, 0)
+        if dataset_name not in self._config.datasets:
+            raise ValueError(f"Dataset {dataset_name} not found.")
+        if dataset_name in self._datasets:
+            raise ValueError(f"Dataset {dataset_name} is already sampled.")
 
-        log_main_rank(f"Preparing dataset. This may take several minutes.")
+        log_main_rank(f"Sampling dataset {dataset_name}. This may take several minutes.")
 
         if self._cache_directory is None:
             # TODO: Avoid this
-            warnings.warn(f"Using the dataset directory for the index cache.")
+            warnings.warn(f"The index cache will be saved in the dataset directory.")
 
-        self._datasets = {}
-        for dataset_name, sampling_parameters in self._sampling_parameters.items():
-            if sampling_parameters.num_samples > 0:
-                sampling = GPTSamplingData(
-                    config=self._config.sampling,
-                    parameters=sampling_parameters,
-                    preprocessing=self._preprocessing[dataset_name],
-                    cache_directory=self._cache_directory,
-                    distributed=distributed,
-                    dataset_name=dataset_name,
-                )
-                dataset = self._config.datasets[dataset_name].build_and_sample(sampling)
-                self._datasets[dataset_name] = DatasetMonitor(dataset, self._config.data_sample_warn_time_ms)
-
-        safe_barrier(self._distributed.world_group, "data_preparation", timeout)
-        self._is_setup = True
+        sampling_parameters = SamplingParameters(
+            sequence_length=config.batch.sequence_length,
+            num_samples=num_samples,
+            truncate_documents=config.batch.truncate_documents,
+            extra_tokens=config.predicted_tokens,
+        )
+
+        sampling = GPTSamplingData(
+            config=self._config.sampling,
+            parameters=sampling_parameters,
+            preprocessing=config,
+            cache_directory=self._cache_directory,
+            distributed_config=self._distributed_config,
+            dataset_name=dataset_name,
+        )
+        self._preprocessing[dataset_name] = config
+        dataset = self._config.datasets[dataset_name].build_and_sample(sampling)
+        self._datasets[dataset_name] = DatasetMonitor(dataset, self._config.data_sample_warn_time_ms)
 
     def get_iterator(
         self,
@@ -116,8 +102,6 @@ def get_iterator(
         dataset_name = dataset_name.lower()
 
         Assert.incl(dataset_name, self._datasets)
-        sampling_parameters = self._sampling_parameters[dataset_name]
-        Assert.in_range_incl(batch_config.sequence_length, 1, sampling_parameters.sequence_length)
         log_main_rank(f"Initializing {dataset_name} dataset iterator from sample {consumed_samples}...")
 
         return iter(
@@ -126,9 +110,9 @@ def get_iterator(
                 batch_sampler=SampledDatasetIterator(
                     total_samples=len(self._datasets[dataset_name]),
                     begin_index=consumed_samples,
-                    micro_batch_size=batch_config.micro_batch_size,
-                    data_rank=self._distributed.config.batch_data_rank,
-                    data_parallel=self._distributed.config.batch_data_parallel,
+                    micro_batch_size=self._preprocessing[dataset_name].batch.micro_batch_size,
+                    data_rank=self._distributed_config.batch_data_rank,
+                    data_parallel=self._distributed_config.batch_data_parallel,
                 ),
                 num_workers=num_workers,
                 prefetch_factor=prefetch_factor,
@@ -145,14 +129,7 @@ def _collate_fn(
         preprocess: bool = True,
     ) -> LanguageModelPreprocessedBatch | LanguageModelBatch:
         documents = [document for documents_ in documents for document in documents_]
-        config = self._preprocessing[dataset_name]
         if preprocess:
-            return LanguageModelPreprocessedBatch.from_documents(
-                documents,
-                config=config,
-                distributed_config=self._distributed_config,
-            )
+            return LanguageModelPreprocessedBatch.from_documents(documents, self._preprocessing[dataset_name])
         else:
-            return LanguageModelBatch.from_documents(
-                documents, pad_to_size=config.batch.sequence_length + config.predicted_tokens
-            )
+            return LanguageModelBatch.from_documents(documents, self._preprocessing[dataset_name].total_length)
diff --git a/fast_llm/data/dataset/config.py b/fast_llm/data/dataset/config.py
index 1e1fece26..39844ac8b 100644
--- a/fast_llm/data/dataset/config.py
+++ b/fast_llm/data/dataset/config.py
@@ -11,11 +11,11 @@
 from fast_llm.data.dataset.abstract import SamplableDataset, SampledDataset
 from fast_llm.data.document.abstract import Document
 from fast_llm.data.preprocessing.abstract import PreprocessingConfig
+from fast_llm.engine.distributed.config import DistributedConfig
 from fast_llm.utils import Assert, normalize_probabilities
 
 if typing.TYPE_CHECKING:
     from fast_llm.data.dataset.indexed import ConcatenatedDataset, DatasetSlice, IndexedDataset
-    from fast_llm.engine.distributed.distributed import Distributed
 
 logger = logging.getLogger(__name__)
 
@@ -85,8 +85,7 @@ class SamplingData:
     config: SamplingConfig
     parameters: SamplingParameters
     cache_directory: pathlib.Path | None
-    # TODO: This prevents the sampling config from being pickled in multiprocessing.
-    distributed: "Distributed"
+    distributed_config: DistributedConfig
     dataset_name: str
     preprocessing: PreprocessingConfig
     # Using a mutable rather than an int so it's shared with all copies made with `update`.
@@ -99,7 +98,7 @@ def update_config(self, update: SamplingConfig):
 
     def get_next_rank(self) -> int:
         # Counter that loops over ranks to try to distribute workloads evenly between ranks.
-        return next(self._rank_counter()) % self.distributed.config.world_size
+        return next(self._rank_counter()) % self.distributed_config.world_size
 
 
 @config_class()
diff --git a/fast_llm/data/dataset/gpt/config.py b/fast_llm/data/dataset/gpt/config.py
index b66bc5445..62da794ee 100644
--- a/fast_llm/data/dataset/gpt/config.py
+++ b/fast_llm/data/dataset/gpt/config.py
@@ -196,7 +196,7 @@ class GPTTestSlowDatasetConfig[DocumentType: LanguageModelDocument](SampledDatas
     )
 
     def build_and_sample(self, sampling: SamplingData) -> SampledDataset[DocumentType]:
-        assert sampling.distributed.config.world_size > 1
-        if sampling.distributed.config.rank == 0:
+        assert sampling.distributed_config.world_size > 1
+        if sampling.distributed_config.rank == 0:
             time.sleep(self.sleep)
         return GPTRandomDatasetConfig[DocumentType]().build_and_sample(sampling)
diff --git a/fast_llm/data/dataset/sampled.py b/fast_llm/data/dataset/sampled.py
index a3b7c05a5..2ae5c693e 100644
--- a/fast_llm/data/dataset/sampled.py
+++ b/fast_llm/data/dataset/sampled.py
@@ -106,7 +106,7 @@ def __init__(
             self._yaml_path = base_path.with_suffix(".yaml")
 
             # Sample or validate the dataset of a given rank.
-            if sampling.distributed.config.rank == sampling.get_next_rank():
+            if sampling.distributed_config.rank == sampling.get_next_rank():
                 self._sample()
             # No barrier yet to allow running in parallel.
             # There needs to be one before calling `__getitem__`, normally handled through `Data`.
diff --git a/fast_llm/engine/base_model/base_model.py b/fast_llm/engine/base_model/base_model.py
index f5f8dc5e7..195a1508a 100644
--- a/fast_llm/engine/base_model/base_model.py
+++ b/fast_llm/engine/base_model/base_model.py
@@ -5,6 +5,7 @@
 import torch.nn
 
 from fast_llm.config import Configurable
+from fast_llm.data.batch.config import PreprocessedBatch
 from fast_llm.engine.base_model.config import BaseModelConfig, LossDef, ResourceUsageConfig
 from fast_llm.engine.distributed.config import DistributedConfig, PhaseType
 from fast_llm.engine.distributed.distributed import Distributed
@@ -174,16 +175,10 @@ def __init__(
         # TODO: Add basic handling (preprocessor) in this class.
         self._reference_models: dict[str, "InferenceRunner"] = {}
 
-    @abc.abstractmethod
-    def preprocess_meta(self, batch_meta: typing.Any, phase: PhaseType) -> list[tuple[TensorMeta, dict]]:
-        # TODO Remove (Move batch splitting elsewhere)
-        pass
-
     @abc.abstractmethod
     def preprocess_batch(
         self,
-        batch: typing.Any,
-        preprocessed_meta: list[tuple[TensorMeta, dict]] | None = None,
+        batch: PreprocessedBatch,
         *,
         phase: PhaseType,
         iteration: int,
diff --git a/fast_llm/engine/config_utils/run.py b/fast_llm/engine/config_utils/run.py
index baa386337..ab6f27489 100644
--- a/fast_llm/engine/config_utils/run.py
+++ b/fast_llm/engine/config_utils/run.py
@@ -231,8 +231,12 @@ def __exit__(self, exc_type, exc_val: OSError, exc_tb):
 _run: Run | None = None
 
 
+def run_exists() -> bool:
+    return _run is not None
+
+
 def get_run() -> Run:
-    assert _run is not None
+    assert run_exists()
     return _run
 
 
diff --git a/fast_llm/engine/distributed/config.py b/fast_llm/engine/distributed/config.py
index c7ab610b2..d0011fc76 100644
--- a/fast_llm/engine/distributed/config.py
+++ b/fast_llm/engine/distributed/config.py
@@ -41,10 +41,9 @@
 
 
 class PhaseType(enum.StrEnum):
-    training = "Training"
-    validation = "Validation"
-    test = "Test"
-    inference = "Inference"
+    training = "training"
+    validation = "validation"
+    inference = "inference"
 
     @property
     def is_training(self) -> bool:
@@ -277,7 +276,7 @@ class DistributedConfig(Config):
     valid_seed_shift: int = Field(
         default=_BIG_PRIMES[9], desc="Seed shift for extra randomness.", hint=FieldHint.optional
     )
-    test_seed_shift: int = Field(
+    inference_seed_shift: int = Field(
         default=_BIG_PRIMES[10], desc="Seed shift for extra randomness.", hint=FieldHint.optional
     )
     # (slower, uses more memory, mainly for debug)
diff --git a/fast_llm/engine/distributed/distributed.py b/fast_llm/engine/distributed/distributed.py
index 6ff9ce227..c13b40b60 100644
--- a/fast_llm/engine/distributed/distributed.py
+++ b/fast_llm/engine/distributed/distributed.py
@@ -223,8 +223,7 @@ def __init__(self, config: DistributedConfig):
         self._phase_seeds_shifts = {
             PhaseType.training: self._config.train_seed_shift,
             PhaseType.validation: self._config.valid_seed_shift,
-            PhaseType.test: self._config.test_seed_shift,
-            PhaseType.inference: self._config.test_seed_shift,
+            PhaseType.inference: self._config.inference_seed_shift,
         }
 
         self.set_step(0, PhaseType.training)
diff --git a/fast_llm/engine/evaluation/config.py b/fast_llm/engine/evaluation/config.py
index df7ab0f51..f7ae62f04 100644
--- a/fast_llm/engine/evaluation/config.py
+++ b/fast_llm/engine/evaluation/config.py
@@ -17,8 +17,7 @@ def get_evaluator(
         self,
         name: str,
         batch_config: BatchConfig,
-        data_load_num_proc: int,
-        train_iters: int | None = None,
+        num_workers: int,
     ) -> "Evaluator":
         pass
 
@@ -46,18 +45,15 @@ class LossEvaluatorConfig(EvaluatorConfig):
         valid=skip_valid_if_none(check_field(Assert.gt, 0)),
     )
 
-    dataset_name: str | None = Field(default=None)
-
     def get_evaluator(
         self,
         name: str,
         batch_config: BatchConfig,
-        data_load_num_proc: int,
-        train_iters: int | None = None,
+        num_workers: int,
     ) -> "LossEvaluator":
         from fast_llm.engine.evaluation.evaluator import LossEvaluator
 
-        return LossEvaluator(name, self, batch_config, data_load_num_proc, train_iters)
+        return LossEvaluator(name, self, batch_config, num_workers)
 
 
 @config_class(dynamic_type={EvaluatorConfig: "lm_eval"})
@@ -113,9 +109,8 @@ def get_evaluator(
         self,
         name: str,
         batch_config: BatchConfig,
-        data_load_num_proc: int,
-        train_iters: int | None = None,
+        num_workers: int,
     ) -> "EvaluatorLmEval":
         from fast_llm.engine.evaluation.lm_eval.evaluator import LmEvalEvaluator
 
-        return LmEvalEvaluator(name, self, batch_config, data_load_num_proc, train_iters)
+        return LmEvalEvaluator(name, self, batch_config, num_workers)
diff --git a/fast_llm/engine/evaluation/evaluator.py b/fast_llm/engine/evaluation/evaluator.py
index e055595bd..8a3bd7e3d 100644
--- a/fast_llm/engine/evaluation/evaluator.py
+++ b/fast_llm/engine/evaluation/evaluator.py
@@ -1,24 +1,22 @@
 import abc
 import dataclasses
-import functools
 import logging
-import math
 import time
 import typing
 
 from fast_llm.config import Configurable
 from fast_llm.core.distributed import safe_barrier
+from fast_llm.data.batch.config import PreprocessedBatch
 from fast_llm.data.data.abstract import Data
-from fast_llm.engine.config_utils.run import Run, log_main_rank
+from fast_llm.engine.base_model.config import LossDef
+from fast_llm.engine.config_utils.run import get_run, log_main_rank, run_exists
 from fast_llm.engine.distributed.config import PhaseType
 from fast_llm.engine.distributed.distributed import Distributed
-from fast_llm.engine.evaluation.config import EvaluatorConfig, EvaluatorConfigBase, LossEvaluatorConfig
+from fast_llm.engine.evaluation.config import EvaluatorConfig, LossEvaluatorConfig
 from fast_llm.engine.multi_stage.fast_llm_model import FastLLMModel
 from fast_llm.engine.schedule.config import BatchConfig
 from fast_llm.engine.schedule.runner import ScheduleRunner
 from fast_llm.engine.schedule.schedule import Schedule
-from fast_llm.engine.training.config import WandbConfig
-from fast_llm.engine.training.wandb import Wandb
 from fast_llm.logging import format_metrics
 from fast_llm.utils import get_and_reset_memory_usage_mib
 
@@ -27,284 +25,141 @@
 
 @dataclasses.dataclass
 class TrainingProgress:
-    done: bool
     completed_steps: int
     consumed_samples: int
     consumed_tokens: int
 
 
-@dataclasses.dataclass
-class EvaluationMetrics:
-    metrics: dict[str, any] = dataclasses.field(default_factory=dict)
-    formatted_metrics: str | None = None
-
-
-@dataclasses.dataclass
-class EvaluatorSamplingParameters:
-    dataset_name: str
-    num_samples: int
-
-
 class Evaluator[ConfigType: EvaluatorConfig](Configurable[ConfigType], abc.ABC):
     _is_setup: bool = False
+    _multi_stage: FastLLMModel
+    _runner: ScheduleRunner
+    _data: Data
+    _distributed: Distributed
 
     def __init__(
         self,
         name: str,
         eval_config: LossEvaluatorConfig,
         batch_config: BatchConfig,
-        data_load_num_proc: int,
-        train_iters: int | None = None,
+        num_workers: int,
     ):
         super().__init__(eval_config)
         self._name = name
         self._batch_config = batch_config
-        self._data_load_num_proc = data_load_num_proc
-        self._train_iters = train_iters
+        self._num_workers = num_workers
 
+    @abc.abstractmethod
     def setup(
         self,
-        distributed: Distributed,
-        run: Run,
         multi_stage: FastLLMModel,
         runner: ScheduleRunner,
         data: Data,
-        phase: PhaseType,
+        run_count: int,
     ) -> None:
-        # TODO: check if objects passed are actually set up themselves, if appropriate
-        self._distributed = distributed
-        self._run = run
         self._runner = runner
         self._multi_stage = multi_stage
+        self._distributed = multi_stage.distributed
         self._data = data
-        self._phase = phase
+        self._is_setup = True
 
     @abc.abstractmethod
     def run(
         self,
-        training_progress: TrainingProgress | None = None,
-        run_index: int | None = None,
-    ) -> EvaluationMetrics: ...
-
-    @abc.abstractmethod
-    def get_sampling_parameters(self) -> EvaluatorSamplingParameters | None:
-        """
-        Returns the name and number of required samples in a dataset,
-        or None if the evaluation does not rely on Fast-LLM data or
-        if the evaluation is skipped for this run.
-        """
+        run_index: int | None,
+        metrics: dict[str, typing.Any],
+    ) -> None:
+        pass
 
 
 class LossEvaluator[ConfigType: LossEvaluatorConfig](Evaluator[ConfigType]):
+    _data_iterator: typing.Iterator[PreprocessedBatch] | None = None
+    _loss_definitions: list[LossDef]
+    _schedule: Schedule
+    _data: Data
+
     def setup(
         self,
-        distributed: Distributed,
-        run: Run,
         multi_stage: FastLLMModel,
         runner: ScheduleRunner,
         data: Data,
-        phase: PhaseType,
+        run_count: int,
     ) -> None:
-        super().setup(distributed, run, multi_stage, runner, data, phase)
+        super().setup(multi_stage, runner, data, run_count)
 
+        preprocessing_config = self._multi_stage.get_preprocessing_config(PhaseType.validation)
+        self._data.sample_dataset(
+            self._name, preprocessing_config, run_count * self._config.iterations * self._batch_config.batch_size
+        )
         # Setup the schedule
         self._schedule = Schedule(
+            config=runner.config,
             multi_stage=self._multi_stage,
-            batch_config=self._batch_config,
-            schedule_config=runner.config,
-            distributed_config=distributed.config,
+            batch_meta=preprocessing_config.get_batch_meta(),
+            distributed_config=self._distributed.config,
             phase=PhaseType.validation,
         )
-
-        self._loss_defs = self._multi_stage.base_model.get_loss_definitions()
-        self._evaluation_iterator = None
-        self._is_setup = True
-
-    def get_sampling_parameters(self) -> EvaluatorSamplingParameters | None:
-        return (
-            None
-            if self._config.iterations is None
-            else EvaluatorSamplingParameters(
-                (self._name if self._config.dataset_name is None else self._config.dataset_name),
-                self._config.iterations * self._batch_config.batch_size,
-            )
-        )
+        self._loss_definitions = self._multi_stage.base_model.get_loss_definitions()
+        self._data_iterator = None
 
     def run(
         self,
-        training_progress: TrainingProgress | None = None,
-        run_index: int | None = None,
-    ) -> EvaluationMetrics:
+        run_index: int,
+        metrics: dict[str, typing.Any],
+    ) -> None:
         assert self._is_setup
-        if run_index is None:
-            run_index = 0
-
-        metrics = {}
-
-        if self._evaluation_iterator is None:
-            self._evaluation_iterator = self._get_data_iterator(self._get_completed_evaluation_steps(run_index))
-        # TODO: formatting metric category as Validation.evaluation_dataset_name
-        #       maybe format each metric with evaluation_dataset_name prefix instead?
-        # TODO: setting performance metrics per evaluation dataset
-        #       maybe to set aggregate performance metrics for all evaluations datasets?
-        phase = PhaseType.validation
-        metric_key = f"{phase.value}.{self._name}"
-        metrics[metric_key] = self._evaluate_loss(
-            data_iterator=self._evaluation_iterator,
-            phase=phase,
-            num_iters=self._config.iterations,
-            begin_iter=self._get_completed_evaluation_steps(run_index),
-            completed_steps=None if training_progress is None else training_progress.completed_steps,
-        )
-
-        if self._train_iters is not None:
-            metrics[metric_key]["train_iters"] = self._train_iters
-
-        if training_progress is not None:
-            metrics[metric_key]["iteration"] = training_progress.completed_steps
-            metrics[metric_key]["consumed_samples"] = training_progress.consumed_samples
-            metrics[metric_key]["consumed_tokens"] = training_progress.consumed_tokens
-
-        formatted_metrics = format_metrics(
-            metrics[metric_key],
-            self._loss_defs,
-            phase,
-            dataset_name=self._name,
-        )
-
-        return EvaluationMetrics(metrics, formatted_metrics)
-
-    def _evaluate_loss(
-        self,
-        *,
-        data_iterator: typing.Iterator,
-        phase: PhaseType,
-        num_iters: int,
-        completed_steps: int | None,
-        begin_iter: int = 0,
-    ) -> dict[str, float | int]:
-        full_phase_name = f"{phase.value}_{self._name}"
-        safe_barrier(self._distributed.world_group, f"{full_phase_name} begin")
+        completed_evaluation_steps = max(0, run_index - 1) * self.config.iterations
+
+        if self._data_iterator is None:
+            self._data.get_iterator(
+                self._batch_config,
+                self._name,
+                consumed_samples=completed_evaluation_steps * self._batch_config.batch_size,
+                num_workers=self._num_workers,
+            )
+        safe_barrier(self._distributed.world_group, f"{PhaseType.validation} {self._name} begin")
         begin_time = time.perf_counter()
-        total_losses = {loss_def.name: 0.0 for loss_def in self._loss_defs}
-        for iter_ in range(num_iters):
-            iter_losses, _, _ = self._runner.run_step(data_iterator, self._schedule, iteration=begin_iter + iter_)
+        total_losses = {loss_def.name: 0.0 for loss_def in self._loss_definitions}
+        for iter_ in range(self._config.iterations):
+            iter_losses, _, _ = self._runner.run_step(
+                self._data_iterator, self._schedule, iteration=completed_evaluation_steps + iter_
+            )
             for name, value in iter_losses.items():
                 total_losses[name] += value
 
-            tensor_save_name = (
-                f"{full_phase_name}_{iter_}"
-                if completed_steps is None
-                else f"{full_phase_name}_{completed_steps}_{iter_}"
-            )
-            self._run.save_logged_tensors(tensor_save_name)
+            if run_exists():
+                get_run().save_logged_tensors(
+                    f"{PhaseType.validation}_{self._name}_{metrics.get("completed_steps",run_index)}"
+                )
 
         safe_barrier(
             self._distributed.world_group,
-            f"{full_phase_name} end",
+            f"{PhaseType.validation} {self._name}  end",
         )
-        end_time = time.perf_counter()
-        time_per_iteration = (end_time - begin_time) / num_iters
-
-        model_compute, hardware_compute = self._schedule.compute_usage
-        model_tflops = math.nan if model_compute is None else model_compute / time_per_iteration
-        hardware_tflops = math.nan if hardware_compute is None else hardware_compute / time_per_iteration
-        # TODO add other relevant eval metrics
-        metrics = {
-            "batch_size": self._batch_config.batch_size,
-            **{name: (value / num_iters) for name, value in total_losses.items()},
-            "step_time_ms": time_per_iteration * 1000,
-            "model_tflops": model_tflops,
-            "hardware_tflops": hardware_tflops,
-            "tokens_per_sec_per_gpu": (
-                (self._batch_config.sequence_length * self._batch_config.batch_size)
-                / self._schedule._distributed_config.world_size
-                / time_per_iteration
-            ),
-            **get_and_reset_memory_usage_mib(),
-        }
-        return metrics
-
-    def _get_completed_evaluation_steps(self, run_index: int) -> int:
-        # Number of evaluations steps performed before the current step
-        return max(0, run_index - 1) * self.config.iterations
-
-    def _get_data_iterator(
-        self, completed_steps: int = 0, prefetch_factor: int | None = None
-    ) -> typing.Iterator[typing.Any]:
-        return self._data.get_iterator(
-            self._batch_config,
-            self._name,
-            consumed_samples=completed_steps * self._batch_config.batch_size,
-            num_workers=self._data_load_num_proc,
-            prefetch_factor=prefetch_factor,
+        time_per_iteration = (time.perf_counter() - begin_time) / self._config.iterations
+
+        metrics.update(
+            {
+                "batch_size": self._batch_config.batch_size,
+                **{name: (value / self._config.iterations) for name, value in total_losses.items()},
+                "step_time_ms": time_per_iteration * 1000,
+                **self._schedule.get_compute_metrics(time_per_iteration),
+                "tokens_per_sec_per_gpu": (
+                    (self._batch_config.sequence_length * self._batch_config.batch_size)
+                    / self._distributed.config.world_size
+                    / time_per_iteration
+                ),
+                **get_and_reset_memory_usage_mib(),
+            }
         )
 
-    @functools.cached_property
-    def compute_usage(self) -> tuple[int | None, int | None]:
-        return self._schedule.get_compute_usage(hardware=False), self._schedule.get_compute_usage(hardware=True)
-
-
-# NOTE: This is not a standalone runnable; it's a submodule of Trainer used for code encapsulation.
-class EvaluatorRunner:
-    _is_setup: bool = False
-
-    def __init__(
-        self,
-        evaluator_configs: dict[str, EvaluatorConfigBase],
-        batch_config: BatchConfig,
-        data_load_num_proc: int,
-        train_iters: int | None = None,
-        wandb_config: WandbConfig | None = None,
-    ):
-        self._wandb_config = wandb_config
-        self._evaluators = [
-            eval_config.get_evaluator(name, batch_config, data_load_num_proc, train_iters)
-            for name, eval_config in evaluator_configs.items()
-        ]
-
-    def setup(
-        self,
-        distributed: Distributed,
-        run: Run,
-        multi_stage: FastLLMModel,
-        runner: ScheduleRunner,
-        data: Data,
-        wandb: Wandb,
-        phase: PhaseType,
-    ) -> None:
-        self._wandb = wandb
-        for evaluator in self._evaluators:
-            evaluator.setup(distributed, run, multi_stage, runner, data, phase)
-        self._is_setup = True
-
-    def get_sampling_parameters(self) -> list[EvaluatorSamplingParameters]:
-        return [
-            sampling_params
-            for sampling_params in (evaluator.get_sampling_parameters() for evaluator in self._evaluators)
-            if sampling_params is not None
-        ]
-
-    def run(
-        self,
-        metrics: dict[str:any],
-        training_progress: TrainingProgress | None = None,
-    ):
-        assert self._is_setup
-        formatted_metrics = []
-        for evaluator in self._evaluators:
-            evaluation_metrics = evaluator.run(training_progress)
-            if len(evaluation_metrics.metrics) == 0:
-                continue
-            for k, v in evaluation_metrics.metrics.items():
-                metrics[k] = v
-            if evaluation_metrics.formatted_metrics is not None:
-                formatted_metrics.append(evaluation_metrics.formatted_metrics)
-
-        if len(formatted_metrics) > 0:
-            formatted_metrics = "\n".join(formatted_metrics)
-            log_main_rank(formatted_metrics)
-            if self._wandb_config is not None and self._wandb_config.alert.enabled(
-                0 if training_progress is None else training_progress.completed_steps
-            ):
-                self._wandb.alert("Validation results", formatted_metrics, "INFO")
+        log_main_rank(
+            "\n".join(
+                format_metrics(
+                    metrics,
+                    self._loss_definitions,
+                    PhaseType.validation,
+                    dataset_name=self._name,
+                )
+            )
+        )
diff --git a/fast_llm/engine/evaluation/lm_eval/evaluator.py b/fast_llm/engine/evaluation/lm_eval/evaluator.py
index 5bfb544ed..d03f87a24 100644
--- a/fast_llm/engine/evaluation/lm_eval/evaluator.py
+++ b/fast_llm/engine/evaluation/lm_eval/evaluator.py
@@ -4,38 +4,26 @@
 import typing
 
 from fast_llm.data.data.abstract import Data
-from fast_llm.engine.config_utils.run import Run
-from fast_llm.engine.distributed.config import PhaseType
-from fast_llm.engine.distributed.distributed import Distributed
 from fast_llm.engine.evaluation.config import LmEvalEvaluatorConfig
-from fast_llm.engine.evaluation.evaluator import (
-    EvaluationMetrics,
-    Evaluator,
-    EvaluatorSamplingParameters,
-    TrainingProgress,
-)
+from fast_llm.engine.evaluation.evaluator import Evaluator
+from fast_llm.engine.evaluation.lm_eval.fast_llm_wrapper import FastLLMLmEvalWrapper
+from fast_llm.engine.inference.huggingface import HuggingfacePreTrainedModel
 from fast_llm.engine.multi_stage.fast_llm_model import FastLLMModel
 from fast_llm.engine.schedule.runner import ScheduleRunner
 
-if typing.TYPE_CHECKING:
-    from fast_llm.engine.evaluation.lm_eval.fast_llm_wrapper import FastLLMLmEvalWrapper
-    from fast_llm.engine.inference.huggingface import HuggingfaceBaseModelForCausalLM
-
 logger = logging.getLogger(__name__)
 
 
 class LmEvalEvaluator[ConfigType: LmEvalEvaluatorConfig](Evaluator[ConfigType]):
-    _hf_model: "HuggingfaceBaseModelForCausalLM" = None
-    _flm_wrapper: "FastLLMLmEvalWrapper" = None
+    _hf_model: HuggingfacePreTrainedModel
+    _flm_wrapper: FastLLMLmEvalWrapper
 
     def setup(
         self,
-        distributed: Distributed,
-        run: Run,
         multi_stage: FastLLMModel,
         runner: ScheduleRunner,
         data: Data,
-        phase: PhaseType,
+        run_count: int,
     ) -> None:
         if "HUGGINGFACE_API_KEY_PATH" in os.environ:
             os.environ["HF_TOKEN"] = pathlib.Path(os.environ["HUGGINGFACE_API_KEY_PATH"]).open("r").read().strip()
@@ -48,18 +36,16 @@ def setup(
 
         from fast_llm.engine.evaluation.lm_eval.fast_llm_wrapper import FastLLMLmEvalWrapper
 
-        super().setup(distributed, run, multi_stage, runner, data, phase)
+        super().setup(multi_stage, runner, data, run_count)
 
-        self._hf_model = self._multi_stage.config_class.get_huggingface_model_for_causal_lm_class()(
-            self._multi_stage, runner=self._runner
-        )
+        hf_model = multi_stage.config_class.get_huggingface_model_for_causal_lm_class()(multi_stage, runner=runner)
 
         # For reporting purposes, just to indicate it is from Fast-LLM
         # as lm_eval.simple_evaluate will take it for results['config']['model']
-        self._hf_model.config.name_or_path = type(self._hf_model).__name__
+        hf_model.config.name_or_path = type(hf_model).__name__
 
         self._flm_wrapper = FastLLMLmEvalWrapper(
-            model=self._hf_model,
+            model=hf_model,
             tokenizer=self._config.tokenizer.get_tokenizer(),
             truncation=self._config.truncation,
             logits_cache=self._config.logits_cache,
@@ -73,18 +59,8 @@ def setup(
 
     def run(
         self,
-        training_progress: TrainingProgress | None = None,
-        run_index: int | None = None,
-    ) -> EvaluationMetrics:
+        run_index: int | None,
+        metrics: dict[str, typing.Any],
+    ) -> None:
         assert self._is_setup
-
-        # completed_steps is added to output_path like output_path/runs/run_index/completed_steps/
-        completed_steps = 0 if training_progress is None else training_progress.completed_steps
-
-        self._flm_wrapper.run(self._config.cli_args, completed_steps, self._run.index)
-
-        # lm_eval logs to disc, wandb and prints to screen itself
-        return EvaluationMetrics()
-
-    def get_sampling_parameters(self) -> EvaluatorSamplingParameters | None:
-        return None
+        self._flm_wrapper.run(self._config.cli_args, metrics.get("completed_steps", 0), self._run.index)
diff --git a/fast_llm/engine/evaluation/lm_eval/fast_llm_wrapper.py b/fast_llm/engine/evaluation/lm_eval/fast_llm_wrapper.py
index bc42515e7..1b41f21c5 100644
--- a/fast_llm/engine/evaluation/lm_eval/fast_llm_wrapper.py
+++ b/fast_llm/engine/evaluation/lm_eval/fast_llm_wrapper.py
@@ -15,7 +15,7 @@
 from fast_llm.core.distributed import gather_object, safe_barrier, scatter_object
 from fast_llm.engine.distributed.distributed import Distributed
 from fast_llm.engine.evaluation.lm_eval.utils import prepare_lm_eval_simple_eval_params, process_lm_eval_results
-from fast_llm.engine.inference.huggingface import HuggingfaceBaseModelForCausalLM
+from fast_llm.engine.inference.huggingface import HuggingfacePreTrainedModel
 from fast_llm.engine.schedule.config import BatchConfig
 from fast_llm.layers.attention.rotary.config import NoRotaryConfig
 
@@ -28,7 +28,7 @@ class FastLLMLmEvalWrapper(lm_eval.api.model.TemplateLM):
 
     def __init__(
         self,
-        model: HuggingfaceBaseModelForCausalLM,
+        model: HuggingfacePreTrainedModel,
         tokenizer: transformers.PreTrainedTokenizer | transformers.PreTrainedTokenizerFast,
         truncation: bool | None = False,
         logits_cache: bool = True,
diff --git a/fast_llm/engine/multi_stage/fast_llm_model.py b/fast_llm/engine/multi_stage/fast_llm_model.py
index ccde838e8..9ac6c5ccf 100644
--- a/fast_llm/engine/multi_stage/fast_llm_model.py
+++ b/fast_llm/engine/multi_stage/fast_llm_model.py
@@ -1,9 +1,12 @@
+import abc
 import logging
 import typing
 
 from fast_llm.config import UpdateType
 from fast_llm.core.distributed import broadcast
+from fast_llm.data.batch.config import BatchPreprocessingConfig
 from fast_llm.engine.checkpoint.config import CheckpointLoadConfig, CheckpointSaveConfig
+from fast_llm.engine.distributed.config import PhaseType
 from fast_llm.engine.distributed.distributed import Distributed
 from fast_llm.engine.multi_stage.config import FastLLMModelConfig, StageMode
 from fast_llm.engine.multi_stage.multi_stage import MultiStageModel
@@ -77,6 +80,13 @@ def from_pretrained(
                     model.initialize_weights()
         return model
 
+    @abc.abstractmethod
+    def get_preprocessing_config(
+        self,
+        phase: PhaseType,
+    ) -> BatchPreprocessingConfig:
+        pass
+
     def initialize_weights(self, timeout: float | None = None) -> None:
         assert self._is_setup
         for stage in self._stages:
diff --git a/fast_llm/engine/schedule/config.py b/fast_llm/engine/schedule/config.py
index 8696f0a59..1bffa0f0a 100644
--- a/fast_llm/engine/schedule/config.py
+++ b/fast_llm/engine/schedule/config.py
@@ -43,14 +43,14 @@ class BatchConfig(Config):
         hint=FieldHint.core,
         valid=check_field(Assert.gt, 0),
     )
-    _distributed: DistributedConfig = Field(
+    distributed: DistributedConfig = Field(
         init=False,
         desc="Pointer to a distributed configuration, required to know the data-parallel split of the batch.",
         hint=FieldHint.setup,
     )
 
     def setup(self, distributed_config: DistributedConfig) -> None:
-        self._distributed = distributed_config
+        self.distributed = distributed_config
 
     @functools.cached_property
     def num_inputs(self) -> int:
@@ -73,19 +73,19 @@ def _validate(self) -> None:
                 if self.micro_batch_size is None:
                     self.micro_batch_size = 1
                 self.batch_size = (
-                    self.micro_batch_size * self.sequential_micro_batches * self._distributed.batch_data_parallel
+                    self.micro_batch_size * self.sequential_micro_batches * self.distributed.batch_data_parallel
                 )
             elif self.micro_batch_size is None:
                 self.micro_batch_size = div(
-                    self.batch_size, self.sequential_micro_batches * self._distributed.batch_data_parallel
+                    self.batch_size, self.sequential_micro_batches * self.distributed.batch_data_parallel
                 )
         else:
             self.sequential_micro_batches = div(
-                self.batch_size, self.micro_batch_size * self._distributed.batch_data_parallel
+                self.batch_size, self.micro_batch_size * self.distributed.batch_data_parallel
             )
             if self.depth_first_micro_batches is None:
                 if self.breadth_first_micro_batches is None:
-                    if self._distributed.pipeline_parallel > 1:
+                    if self.distributed.pipeline_parallel > 1:
                         self.depth_first_micro_batches = 1
                         self.breadth_first_micro_batches = self.sequential_micro_batches
                     else:
@@ -102,7 +102,7 @@ def _validate(self) -> None:
                     self.sequential_micro_batches, self.breadth_first_micro_batches * self.depth_first_micro_batches
                 )
 
-        if self._distributed.pipeline_parallel > 1 and self.depth_first_micro_batches > 1:
+        if self.distributed.pipeline_parallel > 1 and self.depth_first_micro_batches > 1:
             raise NotImplementedError("Depth-first pipeline parallelism not yet implemented")
         super()._validate()
 
diff --git a/fast_llm/engine/schedule/runner.py b/fast_llm/engine/schedule/runner.py
index 4a6f3b3cb..92adfb1a9 100644
--- a/fast_llm/engine/schedule/runner.py
+++ b/fast_llm/engine/schedule/runner.py
@@ -149,7 +149,7 @@ def run_step(
         preprocessed: bool = False,
     ) -> tuple[dict[str, float | int], bool, dict[str, typing.Any] | None]:
         assert self._is_setup
-        assert schedule._schedule_config is self._config  # Noqa
+        assert schedule._config is self._config  # Noqa
         if schedule.phase.is_training:
             assert self._support_training
 
@@ -335,7 +335,6 @@ def _preprocess_data(
             if not preprocessed:
                 micro_batch_data = self._multi_stage.base_model.preprocess_batch(
                     micro_batch_data,
-                    context.schedule.preprocessed_meta,
                     phase=context.phase,
                     iteration=context.iteration,
                     metrics=context.metrics,
diff --git a/fast_llm/engine/schedule/schedule.py b/fast_llm/engine/schedule/schedule.py
index fa25c914d..b0b72763e 100644
--- a/fast_llm/engine/schedule/schedule.py
+++ b/fast_llm/engine/schedule/schedule.py
@@ -1,7 +1,7 @@
-import abc
 import dataclasses
 import functools
 import logging
+import math
 import typing
 import warnings
 
@@ -10,11 +10,12 @@
 import torch.utils
 import torch.utils.data
 
+from fast_llm.config import Configurable
+from fast_llm.data.batch.config import PreprocessedBatch
 from fast_llm.engine.base_model.config import ResourceUsageConfig
 from fast_llm.engine.distributed.config import DistributedConfig, PhaseType
 from fast_llm.engine.multi_stage.multi_stage import MultiStageModel
 from fast_llm.engine.schedule.config import BatchConfig, ScheduleConfig, StepType
-from fast_llm.tensor import TensorMeta
 from fast_llm.utils import Assert
 
 logger = logging.getLogger(__name__)
@@ -117,18 +118,19 @@ def get_stage_index(self, num_stages) -> int:
         return self.stage if self.type_ == StepType.forward else 2 * num_stages - 1 - self.stage
 
 
-class Schedule(abc.ABC):
+class Schedule[ConfigType: ScheduleConfig](Configurable[ConfigType]):
     def __init__(
         self,
+        config: ConfigType,
+        *,
         multi_stage: MultiStageModel,
-        batch_config: BatchConfig,
-        schedule_config: ScheduleConfig,
+        batch_meta: PreprocessedBatch,
         distributed_config: DistributedConfig,
         phase: PhaseType,
     ):
+        super().__init__(config)
         self._multi_stage = multi_stage
-        self._batch_config = batch_config
-        self._schedule_config = schedule_config
+        self._batch_config = batch_meta.config.batch
         self._distributed_config = distributed_config
         self._num_stages = len(self._multi_stage.stages)
         self._phase = phase
@@ -138,9 +140,10 @@ def __init__(
             warnings.warn("Not enough input to achieve true pipeline parallelism.")
 
         # Setup the activation metas.
-        self._preprocessed_meta = self._multi_stage.base_model.preprocess_meta(
-            self._batch_config,
+        self._preprocessed_meta = self._multi_stage.base_model.preprocess_batch(
+            batch_meta,
             phase=self._phase,
+            iteration=0,
         )
 
         self._steps, self._first_grad_stage = self._create_steps()
@@ -155,7 +158,7 @@ def __init__(
         self._setup_throttle_steps()
         self._setup_metas()
 
-        if self._schedule_config.debug_schedule:
+        if self._config.debug_schedule:
             logger.info(f"{self._phase.value} schedule:\n{self._steps}")
 
     @property
@@ -166,10 +169,6 @@ def phase(self) -> PhaseType:
     def batch_config(self) -> BatchConfig:
         return self._batch_config
 
-    @property
-    def preprocessed_meta(self) -> list[tuple[TensorMeta, dict]]:
-        return self._preprocessed_meta
-
     def iterate(self, pipeline_rank: int | None = None) -> typing.Iterator[Step]:
         return iter(self._steps if pipeline_rank is None else self._device_steps[pipeline_rank])
 
@@ -281,7 +280,7 @@ def _setup_restore_steps(self, weight_buffer_indices: dict[int, int]) -> None:
             for step in device_steps:
                 buffer_index = weight_buffer_indices[step.stage]
                 if buffer_contents.get(buffer_index) != step.stage:
-                    if self._schedule_config.data_overlap and self._distributed_config.use_cuda:
+                    if self._config.data_overlap and self._distributed_config.use_cuda:
                         step.restore_step = device_steps[buffer_last_used.get(buffer_index, -1) + 1]
                         step.restore_event = torch.cuda.Event()
                     else:
@@ -378,7 +377,7 @@ def _setup_send_recv_steps(self) -> None:
                     launch_step.recv_launch.append(recv_step)
                     send_step.send_to = launch_step
                     recv_step.recv_step = launch_step
-                    if self._schedule_config.pipeline_overlap and self._distributed_config.use_cuda:
+                    if self._config.pipeline_overlap and self._distributed_config.use_cuda:
                         recv_step.recv_event = torch.cuda.Event()
 
     def _validate_send_recv_steps(self) -> None:
@@ -449,12 +448,12 @@ def _validate_send_recv_steps(self) -> None:
             raise RuntimeError(f"Cannot find valid timeline for {self}, \nStatuses:{msg}")
 
     def _setup_throttle_steps(self) -> None:
-        if not self._schedule_config.throttle_cpu or not self._distributed_config.use_cuda:
+        if not self._config.throttle_cpu or not self._distributed_config.use_cuda:
             return
         for device_steps in self._device_steps:
             for i, step in enumerate(device_steps):
-                if i >= self._schedule_config.throttle_cpu_delay and i % self._schedule_config.throttle_cpu_rate == 0:
-                    throttle_step = device_steps[i - self._schedule_config.throttle_cpu_delay]
+                if i >= self._config.throttle_cpu_delay and i % self._config.throttle_cpu_rate == 0:
+                    throttle_step = device_steps[i - self._config.throttle_cpu_delay]
                     throttle_step.throttle_event = torch.cuda.Event()
                     step.throttle_step = throttle_step
 
@@ -548,3 +547,10 @@ def get_compute_usage(
     @functools.cached_property
     def compute_usage(self) -> tuple[int | None, int | None]:
         return self.get_compute_usage(True, False), self.get_compute_usage(True, True)
+
+    def get_compute_metrics(self, time_per_iteration: float) -> dict[str, float]:
+        model_compute, hardware_compute = self.compute_usage
+        return {
+            "model_tflops": math.nan if model_compute is None else model_compute / time_per_iteration,
+            "hardware_tflops": math.nan if hardware_compute is None else hardware_compute / time_per_iteration,
+        }
diff --git a/fast_llm/engine/training/config.py b/fast_llm/engine/training/config.py
index 867cca984..9a1dfcc04 100644
--- a/fast_llm/engine/training/config.py
+++ b/fast_llm/engine/training/config.py
@@ -32,7 +32,8 @@
 from fast_llm.utils import Assert
 
 if typing.TYPE_CHECKING:
-    from fast_llm.engine.training.trainer import Trainer, TrainingEvaluator
+    from fast_llm.engine.evaluation.evaluator import Evaluator
+    from fast_llm.engine.training.trainer import Trainer
 
 
 @config_class()
@@ -163,12 +164,9 @@ def get_evaluator(
         self,
         name: str,
         batch_config: BatchConfig,
-        data_load_num_proc: int,
-        train_iters: int | None = None,
-    ) -> "TrainingEvaluator":
-        from fast_llm.engine.training.trainer import TrainingEvaluator
-
-        return TrainingEvaluator(name, self, batch_config, data_load_num_proc, train_iters)
+        num_workers: int,
+    ) -> "Evaluator":
+        return self.evaluator.get_evaluator(name, batch_config, num_workers)
 
 
 @config_class()
@@ -288,12 +286,6 @@ class TrainingConfig(Config):
     train_iters: int = Field(
         default=0, desc="Total number of training iterations.", hint=FieldHint.core, valid=check_field(Assert.geq, 0)
     )
-    test_iters: int = Field(
-        default=0,
-        desc="Number of iterations for the test phase at the end of training. Setting to 0 will disable the test phase.",
-        hint=FieldHint.feature,
-        valid=check_field(Assert.geq, 0),
-    )
     num_workers: int = Field(
         default=2,
         desc="Number of data loading processes for each data iterator.",
diff --git a/fast_llm/engine/training/trainer.py b/fast_llm/engine/training/trainer.py
index 68c73bf70..0290a6468 100644
--- a/fast_llm/engine/training/trainer.py
+++ b/fast_llm/engine/training/trainer.py
@@ -11,30 +11,18 @@
 from fast_llm.config import Configurable
 from fast_llm.core.distributed import allreduce_scalar, safe_barrier
 from fast_llm.data.data.abstract import Data
-from fast_llm.data.dataset.config import SamplingParameters
-from fast_llm.data.preprocessing.abstract import NullPreprocessingConfig, PreprocessingConfig
 from fast_llm.engine.config_utils.run import Run, is_main_rank, log_main_rank, log_pipeline_parallel_main_rank
 from fast_llm.engine.distributed.config import PhaseType
 from fast_llm.engine.distributed.distributed import Distributed
-from fast_llm.engine.evaluation.evaluator import (
-    EvaluationMetrics,
-    Evaluator,
-    EvaluatorRunner,
-    EvaluatorSamplingParameters,
-    TrainingProgress,
-)
 from fast_llm.engine.multi_stage.config import StageMode
-from fast_llm.engine.multi_stage.fast_llm_model import FastLLMModel
 from fast_llm.engine.optimizer.config import ParamGroup
 from fast_llm.engine.optimizer.optimizer import Optimizer
-from fast_llm.engine.schedule.config import BatchConfig
 from fast_llm.engine.schedule.runner import ScheduleRunner
 from fast_llm.engine.schedule.schedule import Schedule
 from fast_llm.engine.training.config import (
     TrainerConfig,
     TrainingCheckpointBaseConfig,
     TrainingCheckpointConfig,
-    TrainingEvaluatorConfig,
 )
 from fast_llm.engine.training.wandb import Wandb
 from fast_llm.logging import format_metrics, log_memory_usage
@@ -43,99 +31,26 @@
 logger = logging.getLogger(__name__)
 
 
-class TrainingEvaluator[ConfigType: TrainingEvaluatorConfig](Evaluator[ConfigType]):
-    evaluator: Evaluator
-
-    def __init__(
-        self,
-        name: str,
-        eval_config: TrainingEvaluatorConfig,
-        batch_config: BatchConfig,
-        data_load_num_proc: int,
-        train_iters: int | None = None,
-    ):
-        super().__init__(name, eval_config, batch_config, data_load_num_proc, train_iters)
-
-        self._train_iters = 0 if self._train_iters is None else self._train_iters
-
-        self.evaluator = eval_config.evaluator.get_evaluator(name, batch_config, data_load_num_proc, train_iters)
-
-    def setup(
-        self,
-        distributed: Distributed,
-        run: Run,
-        multi_stage: FastLLMModel,
-        runner: ScheduleRunner,
-        data: Data,
-        phase: PhaseType,
-    ) -> None:
-        self.evaluator.setup(
-            distributed,
-            run,
-            multi_stage,
-            runner,
-            data,
-            phase,
-        )
-
-    def run(
-        self,
-        training_progress: TrainingProgress | None = None,
-        run_index: int | None = None,
-    ) -> EvaluationMetrics:
-        # Run index must be None because it is defined here to be passed to actual evaluator
-        assert run_index is None
-
-        # Training progress can be None as it can be run in a training
-        #  run without training, just evaluation
-        if training_progress is None:
-            done = True
-            completed_steps = 0
-        else:
-            done = training_progress.done
-            completed_steps = training_progress.completed_steps
-
-        if (done and self.config.enabled()) or self.config.enabled(completed_steps):
-            return self.evaluator.run(training_progress, run_index=self._config.get_run_count(completed_steps - 1))
-        else:
-            return EvaluationMetrics()
-
-    def get_sampling_parameters(self) -> EvaluatorSamplingParameters | None:
-        name_samples = self.evaluator.get_sampling_parameters()
-        if name_samples is None:
-            return None
-        run_count = self._config.get_run_count(
-            self._train_iters,
-            # There may be an extra evaluation after the last training step.s
-            not self._config.enabled(self._train_iters),
-        )
-        return EvaluatorSamplingParameters(name_samples.dataset_name, name_samples.num_samples * run_count)
-
-
 class Trainer[ConfigType: TrainerConfig](Configurable[ConfigType], abc.ABC):
     # TODO: Generalize data, schedule, logging, etc.
     _is_setup: bool = False
     _distributed: Distributed
     _run: Run
     _wandb: Wandb
-    _optimizer: Optimizer
+    _optimizer: Optimizer | None
 
     _completed_steps: int
 
-    _is_evaluation_only: bool
-
-    _evaluator_runner: EvaluatorRunner
-
     def __init__(self, config: TrainerConfig):
         super().__init__(config)
 
-        self._is_evaluation_only = config.training.train_iters == 0
+        self._do_train = config.training.train_iters > 0
 
         self._data = self._get_data()
         log_main_rank("Creating model...")
         self._multi_stage = self._config.model.get_model_class()(
             self._config.model,
-            optimizer_state_names=self._config.optimizer.state_names() if not self._is_evaluation_only else (),
+            optimizer_state_names=self._config.optimizer.state_names() if self._do_train else (),
         )
         self._reference_models = {}
         for name, reference_config in self._config.reference_models.items():
@@ -152,47 +67,22 @@ def __init__(self, config: TrainerConfig):
         )
         self._loss_definitions = self._multi_stage.base_model.get_loss_definitions()
 
-        if not self._is_evaluation_only:
-            steps_per_split = {
-                PhaseType.training: {PhaseType.training.value.lower(): self._config.training.train_iters},
-                PhaseType.test: {PhaseType.test.value.lower(): self._config.training.test_iters},
-            }
-
-            self._samples_per_split = {
-                phase: {
-                    dataset_name: self._config.batch.batch_size * steps
-                    for dataset_name, steps in datasets.items()
-                    if steps > 0
-                }
-                for phase, datasets in steps_per_split.items()
-            }
-            # Prune empty phases.
-            self._samples_per_split = {k: v for k, v in self._samples_per_split.items() if len(v) > 0}
-
-            # Setup the schedules
-            self._schedule = {
-                phase: {
-                    dataset_name: Schedule(
-                        multi_stage=self._multi_stage,
-                        batch_config=self._config.batch,
-                        schedule_config=self._config.schedule,
-                        distributed_config=self._config.model.distributed,
-                        phase=phase,
-                    )
-                    for dataset_name in datasets
-                }
-                for phase, datasets in self._samples_per_split.items()
-            }
-        else:
-            self._samples_per_split = {}
-
-        self._evaluator_runner = EvaluatorRunner(
-            evaluator_configs=self._config.training.evaluators,
-            batch_config=self._config.batch,
-            data_load_num_proc=self._config.training.num_workers,
-            train_iters=self._config.training.train_iters,
-            wandb_config=self._config.training.wandb,
-        )
+        if self._do_train:
+            self._training_samples = self._config.batch.batch_size * self._config.training.train_iters
+            self._preprocessing_config = self._multi_stage.get_preprocessing_config(PhaseType.training)
+            self._schedule = Schedule(
+                config=self._config.schedule,
+                multi_stage=self._multi_stage,
+                batch_meta=self._preprocessing_config.get_batch_meta(),
+                distributed_config=self._config.model.distributed,
+                phase=PhaseType.training,
+            )
+
+        self._evaluators = {
+            name: config.get_evaluator(name, self._config.batch, self._config.training.num_workers)
+            for name, config in self._config.training.evaluators.items()
+            if config.enabled()
+        }
 
     def setup(self, distributed: Distributed, run: Run) -> None:
         assert distributed.config is self._config.model.distributed
@@ -204,18 +94,14 @@ def setup(self, distributed: Distributed, run: Run) -> None:
         # Setup the model.
         with torch.no_grad():
             log_main_rank("Setting up model...")
-            self._multi_stage.setup(
-                distributed, mode=StageMode.inference if self._is_evaluation_only else StageMode.training
-            )
+            self._multi_stage.setup(distributed, mode=StageMode.training if self._do_train else StageMode.inference)
             for name, reference_model in self._reference_models.items():
                 log_main_rank(f"Setting up `{name}` reference model...")
                 reference_model.fast_llm_model.setup(distributed, StageMode.inference)
                 reference_model.setup()
 
         # Setup the optimizer.
-        if self._is_evaluation_only:
-            self._optimizer = None
-        else:
+        if self._do_train:
             param_groups, grads_for_norm = self._multi_stage.get_param_groups(ParamGroup)
             self._optimizer = self._config.optimizer.optimizer_cls(
                 self._config.optimizer,
@@ -223,59 +109,47 @@ def setup(self, distributed: Distributed, run: Run) -> None:
                 grads_for_norm=grads_for_norm,
                 distributed=self._distributed,
             )
+        else:
+            self._optimizer = None
 
         # Setup the schedules.
         with torch.no_grad():
             self._runner.setup(distributed, self._optimizer)
         # Setup the datasets.
         log_main_rank("Preparing datasets...")
-        sampling_parameters = {}
-        preprocessing_configs = {}
-        for phase, datasets in self._samples_per_split.items():
-            for dataset_name, samples in datasets.items():
-                sampling_parameters[dataset_name] = self._get_sampling_parameters({"num_samples": samples})
-                preprocessing_configs[dataset_name] = self._get_preprocessing_config(phase)
-        for eval_sampling_params in self._evaluator_runner.get_sampling_parameters():
-            sampling_parameters[eval_sampling_params.dataset_name] = self._get_sampling_parameters(
-                {"num_samples": eval_sampling_params.num_samples}
-            )
-            preprocessing_configs[eval_sampling_params.dataset_name] = self._get_preprocessing_config(
-                PhaseType.inference
-            )
-        self._data.setup(
-            distributed,
-            sampling_parameters,
-            preprocessing_configs,
-            None if run.experiment_directory is None else run.experiment_directory / "dataset_cache",
-            timeout=self._config.training.timeout,
-        )
 
-        # Must be called with all arguments set up
-        self._evaluator_runner.setup(
-            distributed=self._distributed,
-            run=self._run,
-            multi_stage=self._multi_stage,
-            runner=self._runner,
-            data=self._data,
-            wandb=self._wandb,
-            phase=PhaseType.inference if self._is_evaluation_only else PhaseType.validation,
+        self._data.setup(None if run.experiment_directory is None else run.experiment_directory / "dataset_cache")
+        self._data.sample_dataset(
+            PhaseType.training,
+            self._preprocessing_config,
+            self._training_samples,
         )
 
+        for evaluator in self._evaluators.values():
+            run_count = self._config.training.evaluators[name].get_count(self._config.training.train_iters)
+            # There may be an extra evaluation after the last training step.
+            if not self._config.training.evaluators[name].enabled(self._config.training.train_iters):
+                run_count += 1
+            evaluator.setup(multi_stage=self._multi_stage, runner=self._runner, data=self._data, run_count=run_count)
+
+        # Make sure everyone is done before continuing.
+        safe_barrier(distributed.world_group, "data_preparation", self._config.training.timeout)
+
         self._is_setup = True
 
     @abc.abstractmethod
     def _get_data(self) -> Data:
         pass
 
-    def _get_sampling_parameters(
-        self, parameters: dict[str, typing.Any], *, _return_dict: bool = False
-    ) -> SamplingParameters | dict[str, typing.Any]:
-        return parameters if _return_dict else SamplingParameters(**parameters)
-
-    def _get_preprocessing_config(
-        self, phase: PhaseType, *, _return_dict: bool = False
-    ) -> PreprocessingConfig | dict[str, typing.Any]:
-        return {} if _return_dict else NullPreprocessingConfig()
+    def _get_completion_metrics(self) -> dict[str, int | float]:
+        assert self._is_setup
+        return {
+            "total_steps": self._config.training.train_iters,
+            "completed_steps": self._completed_steps,
+            "consumed_samples": self._consumed_samples,
+            "consumed_tokens": self._consumed_tokens,
+            "percent_done": 100 * self._completed_steps / self._config.training.train_iters,
+        }
 
     @property
     def _consumed_samples(self) -> int:
@@ -299,44 +173,12 @@ def _run_training(self) -> None:
         log_pipeline_parallel_main_rank(lambda: log_memory_usage(f"After initial setup", str))
         self._run.save_logged_tensors("init")
 
-        if self._is_evaluation_only:
-            assert len(self._samples_per_split) == 0
-
-        if PhaseType.training in self._samples_per_split:
-            done = self._completed_steps >= self._config.training.train_iters
-            if done:
-                metrics = {}
-                log_main_rank("Training already completed, nothing to do ...")
-            else:
-                done, metrics = self._train()
+        if not self._do_train:
+            self._run_evaluators(True, {})
+        elif self._completed_steps >= self._config.training.train_iters:
+            log_main_rank("Training already completed, nothing to do ...")
         else:
-            metrics = {}
-            done = True
-            self._evaluator_runner.run(
-                metrics=metrics,
-                # This is set to ensure that evaluators like lm_eval log results at the correct step if a checkpoint was loaded.
-                training_progress=TrainingProgress(
-                    done=done,
-                    completed_steps=self._completed_steps,
-                    consumed_samples=self._consumed_samples,
-                    consumed_tokens=self._consumed_tokens,
-                ),
-            )
-
-        if done and PhaseType.test in self._samples_per_split:
-            log_main_rank(lambda: f"Running test phase ...")
-            test_iterator = self._get_data_iterator(PhaseType.test.value.lower())
-            metrics_key = PhaseType.test.value
-            metrics[metrics_key] = self._evaluate_loss(
-                data_iterator=test_iterator,
-                phase=PhaseType.test,
-                num_iters=self._config.training.test_iters,
-            )
-            formatted_metrics = format_metrics(metrics[metrics_key], self._loss_definitions, PhaseType.test)
-            log_main_rank(formatted_metrics)
-            self._wandb.alert("Testing results", formatted_metrics, "WARN")
-            # TODO: This may erase some metrics.
-            self._wandb.log_metrics(self._completed_steps, metrics, commit=True)
+            self._train()
 
     def _train(self) -> tuple[bool, dict[PhaseType, dict[str, typing.Any]]]:
         # Tracking loss.
@@ -357,8 +199,6 @@ def _train(self) -> tuple[bool, dict[PhaseType, dict[str, typing.Any]]]:
             self._config.training.prefetch_factor,
         )
 
-        has_test_phase = PhaseType.test in self._samples_per_split
-
         log_main_rank("Training ...")
 
         # TODO: Synchronization is probably unnecessary.
@@ -380,7 +220,7 @@ def _train(self) -> tuple[bool, dict[PhaseType, dict[str, typing.Any]]]:
                 #   (Also preprocessing adds overhead)
                 reduced_losses, update_successful, train_metrics = self._runner.run_step(
                     train_iterator,
-                    self._schedule[PhaseType.training][PhaseType.training.value.lower()],
+                    self._schedule,
                     iteration=self._completed_steps,
                     return_metrics=is_logging,
                 )
@@ -410,34 +250,21 @@ def _train(self) -> tuple[bool, dict[PhaseType, dict[str, typing.Any]]]:
                         remaining_time = average_time_per_iteration * (
                             self._config.training.train_iters - self._completed_steps
                         )
-                        model_compute, hardware_compute = self._schedule[PhaseType.training][
-                            PhaseType.training.value.lower()
-                        ].compute_usage
-                        model_tflops = math.nan if model_compute is None else model_compute / time_per_iteration
-                        hardware_tflops = (
-                            math.nan if hardware_compute is None else hardware_compute / time_per_iteration
-                        )
-
                         metrics_key = PhaseType.training.value
                         metrics[metrics_key] = {
-                            "train_iters": self._config.training.train_iters,
                             "batch_size": self._config.batch.batch_size,
-                            "iteration": self._completed_steps,
                             **{
                                 name: (value / advanced_iters if advanced_iters > 0 else float("nan"))
                                 for name, value in total_losses.items()
                             },
-                            "consumed_samples": self._consumed_samples,
-                            "consumed_tokens": self._consumed_tokens,
+                            **self._get_completion_metrics(),
                             "step_time_ms": time_per_iteration * 1000,
                             "step_time_average_ms": average_time_per_iteration * 1000,
                             "remaining_time": remaining_time,
                             "completion_time": time.time() + remaining_time,
-                            "percent_done": 100 * self._completed_steps / self._config.training.train_iters,
                             "skipped_iters": skipped_iters,
                             "nan_iters": nan_iters,
-                            "model_tflops": model_tflops,
-                            "hardware_tflops": hardware_tflops,
+                            **self._schedule.get_compute_metrics(time_per_iteration),
                             "tokens_per_sec_per_gpu": (
                                 (self._config.batch.sequence_length * self._config.batch.batch_size)
                                 / self._config.model.distributed.world_size
@@ -469,21 +296,10 @@ def _train(self) -> tuple[bool, dict[PhaseType, dict[str, typing.Any]]]:
                 stop = done or self._config.training.shutdown.enabled(self._completed_steps)
 
                 # Evaluation
-                # TODO: Adjust valid iterator length.
-                self._evaluator_runner.run(
-                    metrics=metrics,
-                    training_progress=TrainingProgress(
-                        done=done,
-                        completed_steps=self._completed_steps,
-                        consumed_samples=self._consumed_samples,
-                        consumed_tokens=self._consumed_tokens,
-                    ),
-                )
+                self._run_evaluators(done, metrics)
 
                 if is_main_rank() and metrics:
-                    self._wandb.log_metrics(self._completed_steps, metrics, commit=not (done and has_test_phase))
-
-                stop = done or self._config.training.shutdown.enabled(self._completed_steps)
+                    self._wandb.log_metrics(self._completed_steps, metrics, commit=True)
 
                 if self._config.training.export.enabled(None if done else self._completed_steps):
                     self._save_checkpoint(self._config.training.export, metrics)
@@ -523,14 +339,14 @@ def _prepare_training_state(self) -> None:
                 )
                 self._multi_stage.load_checkpoint(self._config.pretrained)
             else:
-                if self._is_evaluation_only:
+                if not self._do_train:
                     raise ValueError(
                         "Evaluation mode, model need to be trained first or pretrained checkpoint is provided for loading"
                     )
                 log_main_rank(f"Initializing training state from scratch...")
                 self._multi_stage.initialize_weights()
 
-            if not self._is_evaluation_only:
+            if self._do_train:
                 self._optimizer.reset_state()
             self._completed_steps = 0
         else:
@@ -608,7 +424,7 @@ def _load_checkpoint(self, config: TrainingCheckpointConfig, iteration: int) ->
             config.get_load_config(checkpoint_directory, timeout=self._config.training.timeout)
         )
         assert metadata is not None
-        if not self._is_evaluation_only:
+        if self._do_train:
             self._optimizer.load(metadata["optimizer"])
         if "schedules" in metadata:
             # Backward compatibility.
@@ -636,3 +452,15 @@ def _get_last_checkpoint(self) -> int | None:
             iteration = -1
         iteration = self._run.broadcast_int(iteration)
         return iteration if iteration >= 0 else None
+
+    def _run_evaluators(self, done: bool, metrics: dict[str, typing.Any] | None = None) -> None:
+        for name, evaluator in self._evaluators.items():
+            if self._config.training.evaluators[name].enabled(None if done else self._completed_steps):
+                evaluator.run(
+                    run_index=self._config.get_run_count(self._completed_steps - 1),
+                    metrics=(evaluator_metrics := self._get_completion_metrics()),
+                )
+                if metrics is not None:
+                    if "evaluations" not in metrics:
+                        metrics["evaluations"] = {}
+                    metrics["evaluations"][name] = evaluator_metrics
diff --git a/fast_llm/layers/language_model/head.py b/fast_llm/layers/language_model/head.py
index 85b9bde1d..57b9b82b8 100644
--- a/fast_llm/layers/language_model/head.py
+++ b/fast_llm/layers/language_model/head.py
@@ -10,7 +10,7 @@
 from fast_llm.engine.config_utils.data_type import DataType
 from fast_llm.engine.config_utils.initialization import init_normal_
 from fast_llm.engine.config_utils.tensor_dim import TensorDim, scalar_dim
-from fast_llm.engine.distributed.config import DistributedConfig, DistributedDimNames
+from fast_llm.engine.distributed.config import DistributedConfig, DistributedDimNames, PhaseType
 from fast_llm.functional.autograd import AuxiliaryLoss, grad_is_context, wrap_forward_backward
 from fast_llm.functional.linear import output_parallel_linear_backward, output_parallel_linear_forward
 from fast_llm.layers.block.block import Block
@@ -23,7 +23,7 @@
 )
 from fast_llm.layers.language_model.loss.config import LanguageModelLabelEntropyLossConfig
 from fast_llm.tensor import TensorMeta
-from fast_llm.utils import Assert
+from fast_llm.utils import Assert, safe_merge_dicts
 
 logger = logging.getLogger(__name__)
 
@@ -116,6 +116,9 @@ def get_compute_usage(self, input_: TensorMeta, kwargs: dict[str, typing.Any], c
             * (self._vocab_dim.global_size if config.global_ else self._vocab_dim.size)
         )
 
+    def get_preprocessing_config(self, phase: PhaseType) -> dict[str, typing.Any]:
+        return safe_merge_dicts([loss.get_preprocessing_config(phase) for loss in self.losses])
+
     def get_output_weights(self) -> list[torch.Tensor]:
         return [self.output_weights]
 
diff --git a/fast_llm/layers/language_model/loss/dpo.py b/fast_llm/layers/language_model/loss/dpo.py
index 177a681a4..ad8ff49d9 100644
--- a/fast_llm/layers/language_model/loss/dpo.py
+++ b/fast_llm/layers/language_model/loss/dpo.py
@@ -2,6 +2,7 @@
 
 import torch
 
+from fast_llm.engine.distributed.config import PhaseType
 from fast_llm.layers.language_model.loss.config import LanguageModelDPOLossConfig, LanguageModelLossKwargs
 from fast_llm.layers.language_model.loss.loss import LanguageModelLoss, loss_forward_backward
 
@@ -18,6 +19,9 @@ def __init__(self, *args, **kwargs):
         if self._vocab_parallel:
             raise NotImplementedError()
 
+    def get_preprocessing_config(self, phase: PhaseType) -> dict[str, typing.Any]:
+        return {"use_preference_spans": True}
+
     def forward_backward(
         self,
         logits: "torch.Tensor",
diff --git a/fast_llm/layers/language_model/loss/loss.py b/fast_llm/layers/language_model/loss/loss.py
index f1f65ac39..9506b3d80 100644
--- a/fast_llm/layers/language_model/loss/loss.py
+++ b/fast_llm/layers/language_model/loss/loss.py
@@ -5,7 +5,7 @@
 
 from fast_llm.config import Configurable
 from fast_llm.core.ops import split_op
-from fast_llm.engine.distributed.config import DistributedConfig, DistributedDimNames
+from fast_llm.engine.distributed.config import DistributedConfig, DistributedDimNames, PhaseType
 from fast_llm.layers.language_model.config import LanguageModelKwargs
 from fast_llm.layers.language_model.loss.config import LanguageModelLossConfig, LanguageModelLossKwargs
 from fast_llm.utils import Assert
@@ -47,6 +47,9 @@ def forward_backward(
     ) -> "tuple[torch.Tensor, torch.Tensor | None]":
         pass
 
+    def get_preprocessing_config(self, phase: PhaseType) -> dict[str, typing.Any]:
+        return {}
+
     @property
     def name(self) -> str:
         return self._name
@@ -61,16 +64,8 @@ def _prepare_target(
         kwargs: dict[str, typing.Any],
         split_index: int = 0,
         *,
-        multi_token_format: bool = False,
         sequence_parallel: bool = True,
     ) -> torch.Tensor | None:
-        # MTP shift
-        if multi_token_format and self._prediction_heads > 1:
-            sequence_q = kwargs[LanguageModelKwargs.sequence_q_dim].size
-            target = target.unflatten(
-                0, (kwargs[LanguageModelKwargs.batch_dim].size, sequence_q + self._prediction_heads - 1)
-            )[:, self._prediction_distance : self._prediction_distance + sequence_q].flatten(0, 1)
-
         # Get the local chunk.
         if sequence_parallel and self._sequence_parallel:
             target = split_op(target, self._parallel_dim.group, 0)
@@ -93,9 +88,7 @@ def _get_grad_output(self, kwargs: dict[str, typing.Any]) -> float | None:
         return grad_output
 
     def _get_labels(self, kwargs: dict[str, typing.Any], split_index: int = 0):
-        return self._prepare_target(
-            kwargs[LanguageModelLossKwargs.labels], kwargs, split_index, multi_token_format=True
-        )
+        return self._prepare_target(kwargs[LanguageModelLossKwargs.labels], kwargs, split_index)
 
     def _get_loss_mask(self, kwargs: dict[str, typing.Any], split_index: int = 0):
         loss_mask = kwargs.get(LanguageModelKwargs.loss_mask)
diff --git a/fast_llm/logging.py b/fast_llm/logging.py
index 84b945a67..a25b3b0f8 100644
--- a/fast_llm/logging.py
+++ b/fast_llm/logging.py
@@ -92,13 +92,11 @@
     PhaseType.training: _TRAINING_METRIC_FORMAT_KEYS,
     PhaseType.validation: _VALIDATION_METRIC_FORMAT_KEYS,
     PhaseType.inference: _VALIDATION_METRIC_FORMAT_KEYS,
-    PhaseType.test: _VALIDATION_METRIC_FORMAT_KEYS,
 }
 _METRIC_FORMATS = {
     PhaseType.training: _TRAINING_METRIC_FORMATS,
     PhaseType.validation: _VALIDATION_METRIC_FORMATS,
     PhaseType.inference: _VALIDATION_METRIC_FORMATS,
-    PhaseType.test: _VALIDATION_METRIC_FORMATS,
 }
 
 
diff --git a/fast_llm/models/gpt/config.py b/fast_llm/models/gpt/config.py
index ddcbcf696..238c7cfc0 100644
--- a/fast_llm/models/gpt/config.py
+++ b/fast_llm/models/gpt/config.py
@@ -49,16 +49,6 @@ class GPTBatchConfig(BatchConfig):
         hint=FieldHint.performance,
         valid=check_field(Assert.gt, 0),
     )
-    use_loss_masking_spans: bool = Field(
-        default=False,
-        desc="Read loss masking spans from the dataset.",
-        hint=FieldHint.feature,
-    )
-    use_preference_spans: bool = Field(
-        default=False,
-        desc="Read dpo data (chosen and rejected spans) from the dataset.",
-        hint=FieldHint.feature,
-    )
     truncate_documents: bool | None = Field(
         default=True,
         desc=(
diff --git a/fast_llm/models/gpt/model.py b/fast_llm/models/gpt/model.py
index 2f96f6f91..33519a415 100644
--- a/fast_llm/models/gpt/model.py
+++ b/fast_llm/models/gpt/model.py
@@ -5,6 +5,7 @@
 
 import torch
 
+from fast_llm.data.batch.config import LanguageModelBatchPreprocessingConfig
 from fast_llm.data.batch.language_model import LanguageModelPreprocessedBatch
 from fast_llm.engine.base_model.base_model import BaseModel
 from fast_llm.engine.distributed.config import DistributedConfig, PhaseType
@@ -138,8 +139,11 @@ def _head_reference_models(self) -> set[str]:
 
 
 class GPTModel[ConfigType: GPTModelConfig](FastLLMModel[ConfigType]):
-    # TODO: Can we drop class?
-    pass
+    def get_preprocessing_config(
+        self,
+        phase: PhaseType,
+    ) -> LanguageModelBatchPreprocessingConfig:
+        return LanguageModelBatchPreprocessingConfig(phase=phase, **self._base_model.get_preprocessing_config(phase))
 
 
 class GPTInferenceRunner(InferenceRunner):
diff --git a/fast_llm/models/gpt/trainer.py b/fast_llm/models/gpt/trainer.py
index e65556501..ce789e4dc 100644
--- a/fast_llm/models/gpt/trainer.py
+++ b/fast_llm/models/gpt/trainer.py
@@ -1,10 +1,6 @@
 import logging
-import typing
 
-from fast_llm.data.batch.language_model import LanguageModelBatchPreprocessingConfig
 from fast_llm.data.data.gpt.data import GPTData
-from fast_llm.data.dataset.config import SamplingParameters
-from fast_llm.engine.distributed.config import PhaseType
 from fast_llm.engine.training.trainer import Trainer
 from fast_llm.models.gpt.config import GPTTrainerConfig
 
@@ -17,27 +13,3 @@ def _get_data(self) -> GPTData:
             config=self._config.data,
             distributed_config=self._config.model.distributed,
         )
-
-    def _get_sampling_parameters(
-        self, parameters: dict[str, typing.Any], *, _return_dict: bool = False
-    ) -> SamplingParameters | dict[str, typing.Any]:
-        parameters = super()._get_sampling_parameters(parameters, _return_dict=True)
-        parameters.update(
-            {
-                "sequence_length": self._config.batch.sequence_length,
-                "truncate_documents": self._config.batch.truncate_documents,
-                "extra_tokens": self._config.model.base_model.head.prediction_heads,
-            }
-        )
-        return parameters if _return_dict else SamplingParameters(**parameters)
-
-    def _get_preprocessing_config(
-        self, phase: PhaseType, *, _return_dict: bool = False
-    ) -> LanguageModelBatchPreprocessingConfig | dict[str, typing.Any]:
-        out = {
-            "phase": phase,
-            "use_loss_masking_spans": self._config.batch.use_loss_masking_spans,
-            "use_preference_spans": self._config.batch.use_preference_spans,
-            **self._multi_stage.base_model.get_preprocessing_config(phase),
-        }
-        return out if _return_dict else LanguageModelBatchPreprocessingConfig.from_dict(out)
diff --git a/fast_llm/models/multimodal/trainer.py b/fast_llm/models/multimodal/trainer.py
index 43a8f8885..780cdd294 100644
--- a/fast_llm/models/multimodal/trainer.py
+++ b/fast_llm/models/multimodal/trainer.py
@@ -1,6 +1,7 @@
 import logging
 import typing
 
+from fast_llm.data.batch.config import LanguageModelBatchPreprocessingConfig
 from fast_llm.data.preprocessing.language_model import LanguageModelPreprocessingConfig
 from fast_llm.models.gpt.trainer import GPTTrainer
 from fast_llm.models.multimodal.config import MultiModalTrainerConfig
@@ -11,7 +12,7 @@
 class MultiModalTrainer[ConfigType: MultiModalTrainerConfig](GPTTrainer[ConfigType]):
     def _get_preprocessing_config(
         self, *, _return_dict: bool = False
-    ) -> LanguageModelPreprocessingConfig | dict[str, typing.Any]:
+    ) -> LanguageModelBatchPreprocessingConfig | dict[str, typing.Any]:
         out = super()._get_preprocessing_config(_return_dict=True)
         out["image_patches"] = {
             "type": "image_patch",
diff --git a/tests/data/common.py b/tests/data/common.py
index 26aeda845..fd5ae0692 100644
--- a/tests/data/common.py
+++ b/tests/data/common.py
@@ -50,7 +50,7 @@ def get_sampling_data(
         ),
         preprocessing=preprocessing,
         cache_directory=cache_directory,
-        distributed=distributed,
+        distributed_config=DistributedConfig(use_cuda=torch.cuda.is_available()),
         dataset_name=phase.value,
     )
 
@@ -74,17 +74,11 @@ def get_test_data_and_compare_samples(
     preprocessing: LanguageModelPreprocessingConfig,
 ) -> GPTData:
     distributed_config = DistributedConfig(seed=87522, use_cuda=torch.cuda.is_available())
-    distributed = Distributed(distributed_config)
     if isinstance(samples_per_dataset, int):
-        samples_per_dataset = {PhaseType.training.value.lower(): samples_per_dataset}
-
-    sampling_parameters = {
-        dataset_name: SamplingParameters(num_samples=num_samples, sequence_length=sequence_length)
-        for dataset_name, num_samples in samples_per_dataset.items()
-    }
+        samples_per_dataset = {PhaseType.training.value: samples_per_dataset}
 
     if isinstance(expected_samples, list):
-        expected_samples = {PhaseType.training.value.lower(): expected_samples}
+        expected_samples = {PhaseType.training.value: expected_samples}
 
     assert "sampling" not in config
     config["sampling"] = SamplingConfig(seed=seed, gpu=gpu, shuffle=shuffle)
@@ -96,12 +90,9 @@ def get_test_data_and_compare_samples(
         preprocessing, {"batch": batch_config, "type": None}
     )
     data = GPTData(GPTDataConfig.from_dict(config), distributed_config)
-    data.setup(
-        distributed,
-        sampling_parameters,
-        {dataset_name: preprocessing for dataset_name in samples_per_dataset},
-        cache_directory,
-    )
+    data.setup(cache_directory)
+    for dataset_name, num_samples in samples_per_dataset.items():
+        data.sample_dataset(dataset_name, preprocessing, num_samples)
     tokens = {
         phase: torch.stack(
             [

From dd536b880ea9a1482397d95a0654e59529fae253 Mon Sep 17 00:00:00 2001
From: Joel Lamy-Poirier <joel.lamy-poirier@servicenow.com>
Date: Thu, 19 Feb 2026 23:58:42 -0500
Subject: [PATCH 25/37] fixes

---
 examples/mistral.yaml                         |   1 -
 fast_llm/data/batch/config.py                 |   4 +-
 fast_llm/data/batch/language_model.py         |  86 +++---
 fast_llm/data/data/gpt/data.py                |   4 +-
 fast_llm/data/dataset/memmap/config.py        |  10 +-
 fast_llm/data/document/language_model.py      |   6 -
 fast_llm/engine/base_model/base_model.py      |   1 +
 fast_llm/engine/evaluation/evaluator.py       |   2 +-
 fast_llm/engine/inference/huggingface.py      |   1 +
 fast_llm/engine/multi_stage/fast_llm_model.py |   6 +-
 fast_llm/engine/schedule/runner.py            |   1 +
 fast_llm/engine/schedule/schedule.py          |   1 +
 fast_llm/engine/training/trainer.py           |   4 +-
 fast_llm/layers/attention/attention.py        |  29 +-
 fast_llm/layers/attention/preprocessing.py    |  58 ----
 fast_llm/layers/attention/rotary/rotary.py    |  10 +-
 fast_llm/layers/language_model/embedding.py   |   2 +-
 fast_llm/layers/language_model/head.py        |  12 +-
 .../layers/language_model/language_model.py   |  20 +-
 fast_llm/layers/language_model/loss/config.py |   2 +-
 fast_llm/layers/language_model/loss/dpo.py    |   4 +-
 fast_llm/layers/language_model/loss/loss.py   |  14 +-
 .../language_model/multi_token_prediction.py  |  11 +-
 fast_llm/layers/ssm/mamba.py                  |   5 +-
 fast_llm/models/gpt/conversion/mtp_llama.py   |   6 +-
 fast_llm/models/gpt/huggingface.py            |   6 +-
 fast_llm/models/gpt/model.py                  |  26 +-
 fast_llm/models/multimodal/model.py           |   9 +-
 tests/data/test_preprocessing.py              |  65 +++++
 tests/layers/test_lm_head.py                  |  57 ++--
 tests/test_loss_mask.py                       | 254 ------------------
 tests/utils/distributed_configs.py            |   2 +-
 32 files changed, 255 insertions(+), 464 deletions(-)
 delete mode 100644 fast_llm/layers/attention/preprocessing.py
 create mode 100644 tests/data/test_preprocessing.py
 delete mode 100644 tests/test_loss_mask.py

diff --git a/examples/mistral.yaml b/examples/mistral.yaml
index 904325c5c..ec045e3bb 100644
--- a/examples/mistral.yaml
+++ b/examples/mistral.yaml
@@ -8,7 +8,6 @@ training:
       evaluator:
         type: loss
         iterations: null
-  test_iters: 0
 batch:
   sequence_length: 4096
   micro_batch_size: 2
diff --git a/fast_llm/data/batch/config.py b/fast_llm/data/batch/config.py
index 360a07fb6..61dd3bdda 100644
--- a/fast_llm/data/batch/config.py
+++ b/fast_llm/data/batch/config.py
@@ -48,6 +48,8 @@ def _validate(self) -> None:
         Assert.custom(isinstance, self.tokenizer, (TokenizerConfig, NullPreprocessingConfig))
 
     def get_batch_meta(self) -> "PreprocessedBatch":
+        import torch
+
         from fast_llm.data.batch.language_model import LanguageModelPreprocessedBatch
         from fast_llm.data.document.language_model import LanguageModelBatch, LanguageModelDocument
         from fast_llm.data.document.token import TokenDocument
@@ -92,7 +94,7 @@ def __init__(self, config: ConfigType, micro_batches: list[MicroBatchType]):
         self._micro_batches = micro_batches
 
     @property
-    def micro_batches(self) -> list[MicroBatch]:
+    def micro_batches(self) -> list[MicroBatchType]:
         return self._micro_batches
 
     def __len__(self) -> int:
diff --git a/fast_llm/data/batch/language_model.py b/fast_llm/data/batch/language_model.py
index 06bc90e37..012966799 100644
--- a/fast_llm/data/batch/language_model.py
+++ b/fast_llm/data/batch/language_model.py
@@ -7,6 +7,7 @@
 from fast_llm.data.document.language_model import LanguageModelBatch, LanguageModelDocument
 from fast_llm.engine.config_utils.tensor_dim import TensorDim
 from fast_llm.engine.distributed.config import DistributedDimNames
+from fast_llm.tensor import TensorMeta
 
 
 @dataclasses.dataclass
@@ -19,6 +20,7 @@ class LanguageModelMicroBatch(MicroBatch):
     num_tokens: int  # Number of tokens in the micro-batch excluding padding at the end.
     sequence_length: int  # Total number of tokens across all micro-batches, including padding.
     document_lengths: list[int]
+    is_meta: bool
     labels: list[torch.Tensor] = dataclasses.field(default_factory=list)
     prediction_masks: list[torch.Tensor] = dataclasses.field(default_factory=list)
     cumulative_lengths_q: torch.Tensor | None = None
@@ -59,7 +61,9 @@ def from_documents(
         config: ConfigType,
         device: torch.device | None = None,
     ) -> typing.Self:
-        batch = LanguageModelBatch.from_documents(documents, pad_to_size=config.total_length)
+        batch = LanguageModelBatch.from_documents(
+            documents, pad_to_size=config.batch.micro_batch_size * config.total_length
+        )
         return cls.from_batch(batch, config=config, device=device)
 
     @classmethod
@@ -72,6 +76,7 @@ def from_batch(
         if device is None:
             device = batch.tokens.tokens.device
         batch.to_device_(device)
+        is_meta = device.type == "meta"
 
         token_dim = TensorDim(
             "token",
@@ -98,50 +103,57 @@ def from_batch(
             sequence_k = sequence_k_past + token_dim.size
             sequence_k_dim = TensorDim("sequence_k", sequence_k)
             cropped_sample = batch.crop(sequence_k_past, sequence_k)
-
+            if is_meta:
+                tokens = TensorMeta.from_dims(
+                    (token_dim,), tensor_name=f"tokens_{sequence_k_past}_to_{sequence_k-1}", dtype=torch.int64
+                )
+            else:
+                tokens = batch.tokens.tokens[sequence_k_past:sequence_k]
             micro_batch = LanguageModelMicroBatch(
-                tokens=batch.tokens.tokens[sequence_k_past:sequence_k],
+                tokens=tokens,
                 token_dim=token_dim,
                 hidden_token_dim=hidden_token_dim,
                 sequence_k_dim=sequence_k_dim,
                 num_tokens=min(sequence_k, batch.num_tokens) - sequence_k_past,
                 sequence_length=config.batch.sequence_length,
                 document_lengths=batch.tokens.lengths,
+                is_meta=is_meta,
             )
-            if config.return_cumulative_sequence_lengths:
-                micro_batch.cumulative_lengths_q, micro_batch.cumulative_lengths_k = (
-                    cropped_sample.tokens.get_cumulative_lengths(device)
-                )
-            if config.return_max_sequence_lengths:
-                micro_batch.max_length_q, micro_batch.max_length_k = cropped_sample.tokens.get_max_lengths(device)
-            if config.return_document_index:
-                micro_batch.document_index = cropped_sample.tokens.get_document_index()
-            if config.return_position_index:
-                micro_batch.position_index = cropped_sample.tokens.get_position_index()
-
-            for prediction_distance in range(1, config.predicted_tokens + 1):
-                label_begin = sequence_k_past + prediction_distance
-                label_end = sequence_k + prediction_distance
-                label_tokens = batch.tokens.crop(label_begin, label_end)
-                labels = label_tokens.tokens.clone()
-
-                # Apply loss masking spans.
-                if config.use_loss_masking_spans and batch.loss_masking_spans is not None:
-                    for span_begin, span_end in batch.loss_masking_spans.crop(label_begin, label_end).ranges:
-                        labels[span_begin:span_end] = -100
-
-                # Mask cross-document predictions.
-                document_end = 0
-                for length in label_tokens.lengths:
-                    document_end += length
-                    labels[max(document_end - prediction_distance, 0) : document_end] = -100
-
-                # Labels contain all four sources of masking: padding, user-defined spans, image placeholders, cross-document predictions.
-                micro_batch.labels.append(labels)
-                if config.return_prediction_mask:
-                    # TODO: Does the prediction mask really need all sources of masking?
-                    #   (i.e. lack of labels doesn't mean we can't do predictions and compute other losses.)
-                    micro_batch.prediction_masks.append(labels > 0)
+            if not is_meta:
+                if config.return_cumulative_sequence_lengths:
+                    micro_batch.cumulative_lengths_q, micro_batch.cumulative_lengths_k = (
+                        cropped_sample.tokens.get_cumulative_lengths(device)
+                    )
+                if config.return_max_sequence_lengths:
+                    micro_batch.max_length_q, micro_batch.max_length_k = cropped_sample.tokens.get_max_lengths(device)
+                if config.return_document_index:
+                    micro_batch.document_index = cropped_sample.tokens.get_document_index()
+                if config.return_position_index:
+                    micro_batch.position_index = cropped_sample.tokens.get_position_index()
+
+                for prediction_distance in range(1, config.predicted_tokens + 1):
+                    label_begin = sequence_k_past + prediction_distance
+                    label_end = sequence_k + prediction_distance
+                    label_tokens = batch.tokens.crop(label_begin, label_end)
+                    labels = label_tokens.tokens.clone()
+
+                    # Apply loss masking spans.
+                    if config.use_loss_masking_spans and batch.loss_masking_spans is not None:
+                        for span_begin, span_end in batch.loss_masking_spans.crop(label_begin, label_end).ranges:
+                            labels[span_begin:span_end] = -100
+
+                    # Mask cross-document predictions.
+                    document_begin = label_tokens.lengths[0]
+                    for length in label_tokens.lengths[1:]:
+                        labels[document_begin : document_begin + prediction_distance] = -100
+                        document_begin += length
+
+                    # Labels contain all four sources of masking: padding, user-defined spans, image placeholders, cross-document predictions.
+                    micro_batch.labels.append(labels)
+                    if config.return_prediction_mask:
+                        # TODO: Does the prediction mask really need all sources of masking?
+                        #   (i.e. lack of labels doesn't mean we can't do predictions and compute other losses.)
+                        micro_batch.prediction_masks.append(labels > 0)
 
             micro_batches.append(micro_batch)
         return cls(micro_batches=micro_batches, config=config)
diff --git a/fast_llm/data/data/gpt/data.py b/fast_llm/data/data/gpt/data.py
index e15d95e90..5a24a7631 100644
--- a/fast_llm/data/data/gpt/data.py
+++ b/fast_llm/data/data/gpt/data.py
@@ -16,6 +16,7 @@
 from fast_llm.data.dataset.gpt.config import GPTSamplingData
 from fast_llm.data.dataset.monitor import DatasetMonitor
 from fast_llm.data.document.language_model import LanguageModelBatch, LanguageModelDocument
+from fast_llm.data.preprocessing.language_model import LanguageModelPreprocessingConfig
 from fast_llm.engine.config_utils.run import log_main_rank
 from fast_llm.engine.distributed.config import DistributedConfig
 from fast_llm.models.gpt.config import GPTBatchConfig
@@ -75,7 +76,8 @@ def sample_dataset(
         sampling = GPTSamplingData(
             config=self._config.sampling,
             parameters=sampling_parameters,
-            preprocessing=config,
+            # Conversion needed to avoid pickling issues.
+            preprocessing=LanguageModelPreprocessingConfig.from_dict(config, {"type": "language_model"}, strict=False),
             cache_directory=self._cache_directory,
             distributed_config=self._distributed_config,
             dataset_name=dataset_name,
diff --git a/fast_llm/data/dataset/memmap/config.py b/fast_llm/data/dataset/memmap/config.py
index ce5ecb06c..ed50f366b 100644
--- a/fast_llm/data/dataset/memmap/config.py
+++ b/fast_llm/data/dataset/memmap/config.py
@@ -4,11 +4,8 @@
 import pathlib
 import typing
 
-import torch
-
 from fast_llm.config import Config, Field, FieldHint, config_class
 from fast_llm.data.dataset.config import IndexedDatasetConfig, SampledDatasetConfig
-from fast_llm.data.dataset.indexed import IndexedDataset
 from fast_llm.data.preprocessing.abstract import NullPreprocessingConfig, PreprocessingConfig
 from fast_llm.data.preprocessing.image_patch import ImagePatchConfig
 from fast_llm.data.preprocessing.language_model import LanguageModelPreprocessingConfig
@@ -16,6 +13,9 @@
 from fast_llm.utils import Assert, get_unique
 
 if typing.TYPE_CHECKING:
+    import torch
+
+    from fast_llm.data.dataset.indexed import IndexedDataset
     from fast_llm.data.dataset.memmap.abstract import (
         MemmapIndexedDatasetReader,
         MemmapReader,
@@ -201,6 +201,8 @@ def writer_class(self) -> "type[PatchWriter]":
 
     @property
     def _expected_buffer_size(self) -> int:
+        import torch
+
         return (
             self.num_patches * self.patch_size * self.data_type.torch.itemsize
             + ((1 + self.grid_dims) * self.num_patches + self.num_patch_groups + 2 * self.num_documents + 2)
@@ -255,6 +257,8 @@ def writer_class(self) -> "type[RangeWriter]":
 
     @property
     def _expected_buffer_size(self) -> int:
+        import torch
+
         return self.num_ranges * torch.int32.itemsize * 2 + (self.num_documents + 1) * torch.int32.itemsize
 
     def get_metadata(self) -> dict[str, typing.Any]:
diff --git a/fast_llm/data/document/language_model.py b/fast_llm/data/document/language_model.py
index 23de0605b..c0bccc5be 100644
--- a/fast_llm/data/document/language_model.py
+++ b/fast_llm/data/document/language_model.py
@@ -72,12 +72,6 @@ def crop(self, begin: int, end: int) -> typing.Self:
 
     def to_device_(self, device: "torch.device | str"):
         self.tokens.to_device_(device)
-        if self.loss_masking_spans is not None:
-            self.loss_masking_spans.to_device_(device)
-        if self.chosen_spans is not None:
-            self.chosen_spans.to_device_(device)
-        if self.rejected_spans is not None:
-            self.rejected_spans.to_device_(device)
         if self.image_patches is not None:
             self.image_patches.to_device_(device)
 
diff --git a/fast_llm/engine/base_model/base_model.py b/fast_llm/engine/base_model/base_model.py
index 195a1508a..945daef89 100644
--- a/fast_llm/engine/base_model/base_model.py
+++ b/fast_llm/engine/base_model/base_model.py
@@ -184,6 +184,7 @@ def preprocess_batch(
         iteration: int,
         metrics: dict | None = None,
         extra_kwargs: dict[str, typing.Any] | None = None,
+        device: torch.device | None,
     ) -> list[tuple[torch.Tensor, dict]]:
         # TODO Move batch splitting elsewhere, align interface with LayerBase
         pass
diff --git a/fast_llm/engine/evaluation/evaluator.py b/fast_llm/engine/evaluation/evaluator.py
index 8a3bd7e3d..7cabb06d1 100644
--- a/fast_llm/engine/evaluation/evaluator.py
+++ b/fast_llm/engine/evaluation/evaluator.py
@@ -87,7 +87,7 @@ def setup(
     ) -> None:
         super().setup(multi_stage, runner, data, run_count)
 
-        preprocessing_config = self._multi_stage.get_preprocessing_config(PhaseType.validation)
+        preprocessing_config = self._multi_stage.get_preprocessing_config(self._batch_config, PhaseType.validation)
         self._data.sample_dataset(
             self._name, preprocessing_config, run_count * self._config.iterations * self._batch_config.batch_size
         )
diff --git a/fast_llm/engine/inference/huggingface.py b/fast_llm/engine/inference/huggingface.py
index aa1eaa401..5a07bd51b 100644
--- a/fast_llm/engine/inference/huggingface.py
+++ b/fast_llm/engine/inference/huggingface.py
@@ -52,6 +52,7 @@ def __init__(
         fast_llm_config = config.fast_llm_config
         config.fast_llm_config = None
         super().__init__(config, **kwargs)
+        self._fast_llm_model = fast_llm_model
         config.fast_llm_config = fast_llm_config
 
         self._inference_runner = self.runner_class(fast_llm_model, runner)
diff --git a/fast_llm/engine/multi_stage/fast_llm_model.py b/fast_llm/engine/multi_stage/fast_llm_model.py
index 9ac6c5ccf..b1dc37649 100644
--- a/fast_llm/engine/multi_stage/fast_llm_model.py
+++ b/fast_llm/engine/multi_stage/fast_llm_model.py
@@ -10,6 +10,7 @@
 from fast_llm.engine.distributed.distributed import Distributed
 from fast_llm.engine.multi_stage.config import FastLLMModelConfig, StageMode
 from fast_llm.engine.multi_stage.multi_stage import MultiStageModel
+from fast_llm.engine.schedule.config import BatchConfig
 from fast_llm.functional.triton.pointwise import triton_fill
 from fast_llm.utils import Assert
 
@@ -81,10 +82,7 @@ def from_pretrained(
         return model
 
     @abc.abstractmethod
-    def get_preprocessing_config(
-        self,
-        phase: PhaseType,
-    ) -> BatchPreprocessingConfig:
+    def get_preprocessing_config(self, batch: BatchConfig, phase: PhaseType) -> BatchPreprocessingConfig:
         pass
 
     def initialize_weights(self, timeout: float | None = None) -> None:
diff --git a/fast_llm/engine/schedule/runner.py b/fast_llm/engine/schedule/runner.py
index 92adfb1a9..0683153e5 100644
--- a/fast_llm/engine/schedule/runner.py
+++ b/fast_llm/engine/schedule/runner.py
@@ -344,6 +344,7 @@ def _preprocess_data(
                         "num_micro_batches": batch_config.sequential_micro_batches,
                         "micro_batch_splits": batch_config.micro_batch_splits,
                     },
+                    device=self._distributed.device,
                 )
             for micro_batch_split, (input_, kwargs) in enumerate(micro_batch_data):
                 kwargs.update(micro_batch_split=micro_batch_split)
diff --git a/fast_llm/engine/schedule/schedule.py b/fast_llm/engine/schedule/schedule.py
index b0b72763e..8c932946b 100644
--- a/fast_llm/engine/schedule/schedule.py
+++ b/fast_llm/engine/schedule/schedule.py
@@ -144,6 +144,7 @@ def __init__(
             batch_meta,
             phase=self._phase,
             iteration=0,
+            device=None,
         )
 
         self._steps, self._first_grad_stage = self._create_steps()
diff --git a/fast_llm/engine/training/trainer.py b/fast_llm/engine/training/trainer.py
index 0290a6468..b0f48b408 100644
--- a/fast_llm/engine/training/trainer.py
+++ b/fast_llm/engine/training/trainer.py
@@ -69,7 +69,9 @@ def __init__(self, config: TrainerConfig):
 
         if self._do_train:
             self._training_samples = self._config.batch.batch_size * self._config.training.train_iters
-            self._preprocessing_config = self._multi_stage.get_preprocessing_config(PhaseType.training)
+            self._preprocessing_config = self._multi_stage.get_preprocessing_config(
+                self._config.batch, PhaseType.training
+            )
             self._schedule = Schedule(
                 config=self._config.schedule,
                 multi_stage=self._multi_stage,
diff --git a/fast_llm/layers/attention/attention.py b/fast_llm/layers/attention/attention.py
index 0eaae34f7..389abfbb3 100644
--- a/fast_llm/layers/attention/attention.py
+++ b/fast_llm/layers/attention/attention.py
@@ -11,7 +11,6 @@
 from fast_llm.engine.distributed.config import DistributedConfig, DistributedDimNames, PhaseType
 from fast_llm.functional.autograd import wrap_forward_backward
 from fast_llm.layers.attention.config import AttentionConfig, AttentionImplementation, AttentionKwargs
-from fast_llm.layers.attention.preprocessing import preprocess_for_varlen
 from fast_llm.layers.common.peft.config import PeftConfig
 from fast_llm.layers.decoder.block import BlockWithBias
 from fast_llm.tensor import TensorMeta
@@ -185,7 +184,7 @@ def _attn_backup(
         query = (
             query.unflatten(1, (self._local_head_groups, self._local_heads_per_group))
             .transpose(0, 1)
-            .view(self._local_head_groups, sq * self._local_heads_per_group, self._config.head_size)
+            .reshape(self._local_head_groups, sq * self._local_heads_per_group, self._config.head_size)
         )
         # sk, head_group, head_size -> head_group, head_size, sk
         key = key.movedim(0, 2)
@@ -353,7 +352,7 @@ def _forward(
 
     def get_compute_usage(self, input_: TensorMeta, kwargs: dict[str, typing.Any], config: ResourceUsageConfig) -> int:
         # TODO: ====== Account for varlen =======
-        sequence_q_dim: TensorDim = kwargs[AttentionKwargs.sequence_q_dim]
+        sequence_q_dim: TensorDim = kwargs[AttentionKwargs.token_dim]
         sequence_k_dim: TensorDim = kwargs[AttentionKwargs.sequence_k_dim]
 
         if config.global_:
@@ -406,11 +405,14 @@ def get_compute_usage(self, input_: TensorMeta, kwargs: dict[str, typing.Any], c
         )
 
     def get_preprocessing_config(self, phase: PhaseType) -> dict[str, typing.Any]:
-        out = {}
-        if self._implementation == AttentionImplementation.flash:
-            out["return_cumulative_sequence_lengths"] = True
-            out["return_max_sequence_lengths"] = True
-        return out
+        return (
+            {
+                "return_cumulative_sequence_lengths": True,
+                "return_max_sequence_lengths": True,
+            }
+            if self._implementation == AttentionImplementation.flash
+            else {"return_document_index": True}
+        )
 
     def preprocess(self, kwargs: dict[str, typing.Any]) -> None:
         self._rotary.preprocess(kwargs)
@@ -420,7 +422,7 @@ def preprocess(self, kwargs: dict[str, typing.Any]) -> None:
     def _preprocess_for_backup_attention(self, kwargs: dict[str, typing.Any]) -> None:
         device = kwargs[AttentionKwargs.device] if AttentionKwargs.device in kwargs else self._distributed.device
         sequence_k = kwargs[AttentionKwargs.sequence_k_dim].size
-        sequence_q = kwargs[AttentionKwargs.sequence_q_dim].size
+        sequence_q = kwargs[AttentionKwargs.token_dim].size
         if self._config.causal:
             if (
                 sequence_length := kwargs[AttentionKwargs.sequence_length]
@@ -436,15 +438,12 @@ def _preprocess_for_backup_attention(self, kwargs: dict[str, typing.Any]) -> Non
 
                 if self._config.window_size is not None:
                     self._backup_attention_mask.triu_(-self._config.window_size + 1)
-            attention_mask = self._backup_attention_mask[
-                None, None, sequence_k - sequence_q : sequence_k, None, :sequence_k
-            ]
+            attention_mask = self._backup_attention_mask[None, sequence_k - sequence_q : sequence_k, None, :sequence_k]
         else:
             attention_mask = None
 
-        preprocess_for_varlen(kwargs, device, return_seq_idx=True)
-        document_mask = (kwargs[AttentionKwargs.seq_idx][:, None, :] == kwargs[AttentionKwargs.seq_idx][:, :, None])[
-            :, None, sequence_k - sequence_q : sequence_k, None, :sequence_k
+        document_mask = (kwargs[AttentionKwargs.seq_idx][None, :] == kwargs[AttentionKwargs.seq_idx][:, None])[
+            None, sequence_k - sequence_q : sequence_k, None, :sequence_k
         ]
         if attention_mask is None:
             attention_mask = document_mask
diff --git a/fast_llm/layers/attention/preprocessing.py b/fast_llm/layers/attention/preprocessing.py
deleted file mode 100644
index a9d9936c5..000000000
--- a/fast_llm/layers/attention/preprocessing.py
+++ /dev/null
@@ -1,58 +0,0 @@
-import typing
-
-import torch
-
-from fast_llm.layers.attention.config import MixerKwargs
-from fast_llm.utils import Assert
-
-
-def preprocess_for_varlen(
-    kwargs: dict[str, typing.Any],
-    device: torch.device,
-    return_cu_seqlens: bool = False,
-    return_max_seqlen: bool = False,
-    return_seq_idx: bool = False,
-    return_position_ids: bool = False,
-) -> None:
-    """
-    Prepares cu_seqlens_q and cu_seqlens_k for flash_attn_varlen_func:
-    https://github.com/Dao-AILab/flash-attention/blob/main/flash_attn/flash_attn_interface.py#L1375
-    cu_seqlens_q and cu_seqlens_k are cumulative sequence lengths for the query and key/value tensors, respectively.
-    Assumes a flattened batch of documents. In absence of sequence_data_parallelism, cu_seqlens_q = cu_seqlens_k.
-    If sequence_data_parallelism > 1, query tensors contain tokens only from current micro-sequence, whereas key/value tensors additionally
-    also contain previous tokens from the first document in micro-sequence.
-    We use individual sequence lengths of each document to (optionally) find the micro-sequences in the batch and compute the cumulative lengths.
-    """
-
-    # TODO: ====== Fix (need to know how much first sequence was cropped) ======
-    Assert.eq(kwargs[MixerKwargs.sequence_k_dim].global_size, kwargs[MixerKwargs.sequence_q_dim].global_size)
-
-    sequence_lengths = [
-        sequence_length
-        for sequence_lengths in kwargs[MixerKwargs.sequence_lengths]
-        for sequence_length in sequence_lengths
-    ]
-    if return_cu_seqlens:
-        cu_seqlens_q = torch.tensor([0] + sequence_lengths, dtype=torch.int32, device=device).cumsum(
-            0, dtype=torch.int32
-        )
-        kwargs[MixerKwargs.cu_seqlens_q] = cu_seqlens_q
-        kwargs[MixerKwargs.cu_seqlens_k] = cu_seqlens_q
-    if return_max_seqlen:
-        max_seqlen_q = torch.full((1,), max(sequence_lengths), dtype=torch.int32, device=device)
-        kwargs[MixerKwargs.max_seqlen_q] = max_seqlen_q
-        kwargs[MixerKwargs.max_seqlen_k] = max_seqlen_q
-    if return_seq_idx:
-        kwargs[MixerKwargs.seq_idx] = torch.cat(
-            [
-                torch.full((sequence_length,), i, dtype=torch.int32, device=device)
-                for i, sequence_length in enumerate(sequence_lengths)
-            ]
-        )
-    if return_position_ids:
-        kwargs[MixerKwargs.position_ids] = torch.cat(
-            [
-                torch.arange(sequence_length, dtype=torch.int32, device=device)
-                for i, sequence_length in enumerate(sequence_lengths)
-            ]
-        )
diff --git a/fast_llm/layers/attention/rotary/rotary.py b/fast_llm/layers/attention/rotary/rotary.py
index 307256a72..9e28b66c6 100644
--- a/fast_llm/layers/attention/rotary/rotary.py
+++ b/fast_llm/layers/attention/rotary/rotary.py
@@ -93,7 +93,7 @@ def preprocess(self, kwargs: dict[str, typing.Any]) -> None:
         self._create_tensors(kwargs[AttentionKwargs.sequence_length], kwargs[AttentionKwargs.device])
         sequence_k = kwargs[AttentionKwargs.sequence_k_dim].size
         kwargs[AttentionKwargs.rotary_freq_q] = self._rotary_embedding_frequencies[
-            :, sequence_k - kwargs[AttentionKwargs.sequence_q_dim].size : sequence_k
+            :, sequence_k - kwargs[AttentionKwargs.token_dim].size : sequence_k
         ]
         kwargs[AttentionKwargs.rotary_freq_k] = self._rotary_embedding_frequencies[:, :sequence_k]
 
@@ -124,9 +124,9 @@ def _get_frequencies(self, sequence_length: int, head_size: int, device: torch.d
         # We preform the calculation in high precision because it matters for rotary embeddings.
         positions = torch.arange(sequence_length, device=device, dtype=torch.float64)
         angles = torch.outer(positions, self._get_angle_scales(head_size, device))
-        frequencies = torch.polar(torch.ones_like(angles), angles)[None, :, None, :].to(torch.complex64)
+        frequencies = torch.polar(torch.ones_like(angles), angles)[:, None, :].to(torch.complex64)
         frequencies = convert_rotary_complex_to_real(
-            torch.view_as_real(frequencies).flatten(-2), head_size, 3
+            torch.view_as_real(frequencies).flatten(-2), head_size, 2
         ).contiguous()
         return frequencies
 
@@ -223,9 +223,9 @@ def preprocess(self, kwargs: dict[str, typing.Any]) -> None:
             self._frequencies.T.unsqueeze(1),
             out=angles.view(-1, 2, self._head_size // 4).permute(1, 0, 2),
         )
-        frequencies = torch.polar(torch.ones_like(angles), angles)[None, :, None, :].to(torch.complex64)
+        frequencies = torch.polar(torch.ones_like(angles), angles)[:, None, :].to(torch.complex64)
         frequencies = convert_rotary_complex_to_real(
-            torch.view_as_real(frequencies).flatten(-2), self._head_size, 3
+            torch.view_as_real(frequencies).flatten(-2), self._head_size, 2
         ).contiguous()
         # TODO: Support different q and k frequencies.
         kwargs[AttentionKwargs.rotary_freq_q] = frequencies
diff --git a/fast_llm/layers/language_model/embedding.py b/fast_llm/layers/language_model/embedding.py
index ed685b416..1c5e51410 100644
--- a/fast_llm/layers/language_model/embedding.py
+++ b/fast_llm/layers/language_model/embedding.py
@@ -179,7 +179,7 @@ def get_compute_usage(self, input_: TensorMeta, kwargs: dict[str, typing.Any], c
         return 0
 
     def get_preprocessing_config(self, phase: PhaseType) -> dict[str, typing.Any]:
-        out = {"vocab_size": self.embeddings.vocab_size}
+        out = {"vocab_size": self._config.vocab_size}
         if self._config.position_embeddings.enabled:
             out["return_position_index"] = True
         return out
diff --git a/fast_llm/layers/language_model/head.py b/fast_llm/layers/language_model/head.py
index 57b9b82b8..06cc7a2ea 100644
--- a/fast_llm/layers/language_model/head.py
+++ b/fast_llm/layers/language_model/head.py
@@ -47,7 +47,7 @@ def __init__(
         hidden_dim: TensorDim,
         lr_scale: float | None,
         peft: PeftConfig | None,
-        prediction_distance: int = 0,
+        prediction_distance: int = 1,
         loss_coefficient: float = 1.0,
     ):
         super().__init__(
@@ -57,9 +57,9 @@ def __init__(
             lr_scale=lr_scale,
             peft=peft,
         )
-        Assert.in_range(prediction_distance, 0, self._config.prediction_heads)
+        Assert.in_range_incl(prediction_distance, 1, self._config.prediction_heads)
         self._prediction_distance = prediction_distance
-        self._is_last_head = self._prediction_distance == self._config.prediction_heads - 1
+        self._is_last_head = self._prediction_distance == self._config.prediction_heads
 
         self._vocab_parallel = self._distributed_config.tensor_parallel > 1 and embeddings_config.vocab_parallel
         self._parallel_dim = self._distributed_config.get_distributed_dim(DistributedDimNames.tensor)
@@ -89,7 +89,7 @@ def __init__(
         loss_coefficient = (
             1.0
             if self._config.prediction_loss_coefficient is None
-            else self._config.prediction_loss_coefficient[self._prediction_distance]
+            else self._config.prediction_loss_coefficient[self._prediction_distance - 1]
         )
         self.losses = torch.nn.ModuleList(
             [
@@ -117,7 +117,7 @@ def get_compute_usage(self, input_: TensorMeta, kwargs: dict[str, typing.Any], c
         )
 
     def get_preprocessing_config(self, phase: PhaseType) -> dict[str, typing.Any]:
-        return safe_merge_dicts([loss.get_preprocessing_config(phase) for loss in self.losses])
+        return safe_merge_dicts(*(loss.get_preprocessing_config(phase) for loss in self.losses))
 
     def get_output_weights(self) -> list[torch.Tensor]:
         return [self.output_weights]
@@ -295,7 +295,7 @@ def get_loss_definitions(self, count: int = 1) -> list[LossDef]:
         ]
 
     def _get_full_loss_name(self, name) -> str:
-        return name if self._prediction_distance == 0 else f"{name}_{self._prediction_distance}"
+        return name if self._prediction_distance == 1 else f"{name}_{self._prediction_distance}"
 
     @functools.cached_property
     def _total_loss_name(self) -> str:
diff --git a/fast_llm/layers/language_model/language_model.py b/fast_llm/layers/language_model/language_model.py
index bdd261d28..099051cfc 100644
--- a/fast_llm/layers/language_model/language_model.py
+++ b/fast_llm/layers/language_model/language_model.py
@@ -71,7 +71,7 @@ def get_preprocessing_config(self, phase: PhaseType) -> dict[str, typing.Any]:
             self.embeddings.get_preprocessing_config(phase),
             self.decoder.get_preprocessing_config(phase),
             self.head.get_preprocessing_config(phase),
-            {} if self.multi_token_prediction is None else self.multi_token_prediction.get_preprocessing_config(phase),
+            self.multi_token_prediction.get_preprocessing_config(phase),
         )
 
     def preprocess(self, kwargs: dict[str, typing.Any]) -> None:
@@ -79,16 +79,16 @@ def preprocess(self, kwargs: dict[str, typing.Any]) -> None:
         self.embeddings.preprocess(kwargs)
         self.decoder.preprocess(kwargs)
         self.head.preprocess(kwargs)
-        if self.multi_token_prediction is not None:
-            self.multi_token_prediction.preprocess(kwargs)
+        self.multi_token_prediction.preprocess(kwargs)
 
     def get_loss_definitions(self, count: int = 1) -> list[LossDef]:
         # Needed because the base class uses `get_layers` which may bypass the decoder and head. TODO: Avoidable?
-        losses = (
-            self.embeddings.get_loss_definitions(count)
-            + self.decoder.get_loss_definitions(count)
-            + self.head.get_loss_definitions(count)
+        return sum(
+            (
+                self.embeddings.get_loss_definitions(count),
+                self.decoder.get_loss_definitions(count),
+                self.head.get_loss_definitions(count),
+                self.multi_token_prediction.get_loss_definitions(count),
+            ),
+            [],
         )
-        if self.multi_token_prediction is not None:
-            losses += self.multi_token_prediction.get_loss_definitions(count)
-        return losses
diff --git a/fast_llm/layers/language_model/loss/config.py b/fast_llm/layers/language_model/loss/config.py
index b6a2ef175..803ac05f1 100644
--- a/fast_llm/layers/language_model/loss/config.py
+++ b/fast_llm/layers/language_model/loss/config.py
@@ -42,7 +42,7 @@ def get_layer(
         self,
         distributed_config: DistributedConfig,
         name: str,
-        prediction_distance: int = 0,
+        prediction_distance: int = 1,
         prediction_heads: int = 1,
         vocab_parallel: bool = False,
         num_splits: int = 1,
diff --git a/fast_llm/layers/language_model/loss/dpo.py b/fast_llm/layers/language_model/loss/dpo.py
index ad8ff49d9..4eb7446e5 100644
--- a/fast_llm/layers/language_model/loss/dpo.py
+++ b/fast_llm/layers/language_model/loss/dpo.py
@@ -10,11 +10,11 @@
 class LanguageModelDPOLoss[ConfigType: LanguageModelDPOLossConfig](LanguageModelLoss[ConfigType]):
     def __init__(self, *args, **kwargs):
         super().__init__(*args, **kwargs)
-        if self._prediction_distance > 0:
+        if self._prediction_distance > 1:
             raise NotImplementedError()
         if self._num_splits > 1:
             raise NotImplementedError()
-        if self._prediction_distance > 0:
+        if self._prediction_distance > 1:
             raise NotImplementedError()
         if self._vocab_parallel:
             raise NotImplementedError()
diff --git a/fast_llm/layers/language_model/loss/loss.py b/fast_llm/layers/language_model/loss/loss.py
index 9506b3d80..07568ccc5 100644
--- a/fast_llm/layers/language_model/loss/loss.py
+++ b/fast_llm/layers/language_model/loss/loss.py
@@ -18,7 +18,7 @@ def __init__(
         distributed_config: DistributedConfig,
         *,
         name: str,
-        prediction_distance: int = 0,
+        prediction_distance: int = 1,
         prediction_heads: int = 1,
         vocab_parallel: bool = False,
         num_splits: int = 1,
@@ -26,7 +26,7 @@ def __init__(
         weight: float = 1.0,
     ):
         super().__init__(config)
-        Assert.in_range(prediction_distance, 0, prediction_heads)
+        Assert.in_range_incl(prediction_distance, 1, prediction_heads)
         self._prediction_distance = prediction_distance
         self._prediction_heads = prediction_heads
         self._name = name
@@ -88,11 +88,17 @@ def _get_grad_output(self, kwargs: dict[str, typing.Any]) -> float | None:
         return grad_output
 
     def _get_labels(self, kwargs: dict[str, typing.Any], split_index: int = 0):
-        return self._prepare_target(kwargs[LanguageModelLossKwargs.labels], kwargs, split_index)
+        return self._prepare_target(
+            kwargs[LanguageModelLossKwargs.labels][self._prediction_distance - 1], kwargs, split_index
+        )
 
     def _get_loss_mask(self, kwargs: dict[str, typing.Any], split_index: int = 0):
         loss_mask = kwargs.get(LanguageModelKwargs.loss_mask)
-        return None if loss_mask is None else self._prepare_target(loss_mask, kwargs, split_index)
+        return (
+            None
+            if loss_mask is None
+            else self._prepare_target(loss_mask[self._prediction_distance - 1], kwargs, split_index)
+        )
 
     def _get_reference_model_logits(self, reference_model: str, kwargs: dict[str, typing.Any], split_index: int = 0):
         Assert.incl(
diff --git a/fast_llm/layers/language_model/multi_token_prediction.py b/fast_llm/layers/language_model/multi_token_prediction.py
index a828cacc1..f7979ae53 100644
--- a/fast_llm/layers/language_model/multi_token_prediction.py
+++ b/fast_llm/layers/language_model/multi_token_prediction.py
@@ -47,9 +47,9 @@ def __init__(
                     peft=self._peft,
                     # The last block only returns the model output.
                     # The previous blocks return a stack of shared_hidden and transformer_output.
-                    return_input=index < self._config.prediction_heads - 1,
+                    return_input=prediction_distance < self._config.prediction_heads,
                 )
-                for index in range(1, self._config.prediction_heads)
+                for prediction_distance in range(2, self._config.prediction_heads + 1)
             ]
         )
         self.heads = torch.nn.ModuleList(
@@ -61,9 +61,9 @@ def __init__(
                     hidden_dim=hidden_dim,
                     lr_scale=lr_scale,
                     peft=peft,
-                    prediction_distance=index,
+                    prediction_distance=prediction_distance,
                 )
-                for index in range(1, self._config.prediction_heads)
+                for prediction_distance in range(2, self._config.prediction_heads + 1)
             ]
         )
 
@@ -88,8 +88,7 @@ def get_output_weights(self) -> list[torch.Tensor]:
         return sum((head.get_output_weights() for head in self.heads), [])
 
     def get_preprocessing_config(self, phase: PhaseType) -> dict[str, typing.Any]:
-        if self._enabled:
-            self._layers_with_namespace[0].get_preprocessing_config(phase)
+        return self._layers_with_namespace[0].get_preprocessing_config(phase) if self._enabled else {}
 
     def preprocess(self, kwargs: dict[str, typing.Any]) -> None:
         if self._enabled:
diff --git a/fast_llm/layers/ssm/mamba.py b/fast_llm/layers/ssm/mamba.py
index 275a1fae9..f1df8059f 100644
--- a/fast_llm/layers/ssm/mamba.py
+++ b/fast_llm/layers/ssm/mamba.py
@@ -165,8 +165,9 @@ def _forward(
     ) -> tuple[torch.Tensor, torch.Tensor | None]:
         assert _mamba_available
 
-        sequence_length = kwargs[BlockKwargs.sequence_q_dim].size
-        token_shape = (1, kwargs[BlockKwargs.sequence_q_dim].size)
+        sequence_length = kwargs[BlockKwargs.token_dim].size
+        token_shape = (1, sequence_length)
+        # TODO: ====== Keep flat ======
         # inner_projection : (local_tokens, hidden) -> (batch, sequence, local_inner_projection)
         inner_projection = self.in_proj(input_).unflatten(0, token_shape)
         dt = self.dt_proj(self.dt_in_proj(input_)).unflatten(0, token_shape)
diff --git a/fast_llm/models/gpt/conversion/mtp_llama.py b/fast_llm/models/gpt/conversion/mtp_llama.py
index 0c58b7be5..05b6e4bbe 100644
--- a/fast_llm/models/gpt/conversion/mtp_llama.py
+++ b/fast_llm/models/gpt/conversion/mtp_llama.py
@@ -41,10 +41,10 @@ def get_converters(
         return super().get_converters(config, exported_config) + [
             cls.normalization_converter_class.get_converters(
                 config.head.normalization,
-                f"multi_token_prediction.heads.{prediction_distance - 1}.final_norm",
-                f"model.mtp_norms.{prediction_distance}",
+                f"multi_token_prediction.heads.{prediction_distance - 2}.final_norm",
+                f"model.mtp_norms.{prediction_distance-1}",
             )
-            for prediction_distance in range(1, config.prediction_heads)
+            for prediction_distance in range(2, config.prediction_heads + 1)
         ]
 
 
diff --git a/fast_llm/models/gpt/huggingface.py b/fast_llm/models/gpt/huggingface.py
index fd02a6dc3..2bba685b9 100644
--- a/fast_llm/models/gpt/huggingface.py
+++ b/fast_llm/models/gpt/huggingface.py
@@ -121,7 +121,11 @@ def _inner_forward(
             kwargs_meta[BlockKwargs.output_hidden_states] = [re.compile(pattern) for pattern in output_hidden_states]
 
         ((input_, kwargs),) = self.fast_llm_base_model.preprocess_batch(
-            batch, [(input_meta, kwargs_meta)], phase=PhaseType.inference, iteration=iteration
+            batch,
+            [(input_meta, kwargs_meta)],
+            phase=PhaseType.inference,
+            iteration=iteration,
+            device=self.fast_llm_model.distributed.device,
         )
 
         if past_key_values is not None:
diff --git a/fast_llm/models/gpt/model.py b/fast_llm/models/gpt/model.py
index 33519a415..58a0fa56d 100644
--- a/fast_llm/models/gpt/model.py
+++ b/fast_llm/models/gpt/model.py
@@ -49,16 +49,15 @@ def preprocess_batch(
         iteration: int,
         metrics: dict | None = None,
         extra_kwargs: dict[str, typing.Any] | None = None,
+        device: torch.device | None,
     ) -> list[tuple[torch.Tensor, dict]]:
-        # TODO Move batch splitting elsewhere, align interface with LayerBase
-        assert self._is_setup
-
         reference_preprocessed_batches = {}
         for name, reference_model in self._reference_models.items():
             reference_preprocessed_batches[name] = reference_model.fast_llm_model.base_model.preprocess_batch(
                 batch,
                 phase=PhaseType.inference,
                 iteration=iteration,
+                device=device,
             )
 
         preprocessed = []
@@ -66,13 +65,14 @@ def preprocess_batch(
         for micro_sequence_index, micro_sequence in enumerate(batch.micro_batches):
             pasts = presents
             presents = None if micro_sequence_index == len(batch) - 1 else []
-            micro_sequence.to_device_(self._distributed.device)
+            if device is not None:
+                micro_sequence.to_device_(device)
             kwargs: dict[str, typing.Any] = {
                 LanguageModelKwargs.phase: phase,
                 AttentionKwargs.past_key_values: pasts,
                 AttentionKwargs.presents: presents,
                 LanguageModelKwargs.iteration: iteration,
-                LanguageModelKwargs.device: self._distributed.device,
+                LanguageModelKwargs.device: device,
                 LanguageModelKwargs.output_hidden_states: [],
                 LanguageModelKwargs.hidden_states: {},
                 LanguageModelKwargs.token_dim: micro_sequence.token_dim,
@@ -87,10 +87,8 @@ def preprocess_batch(
                 AttentionKwargs.cu_seqlens_k: micro_sequence.cumulative_lengths_k,
                 AttentionKwargs.max_seqlen_q: micro_sequence.max_length_q,
                 AttentionKwargs.max_seqlen_k: micro_sequence.max_length_k,
-                LanguageModelKwargs.seq_idx: micro_sequence.document_index,
+                AttentionKwargs.seq_idx: micro_sequence.document_index,
                 LanguageModelKwargs.position_ids: micro_sequence.position_index,
-                LanguageModelKwargs.chosen_spans: micro_sequence.chosen_spans,
-                LanguageModelKwargs.rejected_spans: micro_sequence.rejected_spans,
             }
             if extra_kwargs is not None:
                 Assert.empty(kwargs.keys() & extra_kwargs.keys())
@@ -112,7 +110,8 @@ def preprocess_batch(
                     layer_name: tensor
                     for layer_name, (meta, tensor) in reference_kwargs[BlockKwargs.hidden_states].items()
                 }
-            self.preprocess(kwargs)
+            if not micro_sequence.is_meta:
+                self.preprocess(kwargs)
             preprocessed.append((micro_sequence.tokens, kwargs))
 
         return preprocessed
@@ -140,10 +139,13 @@ def _head_reference_models(self) -> set[str]:
 
 class GPTModel[ConfigType: GPTModelConfig](FastLLMModel[ConfigType]):
     def get_preprocessing_config(
-        self,
-        phase: PhaseType,
+        self, batch: GPTBatchConfig, phase: PhaseType
     ) -> LanguageModelBatchPreprocessingConfig:
-        return LanguageModelBatchPreprocessingConfig(phase=phase, **self._base_model.get_preprocessing_config(phase))
+        return LanguageModelBatchPreprocessingConfig(
+            phase=phase,
+            batch=batch,
+            **self._base_model.get_preprocessing_config(phase),
+        )
 
 
 class GPTInferenceRunner(InferenceRunner):
diff --git a/fast_llm/models/multimodal/model.py b/fast_llm/models/multimodal/model.py
index 7eb784148..2742032dd 100644
--- a/fast_llm/models/multimodal/model.py
+++ b/fast_llm/models/multimodal/model.py
@@ -151,9 +151,16 @@ def preprocess_batch(
         iteration: int,
         metrics: dict | None = None,
         extra_kwargs: dict[str, typing.Any] | None = None,
+        device: torch.device | None,
     ) -> list[tuple[torch.Tensor, dict]]:
         preprocessed = super().preprocess_batch(
-            batch, preprocessed_meta, phase=phase, iteration=iteration, metrics=metrics, extra_kwargs=extra_kwargs
+            batch,
+            preprocessed_meta,
+            phase=phase,
+            iteration=iteration,
+            metrics=metrics,
+            extra_kwargs=extra_kwargs,
+            device=device,
         )
         # TODO: Support micro-sequences.
         assert len(preprocessed) == 1, "Micro-sequences not supported for MultiModalModel."
diff --git a/tests/data/test_preprocessing.py b/tests/data/test_preprocessing.py
new file mode 100644
index 000000000..e8fd2f384
--- /dev/null
+++ b/tests/data/test_preprocessing.py
@@ -0,0 +1,65 @@
+import pytest
+import torch
+
+from fast_llm.config import NoAutoValidate
+from fast_llm.data.batch.config import LanguageModelBatchPreprocessingConfig
+from fast_llm.data.batch.language_model import LanguageModelPreprocessedBatch
+from fast_llm.data.document.language_model import LanguageModelDocument
+from fast_llm.data.document.range import RangeDocument
+from fast_llm.data.document.token import TokenDocument
+from fast_llm.engine.distributed.config import DistributedConfig
+from fast_llm.models.gpt.config import GPTBatchConfig
+from fast_llm.utils import Assert
+
+
+# TODO: Test padding, more scenarios
+# TODO: Check rest of preprocessing output
+@pytest.mark.parametrize(
+    ("tokens", "loss_masking_spans"),
+    (
+        ([[100, 101, 102, 103, 104, 105, 106, 107]], [None]),  # Simple case
+        ([[100, 101, -100, -100, 104, 105, 106, 107]], [None]),  # Negative tokens
+        ([[100, 101, 102, 103, 104, 105, 106, 107]], [[(3, 5)]]),  # Loss masking span
+        ([[100, 101, 102, 103, -100, -100, 106, 107]], [[(2, 3)]]),  # Both
+        (
+            [
+                [100, 101, -100, 103, -100, -100, 106, 107],
+                [100, 101, 102, 103, 104, 105, 106, 107],
+            ],
+            [[(2, 3)], None],
+        ),  # Two samples
+    ),
+)
+def test_preprocessing(tokens, loss_masking_spans):
+    documents = [
+        LanguageModelDocument(
+            tokens=TokenDocument(tokens=torch.tensor(tokens_, dtype=torch.int64)),
+            loss_masking_spans=None if loss_masking_spans_ is None else RangeDocument(ranges=loss_masking_spans_),
+        )
+        for tokens_, loss_masking_spans_ in zip(tokens, loss_masking_spans, strict=True)
+    ]
+    with NoAutoValidate():
+        batch_config = GPTBatchConfig(sequence_length=sum(len(document) for document in documents) - 1)
+    batch_config.setup(DistributedConfig())
+    batch_config.validate()
+    config = LanguageModelBatchPreprocessingConfig(batch=batch_config)
+    preprocessed = LanguageModelPreprocessedBatch.from_documents(documents, config)
+
+    Assert.eq(len(preprocessed.micro_batches), 1)
+    micro_batch = preprocessed.micro_batches[0]
+
+    Assert.all_equal(micro_batch.tokens, torch.cat([document.tokens.tokens for document in documents])[:-1])
+
+    label_tokens = []
+    for document in documents:
+        label_tokens_ = document.tokens.tokens.clone()
+        # Mask cross-document attention
+        label_tokens_[0] = -100
+        # Loss masking spans
+        if document.loss_masking_spans is not None:
+            for begin, end in document.loss_masking_spans.ranges:
+                label_tokens_[begin:end] = -100
+        label_tokens.append(label_tokens_)
+
+    Assert.eq(len(micro_batch.labels), 1)
+    Assert.all_equal(micro_batch.labels[0], torch.cat(label_tokens)[1:])
diff --git a/tests/layers/test_lm_head.py b/tests/layers/test_lm_head.py
index c14232b4f..fe6128b6a 100644
--- a/tests/layers/test_lm_head.py
+++ b/tests/layers/test_lm_head.py
@@ -13,8 +13,7 @@
 from fast_llm.utils import Assert
 from tests.utils.utils import get_base_model, get_stage
 
-SEQUENCE_LENGTH = 200
-BATCH_SIZE = 4
+NUM_TOKENS = 200
 HIDDEN_SIZE = 256
 VOCAB_SIZE = 500
 
@@ -80,27 +79,35 @@ def get_config(self) -> GPTModelConfig:
     def get_inputs(self) -> tuple[torch.Tensor, dict[str, typing.Any]]:
         device = "cuda" if torch.cuda.is_available() else "cpu"
         input_ = torch.randn(
-            (BATCH_SIZE * SEQUENCE_LENGTH, HIDDEN_SIZE),
+            (NUM_TOKENS, HIDDEN_SIZE),
             dtype=(torch.float32 if self.full_precision_residual else self.compute_dtype.torch),
             device=device,
             requires_grad=True,
         )
-        label_shape = (BATCH_SIZE * (SEQUENCE_LENGTH + self.prediction_heads - 1),)
         kwargs: dict[str, typing.Any] = {
             AttentionKwargs.grad_output: 1.0,
         }
         if self.loss_masking:
-            kwargs[LanguageModelKwargs.loss_mask] = torch.randint(0, 2, label_shape, dtype=torch.bool, device=device)
+            kwargs[LanguageModelKwargs.loss_mask] = [
+                torch.randint(0, 2, (NUM_TOKENS,), dtype=torch.bool, device=device)
+                for _ in range(self.prediction_heads)
+            ]
         if self.actual_label_loss is not False:
-            labels = torch.randint(
-                0,
-                VOCAB_SIZE,
-                label_shape,
-                dtype=torch.int64,
-                device=device,
-            )
+            labels = [
+                torch.randint(
+                    0,
+                    VOCAB_SIZE,
+                    (NUM_TOKENS,),
+                    dtype=torch.int64,
+                    device=device,
+                )
+                for _ in range(self.prediction_heads)
+            ]
             if LanguageModelKwargs.loss_mask in kwargs:
-                labels = torch.where(kwargs[LanguageModelKwargs.loss_mask], labels, -100)
+                labels = [
+                    torch.where(mask, labels_, -100)
+                    for labels_, mask in zip(labels, kwargs[LanguageModelKwargs.loss_mask], strict=True)
+                ]
             kwargs[LanguageModelKwargs.labels] = labels
 
         if self.distillation_loss is not False:
@@ -138,13 +145,7 @@ def get_reference_outputs(
         losses = {}
 
         if self.actual_label_loss is not False:
-            labels = (
-                kwargs[LanguageModelKwargs.labels]
-                .view(BATCH_SIZE, (SEQUENCE_LENGTH + self.prediction_heads - 1))[
-                    :, head._prediction_distance : head._prediction_distance + SEQUENCE_LENGTH
-                ]
-                .flatten()
-            )
+            labels = kwargs[LanguageModelKwargs.labels][head._prediction_distance - 1]
             label_loss = torch.nn.functional.cross_entropy(logits, labels, reduction="none").mean()
             losses["label"] = label_loss.detach()
             total_loss = total_loss + float(self.actual_label_loss) * label_loss
@@ -156,7 +157,9 @@ def get_reference_outputs(
                 reduction="none",
             )
             if LanguageModelKwargs.loss_mask in kwargs:
-                distillation_loss = distillation_loss * kwargs[LanguageModelKwargs.loss_mask]
+                distillation_loss = (
+                    distillation_loss * kwargs[LanguageModelKwargs.loss_mask][head._prediction_distance - 1]
+                )
             distillation_loss = distillation_loss.mean()
             losses["distillation"] = distillation_loss.detach()
             total_loss = total_loss + float(self.distillation_loss) * distillation_loss
@@ -164,7 +167,7 @@ def get_reference_outputs(
         if self.z_loss is not False:
             z_loss = torch.logsumexp(logits, dim=-1) ** 2
             if LanguageModelKwargs.loss_mask in kwargs:
-                z_loss = z_loss * kwargs[LanguageModelKwargs.loss_mask]
+                z_loss = z_loss * kwargs[LanguageModelKwargs.loss_mask][head._prediction_distance - 1]
             z_loss = z_loss.mean()
             losses["z_loss"] = z_loss.detach()
             total_loss = total_loss + float(self.z_loss) * z_loss
@@ -176,7 +179,7 @@ def get_reference_outputs(
         else:
             losses = {LM_HEAD_LOSS_NAME: total_loss.detach()}
 
-        if head._prediction_distance > 0:
+        if head._prediction_distance > 1:
             losses = {f"{name}_{head._prediction_distance}": loss for name, loss in losses.items()}
 
         return total_loss.detach(), input_.grad, logit_weight.grad, normalization_weight.grad, losses
@@ -236,12 +239,12 @@ def test_lm_head(test_config: LMHeadTestConfig):
         else None
     )
 
-    for prediction_distance in range(model_config.base_model.head.prediction_heads):
+    for prediction_distance in range(1, model_config.base_model.head.prediction_heads + 1):
         # Prepare the LM head
-        head = model.head if prediction_distance == 0 else model.multi_token_prediction.heads[prediction_distance - 1]
+        head = model.head if prediction_distance == 1 else model.multi_token_prediction.heads[prediction_distance - 2]
         Assert.custom(isinstance, head, LanguageModelHead)
         Assert.eq(head._prediction_distance, prediction_distance)
-        is_duplicate = test_config.tied_embedding_weight or prediction_distance > 0
+        is_duplicate = test_config.tied_embedding_weight or prediction_distance > 1
         stage = get_stage(
             [head],
             distributed,
@@ -255,7 +258,7 @@ def test_lm_head(test_config: LMHeadTestConfig):
 
         ref_total_loss, ref_input_grad, ref_logit_weight_grad, ref_normalization_weight_grad, ref_losses = (
             test_config.get_reference_outputs(
-                head, input_, kwargs, tied_logit_weight if prediction_distance > 0 else None
+                head, input_, kwargs, tied_logit_weight if prediction_distance > 1 else None
             )
         )
 
diff --git a/tests/test_loss_mask.py b/tests/test_loss_mask.py
deleted file mode 100644
index f0af94256..000000000
--- a/tests/test_loss_mask.py
+++ /dev/null
@@ -1,254 +0,0 @@
-"""
-Integration test that loss_mask correctly combines all masking sources:
-- Negative labels (padding and image placeholders)
-- loss_masking_spans
-
-Tests the actual preprocess_batch code path in fast_llm/models/gpt/model.py
-"""
-
-import torch
-
-from fast_llm.config import NoAutoValidate
-from fast_llm.engine.distributed.config import PhaseType
-from fast_llm.layers.language_model.config import LanguageModelKwargs
-from fast_llm.models.gpt.config import GPTBatchConfig, GPTModelConfig
-from tests.utils.utils import get_base_model
-
-
-def create_test_batch(
-    tokens: torch.Tensor,
-    lengths: list[list[int]] | None = None,
-    loss_masking_spans: list[list[tuple[int, int]]] | None = None,
-) -> LanguageModelBatch:
-    """Create a LanguageModelBatch for testing."""
-    token_batch = TokenBatch(tokens, lengths)
-
-    if loss_masking_spans is not None:
-        range_batch = RangeBatch(loss_masking_spans, sample_size=tokens.shape[1])
-    else:
-        range_batch = None
-
-    return LanguageModelBatch(
-        tokens=token_batch,
-        loss_masking_spans=range_batch,
-    )
-
-
-def get_minimal_model():
-    """Create a minimal GPT model for testing."""
-    config = GPTModelConfig.from_dict(
-        {
-            "base_model": {
-                "decoder": {"num_blocks": 1},
-                "embeddings": {"vocab_size": 1000},
-                "hidden_size": 64,
-            },
-            "distributed": {"use_cuda": torch.cuda.is_available()},
-        },
-    )
-    model, distributed = get_base_model(config)
-    return model, distributed
-
-
-def run_preprocess_batch(model, distributed_config, batch: LanguageModelBatch, phase: PhaseType = PhaseType.training):
-    """
-    Run preprocess_batch with proper GPTBatchConfig metadata.
-
-    This avoids the code path that accesses prediction_heads directly.
-    """
-    micro_batch_size, sequence_length = batch.tokens.tokens.shape
-
-    # Create GPTBatchConfig for metadata with proper setup
-    with NoAutoValidate():
-        batch_config = GPTBatchConfig(
-            batch_size=micro_batch_size,
-            sequence_length=sequence_length,
-        )
-    batch_config.setup(distributed_config)
-    batch_config.validate()
-
-    # Get preprocessed metadata using GPTBatchConfig
-    preprocessed_meta = model.preprocess_meta(batch_config, phase)
-
-    # Run preprocess_batch with the actual batch data
-    return model.preprocess_batch(
-        batch,
-        preprocessed_meta=preprocessed_meta,
-        phase=phase,
-        iteration=0,
-    )
-
-
-class TestLossMaskIntegration:
-    """
-    Integration tests for loss_mask computation in preprocess_batch.
-
-    These tests verify the masking behavior by checking labels, since:
-    1. loss_mask = labels >= 0 (masks negative labels)
-    2. loss_masking_spans positions are also masked
-    3. labels are set to -100 at all masked positions
-
-    So if labels are -100 at expected positions, the masking is working.
-    """
-
-    def test_negative_labels_preserved(self):
-        """Test that negative input tokens result in negative labels (shifted by 1)."""
-        model, distributed = get_minimal_model()
-
-        # Sequence: [text, text, IMG(-100), IMG(-100), text, text, text, text]
-        # Labels (shifted by 1): [text, IMG, IMG, text, text, text, text, ?]
-        tokens = torch.tensor(
-            [
-                [100, 101, -100, -100, 104, 105, 106, 107],
-            ],
-            dtype=torch.int64,
-        )
-
-        batch = create_test_batch(tokens)
-        preprocessed = run_preprocess_batch(model, distributed.config, batch)
-
-        assert len(preprocessed) == 1
-        _, kwargs = preprocessed[0]
-
-        labels = kwargs[LanguageModelKwargs.labels]
-        # Flatten for easier indexing (handles sequence_first)
-        labels_flat = labels.flatten()
-
-        # Labels at positions 1,2 should be -100 (the next token after positions 0,1 is -100)
-        assert labels_flat[1].item() == -100, f"Label at position 1 should be -100, got {labels_flat[1].item()}"
-        assert labels_flat[2].item() == -100, f"Label at position 2 should be -100, got {labels_flat[2].item()}"
-
-        # Labels at other positions should be positive
-        assert labels_flat[0].item() > 0, "Label at position 0 should be positive"
-        assert labels_flat[3].item() > 0, "Label at position 3 should be positive"
-
-    def test_loss_masking_spans_set_labels_to_negative(self):
-        """Test that loss_masking_spans positions have labels set to -100."""
-        model, distributed = get_minimal_model()
-
-        # All positive tokens
-        tokens = torch.tensor(
-            [
-                [100, 101, 102, 103, 104, 105, 106, 107],
-            ],
-            dtype=torch.int64,
-        )
-
-        # loss_masking_spans are in TOKEN space, but labels are shifted by 1
-        # Span (3, 5) in token space -> after cropping with labels_begin=1 -> (2, 4) in label space
-        # This will mask label positions 2 and 3
-        loss_masking_spans = [[(3, 5)]]
-
-        batch = create_test_batch(tokens, loss_masking_spans=loss_masking_spans)
-        preprocessed = run_preprocess_batch(model, distributed.config, batch)
-
-        assert len(preprocessed) == 1
-        _, kwargs = preprocessed[0]
-
-        labels = kwargs[LanguageModelKwargs.labels]
-        labels_flat = labels.flatten()
-
-        # After cropping, positions 2,3 in label space should be masked (set to -100)
-        assert labels_flat[2].item() == -100, f"Label at position 2 should be -100, got {labels_flat[2].item()}"
-        assert labels_flat[3].item() == -100, f"Label at position 3 should be -100, got {labels_flat[3].item()}"
-
-        # Positions outside the span should be positive
-        assert labels_flat[0].item() > 0, "Label at position 0 should be positive"
-        assert labels_flat[1].item() > 0, "Label at position 1 should be positive"
-        assert labels_flat[4].item() > 0, "Label at position 4 should be positive"
-
-    def test_combined_masking_negative_labels_and_spans(self):
-        """Test that both negative labels AND loss_masking_spans result in -100 labels."""
-        model, distributed = get_minimal_model()
-
-        # Tokens with -100 at positions 4,5 (will affect labels at 3,4)
-        tokens = torch.tensor(
-            [
-                [100, 101, 102, 103, -100, -100, 106, 107],
-            ],
-            dtype=torch.int64,
-        )
-
-        # loss_masking_spans in token space: (2, 3) -> after cropping to label space: (1, 2)
-        # This will mask label position 1
-        loss_masking_spans = [[(2, 3)]]
-
-        batch = create_test_batch(tokens, loss_masking_spans=loss_masking_spans)
-        preprocessed = run_preprocess_batch(model, distributed.config, batch)
-
-        assert len(preprocessed) == 1
-        _, kwargs = preprocessed[0]
-
-        labels = kwargs[LanguageModelKwargs.labels]
-        labels_flat = labels.flatten()
-
-        # Position 1 should be -100 (from loss_masking_spans after cropping)
-        assert labels_flat[1].item() == -100, f"Position 1 should be -100 (from spans), got {labels_flat[1].item()}"
-
-        # Positions 3,4 should be -100 (from negative input tokens at positions 4,5)
-        assert labels_flat[3].item() == -100, f"Position 3 should be -100 (from IMG), got {labels_flat[3].item()}"
-        assert labels_flat[4].item() == -100, f"Position 4 should be -100 (from IMG), got {labels_flat[4].item()}"
-
-        # Position 0, 2, 5 should be positive (not masked)
-        assert labels_flat[0].item() > 0, "Position 0 should be positive"
-        assert labels_flat[2].item() > 0, "Position 2 should be positive"
-        assert labels_flat[5].item() > 0, "Position 5 should be positive"
-
-    def test_all_padding_sample(self):
-        """Test that a sample with all -100 tokens (padding) results in all -100 labels."""
-        model, distributed = get_minimal_model()
-
-        # Sample 0: normal tokens
-        # Sample 1: all padding (-100)
-        tokens = torch.tensor(
-            [
-                [100, 101, 102, 103, 104, 105, 106, 107],
-                [-100, -100, -100, -100, -100, -100, -100, -100],
-            ],
-            dtype=torch.int64,
-        )
-
-        batch = create_test_batch(tokens)
-        preprocessed = run_preprocess_batch(model, distributed.config, batch)
-
-        assert len(preprocessed) == 1
-        _, kwargs = preprocessed[0]
-
-        labels = kwargs[LanguageModelKwargs.labels]
-
-        # Get labels for sample 1 (all should be -100)
-        sample1_labels = labels[8:]
-
-        assert torch.all(sample1_labels == -100), f"All labels in padding sample should be -100, got {sample1_labels}"
-
-    def test_image_placeholders_interleaved(self):
-        """Test realistic scenario: text, image placeholders, text interleaved."""
-        model, distributed = get_minimal_model()
-
-        # Realistic sequence: [BOS, text, IMG, IMG, IMG, text, text, EOS]
-        # Labels should be: [text, IMG(-100), IMG(-100), IMG(-100), text, text, EOS, ?]
-        tokens = torch.tensor(
-            [
-                [1, 100, -100, -100, -100, 200, 201, 2],
-            ],
-            dtype=torch.int64,
-        )
-
-        batch = create_test_batch(tokens)
-        preprocessed = run_preprocess_batch(model, distributed.config, batch)
-
-        assert len(preprocessed) == 1
-        _, kwargs = preprocessed[0]
-
-        labels = kwargs[LanguageModelKwargs.labels]
-        labels_flat = labels.flatten()
-
-        # Labels at positions 1,2,3 should be -100 (next tokens are IMG)
-        assert labels_flat[1].item() == -100, f"Position 1 should be -100, got {labels_flat[1].item()}"
-        assert labels_flat[2].item() == -100, f"Position 2 should be -100, got {labels_flat[2].item()}"
-        assert labels_flat[3].item() == -100, f"Position 3 should be -100, got {labels_flat[3].item()}"
-
-        # Labels at positions 0, 4, 5 should be positive
-        assert labels_flat[0].item() > 0, f"Position 0 should be positive, got {labels_flat[0].item()}"
-        assert labels_flat[4].item() > 0, f"Position 4 should be positive, got {labels_flat[4].item()}"
-        assert labels_flat[5].item() > 0, f"Position 5 should be positive, got {labels_flat[5].item()}"
diff --git a/tests/utils/distributed_configs.py b/tests/utils/distributed_configs.py
index bd5a92720..7c17a107b 100644
--- a/tests/utils/distributed_configs.py
+++ b/tests/utils/distributed_configs.py
@@ -112,7 +112,7 @@ def get_config(relative: float = 0, absolute: float = 0, **kwargs) -> CompareCon
         name="bf16",
         compare="simple",
         # Also tests parallel data loader.
-        config_args=["model.distributed.compute_dtype=bf16", "training.num_workers=2"],
+        config_args=["model.distributed.compute_dtype=bf16", "training.num_workers=1"],
         num_gpus=1,
         compare_config=_bf16_compare,
     ),

From c75ae2bfd9ec293b540448abe1512712211ae01d Mon Sep 17 00:00:00 2001
From: Joel Lamy-Poirier <joel.lamy-poirier@servicenow.com>
Date: Wed, 25 Feb 2026 13:36:49 -0500
Subject: [PATCH 26/37] stuff

---
 examples/mistral.yaml                         |  11 +-
 fast_llm/data/auto.py                         |   2 +-
 fast_llm/data/batch/config.py                 |  35 +-
 fast_llm/data/batch/language_model.py         |  96 +++-
 fast_llm/data/data/abstract.py                |   5 +-
 fast_llm/data/data/config.py                  |   8 +-
 fast_llm/data/data/gpt/config.py              |  14 +-
 fast_llm/data/data/gpt/data.py                |  48 +-
 fast_llm/data/dataset/abstract.py             |   4 +-
 fast_llm/data/dataset/blended.py              |  12 +-
 fast_llm/data/dataset/config.py               | 144 ++---
 fast_llm/data/dataset/gpt/config.py           |  36 +-
 fast_llm/data/dataset/gpt/fim.py              |   7 +-
 fast_llm/data/dataset/gpt/random.py           |  13 +-
 fast_llm/data/dataset/indexed.py              |  24 +-
 fast_llm/data/dataset/memmap/config.py        |   4 +-
 fast_llm/data/dataset/memmap/memmap.py        |  32 +-
 fast_llm/data/dataset/sampled.py              |  89 ++-
 fast_llm/data/document/abstract.py            |  20 +-
 fast_llm/data/document/language_model.py      |  29 +-
 fast_llm/data/document/patch.py               |  11 +-
 fast_llm/data/document/token.py               |  53 +-
 .../preparator/dataset_discovery/config.py    |   7 -
 .../preparator/dataset_discovery/prepare.py   | 367 +++---------
 fast_llm/engine/config_utils/interval.py      |  44 ++
 fast_llm/engine/evaluation/config.py          |  47 +-
 fast_llm/engine/evaluation/evaluator.py       |  35 +-
 .../engine/evaluation/lm_eval/evaluator.py    |   1 -
 .../evaluation/lm_eval/fast_llm_wrapper.py    |  10 +-
 fast_llm/engine/inference/runner.py           |  13 +-
 fast_llm/engine/multi_stage/fast_llm_model.py |   3 +-
 fast_llm/engine/schedule/config.py            | 103 +---
 fast_llm/engine/schedule/runner.py            |  26 +-
 fast_llm/engine/schedule/schedule.py          |  90 ++-
 fast_llm/engine/training/config.py            |  76 +--
 fast_llm/engine/training/trainer.py           |  67 +--
 fast_llm/layers/attention/attention.py        |   9 +-
 fast_llm/layers/attention/config.py           |   3 +-
 fast_llm/layers/attention/rotary/rotary.py    |   4 +-
 fast_llm/layers/ssm/gdn.py                    |   2 +-
 fast_llm/layers/ssm/kda.py                    |   2 +-
 fast_llm/layers/ssm/mamba.py                  |   4 +-
 fast_llm/models/gpt/config.py                 |  48 +-
 fast_llm/models/gpt/huggingface.py            | 156 +++---
 fast_llm/models/gpt/model.py                  |  37 +-
 fast_llm/models/multimodal/config.py          |   7 -
 fast_llm/models/multimodal/model.py           |   6 +-
 tests/conftest.py                             |   3 +
 tests/data/common.py                          |  67 ++-
 tests/data/test_blending.py                   |   8 +-
 tests/data/test_concatenate.py                |   2 +-
 tests/data/test_dataset_discovery.py          | 527 ++++++------------
 tests/data/test_fim.py                        |   3 +-
 tests/data/test_image_patch.py                |   5 +-
 tests/data/test_loss_masking_spans.py         |   7 +-
 tests/data/test_preference_spans.py           |   5 +-
 tests/data/test_preparator.py                 |   4 +-
 tests/data/test_preprocessing.py              |  10 +-
 tests/data/test_random.py                     |   2 +-
 tests/data/test_sampling.py                   |  14 +-
 tests/data/test_slice.py                      |   2 +-
 tests/layers/test_attention.py                |  58 +-
 tests/layers/test_varlen.py                   |  86 +--
 tests/models/test_match_megatron.py           |  24 +-
 tests/test_config.py                          |   4 +-
 tests/utils/distributed_configs.py            |  96 ++--
 tests/utils/model_configs.py                  |  11 +-
 67 files changed, 1109 insertions(+), 1693 deletions(-)
 create mode 100644 fast_llm/engine/config_utils/interval.py

diff --git a/examples/mistral.yaml b/examples/mistral.yaml
index ec045e3bb..0a3dd19ff 100644
--- a/examples/mistral.yaml
+++ b/examples/mistral.yaml
@@ -5,17 +5,14 @@ training:
     interval: 10
   evaluators:
     validation:
-      evaluator:
-        type: loss
-        iterations: null
-batch:
-  sequence_length: 4096
-  micro_batch_size: 2
-  batch_size: 64
+      type: loss
+      iterations: null
 data:
   datasets:
     training:
       type: random
+  micro_batch_size: 8192
+  maximum_document_length: 4096
 optimizer:
   learning_rate:
     base: 1.0e-05
diff --git a/fast_llm/data/auto.py b/fast_llm/data/auto.py
index 2e89695b3..51a49f5ef 100644
--- a/fast_llm/data/auto.py
+++ b/fast_llm/data/auto.py
@@ -2,11 +2,11 @@
 Import these submodules to ensure classes are added to the dynamic class registry.
 """
 
+from fast_llm.data.batch.config import LanguageModelBatchPreprocessingConfig  # isort: skip
 from fast_llm.data.dataset.config import (  # isort: skip
     BlendedDatasetConfig,
     ConcatenatedDatasetConfig,
     DatasetSliceConfig,
-    SampledDatasetUpdateConfig,
 )
 from fast_llm.data.dataset.memmap.config import (  # isort: skip
     LanguageModelReaderConfig,
diff --git a/fast_llm/data/batch/config.py b/fast_llm/data/batch/config.py
index 61dd3bdda..a38cf1835 100644
--- a/fast_llm/data/batch/config.py
+++ b/fast_llm/data/batch/config.py
@@ -4,15 +4,13 @@
 import logging
 import typing
 
-from fast_llm.config import Configurable, Field, FieldUpdate, config_class
+from fast_llm.config import Configurable, Field, config_class
 from fast_llm.data.document.abstract import Batch, Document
 from fast_llm.data.preprocessing.abstract import NullPreprocessingConfig, PreprocessingConfig
 from fast_llm.data.preprocessing.image_patch import ImagePatchConfig
 from fast_llm.data.preprocessing.language_model import LanguageModelPreprocessingConfig
 from fast_llm.data.preprocessing.tokenizer import TokenizerConfig
 from fast_llm.engine.distributed.config import DistributedConfig, PhaseType
-from fast_llm.engine.schedule.config import BatchConfig
-from fast_llm.models.gpt.config import GPTBatchConfig
 from fast_llm.utils import Assert
 
 if typing.TYPE_CHECKING:
@@ -23,18 +21,17 @@
 
 @config_class()
 class BatchPreprocessingConfig(PreprocessingConfig):
-    batch: BatchConfig = Field()
+    distributed: DistributedConfig = Field()
     phase: PhaseType = Field(default=PhaseType.inference)
+    micro_batch_splits: int = Field(default=1)
 
-    def get_batch_meta(self) -> "PreprocessedBatch":
+    def get_batch_meta(self, micro_batch_size: int = 1) -> "PreprocessedBatch":
         raise NotImplementedError()
 
 
-@config_class()
+@config_class(dynamic_type={PreprocessingConfig: "language_model_batch"})
 class LanguageModelBatchPreprocessingConfig(LanguageModelPreprocessingConfig, BatchPreprocessingConfig):
     _abstract = False
-    # TODO: Duplicate `use_loss_masking_spans`, `use_preference_spans`
-    batch: GPTBatchConfig = FieldUpdate()
     predicted_tokens: int = Field(default=1)
     return_cumulative_sequence_lengths: bool = Field(default=False)
     return_max_sequence_lengths: bool = Field(default=False)
@@ -47,7 +44,7 @@ def _validate(self) -> None:
         Assert.custom(isinstance, self.image_patches, (ImagePatchConfig, NullPreprocessingConfig))
         Assert.custom(isinstance, self.tokenizer, (TokenizerConfig, NullPreprocessingConfig))
 
-    def get_batch_meta(self) -> "PreprocessedBatch":
+    def get_batch_meta(self, micro_batch_size: int = 1) -> "LanguageModelPreprocessedBatch":
         import torch
 
         from fast_llm.data.batch.language_model import LanguageModelPreprocessedBatch
@@ -55,7 +52,7 @@ def get_batch_meta(self) -> "PreprocessedBatch":
         from fast_llm.data.document.token import TokenDocument
 
         device = torch.device("meta")
-        tokens = torch.empty(self.total_length, dtype=torch.int64, device=device)
+        tokens = torch.empty(micro_batch_size + self.predicted_tokens, dtype=torch.int64, device=device)
         batch = LanguageModelBatch.from_documents([LanguageModelDocument(tokens=TokenDocument(tokens=tokens))])
         return LanguageModelPreprocessedBatch.from_batch(batch, config=self, device=device)
 
@@ -63,14 +60,6 @@ def get_batch_meta(self) -> "PreprocessedBatch":
     def use_image_patches(self) -> bool:
         return isinstance(self.image_patches, ImagePatchConfig)
 
-    @functools.cached_property
-    def total_length(self) -> int:
-        return self.batch.sequence_length + self.predicted_tokens
-
-    @functools.cached_property
-    def distributed(self) -> DistributedConfig:
-        return self.batch.distributed
-
     def check_compatibility(self, preprocessing: typing.Self) -> None:
         Assert.custom(isinstance, preprocessing, LanguageModelPreprocessingConfig)
         # TODO: Check more tokenizer data, ex. bos/eos tokens? path if points to HF hub?
@@ -84,23 +73,23 @@ def check_compatibility(self, preprocessing: typing.Self) -> None:
 
 
 @dataclasses.dataclass
-class MicroBatch:
+class ModelInput:
     pass
 
 
-class PreprocessedBatch[ConfigType: BatchPreprocessingConfig, MicroBatchType: MicroBatch](Configurable[ConfigType]):
-    def __init__(self, config: ConfigType, micro_batches: list[MicroBatchType]):
+class PreprocessedBatch[ConfigType: BatchPreprocessingConfig, ModelInputType: ModelInput](Configurable[ConfigType]):
+    def __init__(self, config: ConfigType, micro_batches: list[ModelInputType]):
         super().__init__(config)
         self._micro_batches = micro_batches
 
     @property
-    def micro_batches(self) -> list[MicroBatchType]:
+    def micro_batches(self) -> list[ModelInputType]:
         return self._micro_batches
 
     def __len__(self) -> int:
         return len(self._micro_batches)
 
-    def __getitem__(self, idx: int) -> MicroBatchType:
+    def __getitem__(self, idx: int) -> ModelInputType:
         return self._micro_batches[idx]
 
     @classmethod
diff --git a/fast_llm/data/batch/language_model.py b/fast_llm/data/batch/language_model.py
index 012966799..36e03ea7c 100644
--- a/fast_llm/data/batch/language_model.py
+++ b/fast_llm/data/batch/language_model.py
@@ -3,15 +3,19 @@
 
 import torch
 
-from fast_llm.data.batch.config import LanguageModelBatchPreprocessingConfig, MicroBatch, PreprocessedBatch
+from fast_llm.data.batch.config import LanguageModelBatchPreprocessingConfig, ModelInput, PreprocessedBatch
 from fast_llm.data.document.language_model import LanguageModelBatch, LanguageModelDocument
 from fast_llm.engine.config_utils.tensor_dim import TensorDim
 from fast_llm.engine.distributed.config import DistributedDimNames
+from fast_llm.layers.attention.config import AttentionKwargs
+from fast_llm.layers.language_model.config import LanguageModelKwargs
 from fast_llm.tensor import TensorMeta
+from fast_llm.utils import div
 
 
 @dataclasses.dataclass
-class LanguageModelMicroBatch(MicroBatch):
+class LanguageModelInput(ModelInput):
+    config: LanguageModelBatchPreprocessingConfig
     tokens: torch.Tensor
     token_dim: TensorDim
     hidden_token_dim: TensorDim
@@ -27,8 +31,21 @@ class LanguageModelMicroBatch(MicroBatch):
     cumulative_lengths_k: torch.Tensor | None = None
     max_length_q: torch.Tensor | None = None
     max_length_k: torch.Tensor | None = None
-    document_index: torch.Tensor | None = None
+    document_index_q: torch.Tensor | None = None
+    document_index_k: torch.Tensor | None = None
     position_index: torch.Tensor | None = None
+    # A set of intermediate the model should store in `hidden_states` for downstream usage,
+    # referred by name or regex pattern.
+    # Tensor names are generally of the form `{module_name}.{tensor_name}`.
+    # This field is typically populated downstream, depending on the task.
+    output_hidden_states: set[str] = dataclasses.field(default_factory=list)
+    # The model will populate this with the hidden states specified by `output_hidden_states`,
+    # together with the metadata necessary to reconstruct the global tensor.
+    hidden_states: dict[str, tuple[TensorMeta, torch.Tensor]] = dataclasses.field(default_factory=dict)
+    # Cached intermediate states (ex. key and value tensors) from earlier in the sequence.
+    pasts: list[typing.Any] | None = None
+    # If defined, the model will store intermediate states for downstream computation. Used together with `pasts`.
+    presents: list[typing.Any] | None = None
     # TODO: ====== Preference spans? ======
 
     def to_device_(self, device: torch.device):
@@ -41,17 +58,45 @@ def to_device_(self, device: torch.device):
             self.max_length_q = self.max_length_q.to(device, non_blocking=True)
         if self.max_length_k is not None:
             self.max_length_k = self.max_length_k.to(device, non_blocking=True)
-        if self.document_index is not None:
-            self.document_index = self.document_index.to(device, non_blocking=True)
+        if self.document_index_q is not None:
+            self.document_index_q = self.document_index_q.to(device, non_blocking=True)
+        if self.document_index_k is not None:
+            self.document_index_k = self.document_index_k.to(device, non_blocking=True)
         if self.position_index is not None:
             self.position_index = self.position_index.to(device, non_blocking=True)
 
+    def to_kwargs(self) -> dict[str, typing.Any]:
+        # TODO: Avoid conversion, use `LanguageModelMicroBatch` directly instead.
+        return {
+            LanguageModelKwargs.phase: self.config.phase,
+            LanguageModelKwargs.device: self.tokens.device,
+            LanguageModelKwargs.token_dim: self.token_dim,
+            LanguageModelKwargs.hidden_token_dim: self.hidden_token_dim,
+            LanguageModelKwargs.sequence_k_dim: self.sequence_k_dim,
+            LanguageModelKwargs.num_tokens: self.num_tokens,
+            LanguageModelKwargs.sequence_length: self.sequence_length,
+            LanguageModelKwargs.sequence_lengths: self.document_lengths,
+            LanguageModelKwargs.labels: self.labels,
+            LanguageModelKwargs.loss_mask: self.prediction_masks,
+            AttentionKwargs.cu_seqlens_q: self.cumulative_lengths_q,
+            AttentionKwargs.cu_seqlens_k: self.cumulative_lengths_k,
+            AttentionKwargs.max_seqlen_q: self.max_length_q,
+            AttentionKwargs.max_seqlen_k: self.max_length_k,
+            AttentionKwargs.document_index_q: self.document_index_q,
+            AttentionKwargs.document_index_k: self.document_index_k,
+            LanguageModelKwargs.position_ids: self.position_index,
+            LanguageModelKwargs.output_hidden_states: self.output_hidden_states,
+            LanguageModelKwargs.hidden_states: self.hidden_states,
+            AttentionKwargs.past_key_values: self.pasts,
+            AttentionKwargs.presents: self.presents,
+        }
+
 
 @dataclasses.dataclass
 class LanguageModelPreprocessedBatch[
-    ConfigType: LanguageModelBatchPreprocessingConfig, MicroBatchType: LanguageModelMicroBatch
-](PreprocessedBatch[ConfigType, MicroBatchType]):
-    def __init__(self, config: LanguageModelBatchPreprocessingConfig, micro_batches: list[MicroBatchType]):
+    ConfigType: LanguageModelBatchPreprocessingConfig, ModelInputType: LanguageModelInput
+](PreprocessedBatch[ConfigType, ModelInputType]):
+    def __init__(self, config: LanguageModelBatchPreprocessingConfig, micro_batches: list[ModelInputType]):
         super().__init__(config, micro_batches)
 
     @classmethod
@@ -59,11 +104,10 @@ def from_documents(
         cls,
         documents: list[LanguageModelDocument],
         config: ConfigType,
+        pad_to_size: int | None = None,
         device: torch.device | None = None,
     ) -> typing.Self:
-        batch = LanguageModelBatch.from_documents(
-            documents, pad_to_size=config.batch.micro_batch_size * config.total_length
-        )
+        batch = LanguageModelBatch.from_documents(documents, pad_to_size)
         return cls.from_batch(batch, config=config, device=device)
 
     @classmethod
@@ -75,31 +119,36 @@ def from_batch(
     ) -> typing.Self:
         if device is None:
             device = batch.tokens.tokens.device
-        batch.to_device_(device)
+        batch = batch.to_device(device)
         is_meta = device.type == "meta"
+        total_input_length = len(batch) - config.predicted_tokens
+        input_length = div(total_input_length, config.micro_batch_splits)
 
         token_dim = TensorDim(
             "token",
-            config.batch.micro_sequence_length,
+            input_length,
             config.distributed.get_distributed_dim(DistributedDimNames.sequence_data),
         )
         hidden_token_dim = (
             (
                 "token_tp",
-                token_dim.global_size,
+                input_length,
                 config.distributed.get_distributed_dim(DistributedDimNames.tensor_and_data),
             )
             if config.distributed.sequence_tensor_parallel
             else token_dim
         )
         micro_batches = []
+        presents = None
         for micro_sequence_index, sequence_k_past in enumerate(
             range(
                 token_dim.size * config.distributed.sequence_data_rank,
-                config.batch.sequence_length,
+                total_input_length,
                 token_dim.global_size,
             )
         ):
+            pasts = presents
+            presents = None if micro_sequence_index == config.micro_batch_splits - 1 else []
             sequence_k = sequence_k_past + token_dim.size
             sequence_k_dim = TensorDim("sequence_k", sequence_k)
             cropped_sample = batch.crop(sequence_k_past, sequence_k)
@@ -109,27 +158,30 @@ def from_batch(
                 )
             else:
                 tokens = batch.tokens.tokens[sequence_k_past:sequence_k]
-            micro_batch = LanguageModelMicroBatch(
+            micro_batch = LanguageModelInput(
+                config=config,
                 tokens=tokens,
                 token_dim=token_dim,
                 hidden_token_dim=hidden_token_dim,
                 sequence_k_dim=sequence_k_dim,
                 num_tokens=min(sequence_k, batch.num_tokens) - sequence_k_past,
-                sequence_length=config.batch.sequence_length,
+                sequence_length=total_input_length,
                 document_lengths=batch.tokens.lengths,
                 is_meta=is_meta,
+                pasts=pasts,
+                presents=presents,
             )
             if not is_meta:
                 if config.return_cumulative_sequence_lengths:
                     micro_batch.cumulative_lengths_q, micro_batch.cumulative_lengths_k = (
-                        cropped_sample.tokens.get_cumulative_lengths(device)
+                        cropped_sample.tokens.cumulative_lengths
                     )
-                if config.return_max_sequence_lengths:
-                    micro_batch.max_length_q, micro_batch.max_length_k = cropped_sample.tokens.get_max_lengths(device)
+                if config.return_max_sequence_lengths or config.return_document_index:
+                    micro_batch.max_length_q, micro_batch.max_length_k = cropped_sample.tokens.max_lengths
                 if config.return_document_index:
-                    micro_batch.document_index = cropped_sample.tokens.get_document_index()
+                    micro_batch.document_index_q, micro_batch.document_index_k = cropped_sample.tokens.document_index
                 if config.return_position_index:
-                    micro_batch.position_index = cropped_sample.tokens.get_position_index()
+                    micro_batch.position_index = cropped_sample.tokens.position_index
 
                 for prediction_distance in range(1, config.predicted_tokens + 1):
                     label_begin = sequence_k_past + prediction_distance
diff --git a/fast_llm/data/data/abstract.py b/fast_llm/data/data/abstract.py
index 87b6ddd17..d6d927ac1 100644
--- a/fast_llm/data/data/abstract.py
+++ b/fast_llm/data/data/abstract.py
@@ -6,7 +6,6 @@
 from fast_llm.data.batch.config import BatchPreprocessingConfig, PreprocessedBatch
 from fast_llm.data.data.config import DataConfig
 from fast_llm.engine.distributed.config import DistributedConfig
-from fast_llm.engine.schedule.config import BatchConfig
 
 if typing.TYPE_CHECKING:
     from fast_llm.engine.distributed.distributed import Distributed
@@ -34,13 +33,11 @@ def sample_dataset(
         dataset_name: str,
         config: BatchPreprocessingConfig,
         num_samples: int,
-    ) -> None:
+    ) -> PreprocessedBatch:
         pass
 
-    @abc.abstractmethod
     def get_iterator(
         self,
-        batch_config: BatchConfig,
         dataset_name: str,
         *,
         consumed_samples: int,
diff --git a/fast_llm/data/data/config.py b/fast_llm/data/data/config.py
index 41dbb5d98..4ae6c5095 100644
--- a/fast_llm/data/data/config.py
+++ b/fast_llm/data/data/config.py
@@ -1,12 +1,6 @@
-import typing
-
-from fast_llm.config import Config, Field, config_class
-from fast_llm.data.dataset.config import SamplingConfig, SamplingData
+from fast_llm.config import Config, config_class
 
 
 @config_class()
 class DataConfig(Config):
     _abstract = True
-    _sampling_config_class: typing.ClassVar[type[SamplingData]]
-
-    sampling: SamplingConfig = Field(desc="Default configuration for dataset sampling.")
diff --git a/fast_llm/data/data/gpt/config.py b/fast_llm/data/data/gpt/config.py
index 914699b74..624a1c6e4 100644
--- a/fast_llm/data/data/gpt/config.py
+++ b/fast_llm/data/data/gpt/config.py
@@ -4,7 +4,7 @@
 from fast_llm.config import Field, FieldHint, check_field, config_class
 from fast_llm.data.config import MultiprocessingContext
 from fast_llm.data.data.config import DataConfig
-from fast_llm.data.dataset.config import SampledDatasetConfig
+from fast_llm.data.dataset.config import SampledDatasetConfig, SamplingConfigBase
 from fast_llm.utils import Assert
 
 if typing.TYPE_CHECKING:
@@ -13,16 +13,13 @@
 
 
 @config_class()
-class GPTDataConfig(DataConfig):
+class GPTDataConfig(DataConfig, SamplingConfigBase):
     """
-    Configuration for the dataset(s), split and sampling.
-    Currently hard-coded to a GPT dataset.
-    TODO: Extract generalizable content.
+    Configuration for the dataset(s) and its sampling.
     """
 
     _abstract = False
 
-    # TODO: Review field. Move closer to phase definition in training config?
     datasets: dict[str, SampledDatasetConfig["LanguageModelDocument"]] = Field(
         default_factory=dict,
         desc="Configuration for the dataset(s).",
@@ -39,3 +36,8 @@ class GPTDataConfig(DataConfig):
         desc="Multiprocessing context. Do not touch.",
         hint=FieldHint.expert,
     )
+    seed: int = Field(
+        default=784569,
+        desc="Seed for random sampling.",
+        hint=FieldHint.feature,
+    )
diff --git a/fast_llm/data/data/gpt/data.py b/fast_llm/data/data/gpt/data.py
index 5a24a7631..539d87193 100644
--- a/fast_llm/data/data/gpt/data.py
+++ b/fast_llm/data/data/gpt/data.py
@@ -12,14 +12,12 @@
 from fast_llm.data.data.data_loader import SampledDatasetIterator
 from fast_llm.data.data.gpt.config import GPTDataConfig
 from fast_llm.data.dataset.abstract import SampledDataset
-from fast_llm.data.dataset.config import SamplingParameters
-from fast_llm.data.dataset.gpt.config import GPTSamplingData
+from fast_llm.data.dataset.config import SamplingConfigBase
+from fast_llm.data.dataset.gpt.config import GPTSamplingConfig
 from fast_llm.data.dataset.monitor import DatasetMonitor
 from fast_llm.data.document.language_model import LanguageModelBatch, LanguageModelDocument
-from fast_llm.data.preprocessing.language_model import LanguageModelPreprocessingConfig
 from fast_llm.engine.config_utils.run import log_main_rank
 from fast_llm.engine.distributed.config import DistributedConfig
-from fast_llm.models.gpt.config import GPTBatchConfig
 from fast_llm.utils import Assert
 
 logger = logging.getLogger(__name__)
@@ -52,7 +50,7 @@ def sample_dataset(
         dataset_name: str,
         config: LanguageModelBatchPreprocessingConfig,
         num_samples: int,
-    ) -> None:
+    ) -> LanguageModelPreprocessedBatch:
         assert self._is_setup
         Assert.gt(num_samples, 0)
         if dataset_name not in self._config.datasets:
@@ -66,29 +64,28 @@ def sample_dataset(
             # TODO: Avoid this
             warnings.warn(f"The index cache will be saved in the dataset directory.")
 
-        sampling_parameters = SamplingParameters(
-            sequence_length=config.batch.sequence_length,
-            num_samples=num_samples,
-            truncate_documents=config.batch.truncate_documents,
-            extra_tokens=config.predicted_tokens,
+        # First create a `SamplingConfigBase` to remove unnecessary entries.
+        sampling_base = SamplingConfigBase.from_dict(self._config, strict=False)
+        sampling = GPTSamplingConfig.from_dict(
+            sampling_base,
+            {
+                "predicted_tokens": config.predicted_tokens,
+                "cache_directory": self._cache_directory,
+                "dataset_name": dataset_name,
+                "preprocessing": config,
+                "world_size": self._distributed_config.world_size,
+                "rank": self._distributed_config.rank,
+            },
         )
 
-        sampling = GPTSamplingData(
-            config=self._config.sampling,
-            parameters=sampling_parameters,
-            # Conversion needed to avoid pickling issues.
-            preprocessing=LanguageModelPreprocessingConfig.from_dict(config, {"type": "language_model"}, strict=False),
-            cache_directory=self._cache_directory,
-            distributed_config=self._distributed_config,
-            dataset_name=dataset_name,
-        )
         self._preprocessing[dataset_name] = config
-        dataset = self._config.datasets[dataset_name].build_and_sample(sampling)
+        dataset = self._config.datasets[dataset_name].build_and_sample(sampling, num_samples, self._config.seed)
         self._datasets[dataset_name] = DatasetMonitor(dataset, self._config.data_sample_warn_time_ms)
 
+        return config.get_batch_meta(self._config.micro_batch_size)
+
     def get_iterator(
         self,
-        batch_config: GPTBatchConfig,
         dataset_name: str,
         *,
         consumed_samples: int,
@@ -112,7 +109,7 @@ def get_iterator(
                 batch_sampler=SampledDatasetIterator(
                     total_samples=len(self._datasets[dataset_name]),
                     begin_index=consumed_samples,
-                    micro_batch_size=self._preprocessing[dataset_name].batch.micro_batch_size,
+                    micro_batch_size=1,
                     data_rank=self._distributed_config.batch_data_rank,
                     data_parallel=self._distributed_config.batch_data_parallel,
                 ),
@@ -131,7 +128,10 @@ def _collate_fn(
         preprocess: bool = True,
     ) -> LanguageModelPreprocessedBatch | LanguageModelBatch:
         documents = [document for documents_ in documents for document in documents_]
+        pad_to_size = self._config.micro_batch_size + self._preprocessing[dataset_name].predicted_tokens
         if preprocess:
-            return LanguageModelPreprocessedBatch.from_documents(documents, self._preprocessing[dataset_name])
+            return LanguageModelPreprocessedBatch.from_documents(
+                documents, self._preprocessing[dataset_name], pad_to_size
+            )
         else:
-            return LanguageModelBatch.from_documents(documents, self._preprocessing[dataset_name].total_length)
+            return LanguageModelBatch.from_documents(documents, pad_to_size)
diff --git a/fast_llm/data/dataset/abstract.py b/fast_llm/data/dataset/abstract.py
index ee34b64fc..35f8eac00 100644
--- a/fast_llm/data/dataset/abstract.py
+++ b/fast_llm/data/dataset/abstract.py
@@ -4,7 +4,7 @@
 from fast_llm.data.document.abstract import Document
 
 if typing.TYPE_CHECKING:
-    from fast_llm.data.dataset.config import SamplingData
+    from fast_llm.data.dataset.config import SamplingConfig
 
 
 class Dataset[DocumentType: Document](abc.ABC):
@@ -46,5 +46,5 @@ def __len__(self) -> int:
 class SamplableDataset[DocumentType: Document](Dataset[DocumentType]):
 
     @abc.abstractmethod
-    def sample(self, config: "SamplingData") -> SampledDataset[DocumentType]:
+    def sample(self, config: "SamplingConfig", num_samples: int, seed: int) -> SampledDataset[DocumentType]:
         pass
diff --git a/fast_llm/data/dataset/blended.py b/fast_llm/data/dataset/blended.py
index 0cae40656..088acddb5 100644
--- a/fast_llm/data/dataset/blended.py
+++ b/fast_llm/data/dataset/blended.py
@@ -3,14 +3,16 @@
 import torch
 
 from fast_llm.data.dataset.abstract import SampledDataset
-from fast_llm.data.dataset.config import SamplingData
+from fast_llm.data.dataset.config import SamplingConfig
 from fast_llm.data.document.abstract import Document
 from fast_llm.utils import Assert, normalize_probabilities
 
 logger = logging.getLogger(__name__)
 
 
-class BlendedDataset[DocumentType: Document](SampledDataset[DocumentType]):
+class BlendedDataset[
+    DocumentType: Document,
+](SampledDataset[DocumentType]):
     """
     A blended sampling of multiple sampled datasets, where each dataset is sampled with the provided probability.
     The sampling order of each dataset is respected, but there is no strict guarantee
@@ -23,14 +25,16 @@ def __init__(
         name: str,
         datasets: list[SampledDataset[DocumentType]],
         weights: list[float],
-        sampling_config: SamplingData,
+        config: SamplingConfig,
+        num_samples: int,
     ):
         self._name = name
         assert len(datasets) > 0
         Assert.eq(len(datasets), len(weights))
         self._datasets = datasets
         self._weights = torch.from_numpy(normalize_probabilities(weights, return_array=True))
-        self._num_samples = sampling_config.parameters.num_samples
+        self._config = config
+        self._num_samples = num_samples
 
     def __len__(self) -> int:
         return self._num_samples
diff --git a/fast_llm/data/dataset/config.py b/fast_llm/data/dataset/config.py
index 39844ac8b..2f5bd1437 100644
--- a/fast_llm/data/dataset/config.py
+++ b/fast_llm/data/dataset/config.py
@@ -1,4 +1,3 @@
-import dataclasses
 import enum
 import functools
 import itertools
@@ -7,11 +6,10 @@
 import pathlib
 import typing
 
-from fast_llm.config import Config, Field, FieldHint, UpdateType, check_field, config_class
+from fast_llm.config import Config, Field, FieldHint, check_field, config_class
 from fast_llm.data.dataset.abstract import SamplableDataset, SampledDataset
 from fast_llm.data.document.abstract import Document
 from fast_llm.data.preprocessing.abstract import PreprocessingConfig
-from fast_llm.engine.distributed.config import DistributedConfig
 from fast_llm.utils import Assert, normalize_probabilities
 
 if typing.TYPE_CHECKING:
@@ -32,16 +30,11 @@ class ShufflingType(str, enum.Enum):
 
 
 @config_class()
-class SamplingConfig(Config):
+class SamplingConfigBase(Config):
     """
     A dataset-dependent configuration for sampling.
     """
 
-    seed: int = Field(
-        default=784569,
-        desc="Seed for random sampling.",
-        hint=FieldHint.feature,
-    )
     gpu: bool = Field(
         default=True,
         desc="Enable fast sampling on GPU."
@@ -54,51 +47,64 @@ class SamplingConfig(Config):
         desc="Shuffling strategy.",
         hint=FieldHint.feature,
     )
+    micro_batch_size: int = Field(
+        default=2048,
+        desc="Size of individual micro-batches.",
+        hint=FieldHint.core,
+        valid=check_field(Assert.gt, 0),
+    )
+    # TODO: ===== Implement ======
+    maximum_document_length: int = Field(
+        default=None,
+        desc="Maximum number of tokens in a document."
+        " Document exceeding this size will be truncated or dropped depending on `truncate_documents`.",
+        hint=FieldHint.core,
+        valid=check_field(Assert.gt, 0),
+    )
+    truncate_documents: bool | None = Field(
+        default=True,
+        desc=(
+            "If enabled, documents may be truncated while being packed to fit the sequence length."
+            "Otherwise, sequences will be padded such that every document lies entirely within a sample"
+            " (and documents exceeding the sequence length will be skipped altogether)."
+        ),
+        hint=FieldHint.feature,
+    )
+
+    def _validate(self) -> None:
+        if self.maximum_document_length is None:
+            self.maximum_document_length = self.micro_batch_size
+        super()._validate()
 
 
-@dataclasses.dataclass(kw_only=True)
-class SamplingParameters:
+@config_class()
+class SamplingConfig(SamplingConfigBase):
     """
-    Sampling parameters set externally to the dataset and data, ex. determined by the trainer or model.
+    Holds all the necessary information for sampling.
     """
 
-    sequence_length: int
-    num_samples: int
-    truncate_documents: bool = True
     # How many extra tokens to add to the sequence length.
     # This is used to provide labels even for the last tokens in the sequence.
-    extra_tokens: int = 1
+    # TODO: ===== Already in `preprocessing` ======
+    predicted_tokens: int = Field(default=1)
+    cache_directory: pathlib.Path | None = Field(default=None)
+    dataset_name: str = Field(default="dataset")
+    preprocessing: PreprocessingConfig = Field()
+    world_size: int = Field(default=1)
+    rank: int = Field(default=0)
+    _rank_counter: typing.Iterator[int] = Field(init=False)
+
+    def _validate(self):
+        # Using itertools.count to make the field mutable.
+        self._rank_counter = itertools.count()
+
+    def is_running_next(self) -> bool:
+        # Counter that loops over ranks to try to distribute workloads evenly between ranks.
+        return next(self._rank_counter) % self.world_size == self.rank
 
     @functools.cached_property
-    def total_length(self) -> int:
-        return self.sequence_length + self.extra_tokens
-
-
-@dataclasses.dataclass(kw_only=True)
-class SamplingData:
-    """
-    Holds all the necessary information for sampling, including dataset-dependent ones (`SamplingConfig`),
-    usage-dependent ones (`SamplingParameters`), and others set by the `Data`.
-    """
-
-    # TODO: Have a separate configuration (subset?) for `build`?
-    config: SamplingConfig
-    parameters: SamplingParameters
-    cache_directory: pathlib.Path | None
-    distributed_config: DistributedConfig
-    dataset_name: str
-    preprocessing: PreprocessingConfig
-    # Using a mutable rather than an int so it's shared with all copies made with `update`.
-    _rank_counter: typing.Iterator[int] = itertools.count
-
-    def update_config(self, update: SamplingConfig):
-        return dataclasses.replace(
-            self, config=self.config.from_dict(self.config, update.to_dict(), update_type=UpdateType.update)
-        )
-
-    def get_next_rank(self) -> int:
-        # Counter that loops over ranks to try to distribute workloads evenly between ranks.
-        return next(self._rank_counter()) % self.distributed_config.world_size
+    def sample_size(self) -> int:
+        return self.micro_batch_size + self.predicted_tokens
 
 
 @config_class()
@@ -112,7 +118,7 @@ class SampledDatasetConfig[DocumentType: Document](DatasetConfig[DocumentType]):
     A sampled dataset containing a prepared list of samples to be indexed sequentially (as-is) during training.
     """
 
-    def build_and_sample(self, sampling: SamplingData) -> SampledDataset[DocumentType]:
+    def build_and_sample(self, config: SamplingConfig, num_samples: int, seed: int) -> SampledDataset[DocumentType]:
         raise NotImplementedError()
 
 
@@ -121,8 +127,8 @@ class SamplableDatasetConfig[DocumentType: Document](SampledDatasetConfig[Docume
     def build(self, preprocessing: PreprocessingConfig) -> SamplableDataset[DocumentType]:
         raise NotImplementedError()
 
-    def build_and_sample(self, sampling: SamplingData) -> SampledDataset[DocumentType]:
-        return self.build(sampling.preprocessing).sample(sampling)
+    def build_and_sample(self, config: SamplingConfig, num_samples: int, seed: int) -> SampledDataset[DocumentType]:
+        return self.build(config.preprocessing).sample(config, num_samples, seed)
 
 
 @config_class()
@@ -197,27 +203,6 @@ def build(self, preprocessing: PreprocessingConfig) -> "DatasetSlice":
         )
 
 
-@config_class(dynamic_type={SampledDatasetConfig: "sampled"})
-class SampledDatasetUpdateConfig[DocumentType: Document](SampledDatasetConfig[DocumentType]):
-    """
-    Wrap a dataset to explicitly sample from it and optionally update its configuration parameters.
-    Only explicitly set parameters (not None) will be updated, other will still be taken from `build_and_sample`'s argument.
-    """
-
-    _abstract = True
-    sampling: SamplingConfig = Field(
-        desc="Optional override to sampling configuration parameters.",
-        hint=FieldHint.core,
-    )
-    dataset: SampledDatasetConfig[DocumentType] = Field(
-        desc="The dataset to sample from.",
-        hint=FieldHint.core,
-    )
-
-    def build_and_sample(self, data: SamplingData) -> SampledDataset[DocumentType]:
-        return self.dataset.build_and_sample(data.update_config(self.sampling))
-
-
 @config_class(dynamic_type={SampledDatasetConfig: "blended"})
 class BlendedDatasetConfig[DocumentType: Document](SampledDatasetConfig[DocumentType]):
     _abstract = False
@@ -243,10 +228,7 @@ def _validate(self) -> None:
         Assert.geq(len(self.datasets), 2)
         Assert.eq(len(self.datasets), len(self.weights))
 
-    def build_and_sample(
-        self,
-        sampling: SamplingData,
-    ) -> SampledDataset[DocumentType]:
+    def build_and_sample(self, config: SamplingConfig, num_samples: int, seed: int) -> SampledDataset[DocumentType]:
         from fast_llm.data.dataset.blended import BlendedDataset
 
         # Build and sample the datasets.
@@ -254,15 +236,10 @@ def build_and_sample(
         sampled_datasets = [
             dataset.build_and_sample(
                 # Blending is deterministic and the error will never be higher than 1.
-                dataclasses.replace(
-                    sampling,
-                    parameters=dataclasses.replace(
-                        sampling.parameters,
-                        num_samples=math.ceil(weight * sampling.parameters.num_samples) + 1,
-                    ),
-                    # TODO: Seed may not be unique for nested blended datasets.
-                    config=sampling.config.to_copy({"seed": sampling.config.seed + i * 697}),
-                ),
+                config,
+                num_samples=math.ceil(weight * num_samples) + 1,
+                # TODO: Seed may not be unique for nested blended datasets.
+                seed=seed + i * 697,
             )
             for i, (dataset, weight) in enumerate(zip(self.datasets, self.weights, strict=True))
         ]
@@ -271,5 +248,6 @@ def build_and_sample(
             self.name,
             sampled_datasets,
             self.weights,
-            sampling,
+            config,
+            num_samples,
         )
diff --git a/fast_llm/data/dataset/gpt/config.py b/fast_llm/data/dataset/gpt/config.py
index 62da794ee..62bcfb216 100644
--- a/fast_llm/data/dataset/gpt/config.py
+++ b/fast_llm/data/dataset/gpt/config.py
@@ -1,13 +1,12 @@
-import dataclasses
 import pathlib
 import time
 import typing
 
 import yaml
 
-from fast_llm.config import Config, Field, FieldHint, check_field, config_class, skip_valid_if_none
+from fast_llm.config import Config, Field, FieldHint, FieldUpdate, check_field, config_class, skip_valid_if_none
 from fast_llm.data.dataset.abstract import SamplableDataset, SampledDataset
-from fast_llm.data.dataset.config import SamplableDatasetConfig, SampledDatasetConfig, SamplingData
+from fast_llm.data.dataset.config import SamplableDatasetConfig, SampledDatasetConfig, SamplingConfig
 from fast_llm.data.preprocessing.abstract import PreprocessingConfig
 from fast_llm.data.preprocessing.language_model import LanguageModelPreprocessingConfig
 from fast_llm.data.preprocessing.tokenizer import TokenizerConfig
@@ -19,14 +18,14 @@
     from fast_llm.data.document.language_model import LanguageModelDocument
 
 
-@dataclasses.dataclass(kw_only=True)
-class GPTSamplingData(SamplingData):
+@config_class()
+class GPTSamplingConfig(SamplingConfig):
     """
     Holds all the necessary information for sampling, including dataset-dependent ones (`GPTSamplingConfig`),
     usage-dependent ones (`GPTSamplingParameters`), and others set by the `Data`.
     """
 
-    preprocessing: LanguageModelPreprocessingConfig
+    preprocessing: LanguageModelPreprocessingConfig = FieldUpdate()
 
 
 @config_class(dynamic_type={SampledDatasetConfig: "random"})
@@ -38,10 +37,12 @@ class GPTRandomDatasetConfig[DocumentType: LanguageModelDocument](SampledDataset
         hint=FieldHint.core,
     )
 
-    def build_and_sample(self, sampling: GPTSamplingData) -> "GPTRandomSampledDataset[DocumentType]":
+    def build_and_sample(
+        self, config: GPTSamplingConfig, num_samples: int, seed: int
+    ) -> "GPTRandomSampledDataset[DocumentType]":
         from fast_llm.data.dataset.gpt.random import GPTRandomSampledDataset
 
-        return GPTRandomSampledDataset[DocumentType](sampling, self.name)
+        return GPTRandomSampledDataset[DocumentType](config, self.name, num_samples, seed)
 
 
 @config_class(dynamic_type={SampledDatasetConfig: "file"})
@@ -53,9 +54,8 @@ class GPTDatasetFromFileConfig[DocumentType: LanguageModelDocument](SamplableDat
         hint=FieldHint.core,
     )
 
-    def build_and_sample(self, sampling: SamplingData) -> SampledDataset[DocumentType]:
-        config = self._load_config()
-        return config.build_and_sample(sampling)
+    def build_and_sample(self, config: SamplingConfig, num_samples: int, seed: int) -> SampledDataset[DocumentType]:
+        return self._load_config().build_and_sample(config, num_samples, seed)
 
     def build(self, preprocessing: PreprocessingConfig) -> SamplableDataset[DocumentType]:
         config = self._load_config()
@@ -173,12 +173,13 @@ class GPTFimSampledDatasetConfig[DocumentType: LanguageModelDocument](SampledDat
     )
 
     def build_and_sample(
-        self,
-        sampling: GPTSamplingData,
+        self, config: GPTSamplingConfig, num_samples: int, seed: int
     ) -> "GPTFimDataset[DocumentType]":
         from fast_llm.data.dataset.gpt.fim import GPTFimDataset
 
-        return GPTFimDataset[DocumentType](self, self.dataset.build_and_sample(sampling), sampling)
+        return GPTFimDataset[DocumentType](
+            self, self.dataset.build_and_sample(config, num_samples, seed), config, seed
+        )
 
 
 @config_class(dynamic_type={SampledDatasetConfig: "test_slow"})
@@ -195,8 +196,7 @@ class GPTTestSlowDatasetConfig[DocumentType: LanguageModelDocument](SampledDatas
         hint=FieldHint.core,
     )
 
-    def build_and_sample(self, sampling: SamplingData) -> SampledDataset[DocumentType]:
-        assert sampling.distributed_config.world_size > 1
-        if sampling.distributed_config.rank == 0:
+    def build_and_sample(self, config: GPTSamplingConfig, num_samples: int, seed: int) -> SampledDataset[DocumentType]:
+        if config.is_running_next():
             time.sleep(self.sleep)
-        return GPTRandomDatasetConfig[DocumentType]().build_and_sample(sampling)
+        return GPTRandomDatasetConfig[DocumentType]().build_and_sample(config, num_samples, seed)
diff --git a/fast_llm/data/dataset/gpt/fim.py b/fast_llm/data/dataset/gpt/fim.py
index 55ae7c1f3..2f761e7f8 100644
--- a/fast_llm/data/dataset/gpt/fim.py
+++ b/fast_llm/data/dataset/gpt/fim.py
@@ -2,7 +2,7 @@
 import torch
 
 from fast_llm.data.dataset.abstract import SampledDataset
-from fast_llm.data.dataset.gpt.config import FimConfig, GPTSamplingData
+from fast_llm.data.dataset.gpt.config import FimConfig, GPTSamplingConfig
 from fast_llm.data.document.language_model import LanguageModelDocument
 from fast_llm.data.document.token import TokenDocument
 from fast_llm.engine.config_utils.data_type import DataType
@@ -19,7 +19,8 @@ def __init__(
         self,
         config: FimConfig,
         dataset: SampledDataset[DocumentType],
-        sampling: GPTSamplingData,
+        sampling: GPTSamplingConfig,
+        seed: int,
     ):
         if sampling.preprocessing.use_loss_masking_spans:
             raise NotImplementedError("FIM is currently not compatible with loss masking.")
@@ -28,7 +29,7 @@ def __init__(
         self._config = config
         self._dataset = dataset
 
-        self._seed = sampling.config.seed
+        self._seed = seed
         self._tokenizer = self._config.tokenizer.get_tokenizer()
         if self._tokenizer is None:
             raise ValueError("Fim requires a tokenizer")
diff --git a/fast_llm/data/dataset/gpt/random.py b/fast_llm/data/dataset/gpt/random.py
index 387403e9b..281d0914f 100644
--- a/fast_llm/data/dataset/gpt/random.py
+++ b/fast_llm/data/dataset/gpt/random.py
@@ -2,7 +2,7 @@
 import torch
 
 from fast_llm.data.dataset.abstract import SampledDataset
-from fast_llm.data.dataset.gpt.config import GPTSamplingData
+from fast_llm.data.dataset.gpt.config import GPTSamplingConfig
 from fast_llm.data.document.language_model import LanguageModelDocument
 from fast_llm.data.document.token import TokenDocument
 from fast_llm.data.preprocessing.language_model import LanguageModelPreprocessingConfig
@@ -10,10 +10,11 @@
 
 
 class GPTRandomSampledDataset[DocumentType: LanguageModelDocument](SampledDataset[DocumentType]):
-    def __init__(self, sampling: GPTSamplingData, name: str):
+    def __init__(self, sampling: GPTSamplingConfig, name: str, num_samples: int, seed: int):
         self._name = name
-        self._seed = sampling.config.seed
-        self._parameters = sampling.parameters
+        self._seed = seed
+        self._config = sampling
+        self._num_samples = num_samples
 
         assert isinstance(sampling.preprocessing, LanguageModelPreprocessingConfig)
         self._vocab_size = sampling.preprocessing.vocab_size
@@ -21,7 +22,7 @@ def __init__(self, sampling: GPTSamplingData, name: str):
         self._dtype = get_unsigned_integer_type(self._vocab_size).torch
 
     def __len__(self) -> int:
-        return self._parameters.num_samples
+        return self._num_samples
 
     def __getitem__(self, index: int) -> list[DocumentType]:
         # TODO: Sample in self._dtype (breaking)
@@ -32,7 +33,7 @@ def __getitem__(self, index: int) -> list[DocumentType]:
                         np.random.RandomState(self._seed + 48576439 + 74593 * index).randint(
                             0,
                             self._vocab_size,
-                            size=(self._parameters.sequence_length + self._parameters.extra_tokens,),
+                            size=(self._config.sample_size,),
                         )
                     ).to(self._dtype),
                 )
diff --git a/fast_llm/data/dataset/indexed.py b/fast_llm/data/dataset/indexed.py
index af4f72539..5e7a827f5 100644
--- a/fast_llm/data/dataset/indexed.py
+++ b/fast_llm/data/dataset/indexed.py
@@ -3,7 +3,7 @@
 import torch
 
 from fast_llm.data.dataset.abstract import SamplableDataset
-from fast_llm.data.dataset.config import SamplingData, SamplingParameters
+from fast_llm.data.dataset.config import SamplingConfig
 from fast_llm.data.document.abstract import Document
 from fast_llm.utils import Assert, padded_cumsum
 
@@ -29,9 +29,7 @@ def get_document_size(self, index: int) -> int:
         """
 
     @abc.abstractmethod
-    def get_document(
-        self, index: int, begin: int = 0, end: int | None = None, parameters: SamplingParameters | None = None
-    ) -> DocumentType:
+    def get_document(self, index: int, begin: int = 0, end: int | None = None) -> DocumentType:
         pass
 
     def __len__(self) -> int:
@@ -49,10 +47,10 @@ def num_tokens(self) -> int:
         """
         return self.get_document_sizes().sum().item()
 
-    def sample(self, sampling: SamplingData) -> "GPTSampledIndexedDataset":
+    def sample(self, config: "SamplingConfig", num_samples: int, seed: int) -> "GPTSampledIndexedDataset":
         from fast_llm.data.dataset.sampled import SampledIndexedDataset
 
-        return SampledIndexedDataset(self, sampling)
+        return SampledIndexedDataset(self, config, num_samples, seed)
 
 
 class DatasetSlice[DocumentType: Document](IndexedDataset[DocumentType]):
@@ -84,15 +82,13 @@ def get_document_sizes(self) -> torch.Tensor:
     def get_document_size(self, index: int) -> int:
         return self._dataset.get_document_size(self._begin + index)
 
-    def get_document(
-        self, index: int, begin: int = 0, end: int | None = None, parameters: SamplingParameters | None = None
-    ) -> DocumentType:
+    def get_document(self, index: int, begin: int = 0, end: int | None = None) -> DocumentType:
         """
         Get the sample (document) with the given index (in the dataset slice),
         optionally subsampled to a specific offset (starting point) and maximum length
         (end = min(offset + length, sample_length).
         """
-        return self._dataset.get_document(index + self._begin, begin, end, parameters)
+        return self._dataset.get_document(index + self._begin, begin, end)
 
     def __len__(self) -> int:
         return self._end - self._begin
@@ -132,13 +128,9 @@ def get_document_size(self, index: int) -> int:
         dataset = torch.searchsorted(self._dataset_splits[1:], index, side="right")
         return self._datasets[dataset].get_document_size(index - self._dataset_splits[dataset].item())
 
-    def get_document(
-        self, index: int, begin: int = 0, end: int | None = None, parameters: SamplingParameters | None = None
-    ) -> DocumentType:
+    def get_document(self, index: int, begin: int = 0, end: int | None = None) -> DocumentType:
         dataset = torch.searchsorted(self._dataset_splits[1:], index, side="right")
-        return self._datasets[dataset].get_document(
-            index - self._dataset_splits[dataset].item(), begin, end, parameters
-        )
+        return self._datasets[dataset].get_document(index - self._dataset_splits[dataset].item(), begin, end)
 
     @property
     def name(self) -> str:
diff --git a/fast_llm/data/dataset/memmap/config.py b/fast_llm/data/dataset/memmap/config.py
index ed50f366b..c29671e89 100644
--- a/fast_llm/data/dataset/memmap/config.py
+++ b/fast_llm/data/dataset/memmap/config.py
@@ -13,7 +13,7 @@
 from fast_llm.utils import Assert, get_unique
 
 if typing.TYPE_CHECKING:
-    import torch
+    pass
 
     from fast_llm.data.dataset.indexed import IndexedDataset
     from fast_llm.data.dataset.memmap.abstract import (
@@ -301,6 +301,8 @@ def writer_class(self) -> "type[TokenWriter]":
 
     @property
     def _expected_buffer_size(self) -> int:
+        import torch
+
         return self.num_tokens * self.data_type.torch.itemsize + (self.num_documents + 1) * torch.int64.itemsize
 
     def get_metadata(self) -> dict[str, typing.Any]:
diff --git a/fast_llm/data/dataset/memmap/memmap.py b/fast_llm/data/dataset/memmap/memmap.py
index 49172e845..c0d526369 100644
--- a/fast_llm/data/dataset/memmap/memmap.py
+++ b/fast_llm/data/dataset/memmap/memmap.py
@@ -5,7 +5,6 @@
 import numpy as np
 import torch
 
-from fast_llm.data.dataset.config import SamplingParameters
 from fast_llm.data.dataset.indexed import IndexedDataset
 from fast_llm.data.dataset.memmap.abstract import MemmapIndexedDatasetReader, MemmapWriter
 from fast_llm.data.dataset.memmap.config import MemmapIndexDatasetReaderConfig
@@ -22,21 +21,6 @@ class MemmapDataset[DocumentType: Document](IndexedDataset[DocumentType]):
     A memory map dataset, which handles lazy loading of a pre-processed dataset.
     """
 
-    @staticmethod
-    def read_reader_config(path: pathlib.Path | str) -> MemmapIndexDatasetReaderConfig:
-        """
-        Read the MemmapIndexDatasetReaderConfig from a memmap file.
-        """
-        path = pathlib.Path(path) if isinstance(path, str) else path
-        with path.open("rb") as stream:
-            # Verify file type.
-            assert stream.read(len(FILE_HEADER)) == FILE_HEADER
-            # Go to reader configs.
-            stream.seek(int.from_bytes(stream.read(8), signed=False))
-            # Read the reader config.
-            config_bytes = stream.read(int.from_bytes(stream.read(4), signed=False))
-            return MemmapIndexDatasetReaderConfig.from_dict(json.loads(config_bytes.decode("utf-8")))
-
     def __init__(
         self,
         name: str,
@@ -51,7 +35,15 @@ def _init(self, name: str, path: pathlib.Path | str, preprocessing: Preprocessin
         self._path = path
         self._preprocessing = preprocessing
 
-        reader_config = self.read_reader_config(self._path)
+        path = pathlib.Path(path) if isinstance(path, str) else path
+        with path.open("rb") as stream:
+            # Verify file type.
+            assert stream.read(len(FILE_HEADER)) == FILE_HEADER
+            # Go to reader configs.
+            stream.seek(int.from_bytes(stream.read(8), signed=False))
+            # Read the reader config.
+            config_bytes = stream.read(int.from_bytes(stream.read(4), signed=False))
+            reader_config = MemmapIndexDatasetReaderConfig.from_dict(json.loads(config_bytes.decode("utf-8")))
 
         self._memmap = np.memmap(self._path, mode="r")
         self._reader = reader_config.get_reader(memoryview(self._memmap), self._preprocessing)
@@ -61,6 +53,8 @@ def __getstate__(self) -> tuple[str, pathlib.Path, dict, MemmapIndexDatasetReade
         return self._name, self._path, self._preprocessing.to_dict(), self._reader.config
 
     def __setstate__(self, state: tuple[str, pathlib.Path, dict, MemmapIndexDatasetReaderConfig]):
+        import fast_llm.data.auto  # isort: skip
+
         name, path, preprocessing, _ = state
         self._init(name, path, PreprocessingConfig.from_dict(preprocessing))
 
@@ -69,9 +63,7 @@ def __del__(self):
             self._memmap._mmap.close()  # noqa
             del self._memmap
 
-    def get_document(
-        self, index: int, begin: int = 0, end: int | None = None, parameters: SamplingParameters | None = None
-    ) -> DocumentType:
+    def get_document(self, index: int, begin: int = 0, end: int | None = None) -> DocumentType:
         if end is None:
             end = self._reader.get_document_size(index)
         return self._reader.get_document(index, begin, end)
diff --git a/fast_llm/data/dataset/sampled.py b/fast_llm/data/dataset/sampled.py
index 2ae5c693e..9c2c8ba56 100644
--- a/fast_llm/data/dataset/sampled.py
+++ b/fast_llm/data/dataset/sampled.py
@@ -8,8 +8,9 @@
 import torch
 import yaml
 
+from fast_llm.config import FieldVerboseLevel
 from fast_llm.data.dataset.abstract import SampledDataset
-from fast_llm.data.dataset.config import SamplingData, ShufflingType
+from fast_llm.data.dataset.config import SamplingConfig, ShufflingType
 from fast_llm.data.dataset.indexed import IndexedDataset
 from fast_llm.data.document.abstract import Document
 from fast_llm.engine.config_utils.data_type import DataType, get_unsigned_integer_type
@@ -72,17 +73,15 @@ class SampledIndexedDataset[DocumentType: Document](SampledDataset[DocumentType]
     """
 
     def __init__(
-        self,
-        indexed_dataset: IndexedDataset[DocumentType],
-        sampling: SamplingData,
+        self, indexed_dataset: IndexedDataset[DocumentType], config: SamplingConfig, num_samples: int, seed: int
     ):
         self._indexed_dataset = indexed_dataset
-        self._config = sampling.config
-        self._parameters = sampling.parameters
-        self._truncate_documents = sampling.parameters.truncate_documents
+        self._config = config
+        self._num_samples = num_samples
+        self._seed = seed
         self._device = torch.device("cuda" if self._config.gpu else "cpu")
 
-        if sampling.cache_directory is None:
+        if self._config.cache_directory is None:
             self._document_shuffling = MemmapArray()
             self._token_cumsum_shuffled = MemmapArray()
             self._token_cumsum_unshuffled = MemmapArray()
@@ -95,9 +94,8 @@ def __init__(
             self._sample()
         else:
             base_path = (
-                sampling.cache_directory
-                / f"{self.name}_ns_{self._parameters.num_samples}_sl_{self._parameters.sequence_length}"
-                f"_s_{self._config.seed}"
+                self._config.cache_directory / f"{self.name}_ns_{self._num_samples}_sl_{self._config.micro_batch_size}"
+                f"_s_{self._seed}"
             )
             # TODO: Names are confusing
             self._document_shuffling = MemmapArray(base_path.with_name(base_path.name + "_shuffling.npy"))
@@ -106,7 +104,7 @@ def __init__(
             self._yaml_path = base_path.with_suffix(".yaml")
 
             # Sample or validate the dataset of a given rank.
-            if sampling.distributed_config.rank == sampling.get_next_rank():
+            if self._config.is_running_next():
                 self._sample()
             # No barrier yet to allow running in parallel.
             # There needs to be one before calling `__getitem__`, normally handled through `Data`.
@@ -121,34 +119,33 @@ def _sample(self) -> None:
         tokens_per_epoch = document_sizes.sum().item()
 
         # Calculate basic stats.
-        if not self._truncate_documents:
+        if not self._config.truncate_documents:
             assert _extension_available, (
                 "The C++ extension for dataset sampling is missing."
                 " Please make sure Fast-LLM is installed correctly."
             )
-            long_docs_filter = document_sizes > self._parameters.total_length
+            long_docs_filter = document_sizes > self._config.sample_size
             ignored_documents = long_docs_filter.sum().item()
             if ignored_documents:
                 log_main_rank(
-                    f" > {ignored_documents}/{documents_per_epoch} documents are longer than {self._parameters.total_length} tokens and will be ignored.",
+                    f" > {ignored_documents}/{documents_per_epoch} documents are longer than {self._config.sample_size} tokens and will be ignored.",
                     log_fn=logger.warning,
                 )
             tokens_per_epoch = document_sizes[~long_docs_filter].sum().item()
             if tokens_per_epoch == 0:
                 raise RuntimeError(
-                    f" > No documents shorter than {self._parameters.total_length} tokens found in dataset {self._indexed_dataset.name}."
+                    f" > No documents shorter than {self._config.sample_size} tokens found in dataset {self._indexed_dataset.name}."
                 )
 
         # We produce sequences of length `self._sequence_length + extra_tokens` so the last token has a label for all prediction heads,
         # but in case of truncations we also include those last labels in the following sample,
         # so we need `sequence_length * num_samples + extra_tokens` tokens in total.
-        if self._truncate_documents:
+        if self._config.truncate_documents:
             num_epochs = math.ceil(
-                (self._parameters.sequence_length * self._parameters.num_samples + self._parameters.extra_tokens)
-                / tokens_per_epoch
+                (self._config.micro_batch_size * self._num_samples + self._config.predicted_tokens) / tokens_per_epoch
             )
         else:
-            num_epochs = math.ceil((self._parameters.total_length * self._parameters.num_samples) / tokens_per_epoch)
+            num_epochs = math.ceil((self._config.sample_size * self._num_samples) / tokens_per_epoch)
 
         # Prepare for shuffling.
         generator = torch.Generator(device=self._device)
@@ -167,19 +164,20 @@ def _sample(self) -> None:
                 "documents_per_epoch": documents_per_epoch,
                 "tokens_per_epoch": tokens_per_epoch,
             },
-            "num_samples": self._parameters.num_samples,
+            "num_samples": self._num_samples,
             "unshuffled_epochs": unshuffled_epochs,
-            "sequence_length": self._parameters.sequence_length,
-            "truncate_documents": self._truncate_documents,
-            "config": self._config.to_dict(),
+            "sequence_length": self._config.micro_batch_size,
+            "truncate_documents": self._config.truncate_documents,
+            "config": self._config.to_dict(verbose=FieldVerboseLevel.everything),
         }
-        if self._truncate_documents:
+        del yaml_data["config"]["rank"]
+        if self._config.truncate_documents:
             yaml_data["unshuffled_tokens"] = tokens_per_epoch * unshuffled_epochs
 
         if self._yaml_path is not None and self._yaml_path.is_file():
             loaded_yaml_data = yaml.safe_load(self._yaml_path.open("r"))
             # Hack to make sure unshuffled tokens are loaded
-            if not self._truncate_documents:
+            if not self._config.truncate_documents:
                 yaml_data["unshuffled_tokens"] = loaded_yaml_data["unshuffled_tokens"]
             self._load_yaml_data(yaml_data)
 
@@ -213,7 +211,7 @@ def _sample(self) -> None:
         # This generates a document shuffling index `all_document_index`, the unshuffled part is trivial
         #   so we only evaluate and store the shuffled part `document_shuffling`.
         if self._config.shuffle == ShufflingType.full:
-            generator.manual_seed(self._config.seed)
+            generator.manual_seed(self._seed)
             # Equivalent to `shuffle(range(documents_per_epoch * num_epochs)) % documents_per_epoch`
             document_shuffling = (
                 torch.randperm(
@@ -232,7 +230,7 @@ def _sample(self) -> None:
                 device=self._device,
             )
             for i in range(shuffled_epochs):
-                generator.manual_seed(self._config.seed + i * 571)
+                generator.manual_seed(self._seed + i * 571)
                 torch.randperm(
                     documents_per_epoch,
                     generator=generator,
@@ -256,13 +254,13 @@ def _sample(self) -> None:
                 document_sizes,
                 offset=0,
                 # TODO: Allowing for max 100% extra tokens for padding, is that enough?
-                dtype=get_unsigned_integer_type((2 - self._truncate_documents) * tokens_per_epoch * num_epochs),
+                dtype=get_unsigned_integer_type((2 - self._config.truncate_documents) * tokens_per_epoch * num_epochs),
             )
             self._token_cumsum_unshuffled.save(token_cumsum_unshuffled)
         else:
             unshuffled_tokens = 0
 
-        if not self._truncate_documents:
+        if not self._config.truncate_documents:
             yaml_data["unshuffled_tokens"] = unshuffled_tokens
         self._load_yaml_data(yaml_data)
         if self._yaml_path is not None:
@@ -279,7 +277,7 @@ def _sample(self) -> None:
                 ],
                 offset=self._unshuffled_tokens,
                 # TODO: Allowing for max 100% extra tokens for padding, is that enough?
-                dtype=get_unsigned_integer_type((2 - self._truncate_documents) * tokens_per_epoch * num_epochs),
+                dtype=get_unsigned_integer_type((2 - self._config.truncate_documents) * tokens_per_epoch * num_epochs),
             )
             self._token_cumsum_shuffled.save(token_cumsum_shuffled)
             self._document_shuffling.save(
@@ -291,7 +289,7 @@ def _sample(self) -> None:
             del document_shuffling
 
     def _get_token_cumsum(self, sizes: torch.Tensor, offset: int, dtype: DataType) -> tuple[np.ndarray, int | None]:
-        if self._truncate_documents:
+        if self._config.truncate_documents:
             # Create the output tensor.
             out = sizes.new_empty(sizes.numel() // TOKEN_CUMSUM_RATE + 1, dtype=dtype.torch)
             # Get partial sums for regular intervals, excluding the last incomplete interval.
@@ -307,22 +305,18 @@ def _get_token_cumsum(self, sizes: torch.Tensor, offset: int, dtype: DataType) -
             # Crop unnecessary entries.
             out = out[
                 : torch.clamp_min_(
-                    torch.searchsorted(
-                        out, self._parameters.num_samples * self._parameters.sequence_length, side="right"
-                    ),
+                    torch.searchsorted(out, self._num_samples * self._config.micro_batch_size, side="right"),
                     0,
                 )
             ]
             return out.numpy(force=self._config.gpu), None
         else:
             # TODO: dynamically handle int64 or int32 in CPP
-            out = build_padded_token_cumsum(
-                sizes.cpu().numpy(), self._parameters.total_length, TOKEN_CUMSUM_RATE, offset
-            )
+            out = build_padded_token_cumsum(sizes.cpu().numpy(), self._config.sample_size, TOKEN_CUMSUM_RATE, offset)
             num_tokens = out[-1]
             out = out[:-1][
                 : np.clip(
-                    np.searchsorted(out, self._parameters.num_samples * self._parameters.total_length, side="right"),
+                    np.searchsorted(out, self._num_samples * self._config.sample_size, side="right"),
                     0,
                     None,
                 )
@@ -330,7 +324,7 @@ def _get_token_cumsum(self, sizes: torch.Tensor, offset: int, dtype: DataType) -
             return out, num_tokens
 
     def __len__(self) -> int:
-        return self._parameters.num_samples
+        return self._num_samples
 
     def __getitem__(self, index: int) -> list[DocumentType]:
         """
@@ -343,9 +337,9 @@ def __getitem__(self, index: int) -> list[DocumentType]:
         # tokens at the boundary are included in only one sample when we pack without truncations
         # in case of packing with truncations, the last token from the previous sample is also the first token of the next sample
         token_start = index * (
-            self._parameters.sequence_length if self._truncate_documents else self._parameters.total_length
+            self._config.micro_batch_size if self._config.truncate_documents else self._config.sample_size
         )
-        token_end = token_start + self._parameters.total_length
+        token_end = token_start + self._config.sample_size
 
         if token_start < self._unshuffled_tokens:
             token_start_array = self._token_cumsum_unshuffled.array
@@ -371,15 +365,15 @@ def __getitem__(self, index: int) -> list[DocumentType]:
 
             document_size = self._indexed_dataset.get_document_size(document_index)
 
-            if not self._truncate_documents:
-                if document_size > self._parameters.total_length:
+            if not self._config.truncate_documents:
+                if document_size > self._config.sample_size:
                     # Document too long, ignore
                     document_sampling_index += 1
                     continue
-                tokens_in_sample = token_count % self._parameters.total_length
-                if document_size + tokens_in_sample > self._parameters.total_length:
+                tokens_in_sample = token_count % self._config.sample_size
+                if document_size + tokens_in_sample > self._config.sample_size:
                     # Document belongs to the next sample, need to account for padding.
-                    padding_size = self._parameters.total_length - tokens_in_sample
+                    padding_size = self._config.sample_size - tokens_in_sample
                     if token_count > token_start:
                         Assert.eq(token_count + padding_size, token_end)
                         break
@@ -397,7 +391,6 @@ def __getitem__(self, index: int) -> list[DocumentType]:
                         document_index,
                         begin=token_start_index_in_document,
                         end=token_end_index_in_document,
-                        parameters=self._parameters,
                     )
                 )
 
diff --git a/fast_llm/data/document/abstract.py b/fast_llm/data/document/abstract.py
index eb6accfdc..490b64b7c 100644
--- a/fast_llm/data/document/abstract.py
+++ b/fast_llm/data/document/abstract.py
@@ -1,5 +1,9 @@
 import abc
 import dataclasses
+import typing
+
+if typing.TYPE_CHECKING:
+    import torch
 
 
 @dataclasses.dataclass(kw_only=True)
@@ -9,15 +13,9 @@ class Document(abc.ABC):
 
 @dataclasses.dataclass(kw_only=True)
 class Batch(Document):
-    pass
-    # @classmethod
-    # @abc.abstractmethod
-    # def from_documents(cls, documents: typing.Iterable[typing.Self]) -> typing.Self:
-    #    pass
-
-    # @abc.abstractmethod
-    # def crop(self, begin: int, end: int) -> typing.Self:
-    #    pass
+    @abc.abstractmethod
+    def crop(self, begin: int, end: int) -> typing.Self:
+        pass
 
-    # def to_device_(self, device: "torch.device | str"):
-    #    pass
+    def to_device(self, device: "torch.device | str") -> typing.Self:
+        pass
diff --git a/fast_llm/data/document/language_model.py b/fast_llm/data/document/language_model.py
index c0bccc5be..417944cbb 100644
--- a/fast_llm/data/document/language_model.py
+++ b/fast_llm/data/document/language_model.py
@@ -32,7 +32,11 @@ class LanguageModelBatch(LanguageModelDocument, Batch):
     chosen_spans: RangeBatch | None = None
     rejected_spans: RangeBatch | None = None
     image_patches: PatchBatch | None = None
-    num_tokens: int  # Number of tokens in the micro-batch excluding padding at the end.
+    num_tokens: int = None  # Number of tokens in the micro-batch excluding padding at the end.
+
+    def __post_init__(self):
+        if self.num_tokens is None:
+            self.num_tokens = len(self.tokens)
 
     @classmethod
     def from_documents(
@@ -62,7 +66,7 @@ def from_documents(
 
     def crop(self, begin: int, end: int) -> typing.Self:
         return self.__class__(
-            tokens=self.tokens.crop(begin, end),
+            tokens=_crop_optional(self.tokens, begin, end),
             loss_masking_spans=_crop_optional(self.loss_masking_spans, begin, end),
             chosen_spans=_crop_optional(self.chosen_spans, begin, end),
             rejected_spans=_crop_optional(self.rejected_spans, begin, end),
@@ -70,15 +74,24 @@ def crop(self, begin: int, end: int) -> typing.Self:
             num_tokens=min(end, self.num_tokens) - begin,
         )
 
-    def to_device_(self, device: "torch.device | str"):
-        self.tokens.to_device_(device)
-        if self.image_patches is not None:
-            self.image_patches.to_device_(device)
+    def to_device(self, device: "torch.device | str"):
+        return self.__class__(
+            tokens=_to_device_optional(self.tokens, device),
+            loss_masking_spans=_to_device_optional(self.loss_masking_spans, device),
+            chosen_spans=_to_device_optional(self.chosen_spans, device),
+            rejected_spans=_to_device_optional(self.rejected_spans, device),
+            image_patches=_to_device_optional(self.image_patches, device),
+            num_tokens=self.num_tokens,
+        )
 
 
 def _merge_optional[T](fn: typing.Callable, args: typing.Iterable) -> T | None:
     return None if any(arg is None for arg in args) else fn(args)
 
 
-def _crop_optional[T: Document](sample: T, begin: int, end: int) -> T | None:
-    return None if sample is None else sample.crop(begin, end)
+def _crop_optional[T: Batch](batch: T, begin: int, end: int) -> T | None:
+    return None if batch is None else batch.crop(begin, end)
+
+
+def _to_device_optional[T: Batch](batch: T, device: "torch.device | str") -> T | None:
+    return None if batch is None else batch.to_device(device)
diff --git a/fast_llm/data/document/patch.py b/fast_llm/data/document/patch.py
index 64bc2841b..8813422cc 100644
--- a/fast_llm/data/document/patch.py
+++ b/fast_llm/data/document/patch.py
@@ -60,7 +60,10 @@ def crop(self, begin: int, end: int) -> typing.Self:
             lengths=filter_lengths(self.lengths, patch_filter),
         )
 
-    def to_device_(self, device: "torch.device | str"):
-        self.patches = self.patches.to(device, non_blocking=True)
-        self.token_map = self.token_map.to(device, non_blocking=True)
-        self.positions = self.positions.to(device, non_blocking=True)
+    def to_device(self, device: "torch.device | str") -> typing.Self:
+        return self.__class__(
+            patches=self.patches.to(device, non_blocking=True),
+            token_map=self.token_map.to(device, non_blocking=True),
+            positions=self.positions.to(device, non_blocking=True),
+            lengths=self.lengths,
+        )
diff --git a/fast_llm/data/document/token.py b/fast_llm/data/document/token.py
index 529068170..4c2ffbd55 100644
--- a/fast_llm/data/document/token.py
+++ b/fast_llm/data/document/token.py
@@ -1,4 +1,5 @@
 import dataclasses
+import functools
 import typing
 
 import torch
@@ -72,34 +73,46 @@ def crop(self, begin: int, end: int) -> typing.Self:
             current_document_begin=current_document_begin,
         )
 
-    def to_device_(self, device: "torch.device | str"):
-        # Also standardize the dtype while we're here.
-        self.tokens = self.tokens.to(device, dtype=torch.int64, non_blocking=True)
-
-    def get_cumulative_lengths(self, device: torch.device | None = None) -> tuple[torch.Tensor, torch.Tensor]:
-        cumulative_lengths_q = torch.from_numpy(padded_cumsum(self.lengths)).to(dtype=torch.int32, device=device)
-        cumulative_lengths_k = torch.cat(
-            [self.current_document_begin, cumulative_lengths_q[1:] + self.sequence_k_past]
+    def to_device(self, device: "torch.device | str") -> typing.Self:
+        return self.__class__(
+            tokens=self.tokens.to(device, non_blocking=True),
+            lengths=self.lengths,
+            sequence_k_past=self.sequence_k_past,
+            current_document_begin=self.current_document_begin,
         )
+
+    @functools.cached_property
+    def device(self) -> torch.device:
+        return self.tokens.device
+
+    @functools.cached_property
+    def cumulative_lengths(self) -> tuple[torch.Tensor, torch.Tensor]:
+        cumulative_lengths_q = torch.from_numpy(padded_cumsum(self.lengths)).to(dtype=torch.int32, device=self.device)
+        cumulative_lengths_k = cumulative_lengths_q + self.sequence_k_past
+        cumulative_lengths_k[0] = self.current_document_begin
         return cumulative_lengths_q, cumulative_lengths_k
 
-    def get_max_lengths(self, device: torch.device | None = None) -> tuple[torch.Tensor, torch.Tensor]:
+    @functools.cached_property
+    def max_lengths(self) -> tuple[torch.Tensor, torch.Tensor]:
         max_length_q = max(self.lengths)
-        max_length_k = max(self.max_length_q, self.sequence_k_past + self.lengths[0] - self.current_document_begin)
+        max_length_k = max(max_length_q, self.sequence_k_past + self.lengths[0] - self.current_document_begin)
         return (
-            torch.full((1,), max_length_q, dtype=torch.int32, device=device),
-            torch.full((1,), max_length_k, dtype=torch.int32, device=device),
+            torch.full((1,), max_length_q, dtype=torch.int32, device=self.device),
+            torch.full((1,), max_length_k, dtype=torch.int32, device=self.device),
         )
 
-    def get_document_index(self, device: torch.device | None = None) -> torch.Tensor:
-        return torch.cat(
-            [
-                torch.full((document_length,), i, dtype=torch.int32, device=device)
-                for i, document_length in enumerate(self.lengths)
-            ]
+    @functools.cached_property
+    def document_index(self) -> tuple[torch.Tensor, torch.Tensor]:
+        cumulative_lengths_q, cumulative_lengths_k = self.cumulative_lengths
+        return (
+            torch.searchsorted(cumulative_lengths_q, torch.arange(len(self.tokens)), side="right"),
+            torch.searchsorted(
+                cumulative_lengths_k, torch.arange(self.sequence_k_past + len(self.tokens)), side="right"
+            ),
         )
 
-    def get_position_index(self, device: torch.device | None = None) -> torch.Tensor:
+    @functools.cached_property
+    def position_index(self) -> torch.Tensor:
         return torch.cat(
-            [torch.arange(document_length, dtype=torch.int32, device=device) for document_length in self.lengths]
+            [torch.arange(document_length, dtype=torch.int32, device=self.device) for document_length in self.lengths]
         )
diff --git a/fast_llm/data/preparator/dataset_discovery/config.py b/fast_llm/data/preparator/dataset_discovery/config.py
index d14b5bfd8..d44ebec80 100644
--- a/fast_llm/data/preparator/dataset_discovery/config.py
+++ b/fast_llm/data/preparator/dataset_discovery/config.py
@@ -32,13 +32,6 @@ class DatasetDiscoveryConfig(DatasetPreparatorConfig):
         hint=FieldHint.optional,
     )
 
-    def _validate(self) -> None:
-        super()._validate()
-        if not self.directory.exists():
-            raise ValueError(f"Directory does not exist: {self.directory}")
-        if not self.directory.is_dir():
-            raise ValueError(f"Path is not a directory: {self.directory}")
-
     @classmethod
     def get_dataset_preparator_class(cls) -> type["DatasetDiscoveryPreparator"]:
         from fast_llm.data.preparator.dataset_discovery.prepare import DatasetDiscoveryPreparator
diff --git a/fast_llm/data/preparator/dataset_discovery/prepare.py b/fast_llm/data/preparator/dataset_discovery/prepare.py
index f1fc6a63b..bd00d7c81 100644
--- a/fast_llm/data/preparator/dataset_discovery/prepare.py
+++ b/fast_llm/data/preparator/dataset_discovery/prepare.py
@@ -1,19 +1,12 @@
-"""
-Dataset discovery preparator.
-
-This module discovers datasets by directly scanning for .fast_llm_dataset files
-and reading token counts from their binary headers.
-"""
-
 import logging
 import pathlib
-from collections import defaultdict
 
 import yaml
 
 from fast_llm.data.dataset.memmap.memmap import MemmapDataset
 from fast_llm.data.preparator.config import DatasetPreparator
 from fast_llm.data.preparator.dataset_discovery.config import DatasetDiscoveryConfig
+from fast_llm.data.preprocessing.language_model import LanguageModelPreprocessingConfig
 
 logger = logging.getLogger(__name__)
 
@@ -27,16 +20,34 @@ class DatasetDiscoveryPreparator[ConfigType: DatasetDiscoveryConfig](DatasetPrep
     """
 
     _config: DatasetDiscoveryConfig
+    _directory: pathlib.Path
+    _ignore_paths: set[pathlib.Path]
 
     def run(self) -> None:
         """
         Run the dataset discovery preparator.
         """
         # Generate the hierarchical config by finding .fast_llm_dataset files
-        config = self._create_hierarchical_config(
-            self._config.directory.resolve(),
-            ignore_paths=self._config.ignore_paths,
-        )
+        self._directory = self._config.directory.resolve()
+        if not self._directory.is_dir():
+            raise ValueError(f"Path is not a directory: {self._directory}")
+
+        logger.info(f"Discovering .fast_llm_dataset files in {self._directory}...")
+
+        self._ignore_paths = {(self._directory / ignore_path).resolve() for ignore_path in self._config.ignore_paths}
+
+        if self._ignore_paths:
+            logger.info(f"Ignoring {len(self._ignore_paths)} path(s):")
+            for ignore_path in self._ignore_paths:
+                logger.info(f"  - {ignore_path}")
+
+        # Create hierarchical config
+        config, total_tokens = self._create_directory_config(self._directory)
+
+        if config is None:
+            raise ValueError("No valid dataset file found.")
+
+        logger.info(f"Total tokens across all datasets: {total_tokens:,}")
 
         # Write the config to the output file with header comment
         self._config.output.parent.mkdir(parents=True, exist_ok=True)
@@ -47,306 +58,82 @@ def run(self) -> None:
                 "weights are token-counts in billions.\n"
             )
             f.write(f"# Configuration:\n")
-            f.write(f"#   directory: {self._config.directory}\n")
-            if self._config.ignore_paths:
+            f.write(f"#   directory: {self._directory}\n")
+            if self._ignore_paths:
                 f.write(f"#   ignore_paths:\n")
-                for ignore_path in self._config.ignore_paths:
-                    f.write(f"#     - {ignore_path}\n")
+                for ignore_path in self._ignore_paths:
+                    f.write(f"#     - {ignore_path.relative_to(self._directory)}\n")
             f.write("\n")
             # Write the YAML config
             yaml.safe_dump(config, f, default_flow_style=False, sort_keys=False)
 
         logger.info(f"Generated dataset config saved to {self._config.output}")
 
-        # Print a preview of the config
-        logger.info("\nGenerated config preview:")
-        preview = yaml.safe_dump(config, default_flow_style=False, sort_keys=False)
-        for line in preview.split("\n")[:50]:
-            logger.info(line)
-
-        if len(preview.split("\n")) > 50:
-            logger.info("... (truncated)")
-
-    @staticmethod
-    def _is_subpath(path: pathlib.Path, parent: pathlib.Path) -> bool:
-        """Check if path is under parent directory."""
-        try:
-            path.relative_to(parent)
-            return True
-        except ValueError:
-            return False
-
-    def _find_dataset_files(
-        self, root_dir: pathlib.Path, ignore_paths: list[pathlib.Path] | None = None
-    ) -> list[pathlib.Path]:
-        """
-        Recursively find all .fast_llm_dataset files in the directory tree.
-
-        Args:
-            root_dir: Root directory to search
-            ignore_paths: List of paths to ignore (can be absolute or relative to root_dir)
-
-        Returns:
-            List of paths to .fast_llm_dataset files
-        """
-        # Normalize ignore paths to absolute paths
-        ignore_paths_absolute = set()
-        if ignore_paths:
-            for ignore_path in ignore_paths:
-                if ignore_path.is_absolute():
-                    ignore_paths_absolute.add(ignore_path.resolve())
-                else:
-                    ignore_paths_absolute.add((root_dir / ignore_path).resolve())
-
-        # Find all .fast_llm_dataset files and filter out ignored ones
-        dataset_files = []
-        for dataset_file in root_dir.rglob("*.fast_llm_dataset"):
-            dataset_file_resolved = dataset_file.resolve()
-
-            # Check if this file is under any ignored path
-            is_ignored = any(
-                self._is_subpath(dataset_file_resolved, ignore_path) for ignore_path in ignore_paths_absolute
-            )
-
-            if not is_ignored:
-                dataset_files.append(dataset_file)
-
-        # Sort by path for consistent ordering
-        return sorted(dataset_files)
-
-    @staticmethod
-    def _read_memmap_num_tokens(memmap_path: pathlib.Path) -> int:
-        """Read number of tokens from a .fast_llm_dataset memmap file."""
-
-        if not memmap_path.exists():
-            logger.warning(f"Memmap file not found: {memmap_path}")
-            return 0
-
-        try:
-            reader_config = MemmapDataset.read_reader_config(memmap_path)
-            return reader_config.num_tokens
-        except Exception as e:
-            logger.warning(f"Failed to read memmap file {memmap_path}: {e}")
-            return 0
-
-    def _get_token_count(self, dataset_file: pathlib.Path) -> float | None:
-        """
-        Get token count in billions for a .fast_llm_dataset file.
-
-        Returns:
-            Token count in billions, or None if the file couldn't be read
-        """
-        num_tokens = self._read_memmap_num_tokens(dataset_file)
-        if num_tokens == 0:
-            logger.warning(f"  - {dataset_file.name}: skipping (0 tokens or read error)")
-            return None
-        logger.debug(f"  - {dataset_file.name}: {num_tokens:,} tokens")
-        return num_tokens / 1e9
-
-    def _create_memmap_config_for_dataset(self, dataset_file: pathlib.Path) -> dict:
-        """
-        Create a memmap config dictionary for a .fast_llm_dataset file.
-
-        Args:
-            dataset_file: Path to the .fast_llm_dataset file
-
-        Returns:
-            Dictionary representing a memmap dataset config
-        """
-        return {"type": "memmap", "path": str(dataset_file)}
-
-    @staticmethod
-    def _get_directory_name(directory: pathlib.Path, root_dir: pathlib.Path, suffix: str = "") -> str:
-        """
-        Generate a name for a directory relative to root.
-
-        Args:
-            directory: The directory to name
-            root_dir: The root directory
-            suffix: Optional suffix to append to the name
-
-        Returns:
-            A string name for the directory
-        """
-        rel_path = directory.relative_to(root_dir) if directory != root_dir else pathlib.Path(".")
-        base_name = str(rel_path).replace("/", "_").replace(".", root_dir.name)
-        return f"{base_name}{suffix}" if suffix else base_name
-
-    @staticmethod
-    def _group_files_by_directory(dataset_files: list[pathlib.Path]) -> dict[pathlib.Path, list[pathlib.Path]]:
-        """
-        Group dataset files by their parent directory.
-
-        Args:
-            dataset_files: List of dataset file paths
-
-        Returns:
-            Dictionary mapping directory paths to lists of dataset files in that directory
-        """
-        groups: dict[pathlib.Path, list[pathlib.Path]] = defaultdict(list)
-        for dataset_file in dataset_files:
-            groups[dataset_file.parent].append(dataset_file)
-
-        return dict(groups)
-
-    @staticmethod
-    def _build_directory_tree(
-        groups: dict[pathlib.Path, list[pathlib.Path]], root_dir: pathlib.Path
-    ) -> dict[pathlib.Path, set[pathlib.Path]]:
-        """
-        Build a tree structure of directories showing parent-child relationships.
-
-        Args:
-            groups: Dictionary mapping directories to their dataset files
-            root_dir: Root directory
-
-        Returns:
-            Dictionary mapping each directory to its immediate child directories
-        """
-        tree: dict[pathlib.Path, set[pathlib.Path]] = {root_dir: set()}
-
-        for directory in groups.keys():
-            # Add all ancestors to the tree
-            current = directory
-            while current != root_dir and current.parent != current:
-                parent = current.parent
-                if parent not in tree:
-                    tree[parent] = set()
-                if current not in tree:
-                    tree[current] = set()
-                tree[parent].add(current)
-                current = parent
-
-        return tree
+        logger.info(f"\nGenerated config: \n{yaml.safe_dump(config, default_flow_style=False, sort_keys=False)}")
 
     def _create_directory_config(
         self,
         directory: pathlib.Path,
-        groups: dict[pathlib.Path, list[pathlib.Path]],
-        tree: dict[pathlib.Path, set[pathlib.Path]],
-        root_dir: pathlib.Path,
-    ) -> tuple[dict, float] | None:
+    ) -> tuple[dict | None, float]:
         """
         Recursively create a blended config for a directory and its subdirectories.
-
-        Args:
-            directory: Current directory to process
-            groups: Dictionary mapping directories to their dataset files
-            tree: Directory tree structure
-            root_dir: Root directory
-
-        Returns:
-            Tuple of (config dictionary, total token count in billions), or None if directory has no datasets
         """
         local_datasets = []
         local_tokens = []
+        all_datasets = []
+        all_tokens = []
 
         # Collect dataset files directly in this directory (not in subdirectories)
-        if directory in groups:
-            for dataset_file in sorted(groups[directory]):
-                token_count = self._get_token_count(dataset_file)
-                if token_count is not None:  # Skip files that couldn't be read
-                    local_datasets.append(self._create_memmap_config_for_dataset(dataset_file))
-                    local_tokens.append(token_count)
+        for subpath in directory.iterdir():
+            if any(subpath.is_relative_to(ignore_path) for ignore_path in self._ignore_paths):
+                continue
+            if subpath.is_dir():
+                subdir_config, subdir_token_count = self._create_directory_config(subpath)
+                if subdir_config is not None:
+                    all_datasets.append(subdir_config)
+                    all_tokens.append(subdir_token_count)
+            elif subpath.is_file():
+                if subpath.suffix != ".fast_llm_dataset":
+                    continue
+                try:
+                    num_tokens = MemmapDataset("", subpath, LanguageModelPreprocessingConfig()).num_tokens
+                    if num_tokens == 0:
+                        raise ValueError(f"Dataset is empty")
+                except Exception as e:
+                    logger.warning(f"Failed to read memmap file {subpath}: {e}")
+                else:
+                    logger.info(f"{subpath.relative_to(self._directory)}: {num_tokens:,} tokens")
+                    local_datasets.append({"type": "memmap", "path": str(subpath)})
+                    local_tokens.append(num_tokens)
+            else:
+                logger.warning(f"Failed to read path {subpath}")
 
-        # Recursively process subdirectories
-        subdir_datasets = []
-        subdir_tokens = []
-        if directory in tree:
-            for subdir in sorted(tree[directory]):
-                subdir_result = self._create_directory_config(subdir, groups, tree, root_dir)
-                if subdir_result is not None:
-                    subdir_config, subdir_token_count = subdir_result
-                    subdir_datasets.append(subdir_config)
-                    subdir_tokens.append(subdir_token_count)
+        # Generate a name for a directory relative to root.
+        directory_name = (
+            str(directory.relative_to(self._directory)).replace("/", "_").replace(".", self._directory.name)
+        )
 
-        # Combine local and subdirectory datasets
-        if local_datasets and subdir_datasets:
-            # If multiple local datasets, group them together
-            if len(local_datasets) > 1:
-                local_total_tokens = sum(local_tokens)
-                local_group = {
+        if local_datasets:
+            all_tokens.append(sum(local_tokens))
+            all_datasets.append(
+                {
                     "type": "blended",
-                    "name": self._get_directory_name(directory, root_dir, "_local"),
+                    "name": directory_name + "_local" if all_datasets else directory_name,
                     "datasets": local_datasets,
                     "weights": local_tokens,
                 }
-                all_datasets = [local_group] + subdir_datasets
-                all_tokens = [local_total_tokens] + subdir_tokens
-            else:
-                all_datasets = local_datasets + subdir_datasets
-                all_tokens = local_tokens + subdir_tokens
-        elif local_datasets:
-            all_datasets = local_datasets
-            all_tokens = local_tokens
-        elif subdir_datasets:
-            all_datasets = subdir_datasets
-            all_tokens = subdir_tokens
-        else:
-            return None
-
-        total_tokens = sum(all_tokens)
-
-        # Don't wrap a single dataset
-        if len(all_datasets) == 1:
-            return all_datasets[0], total_tokens
-
-        # Multiple datasets - create blended config
-        return {
-            "type": "blended",
-            "name": self._get_directory_name(directory, root_dir),
-            "datasets": all_datasets,
-            "weights": all_tokens,
-        }, total_tokens
-
-    def _create_hierarchical_config(
-        self,
-        root_dir: pathlib.Path,
-        ignore_paths: list[pathlib.Path] | None = None,
-    ) -> dict:
-        """
-        Create a hierarchical blended dataset config from all .fast_llm_dataset files in a directory.
-
-        Datasets in the same directory are grouped together with weights proportional to token counts,
-        and these groups are nested following the directory structure.
-
-        Args:
-            root_dir: Root directory to search for datasets
-            ignore_paths: List of paths to ignore (can be absolute or relative to root_dir)
-
-        Returns:
-            Dictionary representing the hierarchical blended dataset config
-        """
-        logger.info(f"Discovering .fast_llm_dataset files in {root_dir}...")
-
-        if ignore_paths:
-            logger.info(f"Ignoring {len(ignore_paths)} path(s):")
-            for ignore_path in ignore_paths:
-                logger.info(f"  - {ignore_path}")
-
-        dataset_files = self._find_dataset_files(root_dir, ignore_paths=ignore_paths)
-
-        if not dataset_files:
-            raise ValueError(f"No .fast_llm_dataset files found in {root_dir}")
-
-        logger.debug(f"Found {len(dataset_files)} dataset file(s):")
-        for dataset_file in dataset_files:
-            logger.debug(f"  - {dataset_file.relative_to(root_dir)}")
-
-        # Group dataset files by directory
-        groups = self._group_files_by_directory(dataset_files)
-
-        # Build directory tree
-        tree = self._build_directory_tree(groups, root_dir)
-
-        # Create hierarchical config
-        result = self._create_directory_config(root_dir, groups, tree, root_dir)
-
-        if result is None:
-            raise ValueError("Failed to create config")
-
-        config, total_tokens = result
-
-        logger.info(f"Total tokens across all datasets: {total_tokens:.2f}B")
+                if len(local_datasets) > 1
+                else local_datasets[0]
+            )
 
-        return config
+        if len(all_datasets) > 1:
+            return {
+                "type": "blended",
+                "name": directory_name,
+                "datasets": all_datasets,
+                "weights": all_tokens,
+            }, sum(all_tokens)
+        elif len(all_datasets) == 1:
+            return all_datasets[0], all_tokens[0]
+        else:
+            return None, 0
diff --git a/fast_llm/engine/config_utils/interval.py b/fast_llm/engine/config_utils/interval.py
new file mode 100644
index 000000000..9548ddadb
--- /dev/null
+++ b/fast_llm/engine/config_utils/interval.py
@@ -0,0 +1,44 @@
+from fast_llm.config import Config, Field, FieldHint, check_field, config_class, skip_valid_if_none
+from fast_llm.utils import Assert
+
+
+@config_class()
+class IntervalConfig(Config):
+    # Intervals are a common pattern, so we standardize them with this base class.
+    interval: int | None = Field(
+        default=None,
+        desc="The number of training iterations between each interval. Setting to None will disable.",
+        hint=FieldHint.feature,
+        valid=skip_valid_if_none(check_field(Assert.gt, 0)),
+    )
+    offset: int = Field(
+        default=0,
+        desc="Offset for the first interval.",
+        hint=FieldHint.feature,
+        valid=check_field(Assert.geq, 0),
+    )
+
+    def _validate(self) -> None:
+        if self.interval:
+            with self._set_implicit_default(None):
+                self.offset %= self.interval
+        super()._validate()
+
+    def enabled(self, iteration: int | None = None) -> bool:
+        return self.interval and (iteration is None or (iteration - self.offset) % self.interval == 0)
+
+    def is_sub_interval(self, other: "IntervalConfig") -> bool:
+        if not self.enabled():
+            return True
+        elif not other.enabled():
+            return False
+        return self.interval % other.interval == 0 and (other.offset % other.interval) == (
+            self.offset % other.interval
+        )
+
+    def assert_sub_interval(self, other: "IntervalConfig") -> None:
+        assert self.is_sub_interval(other), f"{self} is not a sub-interval of {other}"
+
+    def get_count(self, iteration) -> int:
+        # Number of times this interval was enabled after a given iteration.
+        return (iteration - self.offset) // self.interval + 1 if self.enabled() else 0
diff --git a/fast_llm/engine/evaluation/config.py b/fast_llm/engine/evaluation/config.py
index f7ae62f04..aafab306f 100644
--- a/fast_llm/engine/evaluation/config.py
+++ b/fast_llm/engine/evaluation/config.py
@@ -1,29 +1,17 @@
-import abc
 import typing
 
-from fast_llm.config import Config, Field, FieldHint, check_field, config_class, skip_valid_if_none
+from fast_llm.config import Field, FieldHint, check_field, config_class, skip_valid_if_none
 from fast_llm.data.preprocessing.tokenizer import TokenizerConfig
-from fast_llm.engine.schedule.config import BatchConfig
+from fast_llm.engine.config_utils.interval import IntervalConfig
 from fast_llm.utils import Assert
 
 if typing.TYPE_CHECKING:
-    from fast_llm.engine.evaluation.evaluator import Evaluator, EvaluatorLmEval, LossEvaluator
-
-
-@config_class()
-class EvaluatorConfigBase(Config):
-    @abc.abstractmethod
-    def get_evaluator(
-        self,
-        name: str,
-        batch_config: BatchConfig,
-        num_workers: int,
-    ) -> "Evaluator":
-        pass
+    from fast_llm.engine.evaluation.evaluator import Evaluator, LossEvaluator
+    from fast_llm.engine.evaluation.lm_eval.evaluator import LmEvalEvaluator
 
 
 @config_class(registry=True)
-class EvaluatorConfig(EvaluatorConfigBase):
+class EvaluatorConfig(IntervalConfig):
     _abstract: typing.ClassVar[bool] = True
 
     @classmethod
@@ -33,6 +21,13 @@ def _from_dict(cls, default: dict[str, typing.Any], strict: bool = True) -> typi
             return LossEvaluatorConfig._from_dict(default, strict)
         return super()._from_dict(default, strict=strict)
 
+    def get_run_count(self, training_iterations: int, extra_evaluations: int = 0):
+        # Number of completed evaluation runs
+        return (self.get_count(training_iterations) + extra_evaluations) if self.enabled() else 0
+
+    def get_evaluator(self, name: str, num_workers: int) -> "Evaluator":
+        raise NotImplementedError()
+
 
 @config_class(dynamic_type={EvaluatorConfig: "loss"})
 class LossEvaluatorConfig(EvaluatorConfig):
@@ -45,15 +40,10 @@ class LossEvaluatorConfig(EvaluatorConfig):
         valid=skip_valid_if_none(check_field(Assert.gt, 0)),
     )
 
-    def get_evaluator(
-        self,
-        name: str,
-        batch_config: BatchConfig,
-        num_workers: int,
-    ) -> "LossEvaluator":
+    def get_evaluator(self, name: str, num_workers: int) -> "LossEvaluator":
         from fast_llm.engine.evaluation.evaluator import LossEvaluator
 
-        return LossEvaluator(name, self, batch_config, num_workers)
+        return LossEvaluator(self, name, num_workers)
 
 
 @config_class(dynamic_type={EvaluatorConfig: "lm_eval"})
@@ -105,12 +95,7 @@ class LmEvalEvaluatorConfig(EvaluatorConfig):
         "ranks may have no data or post-processing can be slow, exceeding the default 60s timeout.",
     )
 
-    def get_evaluator(
-        self,
-        name: str,
-        batch_config: BatchConfig,
-        num_workers: int,
-    ) -> "EvaluatorLmEval":
+    def get_evaluator(self, name: str, num_workers: int) -> "LmEvalEvaluator":
         from fast_llm.engine.evaluation.lm_eval.evaluator import LmEvalEvaluator
 
-        return LmEvalEvaluator(name, self, batch_config, num_workers)
+        return LmEvalEvaluator(self, name, num_workers)
diff --git a/fast_llm/engine/evaluation/evaluator.py b/fast_llm/engine/evaluation/evaluator.py
index 7cabb06d1..ba82af566 100644
--- a/fast_llm/engine/evaluation/evaluator.py
+++ b/fast_llm/engine/evaluation/evaluator.py
@@ -6,7 +6,7 @@
 
 from fast_llm.config import Configurable
 from fast_llm.core.distributed import safe_barrier
-from fast_llm.data.batch.config import PreprocessedBatch
+from fast_llm.data.batch.config import BatchPreprocessingConfig, PreprocessedBatch
 from fast_llm.data.data.abstract import Data
 from fast_llm.engine.base_model.config import LossDef
 from fast_llm.engine.config_utils.run import get_run, log_main_rank, run_exists
@@ -14,7 +14,6 @@
 from fast_llm.engine.distributed.distributed import Distributed
 from fast_llm.engine.evaluation.config import EvaluatorConfig, LossEvaluatorConfig
 from fast_llm.engine.multi_stage.fast_llm_model import FastLLMModel
-from fast_llm.engine.schedule.config import BatchConfig
 from fast_llm.engine.schedule.runner import ScheduleRunner
 from fast_llm.engine.schedule.schedule import Schedule
 from fast_llm.logging import format_metrics
@@ -39,14 +38,12 @@ class Evaluator[ConfigType: EvaluatorConfig](Configurable[ConfigType], abc.ABC):
 
     def __init__(
         self,
+        config: ConfigType,
         name: str,
-        eval_config: LossEvaluatorConfig,
-        batch_config: BatchConfig,
         num_workers: int,
     ):
-        super().__init__(eval_config)
+        super().__init__(config)
         self._name = name
-        self._batch_config = batch_config
         self._num_workers = num_workers
 
     @abc.abstractmethod
@@ -76,7 +73,8 @@ class LossEvaluator[ConfigType: LossEvaluatorConfig](Evaluator[ConfigType]):
     _data_iterator: typing.Iterator[PreprocessedBatch] | None = None
     _loss_definitions: list[LossDef]
     _schedule: Schedule
-    _data: Data
+    _preprocessing_config: BatchPreprocessingConfig
+    _batch_size: int
 
     def setup(
         self,
@@ -87,15 +85,17 @@ def setup(
     ) -> None:
         super().setup(multi_stage, runner, data, run_count)
 
-        preprocessing_config = self._multi_stage.get_preprocessing_config(self._batch_config, PhaseType.validation)
+        preprocessing_config = self._multi_stage.get_preprocessing_config(
+            PhaseType.validation, runner.config.micro_batch_splits
+        )
         self._data.sample_dataset(
-            self._name, preprocessing_config, run_count * self._config.iterations * self._batch_config.batch_size
+            self._name, preprocessing_config, run_count * self._config.iterations * self._schedule.samples_per_batch
         )
         # Setup the schedule
         self._schedule = Schedule(
             config=runner.config,
             multi_stage=self._multi_stage,
-            batch_meta=preprocessing_config.get_batch_meta(),
+            batch_meta=preprocessing_config.get_batch_meta(self._data.config.micro_batch_size),
             distributed_config=self._distributed.config,
             phase=PhaseType.validation,
         )
@@ -111,10 +111,9 @@ def run(
         completed_evaluation_steps = max(0, run_index - 1) * self.config.iterations
 
         if self._data_iterator is None:
-            self._data.get_iterator(
-                self._batch_config,
+            self._data_iterator = self._data.get_iterator(
                 self._name,
-                consumed_samples=completed_evaluation_steps * self._batch_config.batch_size,
+                consumed_samples=completed_evaluation_steps * self._schedule.samples_per_batch,
                 num_workers=self._num_workers,
             )
         safe_barrier(self._distributed.world_group, f"{PhaseType.validation} {self._name} begin")
@@ -140,14 +139,12 @@ def run(
 
         metrics.update(
             {
-                "batch_size": self._batch_config.batch_size,
+                "batch_size": self._batch_size,
                 **{name: (value / self._config.iterations) for name, value in total_losses.items()},
                 "step_time_ms": time_per_iteration * 1000,
                 **self._schedule.get_compute_metrics(time_per_iteration),
                 "tokens_per_sec_per_gpu": (
-                    (self._batch_config.sequence_length * self._batch_config.batch_size)
-                    / self._distributed.config.world_size
-                    / time_per_iteration
+                    self._batch_size / self._distributed.config.world_size / time_per_iteration
                 ),
                 **get_and_reset_memory_usage_mib(),
             }
@@ -163,3 +160,7 @@ def run(
                 )
             )
         )
+
+    @property
+    def _batch_size(self) -> int:
+        return self._schedule.samples_per_batch * self._data.config.micro_batch_size
diff --git a/fast_llm/engine/evaluation/lm_eval/evaluator.py b/fast_llm/engine/evaluation/lm_eval/evaluator.py
index d03f87a24..4db258093 100644
--- a/fast_llm/engine/evaluation/lm_eval/evaluator.py
+++ b/fast_llm/engine/evaluation/lm_eval/evaluator.py
@@ -52,7 +52,6 @@ def setup(
             add_bos_token=self._config.add_bos_token,
             prefix_token_id=self._config.prefix_token_id,
             max_length=self._config.max_length,
-            batch_config=self._batch_config,
             communication_timeout_sec=self._config.communication_timeout_sec,
         )
         self._is_setup = True
diff --git a/fast_llm/engine/evaluation/lm_eval/fast_llm_wrapper.py b/fast_llm/engine/evaluation/lm_eval/fast_llm_wrapper.py
index 1b41f21c5..56a2588c0 100644
--- a/fast_llm/engine/evaluation/lm_eval/fast_llm_wrapper.py
+++ b/fast_llm/engine/evaluation/lm_eval/fast_llm_wrapper.py
@@ -16,7 +16,6 @@
 from fast_llm.engine.distributed.distributed import Distributed
 from fast_llm.engine.evaluation.lm_eval.utils import prepare_lm_eval_simple_eval_params, process_lm_eval_results
 from fast_llm.engine.inference.huggingface import HuggingfacePreTrainedModel
-from fast_llm.engine.schedule.config import BatchConfig
 from fast_llm.layers.attention.rotary.config import NoRotaryConfig
 
 logger = logging.getLogger(__name__)
@@ -35,7 +34,6 @@ def __init__(
         add_bos_token: bool | None = False,
         prefix_token_id: int | None = None,
         max_length: int | None = None,
-        batch_config: BatchConfig | None = None,
         communication_timeout_sec: float = 600.0,
     ):
         super().__init__()
@@ -86,9 +84,9 @@ def __init__(
         self._batch_sizes = {}  # Not used dynamically by lm_eval
 
         # NOTE: We can not take batch configuration from inference runner as it has a dummy batch config
-        self._batch_size_per_gpu = batch_config.micro_batch_size if batch_config else 1
+        self._batch_size_per_gpu = 1
 
-        self._batch_size = self._batch_size_per_gpu * self._distributed.config.batch_data_parallel
+        self._batch_size = self._distributed.config.batch_data_parallel
         self._max_batch_size = self._batch_size
 
     @property
@@ -124,10 +122,6 @@ def max_length(self):
                 return self._DEFAULT_MAX_LENGTH
             return self._tokenizer.model_max_length
 
-        # finally try to get sequence length from batch config
-        if hasattr(self._model._inference_runner._batch_config, "sequence_length"):
-            return self._model._inference_runner._batch_config.sequence_length
-
         return self._DEFAULT_MAX_LENGTH
 
     # @property
diff --git a/fast_llm/engine/inference/runner.py b/fast_llm/engine/inference/runner.py
index 3003c5f9d..b7c88ed5c 100644
--- a/fast_llm/engine/inference/runner.py
+++ b/fast_llm/engine/inference/runner.py
@@ -1,10 +1,9 @@
 import abc
 import typing
 
-from fast_llm.config import NoAutoValidate
 from fast_llm.engine.distributed.config import PhaseType
 from fast_llm.engine.multi_stage.fast_llm_model import FastLLMModel
-from fast_llm.engine.schedule.config import BatchConfig, ScheduleConfig
+from fast_llm.engine.schedule.config import ScheduleConfig
 from fast_llm.engine.schedule.runner import ScheduleRunner
 from fast_llm.engine.schedule.schedule import Schedule
 from fast_llm.utils import Assert
@@ -12,7 +11,6 @@
 
 class InferenceRunner(abc.ABC):
     model_class: typing.ClassVar[type[FastLLMModel]] = FastLLMModel
-    batch_config_class: typing.ClassVar[type[BatchConfig]] = BatchConfig
 
     def __init__(
         self,
@@ -22,11 +20,6 @@ def __init__(
         assert isinstance(fast_llm_model, self.model_class)
         self._fast_llm_model = fast_llm_model
 
-        with NoAutoValidate():
-            self._batch_config = self.batch_config_class()
-        self._batch_config.setup(self._fast_llm_model.config.distributed)
-        self._batch_config.validate()
-
         if runner is None:
             # We only need a basic schedule and don't care about dimensions.
             self._schedule_config = ScheduleConfig()
@@ -45,9 +38,9 @@ def __init__(
 
         # TODO: Random state? (Distributed.set_step)
         self._schedule = Schedule(
+            config=self._schedule_config,
             multi_stage=self._fast_llm_model,
-            batch_config=self._batch_config,
-            schedule_config=self._schedule_config,
+            batch_meta=self._fast_llm_model.get_preprocessing_config(PhaseType.inference).get_batch_meta(),
             distributed_config=self._fast_llm_model.config.distributed,
             phase=PhaseType.inference,
         )
diff --git a/fast_llm/engine/multi_stage/fast_llm_model.py b/fast_llm/engine/multi_stage/fast_llm_model.py
index b1dc37649..e3854fc56 100644
--- a/fast_llm/engine/multi_stage/fast_llm_model.py
+++ b/fast_llm/engine/multi_stage/fast_llm_model.py
@@ -10,7 +10,6 @@
 from fast_llm.engine.distributed.distributed import Distributed
 from fast_llm.engine.multi_stage.config import FastLLMModelConfig, StageMode
 from fast_llm.engine.multi_stage.multi_stage import MultiStageModel
-from fast_llm.engine.schedule.config import BatchConfig
 from fast_llm.functional.triton.pointwise import triton_fill
 from fast_llm.utils import Assert
 
@@ -82,7 +81,7 @@ def from_pretrained(
         return model
 
     @abc.abstractmethod
-    def get_preprocessing_config(self, batch: BatchConfig, phase: PhaseType) -> BatchPreprocessingConfig:
+    def get_preprocessing_config(self, phase: PhaseType, micro_batch_splits: int = 1) -> BatchPreprocessingConfig:
         pass
 
     def initialize_weights(self, timeout: float | None = None) -> None:
diff --git a/fast_llm/engine/schedule/config.py b/fast_llm/engine/schedule/config.py
index 1bffa0f0a..48714db40 100644
--- a/fast_llm/engine/schedule/config.py
+++ b/fast_llm/engine/schedule/config.py
@@ -2,8 +2,7 @@
 import functools
 
 from fast_llm.config import Config, Field, FieldHint, check_field, config_class, test_field
-from fast_llm.engine.distributed.config import DistributedConfig
-from fast_llm.utils import Assert, div
+from fast_llm.utils import Assert
 
 
 class StepType(str, enum.Enum):
@@ -12,103 +11,25 @@ class StepType(str, enum.Enum):
 
 
 @config_class()
-class BatchConfig(Config):
-    micro_batch_size: int = Field(
-        default=None,
-        desc="Size of individual micro-batches, in samples. May be derived or constrained be other quantities.",
-        hint=FieldHint.core,
-        valid=check_field(Assert.gt, 0),
-    )
+class ScheduleConfig(Config):
     depth_first_micro_batches: int = Field(
-        default=None,
+        default=1,
         desc="Size of individual micro-batches. May be derived or constrained be other quantities.",
         hint=FieldHint.core,
         valid=check_field(Assert.gt, 0),
     )
     breadth_first_micro_batches: int = Field(
-        default=None,
+        default=1,
         desc="Size of individual micro-batches. May be derived or constrained be other quantities.",
         hint=FieldHint.core,
         valid=check_field(Assert.gt, 0),
     )
-    sequential_micro_batches: int = Field(
-        default=None,
-        desc="Total number of sequential micro-batches. May be derived or constrained be other quantities (= depth-first * breadth-first).",
-        hint=FieldHint.core,
-        valid=check_field(Assert.gt, 0),
-    )
-    batch_size: int = Field(
-        default=None,
-        desc="Global batch size, in samples. May be derived or constrained be other quantities (= micro-batch size * sequential micro-batches * batch-data-parallel).",
-        hint=FieldHint.core,
+    micro_batch_splits: int = Field(
+        default=1,
+        desc="Number of splits for each micro-batch.",
+        hint=FieldHint.performance,
         valid=check_field(Assert.gt, 0),
     )
-    distributed: DistributedConfig = Field(
-        init=False,
-        desc="Pointer to a distributed configuration, required to know the data-parallel split of the batch.",
-        hint=FieldHint.setup,
-    )
-
-    def setup(self, distributed_config: DistributedConfig) -> None:
-        self.distributed = distributed_config
-
-    @functools.cached_property
-    def num_inputs(self) -> int:
-        return self.sequential_micro_batches * self.micro_batch_splits
-
-    @functools.cached_property
-    def micro_batch_splits(self) -> int:
-        return 1
-
-    def _validate(self) -> None:
-        # Use the distributed properties to determine the batch size and its breakdown.
-        # Requires post-processed distributed config args
-        if self.batch_size is None or self.micro_batch_size is None:
-            if self.depth_first_micro_batches is None:
-                self.depth_first_micro_batches = 1
-            if self.breadth_first_micro_batches is None:
-                self.breadth_first_micro_batches = 1
-            self.sequential_micro_batches = self.depth_first_micro_batches * self.breadth_first_micro_batches
-            if self.batch_size is None:
-                if self.micro_batch_size is None:
-                    self.micro_batch_size = 1
-                self.batch_size = (
-                    self.micro_batch_size * self.sequential_micro_batches * self.distributed.batch_data_parallel
-                )
-            elif self.micro_batch_size is None:
-                self.micro_batch_size = div(
-                    self.batch_size, self.sequential_micro_batches * self.distributed.batch_data_parallel
-                )
-        else:
-            self.sequential_micro_batches = div(
-                self.batch_size, self.micro_batch_size * self.distributed.batch_data_parallel
-            )
-            if self.depth_first_micro_batches is None:
-                if self.breadth_first_micro_batches is None:
-                    if self.distributed.pipeline_parallel > 1:
-                        self.depth_first_micro_batches = 1
-                        self.breadth_first_micro_batches = self.sequential_micro_batches
-                    else:
-                        self.depth_first_micro_batches = self.sequential_micro_batches
-                        self.breadth_first_micro_batches = 1
-                else:
-                    self.depth_first_micro_batches = div(
-                        self.sequential_micro_batches, self.breadth_first_micro_batches
-                    )
-            elif self.breadth_first_micro_batches is None:
-                self.breadth_first_micro_batches = div(self.sequential_micro_batches, self.depth_first_micro_batches)
-            else:
-                Assert.eq(
-                    self.sequential_micro_batches, self.breadth_first_micro_batches * self.depth_first_micro_batches
-                )
-
-        if self.distributed.pipeline_parallel > 1 and self.depth_first_micro_batches > 1:
-            raise NotImplementedError("Depth-first pipeline parallelism not yet implemented")
-        super()._validate()
-
-
-@config_class()
-class ScheduleConfig(Config):
     pipeline_overlap: bool = Field(
         default=True, desc="Overlap the pipeline-parallel network communication.", hint=FieldHint.testing
     )
@@ -159,6 +80,14 @@ class ScheduleConfig(Config):
         hint=FieldHint.testing,
     )
 
+    @functools.cached_property
+    def sequential_micro_batches(self) -> int:
+        return self.breadth_first_micro_batches * self.depth_first_micro_batches
+
+    @functools.cached_property
+    def num_inputs(self) -> int:
+        return self.sequential_micro_batches * self.micro_batch_splits
+
 
 class StreamType(str, enum.Enum):
     compute = "compute"
diff --git a/fast_llm/engine/schedule/runner.py b/fast_llm/engine/schedule/runner.py
index 0683153e5..24b8b3d63 100644
--- a/fast_llm/engine/schedule/runner.py
+++ b/fast_llm/engine/schedule/runner.py
@@ -286,11 +286,15 @@ def run_step(
 
     def _reduce_losses(self, context: BatchContext) -> dict[str, float | int]:
         reduced_losses = {}
-        num_inputs = self._distributed_config.data_parallel * context.schedule.batch_config.num_inputs
         for name, losses in context.losses.items():
             if losses or self._distributed.pipeline_group:
                 if losses:
-                    reduced_loss = torch.stack(losses).sum() / num_inputs / self._loss_definitions[name].count
+                    loss_count = (
+                        self._loss_definitions[name].count
+                        * self._distributed_config.data_parallel
+                        * context.schedule.config.num_inputs
+                    )
+                    reduced_loss = torch.stack(losses).sum() / loss_count
                     if self._distributed.data_group:
                         all_reduce(reduced_loss, group=self._distributed.data_group)
                 else:
@@ -326,11 +330,10 @@ def _train_step(self, context: BatchContext, step: Step) -> None:
     def _preprocess_data(
         self, context: BatchContext, data_iterator: typing.Iterator, preprocessed: bool
     ) -> typing.Generator[None, None, None]:
-        batch_config = context.schedule.batch_config
         grad_output = (
-            self._optimizer.grad_scale / batch_config.num_inputs if context.schedule.phase.is_training else None
+            self._optimizer.grad_scale / self._config.num_inputs if context.schedule.phase.is_training else None
         )
-        for micro_batch in range(batch_config.sequential_micro_batches):
+        for micro_batch in range(self._config.sequential_micro_batches):
             micro_batch_data = next(data_iterator)
             if not preprocessed:
                 micro_batch_data = self._multi_stage.base_model.preprocess_batch(
@@ -341,14 +344,15 @@ def _preprocess_data(
                     extra_kwargs={
                         "grad_output": grad_output,
                         "micro_batch": micro_batch,
-                        "num_micro_batches": batch_config.sequential_micro_batches,
-                        "micro_batch_splits": batch_config.micro_batch_splits,
+                        "num_micro_batches": self._config.sequential_micro_batches,
+                        "micro_batch_splits": self._config.micro_batch_splits,
                     },
                     device=self._distributed.device,
                 )
+            Assert.eq(len(micro_batch_data), self._config.micro_batch_splits)
             for micro_batch_split, (input_, kwargs) in enumerate(micro_batch_data):
                 kwargs.update(micro_batch_split=micro_batch_split)
-                data_index = context.schedule.get_data_index(micro_batch, micro_batch_split)
+                data_index = micro_batch * self._config.micro_batch_splits + micro_batch_split
                 if self._stages_owned[0]:
                     context.inputs[context.schedule.get_step(StepType.forward, 0, data_index).global_index] = input_
                 if context.is_training and self._stages_owned[-1]:
@@ -407,7 +411,7 @@ def _recv(self, context: BatchContext, step: Step) -> None:
     def _forward(self, context: BatchContext, step: Step) -> None:
         output, grad_context = self._stages[step.stage].forward(
             self._get_forward_input(context, step),
-            context.batch[step.data_index],
+            context.batch[step.index],
             losses=context.losses,
             metrics=context.metrics,
         )
@@ -425,10 +429,10 @@ def _backward(self, context: BatchContext, step: Step) -> torch.Tensor:
         return input_grad
 
     def _get_forward_input(self, context: BatchContext, step: Step) -> torch.Tensor:
-        if step.data_index not in context.batch:
+        if step.index not in context.batch:
             start_time = time.perf_counter()
 
-            while step.data_index not in context.batch:
+            while step.index not in context.batch:
                 next(context.data_iterator)
 
             data_time = (time.perf_counter() - start_time) * 1000
diff --git a/fast_llm/engine/schedule/schedule.py b/fast_llm/engine/schedule/schedule.py
index 8c932946b..78576f11b 100644
--- a/fast_llm/engine/schedule/schedule.py
+++ b/fast_llm/engine/schedule/schedule.py
@@ -15,21 +15,25 @@
 from fast_llm.engine.base_model.config import ResourceUsageConfig
 from fast_llm.engine.distributed.config import DistributedConfig, PhaseType
 from fast_llm.engine.multi_stage.multi_stage import MultiStageModel
-from fast_llm.engine.schedule.config import BatchConfig, ScheduleConfig, StepType
+from fast_llm.engine.schedule.config import ScheduleConfig, StepType
 from fast_llm.utils import Assert
 
 logger = logging.getLogger(__name__)
 
 
-@dataclasses.dataclass()
+@dataclasses.dataclass(kw_only=True)
 class Step:
-    config: BatchConfig
     # The step type (forward or backward).
     type_: StepType
     # Index of the stage to be processed.
     stage: int
-    # Data index (combines micro-batch and micro-sequence)
-    data_index: int
+    # Micro-sequence index
+    micro_batch_split: int
+    # Micro-batch index
+    depth_first_micro_batch: int
+    breadth_first_micro_batch: int
+    # Combined index (micro-batch and micro-sequence)
+    index: int
     pipeline_rank: int = 0
     # Estimated relative duration of the step.
     duration: float = 1.0
@@ -72,28 +76,12 @@ class Step:
     meta_output: torch.Tensor | None = None
     meta_kwargs: dict | None = None
 
-    @property
-    def micro_batch_split(self) -> int:
-        return self.data_index % self.config.micro_batch_splits
-
-    @property
-    def micro_batch(self) -> int:
-        return self.data_index // self.config.micro_batch_splits
-
-    @property
-    def depth_first_micro_batch(self) -> int:
-        return self.micro_batch % self.config.depth_first_micro_batches
-
-    @property
-    def breadth_first_micro_batch(self) -> int:
-        return self.micro_batch // self.config.depth_first_micro_batches
-
     @property
     def map_index(self) -> tuple[StepType, int, int]:
         return (
             self.type_,
             self.stage,
-            self.data_index,
+            self.index,
         )
 
     def __repr__(self) -> str:
@@ -130,13 +118,12 @@ def __init__(
     ):
         super().__init__(config)
         self._multi_stage = multi_stage
-        self._batch_config = batch_meta.config.batch
         self._distributed_config = distributed_config
         self._num_stages = len(self._multi_stage.stages)
         self._phase = phase
         self._is_training = self._phase.is_training
 
-        if self._batch_config.num_inputs < self._distributed_config.pipeline_parallel:
+        if self._config.num_inputs < self._distributed_config.pipeline_parallel:
             warnings.warn("Not enough input to achieve true pipeline parallelism.")
 
         # Setup the activation metas.
@@ -167,8 +154,8 @@ def phase(self) -> PhaseType:
         return self._phase
 
     @property
-    def batch_config(self) -> BatchConfig:
-        return self._batch_config
+    def samples_per_batch(self) -> int:
+        return self._config.sequential_micro_batches * self._distributed_config.batch_data_parallel
 
     def iterate(self, pipeline_rank: int | None = None) -> typing.Iterator[Step]:
         return iter(self._steps if pipeline_rank is None else self._device_steps[pipeline_rank])
@@ -198,9 +185,9 @@ def _create_index(self) -> None:
         for i, step in enumerate(self._steps):
             Assert.in_range(step.stage, 0, self._num_stages)
             Assert.in_range(
-                step.data_index,
+                step.index,
                 0,
-                self._batch_config.sequential_micro_batches * self._batch_config.micro_batch_splits,
+                self._config.num_inputs,
             )
             Assert.incl(step.type_, (StepType.forward, StepType.backward))
             step.global_index = i
@@ -216,7 +203,7 @@ def _create_index(self) -> None:
         Assert.custom(all, self._device_steps)
         # Consistency checks
         step_map = self._step_map.copy()
-        for data_index in range(self._batch_config.num_inputs):
+        for data_index in range(self._config.num_inputs):
             for type_ in (StepType.forward, StepType.backward):
                 for stage in range(0 if type_ == StepType.forward else self._first_grad_stage, self._num_stages):
                     assert (
@@ -471,17 +458,6 @@ def _setup_metas(self) -> None:
                     step.next_step.meta_input = step.meta_output
                     step.next_step.meta_kwargs = step.meta_kwargs
 
-    def get_data_index(self, micro_batch: int, micro_batch_split: int) -> int:
-        return micro_batch * self._batch_config.micro_batch_splits + micro_batch_split
-
-    def get_data_index_split(
-        self, breadth_first_micro_batch: int, depth_first_micro_batch: int, micro_batch_split: int
-    ) -> int:
-        return self.get_data_index(
-            breadth_first_micro_batch * self._batch_config.depth_first_micro_batches + depth_first_micro_batch,
-            micro_batch_split,
-        )
-
     def _create_steps(self) -> tuple[list[Step], int]:
         steps = []
         if self._is_training:
@@ -492,31 +468,39 @@ def _create_steps(self) -> tuple[list[Step], int]:
                 first_grad_stage += 1
         else:
             first_grad_stage = self._num_stages
-        for depth_first_micro_batch in range(self._batch_config.depth_first_micro_batches):
+        for depth_first_micro_batch in range(self._config.depth_first_micro_batches):
             for stage in range(self._num_stages):
-                for breadth_first_micro_batch in range(self._batch_config.breadth_first_micro_batches):
-                    for micro_batch_split in range(self._batch_config.micro_batch_splits):
+                for breadth_first_micro_batch in range(self._config.breadth_first_micro_batches):
+                    for micro_batch_split in range(self._config.micro_batch_splits):
+                        micro_batch = (
+                            breadth_first_micro_batch * self._config.depth_first_micro_batches
+                            + depth_first_micro_batch
+                        )
                         steps.append(
                             Step(
-                                config=self._batch_config,
                                 stage=stage,
-                                data_index=self.get_data_index_split(
-                                    breadth_first_micro_batch, depth_first_micro_batch, micro_batch_split
-                                ),
+                                index=micro_batch * self._config.micro_batch_splits + micro_batch_split,
+                                depth_first_micro_batch=depth_first_micro_batch,
+                                breadth_first_micro_batch=breadth_first_micro_batch,
+                                micro_batch_split=micro_batch_split,
                                 type_=StepType.forward,
                             )
                         )
             if self._is_training:
                 for stage in reversed(range(first_grad_stage, self._num_stages)):
-                    for breadth_first_micro_batch in range(self._batch_config.breadth_first_micro_batches):
-                        for micro_batch_split in reversed(range(self._batch_config.micro_batch_splits)):
+                    for breadth_first_micro_batch in range(self._config.breadth_first_micro_batches):
+                        for micro_batch_split in reversed(range(self._config.micro_batch_splits)):
+                            micro_batch = (
+                                breadth_first_micro_batch * self._config.depth_first_micro_batches
+                                + depth_first_micro_batch
+                            )
                             steps.append(
                                 Step(
-                                    config=self._batch_config,
                                     stage=stage,
-                                    data_index=self.get_data_index_split(
-                                        breadth_first_micro_batch, depth_first_micro_batch, micro_batch_split
-                                    ),
+                                    index=micro_batch * self._config.micro_batch_splits + micro_batch_split,
+                                    depth_first_micro_batch=depth_first_micro_batch,
+                                    breadth_first_micro_batch=breadth_first_micro_batch,
+                                    micro_batch_split=micro_batch_split,
                                     type_=StepType.backward,
                                 )
                             )
diff --git a/fast_llm/engine/training/config.py b/fast_llm/engine/training/config.py
index 9a1dfcc04..0cf106b0a 100644
--- a/fast_llm/engine/training/config.py
+++ b/fast_llm/engine/training/config.py
@@ -22,62 +22,20 @@
     CheckpointStateSaveConfigBase,
     DistributedCheckpointFormat,
 )
+from fast_llm.engine.config_utils.interval import IntervalConfig
 from fast_llm.engine.config_utils.run import ExperimentConfig
 from fast_llm.engine.config_utils.runnable import RunnableConfig
-from fast_llm.engine.evaluation.config import EvaluatorConfig, EvaluatorConfigBase
+from fast_llm.engine.evaluation.config import EvaluatorConfig
 from fast_llm.engine.multi_stage.config import PretrainedFastLLMModelConfig
 from fast_llm.engine.optimizer.config import OptimizerConfig
-from fast_llm.engine.schedule.config import BatchConfig, ScheduleConfig
+from fast_llm.engine.schedule.config import ScheduleConfig
 from fast_llm.profile import ProfilingConfig
 from fast_llm.utils import Assert
 
 if typing.TYPE_CHECKING:
-    from fast_llm.engine.evaluation.evaluator import Evaluator
     from fast_llm.engine.training.trainer import Trainer
 
 
-@config_class()
-class IntervalConfig(Config):
-    # Intervals are a common pattern, so we standardize them with this base class.
-    interval: int | None = Field(
-        default=None,
-        desc="The number of training iterations between each interval. Setting to None will disable.",
-        hint=FieldHint.feature,
-        valid=skip_valid_if_none(check_field(Assert.gt, 0)),
-    )
-    offset: int = Field(
-        default=0,
-        desc="Offset for the first interval.",
-        hint=FieldHint.feature,
-        valid=check_field(Assert.geq, 0),
-    )
-
-    def _validate(self) -> None:
-        if self.interval:
-            with self._set_implicit_default(None):
-                self.offset %= self.interval
-        super()._validate()
-
-    def enabled(self, iteration: int | None = None) -> bool:
-        return self.interval and (iteration is None or (iteration - self.offset) % self.interval == 0)
-
-    def is_sub_interval(self, other: "IntervalConfig") -> bool:
-        if not self.enabled():
-            return True
-        elif not other.enabled():
-            return False
-        return self.interval % other.interval == 0 and (other.offset % other.interval) == (
-            self.offset % other.interval
-        )
-
-    def assert_sub_interval(self, other: "IntervalConfig") -> None:
-        assert self.is_sub_interval(other), f"{self} is not a sub-interval of {other}"
-
-    def get_count(self, iteration) -> int:
-        # Number of times this interval was enabled after a given iteration.
-        return (iteration - self.offset) // self.interval + 1 if self.enabled() else 0
-
-
 def _validate_script(value: str | list[str]) -> list[str]:
     if isinstance(value, str):
         value = shlex.split(value)
@@ -152,23 +110,6 @@ class WandbConfig(Config):
     entity_name: str | None = Field(default=None, desc="An entity (user) name for Wandb", hint=FieldHint.feature)
 
 
-@config_class()
-class TrainingEvaluatorConfig(EvaluatorConfigBase, IntervalConfig):
-    evaluator: EvaluatorConfig = Field(desc="Evaluator to run")
-
-    def get_run_count(self, training_iterations: int, extra_evaluations: int = 0):
-        # Number of completed evaluation runs
-        return (self.get_count(training_iterations) + extra_evaluations) if self.enabled() else 0
-
-    def get_evaluator(
-        self,
-        name: str,
-        batch_config: BatchConfig,
-        num_workers: int,
-    ) -> "Evaluator":
-        return self.evaluator.get_evaluator(name, batch_config, num_workers)
-
-
 @config_class()
 class TrainingCheckpointBaseConfig(IntervalConfig):
     _abstract = True
@@ -273,7 +214,7 @@ class ShutdownConfig(IntervalConfig):
 
 @config_class()
 class TrainingConfig(Config):
-    evaluators: dict[str, TrainingEvaluatorConfig] = Field(
+    evaluators: dict[str, EvaluatorConfig] = Field(
         default_factory=dict,
         desc="A dictionary of evaluation dataset names and their configurations for the validation phase.",
         hint=FieldHint.core,
@@ -321,10 +262,6 @@ class TrainerConfig(PretrainedFastLLMModelConfig, ExperimentConfig):
         desc="Configuration for the training phases and global properties.",
         hint=FieldHint.core,
     )
-    batch: BatchConfig = Field(
-        desc="Configuration for the training, validation and test batches.",
-        hint=FieldHint.core,
-    )
     schedule: ScheduleConfig = Field(desc="Configuration for the scheduling of each iteration.", hint=FieldHint.core)
     data: DataConfig = Field(
         desc="Configuration for the dataset and model-independent preprocessing.",
@@ -359,10 +296,6 @@ def _validate(self) -> None:
         for reference_model in self.reference_models.values():
             assert reference_model.model.distributed.reference_config is self.model.distributed
 
-    def _setup(self):
-        super()._setup()
-        self.batch.setup(self.model.distributed)
-
     @classmethod
     def get_trainer_class(cls) -> type["Trainer"]:
         raise NotImplementedError
@@ -382,6 +315,7 @@ def runnable():
         return runnable
 
     def _add_reference_distributed_to_pretrained(self, pretrained: PretrainedFastLLMModelConfig):
+        # TODO: ====== Convert to simple method? ======
         old_setup = pretrained._setup
 
         def new_setup():
diff --git a/fast_llm/engine/training/trainer.py b/fast_llm/engine/training/trainer.py
index b0f48b408..812f18ede 100644
--- a/fast_llm/engine/training/trainer.py
+++ b/fast_llm/engine/training/trainer.py
@@ -38,8 +38,8 @@ class Trainer[ConfigType: TrainerConfig](Configurable[ConfigType], abc.ABC):
     _run: Run
     _wandb: Wandb
     _optimizer: Optimizer | None
-
     _completed_steps: int
+    _schedule: Schedule
 
     def __init__(self, config: TrainerConfig):
         super().__init__(config)
@@ -67,21 +67,8 @@ def __init__(self, config: TrainerConfig):
         )
         self._loss_definitions = self._multi_stage.base_model.get_loss_definitions()
 
-        if self._do_train:
-            self._training_samples = self._config.batch.batch_size * self._config.training.train_iters
-            self._preprocessing_config = self._multi_stage.get_preprocessing_config(
-                self._config.batch, PhaseType.training
-            )
-            self._schedule = Schedule(
-                config=self._config.schedule,
-                multi_stage=self._multi_stage,
-                batch_meta=self._preprocessing_config.get_batch_meta(),
-                distributed_config=self._config.model.distributed,
-                phase=PhaseType.training,
-            )
-
         self._evaluators = {
-            name: config.get_evaluator(name, self._config.batch, self._config.training.num_workers)
+            name: config.get_evaluator(name, self._config.training.num_workers)
             for name, config in self._config.training.evaluators.items()
             if config.enabled()
         }
@@ -121,13 +108,24 @@ def setup(self, distributed: Distributed, run: Run) -> None:
         log_main_rank("Preparing datasets...")
 
         self._data.setup(None if run.experiment_directory is None else run.experiment_directory / "dataset_cache")
-        self._data.sample_dataset(
-            PhaseType.training,
-            self._preprocessing_config,
-            self._training_samples,
-        )
+        if self._do_train:
+            preprocessing_config = self._multi_stage.get_preprocessing_config(
+                PhaseType.training, self._config.schedule.micro_batch_splits
+            )
+            self._schedule = Schedule(
+                config=self._config.schedule,
+                multi_stage=self._multi_stage,
+                batch_meta=preprocessing_config.get_batch_meta(self._data.config.micro_batch_size),
+                distributed_config=self._config.model.distributed,
+                phase=PhaseType.training,
+            )
+            self._data.sample_dataset(
+                PhaseType.training,
+                preprocessing_config,
+                self._config.training.train_iters * self._schedule.samples_per_batch,
+            )
 
-        for evaluator in self._evaluators.values():
+        for name, evaluator in self._evaluators.items():
             run_count = self._config.training.evaluators[name].get_count(self._config.training.train_iters)
             # There may be an extra evaluation after the last training step.
             if not self._config.training.evaluators[name].enabled(self._config.training.train_iters):
@@ -148,20 +146,13 @@ def _get_completion_metrics(self) -> dict[str, int | float]:
         return {
             "total_steps": self._config.training.train_iters,
             "completed_steps": self._completed_steps,
-            "consumed_samples": self._consumed_samples,
-            "consumed_tokens": self._consumed_tokens,
+            "consumed_tokens": self._completed_steps * self._batch_size,
             "percent_done": 100 * self._completed_steps / self._config.training.train_iters,
         }
 
     @property
-    def _consumed_samples(self) -> int:
-        assert self._is_setup
-        return self._completed_steps * self._config.batch.batch_size
-
-    @property
-    def _consumed_tokens(self) -> int:
-        assert self._is_setup
-        return self._consumed_samples * self._config.batch.sequence_length
+    def _batch_size(self) -> int:
+        return self._schedule.samples_per_batch * self._data.config.micro_batch_size
 
     def run(self) -> None:
         assert self._is_setup
@@ -254,7 +245,7 @@ def _train(self) -> tuple[bool, dict[PhaseType, dict[str, typing.Any]]]:
                         )
                         metrics_key = PhaseType.training.value
                         metrics[metrics_key] = {
-                            "batch_size": self._config.batch.batch_size,
+                            "batch_size": self._batch_size,
                             **{
                                 name: (value / advanced_iters if advanced_iters > 0 else float("nan"))
                                 for name, value in total_losses.items()
@@ -268,9 +259,7 @@ def _train(self) -> tuple[bool, dict[PhaseType, dict[str, typing.Any]]]:
                             "nan_iters": nan_iters,
                             **self._schedule.get_compute_metrics(time_per_iteration),
                             "tokens_per_sec_per_gpu": (
-                                (self._config.batch.sequence_length * self._config.batch.batch_size)
-                                / self._config.model.distributed.world_size
-                                / time_per_iteration
+                                self._batch_size / self._config.model.distributed.world_size / time_per_iteration
                             ),
                             "run": self._run.index,
                             **train_metrics,
@@ -322,9 +311,8 @@ def _get_data_iterator(
         self, dataset_name, completed_steps: int = 0, prefetch_factor: int | None = None
     ) -> typing.Iterator[typing.Any]:
         return self._data.get_iterator(
-            self._config.batch,
             dataset_name,
-            consumed_samples=completed_steps * self._config.batch.batch_size,
+            consumed_samples=completed_steps * self._schedule.samples_per_batch,
             num_workers=self._config.training.num_workers,
             prefetch_factor=prefetch_factor,
             timeout=self._config.training.timeout,
@@ -457,9 +445,10 @@ def _get_last_checkpoint(self) -> int | None:
 
     def _run_evaluators(self, done: bool, metrics: dict[str, typing.Any] | None = None) -> None:
         for name, evaluator in self._evaluators.items():
-            if self._config.training.evaluators[name].enabled(None if done else self._completed_steps):
+            config = self._config.training.evaluators[name]
+            if config.enabled(None if done else self._completed_steps):
                 evaluator.run(
-                    run_index=self._config.get_run_count(self._completed_steps - 1),
+                    run_index=config.get_run_count(self._completed_steps - 1),
                     metrics=(evaluator_metrics := self._get_completion_metrics()),
                 )
                 if metrics is not None:
diff --git a/fast_llm/layers/attention/attention.py b/fast_llm/layers/attention/attention.py
index 389abfbb3..1bda984ca 100644
--- a/fast_llm/layers/attention/attention.py
+++ b/fast_llm/layers/attention/attention.py
@@ -311,7 +311,7 @@ def _forward(
             # Manually add the gradients from later micro-sequences.
             key_value = AttachGrad.apply(key_value, present)
 
-        key_value = key_value[:, : kwargs[AttentionKwargs.sequence_k_dim].size]
+        key_value = key_value[: kwargs[AttentionKwargs.sequence_k_dim].size]
         key, value = key_value.split(self._local_head_groups * self._config.head_size, dim=-1)
 
         query = query.unflatten(-1, (self._local_heads, self._config.head_size))
@@ -442,9 +442,10 @@ def _preprocess_for_backup_attention(self, kwargs: dict[str, typing.Any]) -> Non
         else:
             attention_mask = None
 
-        document_mask = (kwargs[AttentionKwargs.seq_idx][None, :] == kwargs[AttentionKwargs.seq_idx][:, None])[
-            None, sequence_k - sequence_q : sequence_k, None, :sequence_k
-        ]
+        document_mask = (
+            kwargs[AttentionKwargs.document_index_k][None, None, None, :]
+            == kwargs[AttentionKwargs.document_index_q][None, :, None, None]
+        )
         if attention_mask is None:
             attention_mask = document_mask
         else:
diff --git a/fast_llm/layers/attention/config.py b/fast_llm/layers/attention/config.py
index a2221eff7..cf287ba36 100644
--- a/fast_llm/layers/attention/config.py
+++ b/fast_llm/layers/attention/config.py
@@ -20,7 +20,8 @@ class MixerKwargs(BlockKwargs):
     cu_seqlens_k = "cu_seqlens_k"
     max_seqlen_q = "max_seqlen_q"
     max_seqlen_k = "max_seqlen_k"
-    seq_idx = "seq_idx"
+    document_index_q = "document_index_q"
+    document_index_k = "document_index_k"
     position_ids = "position_ids"
 
 
diff --git a/fast_llm/layers/attention/rotary/rotary.py b/fast_llm/layers/attention/rotary/rotary.py
index 9e28b66c6..d4a698754 100644
--- a/fast_llm/layers/attention/rotary/rotary.py
+++ b/fast_llm/layers/attention/rotary/rotary.py
@@ -93,9 +93,9 @@ def preprocess(self, kwargs: dict[str, typing.Any]) -> None:
         self._create_tensors(kwargs[AttentionKwargs.sequence_length], kwargs[AttentionKwargs.device])
         sequence_k = kwargs[AttentionKwargs.sequence_k_dim].size
         kwargs[AttentionKwargs.rotary_freq_q] = self._rotary_embedding_frequencies[
-            :, sequence_k - kwargs[AttentionKwargs.token_dim].size : sequence_k
+            sequence_k - kwargs[AttentionKwargs.token_dim].size : sequence_k
         ]
-        kwargs[AttentionKwargs.rotary_freq_k] = self._rotary_embedding_frequencies[:, :sequence_k]
+        kwargs[AttentionKwargs.rotary_freq_k] = self._rotary_embedding_frequencies[:sequence_k]
 
     def forward(
         self, query: torch.Tensor, key: torch.Tensor, kwargs: dict[str, typing.Any]
diff --git a/fast_llm/layers/ssm/gdn.py b/fast_llm/layers/ssm/gdn.py
index 5f6374820..8010d517c 100644
--- a/fast_llm/layers/ssm/gdn.py
+++ b/fast_llm/layers/ssm/gdn.py
@@ -320,7 +320,7 @@ def _forward(
         mixed_qkv = rearrange(mixed_qkv, "b s ... -> (b s) ...").unsqueeze(0)  # 1 s d
         mixed_qkv = rearrange(mixed_qkv, "b t d -> b d t")  # mixed_qkv.transpose(1, 2)
         # conv func. gets sequence dim as last dim, see https://github.com/Dao-AILab/causal-conv1d/blob/22a4577d8ace9d5703daea91a7fb56695492152b/causal_conv1d/causal_conv1d_interface.py#L110
-        mixed_qkv = self.convolution(mixed_qkv, seq_idx=kwargs[MixerKwargs.seq_idx].unsqueeze(0))
+        mixed_qkv = self.convolution(mixed_qkv, seq_idx=kwargs[MixerKwargs.document_index_q].unsqueeze(0))
         mixed_qkv = rearrange(mixed_qkv, "b d t -> b t d")  # mixed_qkv.transpose(1, 2)
         query, key, value = torch.split(
             mixed_qkv,
diff --git a/fast_llm/layers/ssm/kda.py b/fast_llm/layers/ssm/kda.py
index 1fe56470e..c6dce1ef1 100644
--- a/fast_llm/layers/ssm/kda.py
+++ b/fast_llm/layers/ssm/kda.py
@@ -243,7 +243,7 @@ def _forward(
 
         # because we use cu_seqlens, chunk_kda requires batch size to be 1 (flatten, see https://github.com/fla-org/flash-linear-attention/blob/71260ecd573cfaaa94305b726465143199e99734/fla/ops/kda/chunk.py#L303)
         # similarly to ShortConvolution from fla we already operate on flattened batches here (https://github.com/fla-org/flash-linear-attention/blob/71260ecd573cfaaa94305b726465143199e99734/fla/modules/convolution.py#L914)
-        seq_idx = kwargs[MixerKwargs.seq_idx].unsqueeze(0)
+        seq_idx = kwargs[MixerKwargs.document_index_q].unsqueeze(0)
         q = self._apply_conv(q, self.q_conv, seq_idx)
         k = self._apply_conv(k, self.k_conv, seq_idx)
         v = self._apply_conv(v, self.v_conv, seq_idx)
diff --git a/fast_llm/layers/ssm/mamba.py b/fast_llm/layers/ssm/mamba.py
index f1df8059f..d12b3ffa2 100644
--- a/fast_llm/layers/ssm/mamba.py
+++ b/fast_llm/layers/ssm/mamba.py
@@ -184,7 +184,9 @@ def _forward(
         # x: (batch, sequence, local_head_groups * state) -> (batch, local_heads * state, sequence)
         x = x.transpose(1, 2)
         convolution_kwargs = (
-            {} if self._config.cross_document_attention else {"seq_idx": kwargs[MixerKwargs.seq_idx].unsqueeze(0)}
+            {}
+            if self._config.cross_document_attention
+            else {"seq_idx": kwargs[MixerKwargs.document_index_q].unsqueeze(0)}
         )
         if self._config.repeat_kv_before_conv:
             x = self.convolution(
diff --git a/fast_llm/models/gpt/config.py b/fast_llm/models/gpt/config.py
index 238c7cfc0..16222b3c5 100644
--- a/fast_llm/models/gpt/config.py
+++ b/fast_llm/models/gpt/config.py
@@ -1,14 +1,12 @@
-import functools
 import logging
 import typing
 
-from fast_llm.config import Field, FieldHint, FieldUpdate, check_field, config_class
+from fast_llm.config import Field, FieldHint, FieldUpdate, config_class
 from fast_llm.data.data.gpt.config import GPTDataConfig
 from fast_llm.engine.base_model.config import BaseModelConfig
 from fast_llm.engine.checkpoint.config import CheckpointFormat
 from fast_llm.engine.config_utils.runnable import RunnableConfig
 from fast_llm.engine.multi_stage.config import FastLLMModelConfig, PretrainedFastLLMModelConfig
-from fast_llm.engine.schedule.config import BatchConfig
 from fast_llm.engine.training.config import TrainerConfig
 from fast_llm.layers.common.peft.config import PeftConfig
 from fast_llm.layers.language_model.config import LanguageModelConfig
@@ -25,7 +23,7 @@
     Qwen2CheckpointFormat,
 )
 from fast_llm.models.gpt.megatron import set_megatron_distributed_seeds
-from fast_llm.utils import Assert, div
+from fast_llm.utils import Assert
 
 if typing.TYPE_CHECKING:
     from fast_llm.models.gpt.huggingface import HuggingfaceGPTModelForCausalLM
@@ -35,42 +33,6 @@
 logger = logging.getLogger(__name__)
 
 
-@config_class()
-class GPTBatchConfig(BatchConfig):
-    sequence_length: int = Field(
-        default=2048,
-        desc="Number of tokens in a sample.",
-        hint=FieldHint.core,
-        valid=check_field(Assert.gt, 0),
-    )
-    micro_sequence_length: int = Field(
-        default=None,
-        desc="Number of tokens in a micro-sequence (must divide the sequence length).",
-        hint=FieldHint.performance,
-        valid=check_field(Assert.gt, 0),
-    )
-    truncate_documents: bool | None = Field(
-        default=True,
-        desc=(
-            "If enabled, documents may be truncated while being packed to fit the sequence length."
-            "Otherwise, sequences will be padded such that every document lies entirely within a sample"
-            " (and documents exceeding the sequence length will be skipped altogether)."
-        ),
-        hint=FieldHint.feature,
-    )
-
-    def _validate(self) -> None:
-        if self.micro_sequence_length is None:
-            with self._set_implicit_default():
-                self.micro_sequence_length = self.sequence_length
-        super()._validate()
-
-    @functools.cached_property
-    def micro_batch_splits(self) -> int:
-        assert self._validated
-        return div(self.sequence_length, self.micro_sequence_length)
-
-
 @config_class()
 class GPTBaseModelConfig(LanguageModelConfig, BaseModelConfig):
     _abstract = False
@@ -138,20 +100,16 @@ class PretrainedGPTModelConfig(PretrainedFastLLMModelConfig):
 @config_class(dynamic_type={RunnableConfig: "train_gpt", TrainerConfig: "gpt"})
 class GPTTrainerConfig(PretrainedGPTModelConfig, TrainerConfig):
     data: GPTDataConfig = FieldUpdate()
-    batch: GPTBatchConfig = FieldUpdate()
     # TODO: Use dynamic model type?
     reference_models: dict[str, PretrainedGPTModelConfig] = FieldUpdate()
 
     def _validate(self) -> None:
-        if self.batch.sequence_length is None:
-            # TODO: Drop this.
-            self.batch.sequence_length = self.model.base_model.embeddings.num_position_embeddings
         if self.model.base_model.use_megatron_initialization:
             set_megatron_distributed_seeds(self.model.distributed)
         super()._validate()
 
         if self.model.base_model.embeddings.position_embeddings.enabled:
-            Assert.geq(self.model.base_model.embeddings.num_position_embeddings, self.batch.sequence_length)
+            Assert.geq(self.model.base_model.embeddings.num_position_embeddings, self.data.maximum_document_length)
 
         # TODO: Avoid digging inside the model.
         Assert.eq(self.reference_models.keys(), self.model.base_model.get_reference_models())
diff --git a/fast_llm/models/gpt/huggingface.py b/fast_llm/models/gpt/huggingface.py
index 2bba685b9..79f6d6904 100644
--- a/fast_llm/models/gpt/huggingface.py
+++ b/fast_llm/models/gpt/huggingface.py
@@ -6,11 +6,13 @@
 import torch
 import transformers.modeling_outputs
 
+from fast_llm.data.batch.language_model import LanguageModelPreprocessedBatch
+from fast_llm.data.document.language_model import LanguageModelBatch
+from fast_llm.data.document.token import TokenBatch
 from fast_llm.engine.distributed.config import PhaseType
 from fast_llm.engine.inference.config import HuggingfaceModelConfig
 from fast_llm.engine.inference.huggingface import HuggingfacePreTrainedModel
 from fast_llm.layers.attention.config import AttentionKwargs
-from fast_llm.layers.block.config import BlockKwargs
 from fast_llm.models.gpt.config import GPTModelConfig
 from fast_llm.models.gpt.model import GPTBaseModel, GPTInferenceRunner
 
@@ -42,15 +44,35 @@ def inner_forward(
         output_hidden_states: bool | None = None,
         return_dict: bool | None = None,
     ) -> tuple | transformers.modeling_outputs.CausalLMOutputWithPast:
-        return self._inner_forward(
-            self._get_batch(input_ids, attention_mask, position_ids),
-            past_key_values,
-            inputs_embeds,
-            labels,
-            use_cache,
-            output_attentions,
-            output_hidden_states,
-            return_dict,
+        output_attentions = output_attentions if output_attentions is not None else self.config.output_attentions
+        output_hidden_states = (
+            output_hidden_states if output_hidden_states is not None else self.config.output_hidden_states
+        )
+        return_dict = return_dict if return_dict is not None else self.config.use_return_dict
+        use_cache = use_cache if use_cache is not None else self.config.use_cache
+
+        if output_attentions:
+            raise NotImplementedError()
+        if inputs_embeds is not None:
+            raise NotImplementedError()
+        if labels is not None:
+            raise NotImplementedError()
+
+        output = self._inner_forward(
+            self._get_batch(
+                input_ids,
+                attention_mask,
+                position_ids,
+                past_key_values,
+                use_cache,
+                output_hidden_states,
+            ),
+            input_ids.shape,
+        )
+        return (
+            output
+            if return_dict
+            else tuple(x for x in (output.logits, output.hidden_states, output.past_key_values) if x is not None)
         )
 
     def _get_batch(
@@ -58,55 +80,34 @@ def _get_batch(
         input_ids: torch.Tensor | None = None,
         attention_mask: torch.Tensor | None = None,
         position_ids: torch.Tensor | None = None,
-    ):
+        past_key_values=None,
+        use_cache: bool | None = None,
+        output_hidden_states: bool | None = None,
+    ) -> LanguageModelPreprocessedBatch:
         # NOTE: We are ignoring position_ids as we reconstruct them from attention_mask via sequence_lengths.
-        if attention_mask is not None:
-            # First non zero indexes or zero index if the row is all zeros (invalid row)
+        if attention_mask is None:
+            sequence_lengths = [input_ids.numel()]
+        else:
+            # First non-zero indexes or zero index if the row is all zeros (invalid row)
             first_non_zero_indexes = attention_mask.argmax(dim=1)
 
             # Check if the sequence is left-padded and if the remaining ones are continuous 1-ns
             assert (attention_mask.sum(axis=1) == (attention_mask.shape[1] - first_non_zero_indexes)).all()
 
-            sequence_lenghts = [
-                torch.tensor(
+            sequence_lengths = [
+                el_
+                for el in first_non_zero_indexes.tolist()
+                for el_ in torch.tensor(
                     [attention_mask.shape[1]] if el == 0 else [el, attention_mask.shape[1] - el], dtype=torch.int64
                 )
-                for el in first_non_zero_indexes.tolist()
             ]
-        else:
-            sequence_lenghts = None
-        return LanguageModelBatch(TokenBatch(input_ids, lengths=sequence_lenghts))
-
-    def _inner_forward(
-        self,
-        batch: LanguageModelBatch,
-        past_key_values=None,
-        inputs_embeds: torch.FloatTensor | None = None,
-        labels: torch.LongTensor | None = None,
-        use_cache: bool | None = None,
-        output_attentions: bool | None = None,
-        output_hidden_states: list[str | re.Pattern] | bool | None = None,
-        return_dict: bool | None = None,
-    ) -> tuple | transformers.modeling_outputs.CausalLMOutputWithPast:
-        # TODO: Most of this is generalizable.
-        output_attentions = output_attentions if output_attentions is not None else self.config.output_attentions
-        output_hidden_states = (
-            output_hidden_states if output_hidden_states is not None else self.config.output_hidden_states
+        batch = LanguageModelPreprocessedBatch.from_batch(
+            LanguageModelBatch(
+                tokens=TokenBatch(tokens=input_ids.flatten(), lengths=sequence_lengths), num_tokens=input_ids.numel()
+            ),
+            self._fast_llm_model.get_preprocessing_config(PhaseType.inference),
+            self._fast_llm_model.distributed.device,
         )
-        return_dict = return_dict if return_dict is not None else self.config.use_return_dict
-        use_cache = use_cache if use_cache is not None else self.config.use_cache
-
-        if output_attentions:
-            raise NotImplementedError()
-        if inputs_embeds is not None:
-            raise NotImplementedError()
-        if labels is not None:
-            raise NotImplementedError()
-
-        # Iteration serves as a random seed, using random module because it's not seeded by Fast LLM
-        iteration = random.randint(0, 2**32)
-
-        ((input_meta, kwargs_meta),) = self.fast_llm_base_model.preprocess_meta(batch, phase=PhaseType.inference)
 
         if output_hidden_states:
             if isinstance(output_hidden_states, bool):
@@ -118,56 +119,43 @@ def _inner_forward(
 
             # This needs to be set before preprocessing so it propagates to layers with namespace.
             # kwargs is shallow-copied so changes will propagate back to the main namespace.
-            kwargs_meta[BlockKwargs.output_hidden_states] = [re.compile(pattern) for pattern in output_hidden_states]
-
-        ((input_, kwargs),) = self.fast_llm_base_model.preprocess_batch(
-            batch,
-            [(input_meta, kwargs_meta)],
-            phase=PhaseType.inference,
-            iteration=iteration,
-            device=self.fast_llm_model.distributed.device,
-        )
+            batch.micro_batches[0].output_hidden_states.update(re.compile(pattern) for pattern in output_hidden_states)
 
         if past_key_values is not None:
             # The transformers will use the past keys and values to this list.
-            kwargs[AttentionKwargs.past_key_values] = past_key_values
+            batch.micro_batches[0].pasts = past_key_values
             # TODO: preprocess needs to know about the past.
             raise NotImplementedError()
         if use_cache:
             # The transformers will save the present keys and values to this list.
-            kwargs[AttentionKwargs.presents] = []
+            batch.micro_batches[0].presents = []
 
-        self._inference_runner.forward(input_, kwargs, iteration=iteration)
+    def _inner_forward(
+        self, batch: LanguageModelPreprocessedBatch, input_shape: tuple[int]
+    ) -> transformers.modeling_outputs.CausalLMOutputWithPast:
+        # Iteration serves as a random seed, using random module because it's not seeded by Fast LLM
+        iteration = random.randint(0, 2**32)
 
-        # TODO: Make a proper way of returning the model output.
-        # TODO: Handle MTP.
-        logits_meta, logits = kwargs[AttentionKwargs.hidden_states]["head.logits"]
-        logits, _ = logits_meta.local_to_global(logits)
-        logits = logits.unflatten(
-            0, (kwargs[AttentionKwargs.batch_dim].global_size, kwargs[AttentionKwargs.sequence_q_dim].global_size)
+        ((input_, kwargs),) = self.fast_llm_base_model.preprocess_batch(
+            batch,
+            phase=PhaseType.inference,
+            iteration=iteration,
+            device=self._fast_llm_model.distributed.device,
         )
 
-        if output_hidden_states:
-            hidden_states = {
-                key: tensor if meta is None else meta.local_to_global(tensor)[0]
-                for key, (meta, tensor) in kwargs[AttentionKwargs.hidden_states].items()
-            }
-        else:
-            hidden_states = None
+        self._inference_runner.forward(input_, kwargs, iteration=iteration)
 
-        if not return_dict:
-            # TODO: Then implementing cache, check hidden state goes before past in the tuple
-            if output_hidden_states:
-                outputs = (logits, hidden_states)
-            else:
-                outputs = (logits,)
+        # TODO: Make a proper way of returning the model output.
+        hidden_states = {
+            name: meta.local_to_global(tensor)[0].unflatten(0, input_shape)
+            for name, (meta, tensor) in kwargs[AttentionKwargs.hidden_states].items()
+        }
 
-            if use_cache:
-                outputs += (kwargs[AttentionKwargs.presents],)
-            return outputs
+        # TODO: Handle MTP.
+        logits = hidden_states.pop("head.logits")
 
         return transformers.modeling_outputs.CausalLMOutputWithPast(
             logits=logits,
-            hidden_states=hidden_states,
+            hidden_states=hidden_states or None,
             past_key_values=kwargs[AttentionKwargs.presents],
         )
diff --git a/fast_llm/models/gpt/model.py b/fast_llm/models/gpt/model.py
index 58a0fa56d..cb8b535a0 100644
--- a/fast_llm/models/gpt/model.py
+++ b/fast_llm/models/gpt/model.py
@@ -11,11 +11,10 @@
 from fast_llm.engine.distributed.config import DistributedConfig, PhaseType
 from fast_llm.engine.inference.runner import InferenceRunner
 from fast_llm.engine.multi_stage.fast_llm_model import FastLLMModel
-from fast_llm.layers.attention.config import AttentionKwargs
 from fast_llm.layers.block.config import BlockKwargs
 from fast_llm.layers.language_model.config import LanguageModelKwargs
 from fast_llm.layers.language_model.language_model import LanguageModel
-from fast_llm.models.gpt.config import GPTBaseModelConfig, GPTBatchConfig, GPTModelConfig
+from fast_llm.models.gpt.config import GPTBaseModelConfig, GPTModelConfig
 from fast_llm.models.gpt.megatron import get_init_megatron
 from fast_llm.tensor import ParameterMeta
 from fast_llm.utils import Assert
@@ -61,35 +60,11 @@ def preprocess_batch(
             )
 
         preprocessed = []
-        presents = None
         for micro_sequence_index, micro_sequence in enumerate(batch.micro_batches):
-            pasts = presents
-            presents = None if micro_sequence_index == len(batch) - 1 else []
             if device is not None:
                 micro_sequence.to_device_(device)
-            kwargs: dict[str, typing.Any] = {
-                LanguageModelKwargs.phase: phase,
-                AttentionKwargs.past_key_values: pasts,
-                AttentionKwargs.presents: presents,
-                LanguageModelKwargs.iteration: iteration,
-                LanguageModelKwargs.device: device,
-                LanguageModelKwargs.output_hidden_states: [],
-                LanguageModelKwargs.hidden_states: {},
-                LanguageModelKwargs.token_dim: micro_sequence.token_dim,
-                LanguageModelKwargs.hidden_token_dim: micro_sequence.hidden_token_dim,
-                LanguageModelKwargs.sequence_k_dim: micro_sequence.sequence_k_dim,
-                LanguageModelKwargs.num_tokens: micro_sequence.num_tokens,
-                LanguageModelKwargs.sequence_length: micro_sequence.sequence_length,
-                LanguageModelKwargs.sequence_lengths: micro_sequence.document_lengths,
-                LanguageModelKwargs.labels: micro_sequence.labels,
-                LanguageModelKwargs.loss_mask: micro_sequence.prediction_masks,
-                AttentionKwargs.cu_seqlens_q: micro_sequence.cumulative_lengths_q,
-                AttentionKwargs.cu_seqlens_k: micro_sequence.cumulative_lengths_k,
-                AttentionKwargs.max_seqlen_q: micro_sequence.max_length_q,
-                AttentionKwargs.max_seqlen_k: micro_sequence.max_length_k,
-                AttentionKwargs.seq_idx: micro_sequence.document_index,
-                LanguageModelKwargs.position_ids: micro_sequence.position_index,
-            }
+            kwargs = micro_sequence.to_kwargs()
+            kwargs[LanguageModelKwargs.iteration] = iteration
             if extra_kwargs is not None:
                 Assert.empty(kwargs.keys() & extra_kwargs.keys())
                 kwargs.update(extra_kwargs)
@@ -139,15 +114,15 @@ def _head_reference_models(self) -> set[str]:
 
 class GPTModel[ConfigType: GPTModelConfig](FastLLMModel[ConfigType]):
     def get_preprocessing_config(
-        self, batch: GPTBatchConfig, phase: PhaseType
+        self, phase: PhaseType, micro_batch_splits: int = 1
     ) -> LanguageModelBatchPreprocessingConfig:
         return LanguageModelBatchPreprocessingConfig(
             phase=phase,
-            batch=batch,
+            micro_batch_splits=micro_batch_splits,
+            distributed=self._config.distributed,
             **self._base_model.get_preprocessing_config(phase),
         )
 
 
 class GPTInferenceRunner(InferenceRunner):
     model_class: typing.ClassVar[type[GPTModel]] = GPTModel
-    batch_config_class: typing.ClassVar[type[GPTBatchConfig]] = GPTBatchConfig
diff --git a/fast_llm/models/multimodal/config.py b/fast_llm/models/multimodal/config.py
index a62de3c03..becdcacbb 100644
--- a/fast_llm/models/multimodal/config.py
+++ b/fast_llm/models/multimodal/config.py
@@ -9,7 +9,6 @@
 from fast_llm.layers.vision.config import VisionMultiModalModelConfig
 from fast_llm.models.gpt.config import (
     GPTBaseModelConfig,
-    GPTBatchConfig,
     GPTModelConfig,
     GPTTrainerConfig,
     PretrainedGPTModelConfig,
@@ -28,11 +27,6 @@
 logger = logging.getLogger(__name__)
 
 
-@config_class()
-class MultiModalBatchConfig(GPTBatchConfig):
-    pass
-
-
 @config_class()
 class MultiModalBaseModelConfig(VisionMultiModalModelConfig, GPTBaseModelConfig):
     @property
@@ -80,7 +74,6 @@ class PretrainedMultiModalModelConfig(PretrainedGPTModelConfig):
 
 @config_class(dynamic_type={RunnableConfig: "train_multimodal", TrainerConfig: "multimodal"})
 class MultiModalTrainerConfig(PretrainedMultiModalModelConfig, GPTTrainerConfig):
-    batch: MultiModalBatchConfig = FieldUpdate()
     # TODO: Use dynamic model type?
     reference_models: dict[str, PretrainedMultiModalModelConfig] = FieldUpdate()
 
diff --git a/fast_llm/models/multimodal/model.py b/fast_llm/models/multimodal/model.py
index 2742032dd..bf3e4dedd 100644
--- a/fast_llm/models/multimodal/model.py
+++ b/fast_llm/models/multimodal/model.py
@@ -11,9 +11,8 @@
 from fast_llm.layers.language_model.config import LanguageModelKwargs
 from fast_llm.layers.vision.config import VisionKwargs
 from fast_llm.layers.vision.vision_encoder import VisionMultiModalModel
-from fast_llm.models.gpt.config import GPTBatchConfig
 from fast_llm.models.gpt.model import GPTBaseModel, GPTModel
-from fast_llm.models.multimodal.config import MultiModalBaseModelConfig, MultiModalBatchConfig, MultiModalModelConfig
+from fast_llm.models.multimodal.config import MultiModalBaseModelConfig, MultiModalModelConfig
 from fast_llm.tensor import TensorMeta
 
 logger = logging.getLogger(__name__)
@@ -86,7 +85,7 @@ class MultiModalBaseModel[ConfigType: MultiModalBaseModelConfig](
     _config: ConfigType
 
     def preprocess_meta(
-        self, batch_meta: GPTBatchConfig | torch.Tensor, phase: PhaseType
+        self, batch_meta: BatchConfig | torch.Tensor, phase: PhaseType
     ) -> list[tuple[TensorMeta, dict]]:
         preprocessed_meta = []
         for tokens, kwargs in super().preprocess_meta(batch_meta, phase):
@@ -222,4 +221,3 @@ class MultiModalModel[ConfigType: MultiModalModelConfig](GPTModel[ConfigType]):
 
 class MultiModalInferenceRunner(InferenceRunner):
     model_class: typing.ClassVar[type[MultiModalModel]] = MultiModalModel
-    batch_config_class: typing.ClassVar[type[MultiModalBatchConfig]] = MultiModalBatchConfig
diff --git a/tests/conftest.py b/tests/conftest.py
index 23fc58b16..1d3264103 100644
--- a/tests/conftest.py
+++ b/tests/conftest.py
@@ -8,6 +8,7 @@
 import pytest
 import xdist.scheduler
 
+from fast_llm.engine.config_utils.logging import configure_logging
 from fast_llm.functional.config import TritonConfig
 from fast_llm.utils import get_and_reset_memory_usage_mib
 from tests.utils.depends import DependencyManager
@@ -136,6 +137,8 @@ def pytest_configure(config):
     # Skip slow autotune for tests. The default config has the highest block size, so this shouldn't hide any bug.
     os.environ["FAST_LLM_SKIP_TRITON_AUTOTUNE"] = "TRUE"
 
+    configure_logging()
+
 
 @pytest.hookimpl(trylast=True)
 def pytest_collection_modifyitems(config, items: list[pytest.Function]):
diff --git a/tests/data/common.py b/tests/data/common.py
index fd5ae0692..295ff0f28 100644
--- a/tests/data/common.py
+++ b/tests/data/common.py
@@ -4,20 +4,17 @@
 import numpy as np
 import torch
 
-from fast_llm.config import NoAutoValidate
 from fast_llm.data.batch.config import LanguageModelBatchPreprocessingConfig
 from fast_llm.data.data.gpt.config import GPTDataConfig
 from fast_llm.data.data.gpt.data import GPTData
 from fast_llm.data.dataset.abstract import SampledDataset
-from fast_llm.data.dataset.config import SampledDatasetConfig, SamplingConfig, SamplingParameters, ShufflingType
-from fast_llm.data.dataset.gpt.config import GPTSamplingData
+from fast_llm.data.dataset.config import SampledDatasetConfig, ShufflingType
+from fast_llm.data.dataset.gpt.config import GPTSamplingConfig
 from fast_llm.data.dataset.indexed import IndexedDataset
 from fast_llm.data.dataset.sampled import SampledIndexedDataset
 from fast_llm.data.document.language_model import LanguageModelBatch
 from fast_llm.data.preprocessing.language_model import LanguageModelPreprocessingConfig
 from fast_llm.engine.distributed.config import DistributedConfig, PhaseType
-from fast_llm.engine.distributed.distributed import Distributed
-from fast_llm.models.gpt.config import GPTBatchConfig
 from fast_llm.utils import Assert, div
 
 
@@ -32,26 +29,23 @@ def get_sampling_data(
     shuffle: ShufflingType = ShufflingType.epoch,
     truncate_documents=True,
     preprocessing: LanguageModelPreprocessingConfig | None = None,
-) -> GPTSamplingData:
+) -> tuple[GPTSamplingConfig, int, int]:
     # Config with convenient defaults.
-    distributed = Distributed(DistributedConfig(use_cuda=torch.cuda.is_available()))
     if preprocessing is None:
         preprocessing = LanguageModelPreprocessingConfig()
-    return GPTSamplingData(
-        config=SamplingConfig(
-            seed=seed,
+    return (
+        GPTSamplingConfig(
             gpu=gpu,
             shuffle=shuffle,
-        ),
-        parameters=SamplingParameters(
-            num_samples=num_samples,
-            sequence_length=sequence_length,
+            micro_batch_size=sequence_length,
             truncate_documents=truncate_documents,
+            preprocessing=preprocessing,
+            cache_directory=cache_directory,
+            distributed_config=DistributedConfig(use_cuda=torch.cuda.is_available()),
+            dataset_name=phase.value,
         ),
-        preprocessing=preprocessing,
-        cache_directory=cache_directory,
-        distributed_config=DistributedConfig(use_cuda=torch.cuda.is_available()),
-        dataset_name=phase.value,
+        num_samples,
+        seed,
     )
 
 
@@ -80,29 +74,32 @@ def get_test_data_and_compare_samples(
     if isinstance(expected_samples, list):
         expected_samples = {PhaseType.training.value: expected_samples}
 
-    assert "sampling" not in config
-    config["sampling"] = SamplingConfig(seed=seed, gpu=gpu, shuffle=shuffle)
-    with NoAutoValidate():
-        batch_config = GPTBatchConfig(batch_size=1, sequence_length=sequence_length)
-    batch_config.setup(distributed_config)
-    batch_config.validate()
     preprocessing = LanguageModelBatchPreprocessingConfig.from_dict(
-        preprocessing, {"batch": batch_config, "type": None}
+        preprocessing, {"distributed": distributed_config, "type": None}
+    )
+    data = GPTData(
+        GPTDataConfig.from_dict(
+            config,
+            {
+                "seed": seed,
+                "gpu": gpu,
+                "shuffle": shuffle,
+                "micro_batch_size": sequence_length,
+            },
+        ),
+        distributed_config,
     )
-    data = GPTData(GPTDataConfig.from_dict(config), distributed_config)
     data.setup(cache_directory)
     for dataset_name, num_samples in samples_per_dataset.items():
         data.sample_dataset(dataset_name, preprocessing, num_samples)
     tokens = {
-        phase: torch.stack(
+        dataset_name: torch.stack(
             [
                 batch.tokens.tokens
-                for batch in data.get_iterator(
-                    batch_config, phase, consumed_samples=0, num_workers=0, preprocess=False
-                )
+                for batch in data.get_iterator(dataset_name, consumed_samples=0, num_workers=0, preprocess=False)
             ]
         )
-        for phase, samples in samples_per_dataset.items()
+        for dataset_name, samples in samples_per_dataset.items()
     }
     for phase, expected_samples_ in expected_samples.items():
         Assert.all_equal(tokens[phase], expected_samples_)
@@ -143,8 +140,8 @@ def validate_indexed_dataset_sampling(sampled: SampledIndexedDataset, expected_s
     """
     Compare `GPTSampledIndexedDataset` sampling against a more basic approach
     """
-    num_tokens = sampled._parameters.num_samples * sampled._parameters.sequence_length + 1
-    all_tokens = np.full(sampled._parameters.num_samples * sampled._parameters.sequence_length + 1, -1, dtype=np.int64)
+    num_tokens = sampled._num_samples * sampled._config.micro_batch_size + 1
+    all_tokens = np.full(sampled._num_samples * sampled._config.micro_batch_size + 1, -1, dtype=np.int64)
     unshuffled_epochs = div(sampled._unshuffled_documents, sampled._documents_per_epoch)
 
     document_sampling = np.tile(
@@ -168,8 +165,8 @@ def validate_indexed_dataset_sampling(sampled: SampledIndexedDataset, expected_s
             break
 
     validate_samples = [
-        all_tokens[index * sampled._parameters.sequence_length : (index + 1) * sampled._parameters.sequence_length + 1]
-        for index in range(sampled._parameters.num_samples)
+        all_tokens[index * sampled._config.micro_batch_size : (index + 1) * sampled._config.micro_batch_size + 1]
+        for index in range(sampled._num_samples)
     ]
     token_ids = torch.stack(
         [LanguageModelBatch.from_documents(sampled[i]).tokens.tokens for i in range(len(sampled))]
diff --git a/tests/data/test_blending.py b/tests/data/test_blending.py
index b49a44b2a..a58563aab 100644
--- a/tests/data/test_blending.py
+++ b/tests/data/test_blending.py
@@ -79,12 +79,14 @@ def test_blending(probs):
     num_samples = 100
     from fast_llm.data.dataset.blended import BlendedDataset
 
+    sampling, _, _ = get_sampling_data(num_samples)
     dataset = BlendedDataset(
         "dataset",
         # Use a list of integers as a mock dataset, encoding both indexes in the sample.
         [list(range(i * num_samples, (i + 1) * num_samples)) for i, _ in enumerate(probs)],  # noqa
         probs,
-        get_sampling_data(num_samples),
+        sampling,
+        num_samples,
     )
     probs = normalize_probabilities(probs)
     samples = np.array([dataset[i] for i in range(num_samples)])
@@ -115,7 +117,7 @@ def test_gpt_blended():
             "weights": [0.75, 0.25],
         },
         BlendedDatasetConfig[LanguageModelDocument],
-    ).build_and_sample(get_sampling_data(8, sequence_length=5, preprocessing=preprocessing))
+    ).build_and_sample(*get_sampling_data(8, sequence_length=5, preprocessing=preprocessing))
     compare_sampled_dataset(sampled, GPT_BLENDED_SAMPLES)
 
     # Test in data.
@@ -143,7 +145,7 @@ def test_gpt_blended_mixed():
             "weights": [0.6, 0.4],
         },
         BlendedDatasetConfig[LanguageModelDocument],
-    ).build_and_sample(get_sampling_data(8, sequence_length=5, preprocessing=preprocessing))
+    ).build_and_sample(*get_sampling_data(8, sequence_length=5, preprocessing=preprocessing))
     compare_sampled_dataset(sampled, GPT_BLENDED_MIXED_SAMPLES)
 
     # Test in data.
diff --git a/tests/data/test_concatenate.py b/tests/data/test_concatenate.py
index cf75ea413..fa0e0eb25 100644
--- a/tests/data/test_concatenate.py
+++ b/tests/data/test_concatenate.py
@@ -38,7 +38,7 @@ def test_gpt_concatenate():
         3 * COMMON_DATASET_TOKENS,
         {j * COMMON_DATASET_LENGTH + i: sample for j in range(3) for i, sample in COMMON_DATASET_SAMPLES.items()},
     )
-    sampled = dataset.sample(get_sampling_data(8, sequence_length=5, preprocessing=preprocessing))
+    sampled = dataset.sample(*get_sampling_data(8, sequence_length=5, preprocessing=preprocessing))
     compare_sampled_dataset(sampled, GPT_CONCATENATED_SAMPLES)
 
     # Test in data.
diff --git a/tests/data/test_dataset_discovery.py b/tests/data/test_dataset_discovery.py
index dd8eeac46..bdf04d88a 100644
--- a/tests/data/test_dataset_discovery.py
+++ b/tests/data/test_dataset_discovery.py
@@ -1,363 +1,176 @@
-"""
-Tests for the dataset discovery preparator.
-"""
-
 import pathlib
+import shutil
+import typing
 
 import pytest
+import yaml
 
 from fast_llm.data.preparator.dataset_discovery.config import DatasetDiscoveryConfig
-from fast_llm.data.preparator.dataset_discovery.prepare import DatasetDiscoveryPreparator
-
-
-class TestDatasetDiscovery:
-    """Test dataset discovery that scans .fast_llm_dataset files."""
-
-    def test_find_dataset_files(self, tmp_path: pathlib.Path):
-        """Test finding .fast_llm_dataset files in directory tree."""
-        # Create test directory structure
-        (tmp_path / "subdir1").mkdir()
-        (tmp_path / "subdir2").mkdir()
-        (tmp_path / "subdir1" / "nested").mkdir()
-
-        # Create some .fast_llm_dataset files
-        (tmp_path / "dataset1.fast_llm_dataset").touch()
-        (tmp_path / "subdir1" / "dataset2.fast_llm_dataset").touch()
-        (tmp_path / "subdir1" / "nested" / "dataset3.fast_llm_dataset").touch()
-        (tmp_path / "subdir2" / "dataset4.fast_llm_dataset").touch()
-
-        # Create some other files that should be ignored
-        (tmp_path / "readme.txt").touch()
-        (tmp_path / "subdir1" / "config.yaml").touch()
-
-        # Create config
-        config = DatasetDiscoveryConfig(
-            directory=tmp_path,
-            output=tmp_path / "output.yaml",
-        )
-
-        # Create preparator
-        preparator = DatasetDiscoveryPreparator(config)
-
-        # Find dataset files
-        dataset_files = preparator._find_dataset_files(tmp_path)
-
-        # Should find all 4 .fast_llm_dataset files
-        assert len(dataset_files) == 4
-        assert all(f.suffix == ".fast_llm_dataset" for f in dataset_files)
-
-    def test_find_dataset_files_with_ignore(self, tmp_path: pathlib.Path):
-        """Test finding .fast_llm_dataset files with ignore paths."""
-        # Create test directory structure
-        (tmp_path / "keep").mkdir()
-        (tmp_path / "ignore").mkdir()
-
-        # Create dataset files
-        (tmp_path / "keep" / "dataset1.fast_llm_dataset").touch()
-        (tmp_path / "ignore" / "dataset2.fast_llm_dataset").touch()
-
-        # Create config with ignore path
-        config = DatasetDiscoveryConfig(
-            directory=tmp_path,
-            output=tmp_path / "output.yaml",
-            ignore_paths=[pathlib.Path("ignore")],
-        )
-
-        # Create preparator
-        preparator = DatasetDiscoveryPreparator(config)
-
-        # Find dataset files
-        dataset_files = preparator._find_dataset_files(tmp_path, ignore_paths=config.ignore_paths)
-
-        # Should find only 1 file (dataset2 should be ignored)
-        assert len(dataset_files) == 1
-        assert dataset_files[0].name == "dataset1.fast_llm_dataset"
-
-    def test_group_files_by_directory(self, tmp_path: pathlib.Path):
-        """Test grouping dataset files by directory."""
-        # Create files
-        files = [
-            tmp_path / "dataset1.fast_llm_dataset",
-            tmp_path / "dataset2.fast_llm_dataset",
-            tmp_path / "subdir" / "dataset3.fast_llm_dataset",
-        ]
-
-        # Group by directory
-        groups = DatasetDiscoveryPreparator._group_files_by_directory(files)
-
-        # Should have 2 groups
-        assert len(groups) == 2
-        assert len(groups[tmp_path]) == 2
-        assert len(groups[tmp_path / "subdir"]) == 1
-
-    def test_build_directory_tree(self, tmp_path: pathlib.Path):
-        """Test building directory tree."""
-        # Create nested directories
-        (tmp_path / "a" / "b" / "c").mkdir(parents=True)
-
-        # Create groups
-        groups = {
-            tmp_path: [],
-            tmp_path / "a": [],
-            tmp_path / "a" / "b": [],
-            tmp_path / "a" / "b" / "c": [],
-        }
-
-        # Build tree
-        tree = DatasetDiscoveryPreparator._build_directory_tree(groups, tmp_path)
-
-        # Verify tree structure
-        assert tmp_path / "a" in tree[tmp_path]
-        assert tmp_path / "a" / "b" in tree[tmp_path / "a"]
-        assert tmp_path / "a" / "b" / "c" in tree[tmp_path / "a" / "b"]
-
-    def test_create_memmap_config(self, tmp_path: pathlib.Path):
-        """Test creating memmap config for dataset file."""
-        dataset_file = tmp_path / "dataset.fast_llm_dataset"
-        dataset_file.touch()
-
-        config = DatasetDiscoveryConfig(
-            directory=tmp_path,
-            output=tmp_path / "output.yaml",
-        )
-        preparator = DatasetDiscoveryPreparator(config)
-
-        # Create config
-        memmap_config = preparator._create_memmap_config_for_dataset(dataset_file)
-
-        # Verify config structure
-        assert memmap_config["type"] == "memmap"
-        assert memmap_config["path"] == str(dataset_file)
-
-    def test_get_directory_name(self, tmp_path: pathlib.Path):
-        """Test directory naming."""
-        root = tmp_path
-        subdir = tmp_path / "data" / "train"
-
-        # Test root directory
-        name = DatasetDiscoveryPreparator._get_directory_name(root, root)
-        assert name == root.name
-
-        # Test subdirectory
-        name = DatasetDiscoveryPreparator._get_directory_name(subdir, root)
-        assert name == "data_train"
-
-        # Test with suffix
-        name = DatasetDiscoveryPreparator._get_directory_name(subdir, root, "_local")
-        assert name == "data_train_local"
-
-    @pytest.mark.slow
-    def test_dataset_discovery_e2e_single_dataset(self, tmp_path: pathlib.Path):
-        """Test end-to-end discovery with a single dataset."""
-        import shutil
-
-        import yaml
-
-        from tests.utils.dataset import get_common_test_dataset
-
-        # Get a prepared test dataset
-        dataset_path, _, _, _ = get_common_test_dataset()
-
-        # Copy the .fast_llm_dataset file to temp directory
-        dataset_files = list(dataset_path.glob("*.fast_llm_dataset"))
-        assert len(dataset_files) > 0, "No dataset files found in test dataset"
-
-        test_dataset = dataset_files[0]
-        (tmp_path / "datasets").mkdir()
-        shutil.copy(test_dataset, tmp_path / "datasets" / "dataset.fast_llm_dataset")
-
-        # Run dataset discovery
-        output_path = tmp_path / "discovered_config.yaml"
-        config = DatasetDiscoveryConfig(
-            directory=tmp_path / "datasets",
-            output=output_path,
+from fast_llm.utils import check_equal_nested
+from tests.utils.dataset import get_alt_test_dataset, get_common_test_dataset
+
+
+@pytest.mark.parametrize(
+    ("name", "paths", "ignore_paths", "expected_config"),
+    (
+        ("single_dataset", (".",), (), {"type": "memmap", "path": "dataset_0.fast_llm_dataset"}),
+        (
+            "same_directory",
+            (".", "."),
+            (),
+            {
+                "type": "blended",
+                "name": "same_directory",
+                "datasets": [
+                    {"type": "memmap", "path": "dataset_0.fast_llm_dataset"},
+                    {"type": "memmap", "path": "dataset_1.fast_llm_dataset"},
+                ],
+                "weights": [44883, 43910],
+            },
+        ),
+        (
+            "different_directory",
+            ("dataset0", "dataset1"),
+            (),
+            {
+                "type": "blended",
+                "name": "different_directory",
+                "datasets": [
+                    {"type": "memmap", "path": "dataset0/dataset_0.fast_llm_dataset"},
+                    {"type": "memmap", "path": "dataset1/dataset_1.fast_llm_dataset"},
+                ],
+                "weights": [44883, 43910],
+            },
+        ),
+        (
+            "ignore",
+            ("dataset0", "dataset1"),
+            ("dataset1",),
+            {"type": "memmap", "path": "dataset0/dataset_0.fast_llm_dataset"},
+        ),
+        (
+            "local_and_nested",
+            (".", "dataset"),
+            (),
+            {
+                "type": "blended",
+                "name": "local_and_nested",
+                "datasets": [
+                    {"type": "memmap", "path": "dataset/dataset_1.fast_llm_dataset"},
+                    {"type": "memmap", "path": "dataset_0.fast_llm_dataset"},
+                ],
+                "weights": [43910, 44883],
+            },
+        ),
+        (
+            "local_blended_and_nested",
+            (".", ".", "dataset"),
+            (),
+            {
+                "type": "blended",
+                "name": "local_blended_and_nested",
+                "datasets": [
+                    {"type": "memmap", "path": "dataset/dataset_2.fast_llm_dataset"},
+                    {
+                        "type": "blended",
+                        "name": "local_blended_and_nested_local",
+                        "datasets": [
+                            {"type": "memmap", "path": "dataset_0.fast_llm_dataset"},
+                            {"type": "memmap", "path": "dataset_1.fast_llm_dataset"},
+                        ],
+                        "weights": [44883, 43910],
+                    },
+                ],
+                "weights": [44883, 88793],
+            },
+        ),
+        (
+            "local_and_nested_blended",
+            (".", "dataset", "dataset"),
+            (),
+            {
+                "type": "blended",
+                "name": "local_and_nested_blended",
+                "datasets": [
+                    {
+                        "type": "blended",
+                        "name": "dataset",
+                        "datasets": [
+                            {"type": "memmap", "path": "dataset/dataset_2.fast_llm_dataset"},
+                            {"type": "memmap", "path": "dataset/dataset_1.fast_llm_dataset"},
+                        ],
+                        "weights": [44883, 43910],
+                    },
+                    {"type": "memmap", "path": "dataset_0.fast_llm_dataset"},
+                ],
+                "weights": [88793, 44883],
+            },
+        ),
+        (
+            "complex",
+            (
+                ".",
+                "dataset1",
+                "dataset1/dataset3",
+                "dataset2",
+                "dataset3",
+                "dataset1/dataset4",
+                "dataset1/dataset4/dataset5",
+            ),
+            # Should ignore "dataset3" but not "dataset1/dataset3"
+            ("dataset3", "dataset1/dataset4"),
+            {
+                "type": "blended",
+                "name": "complex",
+                "datasets": [
+                    {
+                        "type": "blended",
+                        "name": "dataset1",
+                        "datasets": [
+                            {"type": "memmap", "path": "dataset1/dataset3/dataset_2.fast_llm_dataset"},
+                            {"type": "memmap", "path": "dataset1/dataset_1.fast_llm_dataset"},
+                        ],
+                        "weights": [44883, 43910],
+                    },
+                    {"type": "memmap", "path": "dataset2/dataset_3.fast_llm_dataset"},
+                    {"type": "memmap", "path": "dataset_0.fast_llm_dataset"},
+                ],
+                "weights": [88793, 43910, 44883],
+            },
+        ),
+    ),
+)
+def test_dataset_discovery(
+    result_path: pathlib.Path, name: str, paths: tuple[pathlib.Path], ignore_paths, expected_config: dict
+):
+    """Test end-to-end discovery with multiple datasets in various structure."""
+    test_dataset_path = [get_common_test_dataset()[0], get_alt_test_dataset()[0]]
+    (dataset_path := result_path / f"dataset_discovery/{name}").mkdir(parents=True)
+    for index, path in enumerate(paths):
+        (path_ := dataset_path / path).mkdir(parents=True, exist_ok=True)
+        shutil.copy(
+            test_dataset_path[index % 2] / "shard_0_0.fast_llm_dataset", path_ / f"dataset_{index}.fast_llm_dataset"
         )
-        config.run()
-
-        # Verify output file was created
-        assert output_path.exists()
-
-        # Load and verify the generated config
-        with open(output_path) as f:
-            content = f.read()
-            # Check header comments
-            assert "# This file was generated with fast_llm.data.preparator.dataset_discovery" in content
-            assert "weights are token-counts in billions" in content
-            assert f"#   directory: {tmp_path / 'datasets'}" in content
-
-            # Parse YAML
-            f.seek(0)
-            generated_config = yaml.safe_load(f)
-
-        # Single dataset should be returned directly (not blended)
-        assert generated_config["type"] == "memmap"
-        assert "dataset.fast_llm_dataset" in generated_config["path"]
-
-    @pytest.mark.slow
-    def test_dataset_discovery_e2e_multiple_datasets(self, tmp_path: pathlib.Path):
-        """Test end-to-end discovery with multiple datasets in flat structure."""
-        import shutil
-
-        import yaml
-
-        from tests.utils.dataset import get_alt_test_dataset, get_common_test_dataset
-
-        # Get two different test datasets
-        dataset1_path, _, _, _ = get_common_test_dataset()
-        dataset2_path, _, _, _ = get_alt_test_dataset()
-
-        # Copy dataset files to temp directory
-        (tmp_path / "datasets").mkdir()
-        dataset1_file = list(dataset1_path.glob("*.fast_llm_dataset"))[0]
-        dataset2_file = list(dataset2_path.glob("*.fast_llm_dataset"))[0]
-
-        shutil.copy(dataset1_file, tmp_path / "datasets" / "dataset1.fast_llm_dataset")
-        shutil.copy(dataset2_file, tmp_path / "datasets" / "dataset2.fast_llm_dataset")
-
-        # Run dataset discovery
-        output_path = tmp_path / "discovered_config.yaml"
-        config = DatasetDiscoveryConfig(
-            directory=tmp_path / "datasets",
-            output=output_path,
-        )
-        config.run()
-
-        # Verify output file was created
-        assert output_path.exists()
-
-        # Load and verify the generated config
-        with open(output_path) as f:
-            generated_config = yaml.safe_load(f)
-
-        # Multiple datasets should create a blended config
-        assert generated_config["type"] == "blended"
-        assert len(generated_config["datasets"]) == 2
-        assert len(generated_config["weights"]) == 2
-
-        # Verify all weights are positive (in billions)
-        assert all(w > 0 for w in generated_config["weights"])
-
-        # Verify datasets are memmap configs
-        for dataset_config in generated_config["datasets"]:
-            assert dataset_config["type"] == "memmap"
-            assert "dataset" in dataset_config["path"]
-
-    @pytest.mark.slow
-    def test_dataset_discovery_e2e_hierarchical_structure(self, tmp_path: pathlib.Path):
-        """Test end-to-end discovery with hierarchical directory structure."""
-        import shutil
-
-        import yaml
-
-        from tests.utils.dataset import get_alt_test_dataset, get_common_test_dataset
-
-        # Get test datasets
-        dataset1_path, _, _, _ = get_common_test_dataset()
-        dataset2_path, _, _, _ = get_alt_test_dataset()
-
-        # Create hierarchical structure
-        (tmp_path / "root").mkdir()
-        (tmp_path / "root" / "group1").mkdir()
-        (tmp_path / "root" / "group2").mkdir()
-
-        dataset1_file = list(dataset1_path.glob("*.fast_llm_dataset"))[0]
-        dataset2_file = list(dataset2_path.glob("*.fast_llm_dataset"))[0]
-
-        # Place datasets in hierarchy
-        shutil.copy(dataset1_file, tmp_path / "root" / "dataset_a.fast_llm_dataset")
-        shutil.copy(dataset2_file, tmp_path / "root" / "dataset_b.fast_llm_dataset")
-        shutil.copy(dataset1_file, tmp_path / "root" / "group1" / "dataset_c.fast_llm_dataset")
-        shutil.copy(dataset2_file, tmp_path / "root" / "group2" / "dataset_d.fast_llm_dataset")
-
-        # Run dataset discovery
-        output_path = tmp_path / "discovered_config.yaml"
-        config = DatasetDiscoveryConfig(
-            directory=tmp_path / "root",
-            output=output_path,
-        )
-        config.run()
-
-        # Load and verify the generated config
-        with open(output_path) as f:
-            generated_config = yaml.safe_load(f)
-
-        # Should create hierarchical blended config
-        assert generated_config["type"] == "blended"
-
-        # Root should have 3 items: local group + 2 subdirs
-        assert len(generated_config["datasets"]) == 3
-
-        # First item should be local datasets grouped with "_local" suffix
-        local_group = generated_config["datasets"][0]
-        assert local_group["type"] == "blended"
-        assert "_local" in local_group["name"]
-        assert len(local_group["datasets"]) == 2
-
-        # Next two should be subdirectory datasets (single dataset each, so memmap type)
-        # Check that one is from group1 and one from group2
-        subdir_paths = [generated_config["datasets"][1]["path"], generated_config["datasets"][2]["path"]]
-        assert any("group1" in path for path in subdir_paths)
-        assert any("group2" in path for path in subdir_paths)
-
-    @pytest.mark.slow
-    def test_dataset_discovery_e2e_with_ignore_paths(self, tmp_path: pathlib.Path):
-        """Test end-to-end discovery with ignore_paths."""
-        import shutil
-
-        import yaml
-
-        from tests.utils.dataset import get_common_test_dataset
-
-        # Get test dataset
-        dataset_path, _, _, _ = get_common_test_dataset()
-        dataset_file = list(dataset_path.glob("*.fast_llm_dataset"))[0]
-
-        # Create directory structure
-        (tmp_path / "datasets" / "keep").mkdir(parents=True)
-        (tmp_path / "datasets" / "ignore").mkdir(parents=True)
-
-        # Place datasets
-        shutil.copy(dataset_file, tmp_path / "datasets" / "keep" / "dataset1.fast_llm_dataset")
-        shutil.copy(dataset_file, tmp_path / "datasets" / "ignore" / "dataset2.fast_llm_dataset")
-
-        # Run dataset discovery with ignore_paths
-        output_path = tmp_path / "discovered_config.yaml"
-        config = DatasetDiscoveryConfig(
-            directory=tmp_path / "datasets",
-            output=output_path,
-            ignore_paths=[pathlib.Path("ignore")],
-        )
-        config.run()
-
-        # Load and verify the generated config
-        with open(output_path) as f:
-            content = f.read()
-            # Check ignore_paths in header
-            assert "ignore_paths:" in content
-            assert "ignore" in content
-
-            # Parse YAML
-            f.seek(0)
-            generated_config = yaml.safe_load(f)
-
-        # Should only include the dataset from "keep" directory
-        # Single dataset, so should be memmap (not blended)
-        assert generated_config["type"] == "memmap"
-        assert "keep" in generated_config["path"]
-        assert "ignore" not in generated_config["path"]
-
-    @pytest.mark.slow
-    def test_dataset_discovery_e2e_empty_directory(self, tmp_path: pathlib.Path):
-        """Test that discovery fails gracefully on empty directory."""
-        # Create empty directory
-        (tmp_path / "empty").mkdir()
-
-        # Run dataset discovery - should raise ValueError
-        output_path = tmp_path / "output.yaml"
-        config = DatasetDiscoveryConfig(
-            directory=tmp_path / "empty",
-            output=output_path,
-        )
-
-        with pytest.raises(ValueError, match="No .fast_llm_dataset files found"):
-            config.run()
+        # Add some files to ignore.
+        path_.joinpath("junk.txt").touch()
+
+    # Run dataset discovery
+    config = DatasetDiscoveryConfig(
+        directory=dataset_path,
+        output=result_path / f"dataset_discovery/configs/{name}.yaml",
+        ignore_paths=ignore_paths,
+    )
+    config.run()
+
+    generated_config = yaml.safe_load(config.output.open())
+    print(generated_config)
+    check_equal_nested(generated_config, _set_paths_in_config(expected_config, dataset_path.resolve()))
+
+
+def _set_paths_in_config(config: dict[str, typing.Any], base_path: pathlib.Path):
+    config = config.copy()
+    if "path" in config:
+        config["path"] = str(base_path / config["path"])
+    if "datasets" in config:
+        config["datasets"] = [_set_paths_in_config(dataset, base_path) for dataset in config["datasets"]]
+    return config
diff --git a/tests/data/test_fim.py b/tests/data/test_fim.py
index fd1aefbd8..3e474a5f8 100644
--- a/tests/data/test_fim.py
+++ b/tests/data/test_fim.py
@@ -24,7 +24,6 @@ def test_gpt_fim():
     # Make sure the FIM wrapper works in a simple case and check for unintended changes in behavior.
     _, config, _, preprocessing = get_common_test_dataset()
     # The test tokenizer doesn't have fim tokens, so we work around it.
-    sampling_config = get_sampling_data(8, sequence_length=5, preprocessing=preprocessing)
     sampled = get_dataset_config(
         dataset_config := {
             "type": "fim",
@@ -37,7 +36,7 @@ def test_gpt_fim():
             "suffix_token": "z",
         },
         GPTFimSampledDatasetConfig,
-    ).build_and_sample(sampling_config)
+    ).build_and_sample(*get_sampling_data(8, sequence_length=5, preprocessing=preprocessing))
     compare_sampled_dataset(sampled, GPT_FIM_SAMPLES)
 
     get_test_data_and_compare_samples(
diff --git a/tests/data/test_image_patch.py b/tests/data/test_image_patch.py
index 8d5d7301c..5fc9998bf 100644
--- a/tests/data/test_image_patch.py
+++ b/tests/data/test_image_patch.py
@@ -6,7 +6,6 @@
 import PIL.Image
 import pytest
 
-from fast_llm.data.dataset.config import SamplingParameters
 from fast_llm.data.dataset.gpt.config import GPTDatasetFromFileConfig
 from fast_llm.data.dataset.memmap.memmap import MemmapDataset
 from fast_llm.data.document.language_model import LanguageModelDocument
@@ -149,7 +148,7 @@ def test_gpt_data_with_image_patches(image_break_token, image_end_token):
         )
         Assert.eq(hf_dataset[index]["image_positions"], DATASET_WITH_IMAGE_PATCHES_IMAGE_POSITIONS[index])
 
-        document = dataset.get_document(index, parameters=SamplingParameters(num_samples=0, sequence_length=0))
+        document = dataset.get_document(index)
         expected_tokens = [
             tokens
             for token_or_patches in DATASET_WITH_IMAGE_PATCHES_SAMPLES[index]
@@ -176,6 +175,6 @@ def test_gpt_data_with_missing_image_patches():
     dataset = get_dataset_config(config, GPTDatasetFromFileConfig).build(preprocessing)
 
     for index in COMMON_DATASET_SAMPLES:
-        document = dataset.get_document(index, parameters=SamplingParameters(num_samples=0, sequence_length=0))
+        document = dataset.get_document(index)
         Assert.eq(document.tokens.tokens.tolist(), COMMON_DATASET_SAMPLES[index])
         Assert.none(document.image_patches)
diff --git a/tests/data/test_loss_masking_spans.py b/tests/data/test_loss_masking_spans.py
index a963170fd..a9a65f286 100644
--- a/tests/data/test_loss_masking_spans.py
+++ b/tests/data/test_loss_masking_spans.py
@@ -1,7 +1,6 @@
 import datasets
 import pytest
 
-from fast_llm.data.dataset.config import SamplingParameters
 from fast_llm.data.dataset.gpt.config import GPTDatasetFromFileConfig
 from fast_llm.data.dataset.memmap.memmap import MemmapDataset
 from fast_llm.data.document.language_model import LanguageModelDocument
@@ -57,7 +56,7 @@ def test_gpt_data_with_loss_masking_spans():
             hf_dataset[index]["text"],
             text_spans=[(begin, last + 1) for begin, last in hf_dataset[index]["loss_masking_spans"]],
         )
-        document = dataset.get_document(index, parameters=SamplingParameters(num_samples=0, sequence_length=0))
+        document = dataset.get_document(index)
 
         # Compare tokens and token spans.
         Assert.all_equal(document.tokens.tokens, expected_tokens)
@@ -74,7 +73,7 @@ def test_gpt_data_with_loss_masking_spans():
     for index in DATASET_WITH_SPAN_SAMPLES:
         Assert.eq(hf_dataset[index]["text"], COMMON_DATASET_TEXT[index])
         Assert.eq(hf_dataset[index]["loss_masking_spans"], HF_LOSS_MASKING_SPANS[index])
-        document = dataset.get_document(index, parameters=SamplingParameters(num_samples=0, sequence_length=0))
+        document = dataset.get_document(index)
         Assert.eq(document.tokens.tokens.tolist(), DATASET_WITH_SPAN_SAMPLES[index])
         Assert.eq(document.loss_masking_spans.ranges, TOKEN_LOSS_MASKING_SPANS[index])
 
@@ -86,6 +85,6 @@ def test_gpt_data_with_missing_loss_masking_spans():
     dataset = get_dataset_config(config, GPTDatasetFromFileConfig).build(preprocessing)
 
     for index in COMMON_DATASET_SAMPLES:
-        document = dataset.get_document(index, parameters=SamplingParameters(num_samples=0, sequence_length=0))
+        document = dataset.get_document(index)
         Assert.eq(document.tokens.tokens.tolist(), COMMON_DATASET_SAMPLES[index])
         Assert.none(document.loss_masking_spans)
diff --git a/tests/data/test_preference_spans.py b/tests/data/test_preference_spans.py
index ef12e3837..faa075fc3 100644
--- a/tests/data/test_preference_spans.py
+++ b/tests/data/test_preference_spans.py
@@ -3,7 +3,6 @@
 import pytest
 import torch
 
-from fast_llm.data.dataset.config import SamplingParameters
 from fast_llm.data.dataset.gpt.config import GPTDatasetFromFileConfig
 from fast_llm.data.dataset.memmap.memmap import MemmapDataset
 from fast_llm.data.document.language_model import LanguageModelDocument
@@ -82,7 +81,7 @@ def test_gpt_data_with_spans():
             (token_length_cumsum[4], token_length_cumsum[5]),
         ]
 
-        document = dataset.get_document(index, parameters=SamplingParameters(num_samples=0, sequence_length=0))
+        document = dataset.get_document(index)
         token_spans = document.chosen_spans.ranges + document.rejected_spans.ranges
 
         # Compare tokens and token spans.
@@ -101,7 +100,7 @@ def test_gpt_data_with_spans():
             DATASET_WITH_PREFERENCE_SPAN_TEXT[index],
         )
 
-        document = dataset.get_document(index, parameters=SamplingParameters(num_samples=0, sequence_length=0))
+        document = dataset.get_document(index)
         Assert.eq(document.tokens.tokens.tolist(), DATASET_WITH_PREFERENCE_SPAN_SAMPLES[index])
         Assert.eq(document.chosen_spans.ranges + document.rejected_spans.ranges, TOKEN_PREFERENCE_SPANS[index])
 
diff --git a/tests/data/test_preparator.py b/tests/data/test_preparator.py
index ab5942c20..8ea0190f9 100644
--- a/tests/data/test_preparator.py
+++ b/tests/data/test_preparator.py
@@ -3,7 +3,7 @@
 import datasets
 import pytest
 
-from fast_llm.data.dataset.config import BlendedDatasetConfig, SamplingParameters
+from fast_llm.data.dataset.config import BlendedDatasetConfig
 from fast_llm.data.dataset.gpt.config import GPTDatasetFromFileConfig
 from fast_llm.data.dataset.memmap.config import MemmapDatasetConfig
 from fast_llm.data.dataset.memmap.memmap import MemmapDataset
@@ -73,7 +73,7 @@ def test_common_prepared_dataset():
     # Check some numerical values.
     for index in COMMON_DATASET_SAMPLES:
         Assert.eq(hf_dataset[index]["text"], COMMON_DATASET_TEXT[index])
-        document = dataset.get_document(index, parameters=SamplingParameters(num_samples=0, sequence_length=0))
+        document = dataset.get_document(index)
         Assert.eq(document.tokens.tokens.tolist(), COMMON_DATASET_SAMPLES[index])
 
 
diff --git a/tests/data/test_preprocessing.py b/tests/data/test_preprocessing.py
index e8fd2f384..0e9b6fccc 100644
--- a/tests/data/test_preprocessing.py
+++ b/tests/data/test_preprocessing.py
@@ -1,14 +1,11 @@
 import pytest
 import torch
 
-from fast_llm.config import NoAutoValidate
 from fast_llm.data.batch.config import LanguageModelBatchPreprocessingConfig
 from fast_llm.data.batch.language_model import LanguageModelPreprocessedBatch
 from fast_llm.data.document.language_model import LanguageModelDocument
 from fast_llm.data.document.range import RangeDocument
 from fast_llm.data.document.token import TokenDocument
-from fast_llm.engine.distributed.config import DistributedConfig
-from fast_llm.models.gpt.config import GPTBatchConfig
 from fast_llm.utils import Assert
 
 
@@ -38,12 +35,7 @@ def test_preprocessing(tokens, loss_masking_spans):
         )
         for tokens_, loss_masking_spans_ in zip(tokens, loss_masking_spans, strict=True)
     ]
-    with NoAutoValidate():
-        batch_config = GPTBatchConfig(sequence_length=sum(len(document) for document in documents) - 1)
-    batch_config.setup(DistributedConfig())
-    batch_config.validate()
-    config = LanguageModelBatchPreprocessingConfig(batch=batch_config)
-    preprocessed = LanguageModelPreprocessedBatch.from_documents(documents, config)
+    preprocessed = LanguageModelPreprocessedBatch.from_documents(documents, LanguageModelBatchPreprocessingConfig())
 
     Assert.eq(len(preprocessed.micro_batches), 1)
     micro_batch = preprocessed.micro_batches[0]
diff --git a/tests/data/test_random.py b/tests/data/test_random.py
index d32fb9880..ed490c49b 100644
--- a/tests/data/test_random.py
+++ b/tests/data/test_random.py
@@ -19,7 +19,7 @@ def test_gpt_random_dataset():
     # Make sure the random dataset works and check for unintended changes in behavior.
     preprocessing = LanguageModelPreprocessingConfig(vocab_size=8192)
     sampled = get_dataset_config(config := {"type": "random"}, GPTRandomDatasetConfig).build_and_sample(
-        get_sampling_data(4, sequence_length=7, preprocessing=preprocessing)
+        *get_sampling_data(4, sequence_length=7, preprocessing=preprocessing)
     )
     compare_sampled_dataset(sampled, RANDOM_DATASET_EXPECTED_SAMPLES)
 
diff --git a/tests/data/test_sampling.py b/tests/data/test_sampling.py
index 737609994..9ac2cd94d 100644
--- a/tests/data/test_sampling.py
+++ b/tests/data/test_sampling.py
@@ -2,7 +2,7 @@
 import pytest
 import torch
 
-from fast_llm.data.dataset.config import SamplingParameters, ShufflingType
+from fast_llm.data.dataset.config import ShufflingType
 from fast_llm.data.dataset.gpt.config import GPTDatasetFromFileConfig
 from fast_llm.data.dataset.indexed import IndexedDataset
 from fast_llm.data.document.language_model import LanguageModelDocument
@@ -41,7 +41,7 @@ def test_gpt_sampled():
     _, config, _, preprocessing = get_common_test_dataset()
     sampled = get_dataset_config(
         dataset_config := config, GPTDatasetFromFileConfig[LanguageModelDocument]
-    ).build_and_sample(get_sampling_data(8, sequence_length=5, preprocessing=preprocessing))
+    ).build_and_sample(*get_sampling_data(8, sequence_length=5, preprocessing=preprocessing))
     validate_indexed_dataset_sampling(sampled, GPT_MEMMAP_SAMPLES)
 
     # Test in data.
@@ -59,9 +59,7 @@ class SimpleGPTIndexedDataset[DocumentType: LanguageModelDocument](IndexedDatase
     def __init__(self, samples):
         self._samples = samples
 
-    def get_document(
-        self, index: int, begin: int = 0, end: int | None = None, parameters: SamplingParameters | None = None
-    ) -> DocumentType:
+    def get_document(self, index: int, begin: int = 0, end: int | None = None) -> DocumentType:
         if end is None:
             end = len(self._samples[index])
         return LanguageModelDocument(
@@ -102,7 +100,7 @@ def test_gpt_sample(seed, shuffle):
     # Loop instead of parametrizing for the check below.
     for num_samples in (20, 10, 6, 5, 2, 1):
         sampled = TEST_DATASET.sample(
-            get_sampling_data(
+            *get_sampling_data(
                 num_samples,
                 sequence_length=5,
                 seed=seed,
@@ -168,8 +166,8 @@ def test_gpt_sample_padding():
         )
         if total_tokens == 0:
             with pytest.raises(RuntimeError):
-                dataset.sample(sampling)
+                dataset.sample(*sampling)
         else:
-            sampled = dataset.sample(sampling)
+            sampled = dataset.sample(*sampling)
             for idx in range(len(expected_samples)):
                 Assert.all_equal(sampled[idx].tokens.tokens, np.array(expected_samples[idx]))
diff --git a/tests/data/test_slice.py b/tests/data/test_slice.py
index ddf16acf1..2fd6aca0b 100644
--- a/tests/data/test_slice.py
+++ b/tests/data/test_slice.py
@@ -39,7 +39,7 @@ def test_gpt_slice():
         DatasetSliceConfig[LanguageModelDocument],
     ).build(preprocessing)
     compare_indexed_dataset_tokens(dataset, 75, 3399, {i - 25: sample for i, sample in COMMON_DATASET_SAMPLES.items()})
-    sampled = dataset.sample(get_sampling_data(8, sequence_length=5, preprocessing=preprocessing))
+    sampled = dataset.sample(*get_sampling_data(8, sequence_length=5, preprocessing=preprocessing))
     validate_indexed_dataset_sampling(sampled, GPT_SLICE_VALIDATION_SAMPLES)
 
     # Test in data with multiple phases.
diff --git a/tests/layers/test_attention.py b/tests/layers/test_attention.py
index fa7207926..f825064dc 100644
--- a/tests/layers/test_attention.py
+++ b/tests/layers/test_attention.py
@@ -1,16 +1,29 @@
 import pytest
 import torch
 
+from fast_llm.data.batch.config import LanguageModelBatchPreprocessingConfig
+from fast_llm.data.batch.language_model import LanguageModelPreprocessedBatch
+from fast_llm.data.document.language_model import LanguageModelBatch
+from fast_llm.data.document.token import TokenBatch
 from fast_llm.engine.config_utils.tensor_dim import TensorDim
 from fast_llm.engine.distributed.config import DistributedConfig
 from fast_llm.layers.attention.attention import Attention, _flash_available
-from fast_llm.layers.attention.config import AttentionConfig, AttentionKwargs
+from fast_llm.layers.attention.config import AttentionConfig
 from fast_llm.utils import Assert
 
 
 @pytest.mark.parametrize(("causal", "window_size"), ((True, None), (True, 50), (False, None)))
+@pytest.mark.parametrize(
+    "lengths",
+    (
+        [20, 32, 10, 11, 9, 18],
+        [100],
+        [2, 8, 22, 7, 6, 5, 1, 10, 4, 11, 3, 8, 4, 9],
+        [5 for _ in range(20)],
+    ),
+)
 @pytest.mark.skipif(not _flash_available, reason="Flash attention not available")
-def test_attention_implementations(causal: bool, window_size: int | None):
+def test_attention_implementations(causal: bool, window_size: int | None, lengths: list[int]):
     """
     Check that the flash and backup attention implementation give the same result.
     """
@@ -22,28 +35,35 @@ def test_attention_implementations(causal: bool, window_size: int | None):
         window_size=window_size,
         causal=causal,
     ).get_layer(
-        DistributedConfig(compute_dtype="bfloat16"),
+        distributed_config := DistributedConfig(compute_dtype="bfloat16"),
         TensorDim("hidden_size", 256),
         lr_scale=None,
         peft=None,
     )
-    query = torch.empty(4, 100, 4, 32, dtype=torch.bfloat16, device=device).normal_()
-    key = torch.empty(4, 100, 2, 32, dtype=torch.bfloat16, device=device).normal_()
-    value = torch.empty(4, 100, 2, 32, dtype=torch.bfloat16, device=device).normal_()
-    kwargs = {
-        AttentionKwargs.device: device,
-        AttentionKwargs.sequence_length: 100,
-        AttentionKwargs.sequence_lengths: [
-            [20, 32, 10, 11, 9, 18],
-            [100],
-            [2, 8, 22, 7, 6, 5, 1, 10, 4, 11, 3, 8, 4, 9],
-            [5 for _ in range(20)],
-        ],
-        AttentionKwargs.sequence_q_dim: TensorDim("sequence_q", 100),
-        AttentionKwargs.sequence_k_dim: TensorDim("sequence_k", 100),
-    }
+    num_tokens = sum(lengths)
+
+    query = torch.empty(num_tokens, 4, 32, dtype=torch.bfloat16, device=device).normal_()
+    key = torch.empty(num_tokens, 2, 32, dtype=torch.bfloat16, device=device).normal_()
+    value = torch.empty(num_tokens, 2, 32, dtype=torch.bfloat16, device=device).normal_()
+
+    kwargs = (
+        LanguageModelPreprocessedBatch.from_batch(
+            LanguageModelBatch(
+                tokens=TokenBatch(tokens=torch.empty(num_tokens, dtype=torch.int64, device=device), lengths=lengths)
+            ),
+            LanguageModelBatchPreprocessingConfig(
+                distributed=distributed_config,
+                predicted_tokens=0,
+                return_cumulative_sequence_lengths=True,
+                return_max_sequence_lengths=True,
+                return_document_index=True,
+            ),
+            device,
+        )
+        .micro_batches[0]
+        .to_kwargs()
+    )
     attention._preprocess_for_backup_attention(kwargs)
-    attention._preprocess_for_flash_attention(kwargs)
 
     out_backup = attention._attn_backup(query, key, value, kwargs)
     out_flash = attention._attn_flash(query, key, value, kwargs)
diff --git a/tests/layers/test_varlen.py b/tests/layers/test_varlen.py
index d262e414c..af58899ca 100644
--- a/tests/layers/test_varlen.py
+++ b/tests/layers/test_varlen.py
@@ -1,12 +1,15 @@
 import pytest
 import torch
 
+from fast_llm.data.batch.config import LanguageModelBatchPreprocessingConfig
+from fast_llm.data.batch.language_model import LanguageModelPreprocessedBatch
+from fast_llm.data.document.language_model import LanguageModelBatch
+from fast_llm.data.document.token import TokenBatch
 from fast_llm.engine.config_utils.data_type import DataType
 from fast_llm.engine.config_utils.tensor_dim import TensorDim
-from fast_llm.engine.distributed.config import DistributedConfig
+from fast_llm.engine.distributed.config import DistributedConfig, PhaseType
 from fast_llm.engine.distributed.distributed import Distributed
 from fast_llm.layers.attention.config import AttentionConfig
-from fast_llm.layers.block.config import BlockKwargs
 from fast_llm.layers.decoder.config import MixerConfig
 from fast_llm.layers.ssm.config import GatedDeltaNetConfig, KimiDeltaAttentionConfig, MambaConfig
 from fast_llm.layers.ssm.gdn import _causal_conv1d_available
@@ -40,7 +43,8 @@
         ),
     ],
 )
-def test_mixer_varlen_stacking_equivalence(config: MixerConfig):
+@pytest.mark.parametrize("lengths", ([6, 9], [4, 1, 10]))
+def test_mixer_varlen_stacking_equivalence(config: MixerConfig, lengths: list[int]):
     """
     Check that Gated Delta Net forward/backward match with and without packing.
     """
@@ -51,33 +55,36 @@ def test_mixer_varlen_stacking_equivalence(config: MixerConfig):
     mixer = config.get_layer(distributed_config, hidden_dim, lr_scale=None, peft=None, return_bias=False)
     stage = get_stage([mixer], distributed)
 
-    batch_size = 2  # cu_seqlens path requires flattened batch
-    seq_len = 15
+    num_tokens = sum(lengths)
 
-    sequence_lengths = [[6, 9], [4, 1, 10]]
     hidden_states = torch.randn(
-        batch_size,
-        seq_len,
+        num_tokens,
         hidden_size,
         device=distributed.device,
         dtype=distributed_config.compute_dtype.torch,
         requires_grad=True,
     )
 
-    kwargs = {
-        BlockKwargs.device: distributed.device,
-    }
-
-    kwargs_packed = {
-        **kwargs,
-        BlockKwargs.sequence_lengths: sequence_lengths,
-        BlockKwargs.sequence_length: seq_len,
-        BlockKwargs.sequence_q_dim: TensorDim("", seq_len),
-        BlockKwargs.sequence_k_dim: TensorDim("", seq_len),
-    }
+    kwargs_packed = (
+        LanguageModelPreprocessedBatch.from_batch(
+            LanguageModelBatch(
+                tokens=TokenBatch(
+                    tokens=torch.empty(num_tokens, dtype=torch.int64, device=distributed.device), lengths=lengths
+                )
+            ),
+            LanguageModelBatchPreprocessingConfig(
+                distributed=distributed_config,
+                predicted_tokens=0,
+                **mixer.get_preprocessing_config(PhaseType.training),
+            ),
+            distributed.device,
+        )
+        .micro_batches[0]
+        .to_kwargs()
+    )
     mixer.preprocess(kwargs_packed)
 
-    out_packed, context = stage.forward(hidden_states.flatten(0, 1), kwargs_packed)
+    out_packed, context = stage.forward(hidden_states, kwargs_packed)
     stage.backward(torch.ones_like(out_packed), context)
 
     names, parameters = zip(*list(mixer.named_parameters()))
@@ -86,22 +93,29 @@ def test_mixer_varlen_stacking_equivalence(config: MixerConfig):
     stage.reset_gradients()
     # Run reference path separately per sequence without varlen packing, then concatenate.
     out_refs = []
-    for i in range(batch_size):
-        for seq in torch.split(hidden_states[i], sequence_lengths[i], dim=0):
-            seq_len_ = len(seq)
-            kwargs_seq = {
-                **kwargs,
-                BlockKwargs.sequence_lengths: [[seq_len_]],
-                BlockKwargs.sequence_length: seq_len_,
-                BlockKwargs.batch_dim: TensorDim("", 1),
-                BlockKwargs.sequence_q_dim: TensorDim("", seq_len_),
-                BlockKwargs.sequence_k_dim: TensorDim("", seq_len_),
-            }
-            mixer.preprocess(kwargs_seq)
-            out, context = stage.forward(seq, kwargs_seq)
-            stage.backward(torch.ones_like(out), context)
-            out_refs.append(out)
-    out_ref = torch.cat(out_refs, dim=0).view_as(out_packed)
+    for length, hidden_states_ in zip(lengths, torch.split(hidden_states, lengths, dim=0), strict=True):
+        kwargs_unpacked = (
+            LanguageModelPreprocessedBatch.from_batch(
+                LanguageModelBatch(
+                    tokens=TokenBatch(
+                        tokens=torch.empty(length, dtype=torch.int64, device=distributed.device), lengths=[length]
+                    )
+                ),
+                LanguageModelBatchPreprocessingConfig(
+                    distributed=distributed_config,
+                    predicted_tokens=0,
+                    **mixer.get_preprocessing_config(PhaseType.training),
+                ),
+                distributed.device,
+            )
+            .micro_batches[0]
+            .to_kwargs()
+        )
+        mixer.preprocess(kwargs_unpacked)
+        out, context = stage.forward(hidden_states_, kwargs_unpacked)
+        stage.backward(torch.ones_like(out), context)
+        out_refs.append(out)
+    out_ref = torch.cat(out_refs, dim=0)
 
     Assert.rms_close_relative(out_packed, out_ref, 1e-3, 1e-4)
 
diff --git a/tests/models/test_match_megatron.py b/tests/models/test_match_megatron.py
index 011bb5aea..e8343e84d 100644
--- a/tests/models/test_match_megatron.py
+++ b/tests/models/test_match_megatron.py
@@ -12,7 +12,7 @@
 from fast_llm.config import Field, FieldHint, config_class
 from fast_llm.data.dataset.abstract import SampledDataset
 from fast_llm.data.dataset.config import SampledDatasetConfig
-from fast_llm.data.dataset.gpt.config import GPTSamplingData
+from fast_llm.data.dataset.gpt.config import GPTSamplingConfig
 from fast_llm.data.dataset.gpt.legacy_memmap import MEMMAP_DTYPES, MEMMAP_INDEX_HEADER, LegacyMemmapDataset
 from fast_llm.data.dataset.memmap.config import MemmapDatasetConfig
 from fast_llm.data.dataset.sampled import logger
@@ -129,8 +129,8 @@ def build(self, preprocessing: PreprocessingConfig) -> "LegacyMemmapDataset[Docu
 
 
 class MegatronMemmapDataset(LegacyMemmapDataset):
-    def sample(self, sampling: GPTSamplingData) -> "MegatronSampledIndexedDataset":
-        return MegatronSampledIndexedDataset(self, sampling)
+    def sample(self, config: "SamplingConfig", num_samples: int, seed: int) -> "MegatronSampledIndexedDataset":
+        return MegatronSampledIndexedDataset(self, config, num_samples, seed)
 
     @classmethod
     def write_dataset(
@@ -200,23 +200,21 @@ class MegatronSampledIndexedDataset[DocumentType: LanguageModelDocument](Sampled
     """
 
     def __init__(
-        self,
-        indexed_dataset: MegatronMemmapDataset,
-        sampling: GPTSamplingData,
+        self, indexed_dataset: MegatronMemmapDataset, sampling: GPTSamplingConfig, num_samples: int, seed: int
     ):
-        assert isinstance(sampling, GPTSamplingData)
+        assert isinstance(sampling, GPTSamplingConfig)
         self._indexed_dataset = indexed_dataset
-        self._num_samples = sampling.parameters.num_samples
-        self._sequence_length = sampling.parameters.sequence_length
+        self._config = sampling
+        self._num_samples = num_samples
 
         logger.info(f" > Sampling dataset {self._indexed_dataset.name} ...")
         document_sizes = self._indexed_dataset.get_document_sizes()
         num_documents = len(document_sizes)
         num_tokens = document_sizes.sum()
-        np_rng = np.random.RandomState(seed=sampling.config.seed)
+        np_rng = np.random.RandomState(seed=seed)
 
         # Assume less than one epoch.
-        Assert.lt(self._sequence_length * self._num_samples, num_tokens)
+        Assert.lt(self._config.micro_batch_size * num_samples, num_tokens)
 
         self._doc_idx = np.arange(num_documents, dtype=np.int32)
         np_rng.shuffle(self._doc_idx)
@@ -225,7 +223,9 @@ def __init__(
             "The C++ extension for dataset sampling is missing." " Please make sure Fast-LLM is installed correctly."
         )
 
-        self._sample_idx = build_sample_idx(document_sizes, self._doc_idx, self._sequence_length, 1, num_tokens, True)
+        self._sample_idx = build_sample_idx(
+            document_sizes, self._doc_idx, self._config.micro_batch_size, 1, num_tokens, True
+        )
         self._shuffle_idx = np.arange(0, self._sample_idx.shape[0] - 1, dtype=np.uint32)
         np_rng.shuffle(self._shuffle_idx)
 
diff --git a/tests/test_config.py b/tests/test_config.py
index 4020b6fbc..bf76595f9 100644
--- a/tests/test_config.py
+++ b/tests/test_config.py
@@ -6,7 +6,7 @@
 import yaml
 
 from fast_llm.config import NoAutoValidate
-from fast_llm.data.dataset.config import SamplingConfig
+from fast_llm.data.dataset.config import SamplingConfigBase
 from fast_llm.engine.checkpoint.config import CheckpointSaveMetadataConfig, ModelConfigType
 from fast_llm.engine.distributed.config import DistributedConfig, DistributedDim, DistributedDimNames
 from fast_llm.models.gpt.config import GPTModelConfig, GPTTrainerConfig, PretrainedGPTModelConfig
@@ -60,7 +60,7 @@ def test_validate_example_config():
     GPTTrainerConfig.from_dict(fast_llm_config_dict)
 
 
-@pytest.mark.parametrize("cls", (SamplingConfig, GPTModelConfig))
+@pytest.mark.parametrize("cls", (SamplingConfigBase, GPTModelConfig))
 def test_serialize_default_config_updates(cls):
     # Config classes used as config updates should have a default that serializes to an empty dict
     #   so no value is incorrectly overridden.
diff --git a/tests/utils/distributed_configs.py b/tests/utils/distributed_configs.py
index 7c17a107b..e32a85aee 100644
--- a/tests/utils/distributed_configs.py
+++ b/tests/utils/distributed_configs.py
@@ -44,14 +44,15 @@ def get_config(relative: float = 0, absolute: float = 0, **kwargs) -> CompareCon
 )
 
 _compare_layer_mismatch = copy.deepcopy(_compare_layer_match)
-_pp_tied_weight_compare = copy.deepcopy(_compare_layer_match)
-_z3_accumulation_compare = copy.deepcopy(_compare_layer_match)
+for tensor in ("fw", "bw"):
+    _compare_layer_mismatch.sub_configs[(None, tensor)].ignore_tensors = True
+_pp_tied_weight_compare = copy.deepcopy(_compare_layer_mismatch)
+_z3_accumulation_compare = copy.deepcopy(_compare_layer_mismatch)
 _z3_accumulation_compare.sub_configs[(None, "bias")].ignore_duplicates = True
 _z3_accumulation_compare.sub_configs[(None, "gradient")].ignore_duplicates = True
 _pp_tied_weight_compare.sub_configs[(None, "gradient")].ignore_duplicates = True
 _pp_tied_weight_compare.sub_configs[("init", None)].ignore_duplicates = True
 for tensor in ("fw", "bw"):
-    _compare_layer_mismatch.sub_configs[(None, tensor)].ignore_tensors = True
     _pp_tied_weight_compare.sub_configs[(None, tensor)].ignore_duplicates = True
 
 
@@ -99,7 +100,7 @@ def get_config(relative: float = 0, absolute: float = 0, **kwargs) -> CompareCon
 )
 
 
-# Baseline (also tests data-parallel workers)
+# Simple case
 SIMPLE_TESTING_CONFIG = DistributedTestingConfig(
     name="simple",
     compare=None,
@@ -133,25 +134,33 @@ def get_config(relative: float = 0, absolute: float = 0, **kwargs) -> CompareCon
     ),
     # Micro-sequence baseline
     DistributedTestingConfig(
-        name="ms",
+        name="ms4",
         compare="simple",
-        config_args=["batch.micro_sequence_length=256"],
+        config_args=["schedule.micro_batch_splits=4"],
         num_gpus=1,
         compare_config=_compare_layer_mismatch,
     ),
-    # Gradient accumulation baseline.
+    # Gradient accumulation baselines.
+    DistributedTestingConfig(
+        name="df2",
+        config_args=["schedule.depth_first_micro_batches=4"],
+        num_gpus=1,
+    ),
     DistributedTestingConfig(
         name="df4",
-        compare="simple",
-        config_args=["batch.depth_first_micro_batches=4"],
+        config_args=["schedule.depth_first_micro_batches=4"],
+        num_gpus=1,
+    ),
+    DistributedTestingConfig(
+        name="df8",
+        config_args=["schedule.depth_first_micro_batches=4"],
         num_gpus=1,
-        compare_config=_compare_layer_mismatch,
     ),
     # Breadth-first gradient accumulation.
     DistributedTestingConfig(
         name="bf4",
         compare="df4",
-        config_args=["batch.breadth_first_micro_batches=4"],
+        config_args=["schedule.breadth_first_micro_batches=4"],
         num_gpus=1,
         compare_config=_compare_layer_match,
     ),
@@ -159,7 +168,7 @@ def get_config(relative: float = 0, absolute: float = 0, **kwargs) -> CompareCon
     DistributedTestingConfig(
         name="bf2_df2",
         compare="df4",
-        config_args=["batch.depth_first_micro_batches=2", "batch.breadth_first_micro_batches=2"],
+        config_args=["schedule.depth_first_micro_batches=2", "schedule.breadth_first_micro_batches=2"],
         num_gpus=1,
         compare_config=_compare_layer_match,
     ),
@@ -173,15 +182,16 @@ def get_config(relative: float = 0, absolute: float = 0, **kwargs) -> CompareCon
     # Simple
     DistributedTestingConfig(
         name="dp2",
-        compare="simple",
+        compare="df2",
         config_args=[],
         num_gpus=2,
-        compare_config=_compare_layer_match,
+        # TODO: layer outputs are the same but logged differently.
+        compare_config=_compare_layer_mismatch,
     ),
     # Zero stage 2
     DistributedTestingConfig(
         name="dp2_z2",
-        compare="simple",
+        compare="dp2",
         config_args=["model.multi_stage.zero_stage=2"],
         num_gpus=2,
         compare_config=_compare_layer_match,
@@ -189,7 +199,7 @@ def get_config(relative: float = 0, absolute: float = 0, **kwargs) -> CompareCon
     # Zero stage 3
     DistributedTestingConfig(
         name="dp2_z3",
-        compare="simple",
+        compare="dp2",
         config_args=["model.multi_stage.zero_stage=3"],
         num_gpus=2,
         compare_config=_compare_layer_match,
@@ -197,15 +207,15 @@ def get_config(relative: float = 0, absolute: float = 0, **kwargs) -> CompareCon
     # Depth-first micro-batches
     DistributedTestingConfig(
         name="dp2_z3_df4",
-        compare="df4",
-        config_args=["model.multi_stage.zero_stage=3", "batch.depth_first_micro_batches=4"],
+        compare="df8",
+        config_args=["model.multi_stage.zero_stage=3", "schedule.depth_first_micro_batches=4"],
         num_gpus=2,
         compare_config=_z3_accumulation_compare,
     ),
     # Sequence-data-parallel
     DistributedTestingConfig(
         name="sdp2",
-        compare="simple",
+        compare="dp2",
         config_args=["model.distributed.sequence_data_parallel=2"],
         num_gpus=2,
         compare_config=_compare_layer_match,
@@ -236,7 +246,7 @@ def get_config(relative: float = 0, absolute: float = 0, **kwargs) -> CompareCon
         compare="df4",
         config_args=[
             "model.distributed.tensor_parallel=2",
-            "batch.depth_first_micro_batches=4",
+            "schedule.depth_first_micro_batches=4",
         ],
         num_gpus=2,
         compare_config=_compare_layer_match,
@@ -258,7 +268,7 @@ def get_config(relative: float = 0, absolute: float = 0, **kwargs) -> CompareCon
     # Simple
     DistributedTestingConfig(
         name="dp2_stp2",
-        compare="simple",
+        compare="dp2",
         config_args=[
             "model.distributed.tensor_parallel=2",
             "model.distributed.sequence_tensor_parallel=True",
@@ -269,20 +279,20 @@ def get_config(relative: float = 0, absolute: float = 0, **kwargs) -> CompareCon
     # Breadth-first micro-batches
     DistributedTestingConfig(
         name="sdp2_stp2_bf4",
-        compare="df4",
+        compare="dp2_z3_df4",
         config_args=[
             "model.distributed.sequence_data_parallel=2",
             "model.distributed.tensor_parallel=2",
             "model.distributed.sequence_tensor_parallel=True",
-            "batch.breadth_first_micro_batches=4",
+            "schedule.breadth_first_micro_batches=4",
         ],
         num_gpus=4,
-        compare_config=_compare_layer_match,
+        compare_config=_compare_layer_mismatch,
     ),
     # Sequence-data-parallel
     DistributedTestingConfig(
         name="sdp2_stp2",
-        compare="simple",
+        compare="dp2",
         config_args=[
             "model.distributed.sequence_data_parallel=2",
             "model.distributed.tensor_parallel=2",
@@ -299,7 +309,7 @@ def get_config(relative: float = 0, absolute: float = 0, **kwargs) -> CompareCon
         config_args=[
             "model.distributed.pipeline_parallel=2",
             "model.multi_stage.layers_per_stage=2",
-            "batch.breadth_first_micro_batches=4",
+            "schedule.breadth_first_micro_batches=4",
         ],
         num_gpus=2,
         compare_config=_compare_layer_match,
@@ -311,19 +321,19 @@ def get_config(relative: float = 0, absolute: float = 0, **kwargs) -> CompareCon
         config_args=[
             "model.distributed.pipeline_parallel=2",
             "model.multi_stage.layers_per_stage=1",
-            "batch.breadth_first_micro_batches=4",
+            "schedule.breadth_first_micro_batches=4",
         ],
         num_gpus=2,
         compare_config=_pp_tied_weight_compare,
     ),
     # Micro-sequence [ms]
     DistributedTestingConfig(
-        name="pp2s2_ms",
-        compare="ms",
+        name="pp2s2_ms4",
+        compare="ms4",
         config_args=[
             "model.distributed.pipeline_parallel=2",
             "model.multi_stage.layers_per_stage=2",
-            "batch.micro_sequence_length=256",
+            "schedule.micro_batch_splits=4",
         ],
         num_gpus=2,
         compare_config=_compare_layer_match,
@@ -332,14 +342,14 @@ def get_config(relative: float = 0, absolute: float = 0, **kwargs) -> CompareCon
     # Simple
     DistributedTestingConfig(
         name="dp2_pp2s2_bf4",
-        compare="df4",
+        compare="dp2_z3_df4",
         config_args=[
             "model.distributed.pipeline_parallel=2",
             "model.multi_stage.layers_per_stage=2",
-            "batch.breadth_first_micro_batches=4",
+            "schedule.breadth_first_micro_batches=4",
         ],
         num_gpus=4,
-        compare_config=_compare_layer_match,
+        compare_config=_compare_layer_mismatch,
     ),
     # ===== 2d configs (Tensor + Pipeline)
     # Simple [mb]
@@ -351,7 +361,7 @@ def get_config(relative: float = 0, absolute: float = 0, **kwargs) -> CompareCon
             "model.distributed.sequence_tensor_parallel=True",
             "model.distributed.pipeline_parallel=2",
             "model.multi_stage.layers_per_stage=2",
-            "batch.breadth_first_micro_batches=4",
+            "schedule.breadth_first_micro_batches=4",
         ],
         num_gpus=4,
         compare_config=_pp_tied_weight_compare,
@@ -359,14 +369,14 @@ def get_config(relative: float = 0, absolute: float = 0, **kwargs) -> CompareCon
     # ===== Data + Tensor + Pipeline
     # Simple
     DistributedTestingConfig(
-        name="dp2_stp2_pp2s2",
-        compare="mb",
+        name="dp2_stp2_pp2s2_bf4",
+        compare="dp2_z3_df4",
         config_args=[
             "model.distributed.tensor_parallel=2",
             "model.distributed.sequence_tensor_parallel=True",
             "model.distributed.pipeline_parallel=2",
             "model.multi_stage.layers_per_stage=2",
-            "batch.breadth_first_micro_batches=4",
+            "schedule.breadth_first_micro_batches=4",
         ],
         num_gpus=8,
         compare_config=_compare_layer_match,
@@ -374,31 +384,31 @@ def get_config(relative: float = 0, absolute: float = 0, **kwargs) -> CompareCon
     # Tied weights on different ranks
     DistributedTestingConfig(
         name="dp2_tp2_pp2s1_bf4",
-        compare="mb",
+        compare="dp2_z3_df4",
         config_args=[
             "model.distributed.tensor_parallel=2",
             "model.distributed.sequence_tensor_parallel=True",
             "model.distributed.pipeline_parallel=2",
             "model.multi_stage.layers_per_stage=1",
-            "batch.breadth_first_micro_batches=4",
+            "schedule.breadth_first_micro_batches=4",
         ],
         num_gpus=8,
         compare_config=_pp_tied_weight_compare,
     ),
     # Micro-sequence
     DistributedTestingConfig(
-        name="sdp2_stp2_pp2s2_ms",
-        compare="ms",
+        name="sdp2_stp2_pp2s2_ms4",
+        compare="df2",
         config_args=[
             "model.distributed.sequence_data_parallel=2",
             "model.distributed.tensor_parallel=2",
             "model.distributed.sequence_tensor_parallel=True",
             "model.distributed.pipeline_parallel=2",
             "model.multi_stage.layers_per_stage=2",
-            "batch.micro_sequence_length=256",
+            "schedule.micro_batch_splits=4",
         ],
         num_gpus=8,
-        compare_config=_compare_layer_match,
+        compare_config=_compare_layer_mismatch,
     ),
 ]
 
diff --git a/tests/utils/model_configs.py b/tests/utils/model_configs.py
index b5b74fb9e..8d808e7c3 100644
--- a/tests/utils/model_configs.py
+++ b/tests/utils/model_configs.py
@@ -36,9 +36,6 @@
     EvaluatorsConfig,
 )
 
-if typing.TYPE_CHECKING:
-    import transformers.models.auto.auto_factory
-
 _LOG_LEVEL = int(os.environ.get("LOG_LEVEL", 13))
 
 
@@ -96,7 +93,7 @@ class ModelTestingConfig:
     get_dataset: typing.Callable[[bool], tuple[pathlib.Path, dict[str, typing.Any], pathlib.Path]] = (
         get_model_test_dataset
     )
-    auto_model_class: type["transformers.models.auto.auto_factory._BaseAutoModelClass"] = (
+    auto_model_class: type[transformers.models.auto.auto_factory._BaseAutoModelClass] = (
         transformers.AutoModelForCausalLM
     )
     requires_cuda: bool = False
@@ -267,8 +264,10 @@ def update_and_add_testing_config(
                 "use_cuda": torch.cuda.is_available(),
             },
         },
-        "batch": {"batch_size": 8, "sequence_length": 512},
-        "data": {"sampling": {"gpu": torch.cuda.is_available()}},
+        "data": {
+            "micro_batch_size": 512,
+            "gpu": torch.cuda.is_available(),
+        },
         "optimizer": {"learning_rate": {"base": 0.0001}},
     },
     megatron_args=[

From 7d1ec400f2af7c56d046356e8f4648ee3a3ac262 Mon Sep 17 00:00:00 2001
From: Joel Lamy-Poirier <joel.lamy-poirier@servicenow.com>
Date: Thu, 26 Feb 2026 16:18:39 -0500
Subject: [PATCH 27/37] fixes

---
 fast_llm/data/batch/config.py                 |  8 ++-
 fast_llm/data/batch/language_model.py         |  5 +-
 fast_llm/data/dataset/sampled.py              |  7 ++-
 fast_llm/data/document/abstract.py            |  2 +-
 fast_llm/data/document/token.py               | 15 ++++-
 fast_llm/engine/evaluation/evaluator.py       |  6 +-
 .../language_model/loss/entropy_loss.py       |  4 ++
 fast_llm/models/gpt/huggingface.py            |  3 +-
 fast_llm/models/gpt/model.py                  | 28 ++++-----
 tests/data/test_preprocessing.py              |  1 +
 tests/layers/test_varlen.py                   |  2 +
 tests/models/test_checkpoint.py               |  2 +-
 tests/utils/distributed_configs.py            | 60 +++++++++++++------
 tests/utils/model_configs.py                  |  3 +-
 14 files changed, 98 insertions(+), 48 deletions(-)

diff --git a/fast_llm/data/batch/config.py b/fast_llm/data/batch/config.py
index a38cf1835..389145098 100644
--- a/fast_llm/data/batch/config.py
+++ b/fast_llm/data/batch/config.py
@@ -22,7 +22,7 @@
 @config_class()
 class BatchPreprocessingConfig(PreprocessingConfig):
     distributed: DistributedConfig = Field()
-    phase: PhaseType = Field(default=PhaseType.inference)
+    phase: PhaseType = Field(default=PhaseType.training)
     micro_batch_splits: int = Field(default=1)
 
     def get_batch_meta(self, micro_batch_size: int = 1) -> "PreprocessedBatch":
@@ -52,10 +52,14 @@ def get_batch_meta(self, micro_batch_size: int = 1) -> "LanguageModelPreprocesse
         from fast_llm.data.document.token import TokenDocument
 
         device = torch.device("meta")
-        tokens = torch.empty(micro_batch_size + self.predicted_tokens, dtype=torch.int64, device=device)
+        tokens = torch.empty(micro_batch_size + self.num_labels, dtype=torch.int64, device=device)
         batch = LanguageModelBatch.from_documents([LanguageModelDocument(tokens=TokenDocument(tokens=tokens))])
         return LanguageModelPreprocessedBatch.from_batch(batch, config=self, device=device)
 
+    @functools.cached_property
+    def num_labels(self) -> int:
+        return 0 if self.phase == PhaseType.inference else self.predicted_tokens
+
     @functools.cached_property
     def use_image_patches(self) -> bool:
         return isinstance(self.image_patches, ImagePatchConfig)
diff --git a/fast_llm/data/batch/language_model.py b/fast_llm/data/batch/language_model.py
index 36e03ea7c..351421d54 100644
--- a/fast_llm/data/batch/language_model.py
+++ b/fast_llm/data/batch/language_model.py
@@ -121,7 +121,7 @@ def from_batch(
             device = batch.tokens.tokens.device
         batch = batch.to_device(device)
         is_meta = device.type == "meta"
-        total_input_length = len(batch) - config.predicted_tokens
+        total_input_length = len(batch) - config.num_labels
         input_length = div(total_input_length, config.micro_batch_splits)
 
         token_dim = TensorDim(
@@ -182,8 +182,9 @@ def from_batch(
                     micro_batch.document_index_q, micro_batch.document_index_k = cropped_sample.tokens.document_index
                 if config.return_position_index:
                     micro_batch.position_index = cropped_sample.tokens.position_index
+                    print("AAA", micro_sequence_index, micro_batch.position_index)
 
-                for prediction_distance in range(1, config.predicted_tokens + 1):
+                for prediction_distance in range(1, config.num_labels + 1):
                     label_begin = sequence_k_past + prediction_distance
                     label_end = sequence_k + prediction_distance
                     label_tokens = batch.tokens.crop(label_begin, label_end)
diff --git a/fast_llm/data/dataset/sampled.py b/fast_llm/data/dataset/sampled.py
index 9c2c8ba56..dd8d313c9 100644
--- a/fast_llm/data/dataset/sampled.py
+++ b/fast_llm/data/dataset/sampled.py
@@ -15,7 +15,7 @@
 from fast_llm.data.document.abstract import Document
 from fast_llm.engine.config_utils.data_type import DataType, get_unsigned_integer_type
 from fast_llm.engine.config_utils.run import log_main_rank
-from fast_llm.utils import Assert
+from fast_llm.utils import Assert, compare_nested
 
 try:
     from fast_llm.csrc.data import build_padded_token_cumsum  # noqa
@@ -171,6 +171,8 @@ def _sample(self) -> None:
             "config": self._config.to_dict(verbose=FieldVerboseLevel.everything),
         }
         del yaml_data["config"]["rank"]
+        del yaml_data["config"]["preprocessing"]
+        del yaml_data["config"]["cache_directory"]
         if self._config.truncate_documents:
             yaml_data["unshuffled_tokens"] = tokens_per_epoch * unshuffled_epochs
 
@@ -181,13 +183,14 @@ def _sample(self) -> None:
                 yaml_data["unshuffled_tokens"] = loaded_yaml_data["unshuffled_tokens"]
             self._load_yaml_data(yaml_data)
 
-            if loaded_yaml_data != yaml_data:
+            if errors := compare_nested(loaded_yaml_data, yaml_data):
                 raise RuntimeError(
                     f"Invalid dataset cache for dataset {self.name}."
                     " If this is due to an intended configuration change,"
                     " please delete the cache before continuing."
                     f"\nCurrent config:\n{yaml.safe_dump(yaml_data)}"
                     f"\nCached config:\n{yaml.safe_dump(loaded_yaml_data)}"
+                    f"\nDifferences:\n{"\n".join(errors)}"
                 )
             # Dataset is already sampled, skip.
             logger.info(f"Using existing sampling for dataset {self.name}")
diff --git a/fast_llm/data/document/abstract.py b/fast_llm/data/document/abstract.py
index 490b64b7c..50328a7a9 100644
--- a/fast_llm/data/document/abstract.py
+++ b/fast_llm/data/document/abstract.py
@@ -18,4 +18,4 @@ def crop(self, begin: int, end: int) -> typing.Self:
         pass
 
     def to_device(self, device: "torch.device | str") -> typing.Self:
-        pass
+        return self
diff --git a/fast_llm/data/document/token.py b/fast_llm/data/document/token.py
index 4c2ffbd55..88d5433e8 100644
--- a/fast_llm/data/document/token.py
+++ b/fast_llm/data/document/token.py
@@ -60,7 +60,7 @@ def crop(self, begin: int, end: int) -> typing.Self:
             cropped_length = min(document_end, end) - max(document_begin, begin)
             if cropped_length > 0:
                 lengths_.append(cropped_length)
-                if not current_document_begin:
+                if current_document_begin is None:
                     current_document_begin = document_begin
             if document_end > end:
                 break
@@ -104,6 +104,7 @@ def max_lengths(self) -> tuple[torch.Tensor, torch.Tensor]:
     @functools.cached_property
     def document_index(self) -> tuple[torch.Tensor, torch.Tensor]:
         cumulative_lengths_q, cumulative_lengths_k = self.cumulative_lengths
+        # Note: index starts at 1. Index 0 is for sequence k before `self.current_document_begin`.
         return (
             torch.searchsorted(cumulative_lengths_q, torch.arange(len(self.tokens)), side="right"),
             torch.searchsorted(
@@ -113,6 +114,14 @@ def document_index(self) -> tuple[torch.Tensor, torch.Tensor]:
 
     @functools.cached_property
     def position_index(self) -> torch.Tensor:
-        return torch.cat(
-            [torch.arange(document_length, dtype=torch.int32, device=self.device) for document_length in self.lengths]
+        _, document_index_k = self.document_index
+        _, cumulative_lengths_k = self.cumulative_lengths
+        document_begins = cumulative_lengths_k[
+            document_index_k[self.sequence_k_past : self.sequence_k_past + len(self.tokens)] - 1
+        ]
+        return (
+            torch.arange(
+                self.sequence_k_past, self.sequence_k_past + len(self.tokens), dtype=torch.int32, device=self.device
+            )
+            - document_begins
         )
diff --git a/fast_llm/engine/evaluation/evaluator.py b/fast_llm/engine/evaluation/evaluator.py
index ba82af566..fe89d83e7 100644
--- a/fast_llm/engine/evaluation/evaluator.py
+++ b/fast_llm/engine/evaluation/evaluator.py
@@ -88,9 +88,6 @@ def setup(
         preprocessing_config = self._multi_stage.get_preprocessing_config(
             PhaseType.validation, runner.config.micro_batch_splits
         )
-        self._data.sample_dataset(
-            self._name, preprocessing_config, run_count * self._config.iterations * self._schedule.samples_per_batch
-        )
         # Setup the schedule
         self._schedule = Schedule(
             config=runner.config,
@@ -100,6 +97,9 @@ def setup(
             phase=PhaseType.validation,
         )
         self._loss_definitions = self._multi_stage.base_model.get_loss_definitions()
+        self._data.sample_dataset(
+            self._name, preprocessing_config, run_count * self._config.iterations * self._schedule.samples_per_batch
+        )
         self._data_iterator = None
 
     def run(
diff --git a/fast_llm/layers/language_model/loss/entropy_loss.py b/fast_llm/layers/language_model/loss/entropy_loss.py
index e326b9555..a221b3747 100644
--- a/fast_llm/layers/language_model/loss/entropy_loss.py
+++ b/fast_llm/layers/language_model/loss/entropy_loss.py
@@ -2,6 +2,7 @@
 
 import torch
 
+from fast_llm.engine.distributed.config import PhaseType
 from fast_llm.functional.config import TargetFormat, TritonConfig
 from fast_llm.functional.entropy_loss import fused_entropy_loss_forward_backward
 from fast_llm.functional.triton.entropy_loss import triton_entropy_loss_forward_backward
@@ -60,3 +61,6 @@ def forward_backward(
             target_format=TargetFormat.logits,
             entropy_loss_type=self._config.loss_type,
         )
+
+    def get_preprocessing_config(self, phase: PhaseType) -> dict[str, typing.Any]:
+        return {"return_prediction_mask": True}
diff --git a/fast_llm/models/gpt/huggingface.py b/fast_llm/models/gpt/huggingface.py
index 79f6d6904..4c765f8a0 100644
--- a/fast_llm/models/gpt/huggingface.py
+++ b/fast_llm/models/gpt/huggingface.py
@@ -86,7 +86,7 @@ def _get_batch(
     ) -> LanguageModelPreprocessedBatch:
         # NOTE: We are ignoring position_ids as we reconstruct them from attention_mask via sequence_lengths.
         if attention_mask is None:
-            sequence_lengths = [input_ids.numel()]
+            sequence_lengths = [input_ids.size(1)] * input_ids.size(0)
         else:
             # First non-zero indexes or zero index if the row is all zeros (invalid row)
             first_non_zero_indexes = attention_mask.argmax(dim=1)
@@ -129,6 +129,7 @@ def _get_batch(
         if use_cache:
             # The transformers will save the present keys and values to this list.
             batch.micro_batches[0].presents = []
+        return batch
 
     def _inner_forward(
         self, batch: LanguageModelPreprocessedBatch, input_shape: tuple[int]
diff --git a/fast_llm/models/gpt/model.py b/fast_llm/models/gpt/model.py
index cb8b535a0..d8d994994 100644
--- a/fast_llm/models/gpt/model.py
+++ b/fast_llm/models/gpt/model.py
@@ -71,21 +71,21 @@ def preprocess_batch(
             if phase == PhaseType.inference:
                 kwargs[BlockKwargs.output_hidden_states].append(re.compile(r"head\..*logits.*$"))
 
-            for name, reference_model in self._reference_models.items():
-                reference_tokens, reference_kwargs = reference_preprocessed_batches[name][micro_sequence_index]
-                if name in self._decoder_reference_models:
-                    # TODO: Get the actual names
-                    reference_kwargs[BlockKwargs.output_hidden_states].append(
-                        re.compile(r"decoder\.\d+\.mixer_output$")
-                    )
-
-                reference_model.forward(reference_tokens, reference_kwargs, iteration=iteration)
-
-                kwargs[f"reference_{name}_hidden_states"] = {
-                    layer_name: tensor
-                    for layer_name, (meta, tensor) in reference_kwargs[BlockKwargs.hidden_states].items()
-                }
             if not micro_sequence.is_meta:
+                for name, reference_model in self._reference_models.items():
+                    reference_tokens, reference_kwargs = reference_preprocessed_batches[name][micro_sequence_index]
+                    if name in self._decoder_reference_models:
+                        # TODO: Get the actual names
+                        reference_kwargs[BlockKwargs.output_hidden_states].append(
+                            re.compile(r"decoder\.\d+\.mixer_output$")
+                        )
+
+                    reference_model.forward(reference_tokens, reference_kwargs, iteration=iteration)
+
+                    kwargs[f"reference_{name}_hidden_states"] = {
+                        layer_name: tensor
+                        for layer_name, (meta, tensor) in reference_kwargs[BlockKwargs.hidden_states].items()
+                    }
                 self.preprocess(kwargs)
             preprocessed.append((micro_sequence.tokens, kwargs))
 
diff --git a/tests/data/test_preprocessing.py b/tests/data/test_preprocessing.py
index 0e9b6fccc..33c8e416c 100644
--- a/tests/data/test_preprocessing.py
+++ b/tests/data/test_preprocessing.py
@@ -54,4 +54,5 @@ def test_preprocessing(tokens, loss_masking_spans):
         label_tokens.append(label_tokens_)
 
     Assert.eq(len(micro_batch.labels), 1)
+    print("AAA", micro_batch.labels)
     Assert.all_equal(micro_batch.labels[0], torch.cat(label_tokens)[1:])
diff --git a/tests/layers/test_varlen.py b/tests/layers/test_varlen.py
index af58899ca..99f1cd7f2 100644
--- a/tests/layers/test_varlen.py
+++ b/tests/layers/test_varlen.py
@@ -117,6 +117,8 @@ def test_mixer_varlen_stacking_equivalence(config: MixerConfig, lengths: list[in
         out_refs.append(out)
     out_ref = torch.cat(out_refs, dim=0)
 
+    print(out_packed.shape)
+
     Assert.rms_close_relative(out_packed, out_ref, 1e-3, 1e-4)
 
     for name, parameter, grad_packed in zip(names, parameters, grads_packed, strict=True):
diff --git a/tests/models/test_checkpoint.py b/tests/models/test_checkpoint.py
index 1da264739..dbc53f0b8 100644
--- a/tests/models/test_checkpoint.py
+++ b/tests/models/test_checkpoint.py
@@ -33,7 +33,7 @@
 _CHECKPOINT_AND_EVAL_ARGS = [
     "training.checkpoint.interval=1",
     "training.evaluators.validation.interval=2",
-    "training.evaluators.validation.evaluator.iterations=1",
+    "training.evaluators.validation.iterations=1",
 ]
 
 
diff --git a/tests/utils/distributed_configs.py b/tests/utils/distributed_configs.py
index e32a85aee..910f19bff 100644
--- a/tests/utils/distributed_configs.py
+++ b/tests/utils/distributed_configs.py
@@ -104,7 +104,7 @@ def get_config(relative: float = 0, absolute: float = 0, **kwargs) -> CompareCon
 SIMPLE_TESTING_CONFIG = DistributedTestingConfig(
     name="simple",
     compare=None,
-    config_args=[],
+    config_args=["data.micro_batch_size=4096"],
     num_gpus=1,
 )
 
@@ -113,14 +113,18 @@ def get_config(relative: float = 0, absolute: float = 0, **kwargs) -> CompareCon
         name="bf16",
         compare="simple",
         # Also tests parallel data loader.
-        config_args=["model.distributed.compute_dtype=bf16", "training.num_workers=1"],
+        config_args=[
+            "model.distributed.compute_dtype=bf16",
+            "training.num_workers=1",
+            "data.micro_batch_size=4096",
+        ],
         num_gpus=1,
         compare_config=_bf16_compare,
     ),
     DistributedTestingConfig(
         name="fp16",
         compare="simple",
-        config_args=["model.distributed.compute_dtype=fp16"],
+        config_args=["model.distributed.compute_dtype=fp16", "data.micro_batch_size=4096"],
         num_gpus=1,
         compare_config=_fp16_compare,
     ),
@@ -128,7 +132,7 @@ def get_config(relative: float = 0, absolute: float = 0, **kwargs) -> CompareCon
     DistributedTestingConfig(
         name="ce4",
         compare="simple",
-        config_args=["model.base_model.head.cross_entropy_splits=4"],
+        config_args=["model.base_model.head.cross_entropy_splits=4", "data.micro_batch_size=4096"],
         num_gpus=1,
         compare_config=_compare_layer_mismatch,
     ),
@@ -136,31 +140,31 @@ def get_config(relative: float = 0, absolute: float = 0, **kwargs) -> CompareCon
     DistributedTestingConfig(
         name="ms4",
         compare="simple",
-        config_args=["schedule.micro_batch_splits=4"],
+        config_args=["schedule.micro_batch_splits=4", "data.micro_batch_size=4096"],
         num_gpus=1,
         compare_config=_compare_layer_mismatch,
     ),
     # Gradient accumulation baselines.
     DistributedTestingConfig(
         name="df2",
-        config_args=["schedule.depth_first_micro_batches=4"],
+        config_args=["schedule.depth_first_micro_batches=2", "data.micro_batch_size=2048"],
         num_gpus=1,
     ),
     DistributedTestingConfig(
         name="df4",
-        config_args=["schedule.depth_first_micro_batches=4"],
+        config_args=["schedule.depth_first_micro_batches=4", "data.micro_batch_size=1024"],
         num_gpus=1,
     ),
     DistributedTestingConfig(
         name="df8",
-        config_args=["schedule.depth_first_micro_batches=4"],
+        config_args=["schedule.depth_first_micro_batches=8", "data.micro_batch_size=512"],
         num_gpus=1,
     ),
     # Breadth-first gradient accumulation.
     DistributedTestingConfig(
         name="bf4",
         compare="df4",
-        config_args=["schedule.breadth_first_micro_batches=4"],
+        config_args=["schedule.breadth_first_micro_batches=4", "data.micro_batch_size=1024"],
         num_gpus=1,
         compare_config=_compare_layer_match,
     ),
@@ -168,7 +172,11 @@ def get_config(relative: float = 0, absolute: float = 0, **kwargs) -> CompareCon
     DistributedTestingConfig(
         name="bf2_df2",
         compare="df4",
-        config_args=["schedule.depth_first_micro_batches=2", "schedule.breadth_first_micro_batches=2"],
+        config_args=[
+            "schedule.depth_first_micro_batches=2",
+            "schedule.breadth_first_micro_batches=2",
+            "data.micro_batch_size=1024",
+        ],
         num_gpus=1,
         compare_config=_compare_layer_match,
     ),
@@ -183,7 +191,7 @@ def get_config(relative: float = 0, absolute: float = 0, **kwargs) -> CompareCon
     DistributedTestingConfig(
         name="dp2",
         compare="df2",
-        config_args=[],
+        config_args=["data.micro_batch_size=2048"],
         num_gpus=2,
         # TODO: layer outputs are the same but logged differently.
         compare_config=_compare_layer_mismatch,
@@ -192,7 +200,7 @@ def get_config(relative: float = 0, absolute: float = 0, **kwargs) -> CompareCon
     DistributedTestingConfig(
         name="dp2_z2",
         compare="dp2",
-        config_args=["model.multi_stage.zero_stage=2"],
+        config_args=["model.multi_stage.zero_stage=2", "data.micro_batch_size=2048"],
         num_gpus=2,
         compare_config=_compare_layer_match,
     ),
@@ -200,7 +208,7 @@ def get_config(relative: float = 0, absolute: float = 0, **kwargs) -> CompareCon
     DistributedTestingConfig(
         name="dp2_z3",
         compare="dp2",
-        config_args=["model.multi_stage.zero_stage=3"],
+        config_args=["model.multi_stage.zero_stage=3", "data.micro_batch_size=2048"],
         num_gpus=2,
         compare_config=_compare_layer_match,
     ),
@@ -208,15 +216,19 @@ def get_config(relative: float = 0, absolute: float = 0, **kwargs) -> CompareCon
     DistributedTestingConfig(
         name="dp2_z3_df4",
         compare="df8",
-        config_args=["model.multi_stage.zero_stage=3", "schedule.depth_first_micro_batches=4"],
+        config_args=[
+            "model.multi_stage.zero_stage=3",
+            "schedule.depth_first_micro_batches=4",
+            "data.micro_batch_size=512",
+        ],
         num_gpus=2,
         compare_config=_z3_accumulation_compare,
     ),
     # Sequence-data-parallel
     DistributedTestingConfig(
         name="sdp2",
-        compare="dp2",
-        config_args=["model.distributed.sequence_data_parallel=2"],
+        compare="simple",
+        config_args=["model.distributed.sequence_data_parallel=2", "data.micro_batch_size=4096"],
         num_gpus=2,
         compare_config=_compare_layer_match,
     ),
@@ -225,7 +237,7 @@ def get_config(relative: float = 0, absolute: float = 0, **kwargs) -> CompareCon
     DistributedTestingConfig(
         name="tp2",
         compare="simple",
-        config_args=["model.distributed.tensor_parallel=2"],
+        config_args=["model.distributed.tensor_parallel=2", "data.micro_batch_size=4096"],
         num_gpus=2,
         compare_config=_compare_layer_match,
     ),
@@ -236,6 +248,7 @@ def get_config(relative: float = 0, absolute: float = 0, **kwargs) -> CompareCon
         config_args=[
             "model.distributed.tensor_parallel=2",
             "model.distributed.sequence_tensor_parallel=True",
+            "data.micro_batch_size=4096",
         ],
         num_gpus=2,
         compare_config=_compare_layer_match,
@@ -247,6 +260,7 @@ def get_config(relative: float = 0, absolute: float = 0, **kwargs) -> CompareCon
         config_args=[
             "model.distributed.tensor_parallel=2",
             "schedule.depth_first_micro_batches=4",
+            "data.micro_batch_size=1024",
         ],
         num_gpus=2,
         compare_config=_compare_layer_match,
@@ -260,6 +274,7 @@ def get_config(relative: float = 0, absolute: float = 0, **kwargs) -> CompareCon
             "model.distributed.sequence_tensor_parallel=True",
             "model.base_model.embeddings.vocab_parallel=False",
             "model.base_model.head.cross_entropy_splits=4",
+            "data.micro_batch_size=4096",
         ],
         num_gpus=2,
         compare_config=_compare_layer_match,
@@ -272,6 +287,7 @@ def get_config(relative: float = 0, absolute: float = 0, **kwargs) -> CompareCon
         config_args=[
             "model.distributed.tensor_parallel=2",
             "model.distributed.sequence_tensor_parallel=True",
+            "data.micro_batch_size=2048",
         ],
         num_gpus=4,
         compare_config=_compare_layer_match,
@@ -285,6 +301,7 @@ def get_config(relative: float = 0, absolute: float = 0, **kwargs) -> CompareCon
             "model.distributed.tensor_parallel=2",
             "model.distributed.sequence_tensor_parallel=True",
             "schedule.breadth_first_micro_batches=4",
+            "data.micro_batch_size=512",
         ],
         num_gpus=4,
         compare_config=_compare_layer_mismatch,
@@ -297,6 +314,7 @@ def get_config(relative: float = 0, absolute: float = 0, **kwargs) -> CompareCon
             "model.distributed.sequence_data_parallel=2",
             "model.distributed.tensor_parallel=2",
             "model.distributed.sequence_tensor_parallel=True",
+            "data.micro_batch_size=2048",
         ],
         num_gpus=4,
         compare_config=_compare_layer_match,
@@ -310,6 +328,7 @@ def get_config(relative: float = 0, absolute: float = 0, **kwargs) -> CompareCon
             "model.distributed.pipeline_parallel=2",
             "model.multi_stage.layers_per_stage=2",
             "schedule.breadth_first_micro_batches=4",
+            "data.micro_batch_size=1024",
         ],
         num_gpus=2,
         compare_config=_compare_layer_match,
@@ -322,6 +341,7 @@ def get_config(relative: float = 0, absolute: float = 0, **kwargs) -> CompareCon
             "model.distributed.pipeline_parallel=2",
             "model.multi_stage.layers_per_stage=1",
             "schedule.breadth_first_micro_batches=4",
+            "data.micro_batch_size=1024",
         ],
         num_gpus=2,
         compare_config=_pp_tied_weight_compare,
@@ -334,6 +354,7 @@ def get_config(relative: float = 0, absolute: float = 0, **kwargs) -> CompareCon
             "model.distributed.pipeline_parallel=2",
             "model.multi_stage.layers_per_stage=2",
             "schedule.micro_batch_splits=4",
+            "data.micro_batch_size=4096",
         ],
         num_gpus=2,
         compare_config=_compare_layer_match,
@@ -347,6 +368,7 @@ def get_config(relative: float = 0, absolute: float = 0, **kwargs) -> CompareCon
             "model.distributed.pipeline_parallel=2",
             "model.multi_stage.layers_per_stage=2",
             "schedule.breadth_first_micro_batches=4",
+            "data.micro_batch_size=512",
         ],
         num_gpus=4,
         compare_config=_compare_layer_mismatch,
@@ -362,6 +384,7 @@ def get_config(relative: float = 0, absolute: float = 0, **kwargs) -> CompareCon
             "model.distributed.pipeline_parallel=2",
             "model.multi_stage.layers_per_stage=2",
             "schedule.breadth_first_micro_batches=4",
+            "data.micro_batch_size=1024",
         ],
         num_gpus=4,
         compare_config=_pp_tied_weight_compare,
@@ -377,6 +400,7 @@ def get_config(relative: float = 0, absolute: float = 0, **kwargs) -> CompareCon
             "model.distributed.pipeline_parallel=2",
             "model.multi_stage.layers_per_stage=2",
             "schedule.breadth_first_micro_batches=4",
+            "data.micro_batch_size=412",
         ],
         num_gpus=8,
         compare_config=_compare_layer_match,
@@ -391,6 +415,7 @@ def get_config(relative: float = 0, absolute: float = 0, **kwargs) -> CompareCon
             "model.distributed.pipeline_parallel=2",
             "model.multi_stage.layers_per_stage=1",
             "schedule.breadth_first_micro_batches=4",
+            "data.micro_batch_size=512",
         ],
         num_gpus=8,
         compare_config=_pp_tied_weight_compare,
@@ -406,6 +431,7 @@ def get_config(relative: float = 0, absolute: float = 0, **kwargs) -> CompareCon
             "model.distributed.pipeline_parallel=2",
             "model.multi_stage.layers_per_stage=2",
             "schedule.micro_batch_splits=4",
+            "data.micro_batch_size=2048",
         ],
         num_gpus=8,
         compare_config=_compare_layer_mismatch,
diff --git a/tests/utils/model_configs.py b/tests/utils/model_configs.py
index 8d808e7c3..d0fa24a51 100644
--- a/tests/utils/model_configs.py
+++ b/tests/utils/model_configs.py
@@ -265,7 +265,7 @@ def update_and_add_testing_config(
             },
         },
         "data": {
-            "micro_batch_size": 512,
+            "maximum_document_length": 512,
             "gpu": torch.cuda.is_available(),
         },
         "optimizer": {"learning_rate": {"base": 0.0001}},
@@ -566,7 +566,6 @@ def update_and_add_testing_config(
         ("model", "base_model", "head", "losses"): {
             "distillation": {"type": "distillation", "loss_type": "reverse_kl", "reference_model": "teacher"},
         },
-        ("batch", "use_loss_masking_spans"): True,
         ("reference_models"): {
             "teacher": {
                 "model": {"base_model": copy.deepcopy(_mistral_base_model)},

From 3944dbba859028aebda4face0dadbeb2ace7b3db Mon Sep 17 00:00:00 2001
From: Joel Lamy-Poirier <joel.lamy-poirier@servicenow.com>
Date: Thu, 5 Mar 2026 20:27:51 -0500
Subject: [PATCH 28/37] stuff

---
 fast_llm/config.py                            |  25 ++-
 fast_llm/data/auto.py                         |   5 +-
 fast_llm/data/batch/config.py                 | 117 ----------
 fast_llm/data/batch/language_model.py         | 212 ------------------
 fast_llm/data/data/abstract.py                |   7 +-
 fast_llm/data/data/gpt/data.py                |  21 +-
 fast_llm/data/dataset/config.py               |  16 +-
 fast_llm/data/dataset/gpt/config.py           |  13 +-
 fast_llm/data/dataset/gpt/fim.py              |  11 +-
 fast_llm/data/dataset/gpt/legacy_memmap.py    |  57 ++---
 fast_llm/data/dataset/gpt/random.py           |  19 +-
 fast_llm/data/dataset/memmap/abstract.py      |  17 +-
 fast_llm/data/dataset/memmap/config.py        |  76 +++----
 .../data/dataset/memmap/language_model.py     | 119 ++++------
 fast_llm/data/dataset/memmap/memmap.py        |  29 +--
 fast_llm/data/dataset/memmap/patch.py         |   6 +-
 fast_llm/data/dataset/memmap/range.py         |   6 +-
 fast_llm/data/dataset/memmap/token.py         |   6 +-
 fast_llm/data/document/abstract.py            |  60 ++++-
 fast_llm/data/document/block.py               | 135 +++++++++++
 fast_llm/data/document/config.py              | 104 +++++++++
 fast_llm/data/document/language_model.py      | 176 +++++++++------
 fast_llm/data/document/patch.py               | 146 +++++++++---
 fast_llm/data/document/range.py               |   8 +-
 fast_llm/data/document/token.py               | 141 +++++-------
 .../data/{batch => preparation}/__init__.py   |   0
 .../{preparator => preparation}/config.py     |   0
 .../dataset_discovery/README.md               |   0
 .../dataset_discovery}/__init__.py            |   0
 .../dataset_discovery/config.py               |   6 +-
 .../dataset_discovery/prepare.py              |   7 +-
 .../gpt_memmap}/__init__.py                   |   0
 .../gpt_memmap/config.py                      |  12 +-
 .../gpt_memmap/prepare.py                     |  29 +--
 .../image_patch.py                            |  32 +--
 .../tokenizer.py                              |   7 +-
 .../data/preparator/gpt_memmap/__init__.py    |   0
 fast_llm/data/preprocessing/__init__.py       |   0
 fast_llm/data/preprocessing/abstract.py       |  42 ----
 fast_llm/data/preprocessing/language_model.py |  44 ----
 fast_llm/engine/base_model/base_model.py      |  12 +-
 fast_llm/engine/evaluation/config.py          |   2 +-
 fast_llm/engine/evaluation/evaluator.py       |   7 +-
 fast_llm/engine/inference/runner.py           |   2 +-
 fast_llm/engine/multi_stage/fast_llm_model.py |   2 +-
 fast_llm/engine/schedule/schedule.py          |   4 +-
 fast_llm/engine/training/trainer.py           |   2 +-
 fast_llm/layers/attention/attention.py        |   7 +-
 fast_llm/layers/block/sequence.py             |  10 +-
 fast_llm/layers/decoder/block.py              |   6 +-
 fast_llm/layers/language_model/config.py      |   1 -
 fast_llm/layers/language_model/embedding.py   |  18 +-
 fast_llm/layers/language_model/head.py        |   6 +-
 .../layers/language_model/language_model.py   |  19 +-
 fast_llm/layers/language_model/loss/dpo.py    |   3 +-
 .../language_model/loss/entropy_loss.py       |   3 +-
 fast_llm/layers/language_model/loss/loss.py   |   6 +-
 .../language_model/multi_token_prediction.py  |   6 +-
 fast_llm/layers/ssm/gdn.py                    |   4 +-
 fast_llm/layers/ssm/kda.py                    |   4 +-
 fast_llm/layers/ssm/mamba.py                  |   4 +-
 fast_llm/layers/vision/config.py              |  47 +---
 fast_llm/layers/vision/embeddings.py          |  10 +-
 fast_llm/layers/vision/vision_encoder.py      |  22 +-
 fast_llm/models/gpt/huggingface.py            | 149 ++++++------
 fast_llm/models/gpt/model.py                  |  23 +-
 fast_llm/models/multimodal/huggingface.py     |  35 ++-
 fast_llm/models/multimodal/model.py           | 135 +----------
 fast_llm/models/multimodal/trainer.py         |  19 +-
 tests/data/common.py                          |  29 ++-
 tests/data/test_concatenate.py                |   3 +-
 tests/data/test_dataset_discovery.py          |   2 +-
 tests/data/test_image_patch.py                |  24 +-
 tests/data/test_loss_masking_spans.py         |  30 +--
 tests/data/test_preference_spans.py           |  24 +-
 tests/data/test_preparator.py                 |  46 ++--
 tests/data/test_preprocessing.py              |  23 +-
 tests/data/test_random.py                     |   4 +-
 tests/data/test_sampling.py                   |  11 +-
 tests/data/test_slice.py                      |   2 +-
 tests/data/test_tokenizer.py                  |   4 +-
 tests/layers/test_attention.py                |  29 +--
 tests/layers/test_varlen.py                   |  52 ++---
 tests/models/test_match_megatron.py           |   9 +-
 tests/utils/dataset.py                        |  45 ++--
 85 files changed, 1103 insertions(+), 1513 deletions(-)
 delete mode 100644 fast_llm/data/batch/config.py
 delete mode 100644 fast_llm/data/batch/language_model.py
 create mode 100644 fast_llm/data/document/block.py
 create mode 100644 fast_llm/data/document/config.py
 rename fast_llm/data/{batch => preparation}/__init__.py (100%)
 rename fast_llm/data/{preparator => preparation}/config.py (100%)
 rename fast_llm/data/{preparator => preparation}/dataset_discovery/README.md (100%)
 rename fast_llm/data/{preparator => preparation/dataset_discovery}/__init__.py (100%)
 rename fast_llm/data/{preparator => preparation}/dataset_discovery/config.py (82%)
 rename fast_llm/data/{preparator => preparation}/dataset_discovery/prepare.py (93%)
 rename fast_llm/data/{preparator/dataset_discovery => preparation/gpt_memmap}/__init__.py (100%)
 rename fast_llm/data/{preparator => preparation}/gpt_memmap/config.py (96%)
 rename fast_llm/data/{preparator => preparation}/gpt_memmap/prepare.py (95%)
 rename fast_llm/data/{preprocessing => preparation}/image_patch.py (86%)
 rename fast_llm/data/{preprocessing => preparation}/tokenizer.py (97%)
 delete mode 100644 fast_llm/data/preparator/gpt_memmap/__init__.py
 delete mode 100644 fast_llm/data/preprocessing/__init__.py
 delete mode 100644 fast_llm/data/preprocessing/abstract.py
 delete mode 100644 fast_llm/data/preprocessing/language_model.py

diff --git a/fast_llm/config.py b/fast_llm/config.py
index 5411a2078..6b947bce5 100644
--- a/fast_llm/config.py
+++ b/fast_llm/config.py
@@ -20,7 +20,7 @@
 _AUTO_VALIDATE = True
 
 MISSING = Tag("<MISSING>")
-DEFAULT = Tag("<DEFAULT>")
+# DEFAULT = Tag("<DEFAULT>")
 
 
 class NoAutoValidate:
@@ -425,12 +425,12 @@ def _validate(self) -> None:
                 if not field.init or field._field_type != dataclasses._FIELD:  # noqa
                     continue
                 value = getattr(self, name)
-                if isinstance(value, Tag):
-                    Assert.is_(value, DEFAULT)
-                    # Replace the value with its default.
-                    # We still need to validate because some fields have invalid defaults.
-                    # TODO: Improve (still needed with new config update format? Do earlier to allow implicit defaults?)
-                    value = field.default
+                # if isinstance(value, Tag):
+                #    Assert.is_(value, DEFAULT)
+                #    # Replace the value with its default.
+                #    # We still need to validate because some fields have invalid defaults.
+                #    # TODO: Improve (still needed with new config update format? Do earlier to allow implicit defaults?)
+                #    value = field.default
                 new_value = self._validate_nested(value, field.type, field.name, field.valid, errors, False)
                 setattr(self, name, new_value)
         for name in getattr(self, "_unknown_fields", {}):
@@ -781,7 +781,15 @@ def _from_dict(cls, default: dict[str, typing.Any], strict: bool = True) -> typi
                     continue
                 # Check for nested configs to instantiate.
                 try:
-                    value = cls._from_dict_nested(default.pop(name, MISSING), field.type, strict)
+                    value = default.pop(name, MISSING)
+                    # Skip fields for which we want to use the provided default.
+                    # This will prevent unwanted config instantiation in union fields with non-config defaults,
+                    # For example optional config fields.
+                    if value is MISSING and (
+                        field.default is not dataclasses.MISSING or field.default_factory is not dataclasses.MISSING
+                    ):
+                        continue
+                    value = cls._from_dict_nested(value, field.type, strict)
                     if value is not MISSING:
                         out_arg_dict[name] = value
                 except FieldTypeError as e:
@@ -801,7 +809,6 @@ def _from_dict_nested(cls, value, type_, strict: bool):
         if type_ in (typing.Any, types.NoneType):
             pass
         elif isinstance(type_, types.UnionType):
-            # Takes care of Optional too
             value = cls._from_dict_union(value, type_, strict)
         elif hasattr(type_, "__origin__"):
             # TODO: Improve error messages for nested entries.
diff --git a/fast_llm/data/auto.py b/fast_llm/data/auto.py
index 51a49f5ef..36395e32c 100644
--- a/fast_llm/data/auto.py
+++ b/fast_llm/data/auto.py
@@ -2,7 +2,6 @@
 Import these submodules to ensure classes are added to the dynamic class registry.
 """
 
-from fast_llm.data.batch.config import LanguageModelBatchPreprocessingConfig  # isort: skip
 from fast_llm.data.dataset.config import (  # isort: skip
     BlendedDatasetConfig,
     ConcatenatedDatasetConfig,
@@ -21,5 +20,5 @@
     GPTFimSampledDatasetConfig,
     GPTRandomDatasetConfig,
 )
-from fast_llm.data.preparator.dataset_discovery.config import DatasetDiscoveryConfig  # isort: skip
-from fast_llm.data.preparator.gpt_memmap.config import GPTMemmapDatasetPreparatorConfig  # isort: skip
+from fast_llm.data.preparation.dataset_discovery.config import DatasetDiscoveryConfig  # isort: skip
+from fast_llm.data.preparation.gpt_memmap.config import GPTMemmapDatasetPreparatorConfig  # isort: skip
diff --git a/fast_llm/data/batch/config.py b/fast_llm/data/batch/config.py
deleted file mode 100644
index 389145098..000000000
--- a/fast_llm/data/batch/config.py
+++ /dev/null
@@ -1,117 +0,0 @@
-import abc
-import dataclasses
-import functools
-import logging
-import typing
-
-from fast_llm.config import Configurable, Field, config_class
-from fast_llm.data.document.abstract import Batch, Document
-from fast_llm.data.preprocessing.abstract import NullPreprocessingConfig, PreprocessingConfig
-from fast_llm.data.preprocessing.image_patch import ImagePatchConfig
-from fast_llm.data.preprocessing.language_model import LanguageModelPreprocessingConfig
-from fast_llm.data.preprocessing.tokenizer import TokenizerConfig
-from fast_llm.engine.distributed.config import DistributedConfig, PhaseType
-from fast_llm.utils import Assert
-
-if typing.TYPE_CHECKING:
-    import torch
-
-logger = logging.getLogger(__name__)
-
-
-@config_class()
-class BatchPreprocessingConfig(PreprocessingConfig):
-    distributed: DistributedConfig = Field()
-    phase: PhaseType = Field(default=PhaseType.training)
-    micro_batch_splits: int = Field(default=1)
-
-    def get_batch_meta(self, micro_batch_size: int = 1) -> "PreprocessedBatch":
-        raise NotImplementedError()
-
-
-@config_class(dynamic_type={PreprocessingConfig: "language_model_batch"})
-class LanguageModelBatchPreprocessingConfig(LanguageModelPreprocessingConfig, BatchPreprocessingConfig):
-    _abstract = False
-    predicted_tokens: int = Field(default=1)
-    return_cumulative_sequence_lengths: bool = Field(default=False)
-    return_max_sequence_lengths: bool = Field(default=False)
-    return_document_index: bool = Field(default=False)
-    return_position_index: bool = Field(default=False)
-    return_prediction_mask: bool = Field(default=False)
-
-    def _validate(self) -> None:
-        super()._validate()
-        Assert.custom(isinstance, self.image_patches, (ImagePatchConfig, NullPreprocessingConfig))
-        Assert.custom(isinstance, self.tokenizer, (TokenizerConfig, NullPreprocessingConfig))
-
-    def get_batch_meta(self, micro_batch_size: int = 1) -> "LanguageModelPreprocessedBatch":
-        import torch
-
-        from fast_llm.data.batch.language_model import LanguageModelPreprocessedBatch
-        from fast_llm.data.document.language_model import LanguageModelBatch, LanguageModelDocument
-        from fast_llm.data.document.token import TokenDocument
-
-        device = torch.device("meta")
-        tokens = torch.empty(micro_batch_size + self.num_labels, dtype=torch.int64, device=device)
-        batch = LanguageModelBatch.from_documents([LanguageModelDocument(tokens=TokenDocument(tokens=tokens))])
-        return LanguageModelPreprocessedBatch.from_batch(batch, config=self, device=device)
-
-    @functools.cached_property
-    def num_labels(self) -> int:
-        return 0 if self.phase == PhaseType.inference else self.predicted_tokens
-
-    @functools.cached_property
-    def use_image_patches(self) -> bool:
-        return isinstance(self.image_patches, ImagePatchConfig)
-
-    def check_compatibility(self, preprocessing: typing.Self) -> None:
-        Assert.custom(isinstance, preprocessing, LanguageModelPreprocessingConfig)
-        # TODO: Check more tokenizer data, ex. bos/eos tokens? path if points to HF hub?
-        if self.vocab_size is not None and preprocessing.vocab_size is not None:
-            Assert.leq(self.vocab_size, preprocessing.vocab_size)
-        if preprocessing.use_preference_spans:
-            # Preference spans are strictly needed for DPO loss.
-            assert self.use_preference_spans, "The dataset is missing required preference spans"
-        if preprocessing.use_image_patches and self.use_image_patches:
-            self.image_patches.check_compatibility(preprocessing.image_patches)
-
-
-@dataclasses.dataclass
-class ModelInput:
-    pass
-
-
-class PreprocessedBatch[ConfigType: BatchPreprocessingConfig, ModelInputType: ModelInput](Configurable[ConfigType]):
-    def __init__(self, config: ConfigType, micro_batches: list[ModelInputType]):
-        super().__init__(config)
-        self._micro_batches = micro_batches
-
-    @property
-    def micro_batches(self) -> list[ModelInputType]:
-        return self._micro_batches
-
-    def __len__(self) -> int:
-        return len(self._micro_batches)
-
-    def __getitem__(self, idx: int) -> ModelInputType:
-        return self._micro_batches[idx]
-
-    @classmethod
-    @abc.abstractmethod
-    def from_documents(
-        cls,
-        documents: list[Document],
-        config: BatchPreprocessingConfig,
-        device: "torch.device | None" = None,
-    ) -> typing.Self:
-        pass
-
-    @classmethod
-    @abc.abstractmethod
-    def from_batch(
-        cls,
-        batch: Batch,
-        config: BatchPreprocessingConfig,
-        device: "torch.device | None" = None,
-    ) -> typing.Self:
-        pass
diff --git a/fast_llm/data/batch/language_model.py b/fast_llm/data/batch/language_model.py
deleted file mode 100644
index 351421d54..000000000
--- a/fast_llm/data/batch/language_model.py
+++ /dev/null
@@ -1,212 +0,0 @@
-import dataclasses
-import typing
-
-import torch
-
-from fast_llm.data.batch.config import LanguageModelBatchPreprocessingConfig, ModelInput, PreprocessedBatch
-from fast_llm.data.document.language_model import LanguageModelBatch, LanguageModelDocument
-from fast_llm.engine.config_utils.tensor_dim import TensorDim
-from fast_llm.engine.distributed.config import DistributedDimNames
-from fast_llm.layers.attention.config import AttentionKwargs
-from fast_llm.layers.language_model.config import LanguageModelKwargs
-from fast_llm.tensor import TensorMeta
-from fast_llm.utils import div
-
-
-@dataclasses.dataclass
-class LanguageModelInput(ModelInput):
-    config: LanguageModelBatchPreprocessingConfig
-    tokens: torch.Tensor
-    token_dim: TensorDim
-    hidden_token_dim: TensorDim
-    sequence_k_dim: TensorDim
-    # TODO: Adjust names
-    num_tokens: int  # Number of tokens in the micro-batch excluding padding at the end.
-    sequence_length: int  # Total number of tokens across all micro-batches, including padding.
-    document_lengths: list[int]
-    is_meta: bool
-    labels: list[torch.Tensor] = dataclasses.field(default_factory=list)
-    prediction_masks: list[torch.Tensor] = dataclasses.field(default_factory=list)
-    cumulative_lengths_q: torch.Tensor | None = None
-    cumulative_lengths_k: torch.Tensor | None = None
-    max_length_q: torch.Tensor | None = None
-    max_length_k: torch.Tensor | None = None
-    document_index_q: torch.Tensor | None = None
-    document_index_k: torch.Tensor | None = None
-    position_index: torch.Tensor | None = None
-    # A set of intermediate the model should store in `hidden_states` for downstream usage,
-    # referred by name or regex pattern.
-    # Tensor names are generally of the form `{module_name}.{tensor_name}`.
-    # This field is typically populated downstream, depending on the task.
-    output_hidden_states: set[str] = dataclasses.field(default_factory=list)
-    # The model will populate this with the hidden states specified by `output_hidden_states`,
-    # together with the metadata necessary to reconstruct the global tensor.
-    hidden_states: dict[str, tuple[TensorMeta, torch.Tensor]] = dataclasses.field(default_factory=dict)
-    # Cached intermediate states (ex. key and value tensors) from earlier in the sequence.
-    pasts: list[typing.Any] | None = None
-    # If defined, the model will store intermediate states for downstream computation. Used together with `pasts`.
-    presents: list[typing.Any] | None = None
-    # TODO: ====== Preference spans? ======
-
-    def to_device_(self, device: torch.device):
-        self.tokens = self.tokens.to(device, non_blocking=True)
-        if self.cumulative_lengths_q is not None:
-            self.cumulative_lengths_q = self.cumulative_lengths_q.to(device, non_blocking=True)
-        if self.cumulative_lengths_k is not None:
-            self.cumulative_lengths_k = self.cumulative_lengths_k.to(device, non_blocking=True)
-        if self.max_length_q is not None:
-            self.max_length_q = self.max_length_q.to(device, non_blocking=True)
-        if self.max_length_k is not None:
-            self.max_length_k = self.max_length_k.to(device, non_blocking=True)
-        if self.document_index_q is not None:
-            self.document_index_q = self.document_index_q.to(device, non_blocking=True)
-        if self.document_index_k is not None:
-            self.document_index_k = self.document_index_k.to(device, non_blocking=True)
-        if self.position_index is not None:
-            self.position_index = self.position_index.to(device, non_blocking=True)
-
-    def to_kwargs(self) -> dict[str, typing.Any]:
-        # TODO: Avoid conversion, use `LanguageModelMicroBatch` directly instead.
-        return {
-            LanguageModelKwargs.phase: self.config.phase,
-            LanguageModelKwargs.device: self.tokens.device,
-            LanguageModelKwargs.token_dim: self.token_dim,
-            LanguageModelKwargs.hidden_token_dim: self.hidden_token_dim,
-            LanguageModelKwargs.sequence_k_dim: self.sequence_k_dim,
-            LanguageModelKwargs.num_tokens: self.num_tokens,
-            LanguageModelKwargs.sequence_length: self.sequence_length,
-            LanguageModelKwargs.sequence_lengths: self.document_lengths,
-            LanguageModelKwargs.labels: self.labels,
-            LanguageModelKwargs.loss_mask: self.prediction_masks,
-            AttentionKwargs.cu_seqlens_q: self.cumulative_lengths_q,
-            AttentionKwargs.cu_seqlens_k: self.cumulative_lengths_k,
-            AttentionKwargs.max_seqlen_q: self.max_length_q,
-            AttentionKwargs.max_seqlen_k: self.max_length_k,
-            AttentionKwargs.document_index_q: self.document_index_q,
-            AttentionKwargs.document_index_k: self.document_index_k,
-            LanguageModelKwargs.position_ids: self.position_index,
-            LanguageModelKwargs.output_hidden_states: self.output_hidden_states,
-            LanguageModelKwargs.hidden_states: self.hidden_states,
-            AttentionKwargs.past_key_values: self.pasts,
-            AttentionKwargs.presents: self.presents,
-        }
-
-
-@dataclasses.dataclass
-class LanguageModelPreprocessedBatch[
-    ConfigType: LanguageModelBatchPreprocessingConfig, ModelInputType: LanguageModelInput
-](PreprocessedBatch[ConfigType, ModelInputType]):
-    def __init__(self, config: LanguageModelBatchPreprocessingConfig, micro_batches: list[ModelInputType]):
-        super().__init__(config, micro_batches)
-
-    @classmethod
-    def from_documents(
-        cls,
-        documents: list[LanguageModelDocument],
-        config: ConfigType,
-        pad_to_size: int | None = None,
-        device: torch.device | None = None,
-    ) -> typing.Self:
-        batch = LanguageModelBatch.from_documents(documents, pad_to_size)
-        return cls.from_batch(batch, config=config, device=device)
-
-    @classmethod
-    def from_batch(
-        cls,
-        batch: LanguageModelBatch,
-        config: ConfigType,
-        device: torch.device | None = None,
-    ) -> typing.Self:
-        if device is None:
-            device = batch.tokens.tokens.device
-        batch = batch.to_device(device)
-        is_meta = device.type == "meta"
-        total_input_length = len(batch) - config.num_labels
-        input_length = div(total_input_length, config.micro_batch_splits)
-
-        token_dim = TensorDim(
-            "token",
-            input_length,
-            config.distributed.get_distributed_dim(DistributedDimNames.sequence_data),
-        )
-        hidden_token_dim = (
-            (
-                "token_tp",
-                input_length,
-                config.distributed.get_distributed_dim(DistributedDimNames.tensor_and_data),
-            )
-            if config.distributed.sequence_tensor_parallel
-            else token_dim
-        )
-        micro_batches = []
-        presents = None
-        for micro_sequence_index, sequence_k_past in enumerate(
-            range(
-                token_dim.size * config.distributed.sequence_data_rank,
-                total_input_length,
-                token_dim.global_size,
-            )
-        ):
-            pasts = presents
-            presents = None if micro_sequence_index == config.micro_batch_splits - 1 else []
-            sequence_k = sequence_k_past + token_dim.size
-            sequence_k_dim = TensorDim("sequence_k", sequence_k)
-            cropped_sample = batch.crop(sequence_k_past, sequence_k)
-            if is_meta:
-                tokens = TensorMeta.from_dims(
-                    (token_dim,), tensor_name=f"tokens_{sequence_k_past}_to_{sequence_k-1}", dtype=torch.int64
-                )
-            else:
-                tokens = batch.tokens.tokens[sequence_k_past:sequence_k]
-            micro_batch = LanguageModelInput(
-                config=config,
-                tokens=tokens,
-                token_dim=token_dim,
-                hidden_token_dim=hidden_token_dim,
-                sequence_k_dim=sequence_k_dim,
-                num_tokens=min(sequence_k, batch.num_tokens) - sequence_k_past,
-                sequence_length=total_input_length,
-                document_lengths=batch.tokens.lengths,
-                is_meta=is_meta,
-                pasts=pasts,
-                presents=presents,
-            )
-            if not is_meta:
-                if config.return_cumulative_sequence_lengths:
-                    micro_batch.cumulative_lengths_q, micro_batch.cumulative_lengths_k = (
-                        cropped_sample.tokens.cumulative_lengths
-                    )
-                if config.return_max_sequence_lengths or config.return_document_index:
-                    micro_batch.max_length_q, micro_batch.max_length_k = cropped_sample.tokens.max_lengths
-                if config.return_document_index:
-                    micro_batch.document_index_q, micro_batch.document_index_k = cropped_sample.tokens.document_index
-                if config.return_position_index:
-                    micro_batch.position_index = cropped_sample.tokens.position_index
-                    print("AAA", micro_sequence_index, micro_batch.position_index)
-
-                for prediction_distance in range(1, config.num_labels + 1):
-                    label_begin = sequence_k_past + prediction_distance
-                    label_end = sequence_k + prediction_distance
-                    label_tokens = batch.tokens.crop(label_begin, label_end)
-                    labels = label_tokens.tokens.clone()
-
-                    # Apply loss masking spans.
-                    if config.use_loss_masking_spans and batch.loss_masking_spans is not None:
-                        for span_begin, span_end in batch.loss_masking_spans.crop(label_begin, label_end).ranges:
-                            labels[span_begin:span_end] = -100
-
-                    # Mask cross-document predictions.
-                    document_begin = label_tokens.lengths[0]
-                    for length in label_tokens.lengths[1:]:
-                        labels[document_begin : document_begin + prediction_distance] = -100
-                        document_begin += length
-
-                    # Labels contain all four sources of masking: padding, user-defined spans, image placeholders, cross-document predictions.
-                    micro_batch.labels.append(labels)
-                    if config.return_prediction_mask:
-                        # TODO: Does the prediction mask really need all sources of masking?
-                        #   (i.e. lack of labels doesn't mean we can't do predictions and compute other losses.)
-                        micro_batch.prediction_masks.append(labels > 0)
-
-            micro_batches.append(micro_batch)
-        return cls(micro_batches=micro_batches, config=config)
diff --git a/fast_llm/data/data/abstract.py b/fast_llm/data/data/abstract.py
index d6d927ac1..244f9d712 100644
--- a/fast_llm/data/data/abstract.py
+++ b/fast_llm/data/data/abstract.py
@@ -3,8 +3,9 @@
 import typing
 
 from fast_llm.config import Configurable
-from fast_llm.data.batch.config import BatchPreprocessingConfig, PreprocessedBatch
 from fast_llm.data.data.config import DataConfig
+from fast_llm.data.document.abstract import Batch, ModelInput
+from fast_llm.data.document.config import BatchPreprocessingConfig
 from fast_llm.engine.distributed.config import DistributedConfig
 
 if typing.TYPE_CHECKING:
@@ -33,7 +34,7 @@ def sample_dataset(
         dataset_name: str,
         config: BatchPreprocessingConfig,
         num_samples: int,
-    ) -> PreprocessedBatch:
+    ) -> list[ModelInput]:
         pass
 
     def get_iterator(
@@ -45,5 +46,5 @@ def get_iterator(
         prefetch_factor: int | None = None,
         timeout: float = 60,
         preprocess: bool = True,
-    ) -> typing.Iterator[PreprocessedBatch]:
+    ) -> typing.Iterator[list[ModelInput] | Batch]:
         pass
diff --git a/fast_llm/data/data/gpt/data.py b/fast_llm/data/data/gpt/data.py
index 539d87193..aa9aa6948 100644
--- a/fast_llm/data/data/gpt/data.py
+++ b/fast_llm/data/data/gpt/data.py
@@ -6,8 +6,6 @@
 import torch
 import torch.utils.data
 
-from fast_llm.data.batch.config import LanguageModelBatchPreprocessingConfig
-from fast_llm.data.batch.language_model import LanguageModelPreprocessedBatch
 from fast_llm.data.data.abstract import Data
 from fast_llm.data.data.data_loader import SampledDatasetIterator
 from fast_llm.data.data.gpt.config import GPTDataConfig
@@ -15,7 +13,8 @@
 from fast_llm.data.dataset.config import SamplingConfigBase
 from fast_llm.data.dataset.gpt.config import GPTSamplingConfig
 from fast_llm.data.dataset.monitor import DatasetMonitor
-from fast_llm.data.document.language_model import LanguageModelBatch, LanguageModelDocument
+from fast_llm.data.document.config import LanguageModelBatchPreprocessingConfig
+from fast_llm.data.document.language_model import LanguageModelBatch, LanguageModelDocument, LanguageModelInput
 from fast_llm.engine.config_utils.run import log_main_rank
 from fast_llm.engine.distributed.config import DistributedConfig
 from fast_llm.utils import Assert
@@ -50,7 +49,7 @@ def sample_dataset(
         dataset_name: str,
         config: LanguageModelBatchPreprocessingConfig,
         num_samples: int,
-    ) -> LanguageModelPreprocessedBatch:
+    ) -> list[LanguageModelInput]:
         assert self._is_setup
         Assert.gt(num_samples, 0)
         if dataset_name not in self._config.datasets:
@@ -82,7 +81,7 @@ def sample_dataset(
         dataset = self._config.datasets[dataset_name].build_and_sample(sampling, num_samples, self._config.seed)
         self._datasets[dataset_name] = DatasetMonitor(dataset, self._config.data_sample_warn_time_ms)
 
-        return config.get_batch_meta(self._config.micro_batch_size)
+        return config.get_input_meta(self._config.micro_batch_size)
 
     def get_iterator(
         self,
@@ -93,7 +92,7 @@ def get_iterator(
         prefetch_factor: int | None = None,
         timeout: float = 60,
         preprocess: bool = True,
-    ) -> typing.Iterator[LanguageModelPreprocessedBatch]:
+    ) -> typing.Iterator[list[LanguageModelInput] | LanguageModelBatch]:
         assert self._is_setup
 
         # Some dataset names may come from phases and are capitalized,
@@ -126,12 +125,12 @@ def _collate_fn(
         documents: list[list[LanguageModelDocument]],
         dataset_name: str,
         preprocess: bool = True,
-    ) -> LanguageModelPreprocessedBatch | LanguageModelBatch:
+    ) -> list[LanguageModelInput] | LanguageModelBatch:
         documents = [document for documents_ in documents for document in documents_]
         pad_to_size = self._config.micro_batch_size + self._preprocessing[dataset_name].predicted_tokens
+        batch = LanguageModelBatch.from_documents(documents, pad_to_size)
+
         if preprocess:
-            return LanguageModelPreprocessedBatch.from_documents(
-                documents, self._preprocessing[dataset_name], pad_to_size
-            )
+            return batch.get_model_inputs(self._preprocessing[dataset_name])
         else:
-            return LanguageModelBatch.from_documents(documents, pad_to_size)
+            return batch
diff --git a/fast_llm/data/dataset/config.py b/fast_llm/data/dataset/config.py
index 2f5bd1437..7296f5c8c 100644
--- a/fast_llm/data/dataset/config.py
+++ b/fast_llm/data/dataset/config.py
@@ -9,7 +9,6 @@
 from fast_llm.config import Config, Field, FieldHint, check_field, config_class
 from fast_llm.data.dataset.abstract import SamplableDataset, SampledDataset
 from fast_llm.data.document.abstract import Document
-from fast_llm.data.preprocessing.abstract import PreprocessingConfig
 from fast_llm.utils import Assert, normalize_probabilities
 
 if typing.TYPE_CHECKING:
@@ -89,7 +88,6 @@ class SamplingConfig(SamplingConfigBase):
     predicted_tokens: int = Field(default=1)
     cache_directory: pathlib.Path | None = Field(default=None)
     dataset_name: str = Field(default="dataset")
-    preprocessing: PreprocessingConfig = Field()
     world_size: int = Field(default=1)
     rank: int = Field(default=0)
     _rank_counter: typing.Iterator[int] = Field(init=False)
@@ -124,16 +122,16 @@ def build_and_sample(self, config: SamplingConfig, num_samples: int, seed: int)
 
 @config_class()
 class SamplableDatasetConfig[DocumentType: Document](SampledDatasetConfig[DocumentType]):
-    def build(self, preprocessing: PreprocessingConfig) -> SamplableDataset[DocumentType]:
+    def build(self) -> SamplableDataset[DocumentType]:
         raise NotImplementedError()
 
     def build_and_sample(self, config: SamplingConfig, num_samples: int, seed: int) -> SampledDataset[DocumentType]:
-        return self.build(config.preprocessing).sample(config, num_samples, seed)
+        return self.build().sample(config, num_samples, seed)
 
 
 @config_class()
 class IndexedDatasetConfig[DocumentType: Document](SamplableDatasetConfig[DocumentType]):
-    def build(self, preprocessing: PreprocessingConfig) -> "IndexedDataset[DocumentType]":
+    def build(self) -> "IndexedDataset[DocumentType]":
         raise NotImplementedError()
 
 
@@ -157,10 +155,10 @@ class ConcatenatedDatasetConfig[DocumentType: Document](SamplableDatasetConfig[D
         valid=check_field(functools.partial(Assert.custom, lambda x: len(x) > 0)),
     )
 
-    def build(self, preprocessing: PreprocessingConfig) -> "ConcatenatedDataset":
+    def build(self) -> "ConcatenatedDataset":
         from fast_llm.data.dataset.indexed import ConcatenatedDataset
 
-        return ConcatenatedDataset(self.name, [dataset.build(preprocessing) for dataset in self.datasets])
+        return ConcatenatedDataset(self.name, [dataset.build() for dataset in self.datasets])
 
 
 @config_class(dynamic_type={SampledDatasetConfig: "slice"})
@@ -190,10 +188,10 @@ class DatasetSliceConfig[DocumentType: Document](SamplableDatasetConfig[Document
         hint=FieldHint.core,
     )
 
-    def build(self, preprocessing: PreprocessingConfig) -> "DatasetSlice":
+    def build(self) -> "DatasetSlice":
         from fast_llm.data.dataset.indexed import DatasetSlice
 
-        dataset = self.dataset.build(preprocessing)
+        dataset = self.dataset.build()
         size = len(dataset)
         return DatasetSlice[DocumentType](
             f"{dataset.name}_{self.begin}_{self.end}",
diff --git a/fast_llm/data/dataset/gpt/config.py b/fast_llm/data/dataset/gpt/config.py
index 62bcfb216..80d984645 100644
--- a/fast_llm/data/dataset/gpt/config.py
+++ b/fast_llm/data/dataset/gpt/config.py
@@ -4,12 +4,11 @@
 
 import yaml
 
-from fast_llm.config import Config, Field, FieldHint, FieldUpdate, check_field, config_class, skip_valid_if_none
+from fast_llm.config import Config, Field, FieldHint, check_field, config_class, skip_valid_if_none
 from fast_llm.data.dataset.abstract import SamplableDataset, SampledDataset
 from fast_llm.data.dataset.config import SamplableDatasetConfig, SampledDatasetConfig, SamplingConfig
-from fast_llm.data.preprocessing.abstract import PreprocessingConfig
-from fast_llm.data.preprocessing.language_model import LanguageModelPreprocessingConfig
-from fast_llm.data.preprocessing.tokenizer import TokenizerConfig
+from fast_llm.data.document.config import LanguageModelBatchPreprocessingConfig
+from fast_llm.data.preparation.tokenizer import TokenizerConfig
 from fast_llm.utils import Assert
 
 if typing.TYPE_CHECKING:
@@ -25,7 +24,7 @@ class GPTSamplingConfig(SamplingConfig):
     usage-dependent ones (`GPTSamplingParameters`), and others set by the `Data`.
     """
 
-    preprocessing: LanguageModelPreprocessingConfig = FieldUpdate()
+    preprocessing: LanguageModelBatchPreprocessingConfig = Field()
 
 
 @config_class(dynamic_type={SampledDatasetConfig: "random"})
@@ -57,10 +56,10 @@ class GPTDatasetFromFileConfig[DocumentType: LanguageModelDocument](SamplableDat
     def build_and_sample(self, config: SamplingConfig, num_samples: int, seed: int) -> SampledDataset[DocumentType]:
         return self._load_config().build_and_sample(config, num_samples, seed)
 
-    def build(self, preprocessing: PreprocessingConfig) -> SamplableDataset[DocumentType]:
+    def build(self) -> SamplableDataset[DocumentType]:
         config = self._load_config()
         assert isinstance(config, SamplableDatasetConfig)
-        return config.build(preprocessing)
+        return config.build()
 
     def _load_config(self) -> SampledDatasetConfig[DocumentType]:
         assert self.path.is_file(), f"File {self.path} does not exist."
diff --git a/fast_llm/data/dataset/gpt/fim.py b/fast_llm/data/dataset/gpt/fim.py
index 2f761e7f8..199eb8148 100644
--- a/fast_llm/data/dataset/gpt/fim.py
+++ b/fast_llm/data/dataset/gpt/fim.py
@@ -4,7 +4,6 @@
 from fast_llm.data.dataset.abstract import SampledDataset
 from fast_llm.data.dataset.gpt.config import FimConfig, GPTSamplingConfig
 from fast_llm.data.document.language_model import LanguageModelDocument
-from fast_llm.data.document.token import TokenDocument
 from fast_llm.engine.config_utils.data_type import DataType
 from fast_llm.engine.distributed.config import MAX_SEED
 
@@ -55,12 +54,10 @@ def __getitem__(self, index: int) -> list[DocumentType]:
 
         return [
             LanguageModelDocument(
-                tokens=TokenDocument(
-                    tokens=torch.from_numpy(
-                        self._fim(
-                            document.tokens.tokens.numpy(),
-                            np.random.RandomState(seed=(self._seed + index) % MAX_SEED),
-                        )
+                tokens=torch.from_numpy(
+                    self._fim(
+                        document.tokens.numpy(),
+                        np.random.RandomState(seed=(self._seed + index) % MAX_SEED),
                     )
                 )
             )
diff --git a/fast_llm/data/dataset/gpt/legacy_memmap.py b/fast_llm/data/dataset/gpt/legacy_memmap.py
index 0b47999b9..6f5d11c1e 100644
--- a/fast_llm/data/dataset/gpt/legacy_memmap.py
+++ b/fast_llm/data/dataset/gpt/legacy_memmap.py
@@ -7,8 +7,6 @@
 from fast_llm.data.dataset.indexed import IndexedDataset
 from fast_llm.data.document.language_model import LanguageModelDocument
 from fast_llm.data.document.range import RangeDocument
-from fast_llm.data.document.token import TokenDocument
-from fast_llm.data.preprocessing.language_model import LanguageModelPreprocessingConfig
 from fast_llm.engine.config_utils.data_type import DataType
 from fast_llm.utils import Assert, div
 
@@ -38,27 +36,24 @@ def __init__(
         self,
         name: str,
         prefix: pathlib.Path | str,
-        preprocessing: LanguageModelPreprocessingConfig,
     ):
-        self._init(name, prefix, preprocessing)
+        self._init(name, prefix)
 
-    def _init(self, name: str, prefix: pathlib.Path | str, preprocessing: LanguageModelPreprocessingConfig) -> None:
+    def _init(self, name: str, prefix: pathlib.Path | str) -> None:
         super().__init__()
         self._name = name
         self._prefix = pathlib.Path(prefix)
-        has_loss_masking_spans = False
-        has_preference_spans = False
-        assert isinstance(preprocessing, LanguageModelPreprocessingConfig)
-        self._preprocessing = preprocessing
+        self._has_loss_masking_spans = False
+        self._has_preference_spans = False
 
         with self._prefix.with_suffix(".idx").open("rb") as stream:
             Assert.eq(stream.read(9), MEMMAP_INDEX_HEADER, msg=f"File: {stream.name}")
             self._version = struct.unpack("<Q", stream.read(8))[0]
             assert self._version in [1, 2, 3], f"Unsupported version for gpt_memmap dataset: {self._version}."
             if self._version >= 2:
-                has_loss_masking_spans = struct.unpack("<B", stream.read(1))[0]
+                self._has_loss_masking_spans = struct.unpack("<B", stream.read(1))[0]
             if self._version >= 3:
-                has_preference_spans = struct.unpack("<B", stream.read(1))[0]
+                self._has_preference_spans = struct.unpack("<B", stream.read(1))[0]
 
             self._dtype = MEMMAP_DTYPES[struct.unpack("<B", stream.read(1))[0]].torch
             self._num_documents = struct.unpack("<Q", stream.read(8))[0]
@@ -72,7 +67,6 @@ def _init(self, name: str, prefix: pathlib.Path | str, preprocessing: LanguageMo
         self._document_sizes = np.frombuffer(
             self._index_bin_buffer, dtype=np.int32, count=self._num_documents, offset=offset
         )
-        assert not self._preprocessing.use_image_patches
 
         # read pointers
         self._pointers = np.frombuffer(
@@ -83,8 +77,7 @@ def _init(self, name: str, prefix: pathlib.Path | str, preprocessing: LanguageMo
         )
 
         # read spans
-        if self._preprocessing.use_loss_masking_spans:
-            assert has_loss_masking_spans
+        if self._has_loss_masking_spans:
             self._spans = []
             self._num_spans = np.frombuffer(
                 self._index_bin_buffer,
@@ -105,8 +98,7 @@ def _init(self, name: str, prefix: pathlib.Path | str, preprocessing: LanguageMo
                 )
 
         # read preference spans
-        if self._preprocessing.use_preference_spans:
-            assert has_preference_spans
+        if self._has_preference_spans:
             self._chosen_spans = []
             self._rejected_spans = []
             chosen_span_offset = offset + self._document_sizes.nbytes + self._pointers.nbytes
@@ -138,12 +130,11 @@ def _init(self, name: str, prefix: pathlib.Path | str, preprocessing: LanguageMo
 
         self._num_tokens = div(self._bin_buffer_mmap.size, self._dtype.itemsize)
 
-    def __getstate__(self) -> tuple[str, pathlib.Path, dict]:
-        return self._name, self._prefix, self._preprocessing.to_dict()
+    def __getstate__(self) -> tuple[str, pathlib.Path]:
+        return self._name, self._prefix
 
-    def __setstate__(self, state: tuple[str, pathlib.Path, dict]):
-        name, prefix, preprocessing = state
-        self._init(name, prefix, LanguageModelPreprocessingConfig.from_dict(preprocessing))
+    def __setstate__(self, state: tuple[str, pathlib.Path]):
+        self._init(*state)
 
     def __del__(self):
         if hasattr(self, "_bin_buffer_mmap"):
@@ -171,33 +162,27 @@ def get_document(self, index: int, begin: int = 0, end: int | None = None) -> Do
         if not self._dtype.is_signed:
             # Needed because torch doesn't yet support type promotion between signed and unsigned types. TODO: Remove when supported.
             token_ids = token_ids.to(torch.int64)
-        if self._preprocessing.use_loss_masking_spans:
-            assert self._spans is not None
-            if hasattr(self, "_spans"):
-                # Convert to in range format (begin, end).
-                sample_spans = RangeDocument(
-                    ranges=[(begin_, last_ + 1) for begin_, last_ in self._spans[index].tolist()]
-                ).crop(begin, end)
-            else:
-                sample_spans = RangeDocument(ranges=[])
+        if self._has_loss_masking_spans:
+            # Convert to in range format (begin, end).
+            sample_spans = RangeDocument(
+                ranges=[(begin_, last_ + 1) for begin_, last_ in self._spans[index].tolist()]
+            ).crop(begin, end)
         else:
             sample_spans = None
 
-        if self._preprocessing.use_preference_spans:
+        if self._has_preference_spans:
             # Convert to in range format (begin, end).
             chosen_spans = RangeDocument(
-                [(self._chosen_spans[index][0].item(), self._chosen_spans[index][1].item() + 1)],
-                sample_size,
+                ranges=[(self._chosen_spans[index][0].item(), self._chosen_spans[index][1].item() + 1)],
             ).crop(begin, end)
             rejected_spans = RangeDocument(
-                [(self._rejected_spans[index][0].item(), self._rejected_spans[index][1].item() + 1)],
-                sample_size,
+                ranges=[(self._rejected_spans[index][0].item(), self._rejected_spans[index][1].item() + 1)],
             ).crop(begin, end)
         else:
             chosen_spans = rejected_spans = None
 
         return LanguageModelDocument(
-            tokens=TokenDocument(token_ids),
+            tokens=token_ids,
             loss_masking_spans=sample_spans,
             chosen_spans=chosen_spans,
             rejected_spans=rejected_spans,
diff --git a/fast_llm/data/dataset/gpt/random.py b/fast_llm/data/dataset/gpt/random.py
index 281d0914f..58730ac3b 100644
--- a/fast_llm/data/dataset/gpt/random.py
+++ b/fast_llm/data/dataset/gpt/random.py
@@ -4,8 +4,6 @@
 from fast_llm.data.dataset.abstract import SampledDataset
 from fast_llm.data.dataset.gpt.config import GPTSamplingConfig
 from fast_llm.data.document.language_model import LanguageModelDocument
-from fast_llm.data.document.token import TokenDocument
-from fast_llm.data.preprocessing.language_model import LanguageModelPreprocessingConfig
 from fast_llm.engine.config_utils.data_type import get_unsigned_integer_type
 
 
@@ -16,7 +14,6 @@ def __init__(self, sampling: GPTSamplingConfig, name: str, num_samples: int, see
         self._config = sampling
         self._num_samples = num_samples
 
-        assert isinstance(sampling.preprocessing, LanguageModelPreprocessingConfig)
         self._vocab_size = sampling.preprocessing.vocab_size
 
         self._dtype = get_unsigned_integer_type(self._vocab_size).torch
@@ -28,15 +25,13 @@ def __getitem__(self, index: int) -> list[DocumentType]:
         # TODO: Sample in self._dtype (breaking)
         return [
             LanguageModelDocument(
-                tokens=TokenDocument(
-                    tokens=torch.from_numpy(
-                        np.random.RandomState(self._seed + 48576439 + 74593 * index).randint(
-                            0,
-                            self._vocab_size,
-                            size=(self._config.sample_size,),
-                        )
-                    ).to(self._dtype),
-                )
+                tokens=torch.from_numpy(
+                    np.random.RandomState(self._seed + 48576439 + 74593 * index).randint(
+                        0,
+                        self._vocab_size,
+                        size=(self._config.sample_size,),
+                    )
+                ).to(self._dtype),
             )
         ]
 
diff --git a/fast_llm/data/dataset/memmap/abstract.py b/fast_llm/data/dataset/memmap/abstract.py
index 6090d188a..c2f5cff34 100644
--- a/fast_llm/data/dataset/memmap/abstract.py
+++ b/fast_llm/data/dataset/memmap/abstract.py
@@ -13,7 +13,6 @@
     NullReaderConfig,
 )
 from fast_llm.data.document.abstract import Document
-from fast_llm.data.preprocessing.abstract import NullPreprocessingConfig, PreprocessingConfig
 from fast_llm.utils import Assert
 
 
@@ -29,12 +28,8 @@ def get_document(self, index: int, begin: int, end: int) -> None:
 
 
 class MemmapReader[ConfigType: MemmapReaderConfig](MemmapReaderBase[ConfigType]):
-    def __init__(self, config: ConfigType, buffer: memoryview, model_preprocessing: PreprocessingConfig | None = None):
+    def __init__(self, config: ConfigType, buffer: memoryview):
         super().__init__(config)
-        # Note: This is the requirement at reading time (ex. from the model),
-        # which may differ from how the dataset was actually preprocessed (`config.preprocessing`)
-        # Compatibility checked in `MemmapDataset`.
-        self._model_preprocessing = NullPreprocessingConfig if model_preprocessing is None else model_preprocessing
         buffer_begin = self._config.begin + len(self._config.header)
         buffer_end = self._config.end - len(self._config.footer)
         Assert.eq(buffer[self._config.begin : buffer_begin].tobytes(), self._config.header)
@@ -67,16 +62,11 @@ def get_split(self, begin_ratio: float, end_ratio: float) -> tuple[int, int, dic
 
 
 class MemmapWriter(abc.ABC):
-    def __init__(
-        self, stream: io.BufferedWriter | pathlib.Path, preprocessing_config: PreprocessingConfig | None = None
-    ):
+    def __init__(self, stream: io.BufferedWriter | pathlib.Path):
         self._owns_stream = isinstance(stream, pathlib.Path)
         if self._owns_stream:
             stream = stream.open("wb")
         self._stream = stream
-        self._preprocessing_config = (
-            NullPreprocessingConfig() if preprocessing_config is None else preprocessing_config
-        )
 
     def __enter__(self):
         self._begin = self._stream.tell()
@@ -111,9 +101,8 @@ def write_dataset(
         cls,
         stream: io.BufferedWriter,
         documents: typing.Iterable[Document],
-        preprocessing_config: PreprocessingConfig | None = None,
     ) -> MemmapReaderConfig:
-        with cls(stream, preprocessing_config) as writer:
+        with cls(stream) as writer:
             for document in documents:
                 writer.write(document)
         return writer.get_config()
diff --git a/fast_llm/data/dataset/memmap/config.py b/fast_llm/data/dataset/memmap/config.py
index c29671e89..c1d57e28d 100644
--- a/fast_llm/data/dataset/memmap/config.py
+++ b/fast_llm/data/dataset/memmap/config.py
@@ -1,3 +1,4 @@
+import functools
 import io
 import logging
 import math
@@ -6,9 +7,6 @@
 
 from fast_llm.config import Config, Field, FieldHint, config_class
 from fast_llm.data.dataset.config import IndexedDatasetConfig, SampledDatasetConfig
-from fast_llm.data.preprocessing.abstract import NullPreprocessingConfig, PreprocessingConfig
-from fast_llm.data.preprocessing.image_patch import ImagePatchConfig
-from fast_llm.data.preprocessing.language_model import LanguageModelPreprocessingConfig
 from fast_llm.engine.config_utils.data_type import DataType
 from fast_llm.utils import Assert, get_unique
 
@@ -40,12 +38,12 @@ class MemmapDatasetConfig[DocumentType: Document](IndexedDatasetConfig[DocumentT
         hint=FieldHint.core,
     )
 
-    def build(self, preprocessing: PreprocessingConfig) -> "IndexedDataset[DocumentType]":
+    def build(self) -> "IndexedDataset[DocumentType]":
         name = str(self.path).replace("/", "__")
         if self.path.is_file():
             from fast_llm.data.dataset.memmap.memmap import MemmapDataset
 
-            return MemmapDataset[DocumentType](name, self.path, preprocessing)
+            return MemmapDataset[DocumentType](name, self.path)
         elif self.path.with_suffix(".bin").is_file() and self.path.with_suffix(".idx").is_file():
             logger.warning(
                 "Using the legacy memmap dataset format."
@@ -54,7 +52,7 @@ def build(self, preprocessing: PreprocessingConfig) -> "IndexedDataset[DocumentT
             )
             from fast_llm.data.dataset.gpt.legacy_memmap import LegacyMemmapDataset
 
-            return LegacyMemmapDataset[DocumentType](name, self.path, preprocessing)
+            return LegacyMemmapDataset[DocumentType](name, self.path)
         else:
             raise FileNotFoundError(self.path)
 
@@ -125,15 +123,13 @@ class MemmapReaderConfig(MemmapReaderBaseConfig):
     # Constant strings for alignment safety.
     header: typing.ClassVar[bytes]
     footer: typing.ClassVar[bytes]
-    # Additional information about how the dataset was prepared.
-    preprocessing: PreprocessingConfig = Field()
 
     @property
     def reader_class(self) -> "type[MemmapReader]":
         raise NotImplementedError()
 
-    def get_reader(self, buffer: memoryview, model_preprocessing: PreprocessingConfig | None = None) -> "MemmapReader":
-        return self.reader_class(self, buffer, model_preprocessing)
+    def get_reader(self, buffer: memoryview) -> "MemmapReader":
+        return self.reader_class(self, buffer)
 
     @property
     def expected_buffer_size(self) -> int:
@@ -339,8 +335,8 @@ def num_tokens(self) -> int:
     def reader_class(self) -> "type[MemmapIndexedDatasetReader]":
         raise NotImplementedError()
 
-    def get_reader(self, buffer: memoryview, model_preprocessing: PreprocessingConfig) -> "MemmapIndexedDatasetReader":
-        return self.reader_class(self, buffer, model_preprocessing)
+    def get_reader(self, buffer: memoryview) -> "MemmapIndexedDatasetReader":
+        return self.reader_class(self, buffer)
 
     def get_metadata(self) -> dict[str, typing.Any]:
         return {"num_tokens": self.num_tokens}
@@ -364,48 +360,30 @@ class LanguageModelReaderConfig(MemmapIndexDatasetReaderConfig):
 
     def _validate(self) -> None:
         super()._validate()
-        if isinstance(self.preprocessing, NullPreprocessingConfig):
-            # Address missing config, mostly for backward compatibility.
-            # TODO: We can't tell which dataset this comes from.
-            logger.warning(
-                f"Preprocessing configuration not specified for dataset reader, generating partial configuration from known parameters."
-            )
-            if isinstance(self.image_patches, PatchReaderConfig):
-                Assert.eq(len(patch_shape := self.image_patches.patch_shape), 3)
-                image_patches = ImagePatchConfig(height=patch_shape[1], width=patch_shape[2])
-            else:
-                image_patches = NullPreprocessingConfig()
-            self.preprocessing = LanguageModelPreprocessingConfig(
-                image_patches=image_patches,
-                use_loss_masking_spans=isinstance(self.loss_masking_spans, RangeReaderConfig),
-                use_preference_spans=isinstance(self.chosen_spans, RangeReaderConfig),
-            )
-        # TODO: Avoid duplicated information.
-        Assert.custom(
-            isinstance,
-            self.loss_masking_spans,
-            RangeReaderConfig if self.preprocessing.use_loss_masking_spans else NullReaderConfig,
-        )
-        Assert.custom(
-            isinstance,
-            self.chosen_spans,
-            RangeReaderConfig if self.preprocessing.use_preference_spans else NullReaderConfig,
-        )
-        Assert.custom(
-            isinstance,
-            self.rejected_spans,
-            RangeReaderConfig if self.preprocessing.use_preference_spans else NullReaderConfig,
-        )
-        if self.preprocessing.use_image_patches:
-            Assert.custom(isinstance, self.image_patches, PatchReaderConfig)
-            Assert.eq(self.image_patches.patch_shape, self.preprocessing.image_patches.patch_shape)
+        if self.has_image_patches:
+            Assert.eq(len(self.patch_shape), 3)
             Assert.eq(self.image_patches.data_type, DataType.uint8)
-        else:
-            Assert.custom(isinstance, self.image_patches, NullReaderConfig)
 
     def __len__(self) -> int:
         return len(self.tokens)
 
+    @functools.cached_property
+    def has_loss_masking_spans(self) -> bool:
+        return isinstance(self.loss_masking_spans, RangeReaderConfig)
+
+    @functools.cached_property
+    def has_preference_spans(self) -> bool:
+        return isinstance(self.chosen_spans, RangeReaderConfig)
+
+    @functools.cached_property
+    def has_image_patches(self) -> bool:
+        return isinstance(self.image_patches, PatchReaderConfig)
+
+    @functools.cached_property
+    def patch_shape(self) -> tuple[int, int, int]:
+        assert self.has_image_patches
+        return self.image_patches.patch_shape
+
     @property
     def num_tokens(self) -> int:
         return self.tokens.num_tokens
diff --git a/fast_llm/data/dataset/memmap/language_model.py b/fast_llm/data/dataset/memmap/language_model.py
index 34d71eba3..ab31c5b07 100644
--- a/fast_llm/data/dataset/memmap/language_model.py
+++ b/fast_llm/data/dataset/memmap/language_model.py
@@ -1,3 +1,4 @@
+import dataclasses
 import io
 import pathlib
 import tempfile
@@ -11,47 +12,21 @@
 from fast_llm.data.dataset.memmap.range import RangeReader, RangeWriter
 from fast_llm.data.dataset.memmap.token import TokenWriter
 from fast_llm.data.document.abstract import Document
+from fast_llm.data.document.config import ImageNormalizationConfig
 from fast_llm.data.document.language_model import LanguageModelDocument
-from fast_llm.data.preprocessing.image_patch import ImageNormalizationConfig
-from fast_llm.data.preprocessing.language_model import LanguageModelPreprocessingConfig
 from fast_llm.utils import Assert
 
 
 class LanguageModelReader[ConfigType: LanguageModelReaderConfig](MemmapIndexedDatasetReader[ConfigType]):
-    _model_preprocessing: LanguageModelPreprocessingConfig
-
-    def __init__(
-        self,
-        config: ConfigType,
-        buffer: memoryview,
-        model_preprocessing: LanguageModelPreprocessingConfig | None = None,
-    ):
-        super().__init__(config, buffer, model_preprocessing)
-        self._config.preprocessing.check_compatibility(self._model_preprocessing)
+    def __init__(self, config: ConfigType, buffer: memoryview):
+        super().__init__(config, buffer)
         # Using `buffer` and not `self._buffer` because nested offsets (`begin`, `end`) are global.
         self._tokens = self._config.tokens.get_reader(buffer)
-        null_reader = NullReaderConfig().get_reader(buffer)
-        self._loss_masking_spans = (
-            self._config.loss_masking_spans.get_reader(buffer)
-            if self._model_preprocessing.use_loss_masking_spans
-            else null_reader
-        )
-        self._chosen_spans = (
-            self._config.chosen_spans.get_reader(buffer)
-            if self._model_preprocessing.use_preference_spans
-            else null_reader
-        )
-        self._rejected_spans = (
-            self._config.rejected_spans.get_reader(buffer)
-            if self._model_preprocessing.use_preference_spans
-            else null_reader
-        )
-        self._image_patches = (
-            self._config.image_patches.get_reader(buffer)
-            if self._model_preprocessing.use_image_patches
-            else null_reader
-        )
-        # TODO: Make this configurable. (Add to `model_preprocessing`?)
+        self._loss_masking_spans = self._config.loss_masking_spans.get_reader(buffer)
+        self._chosen_spans = self._config.chosen_spans.get_reader(buffer)
+        self._rejected_spans = self._config.rejected_spans.get_reader(buffer)
+        self._image_patches = self._config.image_patches.get_reader(buffer)
+        # TODO: ======= Move to model preprocessing ======
         self._image_normalization_config = ImageNormalizationConfig()
 
     @property
@@ -59,14 +34,11 @@ def num_tokens(self) -> int:
         return self._config.tokens.num_tokens
 
     def get_document(self, index: int, begin: int, end: int) -> Document:
-        if self._model_preprocessing.use_image_patches:
-            image_patches = self._image_patches.get_document(index, begin, end)
-            if image_patches is not None:
-                image_patches.patches = self._image_normalization_config.normalize(image_patches.patches)
-        else:
-            image_patches = None
+        image_patches = self._image_patches.get_document(index, begin, end)
+        if image_patches is not None:
+            image_patches.patches = self._image_normalization_config.normalize(image_patches.patches)
         return LanguageModelDocument(
-            tokens=self._tokens.get_document(index, begin, end),
+            **dataclasses.asdict(self._tokens.get_document(index, begin, end)),
             loss_masking_spans=self._loss_masking_spans.get_document(index, begin, end),
             chosen_spans=self._chosen_spans.get_document(index, begin, end),
             rejected_spans=self._rejected_spans.get_document(index, begin, end),
@@ -98,71 +70,73 @@ def get_split(self, begin_ratio: float, end_ratio: float) -> tuple[int, int, dic
 
 
 class LanguageModelWriter(MemmapWriter):
-    _preprocessing_config: LanguageModelPreprocessingConfig
+    _use_loss_masking_spans: bool
+    _use_preference_spans: bool
+    _use_image_patches: bool
 
     def __enter__(self):
         super().__enter__()
-        self._size_cumsum = [0]
-        self._data_type = None
-
         self._directory = tempfile.TemporaryDirectory()
         self._path = pathlib.Path(self._directory.name)
         # We write intermediate results in separate files so we don't need to iterate over the dataset multiple times.
         self._token_writer = TokenWriter(self._path.joinpath("tokens")).__enter__()
-        if self._preprocessing_config.use_loss_masking_spans:
-            self._loss_masking_span_writer = RangeWriter(self._path.joinpath("loss_masking_spans")).__enter__()
-        if self._preprocessing_config.use_preference_spans:
-            self._chosen_spans_writer = RangeWriter(self._path.joinpath("chosen_spans")).__enter__()
-            self._rejected_spans_writer = RangeWriter(self._path.joinpath("rejected_spans")).__enter__()
-        if self._preprocessing_config.use_image_patches:
-            self._image_patches_writer = PatchWriter(self._path.joinpath("image_patches")).__enter__()
+        self._loss_masking_span_writer = RangeWriter(self._path.joinpath("loss_masking_spans")).__enter__()
+        self._chosen_spans_writer = RangeWriter(self._path.joinpath("chosen_spans")).__enter__()
+        self._rejected_spans_writer = RangeWriter(self._path.joinpath("rejected_spans")).__enter__()
+        self._image_patches_writer = PatchWriter(self._path.joinpath("image_patches")).__enter__()
         return self
 
     def write(self, document: LanguageModelDocument):
         super().write(document)
         # Write tokens.
-        self._token_writer.write(document.tokens)
+        self._token_writer.write(document)
+
+        use_loss_masking_spans = document.loss_masking_spans is not None
+        use_preference_spans = document.chosen_spans is not None
+        use_image_patches = document.image_patches is not None
+        if hasattr(self, "_use_loss_masking_spans"):
+            Assert.eq(self._use_loss_masking_spans, use_loss_masking_spans)
+            Assert.eq(self._use_preference_spans, use_preference_spans)
+            Assert.eq(self._use_image_patches, use_image_patches)
+        else:
+            self._use_loss_masking_spans = use_loss_masking_spans
+            self._use_preference_spans = use_preference_spans
+            self._use_image_patches = use_image_patches
 
         # Write loss masking spans.
-        if self._preprocessing_config.use_loss_masking_spans:
-            assert document.loss_masking_spans is not None
+        if use_loss_masking_spans:
             self._loss_masking_span_writer.write(document.loss_masking_spans)
 
         # Write preference spans.
-        if self._preprocessing_config.use_preference_spans:
-            assert document.chosen_spans is not None
+        if use_preference_spans:
             assert document.rejected_spans is not None
             self._chosen_spans_writer.write(document.chosen_spans)
             self._rejected_spans_writer.write(document.rejected_spans)
 
         # Write image patches
-        if self._preprocessing_config.use_image_patches:
-            assert document.image_patches is not None
+        if use_image_patches:
             self._image_patches_writer.write(document.image_patches)
 
     def __exit__(self, exc_type, exc_val, exc_tb):
         self._token_writer.__exit__(exc_type, exc_val, exc_tb)
-        if self._preprocessing_config.use_loss_masking_spans:
-            self._loss_masking_span_writer.__exit__(exc_type, exc_val, exc_tb)
-        if self._preprocessing_config.use_preference_spans:
-            self._chosen_spans_writer.__exit__(exc_type, exc_val, exc_tb)
-            self._rejected_spans_writer.__exit__(exc_type, exc_val, exc_tb)
-        if self._preprocessing_config.use_image_patches:
-            self._image_patches_writer.__exit__(exc_type, exc_val, exc_tb)
+        self._loss_masking_span_writer.__exit__(exc_type, exc_val, exc_tb)
+        self._chosen_spans_writer.__exit__(exc_type, exc_val, exc_tb)
+        self._rejected_spans_writer.__exit__(exc_type, exc_val, exc_tb)
+        self._image_patches_writer.__exit__(exc_type, exc_val, exc_tb)
 
         if exc_type is None:
             # A dummy config so we can verify the begin and end offsets.
             config = self._get_config(self._begin, None)
             _copy_chunked(self._path.joinpath("tokens"), self._stream, config.tokens.begin, config.tokens.end)
 
-            if self._preprocessing_config.use_loss_masking_spans:
+            if self._use_loss_masking_spans:
                 _copy_chunked(
                     self._path.joinpath("loss_masking_spans"),
                     self._stream,
                     config.loss_masking_spans.begin,
                     config.loss_masking_spans.end,
                 )
-            if self._preprocessing_config.use_preference_spans:
+            if self._use_preference_spans:
                 _copy_chunked(
                     self._path.joinpath("chosen_spans"),
                     self._stream,
@@ -176,7 +150,7 @@ def __exit__(self, exc_type, exc_val, exc_tb):
                     config.rejected_spans.end,
                 )
 
-            if self._preprocessing_config.use_image_patches:
+            if self._use_image_patches:
                 _copy_chunked(
                     self._path.joinpath("image_patches"),
                     self._stream,
@@ -194,12 +168,12 @@ def _get_config_class(cls) -> type[LanguageModelReaderConfig]:
     def _get_config(self, begin: int, end: int | None):
         tokens = self._token_writer.get_config(begin + len(LanguageModelReaderConfig.header))
         offset = tokens.end
-        if self._preprocessing_config.use_loss_masking_spans:
+        if self._use_loss_masking_spans:
             loss_masking_spans = self._loss_masking_span_writer.get_config(offset)
             offset = loss_masking_spans.end
         else:
             loss_masking_spans = NullReaderConfig()
-        if self._preprocessing_config.use_preference_spans:
+        if self._use_preference_spans:
             chosen_spans = self._chosen_spans_writer.get_config(offset)
             offset = chosen_spans.end
             rejected_spans = self._rejected_spans_writer.get_config(offset)
@@ -207,7 +181,7 @@ def _get_config(self, begin: int, end: int | None):
         else:
             chosen_spans = NullReaderConfig()
             rejected_spans = NullReaderConfig()
-        if self._preprocessing_config.use_image_patches:
+        if self._use_image_patches:
             image_patches = self._image_patches_writer.get_config(offset)
             offset = image_patches.end
         else:
@@ -224,7 +198,6 @@ def _get_config(self, begin: int, end: int | None):
             chosen_spans=chosen_spans,
             rejected_spans=rejected_spans,
             image_patches=image_patches,
-            preprocessing=self._preprocessing_config,
         )
 
 
diff --git a/fast_llm/data/dataset/memmap/memmap.py b/fast_llm/data/dataset/memmap/memmap.py
index c0d526369..d44ed9093 100644
--- a/fast_llm/data/dataset/memmap/memmap.py
+++ b/fast_llm/data/dataset/memmap/memmap.py
@@ -11,7 +11,6 @@
 from fast_llm.data.document.abstract import (
     Document,
 )
-from fast_llm.data.preprocessing.abstract import PreprocessingConfig
 
 FILE_HEADER = b"fast_llm_prepared_dataset"
 
@@ -21,19 +20,13 @@ class MemmapDataset[DocumentType: Document](IndexedDataset[DocumentType]):
     A memory map dataset, which handles lazy loading of a pre-processed dataset.
     """
 
-    def __init__(
-        self,
-        name: str,
-        path: pathlib.Path | str,
-        preprocessing: PreprocessingConfig,
-    ):
-        self._init(name, path, preprocessing)
+    def __init__(self, name: str, path: pathlib.Path | str):
+        self._init(name, path)
 
-    def _init(self, name: str, path: pathlib.Path | str, preprocessing: PreprocessingConfig) -> None:
+    def _init(self, name: str, path: pathlib.Path | str) -> None:
         super().__init__()
         self._name = name
         self._path = path
-        self._preprocessing = preprocessing
 
         path = pathlib.Path(path) if isinstance(path, str) else path
         with path.open("rb") as stream:
@@ -46,17 +39,14 @@ def _init(self, name: str, path: pathlib.Path | str, preprocessing: Preprocessin
             reader_config = MemmapIndexDatasetReaderConfig.from_dict(json.loads(config_bytes.decode("utf-8")))
 
         self._memmap = np.memmap(self._path, mode="r")
-        self._reader = reader_config.get_reader(memoryview(self._memmap), self._preprocessing)
+        self._reader = reader_config.get_reader(memoryview(self._memmap))
 
-    def __getstate__(self) -> tuple[str, pathlib.Path, dict, MemmapIndexDatasetReaderConfig]:
+    def __getstate__(self) -> tuple[str, pathlib.Path]:
         # We pass the reader config to force its import in data loader workers.
-        return self._name, self._path, self._preprocessing.to_dict(), self._reader.config
+        return self._name, self._path
 
-    def __setstate__(self, state: tuple[str, pathlib.Path, dict, MemmapIndexDatasetReaderConfig]):
-        import fast_llm.data.auto  # isort: skip
-
-        name, path, preprocessing, _ = state
-        self._init(name, path, PreprocessingConfig.from_dict(preprocessing))
+    def __setstate__(self, state: tuple[str, pathlib.Path]):
+        self._init(*state)
 
     def __del__(self):
         if hasattr(self, "_memmap"):
@@ -95,7 +85,6 @@ def write_dataset(
         path: pathlib.Path,
         documents: typing.Iterable[Document],
         writer_class: type[MemmapWriter],
-        preprocessing_config: PreprocessingConfig | None = None,
     ) -> MemmapIndexDatasetReaderConfig:
         # TODO: Match `writer_class` with `DocumentType`?
         path.parent.mkdir(parents=True, exist_ok=True)
@@ -107,7 +96,7 @@ def write_dataset(
             start = stream.tell()
             stream.seek(start + 8)
             # Write the data.
-            reader_config = writer_class.write_dataset(stream, documents, preprocessing_config)
+            reader_config = writer_class.write_dataset(stream, documents)
             # Write the reader config.
             config_offset = stream.tell()
             reader_config_bytes = json.dumps(reader_config.to_dict()).encode("utf-8")
diff --git a/fast_llm/data/dataset/memmap/patch.py b/fast_llm/data/dataset/memmap/patch.py
index 2b551dbbf..287901351 100644
--- a/fast_llm/data/dataset/memmap/patch.py
+++ b/fast_llm/data/dataset/memmap/patch.py
@@ -7,14 +7,13 @@
 from fast_llm.data.dataset.memmap.config import PatchReaderConfig
 from fast_llm.data.document.abstract import Document
 from fast_llm.data.document.patch import PatchDocument, filter_lengths
-from fast_llm.data.preprocessing.abstract import PreprocessingConfig
 from fast_llm.engine.config_utils.data_type import DataType
 from fast_llm.utils import Assert
 
 
 class PatchReader[ConfigType: PatchReaderConfig](MemmapReader[ConfigType]):
-    def __init__(self, config: ConfigType, buffer: memoryview, model_preprocessing: PreprocessingConfig | None = None):
-        super().__init__(config, buffer, model_preprocessing)
+    def __init__(self, config: ConfigType, buffer: memoryview):
+        super().__init__(config, buffer)
         self._patches = torch.frombuffer(
             self._buffer,
             dtype=self._config.data_type.torch,
@@ -137,5 +136,4 @@ def _get_config(self, begin: int, end: int):
             num_patch_groups=self._group_count_cumsum[-1],
             patch_shape=self._patch_shape,
             data_type=DataType.from_torch(self._data_type),
-            preprocessing=self._preprocessing_config,
         )
diff --git a/fast_llm/data/dataset/memmap/range.py b/fast_llm/data/dataset/memmap/range.py
index 9bd1a3119..b9ec6d2d9 100644
--- a/fast_llm/data/dataset/memmap/range.py
+++ b/fast_llm/data/dataset/memmap/range.py
@@ -7,13 +7,12 @@
 from fast_llm.data.dataset.memmap.config import RangeReaderConfig
 from fast_llm.data.document.abstract import Document
 from fast_llm.data.document.range import RangeDocument
-from fast_llm.data.preprocessing.abstract import PreprocessingConfig
 from fast_llm.utils import Assert
 
 
 class RangeReader[ConfigType: RangeReaderConfig](MemmapReader[ConfigType]):
-    def __init__(self, config: ConfigType, buffer: memoryview, model_preprocessing: PreprocessingConfig | None = None):
-        super().__init__(config, buffer, model_preprocessing)
+    def __init__(self, config: ConfigType, buffer: memoryview):
+        super().__init__(config, buffer)
         self._ranges = torch.frombuffer(
             self._buffer,
             dtype=torch.int32,
@@ -69,5 +68,4 @@ def _get_config(self, begin: int, end: int):
             end=end,
             num_documents=len(self._count_cumsum) - 1,
             num_ranges=self._count_cumsum[-1],
-            preprocessing=self._preprocessing_config,
         )
diff --git a/fast_llm/data/dataset/memmap/token.py b/fast_llm/data/dataset/memmap/token.py
index 7d4bcbc39..0591bdaf7 100644
--- a/fast_llm/data/dataset/memmap/token.py
+++ b/fast_llm/data/dataset/memmap/token.py
@@ -7,14 +7,13 @@
 from fast_llm.data.dataset.memmap.config import TokenReaderConfig
 from fast_llm.data.document.abstract import Document
 from fast_llm.data.document.token import TokenDocument
-from fast_llm.data.preprocessing.abstract import PreprocessingConfig
 from fast_llm.engine.config_utils.data_type import DataType
 from fast_llm.utils import Assert
 
 
 class TokenReader[ConfigType: TokenReaderConfig](MemmapIndexedDatasetReader[ConfigType]):
-    def __init__(self, config: ConfigType, buffer: memoryview, model_preprocessing: PreprocessingConfig | None = None):
-        super().__init__(config, buffer, model_preprocessing)
+    def __init__(self, config: ConfigType, buffer: memoryview):
+        super().__init__(config, buffer)
         self._tokens = torch.frombuffer(
             self._buffer,
             dtype=self._config.data_type.torch,
@@ -91,5 +90,4 @@ def _get_config(self, begin: int, end: int):
             num_documents=len(self._size_cumsum) - 1,
             num_tokens=self._size_cumsum[-1],
             data_type=DataType.from_torch(self._data_type),
-            preprocessing=self._preprocessing_config,
         )
diff --git a/fast_llm/data/document/abstract.py b/fast_llm/data/document/abstract.py
index 50328a7a9..9967cb831 100644
--- a/fast_llm/data/document/abstract.py
+++ b/fast_llm/data/document/abstract.py
@@ -2,20 +2,68 @@
 import dataclasses
 import typing
 
+from fast_llm.engine.distributed.config import PhaseType
+from fast_llm.layers.attention.config import AttentionKwargs
+from fast_llm.layers.language_model.config import LanguageModelKwargs
+
 if typing.TYPE_CHECKING:
     import torch
 
+    from fast_llm.tensor import TensorMeta
+
 
 @dataclasses.dataclass(kw_only=True)
 class Document(abc.ABC):
-    pass
+    def to_device_(self, device: "torch.device"):
+        import torch
+
+        for field in dataclasses.fields(self):
+            if isinstance(value := getattr(self, field.name), torch.Tensor):
+                setattr(self, field.name, value.to(device))
+
+
+@dataclasses.dataclass(kw_only=True)
+class ModelInput(Document):
+    phase: PhaseType = None
+    # A set of intermediate the model should store in `hidden_states` for downstream usage,
+    # referred by name or regex pattern.
+    # Tensor names are generally of the form `{module_name}.{tensor_name}`.
+    # This field is typically populated downstream, depending on the task.
+    output_hidden_states: set[str] = dataclasses.field(default_factory=list)
+    # The model will populate this with the hidden states specified by `output_hidden_states`,
+    # together with the metadata necessary to reconstruct the global tensor.
+    hidden_states: "dict[str, tuple[TensorMeta, torch.Tensor]]" = dataclasses.field(default_factory=dict)
+    # Cached intermediate states (ex. key and value tensors) from earlier in the sequence.
+    # Cached intermediate states (ex. key and value tensors) from earlier in the sequence.
+    pasts: list[typing.Any] | None = None
+    # If defined, the model will store intermediate states for downstream computation. Used together with `pasts`.
+    presents: list[typing.Any] | None = None
+
+    def set_parent_attributes(self, parent: "ModelInput") -> None:
+        self.phase = parent.phase
+        self.output_hidden_states = parent.output_hidden_states
+        self.hidden_states = parent.hidden_states
+        self.pasts = parent.pasts
+        self.presents = parent.presents
+
+    def to_kwargs(self) -> dict[str, typing.Any]:
+        return {
+            LanguageModelKwargs.phase: self.phase,
+            LanguageModelKwargs.output_hidden_states: self.output_hidden_states,
+            LanguageModelKwargs.hidden_states: self.hidden_states,
+            AttentionKwargs.past_key_values: self.pasts,
+            AttentionKwargs.presents: self.presents,
+        }
 
 
 @dataclasses.dataclass(kw_only=True)
 class Batch(Document):
-    @abc.abstractmethod
-    def crop(self, begin: int, end: int) -> typing.Self:
-        pass
+    pass
+
+    # @abc.abstractmethod
+    # def __len__(self) -> int:
+    #    pass
 
-    def to_device(self, device: "torch.device | str") -> typing.Self:
-        return self
+    # @abc.abstractmethod
+    # def crop(self, begin: int, end: int) -> typing.Self:
+    #    pass
diff --git a/fast_llm/data/document/block.py b/fast_llm/data/document/block.py
new file mode 100644
index 000000000..06c6a286f
--- /dev/null
+++ b/fast_llm/data/document/block.py
@@ -0,0 +1,135 @@
+import dataclasses
+import functools
+import typing
+
+import torch
+
+from fast_llm.data.document.abstract import ModelInput
+from fast_llm.data.document.config import LengthPreprocessingConfig
+from fast_llm.engine.config_utils.tensor_dim import TensorDim
+from fast_llm.engine.distributed.config import DistributedDimNames
+from fast_llm.layers.attention.config import AttentionKwargs
+from fast_llm.layers.language_model.config import LanguageModelKwargs
+from fast_llm.utils import Assert, padded_cumsum
+
+
+@dataclasses.dataclass(kw_only=True)
+class BlockModelInput(ModelInput):
+    token_dim: TensorDim = None
+    hidden_token_dim: TensorDim = None
+    sequence_k_dim: TensorDim = None
+    unpadded_length: int = None  # Number of tokens in the current input excluding padding at the end.
+    sequence_length: int = None  # Total number of tokens across all inputs, including padding.
+    lengths: list[int] = None
+    cumulative_lengths_q: torch.Tensor | None = None
+    cumulative_lengths_k: torch.Tensor | None = None
+    max_length_q: torch.Tensor | None = None
+    max_length_k: torch.Tensor | None = None
+    document_index_q: torch.Tensor | None = None
+    document_index_k: torch.Tensor | None = None
+    position_index: torch.Tensor | None = None
+
+    def to_kwargs(self) -> dict[str, typing.Any]:
+        return {
+            **super().to_kwargs(),
+            LanguageModelKwargs.token_dim: self.token_dim,
+            LanguageModelKwargs.hidden_token_dim: self.hidden_token_dim,
+            LanguageModelKwargs.sequence_k_dim: self.sequence_k_dim,
+            LanguageModelKwargs.num_tokens: self.unpadded_length,
+            LanguageModelKwargs.sequence_length: self.sequence_length,
+            AttentionKwargs.cu_seqlens_q: self.cumulative_lengths_q,
+            AttentionKwargs.cu_seqlens_k: self.cumulative_lengths_k,
+            AttentionKwargs.max_seqlen_q: self.max_length_q,
+            AttentionKwargs.max_seqlen_k: self.max_length_k,
+            AttentionKwargs.document_index_q: self.document_index_q,
+            AttentionKwargs.document_index_k: self.document_index_k,
+            LanguageModelKwargs.position_ids: self.position_index,
+        }
+
+
+@dataclasses.dataclass(kw_only=True)
+class LengthModelInputPreprocessor:
+    lengths: list[int]
+    sequence_k_past: int
+    first_document_begin: int
+    last_document_end: int
+    device: torch.device
+    unpadded_length: int
+    sequence_length: int
+
+    def preprocess(self, model_input: BlockModelInput, config: LengthPreprocessingConfig):
+        model_input.lengths = self.lengths
+        model_input.unpadded_length = self.unpadded_length
+        model_input.sequence_length = self.sequence_length
+        sequence_data_dim = config.distributed.get_distributed_dim(DistributedDimNames.sequence_data)
+        model_input.token_dim = TensorDim(
+            "token",
+            self.length * sequence_data_dim.size,
+            sequence_data_dim,
+        )
+        model_input.hidden_token_dim = (
+            (
+                "token_tp",
+                self.length * sequence_data_dim.size,
+                config.distributed.get_distributed_dim(DistributedDimNames.tensor_and_data),
+            )
+            if config.distributed.sequence_tensor_parallel
+            else model_input.token_dim
+        )
+        model_input.sequence_k_dim = TensorDim("sequence_k", self.sequence_k_past + self.length)
+
+        if not config.causal:
+            # TODO: Support non-causal cropping (needs to know about the future too).
+            Assert.eq(model_input.sequence_k_dim.global_size, self.last_document_end)
+
+        if config.return_cumulative_sequence_lengths:
+            model_input.cumulative_lengths_q, model_input.cumulative_lengths_k = self.cumulative_lengths
+        if config.return_max_sequence_lengths or config.return_document_index:
+            model_input.max_length_q, model_input.max_length_k = self.max_lengths
+        if config.return_document_index:
+            model_input.document_index_q, model_input.document_index_k = self.document_index
+        if config.return_position_index:
+            model_input.position_index = self.position_index
+
+    @functools.cached_property
+    def length(self) -> int:
+        return sum(self.lengths)
+
+    @functools.cached_property
+    def cumulative_lengths(self) -> tuple[torch.Tensor, torch.Tensor]:
+        cumulative_lengths_q = torch.from_numpy(padded_cumsum(self.lengths)).to(dtype=torch.int32, device=self.device)
+        cumulative_lengths_k = cumulative_lengths_q + self.sequence_k_past
+        cumulative_lengths_k[0] = self.first_document_begin
+        return cumulative_lengths_q, cumulative_lengths_k
+
+    @functools.cached_property
+    def max_lengths(self) -> tuple[torch.Tensor, torch.Tensor]:
+        max_length_q = max(self.lengths)
+        max_length_k = max(max_length_q, self.sequence_k_past + self.lengths[0] - self.first_document_begin)
+        return (
+            torch.full((1,), max_length_q, dtype=torch.int32, device=self.device),
+            torch.full((1,), max_length_k, dtype=torch.int32, device=self.device),
+        )
+
+    @functools.cached_property
+    def document_index(self) -> tuple[torch.Tensor, torch.Tensor]:
+        cumulative_lengths_q, cumulative_lengths_k = self.cumulative_lengths
+        # Note: index starts at 1. Index 0 is for sequence k before `self.current_document_begin`.
+        return (
+            torch.searchsorted(cumulative_lengths_q, torch.arange(self.length), side="right"),
+            torch.searchsorted(cumulative_lengths_k, torch.arange(self.sequence_k_past + self.length), side="right"),
+        )
+
+    @functools.cached_property
+    def position_index(self) -> torch.Tensor:
+        _, document_index_k = self.document_index
+        _, cumulative_lengths_k = self.cumulative_lengths
+        document_begins = cumulative_lengths_k[
+            document_index_k[self.sequence_k_past : self.sequence_k_past + self.length] - 1
+        ]
+        return (
+            torch.arange(
+                self.sequence_k_past, self.sequence_k_past + self.length, dtype=torch.int32, device=self.device
+            )
+            - document_begins
+        )
diff --git a/fast_llm/data/document/config.py b/fast_llm/data/document/config.py
new file mode 100644
index 000000000..6706ec3ed
--- /dev/null
+++ b/fast_llm/data/document/config.py
@@ -0,0 +1,104 @@
+import functools
+import logging
+import typing
+
+from fast_llm.config import Config, Field, config_class
+from fast_llm.engine.distributed.config import DistributedConfig, PhaseType
+
+if typing.TYPE_CHECKING:
+    import torch
+
+    from fast_llm.data.document.language_model import LanguageModelBatch, LanguageModelInput
+    from fast_llm.data.document.patch import PatchBatch
+
+logger = logging.getLogger(__name__)
+
+
+@config_class()
+class BatchPreprocessingConfig(Config):
+    pass
+
+
+@config_class()
+class LengthPreprocessingConfig(BatchPreprocessingConfig):
+    causal: bool = Field(default=True)
+    distributed: DistributedConfig = Field()
+    return_cumulative_sequence_lengths: bool = Field(default=False)
+    return_max_sequence_lengths: bool = Field(default=False)
+    return_document_index: bool = Field(default=False)
+    return_position_index: bool = Field(default=False)
+
+
+@config_class()
+class ImageNormalizationConfig(Config):
+    scale: float = Field(default=255.0)
+    # Default values from OpenAI Clip.
+    mean: tuple[float, float, float] = Field(default=(0.48145466, 0.4578275, 0.40821073))
+    std: tuple[float, float, float] = Field(default=(0.26862954, 0.26130258, 0.27577711))
+
+    def normalize(self, image: "torch.Tensor") -> "torch.Tensor":
+        import torchvision.transforms.v2 as torchvision_transforms
+
+        return torchvision_transforms.functional.normalize(image / self.scale, list(self.mean), list(self.std))
+
+
+@config_class()
+class PatchPreprocessingConfig(LengthPreprocessingConfig):
+    normalization: ImageNormalizationConfig | None = Field(default=None)
+    shape: tuple[int, ...] = Field(default=(3, 16, 16))
+    namespace: str = Field(default="vision")
+
+    def get_batch_meta(self, size: int = 1) -> "PatchBatch":
+        import torch
+
+        from fast_llm.data.document.patch import PatchBatch
+
+        return PatchBatch(
+            patches=torch.empty(size, *self.shape, dtype=torch.uint8, device="meta"),
+            token_map=torch.empty(size, *self.shape, dtype=torch.int32, device="meta"),
+            positions=torch.empty(size, len(self.shape) - 1, dtype=torch.int32, device="meta"),
+            lengths=[size],
+        )
+
+
+@config_class()
+class LanguageModelBatchPreprocessingConfig(LengthPreprocessingConfig):
+    _abstract = False
+    phase: PhaseType = Field(default=PhaseType.training)
+    micro_batch_splits: int = Field(default=1)
+    predicted_tokens: int = Field(default=1)
+    return_prediction_mask: bool = Field(default=False)
+    vision_encoder: PatchPreprocessingConfig | None = Field(default=None)
+    vocab_size: int | None = Field(default=None)
+    use_loss_masking_spans: bool = Field(default=True)
+    use_preference_spans: bool = Field(default=False)
+
+    def _validate(self) -> None:
+        super()._validate()
+        # TODO: Implement?
+        assert not self.use_preference_spans
+
+    def get_input_meta(self, size: int = 1) -> "list[LanguageModelInput]":
+        return self.get_batch_meta(size).get_model_inputs(self)
+
+    def get_batch_meta(self, size: int = 1) -> "LanguageModelBatch":
+        import torch
+
+        from fast_llm.data.document.language_model import LanguageModelBatch
+
+        total_size = size + self.num_labels
+
+        batch = LanguageModelBatch(
+            tokens=torch.empty(total_size, dtype=torch.int64, device="meta"), lengths=[total_size]
+        )
+        if self.vision_encoder is not None:
+            batch.image_patches = self.vision_encoder.get_batch_meta(total_size)
+        return batch
+
+    @functools.cached_property
+    def num_labels(self) -> int:
+        return 0 if self.phase == PhaseType.inference else self.predicted_tokens
+
+    @functools.cached_property
+    def use_image_patches(self) -> bool:
+        return self.vision_encoder is not None
diff --git a/fast_llm/data/document/language_model.py b/fast_llm/data/document/language_model.py
index 417944cbb..a8af9eabf 100644
--- a/fast_llm/data/document/language_model.py
+++ b/fast_llm/data/document/language_model.py
@@ -4,94 +4,134 @@
 
 import torch
 
-from fast_llm.data.document.abstract import Batch, Document
-from fast_llm.data.document.patch import PatchBatch, PatchDocument
+from fast_llm.data.document.abstract import ModelInput
+from fast_llm.data.document.config import LanguageModelBatchPreprocessingConfig
+from fast_llm.data.document.patch import PatchBatch, PatchDocument, PatchModelInput
 from fast_llm.data.document.range import RangeBatch, RangeDocument
-from fast_llm.data.document.token import TokenBatch, TokenDocument
-from fast_llm.utils import Assert
+from fast_llm.data.document.token import TokenBatch, TokenDocument, TokenModelInput
+from fast_llm.layers.language_model.config import LanguageModelKwargs
+from fast_llm.utils import div
 
 logger = logging.getLogger(__name__)
 
 
 @dataclasses.dataclass(kw_only=True)
-class LanguageModelDocument(Document):
-    tokens: TokenDocument
+class LanguageModelDocument(TokenDocument):
     loss_masking_spans: RangeDocument | None = None
     chosen_spans: RangeDocument | None = None
     rejected_spans: RangeDocument | None = None
     image_patches: PatchDocument | None = None
 
-    def __len__(self) -> int:
-        return len(self.tokens)
+
+@dataclasses.dataclass(kw_only=True)
+class LanguageModelTargetInput(ModelInput):
+    tokens: torch.Tensor | None = None
+    mask: torch.Tensor | None = None
+
+
+@dataclasses.dataclass(kw_only=True)
+class LanguageModelInput(TokenModelInput):
+    targets: list[LanguageModelTargetInput] = dataclasses.field(default_factory=list)
+    image_patches: PatchModelInput | None = None
+
+    def set_children_attributes(self) -> None:
+        if self.image_patches is not None:
+            self.image_patches.set_parent_attributes(self)
+
+    def to_kwargs(self) -> dict[str, typing.Any]:
+        # TODO: Avoid conversion, use `LanguageModelMicroBatch` directly instead.
+        out = {
+            **super().to_kwargs(),
+            LanguageModelKwargs.token_ids: self.tokens,
+            LanguageModelKwargs.phase: self.phase,
+            LanguageModelKwargs.device: self.tokens.device,
+            LanguageModelKwargs.labels: [target.tokens for target in self.targets],
+            LanguageModelKwargs.loss_mask: [target.mask for target in self.targets],
+            LanguageModelKwargs.output_hidden_states: self.output_hidden_states,
+            LanguageModelKwargs.hidden_states: self.hidden_states,
+        }
+        if self.image_patches is not None:
+            out.update(self.image_patches.to_kwargs())
+            out[LanguageModelKwargs.token_ids] = self.tokens
+        return out
 
 
 @dataclasses.dataclass(kw_only=True)
-class LanguageModelBatch(LanguageModelDocument, Batch):
-    tokens: TokenBatch
+class LanguageModelBatch(TokenBatch):
+    _model_input_class: typing.ClassVar[type[LanguageModelInput]] = LanguageModelInput
     loss_masking_spans: RangeBatch | None = None
-    chosen_spans: RangeBatch | None = None
-    rejected_spans: RangeBatch | None = None
     image_patches: PatchBatch | None = None
-    num_tokens: int = None  # Number of tokens in the micro-batch excluding padding at the end.
-
-    def __post_init__(self):
-        if self.num_tokens is None:
-            self.num_tokens = len(self.tokens)
 
     @classmethod
     def from_documents(
         cls, documents: typing.Iterable[LanguageModelDocument], pad_to_size: int | None = None
     ) -> typing.Self:
-        num_tokens = sum(len(document) for document in documents)
-        if pad_to_size is not None:
-            Assert.geq(pad_to_size, num_tokens)
-            padding = pad_to_size - num_tokens
-            if padding > 0:
-                documents = documents + [
-                    LanguageModelDocument(
-                        tokens=TokenDocument(tokens=documents[0].tokens.tokens.new_full([padding], -100))
-                    )
-                ]
-        sizes = [len(document) for document in documents]
-        return cls(
-            tokens=TokenBatch.from_documents([document.tokens for document in documents]),
-            loss_masking_spans=RangeBatch.from_documents(
-                [document.loss_masking_spans for document in documents], sizes
-            ),
-            chosen_spans=RangeBatch.from_documents([document.chosen_spans for document in documents], sizes),
-            rejected_spans=RangeBatch.from_documents([document.rejected_spans for document in documents], sizes),
-            image_patches=PatchBatch.from_documents([document.image_patches for document in documents], sizes),
-            num_tokens=num_tokens,
+        batch = super().from_documents(documents, pad_to_size)
+        batch.loss_masking_spans = RangeBatch.from_documents(
+            [document.loss_masking_spans for document in documents], batch.lengths
         )
-
-    def crop(self, begin: int, end: int) -> typing.Self:
-        return self.__class__(
-            tokens=_crop_optional(self.tokens, begin, end),
-            loss_masking_spans=_crop_optional(self.loss_masking_spans, begin, end),
-            chosen_spans=_crop_optional(self.chosen_spans, begin, end),
-            rejected_spans=_crop_optional(self.rejected_spans, begin, end),
-            image_patches=_crop_optional(self.image_patches, begin, end),
-            num_tokens=min(end, self.num_tokens) - begin,
+        batch.image_patches = PatchBatch.from_documents(
+            [document.image_patches for document in documents], batch.lengths
         )
-
-    def to_device(self, device: "torch.device | str"):
-        return self.__class__(
-            tokens=_to_device_optional(self.tokens, device),
-            loss_masking_spans=_to_device_optional(self.loss_masking_spans, device),
-            chosen_spans=_to_device_optional(self.chosen_spans, device),
-            rejected_spans=_to_device_optional(self.rejected_spans, device),
-            image_patches=_to_device_optional(self.image_patches, device),
-            num_tokens=self.num_tokens,
-        )
-
-
-def _merge_optional[T](fn: typing.Callable, args: typing.Iterable) -> T | None:
-    return None if any(arg is None for arg in args) else fn(args)
-
-
-def _crop_optional[T: Batch](batch: T, begin: int, end: int) -> T | None:
-    return None if batch is None else batch.crop(begin, end)
-
-
-def _to_device_optional[T: Batch](batch: T, device: "torch.device | str") -> T | None:
-    return None if batch is None else batch.to_device(device)
+        return batch
+
+    def get_model_inputs(self, config: LanguageModelBatchPreprocessingConfig) -> list[LanguageModelInput]:
+        total_input_length = len(self.tokens) - config.num_labels
+        input_length = div(total_input_length, config.micro_batch_splits)
+
+        model_inputs = []
+        presents = None
+        local_input_length = div(input_length, config.distributed.sequence_data_parallel)
+        for micro_sequence_index, sequence_k_past in enumerate(
+            range(
+                local_input_length * config.distributed.sequence_data_rank,
+                total_input_length,
+                input_length,
+            )
+        ):
+            model_input = self._get_model_input(sequence_k_past, sequence_k_past + local_input_length, config)
+
+            model_input.pasts = presents
+            presents = None if micro_sequence_index == config.micro_batch_splits - 1 else []
+            model_input.presents = presents
+            model_input.set_children_attributes()
+
+            model_inputs.append(model_input)
+
+        return model_inputs
+
+    def _get_model_input(
+        self, begin: int, end: int, config: LanguageModelBatchPreprocessingConfig
+    ) -> LanguageModelInput:
+        model_input = super()._get_model_input(begin, end, config)
+        model_input.phase = config.phase
+
+        if config.use_image_patches:
+            model_input.image_patches = self.image_patches.get_model_input(begin, end, config.vision_encoder)
+
+        for prediction_distance in range(1, config.num_labels + 1):
+            label_begin = begin + prediction_distance
+            label_end = end + prediction_distance
+            labels = self.tokens[label_begin:label_end].clone()
+
+            # Apply loss masking spans.
+            if config.use_loss_masking_spans and self.loss_masking_spans is not None:
+                for span_begin, span_end in self.loss_masking_spans.get_cropped_ranges(label_begin, label_end):
+                    labels[span_begin:span_end] = -100
+
+            # Mask cross-document predictions.
+            cropped_lengths, _, _ = self._get_cropped_lengths(label_begin, label_end)
+            document_begin = cropped_lengths[0]
+            for length in cropped_lengths[1:]:
+                labels[document_begin : document_begin + prediction_distance] = -100
+                document_begin += length
+
+            # Labels contain all four sources of masking: padding, user-defined spans, image placeholders, cross-document predictions.
+            model_input.targets.append(
+                LanguageModelTargetInput(
+                    tokens=labels,
+                    mask=labels > 0 if config.return_prediction_mask else None,
+                )
+            )
+
+        return model_input
diff --git a/fast_llm/data/document/patch.py b/fast_llm/data/document/patch.py
index 8813422cc..a35a1a142 100644
--- a/fast_llm/data/document/patch.py
+++ b/fast_llm/data/document/patch.py
@@ -4,6 +4,12 @@
 import torch
 
 from fast_llm.data.document.abstract import Batch, Document
+from fast_llm.data.document.block import BlockModelInput, LengthModelInputPreprocessor
+from fast_llm.data.document.config import PatchPreprocessingConfig
+from fast_llm.engine.config_utils.tensor_dim import TensorDim
+from fast_llm.layers.language_model.config import LanguageModelKwargs
+from fast_llm.layers.vision.config import VisionKwargs
+from fast_llm.tensor import TensorMeta
 from fast_llm.utils import Assert, padded_cumsum
 
 
@@ -31,39 +37,123 @@ def __post_init__(self):
 
 
 @dataclasses.dataclass(kw_only=True)
-class PatchBatch(PatchDocument, Batch):
+class PatchModelInput(BlockModelInput):
+    patches: torch.Tensor
+    token_map: torch.Tensor
+    positions: torch.Tensor
+    namespace: str
+
+    def to_kwargs(self) -> dict[str, typing.Any]:
+        return {
+            self.namespace: {
+                **super().to_kwargs(),
+                VisionKwargs.patches: self.patches,
+                VisionKwargs.patch_positions: self.positions,
+                VisionKwargs.device: self.patches.device,
+            },
+            LanguageModelKwargs.embedding_map: self.token_map,
+        }
+
+
+@dataclasses.dataclass(kw_only=True)
+class PatchBatch(Batch, PatchDocument):
     @classmethod
-    def from_documents(cls, documents: typing.Iterable[PatchDocument], sizes: typing.Iterable[int]) -> typing.Self:
+    def from_documents(
+        cls, documents: typing.Iterable[PatchDocument], sizes: typing.Iterable[int]
+    ) -> typing.Self | None:
+        # Note: `sizes` refers to the number of tokens in each document, not the number of patches.
+        # But `pad_to_sizes` refers to patches. TODO: Make less confusing?
         document_begin = 0
-        embedding_maps = []
+        documents_ = []
         for document, size in zip(documents, sizes, strict=True):
             if document is not None:
-                embedding_maps.append(document.token_map + document_begin)
+                documents_.append(
+                    PatchDocument(
+                        patches=document.patches,
+                        token_map=document.token_map + document_begin,
+                        positions=document.positions,
+                        lengths=document.lengths,
+                    )
+                )
             document_begin += size
-        return (
-            cls(
-                patches=torch.cat([document.patches for document in documents if document is not None]),
-                token_map=torch.cat(embedding_maps),
-                positions=torch.cat([document.positions for document in documents if document is not None]),
-                lengths=sum((document.lengths for document in documents if document is not None), []),
-            )
-            if embedding_maps
-            else None
-        )
 
-    def crop(self, begin: int, end: int) -> typing.Self:
-        patch_filter = (self.token_map >= begin) & (self.token_map < end)
-        return self.__class__(
-            patches=self.patches[patch_filter],
-            token_map=self.token_map[patch_filter] - begin,
-            positions=self.positions[patch_filter],
-            lengths=filter_lengths(self.lengths, patch_filter),
+        if not documents_:
+            return None
+        return cls(
+            patches=torch.cat([document.patches for document in documents_]),
+            token_map=torch.cat([document.token_map for document in documents_]),
+            positions=torch.cat([document.positions for document in documents_]),
+            lengths=sum((document.lengths for document in documents_), []),
         )
 
-    def to_device(self, device: "torch.device | str") -> typing.Self:
-        return self.__class__(
-            patches=self.patches.to(device, non_blocking=True),
-            token_map=self.token_map.to(device, non_blocking=True),
-            positions=self.positions.to(device, non_blocking=True),
-            lengths=self.lengths,
-        )
+    def get_model_input(self, begin: int, end: int, config: PatchPreprocessingConfig) -> PatchModelInput:
+        Assert.eq(self.patches.shape[1:], config.shape)
+        if is_meta := (self.patches.device.type == "meta"):
+            model_input = PatchModelInput(
+                patches=self.patches[begin:end],
+                token_map=self.token_map[begin:end],
+                positions=self.positions[begin:end],
+                namespace=config.namespace,
+            )
+            pad_size = 0
+            unpadded_length = end - begin
+
+        else:
+            # Here `begin` and `end` refer to token rather than patch positions,
+            # so we build a filter from the token map to get the corresponding patch positions.
+            # TODO: ====== Should it actually refer to patch positions so model inputs have balanced sizes?? ======
+            patch_filter = (self.token_map >= begin) & (self.token_map < end)
+            patches = self.patches[patch_filter]
+            if config.normalization is not None:
+                patches = config.normalization.normalize(patches)
+            patches = patches.to(config.distributed.compute_dtype.torch)
+
+            # TODO: ====== Avoid excessive padding ======
+            unpadded_length = len(patches)
+            pad_size = end - begin - unpadded_length
+            model_input = PatchModelInput(
+                patches=torch.cat([patches, patches.new_zeros(pad_size, *patches.shape[1:])]),
+                token_map=self.token_map[patch_filter] - begin,
+                positions=torch.cat(
+                    [self.positions[patch_filter], self.positions.new_zeros(pad_size, *self.positions.shape[1:])]
+                ),
+                namespace=config.namespace,
+            )
+
+        patch_begin = 0
+        lengths = []
+        for length in self.lengths:
+            patch_end = patch_begin + length
+            filtered_length = end - begin if is_meta else patch_filter[patch_begin:patch_end].sum().item()
+            if filtered_length > 0:
+                if not lengths:
+                    sequence_k_past = patch_end - filtered_length
+                    first_document_begin = patch_begin
+                lengths.append(filtered_length)
+            if patch_end >= end:
+                break
+            elif len(lengths) > 1:
+                # We assume the token map is ordered, so only the first and last patch may be cropped.
+                Assert.eq(filtered_length, length)
+            patch_begin = patch_end
+
+        if pad_size > 0:
+            lengths.append(pad_size)
+
+        LengthModelInputPreprocessor(
+            lengths=lengths,
+            sequence_k_past=sequence_k_past,
+            first_document_begin=first_document_begin,
+            last_document_end=patch_end + pad_size,
+            device=self.patches.device,
+            unpadded_length=unpadded_length,
+            sequence_length=len(self.patches),
+        ).preprocess(model_input, config)
+
+        if is_meta:
+            model_input.patches = TensorMeta.from_dims(
+                (model_input.token_dim, *(TensorDim(f"patch_dim_{i}", size) for i, size in enumerate(config.shape))),
+                tensor_name=f"patches_{begin}_to_{end}",
+                dtype=torch.float32,
+            )
+        return model_input
diff --git a/fast_llm/data/document/range.py b/fast_llm/data/document/range.py
index 27efe50fc..5f83a6c98 100644
--- a/fast_llm/data/document/range.py
+++ b/fast_llm/data/document/range.py
@@ -14,11 +14,11 @@ class RangeDocument(Document):
 
 
 @dataclasses.dataclass(kw_only=True)
-class RangeBatch(RangeDocument, Batch):
+class RangeBatch(Batch, RangeDocument):
     @classmethod
     def from_documents(
         cls, documents: typing.Iterable[RangeDocument | None], sizes: typing.Iterable[int]
-    ) -> typing.Self:
+    ) -> typing.Self | None:
         """
         Used to merge ranges from multiple documents, i.e. when multiple documents are packed together.
         """
@@ -32,6 +32,6 @@ def from_documents(
             document_begin += size
         return cls(ranges=ranges) if ranges else None
 
-    def crop(self, begin: int, end: int) -> typing.Self:
+    def get_cropped_ranges(self, begin: int, end: int) -> list[tuple[int, int]]:
         cropped_ranges = ((max(begin_ - begin, 0), min(end_ - begin, end - begin)) for begin_, end_ in self.ranges)
-        return self.__class__(ranges=[(begin_, end_) for begin_, end_ in cropped_ranges if end_ > begin_])
+        return [(begin_, end_) for begin_, end_ in cropped_ranges if end_ > begin_]
diff --git a/fast_llm/data/document/token.py b/fast_llm/data/document/token.py
index 88d5433e8..3e1c41f85 100644
--- a/fast_llm/data/document/token.py
+++ b/fast_llm/data/document/token.py
@@ -5,24 +5,10 @@
 import torch
 
 from fast_llm.data.document.abstract import Batch, Document
-from fast_llm.utils import Assert, padded_cumsum
-
-
-def crop_lengths(lengths: list[int], begin: int, end: int) -> list[int]:
-    if len(lengths) == 1:
-        # Shortcut for the frequent case of a single document.
-        return [end - begin]
-    begin_ = 0
-    lengths_ = []
-    for length in lengths:
-        end_ = begin_ + length
-        cropped_length = min(end_, end) - max(begin_, begin)
-        if cropped_length > 0:
-            lengths_.append(cropped_length)
-        if end_ > end:
-            break
-        begin_ = end_
-    return lengths_
+from fast_llm.data.document.block import BlockModelInput, LengthModelInputPreprocessor
+from fast_llm.data.document.config import LengthPreprocessingConfig
+from fast_llm.tensor import TensorMeta
+from fast_llm.utils import Assert
 
 
 @dataclasses.dataclass(kw_only=True)
@@ -34,94 +20,73 @@ def __len__(self) -> int:
 
 
 @dataclasses.dataclass(kw_only=True)
-class TokenBatch(TokenDocument, Batch):
+class TokenModelInput(BlockModelInput, TokenDocument):
+    @functools.cached_property
+    def is_meta(self) -> bool:
+        return isinstance(self.tokens, TensorMeta)
+
+
+@dataclasses.dataclass(kw_only=True)
+class TokenBatch(Batch, TokenDocument):
+    _model_input_class: typing.ClassVar[type[TokenModelInput]] = TokenModelInput
     lengths: list[int]
-    sequence_k_past: int = 0
-    current_document_begin: int = 0
+    unpadded_length: int = None
 
     def __post_init__(self):
         Assert.eq(sum(self.lengths), len(self.tokens))
+        if self.unpadded_length is None:
+            self.unpadded_length = len(self.tokens)
 
     @classmethod
-    def from_documents(cls, documents: typing.Iterable[TokenDocument]) -> typing.Self:
+    def from_documents(cls, documents: typing.Iterable[TokenDocument], pad_to_size: int | None = None) -> typing.Self:
+        tokens = [document.tokens for document in documents]
+        lengths = [len(document) for document in documents]
+        unpadded_length = sum(lengths)
+        if pad_to_size is not None:
+            Assert.geq(pad_to_size, unpadded_length)
+            padding = pad_to_size - unpadded_length
+            if padding > 0:
+                tokens.append(tokens[0].new_full([padding], -100))
+                lengths.append(padding)
         return cls(
-            tokens=torch.cat([document.tokens for document in documents]),
-            lengths=[len(document) for document in documents],
+            tokens=torch.cat(tokens),
+            lengths=lengths,
+            unpadded_length=unpadded_length,
         )
 
-    def crop(self, begin: int, end: int) -> typing.Self:
-        Assert.eq(self.sequence_k_past, self.current_document_begin, 0)
-
+    def _get_cropped_lengths(self, begin: int, end: int) -> tuple[list[int], int, int]:
         document_begin = 0
-        lengths_ = []
-        current_document_begin = None
+        lengths = []
         for length in self.lengths:
             document_end = document_begin + length
             cropped_length = min(document_end, end) - max(document_begin, begin)
             if cropped_length > 0:
-                lengths_.append(cropped_length)
-                if current_document_begin is None:
-                    current_document_begin = document_begin
+                if not lengths:
+                    first_document_begin = document_begin
+                lengths.append(cropped_length)
             if document_end > end:
                 break
             document_begin = document_end
 
-        return self.__class__(
-            tokens=self.tokens[begin:end],
-            lengths=lengths_,
-            sequence_k_past=begin,
-            current_document_begin=current_document_begin,
-        )
+        return lengths, first_document_begin, document_end
 
-    def to_device(self, device: "torch.device | str") -> typing.Self:
-        return self.__class__(
-            tokens=self.tokens.to(device, non_blocking=True),
-            lengths=self.lengths,
-            sequence_k_past=self.sequence_k_past,
-            current_document_begin=self.current_document_begin,
-        )
+    def _get_model_input(self, begin: int, end: int, config: LengthPreprocessingConfig):
+        model_input = self._model_input_class(tokens=self.tokens[begin:end])
+        lengths, first_document_begin, last_document_end = self._get_cropped_lengths(begin, end)
 
-    @functools.cached_property
-    def device(self) -> torch.device:
-        return self.tokens.device
-
-    @functools.cached_property
-    def cumulative_lengths(self) -> tuple[torch.Tensor, torch.Tensor]:
-        cumulative_lengths_q = torch.from_numpy(padded_cumsum(self.lengths)).to(dtype=torch.int32, device=self.device)
-        cumulative_lengths_k = cumulative_lengths_q + self.sequence_k_past
-        cumulative_lengths_k[0] = self.current_document_begin
-        return cumulative_lengths_q, cumulative_lengths_k
-
-    @functools.cached_property
-    def max_lengths(self) -> tuple[torch.Tensor, torch.Tensor]:
-        max_length_q = max(self.lengths)
-        max_length_k = max(max_length_q, self.sequence_k_past + self.lengths[0] - self.current_document_begin)
-        return (
-            torch.full((1,), max_length_q, dtype=torch.int32, device=self.device),
-            torch.full((1,), max_length_k, dtype=torch.int32, device=self.device),
-        )
-
-    @functools.cached_property
-    def document_index(self) -> tuple[torch.Tensor, torch.Tensor]:
-        cumulative_lengths_q, cumulative_lengths_k = self.cumulative_lengths
-        # Note: index starts at 1. Index 0 is for sequence k before `self.current_document_begin`.
-        return (
-            torch.searchsorted(cumulative_lengths_q, torch.arange(len(self.tokens)), side="right"),
-            torch.searchsorted(
-                cumulative_lengths_k, torch.arange(self.sequence_k_past + len(self.tokens)), side="right"
-            ),
-        )
-
-    @functools.cached_property
-    def position_index(self) -> torch.Tensor:
-        _, document_index_k = self.document_index
-        _, cumulative_lengths_k = self.cumulative_lengths
-        document_begins = cumulative_lengths_k[
-            document_index_k[self.sequence_k_past : self.sequence_k_past + len(self.tokens)] - 1
-        ]
-        return (
-            torch.arange(
-                self.sequence_k_past, self.sequence_k_past + len(self.tokens), dtype=torch.int32, device=self.device
+        LengthModelInputPreprocessor(
+            lengths=lengths,
+            sequence_k_past=begin,
+            first_document_begin=first_document_begin,
+            last_document_end=last_document_end,
+            device=self.tokens.device,
+            unpadded_length=min(end, self.unpadded_length) - begin,
+            sequence_length=len(self.tokens),
+        ).preprocess(model_input, config)
+
+        Assert.eq(model_input.token_dim.size, end - begin)
+        if self.tokens.device.type == "meta":
+            model_input.tokens = TensorMeta.from_dims(
+                (model_input.token_dim,), tensor_name=f"tokens_{begin}_to_{end}", dtype=torch.int64
             )
-            - document_begins
-        )
+        return model_input
diff --git a/fast_llm/data/batch/__init__.py b/fast_llm/data/preparation/__init__.py
similarity index 100%
rename from fast_llm/data/batch/__init__.py
rename to fast_llm/data/preparation/__init__.py
diff --git a/fast_llm/data/preparator/config.py b/fast_llm/data/preparation/config.py
similarity index 100%
rename from fast_llm/data/preparator/config.py
rename to fast_llm/data/preparation/config.py
diff --git a/fast_llm/data/preparator/dataset_discovery/README.md b/fast_llm/data/preparation/dataset_discovery/README.md
similarity index 100%
rename from fast_llm/data/preparator/dataset_discovery/README.md
rename to fast_llm/data/preparation/dataset_discovery/README.md
diff --git a/fast_llm/data/preparator/__init__.py b/fast_llm/data/preparation/dataset_discovery/__init__.py
similarity index 100%
rename from fast_llm/data/preparator/__init__.py
rename to fast_llm/data/preparation/dataset_discovery/__init__.py
diff --git a/fast_llm/data/preparator/dataset_discovery/config.py b/fast_llm/data/preparation/dataset_discovery/config.py
similarity index 82%
rename from fast_llm/data/preparator/dataset_discovery/config.py
rename to fast_llm/data/preparation/dataset_discovery/config.py
index d44ebec80..47ab9e39d 100644
--- a/fast_llm/data/preparator/dataset_discovery/config.py
+++ b/fast_llm/data/preparation/dataset_discovery/config.py
@@ -2,11 +2,11 @@
 import typing
 
 from fast_llm.config import Field, FieldHint, config_class
-from fast_llm.data.preparator.config import DatasetPreparatorConfig
+from fast_llm.data.preparation.config import DatasetPreparatorConfig
 from fast_llm.engine.config_utils.runnable import RunnableConfig
 
 if typing.TYPE_CHECKING:
-    from fast_llm.data.preparator.dataset_discovery.prepare import DatasetDiscoveryPreparator
+    from fast_llm.data.preparation.dataset_discovery.prepare import DatasetDiscoveryPreparator
 
 
 @config_class(dynamic_type={RunnableConfig: "prepare_dataset_discovery", DatasetPreparatorConfig: "dataset_discovery"})
@@ -34,6 +34,6 @@ class DatasetDiscoveryConfig(DatasetPreparatorConfig):
 
     @classmethod
     def get_dataset_preparator_class(cls) -> type["DatasetDiscoveryPreparator"]:
-        from fast_llm.data.preparator.dataset_discovery.prepare import DatasetDiscoveryPreparator
+        from fast_llm.data.preparation.dataset_discovery.prepare import DatasetDiscoveryPreparator
 
         return DatasetDiscoveryPreparator
diff --git a/fast_llm/data/preparator/dataset_discovery/prepare.py b/fast_llm/data/preparation/dataset_discovery/prepare.py
similarity index 93%
rename from fast_llm/data/preparator/dataset_discovery/prepare.py
rename to fast_llm/data/preparation/dataset_discovery/prepare.py
index bd00d7c81..38365d850 100644
--- a/fast_llm/data/preparator/dataset_discovery/prepare.py
+++ b/fast_llm/data/preparation/dataset_discovery/prepare.py
@@ -4,9 +4,8 @@
 import yaml
 
 from fast_llm.data.dataset.memmap.memmap import MemmapDataset
-from fast_llm.data.preparator.config import DatasetPreparator
-from fast_llm.data.preparator.dataset_discovery.config import DatasetDiscoveryConfig
-from fast_llm.data.preprocessing.language_model import LanguageModelPreprocessingConfig
+from fast_llm.data.preparation.config import DatasetPreparator
+from fast_llm.data.preparation.dataset_discovery.config import DatasetDiscoveryConfig
 
 logger = logging.getLogger(__name__)
 
@@ -96,7 +95,7 @@ def _create_directory_config(
                 if subpath.suffix != ".fast_llm_dataset":
                     continue
                 try:
-                    num_tokens = MemmapDataset("", subpath, LanguageModelPreprocessingConfig()).num_tokens
+                    num_tokens = MemmapDataset("", subpath).num_tokens
                     if num_tokens == 0:
                         raise ValueError(f"Dataset is empty")
                 except Exception as e:
diff --git a/fast_llm/data/preparator/dataset_discovery/__init__.py b/fast_llm/data/preparation/gpt_memmap/__init__.py
similarity index 100%
rename from fast_llm/data/preparator/dataset_discovery/__init__.py
rename to fast_llm/data/preparation/gpt_memmap/__init__.py
diff --git a/fast_llm/data/preparator/gpt_memmap/config.py b/fast_llm/data/preparation/gpt_memmap/config.py
similarity index 96%
rename from fast_llm/data/preparator/gpt_memmap/config.py
rename to fast_llm/data/preparation/gpt_memmap/config.py
index a1aadf40a..6b31cfbb1 100644
--- a/fast_llm/data/preparator/gpt_memmap/config.py
+++ b/fast_llm/data/preparation/gpt_memmap/config.py
@@ -4,15 +4,15 @@
 import typing
 
 from fast_llm.config import Config, Field, FieldHint, check_field, config_class
-from fast_llm.data.preparator.config import DatasetPreparatorConfig
-from fast_llm.data.preprocessing.image_patch import ImagePatchConfig
-from fast_llm.data.preprocessing.tokenizer import TokenizerConfig
+from fast_llm.data.preparation.config import DatasetPreparatorConfig
+from fast_llm.data.preparation.image_patch import ImagePreparationConfig
+from fast_llm.data.preparation.tokenizer import TokenizerConfig
 from fast_llm.engine.config_utils.data_type import DataType
 from fast_llm.engine.config_utils.runnable import RunnableConfig
 from fast_llm.utils import Assert
 
 if typing.TYPE_CHECKING:
-    from fast_llm.data.preparator.gpt_memmap.prepare import GPTMemmapDatasetPreparator
+    from fast_llm.data.preparation.gpt_memmap.prepare import GPTMemmapDatasetPreparator
 
 
 @config_class(registry=True)
@@ -289,7 +289,7 @@ class GPTMemmapDatasetPreparatorConfig(DatasetPreparatorConfig):
         desc="Configuration for the tokenizer.",
         hint=FieldHint.feature,
     )
-    image_patches: ImagePatchConfig = Field(
+    image_patches: ImagePreparationConfig = Field(
         desc="Configuration for the image patches, if enabled.",
         hint=FieldHint.feature,
     )
@@ -306,6 +306,6 @@ def _validate(self) -> None:
 
     @classmethod
     def get_dataset_preparator_class(cls) -> type["GPTMemmapDatasetPreparator"]:
-        from fast_llm.data.preparator.gpt_memmap.prepare import GPTMemmapDatasetPreparator
+        from fast_llm.data.preparation.gpt_memmap.prepare import GPTMemmapDatasetPreparator
 
         return GPTMemmapDatasetPreparator
diff --git a/fast_llm/data/preparator/gpt_memmap/prepare.py b/fast_llm/data/preparation/gpt_memmap/prepare.py
similarity index 95%
rename from fast_llm/data/preparator/gpt_memmap/prepare.py
rename to fast_llm/data/preparation/gpt_memmap/prepare.py
index 4d642d3b0..88579a789 100644
--- a/fast_llm/data/preparator/gpt_memmap/prepare.py
+++ b/fast_llm/data/preparation/gpt_memmap/prepare.py
@@ -1,7 +1,6 @@
 import collections
 import datetime
 import enum
-import functools
 import json
 import logging
 import math
@@ -31,17 +30,14 @@
 from fast_llm.data.document.language_model import LanguageModelDocument
 from fast_llm.data.document.patch import PatchDocument
 from fast_llm.data.document.range import RangeDocument
-from fast_llm.data.document.token import TokenDocument
-from fast_llm.data.preparator.config import DatasetPreparator
-from fast_llm.data.preparator.gpt_memmap.config import (
+from fast_llm.data.preparation.config import DatasetPreparator
+from fast_llm.data.preparation.gpt_memmap.config import (
     ConversationSourceConfig,
     DocumentSourceConfig,
     GPTMemmapDatasetPreparatorConfig,
     LanguageModelSourceConfig,
 )
-from fast_llm.data.preprocessing.abstract import NullPreprocessingConfig
-from fast_llm.data.preprocessing.language_model import LanguageModelPreprocessingConfig
-from fast_llm.data.preprocessing.tokenizer import Tokenizer
+from fast_llm.data.preparation.tokenizer import Tokenizer
 from fast_llm.engine.config_utils.data_type import DataType, get_unsigned_integer_type
 from fast_llm.engine.config_utils.run import log_main_rank
 from fast_llm.utils import normalize_probabilities, padded_cumsum
@@ -208,22 +204,9 @@ def _prepare_shard(
                 for sample in tqdm.tqdm(shard_dataset, desc=f"Saving shard {shard_index}", unit="docs")
             ),
             LanguageModelWriter,
-            self._preprocessing_config,
         )
         return MemmapDatasetConfig.from_dict({"type": "memmap", "path": file_name}), reader_config
 
-    @functools.cached_property
-    def _preprocessing_config(self) -> LanguageModelPreprocessingConfig:
-        return LanguageModelPreprocessingConfig(
-            tokenizer=self._config.tokenizer,
-            vocab_size=self._tokenizer.vocab_size,
-            image_patches=(
-                self._config.image_patches if self._source_schema.has_images else NullPreprocessingConfig()
-            ),
-            use_loss_masking_spans=self._source_schema.has_loss_masking_span,
-            use_preference_spans=self._source_schema.has_preference_spans,
-        )
-
     def _prepare_sample(self, sample: dict[str, typing.Any]) -> LanguageModelDocument:
         token_spans_by_type = collections.defaultdict(list)
         image_patches = image_token_maps = image_position_ids = patch_counts = None
@@ -335,7 +318,7 @@ def _prepare_sample(self, sample: dict[str, typing.Any]) -> LanguageModelDocumen
         len(tokens)
 
         return LanguageModelDocument(
-            tokens=TokenDocument(tokens=tokens),
+            tokens=tokens,
             loss_masking_spans=(
                 RangeDocument(ranges=token_spans_by_type[SpanType.loss_masking])
                 if self._source_schema.has_loss_masking_span
@@ -466,9 +449,7 @@ def _split_and_blend_dataset_configs(
                 elif split_end_in_dataset > split_begin_in_dataset:
                     # Part of the dataset belongs to the split.
                     # TODO: Somehow getting a segfault when merging two lines below (numpy bug?).
-                    dataset = dataset_config.to_copy({"path": output_path / dataset_config.path}).build(
-                        self._preprocessing_config
-                    )
+                    dataset = dataset_config.to_copy({"path": output_path / dataset_config.path}).build()
                     begin_index, end_index, metadata = dataset.reader.get_split(
                         split_begin_in_dataset, split_end_in_dataset
                     )
diff --git a/fast_llm/data/preprocessing/image_patch.py b/fast_llm/data/preparation/image_patch.py
similarity index 86%
rename from fast_llm/data/preprocessing/image_patch.py
rename to fast_llm/data/preparation/image_patch.py
index 198114bcc..3aaebbfa1 100644
--- a/fast_llm/data/preprocessing/image_patch.py
+++ b/fast_llm/data/preparation/image_patch.py
@@ -4,7 +4,6 @@
 import typing
 
 from fast_llm.config import Config, Field, FieldHint, check_field, config_class
-from fast_llm.data.preprocessing.abstract import PreprocessingConfig
 from fast_llm.engine.config_utils.data_type import DataType
 from fast_llm.utils import Assert, div
 
@@ -13,8 +12,8 @@
     import torch
 
 
-@config_class(dynamic_type={PreprocessingConfig: "image_patch"})
-class ImagePatchConfig(PreprocessingConfig):
+@config_class()
+class ImagePreparationConfig(Config):
     """
     Configuration for the tokenizer.
     The tokenizer is needed for FIM and dataset preparation.
@@ -34,6 +33,7 @@ class ImagePatchConfig(PreprocessingConfig):
         hint=FieldHint.core,
         valid=check_field(Assert.gt, 0),
     )
+    # TODO: These are unspecified in the model.
     do_resize: bool = Field(default=True, desc="Whether to resize the image.")
     max_image_height: int = Field(
         default=1024,
@@ -74,19 +74,6 @@ def _from_dict(cls, default: dict[str, typing.Any], strict: bool = True) -> typi
             default.pop("image_format")
         return super()._from_dict(default, strict)
 
-    def check_compatibility(self, preprocessing: typing.Self) -> None:
-        Assert.custom(isinstance, preprocessing, ImagePatchConfig)
-        Assert.eq(self.height, preprocessing.height)
-        Assert.eq(self.width, preprocessing.width)
-        Assert.eq(self.do_resize, preprocessing.do_resize)
-        Assert.leq(self.max_image_height, preprocessing.max_image_height)
-        Assert.leq(self.max_image_width, preprocessing.max_image_width)
-        # None is used in the trainer to mark unknown value, so we can't do an equality check. TODO: Distinguish.
-        if preprocessing.image_break_token is not None:
-            Assert.eq(self.image_break_token, preprocessing.image_break_token)
-        if preprocessing.image_end_token is not None:
-            Assert.eq(self.image_end_token, preprocessing.image_end_token)
-
     @property
     def num_channels(self) -> int:
         # assume 3 channels (RGB) for all images
@@ -247,16 +234,3 @@ def _resize(self, image: "torch.Tensor") -> "torch.Tensor":
         return torchvision_transforms.functional.resize(
             image, size=(target_height, target_width), interpolation=torchvision_transforms.InterpolationMode.BICUBIC
         )
-
-
-@config_class()
-class ImageNormalizationConfig(Config):
-    scale: float = Field(default=255.0)
-    # Default values from OpenAI Clip.
-    mean: tuple[float, float, float] = Field(default=(0.48145466, 0.4578275, 0.40821073))
-    std: tuple[float, float, float] = Field(default=(0.26862954, 0.26130258, 0.27577711))
-
-    def normalize(self, image: "torch.Tensor") -> "torch.Tensor":
-        import torchvision.transforms.v2 as torchvision_transforms
-
-        return torchvision_transforms.functional.normalize(image / self.scale, list(self.mean), list(self.std))
diff --git a/fast_llm/data/preprocessing/tokenizer.py b/fast_llm/data/preparation/tokenizer.py
similarity index 97%
rename from fast_llm/data/preprocessing/tokenizer.py
rename to fast_llm/data/preparation/tokenizer.py
index 4408ca772..96b0974bc 100644
--- a/fast_llm/data/preprocessing/tokenizer.py
+++ b/fast_llm/data/preparation/tokenizer.py
@@ -2,8 +2,7 @@
 import pathlib
 import typing
 
-from fast_llm.config import Configurable, Field, FieldHint, config_class
-from fast_llm.data.preprocessing.abstract import PreprocessingConfig
+from fast_llm.config import Config, Configurable, Field, FieldHint, config_class
 from fast_llm.engine.config_utils.data_type import DataType
 from fast_llm.engine.config_utils.run import log_main_rank
 from fast_llm.utils import Assert
@@ -14,8 +13,8 @@
     import transformers
 
 
-@config_class(dynamic_type={PreprocessingConfig: "tokenizer"})
-class TokenizerConfig(PreprocessingConfig):
+@config_class()
+class TokenizerConfig(Config):
     """
     Configuration for the tokenizer.
     The tokenizer is needed for FIM and dataset preparation.
diff --git a/fast_llm/data/preparator/gpt_memmap/__init__.py b/fast_llm/data/preparator/gpt_memmap/__init__.py
deleted file mode 100644
index e69de29bb..000000000
diff --git a/fast_llm/data/preprocessing/__init__.py b/fast_llm/data/preprocessing/__init__.py
deleted file mode 100644
index e69de29bb..000000000
diff --git a/fast_llm/data/preprocessing/abstract.py b/fast_llm/data/preprocessing/abstract.py
deleted file mode 100644
index ea1f910df..000000000
--- a/fast_llm/data/preprocessing/abstract.py
+++ /dev/null
@@ -1,42 +0,0 @@
-import logging
-import typing
-import warnings
-
-from fast_llm.config import Config, config_class
-
-logger = logging.getLogger(__name__)
-
-
-@config_class(registry=True)
-class PreprocessingConfig(Config):
-    """
-    Base preprocessing configuration, with dynamic registry so configs can be saved with memmap datasets.
-    """
-
-    _abstract = True
-
-    @classmethod
-    def _from_dict(cls, default: dict[str, typing.Any], strict: bool = True) -> typing.Self:
-        if cls is PreprocessingConfig and cls.get_subclass(default.get("type")) is None:
-            # Default subclass, necessary for loading configs where some components could be absent.
-            return NullPreprocessingConfig._from_dict(default, strict)
-        return super()._from_dict(default, strict=strict)
-
-    def check_compatibility(self, preprocessing: typing.Self) -> None:
-        """
-        Check whether a dataset preprocessed with `self` can produce samples for a model that requires `preprocessing`.
-        """
-        raise NotImplementedError()
-
-
-@config_class(dynamic_type={PreprocessingConfig: "none"})
-class NullPreprocessingConfig(PreprocessingConfig):
-    """
-    Configuration for unspecified preprocessing.
-    """
-
-    _abstract = False
-
-    def check_compatibility(self, preprocessing: typing.Self) -> None:
-        if not isinstance(preprocessing, NullPreprocessingConfig):
-            warnings.warn(f"Preprocessing configuration not specified, could not check compatibility with the model.")
diff --git a/fast_llm/data/preprocessing/language_model.py b/fast_llm/data/preprocessing/language_model.py
deleted file mode 100644
index b4f1a69a7..000000000
--- a/fast_llm/data/preprocessing/language_model.py
+++ /dev/null
@@ -1,44 +0,0 @@
-import functools
-import logging
-import typing
-
-from fast_llm.config import Field, config_class
-from fast_llm.data.preprocessing.abstract import NullPreprocessingConfig, PreprocessingConfig
-from fast_llm.data.preprocessing.image_patch import ImagePatchConfig
-from fast_llm.data.preprocessing.tokenizer import TokenizerConfig
-from fast_llm.utils import Assert
-
-logger = logging.getLogger(__name__)
-
-
-@config_class(dynamic_type={PreprocessingConfig: "language_model"})
-class LanguageModelPreprocessingConfig(PreprocessingConfig):
-    _abstract = False
-    tokenizer: PreprocessingConfig = Field()
-    # We can't easily compare tokenizers,
-    # and in any case the tokenizer path may no longer be valid when loading a prepared dataset,
-    # so we provide the vocab size and use it for compatibility checks.
-    image_patches: PreprocessingConfig = Field()
-    vocab_size: int | None = Field(default=None)
-    use_loss_masking_spans: bool = Field(default=True)
-    use_preference_spans: bool = Field(default=False)
-
-    def _validate(self) -> None:
-        super()._validate()
-        Assert.custom(isinstance, self.image_patches, (ImagePatchConfig, NullPreprocessingConfig))
-        Assert.custom(isinstance, self.tokenizer, (TokenizerConfig, NullPreprocessingConfig))
-
-    @functools.cached_property
-    def use_image_patches(self) -> bool:
-        return isinstance(self.image_patches, ImagePatchConfig)
-
-    def check_compatibility(self, preprocessing: typing.Self) -> None:
-        Assert.custom(isinstance, preprocessing, LanguageModelPreprocessingConfig)
-        # TODO: Check more tokenizer data, ex. bos/eos tokens? path if points to HF hub?
-        if self.vocab_size is not None and preprocessing.vocab_size is not None:
-            Assert.leq(self.vocab_size, preprocessing.vocab_size)
-        if preprocessing.use_preference_spans:
-            # Preference spans are strictly needed for DPO loss.
-            assert self.use_preference_spans, "The dataset is missing required preference spans"
-        if preprocessing.use_image_patches and self.use_image_patches:
-            self.image_patches.check_compatibility(preprocessing.image_patches)
diff --git a/fast_llm/engine/base_model/base_model.py b/fast_llm/engine/base_model/base_model.py
index 945daef89..a12b68c17 100644
--- a/fast_llm/engine/base_model/base_model.py
+++ b/fast_llm/engine/base_model/base_model.py
@@ -5,7 +5,7 @@
 import torch.nn
 
 from fast_llm.config import Configurable
-from fast_llm.data.batch.config import PreprocessedBatch
+from fast_llm.data.document.abstract import ModelInput
 from fast_llm.engine.base_model.config import BaseModelConfig, LossDef, ResourceUsageConfig
 from fast_llm.engine.distributed.config import DistributedConfig, PhaseType
 from fast_llm.engine.distributed.distributed import Distributed
@@ -55,9 +55,9 @@ def get_loss_definitions(self, count: int = 1) -> list[LossDef]:
                 losses += layer.get_loss_definitions(count)
         return losses
 
-    def get_preprocessing_config(self, phase: PhaseType) -> dict[str, typing.Any]:
+    def get_preprocessing_config(self) -> dict[str, typing.Any]:
         return safe_merge_dicts(
-            *(layer.get_preprocessing_config(phase) for layer in self.get_layers() if layer is not self)
+            *(layer.get_preprocessing_config() for layer in self.get_layers() if layer is not self)
         )
 
     def preprocess(self, kwargs: dict[str, typing.Any]) -> None:
@@ -114,8 +114,8 @@ def get_layers(self) -> list["Layer"]:
         """
         return self._layers_with_namespace
 
-    def get_preprocessing_config(self, phase: PhaseType) -> dict[str, typing.Any]:
-        return self._layer.get_preprocessing_config(phase)
+    def get_preprocessing_config(self) -> dict[str, typing.Any]:
+        return self._layer.get_preprocessing_config()
 
     def preprocess(self, kwargs: dict[str, typing.Any]) -> None:
         """
@@ -178,7 +178,7 @@ def __init__(
     @abc.abstractmethod
     def preprocess_batch(
         self,
-        batch: PreprocessedBatch,
+        model_inputs: list[ModelInput],
         *,
         phase: PhaseType,
         iteration: int,
diff --git a/fast_llm/engine/evaluation/config.py b/fast_llm/engine/evaluation/config.py
index aafab306f..e07d6280d 100644
--- a/fast_llm/engine/evaluation/config.py
+++ b/fast_llm/engine/evaluation/config.py
@@ -1,7 +1,7 @@
 import typing
 
 from fast_llm.config import Field, FieldHint, check_field, config_class, skip_valid_if_none
-from fast_llm.data.preprocessing.tokenizer import TokenizerConfig
+from fast_llm.data.preparation.tokenizer import TokenizerConfig
 from fast_llm.engine.config_utils.interval import IntervalConfig
 from fast_llm.utils import Assert
 
diff --git a/fast_llm/engine/evaluation/evaluator.py b/fast_llm/engine/evaluation/evaluator.py
index fe89d83e7..74a08ea5d 100644
--- a/fast_llm/engine/evaluation/evaluator.py
+++ b/fast_llm/engine/evaluation/evaluator.py
@@ -6,8 +6,9 @@
 
 from fast_llm.config import Configurable
 from fast_llm.core.distributed import safe_barrier
-from fast_llm.data.batch.config import BatchPreprocessingConfig, PreprocessedBatch
 from fast_llm.data.data.abstract import Data
+from fast_llm.data.document.abstract import ModelInput
+from fast_llm.data.document.config import BatchPreprocessingConfig
 from fast_llm.engine.base_model.config import LossDef
 from fast_llm.engine.config_utils.run import get_run, log_main_rank, run_exists
 from fast_llm.engine.distributed.config import PhaseType
@@ -70,7 +71,7 @@ def run(
 
 
 class LossEvaluator[ConfigType: LossEvaluatorConfig](Evaluator[ConfigType]):
-    _data_iterator: typing.Iterator[PreprocessedBatch] | None = None
+    _data_iterator: typing.Iterator[list[ModelInput]] | None = None
     _loss_definitions: list[LossDef]
     _schedule: Schedule
     _preprocessing_config: BatchPreprocessingConfig
@@ -92,7 +93,7 @@ def setup(
         self._schedule = Schedule(
             config=runner.config,
             multi_stage=self._multi_stage,
-            batch_meta=preprocessing_config.get_batch_meta(self._data.config.micro_batch_size),
+            batch_meta=preprocessing_config.get_input_meta(self._data.config.micro_batch_size),
             distributed_config=self._distributed.config,
             phase=PhaseType.validation,
         )
diff --git a/fast_llm/engine/inference/runner.py b/fast_llm/engine/inference/runner.py
index b7c88ed5c..f3b16c647 100644
--- a/fast_llm/engine/inference/runner.py
+++ b/fast_llm/engine/inference/runner.py
@@ -40,7 +40,7 @@ def __init__(
         self._schedule = Schedule(
             config=self._schedule_config,
             multi_stage=self._fast_llm_model,
-            batch_meta=self._fast_llm_model.get_preprocessing_config(PhaseType.inference).get_batch_meta(),
+            batch_meta=self._fast_llm_model.get_preprocessing_config(PhaseType.inference).get_input_meta(),
             distributed_config=self._fast_llm_model.config.distributed,
             phase=PhaseType.inference,
         )
diff --git a/fast_llm/engine/multi_stage/fast_llm_model.py b/fast_llm/engine/multi_stage/fast_llm_model.py
index e3854fc56..d9d17db3b 100644
--- a/fast_llm/engine/multi_stage/fast_llm_model.py
+++ b/fast_llm/engine/multi_stage/fast_llm_model.py
@@ -4,7 +4,7 @@
 
 from fast_llm.config import UpdateType
 from fast_llm.core.distributed import broadcast
-from fast_llm.data.batch.config import BatchPreprocessingConfig
+from fast_llm.data.document.config import BatchPreprocessingConfig
 from fast_llm.engine.checkpoint.config import CheckpointLoadConfig, CheckpointSaveConfig
 from fast_llm.engine.distributed.config import PhaseType
 from fast_llm.engine.distributed.distributed import Distributed
diff --git a/fast_llm/engine/schedule/schedule.py b/fast_llm/engine/schedule/schedule.py
index 78576f11b..bc425520f 100644
--- a/fast_llm/engine/schedule/schedule.py
+++ b/fast_llm/engine/schedule/schedule.py
@@ -11,7 +11,7 @@
 import torch.utils.data
 
 from fast_llm.config import Configurable
-from fast_llm.data.batch.config import PreprocessedBatch
+from fast_llm.data.document.abstract import ModelInput
 from fast_llm.engine.base_model.config import ResourceUsageConfig
 from fast_llm.engine.distributed.config import DistributedConfig, PhaseType
 from fast_llm.engine.multi_stage.multi_stage import MultiStageModel
@@ -112,7 +112,7 @@ def __init__(
         config: ConfigType,
         *,
         multi_stage: MultiStageModel,
-        batch_meta: PreprocessedBatch,
+        batch_meta: list[ModelInput],
         distributed_config: DistributedConfig,
         phase: PhaseType,
     ):
diff --git a/fast_llm/engine/training/trainer.py b/fast_llm/engine/training/trainer.py
index 812f18ede..d9413c25f 100644
--- a/fast_llm/engine/training/trainer.py
+++ b/fast_llm/engine/training/trainer.py
@@ -115,7 +115,7 @@ def setup(self, distributed: Distributed, run: Run) -> None:
             self._schedule = Schedule(
                 config=self._config.schedule,
                 multi_stage=self._multi_stage,
-                batch_meta=preprocessing_config.get_batch_meta(self._data.config.micro_batch_size),
+                batch_meta=preprocessing_config.get_input_meta(self._data.config.micro_batch_size),
                 distributed_config=self._config.model.distributed,
                 phase=PhaseType.training,
             )
diff --git a/fast_llm/layers/attention/attention.py b/fast_llm/layers/attention/attention.py
index 1bda984ca..29a738da8 100644
--- a/fast_llm/layers/attention/attention.py
+++ b/fast_llm/layers/attention/attention.py
@@ -8,7 +8,7 @@
 from fast_llm.engine.config_utils.data_type import DataType
 from fast_llm.engine.config_utils.initialization import init_normal_
 from fast_llm.engine.config_utils.tensor_dim import CompositeTensorDim, ConcatenatedTensorDim, TensorDim
-from fast_llm.engine.distributed.config import DistributedConfig, DistributedDimNames, PhaseType
+from fast_llm.engine.distributed.config import DistributedConfig, DistributedDimNames
 from fast_llm.functional.autograd import wrap_forward_backward
 from fast_llm.layers.attention.config import AttentionConfig, AttentionImplementation, AttentionKwargs
 from fast_llm.layers.common.peft.config import PeftConfig
@@ -404,14 +404,15 @@ def get_compute_usage(self, input_: TensorMeta, kwargs: dict[str, typing.Any], c
             )
         )
 
-    def get_preprocessing_config(self, phase: PhaseType) -> dict[str, typing.Any]:
+    def get_preprocessing_config(self) -> dict[str, typing.Any]:
         return (
             {
                 "return_cumulative_sequence_lengths": True,
                 "return_max_sequence_lengths": True,
+                "causal": self._config.causal,
             }
             if self._implementation == AttentionImplementation.flash
-            else {"return_document_index": True}
+            else {"return_document_index": True, "causal": self._config.causal}
         )
 
     def preprocess(self, kwargs: dict[str, typing.Any]) -> None:
diff --git a/fast_llm/layers/block/sequence.py b/fast_llm/layers/block/sequence.py
index eacc04611..8ea11868f 100644
--- a/fast_llm/layers/block/sequence.py
+++ b/fast_llm/layers/block/sequence.py
@@ -7,7 +7,7 @@
 from fast_llm.engine.base_model.base_model import Layer, LayerWithNamespace
 from fast_llm.engine.base_model.config import LossDef
 from fast_llm.engine.config_utils.tensor_dim import TensorDim
-from fast_llm.engine.distributed.config import DistributedConfig, PhaseType
+from fast_llm.engine.distributed.config import DistributedConfig
 from fast_llm.layers.block.block import BlockBase
 from fast_llm.layers.block.config import FixedBlockSequenceConfig, PatternBlockSequenceConfig
 from fast_llm.layers.common.peft.config import PeftConfig
@@ -62,8 +62,8 @@ def _layers_with_namespace(self) -> list[Layer]:
     def get_layers(self) -> list["Layer"]:
         return self._layers_with_namespace
 
-    def get_preprocessing_config(self, phase: PhaseType) -> dict[str, typing.Any]:
-        return self._layers_with_namespace[0].get_preprocessing_config(phase)
+    def get_preprocessing_config(self) -> dict[str, typing.Any]:
+        return self._layers_with_namespace[0].get_preprocessing_config()
 
     def preprocess(self, kwargs: dict[str, typing.Any]) -> None:
         self._layers_with_namespace[0].preprocess(kwargs)
@@ -125,9 +125,9 @@ def _layers_with_namespace(self) -> list[Layer]:
     def get_layers(self) -> list[Layer]:
         return self._layers_with_namespace
 
-    def get_preprocessing_config(self, phase: PhaseType) -> dict[str, typing.Any]:
+    def get_preprocessing_config(self) -> dict[str, typing.Any]:
         return safe_merge_dicts(
-            self._layers_with_namespace[index].get_preprocessing_config(phase)
+            self._layers_with_namespace[index].get_preprocessing_config()
             for _, index in self._config.preprocessing_layers.items()
         )
 
diff --git a/fast_llm/layers/decoder/block.py b/fast_llm/layers/decoder/block.py
index 4a2e066c3..a9d213912 100644
--- a/fast_llm/layers/decoder/block.py
+++ b/fast_llm/layers/decoder/block.py
@@ -7,7 +7,7 @@
 from fast_llm.core.distributed import ReduceOp, all_reduce, set_generator
 from fast_llm.engine.base_model.config import LossDef, ResourceUsageConfig
 from fast_llm.engine.config_utils.tensor_dim import TensorDim
-from fast_llm.engine.distributed.config import DistributedConfig, PhaseType
+from fast_llm.engine.distributed.config import DistributedConfig
 from fast_llm.engine.distributed.distributed import Distributed
 from fast_llm.functional.autograd import AuxiliaryLoss
 from fast_llm.layers.block.block import Block
@@ -206,8 +206,8 @@ def get_compute_usage(self, input_: TensorMeta, kwargs: dict[str, typing.Any], c
             )
         )
 
-    def get_preprocessing_config(self, phase: PhaseType) -> dict[str, typing.Any]:
-        return safe_merge_dicts(self.mixer.get_preprocessing_config(phase), self.mlp.get_preprocessing_config(phase))
+    def get_preprocessing_config(self) -> dict[str, typing.Any]:
+        return safe_merge_dicts(self.mixer.get_preprocessing_config(), self.mlp.get_preprocessing_config())
 
     def preprocess(self, kwargs: dict[str, typing.Any]) -> None:
         self.mixer.preprocess(kwargs)
diff --git a/fast_llm/layers/language_model/config.py b/fast_llm/layers/language_model/config.py
index 4a2422cd9..a199ad154 100644
--- a/fast_llm/layers/language_model/config.py
+++ b/fast_llm/layers/language_model/config.py
@@ -27,7 +27,6 @@ class LanguageModelKwargs(LanguageModelLossKwargs):
     # TODO: These are generic
     phase = "phase"
     loss_mask = "loss_mask"
-    mask_inputs = "mask_inputs"
 
 
 LM_HEAD_LOSS_NAME = "lm_head_loss"
diff --git a/fast_llm/layers/language_model/embedding.py b/fast_llm/layers/language_model/embedding.py
index 1c5e51410..f595f6626 100644
--- a/fast_llm/layers/language_model/embedding.py
+++ b/fast_llm/layers/language_model/embedding.py
@@ -7,7 +7,7 @@
 from fast_llm.engine.base_model.config import ResourceUsageConfig
 from fast_llm.engine.config_utils.initialization import init_normal_
 from fast_llm.engine.config_utils.tensor_dim import TensorDim
-from fast_llm.engine.distributed.config import DistributedConfig, DistributedDimNames, PhaseType
+from fast_llm.engine.distributed.config import DistributedConfig, DistributedDimNames
 from fast_llm.layers.block.block import Block
 from fast_llm.layers.common.peft.config import PeftConfig
 from fast_llm.layers.language_model.config import LanguageModelEmbeddingsConfig, LanguageModelKwargs
@@ -154,21 +154,15 @@ def forward(
                 dtype=self._residual_dtype,
             )
         if (embedding_map := kwargs.get(LanguageModelKwargs.embedding_map)) is None:
-            # Language model: input_ contains token ids.
-            token_ids = input_
+            # Language model: input_ contains duplicate token ids. TODO: ===== remove ======
             input_ = None
-        else:
-            # Multimodal case: input_ contains encoder output, token ids stores in kwargs.
-            # TODO: Support multiple encoders.
-            # TODO: Support pipeline-parallel.
-            token_ids = kwargs.get(LanguageModelKwargs.token_ids)
 
         out = self._forward(
             input_,
-            token_ids,
+            kwargs[LanguageModelKwargs.token_ids],
             kwargs.get(LanguageModelKwargs.position_ids),
-            # TODO ====== Vision ====== Review input masking.
-            kwargs.get(LanguageModelKwargs.mask_inputs),
+            # Masking is needed with image tokens or padding.
+            input_ is not None or kwargs[LanguageModelKwargs.num_tokens] < kwargs[LanguageModelKwargs.token_dim].size,
             embedding_map,
         )
         self._debug(out, None, (kwargs.get(LanguageModelKwargs.hidden_token_dim), self._hidden_dim), kwargs)
@@ -178,7 +172,7 @@ def get_compute_usage(self, input_: TensorMeta, kwargs: dict[str, typing.Any], c
         # TODO: Add marginal compute? (embeddings)
         return 0
 
-    def get_preprocessing_config(self, phase: PhaseType) -> dict[str, typing.Any]:
+    def get_preprocessing_config(self) -> dict[str, typing.Any]:
         out = {"vocab_size": self._config.vocab_size}
         if self._config.position_embeddings.enabled:
             out["return_position_index"] = True
diff --git a/fast_llm/layers/language_model/head.py b/fast_llm/layers/language_model/head.py
index 06cc7a2ea..c6b1b8253 100644
--- a/fast_llm/layers/language_model/head.py
+++ b/fast_llm/layers/language_model/head.py
@@ -10,7 +10,7 @@
 from fast_llm.engine.config_utils.data_type import DataType
 from fast_llm.engine.config_utils.initialization import init_normal_
 from fast_llm.engine.config_utils.tensor_dim import TensorDim, scalar_dim
-from fast_llm.engine.distributed.config import DistributedConfig, DistributedDimNames, PhaseType
+from fast_llm.engine.distributed.config import DistributedConfig, DistributedDimNames
 from fast_llm.functional.autograd import AuxiliaryLoss, grad_is_context, wrap_forward_backward
 from fast_llm.functional.linear import output_parallel_linear_backward, output_parallel_linear_forward
 from fast_llm.layers.block.block import Block
@@ -116,8 +116,8 @@ def get_compute_usage(self, input_: TensorMeta, kwargs: dict[str, typing.Any], c
             * (self._vocab_dim.global_size if config.global_ else self._vocab_dim.size)
         )
 
-    def get_preprocessing_config(self, phase: PhaseType) -> dict[str, typing.Any]:
-        return safe_merge_dicts(*(loss.get_preprocessing_config(phase) for loss in self.losses))
+    def get_preprocessing_config(self) -> dict[str, typing.Any]:
+        return safe_merge_dicts(*(loss.get_preprocessing_config() for loss in self.losses))
 
     def get_output_weights(self) -> list[torch.Tensor]:
         return [self.output_weights]
diff --git a/fast_llm/layers/language_model/language_model.py b/fast_llm/layers/language_model/language_model.py
index 099051cfc..c3dd625ec 100644
--- a/fast_llm/layers/language_model/language_model.py
+++ b/fast_llm/layers/language_model/language_model.py
@@ -4,7 +4,7 @@
 from fast_llm.engine.base_model.base_model import Layer
 from fast_llm.engine.base_model.config import LossDef
 from fast_llm.engine.config_utils.tensor_dim import TensorDim
-from fast_llm.engine.distributed.config import DistributedConfig, PhaseType
+from fast_llm.engine.distributed.config import DistributedConfig
 from fast_llm.layers.block.block import BlockBase
 from fast_llm.layers.common.peft.config import PeftConfig
 from fast_llm.layers.language_model.config import LanguageModelConfig
@@ -35,20 +35,20 @@ def __init__(
             peft=peft,
         )
         self.embeddings: LanguageModelEmbedding = self._config.embeddings.get_layer(
-            distributed_config,
+            self._distributed_config,
             hidden_dim=self._hidden_dim,
             lr_scale=self._lr_scale,
             peft=self._peft,
         )
         self.decoder = self._config.decoder.get_layer(
-            distributed_config,
+            self._distributed_config,
             self._hidden_dim,
             lr_scale=self._lr_scale,
             peft=self._peft,
             **({"return_last_layer_input": True} if self._config.head.prediction_heads > 1 else {}),
         )
         self.head, self.multi_token_prediction = self._config.head.get_layer(
-            distributed_config,
+            self._distributed_config,
             self._config.embeddings,
             hidden_dim=self._hidden_dim,
             lr_scale=self._lr_scale,
@@ -66,12 +66,13 @@ def get_layers(self) -> list[Layer]:
             layers += self.multi_token_prediction.get_layers()
         return layers
 
-    def get_preprocessing_config(self, phase: PhaseType) -> dict[str, typing.Any]:
+    def get_preprocessing_config(self) -> dict[str, typing.Any]:
         return safe_merge_dicts(
-            self.embeddings.get_preprocessing_config(phase),
-            self.decoder.get_preprocessing_config(phase),
-            self.head.get_preprocessing_config(phase),
-            self.multi_token_prediction.get_preprocessing_config(phase),
+            {"distributed": self._distributed_config},
+            self.embeddings.get_preprocessing_config(),
+            self.decoder.get_preprocessing_config(),
+            self.head.get_preprocessing_config(),
+            self.multi_token_prediction.get_preprocessing_config(),
         )
 
     def preprocess(self, kwargs: dict[str, typing.Any]) -> None:
diff --git a/fast_llm/layers/language_model/loss/dpo.py b/fast_llm/layers/language_model/loss/dpo.py
index 4eb7446e5..a210b1c1f 100644
--- a/fast_llm/layers/language_model/loss/dpo.py
+++ b/fast_llm/layers/language_model/loss/dpo.py
@@ -2,7 +2,6 @@
 
 import torch
 
-from fast_llm.engine.distributed.config import PhaseType
 from fast_llm.layers.language_model.loss.config import LanguageModelDPOLossConfig, LanguageModelLossKwargs
 from fast_llm.layers.language_model.loss.loss import LanguageModelLoss, loss_forward_backward
 
@@ -19,7 +18,7 @@ def __init__(self, *args, **kwargs):
         if self._vocab_parallel:
             raise NotImplementedError()
 
-    def get_preprocessing_config(self, phase: PhaseType) -> dict[str, typing.Any]:
+    def get_preprocessing_config(self) -> dict[str, typing.Any]:
         return {"use_preference_spans": True}
 
     def forward_backward(
diff --git a/fast_llm/layers/language_model/loss/entropy_loss.py b/fast_llm/layers/language_model/loss/entropy_loss.py
index a221b3747..abb805b9b 100644
--- a/fast_llm/layers/language_model/loss/entropy_loss.py
+++ b/fast_llm/layers/language_model/loss/entropy_loss.py
@@ -2,7 +2,6 @@
 
 import torch
 
-from fast_llm.engine.distributed.config import PhaseType
 from fast_llm.functional.config import TargetFormat, TritonConfig
 from fast_llm.functional.entropy_loss import fused_entropy_loss_forward_backward
 from fast_llm.functional.triton.entropy_loss import triton_entropy_loss_forward_backward
@@ -62,5 +61,5 @@ def forward_backward(
             entropy_loss_type=self._config.loss_type,
         )
 
-    def get_preprocessing_config(self, phase: PhaseType) -> dict[str, typing.Any]:
+    def get_preprocessing_config(self) -> dict[str, typing.Any]:
         return {"return_prediction_mask": True}
diff --git a/fast_llm/layers/language_model/loss/loss.py b/fast_llm/layers/language_model/loss/loss.py
index 07568ccc5..e52bc85c5 100644
--- a/fast_llm/layers/language_model/loss/loss.py
+++ b/fast_llm/layers/language_model/loss/loss.py
@@ -5,7 +5,7 @@
 
 from fast_llm.config import Configurable
 from fast_llm.core.ops import split_op
-from fast_llm.engine.distributed.config import DistributedConfig, DistributedDimNames, PhaseType
+from fast_llm.engine.distributed.config import DistributedConfig, DistributedDimNames
 from fast_llm.layers.language_model.config import LanguageModelKwargs
 from fast_llm.layers.language_model.loss.config import LanguageModelLossConfig, LanguageModelLossKwargs
 from fast_llm.utils import Assert
@@ -47,7 +47,9 @@ def forward_backward(
     ) -> "tuple[torch.Tensor, torch.Tensor | None]":
         pass
 
-    def get_preprocessing_config(self, phase: PhaseType) -> dict[str, typing.Any]:
+    def get_preprocessing_config(
+        self,
+    ) -> dict[str, typing.Any]:
         return {}
 
     @property
diff --git a/fast_llm/layers/language_model/multi_token_prediction.py b/fast_llm/layers/language_model/multi_token_prediction.py
index f7979ae53..132ebefb0 100644
--- a/fast_llm/layers/language_model/multi_token_prediction.py
+++ b/fast_llm/layers/language_model/multi_token_prediction.py
@@ -6,7 +6,7 @@
 from fast_llm.engine.base_model.base_model import Layer, LayerWithNamespace
 from fast_llm.engine.base_model.config import LossDef
 from fast_llm.engine.config_utils.tensor_dim import TensorDim
-from fast_llm.engine.distributed.config import DistributedConfig, PhaseType
+from fast_llm.engine.distributed.config import DistributedConfig
 from fast_llm.layers.block.block import BlockBase
 from fast_llm.layers.common.peft.config import PeftConfig
 from fast_llm.layers.decoder.config import DecoderBlockConfig
@@ -87,8 +87,8 @@ def get_layers(self) -> list[Layer]:
     def get_output_weights(self) -> list[torch.Tensor]:
         return sum((head.get_output_weights() for head in self.heads), [])
 
-    def get_preprocessing_config(self, phase: PhaseType) -> dict[str, typing.Any]:
-        return self._layers_with_namespace[0].get_preprocessing_config(phase) if self._enabled else {}
+    def get_preprocessing_config(self) -> dict[str, typing.Any]:
+        return self._layers_with_namespace[0].get_preprocessing_config() if self._enabled else {}
 
     def preprocess(self, kwargs: dict[str, typing.Any]) -> None:
         if self._enabled:
diff --git a/fast_llm/layers/ssm/gdn.py b/fast_llm/layers/ssm/gdn.py
index 8010d517c..6847245c0 100644
--- a/fast_llm/layers/ssm/gdn.py
+++ b/fast_llm/layers/ssm/gdn.py
@@ -8,7 +8,7 @@
 from fast_llm.engine.base_model.config import ResourceUsageConfig
 from fast_llm.engine.config_utils.initialization import LambdaInitializer, init_normal_, init_ones_
 from fast_llm.engine.config_utils.tensor_dim import CompositeTensorDim, ConcatenatedTensorDim, TensorDim
-from fast_llm.engine.distributed.config import DistributedConfig, DistributedDimNames, PhaseType
+from fast_llm.engine.distributed.config import DistributedConfig, DistributedDimNames
 from fast_llm.functional.config import ActivationType
 from fast_llm.layers.attention.config import MixerKwargs
 from fast_llm.layers.common.peft.config import PeftConfig
@@ -369,7 +369,7 @@ def _forward(
 
         return output
 
-    def get_preprocessing_config(self, phase: PhaseType) -> dict[str, typing.Any]:
+    def get_preprocessing_config(self) -> dict[str, typing.Any]:
         return {"return_cumulative_sequence_lengths": True, "return_document_index": True}
 
     def get_compute_usage(self, input_: TensorMeta, kwargs: dict[str, typing.Any], config: ResourceUsageConfig) -> int:
diff --git a/fast_llm/layers/ssm/kda.py b/fast_llm/layers/ssm/kda.py
index c6dce1ef1..84a365588 100644
--- a/fast_llm/layers/ssm/kda.py
+++ b/fast_llm/layers/ssm/kda.py
@@ -7,7 +7,7 @@
 from fast_llm.engine.base_model.config import ResourceUsageConfig
 from fast_llm.engine.config_utils.initialization import LambdaInitializer, init_normal_, init_ones_
 from fast_llm.engine.config_utils.tensor_dim import CompositeTensorDim, TensorDim
-from fast_llm.engine.distributed.config import DistributedConfig, DistributedDimNames, PhaseType
+from fast_llm.engine.distributed.config import DistributedConfig, DistributedDimNames
 from fast_llm.functional.config import ActivationType
 from fast_llm.layers.attention.config import MixerKwargs
 from fast_llm.layers.common.peft.config import PeftConfig
@@ -289,5 +289,5 @@ def _forward(
     def get_compute_usage(self, input_: TensorMeta, kwargs: dict[str, typing.Any], config: ResourceUsageConfig) -> int:
         raise NotImplementedError()
 
-    def get_preprocessing_config(self, phase: PhaseType) -> dict[str, typing.Any]:
+    def get_preprocessing_config(self) -> dict[str, typing.Any]:
         return {"return_cumulative_sequence_lengths": True, "return_document_index": True}
diff --git a/fast_llm/layers/ssm/mamba.py b/fast_llm/layers/ssm/mamba.py
index d12b3ffa2..0372c7b77 100644
--- a/fast_llm/layers/ssm/mamba.py
+++ b/fast_llm/layers/ssm/mamba.py
@@ -7,7 +7,7 @@
 from fast_llm.engine.base_model.config import ResourceUsageConfig
 from fast_llm.engine.config_utils.initialization import init_normal_, init_ones_, init_uniform_centered_
 from fast_llm.engine.config_utils.tensor_dim import CompositeTensorDim, ConcatenatedTensorDim, TensorDim
-from fast_llm.engine.distributed.config import DistributedConfig, DistributedDimNames, PhaseType
+from fast_llm.engine.distributed.config import DistributedConfig, DistributedDimNames
 from fast_llm.functional.config import ActivationType
 from fast_llm.layers.attention.config import MixerKwargs
 from fast_llm.layers.block.config import BlockDimNames, BlockKwargs
@@ -252,7 +252,7 @@ def get_compute_usage(self, input_: TensorMeta, kwargs: dict[str, typing.Any], c
         # TODO: Implement.
         raise NotImplementedError()
 
-    def get_preprocessing_config(self, phase: PhaseType) -> dict[str, typing.Any]:
+    def get_preprocessing_config(self) -> dict[str, typing.Any]:
         if not self._config.cross_document_attention:
             assert (
                 _mamba_varlen_available
diff --git a/fast_llm/layers/vision/config.py b/fast_llm/layers/vision/config.py
index 924e1c305..5920a85ee 100644
--- a/fast_llm/layers/vision/config.py
+++ b/fast_llm/layers/vision/config.py
@@ -1,7 +1,8 @@
 import functools
 import typing
 
-from fast_llm.config import Config, Field, FieldHint, check_field, config_class
+from fast_llm.config import Field, FieldHint, check_field, config_class
+from fast_llm.data.document.config import ImageNormalizationConfig
 from fast_llm.layers.block.config import BlockConfig, BlockKwargs, BlockSequenceConfig
 from fast_llm.layers.common.linear.config import AffineLinearConfig
 from fast_llm.layers.common.normalization.config import NormalizationConfig
@@ -15,48 +16,10 @@
 
 
 class VisionKwargs(BlockKwargs):
+    patches = "patches"
     patch_positions = "patch_positions"
 
 
-@config_class()
-class ImageNormalizationConfig(Config):
-    mean_r: float = Field(
-        default=0.48145466,
-        desc="Mean value for the red channel in the image normalization process.",
-        hint=FieldHint.optional,
-    )
-    mean_g: float = Field(
-        default=0.4578275,
-        desc="Mean value for the green channel in the image normalization process.",
-        hint=FieldHint.optional,
-    )
-    mean_b: float = Field(
-        default=0.40821073,
-        desc="Mean value for the blue channel in the image normalization process.",
-        hint=FieldHint.optional,
-    )
-    std_r: float = Field(
-        default=0.26862954,
-        desc="Standard deviation value for the red channel in the image normalization process.",
-        hint=FieldHint.optional,
-    )
-    std_g: float = Field(
-        default=0.26130258,
-        desc="Standard deviation value for the green channel in the image normalization process.",
-        hint=FieldHint.optional,
-    )
-    std_b: float = Field(
-        default=0.27577711,
-        desc="Standard deviation value for the blue channel in the image normalization process.",
-        hint=FieldHint.optional,
-    )
-    rescale_factor: float = Field(
-        default=255.0,
-        desc="Rescale factor for the image normalization process.",
-        hint=FieldHint.optional,
-    )
-
-
 @config_class()
 class PatchEmbeddingsConfig(BlockConfig):
     _abstract = False
@@ -112,6 +75,10 @@ class VisionEncoderConfig(BlockConfig):
         desc="Configuration for the adapter layer.",
         hint=FieldHint.architecture,
     )
+    normalization: ImageNormalizationConfig = Field(
+        desc="Configuration for image normalization during preprocessing.",
+        hint=FieldHint.feature,
+    )
     hidden_size: int = Field(
         default=1024,
         desc="Size of the vision encoder main hidden dimension.",
diff --git a/fast_llm/layers/vision/embeddings.py b/fast_llm/layers/vision/embeddings.py
index 0b0434f56..be978eaa4 100644
--- a/fast_llm/layers/vision/embeddings.py
+++ b/fast_llm/layers/vision/embeddings.py
@@ -50,6 +50,9 @@ def __init__(
         )
         self.normalization = self._config.normalization.get_layer(hidden_dim, lr_scale=self._lr_scale, peft=self._peft)
 
+    def get_preprocessing_config(self) -> dict[str, typing.Any]:
+        return {"shape": (self.config.input_channels, self._config.patch_height, self._config.patch_width)}
+
     def forward(
         self,
         input_: torch.Tensor,
@@ -57,15 +60,16 @@ def forward(
         losses: dict[str, typing.Any] | None = None,
         metrics: dict | None = None,
     ) -> torch.Tensor:
-        if isinstance(input_, TensorMeta):
+        patches = kwargs[VisionKwargs.patches]
+        if isinstance(patches, TensorMeta):
             return TensorMeta.from_dims(
                 (kwargs[VisionKwargs.hidden_token_dim], self._hidden_dim),
                 tensor_name="Patch convolution output",
                 dtype=self._residual_dtype,
             )
         if self._sequence_parallel:
-            input_ = split(input_, group=self._parallel_dim.group, dim=0)
+            patches = split(patches, group=self._parallel_dim.group, dim=0)
 
-        out = self.normalization(self.patch_embeddings(input_.flatten(1))).to(self._residual_dtype)
+        out = self.normalization(self.patch_embeddings(patches.flatten(1))).to(self._residual_dtype)
         self._debug(out, None, (kwargs.get(VisionKwargs.hidden_token_dim), self._hidden_dim), kwargs)
         return out
diff --git a/fast_llm/layers/vision/vision_encoder.py b/fast_llm/layers/vision/vision_encoder.py
index a014f6f5a..3116702e6 100644
--- a/fast_llm/layers/vision/vision_encoder.py
+++ b/fast_llm/layers/vision/vision_encoder.py
@@ -5,7 +5,7 @@
 from fast_llm.engine.base_model.base_model import Layer, LayerBaseWithNamespace
 from fast_llm.engine.base_model.config import LossDef
 from fast_llm.engine.config_utils.tensor_dim import TensorDim
-from fast_llm.engine.distributed.config import DistributedConfig, PhaseType
+from fast_llm.engine.distributed.config import DistributedConfig
 from fast_llm.layers.block.block import BlockBase
 from fast_llm.layers.common.peft.config import PeftConfig
 from fast_llm.layers.language_model.language_model import LanguageModel
@@ -54,12 +54,13 @@ def __init__(
     def get_layers(self) -> list["Layer"]:
         return self.embeddings.get_layers() + self.encoder.get_layers() + self.adapter.get_layers()
 
-    def get_preprocessing_config(self, phase: PhaseType) -> dict[str, typing.Any]:
+    def get_preprocessing_config(self) -> dict[str, typing.Any]:
         # Needed because the base class uses `get_layers` which may bypass the decoder. TODO: Avoidable?
         return safe_merge_dicts(
-            self.embeddings.get_preprocessing_config(phase),
-            self.encoder.get_preprocessing_config(phase),
-            self.adapter.get_preprocessing_config(phase),
+            {"normalization": self._config.normalization},
+            self.embeddings.get_preprocessing_config(),
+            self.encoder.get_preprocessing_config(),
+            self.adapter.get_preprocessing_config(),
         )
 
     def preprocess(self, kwargs: dict[str, typing.Any]) -> None:
@@ -107,10 +108,15 @@ def __init__(
     def get_layers(self) -> list[Layer]:
         return self._vision_encoder_with_namespace.get_layers() + super().get_layers()
 
-    def get_preprocessing_config(self, phase: PhaseType) -> dict[str, typing.Any]:
+    def get_preprocessing_config(self) -> dict[str, typing.Any]:
         return safe_merge_dicts(
-            self._vision_encoder_with_namespace.get_preprocessing_config(phase),
-            super().get_preprocessing_config(phase),
+            {
+                "vision_encoder": safe_merge_dicts(
+                    self._vision_encoder_with_namespace.get_preprocessing_config(),
+                    {"distributed": self._distributed_config, "namespace": self._vision_encoder_namespace},
+                )
+            },
+            super().get_preprocessing_config(),
         )
 
     def preprocess(self, kwargs: dict[str, typing.Any]) -> None:
diff --git a/fast_llm/models/gpt/huggingface.py b/fast_llm/models/gpt/huggingface.py
index 4c765f8a0..f843f9258 100644
--- a/fast_llm/models/gpt/huggingface.py
+++ b/fast_llm/models/gpt/huggingface.py
@@ -6,9 +6,7 @@
 import torch
 import transformers.modeling_outputs
 
-from fast_llm.data.batch.language_model import LanguageModelPreprocessedBatch
-from fast_llm.data.document.language_model import LanguageModelBatch
-from fast_llm.data.document.token import TokenBatch
+from fast_llm.data.document.language_model import LanguageModelBatch, LanguageModelInput
 from fast_llm.engine.distributed.config import PhaseType
 from fast_llm.engine.inference.config import HuggingfaceModelConfig
 from fast_llm.engine.inference.huggingface import HuggingfacePreTrainedModel
@@ -44,46 +42,23 @@ def inner_forward(
         output_hidden_states: bool | None = None,
         return_dict: bool | None = None,
     ) -> tuple | transformers.modeling_outputs.CausalLMOutputWithPast:
-        output_attentions = output_attentions if output_attentions is not None else self.config.output_attentions
-        output_hidden_states = (
-            output_hidden_states if output_hidden_states is not None else self.config.output_hidden_states
-        )
-        return_dict = return_dict if return_dict is not None else self.config.use_return_dict
-        use_cache = use_cache if use_cache is not None else self.config.use_cache
-
-        if output_attentions:
-            raise NotImplementedError()
-        if inputs_embeds is not None:
-            raise NotImplementedError()
-        if labels is not None:
-            raise NotImplementedError()
-
-        output = self._inner_forward(
-            self._get_batch(
-                input_ids,
-                attention_mask,
-                position_ids,
-                past_key_values,
-                use_cache,
-                output_hidden_states,
-            ),
+        return self._inner_forward(
+            self._get_batch(input_ids, attention_mask),
             input_ids.shape,
-        )
-        return (
-            output
-            if return_dict
-            else tuple(x for x in (output.logits, output.hidden_states, output.past_key_values) if x is not None)
+            past_key_values,
+            inputs_embeds,
+            labels,
+            use_cache,
+            output_attentions,
+            output_hidden_states,
+            return_dict,
         )
 
     def _get_batch(
         self,
         input_ids: torch.Tensor | None = None,
         attention_mask: torch.Tensor | None = None,
-        position_ids: torch.Tensor | None = None,
-        past_key_values=None,
-        use_cache: bool | None = None,
-        output_hidden_states: bool | None = None,
-    ) -> LanguageModelPreprocessedBatch:
+    ) -> LanguageModelBatch:
         # NOTE: We are ignoring position_ids as we reconstruct them from attention_mask via sequence_lengths.
         if attention_mask is None:
             sequence_lengths = [input_ids.size(1)] * input_ids.size(0)
@@ -101,44 +76,45 @@ def _get_batch(
                     [attention_mask.shape[1]] if el == 0 else [el, attention_mask.shape[1] - el], dtype=torch.int64
                 )
             ]
-        batch = LanguageModelPreprocessedBatch.from_batch(
-            LanguageModelBatch(
-                tokens=TokenBatch(tokens=input_ids.flatten(), lengths=sequence_lengths), num_tokens=input_ids.numel()
-            ),
-            self._fast_llm_model.get_preprocessing_config(PhaseType.inference),
-            self._fast_llm_model.distributed.device,
-        )
+        return LanguageModelBatch(tokens=input_ids.flatten(), lengths=sequence_lengths)
 
-        if output_hidden_states:
-            if isinstance(output_hidden_states, bool):
-                # Hugging Face expect the last layer to include the final norm.
-                # Note: We can't index `decoder` with slice because it tries to create a new block sequence instance.
-                output_hidden_states = [layer.module_name + "$" for layer in self.fast_llm_base_model.decoder][:-1] + [
-                    self.fast_llm_base_model.head.heads[0].final_norm.module_name + "$"
-                ]
-
-            # This needs to be set before preprocessing so it propagates to layers with namespace.
-            # kwargs is shallow-copied so changes will propagate back to the main namespace.
-            batch.micro_batches[0].output_hidden_states.update(re.compile(pattern) for pattern in output_hidden_states)
+    def _inner_forward(
+        self,
+        batch: LanguageModelInput,
+        input_shape: tuple[int],
+        past_key_values=None,
+        inputs_embeds: torch.FloatTensor | None = None,
+        labels: torch.LongTensor | None = None,
+        use_cache: bool | None = None,
+        output_attentions: bool | None = None,
+        output_hidden_states: bool | None = None,
+        return_dict: bool | None = None,
+    ) -> transformers.modeling_outputs.CausalLMOutputWithPast:
+        output_attentions = output_attentions if output_attentions is not None else self.config.output_attentions
+        output_hidden_states = (
+            output_hidden_states if output_hidden_states is not None else self.config.output_hidden_states
+        )
+        return_dict = return_dict if return_dict is not None else self.config.use_return_dict
+        use_cache = use_cache if use_cache is not None else self.config.use_cache
 
-        if past_key_values is not None:
-            # The transformers will use the past keys and values to this list.
-            batch.micro_batches[0].pasts = past_key_values
-            # TODO: preprocess needs to know about the past.
+        if output_attentions:
+            raise NotImplementedError()
+        if inputs_embeds is not None:
+            raise NotImplementedError()
+        if labels is not None:
             raise NotImplementedError()
-        if use_cache:
-            # The transformers will save the present keys and values to this list.
-            batch.micro_batches[0].presents = []
-        return batch
 
-    def _inner_forward(
-        self, batch: LanguageModelPreprocessedBatch, input_shape: tuple[int]
-    ) -> transformers.modeling_outputs.CausalLMOutputWithPast:
         # Iteration serves as a random seed, using random module because it's not seeded by Fast LLM
         iteration = random.randint(0, 2**32)
 
-        ((input_, kwargs),) = self.fast_llm_base_model.preprocess_batch(
+        model_input = self._get_input(
             batch,
+            past_key_values,
+            use_cache,
+            output_hidden_states,
+        )
+        ((input_, kwargs),) = self.fast_llm_base_model.preprocess_batch(
+            [model_input],
             phase=PhaseType.inference,
             iteration=iteration,
             device=self._fast_llm_model.distributed.device,
@@ -155,8 +131,47 @@ def _inner_forward(
         # TODO: Handle MTP.
         logits = hidden_states.pop("head.logits")
 
-        return transformers.modeling_outputs.CausalLMOutputWithPast(
+        output = transformers.modeling_outputs.CausalLMOutputWithPast(
             logits=logits,
             hidden_states=hidden_states or None,
             past_key_values=kwargs[AttentionKwargs.presents],
         )
+        return (
+            output
+            if return_dict
+            else tuple(x for x in (output.logits, output.hidden_states, output.past_key_values) if x is not None)
+        )
+
+    def _get_input(
+        self,
+        batch: LanguageModelBatch,
+        past_key_values=None,
+        use_cache: bool | None = None,
+        output_hidden_states: bool | None = None,
+    ) -> LanguageModelInput:
+        (model_input,) = batch.get_model_inputs(self._fast_llm_model.get_preprocessing_config(PhaseType.inference))
+
+        if output_hidden_states:
+            if isinstance(output_hidden_states, bool):
+                # Hugging Face expect the last layer to include the final norm.
+                # Note: We can't index `decoder` with slice because it tries to create a new block sequence instance.
+                output_hidden_states = [layer.module_name + "$" for layer in self.fast_llm_base_model.decoder][:-1] + [
+                    self.fast_llm_base_model.head.heads[0].final_norm.module_name + "$"
+                ]
+
+            # This needs to be set before preprocessing so it propagates to layers with namespace.
+            # kwargs is shallow-copied so changes will propagate back to the main namespace.
+            model_input.output_hidden_states.update(re.compile(pattern) for pattern in output_hidden_states)
+
+        if past_key_values is not None:
+            # The transformers will use the past keys and values to this list.
+            model_input.pasts = past_key_values
+            # TODO: preprocess needs to know about the past.
+            raise NotImplementedError()
+        if use_cache:
+            # The transformers will save the present keys and values to this list.
+            model_input.presents = []
+
+        # Propagate to sub-configs if needed.
+        model_input.set_children_attributes()
+        return model_input
diff --git a/fast_llm/models/gpt/model.py b/fast_llm/models/gpt/model.py
index d8d994994..2ebc7e0cd 100644
--- a/fast_llm/models/gpt/model.py
+++ b/fast_llm/models/gpt/model.py
@@ -5,8 +5,8 @@
 
 import torch
 
-from fast_llm.data.batch.config import LanguageModelBatchPreprocessingConfig
-from fast_llm.data.batch.language_model import LanguageModelPreprocessedBatch
+from fast_llm.data.document.config import LanguageModelBatchPreprocessingConfig
+from fast_llm.data.document.language_model import LanguageModelInput
 from fast_llm.engine.base_model.base_model import BaseModel
 from fast_llm.engine.distributed.config import DistributedConfig, PhaseType
 from fast_llm.engine.inference.runner import InferenceRunner
@@ -42,7 +42,7 @@ def __init__(
 
     def preprocess_batch(
         self,
-        batch: LanguageModelPreprocessedBatch,
+        model_inputs: list[LanguageModelInput],
         *,
         phase: PhaseType,
         iteration: int,
@@ -53,17 +53,17 @@ def preprocess_batch(
         reference_preprocessed_batches = {}
         for name, reference_model in self._reference_models.items():
             reference_preprocessed_batches[name] = reference_model.fast_llm_model.base_model.preprocess_batch(
-                batch,
+                model_inputs,
                 phase=PhaseType.inference,
                 iteration=iteration,
                 device=device,
             )
 
         preprocessed = []
-        for micro_sequence_index, micro_sequence in enumerate(batch.micro_batches):
+        for input_index, model_input in enumerate(model_inputs):
             if device is not None:
-                micro_sequence.to_device_(device)
-            kwargs = micro_sequence.to_kwargs()
+                model_input.to_device_(device)
+            kwargs = model_input.to_kwargs()
             kwargs[LanguageModelKwargs.iteration] = iteration
             if extra_kwargs is not None:
                 Assert.empty(kwargs.keys() & extra_kwargs.keys())
@@ -71,9 +71,9 @@ def preprocess_batch(
             if phase == PhaseType.inference:
                 kwargs[BlockKwargs.output_hidden_states].append(re.compile(r"head\..*logits.*$"))
 
-            if not micro_sequence.is_meta:
+            if not model_input.is_meta:
                 for name, reference_model in self._reference_models.items():
-                    reference_tokens, reference_kwargs = reference_preprocessed_batches[name][micro_sequence_index]
+                    reference_tokens, reference_kwargs = reference_preprocessed_batches[name][input_index]
                     if name in self._decoder_reference_models:
                         # TODO: Get the actual names
                         reference_kwargs[BlockKwargs.output_hidden_states].append(
@@ -87,7 +87,7 @@ def preprocess_batch(
                         for layer_name, (meta, tensor) in reference_kwargs[BlockKwargs.hidden_states].items()
                     }
                 self.preprocess(kwargs)
-            preprocessed.append((micro_sequence.tokens, kwargs))
+            preprocessed.append((model_input.tokens, kwargs))
 
         return preprocessed
 
@@ -119,8 +119,7 @@ def get_preprocessing_config(
         return LanguageModelBatchPreprocessingConfig(
             phase=phase,
             micro_batch_splits=micro_batch_splits,
-            distributed=self._config.distributed,
-            **self._base_model.get_preprocessing_config(phase),
+            **self._base_model.get_preprocessing_config(),
         )
 
 
diff --git a/fast_llm/models/multimodal/huggingface.py b/fast_llm/models/multimodal/huggingface.py
index 12491937f..a036249b2 100644
--- a/fast_llm/models/multimodal/huggingface.py
+++ b/fast_llm/models/multimodal/huggingface.py
@@ -4,7 +4,8 @@
 import torch
 import transformers.modeling_outputs
 
-from fast_llm.data.preprocessing.image_patch import ImagePatchConfig
+from fast_llm.data.document.patch import PatchBatch
+from fast_llm.data.preparation.image_patch import ImagePreparationConfig
 from fast_llm.engine.schedule.runner import ScheduleRunner
 from fast_llm.models.gpt.huggingface import HuggingfaceGPTModelConfig, HuggingfaceGPTModelForCausalLM
 from fast_llm.models.multimodal.config import MultiModalModelConfig
@@ -35,7 +36,7 @@ def __init__(
     ):
         super().__init__(fast_llm_model, config, runner, **kwargs)
         embedding_config = self.config.fast_llm_config.base_model.vision_encoder.embeddings
-        self._patch_config = ImagePatchConfig(
+        self._patch_config = ImagePreparationConfig(
             height=embedding_config.patch_height,
             width=embedding_config.patch_width,
             do_resize=False,
@@ -59,7 +60,8 @@ def inner_forward(
         return_dict: bool | None = None,
     ) -> tuple | transformers.modeling_outputs.CausalLMOutputWithPast:
         return self._inner_forward(
-            self._get_batch(input_ids, pixel_values, attention_mask, position_ids, image_sizes),
+            self._get_batch(input_ids, attention_mask, pixel_values, image_sizes),
+            input_ids.shape,
             past_key_values,
             inputs_embeds,
             labels,
@@ -72,14 +74,11 @@ def inner_forward(
     def _get_batch(
         self,
         input_ids: torch.Tensor | None = None,
-        pixel_values: torch.Tensor | None = None,
         attention_mask: torch.Tensor | None = None,
-        position_ids: torch.Tensor | None = None,
+        pixel_values: torch.Tensor | None = None,
         image_sizes: torch.Tensor | None = None,
     ):
-        batch = super()._get_batch(input_ids, attention_mask, position_ids)
-        num_samples, sample_size = batch.tokens.tokens.shape
-
+        batch = super()._get_batch(input_ids, attention_mask)
         if pixel_values is None:
             images = []
         elif image_sizes is None:
@@ -93,21 +92,19 @@ def _get_batch(
         image_patches, image_position_ids, _, _, patch_counts = self._patch_config.get_patches_from_images(images)
 
         # Hugging Face encodes token positions through an image token, from which we extract the patch mapping.
-        image_mask = batch.tokens.tokens == self._image_token_index
+        image_mask = batch.tokens == self._image_token_index
+
+        (token_map,) = torch.nonzero(image_mask, as_tuple=True)
 
-        sample_map, token_map = torch.nonzero(image_mask, as_tuple=True)
-        Assert.eq(len(sample_map), len(image_patches))
+        Assert.eq(len(token_map), len(image_patches))
         # Fast-LLM uses negative token ids as placeholders for image tokens.
-        batch.tokens.tokens = torch.where(image_mask, -100, batch.tokens.tokens)
+        batch.tokens = torch.where(image_mask, -100, batch.tokens)
 
         batch.image_patches = PatchBatch(
-            image_patches,
-            sample_map,
-            token_map,
-            image_position_ids,
-            num_samples,
-            sample_size,
-            patch_counts,
+            patches=image_patches,
+            token_map=token_map,
+            positions=image_position_ids,
+            lengths=patch_counts,
         )
 
         return batch
diff --git a/fast_llm/models/multimodal/model.py b/fast_llm/models/multimodal/model.py
index bf3e4dedd..790ff0a03 100644
--- a/fast_llm/models/multimodal/model.py
+++ b/fast_llm/models/multimodal/model.py
@@ -5,15 +5,11 @@
 
 from fast_llm.core.distributed import all_gather_scalar
 from fast_llm.engine.config_utils.tensor_dim import TensorDim
-from fast_llm.engine.distributed.config import DistributedDim, DistributedDimNames, PhaseType
+from fast_llm.engine.distributed.config import DistributedDim
 from fast_llm.engine.inference.runner import InferenceRunner
-from fast_llm.layers.attention.config import AttentionKwargs
-from fast_llm.layers.language_model.config import LanguageModelKwargs
-from fast_llm.layers.vision.config import VisionKwargs
 from fast_llm.layers.vision.vision_encoder import VisionMultiModalModel
 from fast_llm.models.gpt.model import GPTBaseModel, GPTModel
 from fast_llm.models.multimodal.config import MultiModalBaseModelConfig, MultiModalModelConfig
-from fast_llm.tensor import TensorMeta
 
 logger = logging.getLogger(__name__)
 
@@ -84,135 +80,6 @@ class MultiModalBaseModel[ConfigType: MultiModalBaseModelConfig](
 
     _config: ConfigType
 
-    def preprocess_meta(
-        self, batch_meta: BatchConfig | torch.Tensor, phase: PhaseType
-    ) -> list[tuple[TensorMeta, dict]]:
-        preprocessed_meta = []
-        for tokens, kwargs in super().preprocess_meta(batch_meta, phase):
-            kwargs[LanguageModelKwargs.token_ids] = tokens
-            kwargs[LanguageModelKwargs.mask_inputs] = True
-            # TODO: What about sequence data?
-            batch_data_dim = self._distributed_config.get_distributed_dim(DistributedDimNames.batch_data)
-
-            token_dim = PatchSequenceTensorDim(
-                "token",
-                kwargs[VisionKwargs.token_dim].global_size,
-                self._distributed_config.get_distributed_dim(DistributedDimNames.data),
-                batch_data_dim,
-            )
-            hidden_token_dim = (
-                PatchSequenceTensorDim(
-                    "token_tp",
-                    token_dim.global_size,
-                    self._distributed_config.get_distributed_dim(DistributedDimNames.tensor_and_data),
-                    batch_data_dim,
-                )
-                if self._distributed_config.sequence_tensor_parallel
-                else token_dim
-            )
-            # These are used by the model (preprocessing) and shouldn't see the batch-parallel dim.
-            sequence_q_dim = TensorDim(
-                "sequence_q",
-                token_dim.global_size,
-                self._distributed_config.get_distributed_dim(DistributedDimNames.sequence_data),
-            )
-            TensorDim("sequence_k", token_dim.global_size)
-
-            image_patches = TensorMeta.from_dims(
-                (
-                    # We combine the batch and sequence dims to allow for variable sequence lengths.
-                    # Gives the same result, assuming we disable cross-image attention (TODO: Enforce)
-                    token_dim,
-                    # TODO: Relate to tensor dims in patch convolution.
-                    TensorDim("input_channels", self._config.vision_encoder.embeddings.input_channels),
-                    TensorDim("patch_height", self._config.vision_encoder.embeddings.patch_height),
-                    TensorDim("patch_width", self._config.vision_encoder.embeddings.patch_width),
-                )
-            )
-            kwargs[self._vision_encoder_namespace] = {
-                VisionKwargs.sequence_length: kwargs[VisionKwargs.sequence_length],
-                VisionKwargs.sequence_q_dim: token_dim,
-                VisionKwargs.sequence_k_dim: token_dim,
-                VisionKwargs.token_dim: token_dim,
-                VisionKwargs.hidden_token_dim: hidden_token_dim,
-            }
-
-            preprocessed_meta.append((image_patches, kwargs))
-
-        return preprocessed_meta
-
-    def preprocess_batch(
-        self,
-        batch: LanguageModelBatch,
-        preprocessed_meta: list[tuple[TensorMeta, dict]] | None = None,
-        *,
-        phase: PhaseType,
-        iteration: int,
-        metrics: dict | None = None,
-        extra_kwargs: dict[str, typing.Any] | None = None,
-        device: torch.device | None,
-    ) -> list[tuple[torch.Tensor, dict]]:
-        preprocessed = super().preprocess_batch(
-            batch,
-            preprocessed_meta,
-            phase=phase,
-            iteration=iteration,
-            metrics=metrics,
-            extra_kwargs=extra_kwargs,
-            device=device,
-        )
-        # TODO: Support micro-sequences.
-        assert len(preprocessed) == 1, "Micro-sequences not supported for MultiModalModel."
-        tokens, kwargs = preprocessed[0]
-
-        kwargs[LanguageModelKwargs.token_ids] = tokens
-
-        # If document cropping is enabled, extra tokens may belong to images and need to be removed.
-        # TODO: Handle earlier.
-        tokens_end = kwargs[AttentionKwargs.sequence_k_dim].size
-        tokens_begin = tokens_end - kwargs[AttentionKwargs.sequence_q_dim].size
-        cropped_image_patches = batch.image_patches.crop(tokens_begin, tokens_end)
-
-        sequence_length = tokens.shape[:2].numel()
-        pad_size = sequence_length - cropped_image_patches.patches.size(0)
-
-        patches = cropped_image_patches.patches.to(self._distributed.config.compute_dtype.torch)
-        patches = torch.cat([patches, patches.new_zeros((pad_size,) + patches.shape[1:])])
-
-        positions = torch.cat(
-            [
-                cropped_image_patches.positions,
-                cropped_image_patches.positions.new_zeros((pad_size,) + cropped_image_patches.positions.shape[1:]),
-            ]
-        )
-
-        kwargs[self._vision_encoder_namespace] = {
-            **kwargs[self._vision_encoder_namespace],
-            VisionKwargs.patch_positions: positions,
-            VisionKwargs.sequence_lengths: [cropped_image_patches.lengths + [pad_size]],
-            VisionKwargs.sequence_length: sequence_length,
-            VisionKwargs.device: self._distributed.device,
-            VisionKwargs.output_hidden_states: kwargs.get(VisionKwargs.output_hidden_states, []),
-            VisionKwargs.hidden_states: kwargs[VisionKwargs.hidden_states],
-        }
-        # We need to modify `local_unpadded_size` directly in `preprocessed_meta` since it's the one used by the engine.
-        # Unsafe, but only needed for testing.
-        # TODO: Doesn't work with gradient accumulation (only sees the last value).
-        PatchSequenceTensorDim.local_unpadded_size = cropped_image_patches.patches.size(0)
-
-        kwargs[LanguageModelKwargs.embedding_map] = (
-            cropped_image_patches.sample_map * kwargs[VisionKwargs.sequence_q_dim].size
-            + cropped_image_patches.token_map
-        )
-
-        super().preprocess(kwargs)
-
-        return [(patches, kwargs)]
-
-    def preprocess(self, kwargs: dict[str, typing.Any]) -> None:
-        # Hack to delay preprocessing in super().preprocess_batch (TODO: Improve)
-        pass
-
 
 class MultiModalModel[ConfigType: MultiModalModelConfig](GPTModel[ConfigType]):
     # TODO: Can we drop class?
diff --git a/fast_llm/models/multimodal/trainer.py b/fast_llm/models/multimodal/trainer.py
index 780cdd294..2beee1097 100644
--- a/fast_llm/models/multimodal/trainer.py
+++ b/fast_llm/models/multimodal/trainer.py
@@ -1,8 +1,5 @@
 import logging
-import typing
 
-from fast_llm.data.batch.config import LanguageModelBatchPreprocessingConfig
-from fast_llm.data.preprocessing.language_model import LanguageModelPreprocessingConfig
 from fast_llm.models.gpt.trainer import GPTTrainer
 from fast_llm.models.multimodal.config import MultiModalTrainerConfig
 
@@ -10,18 +7,4 @@
 
 
 class MultiModalTrainer[ConfigType: MultiModalTrainerConfig](GPTTrainer[ConfigType]):
-    def _get_preprocessing_config(
-        self, *, _return_dict: bool = False
-    ) -> LanguageModelBatchPreprocessingConfig | dict[str, typing.Any]:
-        out = super()._get_preprocessing_config(_return_dict=True)
-        out["image_patches"] = {
-            "type": "image_patch",
-            "height": self._config.model.base_model.vision_encoder.embeddings.patch_height,
-            "width": self._config.model.base_model.vision_encoder.embeddings.patch_width,
-            # TODO: Max shape and special tokens are unspecified in the model.
-            "max_image_height": 2**32,
-            "max_image_width": 2**32,
-            "image_break_token": None,
-            "image_end_token": None,
-        }
-        return out if _return_dict else LanguageModelPreprocessingConfig.from_dict(out)
+    pass
diff --git a/tests/data/common.py b/tests/data/common.py
index 295ff0f28..73b85ea2b 100644
--- a/tests/data/common.py
+++ b/tests/data/common.py
@@ -4,7 +4,6 @@
 import numpy as np
 import torch
 
-from fast_llm.data.batch.config import LanguageModelBatchPreprocessingConfig
 from fast_llm.data.data.gpt.config import GPTDataConfig
 from fast_llm.data.data.gpt.data import GPTData
 from fast_llm.data.dataset.abstract import SampledDataset
@@ -12,8 +11,8 @@
 from fast_llm.data.dataset.gpt.config import GPTSamplingConfig
 from fast_llm.data.dataset.indexed import IndexedDataset
 from fast_llm.data.dataset.sampled import SampledIndexedDataset
+from fast_llm.data.document.config import LanguageModelBatchPreprocessingConfig
 from fast_llm.data.document.language_model import LanguageModelBatch
-from fast_llm.data.preprocessing.language_model import LanguageModelPreprocessingConfig
 from fast_llm.engine.distributed.config import DistributedConfig, PhaseType
 from fast_llm.utils import Assert, div
 
@@ -28,11 +27,11 @@ def get_sampling_data(
     gpu: bool = False,
     shuffle: ShufflingType = ShufflingType.epoch,
     truncate_documents=True,
-    preprocessing: LanguageModelPreprocessingConfig | None = None,
+    preprocessing: LanguageModelBatchPreprocessingConfig | None = None,
 ) -> tuple[GPTSamplingConfig, int, int]:
     # Config with convenient defaults.
     if preprocessing is None:
-        preprocessing = LanguageModelPreprocessingConfig()
+        preprocessing = LanguageModelBatchPreprocessingConfig()
     return (
         GPTSamplingConfig(
             gpu=gpu,
@@ -65,7 +64,7 @@ def get_test_data_and_compare_samples(
     cache_directory: pathlib.Path | None = None,
     sequence_length: int = 512,
     expected_samples: dict[str, list[list[int]]] | list[list[int]],
-    preprocessing: LanguageModelPreprocessingConfig,
+    preprocessing: LanguageModelBatchPreprocessingConfig,
 ) -> GPTData:
     distributed_config = DistributedConfig(seed=87522, use_cuda=torch.cuda.is_available())
     if isinstance(samples_per_dataset, int):
@@ -95,7 +94,7 @@ def get_test_data_and_compare_samples(
     tokens = {
         dataset_name: torch.stack(
             [
-                batch.tokens.tokens
+                batch.tokens
                 for batch in data.get_iterator(dataset_name, consumed_samples=0, num_workers=0, preprocess=False)
             ]
         )
@@ -116,22 +115,20 @@ def compare_indexed_dataset_tokens(
     sizes = dataset.get_document_sizes()
     Assert.eq(sizes.sum(), num_tokens, dataset.num_tokens)
     Assert.all_equal(
-        [len(dataset.get_document(i).tokens.tokens) for i in range(min(len(dataset), 100))],
+        [len(dataset.get_document(i).tokens) for i in range(min(len(dataset), 100))],
         sizes[: min(len(dataset), 100)],
     )
     for i, expected_sample in expected_samples.items():
-        Assert.all_equal(dataset.get_document(i).tokens.tokens, np.array(expected_sample))
+        Assert.all_equal(dataset.get_document(i).tokens, np.array(expected_sample))
 
 
 def compare_sampled_dataset(sampled: SampledDataset, expected_samples: list[list[int] | np.ndarray]) -> None:
     # Uncomment to print the current list of samples.
     # for i in range(len(expected_samples)):
-    #     print(i, sampled[i].tokens.tokens.tolist())
+    #     print(i, sampled[i].tokens.tolist())
     Assert.eq(len(sampled), len(expected_samples))
     Assert.all_equal(
-        torch.stack(
-            [LanguageModelBatch.from_documents(sampled[i]).tokens.tokens for i in range(len(expected_samples))]
-        ),
+        torch.stack([LanguageModelBatch.from_documents(sampled[i]).tokens for i in range(len(expected_samples))]),
         expected_samples,
     )
 
@@ -157,7 +154,7 @@ def validate_indexed_dataset_sampling(sampled: SampledIndexedDataset, expected_s
         )
     seen_tokens = 0
     for document_index in document_sampling:
-        document = sampled._indexed_dataset.get_document(document_index).tokens.tokens
+        document = sampled._indexed_dataset.get_document(document_index).tokens
 
         all_tokens[seen_tokens : seen_tokens + len(document)] = document[: num_tokens - seen_tokens]
         seen_tokens += len(document)
@@ -168,9 +165,9 @@ def validate_indexed_dataset_sampling(sampled: SampledIndexedDataset, expected_s
         all_tokens[index * sampled._config.micro_batch_size : (index + 1) * sampled._config.micro_batch_size + 1]
         for index in range(sampled._num_samples)
     ]
-    token_ids = torch.stack(
-        [LanguageModelBatch.from_documents(sampled[i]).tokens.tokens for i in range(len(sampled))]
-    ).to(torch.int64)
+    token_ids = torch.stack([LanguageModelBatch.from_documents(sampled[i]).tokens for i in range(len(sampled))]).to(
+        torch.int64
+    )
     Assert.all_equal(token_ids, validate_samples)
     if expected_samples is not None:
         Assert.all_equal(token_ids, expected_samples)
diff --git a/tests/data/test_concatenate.py b/tests/data/test_concatenate.py
index fa0e0eb25..1b53a90fb 100644
--- a/tests/data/test_concatenate.py
+++ b/tests/data/test_concatenate.py
@@ -1,7 +1,6 @@
 from fast_llm.data.dataset.config import ConcatenatedDatasetConfig
 from fast_llm.data.dataset.gpt.config import GPTDatasetFromFileConfig
 from fast_llm.data.document.language_model import LanguageModelDocument
-from fast_llm.data.preprocessing.language_model import LanguageModelPreprocessingConfig
 from tests.data.common import (
     compare_indexed_dataset_tokens,
     compare_sampled_dataset,
@@ -31,7 +30,7 @@ def test_gpt_concatenate():
     dataset = get_dataset_config(
         dataset_config := {"type": "concatenated", "datasets": [memmap_config.to_dict() for _ in range(3)]},
         ConcatenatedDatasetConfig[LanguageModelDocument],
-    ).build(LanguageModelPreprocessingConfig())
+    ).build()
     compare_indexed_dataset_tokens(
         dataset,
         3 * COMMON_DATASET_LENGTH,
diff --git a/tests/data/test_dataset_discovery.py b/tests/data/test_dataset_discovery.py
index bdf04d88a..cb6d34007 100644
--- a/tests/data/test_dataset_discovery.py
+++ b/tests/data/test_dataset_discovery.py
@@ -5,7 +5,7 @@
 import pytest
 import yaml
 
-from fast_llm.data.preparator.dataset_discovery.config import DatasetDiscoveryConfig
+from fast_llm.data.preparation.dataset_discovery.config import DatasetDiscoveryConfig
 from fast_llm.utils import check_equal_nested
 from tests.utils.dataset import get_alt_test_dataset, get_common_test_dataset
 
diff --git a/tests/data/test_image_patch.py b/tests/data/test_image_patch.py
index 5fc9998bf..8d975269e 100644
--- a/tests/data/test_image_patch.py
+++ b/tests/data/test_image_patch.py
@@ -11,8 +11,8 @@
 from fast_llm.data.document.language_model import LanguageModelDocument
 from fast_llm.utils import Assert
 from tests.data.common import get_dataset_config
-from tests.data.test_preparator import COMMON_DATASET_LENGTH, COMMON_DATASET_SAMPLES, COMMON_DATASET_TEXT
-from tests.utils.dataset import get_common_test_dataset, get_test_dataset_with_image_patches
+from tests.data.test_preparator import COMMON_DATASET_LENGTH, COMMON_DATASET_TEXT
+from tests.utils.dataset import get_test_dataset_with_image_patches
 
 DATASET_WITH_IMAGE_PATCHES_TOKENS = [55750, 56809, 59145, 59145]
 DATASET_WITH_IMAGE_PATCHES_IMAGE_MD5 = {
@@ -123,10 +123,8 @@ def _get_image_tokens(
 @pytest.mark.parametrize("image_break_token", (None, 55))
 @pytest.mark.parametrize("image_end_token", (None, 132))
 def test_gpt_data_with_image_patches(image_break_token, image_end_token):
-    _, config, hf_path, preprocessing = get_test_dataset_with_image_patches(image_break_token, image_end_token)
-    dataset: MemmapDataset[LanguageModelDocument] = get_dataset_config(config, GPTDatasetFromFileConfig).build(
-        preprocessing
-    )
+    _, config, hf_path, _ = get_test_dataset_with_image_patches(image_break_token, image_end_token)
+    dataset: MemmapDataset[LanguageModelDocument] = get_dataset_config(config, GPTDatasetFromFileConfig).build()
     test_index = 2 * (image_break_token is not None) + (image_end_token is not None)
 
     hf_dataset = datasets.load_from_disk(hf_path)["train"]
@@ -158,7 +156,7 @@ def test_gpt_data_with_image_patches(image_break_token, image_end_token):
                 else [token_or_patches]
             )
         ]
-        Assert.eq(document.tokens.tokens.tolist(), expected_tokens)
+        Assert.eq(document.tokens.tolist(), expected_tokens)
         Assert.eq(document.image_patches.token_map.tolist(), DATASET_WITH_IMAGE_PATCHES_TOKEN_MAP[index][test_index])
         Assert.eq(document.image_patches.positions.tolist(), DATASET_WITH_IMAGE_PATCHES_POSITIONS[index])
         Assert.eq(document.image_patches.lengths, DATASET_WITH_IMAGE_PATCHES_LENGTHS[index])
@@ -166,15 +164,3 @@ def test_gpt_data_with_image_patches(image_break_token, image_end_token):
             hashlib.md5(document.image_patches.patches.numpy().tobytes()).hexdigest(),
             DATASET_WITH_IMAGE_PATCHES_PATCHES_MD5[index],
         )
-
-
-@pytest.mark.slow
-def test_gpt_data_with_missing_image_patches():
-    path, config, hf_path, _ = get_common_test_dataset()
-    _, _, _, preprocessing = get_test_dataset_with_image_patches(config_only=True)
-    dataset = get_dataset_config(config, GPTDatasetFromFileConfig).build(preprocessing)
-
-    for index in COMMON_DATASET_SAMPLES:
-        document = dataset.get_document(index)
-        Assert.eq(document.tokens.tokens.tolist(), COMMON_DATASET_SAMPLES[index])
-        Assert.none(document.image_patches)
diff --git a/tests/data/test_loss_masking_spans.py b/tests/data/test_loss_masking_spans.py
index a9a65f286..f0a35e9b8 100644
--- a/tests/data/test_loss_masking_spans.py
+++ b/tests/data/test_loss_masking_spans.py
@@ -4,11 +4,11 @@
 from fast_llm.data.dataset.gpt.config import GPTDatasetFromFileConfig
 from fast_llm.data.dataset.memmap.memmap import MemmapDataset
 from fast_llm.data.document.language_model import LanguageModelDocument
-from fast_llm.data.preprocessing.tokenizer import TokenizerConfig
+from fast_llm.data.preparation.tokenizer import TokenizerConfig
 from fast_llm.utils import Assert
 from tests.data.common import get_dataset_config
-from tests.data.test_preparator import COMMON_DATASET_LENGTH, COMMON_DATASET_SAMPLES, COMMON_DATASET_TEXT
-from tests.utils.dataset import get_common_test_dataset, get_test_dataset_with_loss_masking_spans
+from tests.data.test_preparator import COMMON_DATASET_LENGTH, COMMON_DATASET_TEXT
+from tests.utils.dataset import get_test_dataset_with_loss_masking_spans
 from tests.utils.global_variables import TOKENIZER_NAME
 
 DATASET_WITH_SPAN_TOKENS = 45577
@@ -37,10 +37,8 @@
 
 @pytest.mark.slow
 def test_gpt_data_with_loss_masking_spans():
-    _, config, hf_path, preprocessing = get_test_dataset_with_loss_masking_spans()
-    dataset: MemmapDataset[LanguageModelDocument] = get_dataset_config(config, GPTDatasetFromFileConfig).build(
-        preprocessing
-    )
+    _, config, hf_path, _ = get_test_dataset_with_loss_masking_spans()
+    dataset: MemmapDataset[LanguageModelDocument] = get_dataset_config(config, GPTDatasetFromFileConfig).build()
 
     hf_dataset = datasets.load_from_disk(hf_path)["train"]
     tokenizer = TokenizerConfig(path=TOKENIZER_NAME).get_tokenizer()
@@ -59,12 +57,12 @@ def test_gpt_data_with_loss_masking_spans():
         document = dataset.get_document(index)
 
         # Compare tokens and token spans.
-        Assert.all_equal(document.tokens.tokens, expected_tokens)
+        Assert.all_equal(document.tokens, expected_tokens)
         Assert.eq(document.loss_masking_spans.ranges, expected_spans)
 
         # Compare text.
         text, text_spans = tokenizer.detokenize_with_spans(
-            document.tokens.tokens, True, True, token_spans=document.loss_masking_spans.ranges
+            document.tokens, True, True, token_spans=document.loss_masking_spans.ranges
         )
         Assert.eq(text, expected_text)
         Assert.eq(text_spans, expected_text_spans)
@@ -74,17 +72,5 @@ def test_gpt_data_with_loss_masking_spans():
         Assert.eq(hf_dataset[index]["text"], COMMON_DATASET_TEXT[index])
         Assert.eq(hf_dataset[index]["loss_masking_spans"], HF_LOSS_MASKING_SPANS[index])
         document = dataset.get_document(index)
-        Assert.eq(document.tokens.tokens.tolist(), DATASET_WITH_SPAN_SAMPLES[index])
+        Assert.eq(document.tokens.tolist(), DATASET_WITH_SPAN_SAMPLES[index])
         Assert.eq(document.loss_masking_spans.ranges, TOKEN_LOSS_MASKING_SPANS[index])
-
-
-@pytest.mark.slow
-def test_gpt_data_with_missing_loss_masking_spans():
-    path, config, hf_path, _ = get_common_test_dataset()
-    _, _, _, preprocessing = get_test_dataset_with_loss_masking_spans(config_only=True)
-    dataset = get_dataset_config(config, GPTDatasetFromFileConfig).build(preprocessing)
-
-    for index in COMMON_DATASET_SAMPLES:
-        document = dataset.get_document(index)
-        Assert.eq(document.tokens.tokens.tolist(), COMMON_DATASET_SAMPLES[index])
-        Assert.none(document.loss_masking_spans)
diff --git a/tests/data/test_preference_spans.py b/tests/data/test_preference_spans.py
index faa075fc3..36f8f77af 100644
--- a/tests/data/test_preference_spans.py
+++ b/tests/data/test_preference_spans.py
@@ -6,11 +6,11 @@
 from fast_llm.data.dataset.gpt.config import GPTDatasetFromFileConfig
 from fast_llm.data.dataset.memmap.memmap import MemmapDataset
 from fast_llm.data.document.language_model import LanguageModelDocument
-from fast_llm.data.preprocessing.tokenizer import TokenizerConfig
+from fast_llm.data.preparation.tokenizer import TokenizerConfig
 from fast_llm.utils import Assert
 from tests.data.common import get_dataset_config
 from tests.data.test_preparator import COMMON_DATASET_LENGTH
-from tests.utils.dataset import get_common_test_dataset, get_test_dataset_with_preference_spans
+from tests.utils.dataset import get_test_dataset_with_preference_spans
 from tests.utils.global_variables import TOKENIZER_NAME
 
 DATASET_WITH_PREFERENCE_SPAN_TOKENS = 62163
@@ -39,10 +39,8 @@
 
 @pytest.mark.slow
 def test_gpt_data_with_spans():
-    _, config, hf_path, preprocessing = get_test_dataset_with_preference_spans()
-    dataset: MemmapDataset[LanguageModelDocument] = get_dataset_config(config, GPTDatasetFromFileConfig).build(
-        preprocessing
-    )
+    _, config, hf_path, _ = get_test_dataset_with_preference_spans()
+    dataset: MemmapDataset[LanguageModelDocument] = get_dataset_config(config, GPTDatasetFromFileConfig).build()
 
     hf_dataset = datasets.load_from_disk(hf_path)["train"]
     tokenizer = TokenizerConfig(path=TOKENIZER_NAME).get_tokenizer()
@@ -85,11 +83,11 @@ def test_gpt_data_with_spans():
         token_spans = document.chosen_spans.ranges + document.rejected_spans.ranges
 
         # Compare tokens and token spans.
-        Assert.all_equal(document.tokens.tokens, expected_tokens)
+        Assert.all_equal(document.tokens, expected_tokens)
         Assert.eq(token_spans, expected_token_spans)
 
         # Compare text.
-        text, text_spans = tokenizer.detokenize_with_spans(document.tokens.tokens, True, True, token_spans=token_spans)
+        text, text_spans = tokenizer.detokenize_with_spans(document.tokens, True, True, token_spans=token_spans)
         Assert.eq(text, expected_text)
         Assert.eq(text_spans, expected_text_spans)
 
@@ -101,13 +99,5 @@ def test_gpt_data_with_spans():
         )
 
         document = dataset.get_document(index)
-        Assert.eq(document.tokens.tokens.tolist(), DATASET_WITH_PREFERENCE_SPAN_SAMPLES[index])
+        Assert.eq(document.tokens.tolist(), DATASET_WITH_PREFERENCE_SPAN_SAMPLES[index])
         Assert.eq(document.chosen_spans.ranges + document.rejected_spans.ranges, TOKEN_PREFERENCE_SPANS[index])
-
-
-@pytest.mark.slow
-def test_gpt_data_with_missing_preference_spans():
-    path, config, hf_path, _ = get_common_test_dataset()
-    _, _, _, preprocessing = get_test_dataset_with_preference_spans(config_only=True)
-    with pytest.raises(AssertionError, match="The dataset is missing required preference spans"):
-        get_dataset_config(config, GPTDatasetFromFileConfig).build(preprocessing)
diff --git a/tests/data/test_preparator.py b/tests/data/test_preparator.py
index 8ea0190f9..763517cde 100644
--- a/tests/data/test_preparator.py
+++ b/tests/data/test_preparator.py
@@ -7,9 +7,9 @@
 from fast_llm.data.dataset.gpt.config import GPTDatasetFromFileConfig
 from fast_llm.data.dataset.memmap.config import MemmapDatasetConfig
 from fast_llm.data.dataset.memmap.memmap import MemmapDataset
-from fast_llm.data.preparator.gpt_memmap.config import GPTMemmapDatasetPreparatorConfig
-from fast_llm.data.preprocessing.language_model import LanguageModelPreprocessingConfig
-from fast_llm.data.preprocessing.tokenizer import TokenizerConfig
+from fast_llm.data.document.language_model import LanguageModelDocument
+from fast_llm.data.preparation.gpt_memmap.config import GPTMemmapDatasetPreparatorConfig
+from fast_llm.data.preparation.tokenizer import TokenizerConfig
 from fast_llm.utils import Assert
 from tests.data.common import get_dataset_config
 from tests.utils.dataset import (
@@ -44,11 +44,11 @@ def test_common_prepared_dataset():
     We already test the dataset preparator indirectly through the test dataset (`get_test_dataset`).
     Here we verify the correctness of the prepared dataset directly and check for regressions.
     """
-    path, config, hf_path, preprocessing = get_common_test_dataset()
-    dataset = get_dataset_config(config, GPTDatasetFromFileConfig).build(preprocessing)
+    path, config, hf_path, _ = get_common_test_dataset()
+    dataset = get_dataset_config(config, GPTDatasetFromFileConfig).build()
     dataset_from_shard = get_dataset_config(
         {"type": "memmap", "path": path / "shard_0_0.fast_llm_dataset"}, MemmapDatasetConfig
-    ).build(preprocessing)
+    ).build()
 
     hf_dataset = datasets.load_from_disk(hf_path)["train"]
     tokenizer = TokenizerConfig(path=TOKENIZER_NAME).get_tokenizer()
@@ -60,31 +60,35 @@ def test_common_prepared_dataset():
     for index in range(0, 200, 8):
         # Compare tokens for some samples.
         Assert.all_equal(
-            dataset_from_shard.get_document(index).tokens.tokens,
-            dataset.get_document(index).tokens.tokens,
+            dataset_from_shard.get_document(index).tokens,
+            dataset.get_document(index).tokens,
             tokenizer.tokenize(hf_dataset[index]["text"]),
         )
         # Compare text.
         Assert.eq(
-            tokenizer.detokenize(dataset.get_document(index).tokens.tokens, True, True),
+            tokenizer.detokenize(dataset.get_document(index).tokens, True, True),
             hf_dataset[index]["text"],
         )
 
     # Check some numerical values.
     for index in COMMON_DATASET_SAMPLES:
         Assert.eq(hf_dataset[index]["text"], COMMON_DATASET_TEXT[index])
-        document = dataset.get_document(index)
-        Assert.eq(document.tokens.tokens.tolist(), COMMON_DATASET_SAMPLES[index])
+        document: LanguageModelDocument = dataset.get_document(index)
+        Assert.eq(document.tokens.tolist(), COMMON_DATASET_SAMPLES[index])
+        Assert.none(document.loss_masking_spans)
+        Assert.none(document.chosen_spans)
+        Assert.none(document.rejected_spans)
+        Assert.none(document.image_patches)
 
 
 @pytest.mark.slow
 def test_preparator_sharded():
-    path, config, hf_path, preprocessing = get_sharded_test_dataset()
+    path, config, hf_path, _ = get_sharded_test_dataset()
 
     dataset_config = get_dataset_config(config, GPTDatasetFromFileConfig)._load_config()
     Assert.custom(isinstance, dataset_config, BlendedDatasetConfig)
     Assert.eq(dataset_config.weights, [0.33003587104248827, 0.3455874161709333, 0.3243767127865784])
-    datasets_ = [dataset_config_.build(preprocessing) for dataset_config_ in dataset_config.datasets]
+    datasets_ = [dataset_config_.build() for dataset_config_ in dataset_config.datasets]
     Assert.eq([len(dataset) for dataset in datasets_], lengths := [334, 333, 333])
     Assert.eq([dataset.num_tokens for dataset in datasets_], [14813, 15511, 14559])
 
@@ -92,13 +96,9 @@ def test_preparator_sharded():
     tokenizer = TokenizerConfig(path=TOKENIZER_NAME).get_tokenizer()
 
     for index in range(0, 50, 8):
-        Assert.all_equal(datasets_[0].get_document(index).tokens.tokens, tokenizer.tokenize(hf_dataset[index]["text"]))
-        Assert.all_equal(
-            datasets_[1].get_document(index).tokens.tokens, tokenizer.tokenize(hf_dataset[index + 334]["text"])
-        )
-        Assert.all_equal(
-            datasets_[2].get_document(index).tokens.tokens, tokenizer.tokenize(hf_dataset[index + 667]["text"])
-        )
+        Assert.all_equal(datasets_[0].get_document(index).tokens, tokenizer.tokenize(hf_dataset[index]["text"]))
+        Assert.all_equal(datasets_[1].get_document(index).tokens, tokenizer.tokenize(hf_dataset[index + 334]["text"]))
+        Assert.all_equal(datasets_[2].get_document(index).tokens, tokenizer.tokenize(hf_dataset[index + 667]["text"]))
 
 
 @pytest.mark.slow
@@ -184,9 +184,7 @@ def test_dataset_preparator_from_hub():
     assert (croissant_path := output_path / "croissant.json").is_file()
     Assert.eq(json.load(croissant_path.open("r"))["url"], "https://huggingface.co/datasets/openai/gsm8k")
 
-    dataset = GPTDatasetFromFileConfig(path=output_path / "fast_llm_config.yaml").build(
-        LanguageModelPreprocessingConfig()
-    )
+    dataset = GPTDatasetFromFileConfig(path=output_path / "fast_llm_config.yaml").build()
     Assert.custom(isinstance, dataset, MemmapDataset)
 
     hf_dataset = datasets.load_dataset("openai/gsm8k", "main", split="test")
@@ -196,6 +194,6 @@ def test_dataset_preparator_from_hub():
     Assert.eq(dataset.num_tokens, 179248)
     for index in range(0, 200, 8):
         Assert.eq(
-            tokenizer.detokenize(dataset.get_document(index).tokens.tokens),
+            tokenizer.detokenize(dataset.get_document(index).tokens),
             f"<|endoftext|>{hf_dataset[index]["answer"]}<|endoftext|>",
         )
diff --git a/tests/data/test_preprocessing.py b/tests/data/test_preprocessing.py
index 33c8e416c..d0e56e3f0 100644
--- a/tests/data/test_preprocessing.py
+++ b/tests/data/test_preprocessing.py
@@ -1,11 +1,9 @@
 import pytest
 import torch
 
-from fast_llm.data.batch.config import LanguageModelBatchPreprocessingConfig
-from fast_llm.data.batch.language_model import LanguageModelPreprocessedBatch
-from fast_llm.data.document.language_model import LanguageModelDocument
+from fast_llm.data.document.config import LanguageModelBatchPreprocessingConfig
+from fast_llm.data.document.language_model import LanguageModelBatch, LanguageModelDocument
 from fast_llm.data.document.range import RangeDocument
-from fast_llm.data.document.token import TokenDocument
 from fast_llm.utils import Assert
 
 
@@ -30,21 +28,21 @@
 def test_preprocessing(tokens, loss_masking_spans):
     documents = [
         LanguageModelDocument(
-            tokens=TokenDocument(tokens=torch.tensor(tokens_, dtype=torch.int64)),
+            tokens=torch.tensor(tokens_, dtype=torch.int64),
             loss_masking_spans=None if loss_masking_spans_ is None else RangeDocument(ranges=loss_masking_spans_),
         )
         for tokens_, loss_masking_spans_ in zip(tokens, loss_masking_spans, strict=True)
     ]
-    preprocessed = LanguageModelPreprocessedBatch.from_documents(documents, LanguageModelBatchPreprocessingConfig())
 
-    Assert.eq(len(preprocessed.micro_batches), 1)
-    micro_batch = preprocessed.micro_batches[0]
+    (model_input,) = LanguageModelBatch.from_documents(documents).get_model_inputs(
+        LanguageModelBatchPreprocessingConfig()
+    )
 
-    Assert.all_equal(micro_batch.tokens, torch.cat([document.tokens.tokens for document in documents])[:-1])
+    Assert.all_equal(model_input.tokens, torch.cat([document.tokens for document in documents])[:-1])
 
     label_tokens = []
     for document in documents:
-        label_tokens_ = document.tokens.tokens.clone()
+        label_tokens_ = document.tokens.clone()
         # Mask cross-document attention
         label_tokens_[0] = -100
         # Loss masking spans
@@ -53,6 +51,5 @@ def test_preprocessing(tokens, loss_masking_spans):
                 label_tokens_[begin:end] = -100
         label_tokens.append(label_tokens_)
 
-    Assert.eq(len(micro_batch.labels), 1)
-    print("AAA", micro_batch.labels)
-    Assert.all_equal(micro_batch.labels[0], torch.cat(label_tokens)[1:])
+    Assert.eq(len(model_input.targets), 1)
+    Assert.all_equal(model_input.targets[0].tokens, torch.cat(label_tokens)[1:])
diff --git a/tests/data/test_random.py b/tests/data/test_random.py
index ed490c49b..62384c593 100644
--- a/tests/data/test_random.py
+++ b/tests/data/test_random.py
@@ -1,5 +1,5 @@
 from fast_llm.data.dataset.gpt.config import GPTRandomDatasetConfig
-from fast_llm.data.preprocessing.language_model import LanguageModelPreprocessingConfig
+from fast_llm.data.document.config import LanguageModelBatchPreprocessingConfig
 from tests.data.common import (
     compare_sampled_dataset,
     get_dataset_config,
@@ -17,7 +17,7 @@
 
 def test_gpt_random_dataset():
     # Make sure the random dataset works and check for unintended changes in behavior.
-    preprocessing = LanguageModelPreprocessingConfig(vocab_size=8192)
+    preprocessing = LanguageModelBatchPreprocessingConfig(vocab_size=8192)
     sampled = get_dataset_config(config := {"type": "random"}, GPTRandomDatasetConfig).build_and_sample(
         *get_sampling_data(4, sequence_length=7, preprocessing=preprocessing)
     )
diff --git a/tests/data/test_sampling.py b/tests/data/test_sampling.py
index 9ac2cd94d..a1cea5ae7 100644
--- a/tests/data/test_sampling.py
+++ b/tests/data/test_sampling.py
@@ -5,8 +5,7 @@
 from fast_llm.data.dataset.config import ShufflingType
 from fast_llm.data.dataset.gpt.config import GPTDatasetFromFileConfig
 from fast_llm.data.dataset.indexed import IndexedDataset
-from fast_llm.data.document.language_model import LanguageModelDocument
-from fast_llm.data.document.token import TokenDocument
+from fast_llm.data.document.language_model import LanguageModelBatch, LanguageModelDocument
 from fast_llm.utils import Assert
 from tests.data.common import (
     get_dataset_config,
@@ -62,9 +61,7 @@ def __init__(self, samples):
     def get_document(self, index: int, begin: int = 0, end: int | None = None) -> DocumentType:
         if end is None:
             end = len(self._samples[index])
-        return LanguageModelDocument(
-            tokens=TokenDocument(tokens=torch.tensor(self._samples[index][begin:end], dtype=torch.int64))
-        )
+        return LanguageModelDocument(tokens=torch.tensor(self._samples[index][begin:end], dtype=torch.int64))
 
     def __len__(self) -> int:
         return len(self._samples)
@@ -170,4 +167,6 @@ def test_gpt_sample_padding():
         else:
             sampled = dataset.sample(*sampling)
             for idx in range(len(expected_samples)):
-                Assert.all_equal(sampled[idx].tokens.tokens, np.array(expected_samples[idx]))
+                Assert.all_equal(
+                    LanguageModelBatch.from_documents(sampled[idx]).tokens, np.array(expected_samples[idx])
+                )
diff --git a/tests/data/test_slice.py b/tests/data/test_slice.py
index 2fd6aca0b..32621dd22 100644
--- a/tests/data/test_slice.py
+++ b/tests/data/test_slice.py
@@ -37,7 +37,7 @@ def test_gpt_slice():
     dataset = get_dataset_config(
         {"type": "slice", "dataset": memmap_config, "begin": 0.025, "end": 0.1},
         DatasetSliceConfig[LanguageModelDocument],
-    ).build(preprocessing)
+    ).build()
     compare_indexed_dataset_tokens(dataset, 75, 3399, {i - 25: sample for i, sample in COMMON_DATASET_SAMPLES.items()})
     sampled = dataset.sample(*get_sampling_data(8, sequence_length=5, preprocessing=preprocessing))
     validate_indexed_dataset_sampling(sampled, GPT_SLICE_VALIDATION_SAMPLES)
diff --git a/tests/data/test_tokenizer.py b/tests/data/test_tokenizer.py
index 4e9e2fdd5..0b231b072 100644
--- a/tests/data/test_tokenizer.py
+++ b/tests/data/test_tokenizer.py
@@ -1,6 +1,6 @@
 import pytest
 
-from fast_llm.data.preprocessing.tokenizer import Tokenizer, TokenizerConfig
+from fast_llm.data.preparation.tokenizer import Tokenizer, TokenizerConfig
 from fast_llm.utils import Assert
 from tests.utils.dataset import download_santacoder_tokenizer
 from tests.utils.global_variables import TOKENIZER_PATH
@@ -297,6 +297,6 @@ def test_tokenize_chat(common_tokenizer, messages, expected_tokens, expected_los
     ),
 )
 def test_train_mask_to_loss_spans(train_mask, expected_loss_spans):
-    from fast_llm.data.preprocessing.tokenizer import _train_mask_to_loss_spans
+    from fast_llm.data.preparation.tokenizer import _train_mask_to_loss_spans
 
     Assert.eq(_train_mask_to_loss_spans(train_mask), expected_loss_spans)
diff --git a/tests/layers/test_attention.py b/tests/layers/test_attention.py
index f825064dc..ecdc5be3c 100644
--- a/tests/layers/test_attention.py
+++ b/tests/layers/test_attention.py
@@ -1,10 +1,8 @@
 import pytest
 import torch
 
-from fast_llm.data.batch.config import LanguageModelBatchPreprocessingConfig
-from fast_llm.data.batch.language_model import LanguageModelPreprocessedBatch
+from fast_llm.data.document.config import LanguageModelBatchPreprocessingConfig
 from fast_llm.data.document.language_model import LanguageModelBatch
-from fast_llm.data.document.token import TokenBatch
 from fast_llm.engine.config_utils.tensor_dim import TensorDim
 from fast_llm.engine.distributed.config import DistributedConfig
 from fast_llm.layers.attention.attention import Attention, _flash_available
@@ -46,23 +44,18 @@ def test_attention_implementations(causal: bool, window_size: int | None, length
     key = torch.empty(num_tokens, 2, 32, dtype=torch.bfloat16, device=device).normal_()
     value = torch.empty(num_tokens, 2, 32, dtype=torch.bfloat16, device=device).normal_()
 
-    kwargs = (
-        LanguageModelPreprocessedBatch.from_batch(
-            LanguageModelBatch(
-                tokens=TokenBatch(tokens=torch.empty(num_tokens, dtype=torch.int64, device=device), lengths=lengths)
-            ),
-            LanguageModelBatchPreprocessingConfig(
-                distributed=distributed_config,
-                predicted_tokens=0,
-                return_cumulative_sequence_lengths=True,
-                return_max_sequence_lengths=True,
-                return_document_index=True,
-            ),
-            device,
+    (model_input,) = LanguageModelBatch(
+        tokens=torch.empty(num_tokens, dtype=torch.int64, device=device), lengths=lengths
+    ).get_model_inputs(
+        LanguageModelBatchPreprocessingConfig(
+            distributed=distributed_config,
+            predicted_tokens=0,
+            return_cumulative_sequence_lengths=True,
+            return_max_sequence_lengths=True,
+            return_document_index=True,
         )
-        .micro_batches[0]
-        .to_kwargs()
     )
+    kwargs = model_input.to_kwargs()
     attention._preprocess_for_backup_attention(kwargs)
 
     out_backup = attention._attn_backup(query, key, value, kwargs)
diff --git a/tests/layers/test_varlen.py b/tests/layers/test_varlen.py
index 99f1cd7f2..f51b2159d 100644
--- a/tests/layers/test_varlen.py
+++ b/tests/layers/test_varlen.py
@@ -1,13 +1,11 @@
 import pytest
 import torch
 
-from fast_llm.data.batch.config import LanguageModelBatchPreprocessingConfig
-from fast_llm.data.batch.language_model import LanguageModelPreprocessedBatch
+from fast_llm.data.document.config import LanguageModelBatchPreprocessingConfig
 from fast_llm.data.document.language_model import LanguageModelBatch
-from fast_llm.data.document.token import TokenBatch
 from fast_llm.engine.config_utils.data_type import DataType
 from fast_llm.engine.config_utils.tensor_dim import TensorDim
-from fast_llm.engine.distributed.config import DistributedConfig, PhaseType
+from fast_llm.engine.distributed.config import DistributedConfig
 from fast_llm.engine.distributed.distributed import Distributed
 from fast_llm.layers.attention.config import AttentionConfig
 from fast_llm.layers.decoder.config import MixerConfig
@@ -65,23 +63,16 @@ def test_mixer_varlen_stacking_equivalence(config: MixerConfig, lengths: list[in
         requires_grad=True,
     )
 
-    kwargs_packed = (
-        LanguageModelPreprocessedBatch.from_batch(
-            LanguageModelBatch(
-                tokens=TokenBatch(
-                    tokens=torch.empty(num_tokens, dtype=torch.int64, device=distributed.device), lengths=lengths
-                )
-            ),
-            LanguageModelBatchPreprocessingConfig(
-                distributed=distributed_config,
-                predicted_tokens=0,
-                **mixer.get_preprocessing_config(PhaseType.training),
-            ),
-            distributed.device,
+    (model_input_packed,) = LanguageModelBatch(
+        tokens=torch.empty(num_tokens, dtype=torch.int64, device=distributed.device), lengths=lengths
+    ).get_model_inputs(
+        LanguageModelBatchPreprocessingConfig(
+            distributed=distributed_config,
+            predicted_tokens=0,
+            **mixer.get_preprocessing_config(),
         )
-        .micro_batches[0]
-        .to_kwargs()
     )
+    kwargs_packed = model_input_packed.to_kwargs()
     mixer.preprocess(kwargs_packed)
 
     out_packed, context = stage.forward(hidden_states, kwargs_packed)
@@ -94,23 +85,16 @@ def test_mixer_varlen_stacking_equivalence(config: MixerConfig, lengths: list[in
     # Run reference path separately per sequence without varlen packing, then concatenate.
     out_refs = []
     for length, hidden_states_ in zip(lengths, torch.split(hidden_states, lengths, dim=0), strict=True):
-        kwargs_unpacked = (
-            LanguageModelPreprocessedBatch.from_batch(
-                LanguageModelBatch(
-                    tokens=TokenBatch(
-                        tokens=torch.empty(length, dtype=torch.int64, device=distributed.device), lengths=[length]
-                    )
-                ),
-                LanguageModelBatchPreprocessingConfig(
-                    distributed=distributed_config,
-                    predicted_tokens=0,
-                    **mixer.get_preprocessing_config(PhaseType.training),
-                ),
-                distributed.device,
+        (model_input_unpacked,) = LanguageModelBatch(
+            tokens=torch.empty(length, dtype=torch.int64, device=distributed.device), lengths=[length]
+        ).get_model_inputs(
+            LanguageModelBatchPreprocessingConfig(
+                distributed=distributed_config,
+                predicted_tokens=0,
+                **mixer.get_preprocessing_config(),
             )
-            .micro_batches[0]
-            .to_kwargs()
         )
+        kwargs_unpacked = model_input_unpacked.to_kwargs()
         mixer.preprocess(kwargs_unpacked)
         out, context = stage.forward(hidden_states_, kwargs_unpacked)
         stage.backward(torch.ones_like(out), context)
diff --git a/tests/models/test_match_megatron.py b/tests/models/test_match_megatron.py
index e8343e84d..33099d6ae 100644
--- a/tests/models/test_match_megatron.py
+++ b/tests/models/test_match_megatron.py
@@ -18,8 +18,7 @@
 from fast_llm.data.dataset.sampled import logger
 from fast_llm.data.document.language_model import LanguageModelDocument
 from fast_llm.data.document.token import TokenDocument
-from fast_llm.data.preprocessing.abstract import PreprocessingConfig
-from fast_llm.data.preprocessing.tokenizer import TokenizerConfig
+from fast_llm.data.preparation.tokenizer import TokenizerConfig
 from fast_llm.engine.config_utils.data_type import DataType
 from fast_llm.utils import Assert
 from tests.utils.compare_tensor_logs import CompareConfig
@@ -124,8 +123,8 @@ class MegatronDatasetConfig[DocumentType: LanguageModelDocument](MemmapDatasetCo
         hint=FieldHint.core,
     )
 
-    def build(self, preprocessing: PreprocessingConfig) -> "LegacyMemmapDataset[DocumentType]":
-        return MegatronMemmapDataset(str(self.path).replace("/", "__"), self.path, preprocessing)
+    def build(self) -> "LegacyMemmapDataset[DocumentType]":
+        return MegatronMemmapDataset(str(self.path).replace("/", "__"), self.path)
 
 
 class MegatronMemmapDataset(LegacyMemmapDataset):
@@ -151,7 +150,7 @@ def write_dataset(
         # Write the binary data file (.bin) lazily
         with prefix.with_suffix(".bin").open("wb") as bin_stream:
             for document in documents:
-                token_ids = document.tokens.tokens
+                token_ids = document.tokens
                 # Infer dtype from the first document
                 if dtype is None:
                     dtype = token_ids.dtype
diff --git a/tests/utils/dataset.py b/tests/utils/dataset.py
index d1b627ecc..a1858f8b1 100644
--- a/tests/utils/dataset.py
+++ b/tests/utils/dataset.py
@@ -6,10 +6,9 @@
 import numpy as np
 import PIL.Image
 
-from fast_llm.data.preparator.gpt_memmap.config import GPTMemmapDatasetPreparatorConfig
-from fast_llm.data.preprocessing.abstract import NullPreprocessingConfig
-from fast_llm.data.preprocessing.image_patch import ImagePatchConfig
-from fast_llm.data.preprocessing.language_model import LanguageModelPreprocessingConfig
+from fast_llm.data.document.config import LanguageModelBatchPreprocessingConfig, PatchPreprocessingConfig
+from fast_llm.data.preparation.gpt_memmap.config import GPTMemmapDatasetPreparatorConfig
+from fast_llm.data.preparation.image_patch import ImagePreparationConfig
 from fast_llm.engine.distributed.config import DistributedConfig
 from fast_llm.utils import padded_cumsum
 from tests.utils.global_variables import DATASET_CACHE, MODEL_TEST_VOCAB_SIZE, TOKENIZER_FILE, TOKENIZER_PATH
@@ -172,11 +171,11 @@ def _get_test_dataset(
     splits: dict[str, float] | None = None,
     min_images: int = 0,
     max_images: int = 0,
-    image_patch_config: ImagePatchConfig | None = None,
+    image_patch_config: ImagePreparationConfig | None = None,
     min_image_size: int = 4,
     max_image_size: int = 32,
     config_only: bool = False,
-) -> tuple[pathlib.Path, dict[str, typing.Any], pathlib.Path, LanguageModelPreprocessingConfig]:
+) -> tuple[pathlib.Path, dict[str, typing.Any], pathlib.Path, LanguageModelBatchPreprocessingConfig]:
     config_paths = (
         [path / "fast_llm_config.yaml"]
         if splits is None
@@ -236,36 +235,42 @@ def _get_test_dataset(
             for split, config_path in zip(splits, config_paths, strict=True)
         }
     )
-    preprocessing = LanguageModelPreprocessingConfig(
-        tokenizer={"type": "tokenizer", "path": tokenizer_path, "max_vocab_size": max_vocab_size},
-        image_patches=NullPreprocessingConfig() if image_patch_config is None else image_patch_config,
+
+    preprocessing = LanguageModelBatchPreprocessingConfig(
+        vision_encoder=(
+            None
+            if image_patch_config is None
+            else PatchPreprocessingConfig(
+                shape=(image_patch_config.height, image_patch_config.width),
+            )
+        ),
         vocab_size=max_vocab_size,
         use_loss_masking_spans=max_loss_masking_spans > 0,
-        use_preference_spans=has_preference_spans,
+        use_preference_spans=False,  # TODO: Implement (set to False to avoid an error in `test_preference_spans`)
     )
     return path, config, hf_path, preprocessing
 
 
 def get_common_test_dataset() -> (
-    tuple[pathlib.Path, dict[str, typing.Any], pathlib.Path, LanguageModelPreprocessingConfig]
+    tuple[pathlib.Path, dict[str, typing.Any], pathlib.Path, LanguageModelBatchPreprocessingConfig]
 ):
     return _get_test_dataset(DATASET_CACHE / "common_dataset", seed=1234)
 
 
 def get_alt_test_dataset() -> (
-    tuple[pathlib.Path, dict[str, typing.Any], pathlib.Path, LanguageModelPreprocessingConfig]
+    tuple[pathlib.Path, dict[str, typing.Any], pathlib.Path, LanguageModelBatchPreprocessingConfig]
 ):
     return _get_test_dataset(DATASET_CACHE / "other_dataset", seed=2345)
 
 
 def get_sharded_test_dataset() -> (
-    tuple[pathlib.Path, dict[str, typing.Any], pathlib.Path, LanguageModelPreprocessingConfig]
+    tuple[pathlib.Path, dict[str, typing.Any], pathlib.Path, LanguageModelBatchPreprocessingConfig]
 ):
     return _get_test_dataset(DATASET_CACHE / "common_dataset_sharded", seed=1234, documents_per_shard=350)
 
 
 def get_split_test_dataset() -> (
-    tuple[pathlib.Path, dict[str, typing.Any], pathlib.Path, LanguageModelPreprocessingConfig]
+    tuple[pathlib.Path, dict[str, typing.Any], pathlib.Path, LanguageModelBatchPreprocessingConfig]
 ):
     return _get_test_dataset(
         DATASET_CACHE / "common_dataset_split", seed=1234, splits={"training": 1, "validation": 1}
@@ -273,7 +278,7 @@ def get_split_test_dataset() -> (
 
 
 def get_split_sharded_test_dataset() -> (
-    tuple[pathlib.Path, dict[str, typing.Any], pathlib.Path, LanguageModelPreprocessingConfig]
+    tuple[pathlib.Path, dict[str, typing.Any], pathlib.Path, LanguageModelBatchPreprocessingConfig]
 ):
     return _get_test_dataset(
         DATASET_CACHE / "common_dataset_split_sharded",
@@ -285,7 +290,7 @@ def get_split_sharded_test_dataset() -> (
 
 def get_test_dataset_with_loss_masking_spans(
     config_only: bool = False,
-) -> tuple[pathlib.Path, dict[str, typing.Any], pathlib.Path, LanguageModelPreprocessingConfig]:
+) -> tuple[pathlib.Path, dict[str, typing.Any], pathlib.Path, LanguageModelBatchPreprocessingConfig]:
     return _get_test_dataset(
         DATASET_CACHE / "dataset_with_loss_masking_spans",
         seed=1234,
@@ -296,7 +301,7 @@ def get_test_dataset_with_loss_masking_spans(
 
 def get_test_dataset_with_preference_spans(
     config_only: bool = False,
-) -> tuple[pathlib.Path, dict[str, typing.Any], pathlib.Path, LanguageModelPreprocessingConfig]:
+) -> tuple[pathlib.Path, dict[str, typing.Any], pathlib.Path, LanguageModelBatchPreprocessingConfig]:
     return _get_test_dataset(
         DATASET_CACHE / "dataset_with_preference_spans", seed=1234, has_preference_spans=True, config_only=config_only
     )
@@ -304,12 +309,12 @@ def get_test_dataset_with_preference_spans(
 
 def get_test_dataset_with_image_patches(
     image_break_token: int | None = None, image_end_token: int | None = None, config_only: bool = False
-) -> tuple[pathlib.Path, dict[str, typing.Any], pathlib.Path, LanguageModelPreprocessingConfig]:
+) -> tuple[pathlib.Path, dict[str, typing.Any], pathlib.Path, LanguageModelBatchPreprocessingConfig]:
     return _get_test_dataset(
         DATASET_CACHE / f"dataset_with_image_patches_{image_break_token}_{image_end_token}",
         seed=1234,
         max_images=2,
-        image_patch_config=ImagePatchConfig(
+        image_patch_config=ImagePreparationConfig(
             height=4,
             width=4,
             max_image_height=16,
@@ -340,7 +345,7 @@ def get_multimodal_test_dataset(config_only: bool = False):
         num_documents=200,
         max_vocab_size=MODEL_TEST_VOCAB_SIZE,
         max_images=2,
-        image_patch_config=ImagePatchConfig(
+        image_patch_config=ImagePreparationConfig(
             height=4,
             width=4,
             max_image_height=16,

From a5853bc0eb5443e93fbb7518223b9df0af364eaa Mon Sep 17 00:00:00 2001
From: Joel Lamy-Poirier <joel.lamy-poirier@servicenow.com>
Date: Sat, 7 Mar 2026 00:25:26 -0500
Subject: [PATCH 29/37] fixes

---
 Megatron-LM                                   |   2 +-
 fast_llm/data/data/gpt/data.py                |   7 +-
 fast_llm/data/document/abstract.py            |   9 +-
 fast_llm/data/document/block.py               |  16 ++-
 fast_llm/data/document/language_model.py      |  14 +-
 .../preparation/dataset_discovery/prepare.py  |   2 +-
 fast_llm/functional/triton/rotary.py          |   4 +-
 fast_llm/layers/attention/attention.py        |   5 +-
 fast_llm/layers/block/config.py               |   2 +-
 fast_llm/layers/block/sequence.py             |   6 +-
 fast_llm/layers/common/linear/convolution.py  |  21 ++-
 .../common/normalization/normalization.py     |  43 +++----
 fast_llm/layers/language_model/embedding.py   |   4 +-
 fast_llm/layers/ssm/gdn.py                    | 121 +++++++-----------
 fast_llm/layers/ssm/kda.py                    | 105 +++++----------
 fast_llm/layers/ssm/mamba.py                  |  11 +-
 fast_llm/models/multimodal/huggingface.py     |   2 +-
 fast_llm/utils.py                             |  26 ++--
 tests/data/test_dataset_discovery.py          |   4 +-
 tests/data/test_sampling.py                   |   3 +-
 tests/functional/test_triton_kernels.py       |  16 +--
 tests/layers/test_ssm.py                      |  61 +++++----
 tests/models/test_match_megatron.py           |  10 +-
 tests/utils/model_configs.py                  | 102 +++++++--------
 24 files changed, 273 insertions(+), 323 deletions(-)

diff --git a/Megatron-LM b/Megatron-LM
index dee27459d..67d069405 160000
--- a/Megatron-LM
+++ b/Megatron-LM
@@ -1 +1 @@
-Subproject commit dee27459d46fecc513be76732a0095bb38be32fb
+Subproject commit 67d069405eb5695fedaa1209d73f7fa1fc01bf1a
diff --git a/fast_llm/data/data/gpt/data.py b/fast_llm/data/data/gpt/data.py
index aa9aa6948..cc83a7131 100644
--- a/fast_llm/data/data/gpt/data.py
+++ b/fast_llm/data/data/gpt/data.py
@@ -71,7 +71,7 @@ def sample_dataset(
                 "predicted_tokens": config.predicted_tokens,
                 "cache_directory": self._cache_directory,
                 "dataset_name": dataset_name,
-                "preprocessing": config,
+                "preprocessing": config.to_dict(),
                 "world_size": self._distributed_config.world_size,
                 "rank": self._distributed_config.rank,
             },
@@ -127,8 +127,9 @@ def _collate_fn(
         preprocess: bool = True,
     ) -> list[LanguageModelInput] | LanguageModelBatch:
         documents = [document for documents_ in documents for document in documents_]
-        pad_to_size = self._config.micro_batch_size + self._preprocessing[dataset_name].predicted_tokens
-        batch = LanguageModelBatch.from_documents(documents, pad_to_size)
+        batch = LanguageModelBatch.from_documents(
+            documents, self._config.micro_batch_size + self._preprocessing[dataset_name].predicted_tokens
+        )
 
         if preprocess:
             return batch.get_model_inputs(self._preprocessing[dataset_name])
diff --git a/fast_llm/data/document/abstract.py b/fast_llm/data/document/abstract.py
index 9967cb831..efae47685 100644
--- a/fast_llm/data/document/abstract.py
+++ b/fast_llm/data/document/abstract.py
@@ -14,12 +14,19 @@
 
 @dataclasses.dataclass(kw_only=True)
 class Document(abc.ABC):
-    def to_device_(self, device: "torch.device"):
+    def to_device_(self, device: "torch.device") -> typing.Self:
         import torch
 
         for field in dataclasses.fields(self):
+            print(
+                field.name, isinstance(value := getattr(self, field.name), torch.Tensor), isinstance(value, Document)
+            )
             if isinstance(value := getattr(self, field.name), torch.Tensor):
                 setattr(self, field.name, value.to(device))
+            elif isinstance(value, Document):
+                value.to_device_(device)
+
+        return self
 
 
 @dataclasses.dataclass(kw_only=True)
diff --git a/fast_llm/data/document/block.py b/fast_llm/data/document/block.py
index 06c6a286f..dbdaad767 100644
--- a/fast_llm/data/document/block.py
+++ b/fast_llm/data/document/block.py
@@ -37,6 +37,7 @@ def to_kwargs(self) -> dict[str, typing.Any]:
             LanguageModelKwargs.sequence_k_dim: self.sequence_k_dim,
             LanguageModelKwargs.num_tokens: self.unpadded_length,
             LanguageModelKwargs.sequence_length: self.sequence_length,
+            LanguageModelKwargs.lengths: self.lengths,
             AttentionKwargs.cu_seqlens_q: self.cumulative_lengths_q,
             AttentionKwargs.cu_seqlens_k: self.cumulative_lengths_k,
             AttentionKwargs.max_seqlen_q: self.max_length_q,
@@ -68,10 +69,10 @@ def preprocess(self, model_input: BlockModelInput, config: LengthPreprocessingCo
             sequence_data_dim,
         )
         model_input.hidden_token_dim = (
-            (
+            TensorDim(
                 "token_tp",
                 self.length * sequence_data_dim.size,
-                config.distributed.get_distributed_dim(DistributedDimNames.tensor_and_data),
+                config.distributed.get_distributed_dim(DistributedDimNames.tensor_and_sequence_data),
             )
             if config.distributed.sequence_tensor_parallel
             else model_input.token_dim
@@ -116,8 +117,15 @@ def document_index(self) -> tuple[torch.Tensor, torch.Tensor]:
         cumulative_lengths_q, cumulative_lengths_k = self.cumulative_lengths
         # Note: index starts at 1. Index 0 is for sequence k before `self.current_document_begin`.
         return (
-            torch.searchsorted(cumulative_lengths_q, torch.arange(self.length), side="right"),
-            torch.searchsorted(cumulative_lengths_k, torch.arange(self.sequence_k_past + self.length), side="right"),
+            torch.searchsorted(
+                cumulative_lengths_q, torch.arange(self.length, device=self.device), side="right", out_int32=True
+            ),
+            torch.searchsorted(
+                cumulative_lengths_k,
+                torch.arange(self.sequence_k_past + self.length, device=self.device),
+                side="right",
+                out_int32=True,
+            ),
         )
 
     @functools.cached_property
diff --git a/fast_llm/data/document/language_model.py b/fast_llm/data/document/language_model.py
index a8af9eabf..0ca66a64c 100644
--- a/fast_llm/data/document/language_model.py
+++ b/fast_llm/data/document/language_model.py
@@ -55,6 +55,12 @@ def to_kwargs(self) -> dict[str, typing.Any]:
             out[LanguageModelKwargs.token_ids] = self.tokens
         return out
 
+    def to_device_(self, device: "torch.device") -> typing.Self:
+        super().to_device_(device)
+        for target in self.targets:
+            target.to_device_(device)
+        return self
+
 
 @dataclasses.dataclass(kw_only=True)
 class LanguageModelBatch(TokenBatch):
@@ -67,12 +73,12 @@ def from_documents(
         cls, documents: typing.Iterable[LanguageModelDocument], pad_to_size: int | None = None
     ) -> typing.Self:
         batch = super().from_documents(documents, pad_to_size)
+        # We don't want to use `batch.lengths` because it may include a padding length.
+        lengths = [len(document) for document in documents]
         batch.loss_masking_spans = RangeBatch.from_documents(
-            [document.loss_masking_spans for document in documents], batch.lengths
-        )
-        batch.image_patches = PatchBatch.from_documents(
-            [document.image_patches for document in documents], batch.lengths
+            [document.loss_masking_spans for document in documents], lengths
         )
+        batch.image_patches = PatchBatch.from_documents([document.image_patches for document in documents], lengths)
         return batch
 
     def get_model_inputs(self, config: LanguageModelBatchPreprocessingConfig) -> list[LanguageModelInput]:
diff --git a/fast_llm/data/preparation/dataset_discovery/prepare.py b/fast_llm/data/preparation/dataset_discovery/prepare.py
index 38365d850..2a9243427 100644
--- a/fast_llm/data/preparation/dataset_discovery/prepare.py
+++ b/fast_llm/data/preparation/dataset_discovery/prepare.py
@@ -83,7 +83,7 @@ def _create_directory_config(
         all_tokens = []
 
         # Collect dataset files directly in this directory (not in subdirectories)
-        for subpath in directory.iterdir():
+        for subpath in sorted(directory.iterdir()):
             if any(subpath.is_relative_to(ignore_path) for ignore_path in self._ignore_paths):
                 continue
             if subpath.is_dir():
diff --git a/fast_llm/functional/triton/rotary.py b/fast_llm/functional/triton/rotary.py
index 2c93776af..08c6fbe59 100644
--- a/fast_llm/functional/triton/rotary.py
+++ b/fast_llm/functional/triton/rotary.py
@@ -70,6 +70,8 @@ def triton_rotary_(
     # TODO: Make a transposed version to avoid contiguous call in key backward.
     # TODO: Improve block size heuristics.
     assert input_.stride(-1) == 1, f"{input_.shape} {input_.stride()}"
+    if no_batch := input_.ndim == 3:
+        input_ = input_.unsqueeze(0)
     batch_size, seq_len, num_heads, head_size = input_.shape
     rotary_dim = div(head_size, 2)
     rotary_block_size = triton.next_power_of_2(rotary_dim)
@@ -91,7 +93,7 @@ def triton_rotary_(
         seq_len,
         backward,  # noqa
     )
-    return input_
+    return input_.squeeze(0) if no_batch else input_
 
 
 def triton_rotary_forward_(input_: torch.Tensor, frequencies: torch.Tensor) -> tuple[torch.Tensor, torch.Tensor]:
diff --git a/fast_llm/layers/attention/attention.py b/fast_llm/layers/attention/attention.py
index 29a738da8..ee3cfd75e 100644
--- a/fast_llm/layers/attention/attention.py
+++ b/fast_llm/layers/attention/attention.py
@@ -222,8 +222,7 @@ def _attn_flash(
         self, query: torch.Tensor, key: torch.Tensor, value: torch.Tensor, kwargs: dict[str, typing.Any]
     ) -> torch.Tensor:
         assert _flash_available
-        window_size = (-1, -1) if self._config.window_size is None else (self._config.window_size - 1, 0)
-        _flash_attn_varlen_func(
+        return _flash_attn_varlen_func(
             query,
             key,
             value,
@@ -232,7 +231,7 @@ def _attn_flash(
             kwargs[AttentionKwargs.max_seqlen_q],
             kwargs[AttentionKwargs.max_seqlen_k],
             dropout_p=self._config.dropout if self.training else 0.0,
-            window_size=window_size,
+            window_size=(-1, -1) if self._config.window_size is None else (self._config.window_size - 1, 0),
             causal=self._config.causal,
             softmax_scale=self._softmax_scale,
         )
diff --git a/fast_llm/layers/block/config.py b/fast_llm/layers/block/config.py
index bf35765d0..7260e8156 100644
--- a/fast_llm/layers/block/config.py
+++ b/fast_llm/layers/block/config.py
@@ -39,7 +39,7 @@ class BlockKwargs:
     hidden_token_dim = "hidden_token_dim"
     # TODO: These are confusing
     sequence_length = "sequence_length"
-    sequence_lengths = "sequence_lengths"
+    lengths = "lengths"
     # TODO: Belongs elsewhere?
     grad_output = "grad_output"
     activation_distillation_targets = "activation_distillation_targets"
diff --git a/fast_llm/layers/block/sequence.py b/fast_llm/layers/block/sequence.py
index 8ea11868f..c6743ee74 100644
--- a/fast_llm/layers/block/sequence.py
+++ b/fast_llm/layers/block/sequence.py
@@ -127,8 +127,10 @@ def get_layers(self) -> list[Layer]:
 
     def get_preprocessing_config(self) -> dict[str, typing.Any]:
         return safe_merge_dicts(
-            self._layers_with_namespace[index].get_preprocessing_config()
-            for _, index in self._config.preprocessing_layers.items()
+            *(
+                self._layers_with_namespace[index].get_preprocessing_config()
+                for _, index in self._config.preprocessing_layers.items()
+            )
         )
 
     def preprocess(self, kwargs: dict[str, typing.Any]) -> None:
diff --git a/fast_llm/layers/common/linear/convolution.py b/fast_llm/layers/common/linear/convolution.py
index e8b00fb3c..9168284ed 100644
--- a/fast_llm/layers/common/linear/convolution.py
+++ b/fast_llm/layers/common/linear/convolution.py
@@ -34,11 +34,14 @@ def __init__(
             else self._forward_torch
         )
 
-    def _forward_torch(self, input_: torch.Tensor, **kwargs) -> torch.Tensor:
-        if kwargs:
-            raise NotImplementedError(
-                f"Arguments {tuple(kwargs)} not implemented for torch implementation of 1d convolution."
-            )
+    def _forward_torch(
+        self, input_: torch.Tensor, document_index: torch.Tensor | None = None, lengths: list[int] | None = None
+    ) -> torch.Tensor:
+        if document_index is not None and lengths is None:
+            raise ValueError("Torch implementation of CausalConv1d requires lengths.")
+        if lengths is not None:
+            print("AAA", input_.shape, lengths, sum(lengths))
+            return torch.cat([self._forward_torch(x) for x in input_.split(lengths, dim=-1)], dim=-1)
         return self._activation.activation_fn(
             torch.nn.functional.conv1d(
                 input_,
@@ -49,13 +52,17 @@ def _forward_torch(self, input_: torch.Tensor, **kwargs) -> torch.Tensor:
             )[..., : input_.size(1)]
         )
 
-    def _forward_causal_conv1d(self, input_: torch.Tensor, **kwargs) -> torch.Tensor:
+    def _forward_causal_conv1d(
+        self, input_: torch.Tensor, document_index: torch.Tensor | None = None, lengths: list[int] | None = None
+    ) -> torch.Tensor:
+        if lengths is not None and document_index is None:
+            raise ValueError("Compiled implementation of CausalConv1d requires document indices.")
         return _causal_conv1d_fn(
             input_,
             self.weight.squeeze(1),
             self.bias,
             activation=(None if self._activation == ActivationType.identity else self._activation.value),
-            **kwargs,
+            seq_idx=document_index,
         )
 
     def get_compute_usage(self, input_: TensorMeta, config: ResourceUsageConfig) -> int:
diff --git a/fast_llm/layers/common/normalization/normalization.py b/fast_llm/layers/common/normalization/normalization.py
index 6fe1ea519..2858b9370 100644
--- a/fast_llm/layers/common/normalization/normalization.py
+++ b/fast_llm/layers/common/normalization/normalization.py
@@ -306,30 +306,21 @@ class GatedRMSNormalization[ConfigType: GatedRMSNormalizationConfig](RMSNormaliz
     A gated RMS normalization layer.
     """
 
-    def __init__(self, config: ConfigType, hidden_dim: TensorDim, lr_scale: float | None = None):
-        super().__init__(config, hidden_dim, lr_scale)
-
-        if rms_norm_gated is not None:
-            self._forward_gated = self._forward_fla
-        else:
-            self._forward_gated = self._forward_local
-
     def forward(self, input_: torch.Tensor, gate: torch.Tensor) -> torch.Tensor:
-        return self._forward_gated(input_.view(-1, *self._normalized_shape), gate).view_as(input_)
-
-    def _forward_fla(self, input_: torch.Tensor, gate: torch.Tensor) -> torch.Tensor:
-        return rms_norm_gated(
-            input_,
-            gate,
-            self.weight,
-            None,
-            activation=self._config.activation.hf_name,
-            eps=self._config.epsilon,
-            residual=None,
-            prenorm=False,
-            residual_in_fp32=False,
-        )
-
-    def _forward_local(self, input_: torch.Tensor, gate: torch.Tensor) -> torch.Tensor:
-        normalized = self._forward(input_)
-        return normalized * self._config.activation.activation_fn(gate)
+        out = input_.view(-1, *self._normalized_shape)
+        gate = gate.reshape_as(out)
+        if rms_norm_gated is None:
+            out = self._forward(out) * self._config.activation.activation_fn(gate)
+        else:
+            out = rms_norm_gated(
+                out,
+                gate,
+                self.weight,
+                None,
+                activation=self._config.activation.hf_name,
+                eps=self._config.epsilon,
+                residual=None,
+                prenorm=False,
+                residual_in_fp32=False,
+            )
+        return out.view_as(input_)
diff --git a/fast_llm/layers/language_model/embedding.py b/fast_llm/layers/language_model/embedding.py
index f595f6626..eac644338 100644
--- a/fast_llm/layers/language_model/embedding.py
+++ b/fast_llm/layers/language_model/embedding.py
@@ -12,7 +12,6 @@
 from fast_llm.layers.common.peft.config import PeftConfig
 from fast_llm.layers.language_model.config import LanguageModelEmbeddingsConfig, LanguageModelKwargs
 from fast_llm.tensor import TensorMeta
-from fast_llm.utils import Assert
 
 WORD_EMBEDDINGS_WEIGHT = "word_embeddings_weight"
 
@@ -81,12 +80,11 @@ def _forward(
         mask_inputs: bool,
         embedding_map: torch.Tensor,
     ) -> torch.Tensor:
-        Assert.eq(position_ids is None, self.position_embeddings_weight is None)
         group = self._parallel_dim.group
         if self._vocab_parallel:
             token_mask = (token_ids >= self._vocab_start_index) * (token_ids < self._vocab_end_index)
             masked_input = (token_ids - self._vocab_start_index) * token_mask
-            embeddings = torch.embedding(self.word_embeddings_weight, masked_input) * token_mask.unsqueeze(2)  # noqa
+            embeddings = torch.embedding(self.word_embeddings_weight, masked_input) * token_mask.unsqueeze(-1)  # noqa
             embeddings = reduce_forward(embeddings, group)
             # TODO: Input masking of position embeddings inconsistant with non-vocab-parallel
             if self.position_embeddings_weight is not None:
diff --git a/fast_llm/layers/ssm/gdn.py b/fast_llm/layers/ssm/gdn.py
index 6847245c0..42bf861e6 100644
--- a/fast_llm/layers/ssm/gdn.py
+++ b/fast_llm/layers/ssm/gdn.py
@@ -2,8 +2,6 @@
 import typing
 
 import torch
-import torch.nn.functional as F
-from einops import rearrange
 
 from fast_llm.engine.base_model.config import ResourceUsageConfig
 from fast_llm.engine.config_utils.initialization import LambdaInitializer, init_normal_, init_ones_
@@ -49,6 +47,7 @@ def torch_chunk_gated_delta_rule(
     initial_state=None,
     output_final_state=False,
     use_qk_l2norm_in_kernel=False,
+    cu_seqlens=None,
 ):
     initial_dtype = query.dtype
     if use_qk_l2norm_in_kernel:
@@ -61,11 +60,11 @@ def torch_chunk_gated_delta_rule(
     batch_size, num_heads, sequence_length, k_head_dim = key.shape
     v_head_dim = value.shape[-1]
     pad_size = (chunk_size - sequence_length % chunk_size) % chunk_size
-    query = F.pad(query, (0, 0, 0, pad_size))
-    key = F.pad(key, (0, 0, 0, pad_size))
-    value = F.pad(value, (0, 0, 0, pad_size))
-    beta = F.pad(beta, (0, pad_size))
-    g = F.pad(g, (0, pad_size))
+    query = torch.nn.functional.pad(query, (0, 0, 0, pad_size))
+    key = torch.nn.functional.pad(key, (0, 0, 0, pad_size))
+    value = torch.nn.functional.pad(value, (0, 0, 0, pad_size))
+    beta = torch.nn.functional.pad(beta, (0, pad_size))
+    g = torch.nn.functional.pad(g, (0, pad_size))
     total_sequence_length = sequence_length + pad_size
     scale = 1 / (query.shape[-1] ** 0.5)
     query = query * scale
@@ -251,36 +250,6 @@ def __init__(
             )
             self.chunk_gated_delta_rule = torch_chunk_gated_delta_rule
 
-        if not _causal_conv1d_available:
-            raise RuntimeError("Gated delta net requires `causal_conv1d`.")
-
-    def fix_query_key_value_ordering(self, mixed_qkvz, mixed_ba):
-        """
-        Derives `query`, `key` and `value` tensors from `mixed_qkvz` and `mixed_ba`.
-        Replaces fix_query_key_value_ordering from Qwen due to layout differences.
-        """
-
-        local_qkv_sizes = (
-            self._local_key_heads * self._config.key_head_dim,
-            self._local_key_heads * self._config.key_head_dim,
-            self._local_value_heads * self._config.value_head_dim,
-            self._local_value_heads * self._config.value_head_dim,
-        )
-        query, key, value, z = torch.split(mixed_qkvz, local_qkv_sizes, dim=-1)
-        query = query.reshape(*query.shape[:-1], self._local_key_heads, self._config.key_head_dim)
-        key = key.reshape(*key.shape[:-1], self._local_key_heads, self._config.key_head_dim)
-        value = value.reshape(*value.shape[:-1], self._local_value_heads, self._config.value_head_dim)
-        z = z.reshape(*z.shape[:-1], self._local_value_heads, self._config.value_head_dim)
-
-        beta, alpha = torch.split(
-            mixed_ba,
-            (self._local_value_heads, self._local_value_heads),
-            dim=-1,
-        )
-        beta = beta.reshape(*beta.shape[:-1], self._local_value_heads)
-        alpha = alpha.reshape(*alpha.shape[:-1], self._local_value_heads)
-        return query, key, value, z, beta, alpha
-
     def _forward(
         self,
         input_: torch.Tensor,
@@ -300,74 +269,72 @@ def _forward(
         """
 
         # in sequence parallel TP the input here is already scattered across sequence dimension
-        # TODO: fuse soome of the reshapes into rearranges
+        # TODO: fuse some of the reshapes into rearranges
         hidden_states = input_
 
+        # TODO: ====== Merge qkvz and ba ======
         projected_states_qkvz = self.in_proj_qkvz(hidden_states)  # bs/seq x seq_len/bs x (qkvz)
         projected_states_ba = self.in_proj_ba(hidden_states)  # bs/seq x seq_len/bs x (b a)
 
-        batch_size, sequence_length = projected_states_qkvz.shape[:2]
+        query_key_value, z = torch.split(
+            projected_states_qkvz,
+            [
+                2 * self._local_key_heads * self._config.key_head_dim
+                + self._local_value_heads * self._config.value_head_dim,
+                self._local_value_heads * self._config.value_head_dim,
+            ],
+            dim=-1,
+        )
 
-        # note: to support var len training (packing) we need to flatten hidden states to batch_size = 1
-        # this is does not seem to be required by causal_conv1d_fn, but it it required by chunked_gdn_rule: https://github.com/fla-org/flash-linear-attention/blob/71260ecd573cfaaa94305b726465143199e99734/fla/ops/gated_delta_rule/chunk.py#L299
-        # similarly to kimi linear and to SHortCOnv from fla, we pass it flattened tro conv_1d as well, i.e. see https://github.com/fla-org/flash-linear-attention/blob/71260ecd573cfaaa94305b726465143199e99734/fla/modules/convolution.py#L914
-        query, key, value, z, beta, alpha = self.fix_query_key_value_ordering(
-            projected_states_qkvz, projected_states_ba
+        # Move sequence dim to last so the convolution acts on it, add pretend batch dimension.
+        # sequence, qkv_total -> 1, qkv_total, sequence
+        query_key_value = query_key_value.unsqueeze(0).transpose(1, 2)
+        query_key_value = self.convolution(
+            query_key_value,
+            document_index=kwargs[MixerKwargs.document_index_q].unsqueeze(0),
+            lengths=kwargs[MixerKwargs.lengths],
         )
-        query, key, value = (x.reshape(x.shape[0], x.shape[1], -1) for x in (query, key, value))
-
-        mixed_qkv = torch.cat((query, key, value), dim=-1)
-        mixed_qkv = rearrange(mixed_qkv, "b s ... -> (b s) ...").unsqueeze(0)  # 1 s d
-        mixed_qkv = rearrange(mixed_qkv, "b t d -> b d t")  # mixed_qkv.transpose(1, 2)
-        # conv func. gets sequence dim as last dim, see https://github.com/Dao-AILab/causal-conv1d/blob/22a4577d8ace9d5703daea91a7fb56695492152b/causal_conv1d/causal_conv1d_interface.py#L110
-        mixed_qkv = self.convolution(mixed_qkv, seq_idx=kwargs[MixerKwargs.document_index_q].unsqueeze(0))
-        mixed_qkv = rearrange(mixed_qkv, "b d t -> b t d")  # mixed_qkv.transpose(1, 2)
+        # 1, qkv_total, sequence -> 1, sequence, qkv_total
+        query_key_value = query_key_value.transpose(1, 2)
         query, key, value = torch.split(
-            mixed_qkv,
-            (
+            query_key_value,
+            [
                 self._local_key_heads * self._config.key_head_dim,
                 self._local_key_heads * self._config.key_head_dim,
                 self._local_value_heads * self._config.value_head_dim,
-            ),
+            ],
             dim=-1,
         )
-        query = query.reshape(query.shape[0], query.shape[1], -1, self._config.key_head_dim)
-        key = key.reshape(key.shape[0], key.shape[1], -1, self._config.key_head_dim)
-        value = value.reshape(value.shape[0], value.shape[1], -1, self._config.value_head_dim)
 
-        beta = beta.sigmoid()
-        g = -self.A_log.float().exp() * F.softplus(alpha.float() + self.dt_bias)
-
-        beta = rearrange(beta, "b s ... -> (b s) ...").unsqueeze(0)
-        g = rearrange(g, "b s ... -> (b s) ...").unsqueeze(0)
+        # 1, sequence, heads, head_dim
+        query = query.unflatten(-1, (self._local_key_heads, self._config.key_head_dim))
+        key = key.unflatten(-1, (self._local_key_heads, self._config.key_head_dim))
+        value = value.unflatten(-1, (self._local_value_heads, self._config.value_head_dim))
 
         if self._value_heads_per_key > 1:
             query = query.repeat_interleave(self._value_heads_per_key, dim=2)
             key = key.repeat_interleave(self._value_heads_per_key, dim=2)
 
-        core_attn_out, _ = self.chunk_gated_delta_rule(
+        beta, alpha = torch.split(projected_states_ba, [self._local_value_heads, self._local_value_heads], dim=-1)
+
+        out, _ = self.chunk_gated_delta_rule(
             query,
             key,
             value,
-            g=g,
-            beta=beta,
+            g=self._calculate_g(alpha).unsqueeze(0),
+            beta=beta.sigmoid().unsqueeze(0),
             initial_state=None,
             output_final_state=False,
             use_qk_l2norm_in_kernel=True,
             cu_seqlens=kwargs[MixerKwargs.cu_seqlens_q],
         )
+        out = out.squeeze(0)
+        out = self.norm(out, z.reshape_as(out))
+        return self.out_proj(out.flatten(-2))
 
-        z_shape_og = z.shape
-        core_attn_out = rearrange(core_attn_out.squeeze(0), "(b s) ... -> b s ...", b=batch_size, s=sequence_length)
-
-        core_attn_out = core_attn_out.reshape(-1, core_attn_out.shape[-1])
-        z = z.reshape(-1, z.shape[-1])
-        core_attn_out = self.norm(core_attn_out, z)
-        core_attn_out = core_attn_out.reshape(z_shape_og)
-        core_attn_out = core_attn_out.reshape(core_attn_out.shape[0], core_attn_out.shape[1], -1)
-        output = self.out_proj(core_attn_out)
-
-        return output
+    @torch.compile
+    def _calculate_g(self, alpha: torch.Tensor) -> torch.Tensor:
+        return -self.A_log.float().exp() * torch.nn.functional.softplus(alpha.float() + self.dt_bias)
 
     def get_preprocessing_config(self) -> dict[str, typing.Any]:
         return {"return_cumulative_sequence_lengths": True, "return_document_index": True}
diff --git a/fast_llm/layers/ssm/kda.py b/fast_llm/layers/ssm/kda.py
index 84a365588..4bd484367 100644
--- a/fast_llm/layers/ssm/kda.py
+++ b/fast_llm/layers/ssm/kda.py
@@ -2,7 +2,6 @@
 import typing
 
 import torch
-from einops import rearrange, repeat
 
 from fast_llm.engine.base_model.config import ResourceUsageConfig
 from fast_llm.engine.config_utils.initialization import LambdaInitializer, init_normal_, init_ones_
@@ -26,16 +25,6 @@
     _kda_available = False
 
 
-def index_first_axis(x, indices):
-    other_shape = x.shape[1:]
-    second_dim = other_shape.numel()
-    return torch.gather(
-        rearrange(x, "b ... -> b (...)"),
-        0,
-        repeat(indices, "z -> z d", d=second_dim),
-    ).reshape(-1, *other_shape)
-
-
 class KimiDeltaAttention[ConfigType: KimiDeltaAttentionConfig](BlockWithBias[ConfigType]):
     """
     Implementation of the Kimi Delta Attention mixer.
@@ -199,24 +188,6 @@ def __init__(
             peft=self._peft,
         )
 
-    def _apply_conv(self, tensor: torch.Tensor, conv: torch.nn.Module, seq_idx: torch.Tensor = None) -> torch.Tensor:
-        """
-        Applies convolution.
-        Note, in the reference code they use Short Convolution from flash-linear-attention/fla/modules/convolution.py, but that one just uses causal_conv1d anyways.
-        Varlen:
-        - seq. idx are only suppored in channel last layout, i.e. no transpose
-        """
-        tensor = rearrange(tensor, "b t d -> b d t")
-        # tensor = tensor.transpose(1, 2).contiguous() if seq_idx is None else tensor.transpose(1, 2)
-        tensor = conv(tensor, seq_idx=seq_idx)
-        return tensor.transpose(1, 2).contiguous()
-
-    def _reshape_heads(self, tensor: torch.Tensor) -> torch.Tensor:
-        tensor = tensor.contiguous()
-        # since head_dim is the same vor k,q and v
-        # same as rearrange(v, '... (h d) -> ... h d', d=self.head_dim)
-        return tensor.view(tensor.shape[0], tensor.shape[1], self._local_heads, self._config.head_dim)
-
     def _forward(
         self,
         input_: torch.Tensor,
@@ -225,66 +196,54 @@ def _forward(
         metrics: dict[str, typing.Any] | None = None,
     ) -> tuple[torch.Tensor, torch.Tensor | None]:
         """
-        Same as in gdn, the idea is to always do forward pass in a packed way, whcih is required for varlen support.
+        Same as in gdn, the idea is to always do forward pass in a packed way, which is required for varlen support.
         """
-        hidden_states = input_
-
-        # TODO: can be made more efficeint by rearranging hidden states directly and only once
-        residual_dtype = hidden_states.dtype
-
-        q = self.q_proj(hidden_states)
-        k = self.k_proj(hidden_states)
-        v = self.v_proj(hidden_states)
-
-        batch_size, sequence_length, _ = q.size()
-        q = rearrange(q, "b s ... -> (b s) ...").unsqueeze(0)
-        k = rearrange(k, "b s ... -> (b s) ...").unsqueeze(0)
-        v = rearrange(v, "b s ... -> (b s) ...").unsqueeze(0)
 
-        # because we use cu_seqlens, chunk_kda requires batch size to be 1 (flatten, see https://github.com/fla-org/flash-linear-attention/blob/71260ecd573cfaaa94305b726465143199e99734/fla/ops/kda/chunk.py#L303)
-        # similarly to ShortConvolution from fla we already operate on flattened batches here (https://github.com/fla-org/flash-linear-attention/blob/71260ecd573cfaaa94305b726465143199e99734/fla/modules/convolution.py#L914)
-        seq_idx = kwargs[MixerKwargs.document_index_q].unsqueeze(0)
-        q = self._apply_conv(q, self.q_conv, seq_idx)
-        k = self._apply_conv(k, self.k_conv, seq_idx)
-        v = self._apply_conv(v, self.v_conv, seq_idx)
+        # TODO: ===== Merge q,k,v into a single tensor ======
+        q = self.q_proj(input_)
+        k = self.k_proj(input_)
+        v = self.v_proj(input_)
 
-        g_kernel = self.f_b_proj(self.f_a_proj(hidden_states))
-        g_kernel = self._reshape_heads(g_kernel)
-        g_kernel = rearrange(g_kernel, "b s ... -> (b s) ...").unsqueeze(0)
+        document_index = kwargs[MixerKwargs.document_index_q].unsqueeze(0)
+        lengths = kwargs[MixerKwargs.lengths]
+        # Move sequence dim to last so the convolution acts on it, add pretend batch dimension.
+        q = (
+            self.q_conv(q.unsqueeze(0).transpose(1, 2), document_index=document_index, lengths=lengths)
+            .transpose(1, 2)
+            .unflatten(-1, (self._local_heads, self._config.head_dim))
+        )
+        k = (
+            self.k_conv(k.unsqueeze(0).transpose(1, 2), document_index=document_index, lengths=lengths)
+            .transpose(1, 2)
+            .unflatten(-1, (self._local_heads, self._config.head_dim))
+        )
+        v = (
+            self.v_conv(v.unsqueeze(0).transpose(1, 2), document_index=document_index, lengths=lengths)
+            .transpose(1, 2)
+            .unflatten(-1, (self._local_heads, self._config.head_dim))
+        )
 
+        g_kernel = (
+            self.f_b_proj(self.f_a_proj(input_)).unsqueeze(0).unflatten(-1, (self._local_heads, self._config.head_dim))
+        )
         g_kernel = fused_kda_gate(g_kernel, self.A_log.float(), dt_bias=self.dt_bias)
 
-        beta = torch.sigmoid(self.beta_proj(hidden_states).float())
-        q = self._reshape_heads(q)
-        k = self._reshape_heads(k)
-        v = self._reshape_heads(v)
-        beta = rearrange(beta, "b s h -> (b s) h").unsqueeze(0)
-
-        # need to install nightly triton for this to work on H100, see https://github.com/fla-org/flash-linear-attention/blob/main/FAQs.md
-        # cu_seqlens requires batch ssize to be 1, i.e. flattened bacthes
-        attn_out, _ = chunk_kda(
+        out, _ = chunk_kda(
             q=q,
             k=k,
             v=v,
             g=g_kernel,
-            beta=beta,
+            beta=torch.sigmoid(self.beta_proj(input_).float()).unsqueeze(0),
             initial_state=None,
             output_final_state=False,
             use_qk_l2norm_in_kernel=True,
             cu_seqlens=kwargs[MixerKwargs.cu_seqlens_q],
         )
+        out = out.to(input_.dtype).squeeze(0)
 
-        attn_out = attn_out.to(residual_dtype)
-
-        g_out = self.g_b_proj(self.g_a_proj(hidden_states))  # bs x seq x n_local_heads x head dim
-        g_out = self._reshape_heads(g_out)
-
-        attn_out = rearrange(attn_out.squeeze(0), "(b s) h d -> b s h d", b=batch_size, s=sequence_length)
-        attn_out = self.norm(attn_out, g_out)
-        attn_out = rearrange(attn_out, "b s h d -> b s (h d)")
-        attn_out = self.o_proj(attn_out)
-
-        return attn_out
+        g_out = self.g_b_proj(self.g_a_proj(input_))
+        out = self.norm(out, g_out.view_as(out))
+        return self.o_proj(out.flatten(-2))
 
     def get_compute_usage(self, input_: TensorMeta, kwargs: dict[str, typing.Any], config: ResourceUsageConfig) -> int:
         raise NotImplementedError()
diff --git a/fast_llm/layers/ssm/mamba.py b/fast_llm/layers/ssm/mamba.py
index 0372c7b77..bf90904c0 100644
--- a/fast_llm/layers/ssm/mamba.py
+++ b/fast_llm/layers/ssm/mamba.py
@@ -165,12 +165,9 @@ def _forward(
     ) -> tuple[torch.Tensor, torch.Tensor | None]:
         assert _mamba_available
 
-        sequence_length = kwargs[BlockKwargs.token_dim].size
-        token_shape = (1, sequence_length)
-        # TODO: ====== Keep flat ======
         # inner_projection : (local_tokens, hidden) -> (batch, sequence, local_inner_projection)
-        inner_projection = self.in_proj(input_).unflatten(0, token_shape)
-        dt = self.dt_proj(self.dt_in_proj(input_)).unflatten(0, token_shape)
+        inner_projection = self.in_proj(input_).unsqueeze(0)
+        dt = self.dt_proj(self.dt_in_proj(input_)).unsqueeze(0)
 
         z, x, b, c = torch.split(
             inner_projection,
@@ -241,10 +238,10 @@ def _forward(
         self._debug(y, "y", self._xz_dims, kwargs)
 
         # y: (batch, local_heads * state, sequence) -> (batch, sequence, local_heads * state)
-        y = y.transpose(1, 2)[:, :sequence_length]
+        y = y.transpose(1, 2)[:, : kwargs[BlockKwargs.token_dim].size]
         # (batch, sequence, local_heads * state)
         #   -> (local_tokens, hidden)
-        out, bias = self.out_proj(y.flatten(0, 1))
+        out, bias = self.out_proj(y.squeeze(0))
         self._debug(out, None, (kwargs.get(BlockKwargs.hidden_token_dim), self._hidden_dim), kwargs)
         return out, bias
 
diff --git a/fast_llm/models/multimodal/huggingface.py b/fast_llm/models/multimodal/huggingface.py
index a036249b2..cd9ce3404 100644
--- a/fast_llm/models/multimodal/huggingface.py
+++ b/fast_llm/models/multimodal/huggingface.py
@@ -105,6 +105,6 @@ def _get_batch(
             token_map=token_map,
             positions=image_position_ids,
             lengths=patch_counts,
-        )
+        ).to_device_(input_ids.device)
 
         return batch
diff --git a/fast_llm/utils.py b/fast_llm/utils.py
index 29fd5a155..93a8af515 100644
--- a/fast_llm/utils.py
+++ b/fast_llm/utils.py
@@ -172,19 +172,21 @@ def all_equal(x, *args, msg=None):
 
         # Make it work for lists and numpy arrays.
         x = torch.as_tensor(x)
-        for arg in args:
+        for i, arg in enumerate(args):
             arg = torch.as_tensor(arg)
-
-            Assert.eq(x.shape, arg.shape)
-            neq = x != arg
-            if neq.any().item():  # noqa
-                index = None if x.numel() == 1 else torch.where(neq)  # noqa
-                raise AssertionError(
-                    f"Tensors have {index[0].numel()} different entries out of "
-                    f"{x.numel()}: {x[index]} != {arg[index]} at index {torch.stack(index, -1)}" + ""
-                    if msg is None
-                    else f"| {msg}"
-                )
+            try:
+                Assert.eq(x.shape, arg.shape)
+                neq = x != arg
+                if neq.any().item():  # noqa
+                    index = None if x.numel() == 1 else torch.where(neq)  # noqa
+                    raise AssertionError(
+                        f"Tensors have {index[0].numel()} different entries out of "
+                        f"{x.numel()}: {x[index]} != {arg[index]} at index {torch.stack(index, -1)}" + ""
+                        if msg is None
+                        else f"| {msg}"
+                    )
+            except AssertionError as e:
+                raise AssertionError(f"[{i}] {x} != {arg}: {e}") from e
 
     @staticmethod
     def all_different(x, y):
diff --git a/tests/data/test_dataset_discovery.py b/tests/data/test_dataset_discovery.py
index cb6d34007..e94da8499 100644
--- a/tests/data/test_dataset_discovery.py
+++ b/tests/data/test_dataset_discovery.py
@@ -96,10 +96,10 @@
                         "type": "blended",
                         "name": "dataset",
                         "datasets": [
-                            {"type": "memmap", "path": "dataset/dataset_2.fast_llm_dataset"},
                             {"type": "memmap", "path": "dataset/dataset_1.fast_llm_dataset"},
+                            {"type": "memmap", "path": "dataset/dataset_2.fast_llm_dataset"},
                         ],
-                        "weights": [44883, 43910],
+                        "weights": [43910, 44883],
                     },
                     {"type": "memmap", "path": "dataset_0.fast_llm_dataset"},
                 ],
diff --git a/tests/data/test_sampling.py b/tests/data/test_sampling.py
index a1cea5ae7..de56c3df4 100644
--- a/tests/data/test_sampling.py
+++ b/tests/data/test_sampling.py
@@ -168,5 +168,6 @@ def test_gpt_sample_padding():
             sampled = dataset.sample(*sampling)
             for idx in range(len(expected_samples)):
                 Assert.all_equal(
-                    LanguageModelBatch.from_documents(sampled[idx]).tokens, np.array(expected_samples[idx])
+                    LanguageModelBatch.from_documents(sampled[idx], sequence_length + 1).tokens,
+                    np.array(expected_samples[idx]),
                 )
diff --git a/tests/functional/test_triton_kernels.py b/tests/functional/test_triton_kernels.py
index 2886ab14e..0ff80ad82 100644
--- a/tests/functional/test_triton_kernels.py
+++ b/tests/functional/test_triton_kernels.py
@@ -73,16 +73,16 @@ def test_triton_add(testing_device):
 
 @requires_triton
 @pytest.mark.parametrize(
-    ("batch_size", "sequence_length", "num_heads", "head_size"),
-    [(4, 32, 2, 16), (1, 32, 1, 16), (2, 64, 2, 96), (3, 59, 7, 22)],
+    ("num_tokens", "num_heads", "head_size"),
+    [(128, 2, 16), (32, 1, 16), (128, 2, 96), (59, 7, 22)],
 )
-def test_triton_rotary(batch_size, sequence_length, num_heads, head_size, testing_device):
-    x = torch.randn(batch_size, sequence_length, num_heads, head_size, dtype=torch.float32, device=testing_device)
+def test_triton_rotary(num_tokens, num_heads, head_size, testing_device):
+    x = torch.randn(num_tokens, num_heads, head_size, dtype=torch.float32, device=testing_device)
     frequencies = (
         DefaultRotaryConfig()
         .get_layer(TensorDim("", head_size))
         ._get_frequencies(
-            sequence_length,
+            num_tokens,
             head_size,
             device=testing_device,
         )
@@ -92,11 +92,11 @@ def test_triton_rotary(batch_size, sequence_length, num_heads, head_size, testin
 
     y_complex = convert_rotary_complex_to_real(
         rotary_embeddings_complex(
-            convert_rotary_real_to_complex(x, head_size, 3),
-            torch.view_as_complex(convert_rotary_real_to_complex(frequencies, head_size, 3).unflatten(-1, (-1, 2))),
+            convert_rotary_real_to_complex(x, head_size, 2),
+            torch.view_as_complex(convert_rotary_real_to_complex(frequencies, head_size, 2).unflatten(-1, (-1, 2))),
         ),
         head_size,
-        3,
+        2,
     )
 
     y_triton = triton_rotary_(x, frequencies)
diff --git a/tests/layers/test_ssm.py b/tests/layers/test_ssm.py
index d096b4af3..7613fa67f 100644
--- a/tests/layers/test_ssm.py
+++ b/tests/layers/test_ssm.py
@@ -2,11 +2,12 @@
 import torch
 import transformers
 
+from fast_llm.data.document.block import BlockModelInput, LengthModelInputPreprocessor
+from fast_llm.data.document.config import LanguageModelBatchPreprocessingConfig
 from fast_llm.engine.config_utils.data_type import DataType
 from fast_llm.engine.config_utils.tensor_dim import TensorDim
 from fast_llm.engine.distributed.config import DistributedConfig
 from fast_llm.engine.distributed.distributed import Distributed
-from fast_llm.layers.block.config import BlockKwargs
 from fast_llm.layers.decoder.config import MixerConfig
 from fast_llm.layers.ssm.config import GatedDeltaNetConfig, KimiDeltaAttentionConfig, MambaConfig
 from fast_llm.layers.ssm.kda import _kda_available
@@ -18,13 +19,16 @@
         Apriel2GatedDeltaNet,
         Apriel2Mamba,
         KimiDeltaAttention,
+        is_fast_path_available,
     )
 except ImportError:
     Apriel2GatedDeltaNet = None
     Apriel2Mamba = None
+    is_fast_path_available = False
 
 HIDDEN_SIZE = 16
-SEQ_LEN = 65
+SEQUENCE_LENGTH = 65
+BATCH_SIZE = 2
 
 
 def _compare_mixers(
@@ -53,36 +57,47 @@ def _compare_mixers(
         Assert.rms_close_relative(fast_param, hf_param.view_as(fast_param), threshold, 1e-5, msg=name)
 
     hidden_states = torch.randn(
-        2,
-        SEQ_LEN,
+        BATCH_SIZE,
+        SEQUENCE_LENGTH,
         HIDDEN_SIZE,
         device=distributed.device,
         dtype=distributed_config.compute_dtype.torch,
         requires_grad=False,
     )
 
+    model_input = BlockModelInput()
+    LengthModelInputPreprocessor(
+        lengths=[SEQUENCE_LENGTH for _ in range(hidden_states.size(0))],
+        sequence_k_past=0,
+        first_document_begin=0,
+        last_document_end=BATCH_SIZE * SEQUENCE_LENGTH,
+        device=distributed.device,
+        unpadded_length=BATCH_SIZE * SEQUENCE_LENGTH,
+        sequence_length=BATCH_SIZE * SEQUENCE_LENGTH,
+    ).preprocess(
+        model_input,
+        LanguageModelBatchPreprocessingConfig(
+            distributed=distributed_config,
+            predicted_tokens=0,
+            **fast_llm_layer.get_preprocessing_config(),
+        ),
+    )
+    kwargs = model_input.to_kwargs()
+
     hf_layer.train()
     hf_out = hf_layer(hidden_states)
     if isinstance(hf_out, tuple):
         (hf_out,) = hf_out
 
-    sequence_lengths = [[SEQ_LEN] for _ in range(hidden_states.size(0))]
-    fast_kwargs = {
-        BlockKwargs.device: distributed.device,
-        BlockKwargs.sequence_lengths: sequence_lengths,
-        BlockKwargs.sequence_q_dim: TensorDim("", SEQ_LEN),
-        BlockKwargs.sequence_k_dim: TensorDim("", SEQ_LEN),
-    }
     fast_llm_layer.train()
-    fast_llm_layer.preprocess(fast_kwargs)
-    fast_out = fast_llm_layer(hidden_states, fast_kwargs)
+    fast_out = fast_llm_layer(hidden_states.flatten(0, 1), kwargs).view_as(hidden_states)
 
     Assert.rms_close_relative(fast_out, hf_out, threshold, 1e-5)
 
 
 @pytest.mark.slow
 # Arguments ('seq_idx',) not implemented for torch implementation of 1d convolution.
-@pytest.mark.skipif(not transformers.utils.import_utils.is_causal_conv1d_available(), reason="GDN deps missing")
+@pytest.mark.skipif(not is_fast_path_available, reason="GDN deps missing")
 def test_gdn(testing_device):
     dtype = torch.bfloat16
 
@@ -130,21 +145,17 @@ def test_kda():
 
 
 @pytest.mark.slow
+@pytest.mark.skip("Mamba is broken")
 @pytest.mark.parametrize("add_linear_biases", [True, False])
 @pytest.mark.parametrize("repeat_kv_before_conv", [True, False])
 @pytest.mark.skipif(not transformers.utils.import_utils.is_mamba_ssm_available(), reason="Mamba not available")
 def test_mamba(add_linear_biases, repeat_kv_before_conv):
-    D_INNER = 128
-    D_XB = 64
-    D_STATE = 16
-    D_CONV = 4
-    DT_RANK = 4
 
     config_common = {
-        "d_inner": D_INNER,
-        "d_xb": D_XB,
-        "state_size": D_STATE,
-        "dt_rank": DT_RANK,
+        "d_inner": 128,
+        "d_xb": 64,
+        "state_size": 16,
+        "dt_rank": 4,
         "repeat_kv_before_conv": repeat_kv_before_conv,
         "add_linear_biases": add_linear_biases,
     }
@@ -152,13 +163,13 @@ def test_mamba(add_linear_biases, repeat_kv_before_conv):
     mamba_config = {
         "conv_bias": add_linear_biases,
         "dt_proj_bias": add_linear_biases,
-        **config_common,
+        "d_conv": 4**config_common,
     }
     hf_layer = Apriel2Mamba(HIDDEN_SIZE, mamba_config, layer_idx=0)
 
     # Create Fast-LLM Mamba layer
     fast_llm_config = MambaConfig(
-        convolution_layer={"kernel_size": D_CONV},
+        convolution_layer={"kernel_size": 4},
         **config_common,
     )
 
diff --git a/tests/models/test_match_megatron.py b/tests/models/test_match_megatron.py
index 33099d6ae..03ebac757 100644
--- a/tests/models/test_match_megatron.py
+++ b/tests/models/test_match_megatron.py
@@ -17,7 +17,6 @@
 from fast_llm.data.dataset.memmap.config import MemmapDatasetConfig
 from fast_llm.data.dataset.sampled import logger
 from fast_llm.data.document.language_model import LanguageModelDocument
-from fast_llm.data.document.token import TokenDocument
 from fast_llm.data.preparation.tokenizer import TokenizerConfig
 from fast_llm.engine.config_utils.data_type import DataType
 from fast_llm.utils import Assert
@@ -49,7 +48,7 @@ def get_megatron_test_dataset(prefix: pathlib.Path = MEGATRON_DATASET_PREFIX):
         tokenizer = TokenizerConfig(path=TOKENIZER_NAME).get_tokenizer()
         samples = [
             LanguageModelDocument(
-                TokenDocument((tokenizer.tokenize(document["text"]) % MODEL_TEST_VOCAB_SIZE).to(torch.uint16))
+                tokens=(tokenizer.tokenize(document["text"]) % MODEL_TEST_VOCAB_SIZE).to(torch.uint16)
             )
             for document in hf_dataset
         ]
@@ -104,7 +103,8 @@ def test_match_megatron(run_test_script_for_all_models, model_testing_config, co
         config_args=[
             "model.distributed.compute_dtype=fp32",
             f'data.datasets.training={{"type":"megatron","path":{MEGATRON_DATASET_PREFIX}}}',
-            "data.sampling.seed=1234",
+            "data.seed=1234",
+            "data.micro_batch_size=512",
             "model.base_model.use_megatron_initialization=True",
         ],
         num_gpus=1,
@@ -235,7 +235,7 @@ def __getitem__(self, idx: int) -> list[DocumentType]:
         shuffled_idx = self._shuffle_idx[idx]
         doc_f, offset_f = self._sample_idx[shuffled_idx]
         doc_l, offset_l = self._sample_idx[shuffled_idx + 1]
-        return [
+        documents = [
             self._indexed_dataset.get_document(
                 self._doc_idx[doc].item(),
                 begin=(doc == doc_f) * offset_f,
@@ -243,6 +243,8 @@ def __getitem__(self, idx: int) -> list[DocumentType]:
             )
             for doc in range(doc_f, doc_l + 1)
         ]
+        # The Megatron side doesn't use varlen, so we make it look like a single document.
+        return [LanguageModelDocument(tokens=torch.cat([document.tokens for document in documents]))]
 
     @property
     def name(self) -> str:
diff --git a/tests/utils/model_configs.py b/tests/utils/model_configs.py
index d0fa24a51..f42ca5efe 100644
--- a/tests/utils/model_configs.py
+++ b/tests/utils/model_configs.py
@@ -284,8 +284,8 @@ def update_and_add_testing_config(
         f"--debug_layer_gradients={_LOG_LEVEL}",
         f"--debug_all_param_gradients={_LOG_LEVEL}",
         "--debug_param_update=0",
-        "--global-batch-size=8",
-        "--micro-batch-size=8",
+        "--global-batch-size=1",
+        "--micro-batch-size=1",
         "--max-position-embeddings=512",
         "--seq-length=512",
         f"--init-method-std={2**-5.5}",
@@ -734,22 +734,12 @@ def update_and_add_testing_config(
 update_and_add_testing_config(
     # Tests hybrid with attention + gated delta net mixer.
     "llama",
-    "apriel2_text_gdn_hybrid",
+    "hybrid_gdn",
     updates={
         ("model", "base_model", "decoder"): {
             "type": "pattern",
             "blocks": {
-                "attn": {
-                    **copy.deepcopy(_llama_block),
-                    "mixer": {
-                        "type": "attention",
-                        "rotary": {"type": "default", "theta": 10000},
-                        "heads": 8,
-                        "head_groups": 4,
-                        "head_size": 32,
-                        "add_linear_biases": False,
-                    },
-                },
+                "attention": copy.deepcopy(_llama_block),
                 "gdn": {
                     **copy.deepcopy(_llama_block),
                     "mixer": {
@@ -762,11 +752,11 @@ def update_and_add_testing_config(
                 },
             },
             "num_blocks": 2,
-            "pattern": ["attn", "gdn"],
+            "pattern": ["attention", "gdn"],
         },
     },
     megatron_args=None,
-    checkpoint_format=Apriel2TextCheckpointFormat,
+    checkpoint_format=AprielHybridSSMCheckpointFormat,
     groups={
         ModelTestingGroup.basic: ModelTestingGroupAction.normal,
         ModelTestingGroup.checkpoint: ModelTestingGroupAction.normal,
@@ -780,9 +770,49 @@ def update_and_add_testing_config(
     # note: tp is excluded because there is currently no gradient reductions implemented for tp norm in gdn.py (STP works though).
     # we should be using STP with this model, not TP!
     skip_tests=("sdp", "ms", TP_NO_STP),
+    requires_cuda=False,
+)
+
+update_and_add_testing_config(
+    # Tests hybrid with KDA mixer.
+    "llama",
+    "hybrid_kda",
+    updates={
+        ("model", "base_model", "decoder"): {
+            "type": "pattern",
+            "blocks": {
+                "attention": copy.deepcopy(_llama_block),
+                "kda": {
+                    **copy.deepcopy(_llama_block),
+                    "mixer": {
+                        "type": "kda",
+                        "heads": 4,
+                        "head_dim": 16,
+                    },
+                },
+            },
+            "num_blocks": 2,
+            "pattern": ["attention", "kda"],
+        },
+    },
+    megatron_args=None,
+    checkpoint_format=AprielHybridSSMCheckpointFormat,
+    groups={
+        ModelTestingGroup.basic: ModelTestingGroupAction.normal,
+        ModelTestingGroup.checkpoint: ModelTestingGroupAction.broken,
+        ModelTestingGroup.convert: ModelTestingGroupAction.broken,
+        ModelTestingGroup.generate: ModelTestingGroupAction.not_implemented,
+        ModelTestingGroup.megatron: ModelTestingGroupAction.not_implemented,
+        ModelTestingGroup.distributed: ModelTestingGroupAction.normal,
+    },
+    compare_factor=15.0,  # similar to gdn with compare_factor 2 fails fp16 and bf16 tests in the normalization layer when using rms_norm_gated from fla
+    # note: tp is excluded because there is currently no gradient reductions implemented for tp norm in gdn.py (STP works though).
+    # we should be using STP with this model, not TP!
+    skip_tests=("sdp", "ms", TP_NO_STP),
     requires_cuda=True,
 )
 
+
 update_and_add_testing_config(
     # Tests apriel2 format with pattern decoder mixing all mixer types.
     # This comprehensive test exercises: attention, mamba, stochastic mixer, sliding window attention, gdn.
@@ -950,46 +980,6 @@ def update_and_add_testing_config(
 )
 
 
-update_and_add_testing_config(
-    # Tests hybrid with KDA mixer.
-    "llama",
-    "hybrid_kda",
-    updates={
-        ("model", "base_model", "decoder"): {
-            "type": "pattern",
-            "blocks": {
-                "t": copy.deepcopy(_llama_block),
-                "kda": {
-                    **copy.deepcopy(_llama_block),
-                    "mixer": {
-                        "type": "kda",
-                        "heads": 4,
-                        "head_dim": 16,
-                    },
-                },
-            },
-            "num_blocks": 2,
-            "pattern": ["t", "kda"],
-        },
-    },
-    megatron_args=None,
-    checkpoint_format=AprielHybridSSMCheckpointFormat,
-    groups={
-        ModelTestingGroup.basic: ModelTestingGroupAction.normal,
-        ModelTestingGroup.checkpoint: ModelTestingGroupAction.broken,
-        ModelTestingGroup.convert: ModelTestingGroupAction.broken,
-        ModelTestingGroup.generate: ModelTestingGroupAction.not_implemented,
-        ModelTestingGroup.megatron: ModelTestingGroupAction.not_implemented,
-        ModelTestingGroup.distributed: ModelTestingGroupAction.normal,
-    },
-    compare_factor=15.0,  # similar to gdn with compare_factor 2 fails fp16 and bf16 tests in the normalization layer when using rms_norm_gated from fla
-    # note: tp is excluded because there is currently no gradient reductions implemented for tp norm in gdn.py (STP works though).
-    # we should be using STP with this model, not TP!
-    skip_tests=("sdp", "ms", TP_NO_STP),
-    requires_cuda=True,
-)
-
-
 @pytest.fixture(scope="session", params=MODEL_CONFIGS.keys())
 def model_testing_config(request) -> ModelTestingConfig:
     models = request.config.getoption("--models")

From da9751bf81a3ce9a18aff0b2b39f94a7ddff293e Mon Sep 17 00:00:00 2001
From: Joel Lamy-Poirier <joel.lamy-poirier@servicenow.com>
Date: Sat, 7 Mar 2026 02:51:54 -0500
Subject: [PATCH 30/37] fixes

---
 fast_llm/layers/attention/attention.py       |   4 +-
 fast_llm/layers/attention/config.py          |   2 +-
 fast_llm/layers/attention/preprocessing.py   |   6 +-
 fast_llm/layers/block/config.py              |   2 +-
 fast_llm/layers/common/linear/convolution.py |  20 +--
 fast_llm/layers/language_model/embedding.py  |   2 +-
 fast_llm/layers/ssm/gdn.py                   | 121 +++++++------------
 fast_llm/layers/ssm/kda.py                   | 107 +++++-----------
 fast_llm/layers/ssm/mamba.py                 |   6 +-
 fast_llm/models/gpt/model.py                 |   4 +-
 fast_llm/models/multimodal/model.py          |   2 +-
 tests/layers/test_attention.py               |   2 +-
 tests/layers/test_ssm.py                     |  65 +++++-----
 tests/layers/test_varlen.py                  |   4 +-
 14 files changed, 134 insertions(+), 213 deletions(-)

diff --git a/fast_llm/layers/attention/attention.py b/fast_llm/layers/attention/attention.py
index 859bafea2..40b1f4d23 100644
--- a/fast_llm/layers/attention/attention.py
+++ b/fast_llm/layers/attention/attention.py
@@ -324,7 +324,7 @@ def _forward(
         token_dims = (kwargs[AttentionKwargs.batch_dim], kwargs[AttentionKwargs.sequence_q_dim])
         token_shape = tuple(dim.size for dim in token_dims)
         query = query.unflatten(0, token_shape)
-        key_value = key_value.unflatten(0, token_shape)
+        key_value = key_value.unflatten(0, (token_shape[0], token_shape[1] * self._sequence_data_parallel_dim.size))
 
         # TODO: Move the rest to function.
 
@@ -457,7 +457,7 @@ def _preprocess_for_backup_attention(self, kwargs: dict[str, typing.Any]) -> Non
             seq_ids = torch.stack(
                 [
                     torch.cat([torch.full((x,), i, device=device) for i, x in enumerate(sample_lens)])
-                    for sample_lens in kwargs[AttentionKwargs.sequence_lengths]
+                    for sample_lens in kwargs[AttentionKwargs.lengths]
                 ]
             )
             document_mask = (seq_ids[:, None, :] == seq_ids[:, :, None])[
diff --git a/fast_llm/layers/attention/config.py b/fast_llm/layers/attention/config.py
index 40baf2009..cad1d20e8 100644
--- a/fast_llm/layers/attention/config.py
+++ b/fast_llm/layers/attention/config.py
@@ -20,7 +20,7 @@ class MixerKwargs(BlockKwargs):
     cu_seqlens_k = "cu_seqlens_k"
     max_seqlen_q = "max_seqlen_q"
     max_seqlen_k = "max_seqlen_k"
-    seq_idx = "seq_idx"
+    document_index_q = "document_index_q"
     position_ids = "position_ids"
 
 
diff --git a/fast_llm/layers/attention/preprocessing.py b/fast_llm/layers/attention/preprocessing.py
index a9d9936c5..fd048cf76 100644
--- a/fast_llm/layers/attention/preprocessing.py
+++ b/fast_llm/layers/attention/preprocessing.py
@@ -28,9 +28,7 @@ def preprocess_for_varlen(
     Assert.eq(kwargs[MixerKwargs.sequence_k_dim].global_size, kwargs[MixerKwargs.sequence_q_dim].global_size)
 
     sequence_lengths = [
-        sequence_length
-        for sequence_lengths in kwargs[MixerKwargs.sequence_lengths]
-        for sequence_length in sequence_lengths
+        sequence_length for sequence_lengths in kwargs[MixerKwargs.lengths] for sequence_length in sequence_lengths
     ]
     if return_cu_seqlens:
         cu_seqlens_q = torch.tensor([0] + sequence_lengths, dtype=torch.int32, device=device).cumsum(
@@ -43,7 +41,7 @@ def preprocess_for_varlen(
         kwargs[MixerKwargs.max_seqlen_q] = max_seqlen_q
         kwargs[MixerKwargs.max_seqlen_k] = max_seqlen_q
     if return_seq_idx:
-        kwargs[MixerKwargs.seq_idx] = torch.cat(
+        kwargs[MixerKwargs.document_index_q] = torch.cat(
             [
                 torch.full((sequence_length,), i, dtype=torch.int32, device=device)
                 for i, sequence_length in enumerate(sequence_lengths)
diff --git a/fast_llm/layers/block/config.py b/fast_llm/layers/block/config.py
index 4f8595250..729cdd8a2 100644
--- a/fast_llm/layers/block/config.py
+++ b/fast_llm/layers/block/config.py
@@ -38,7 +38,7 @@ class BlockKwargs:
     hidden_token_dim = "hidden_token_dim"
     # TODO: These are confusing
     sequence_length = "sequence_length"
-    sequence_lengths = "sequence_lengths"
+    lengths = "sequence_lengths"
     # TODO: Belongs elsewhere?
     grad_output = "grad_output"
     activation_distillation_targets = "activation_distillation_targets"
diff --git a/fast_llm/layers/common/linear/convolution.py b/fast_llm/layers/common/linear/convolution.py
index e8b00fb3c..046d55194 100644
--- a/fast_llm/layers/common/linear/convolution.py
+++ b/fast_llm/layers/common/linear/convolution.py
@@ -34,11 +34,13 @@ def __init__(
             else self._forward_torch
         )
 
-    def _forward_torch(self, input_: torch.Tensor, **kwargs) -> torch.Tensor:
-        if kwargs:
-            raise NotImplementedError(
-                f"Arguments {tuple(kwargs)} not implemented for torch implementation of 1d convolution."
-            )
+    def _forward_torch(
+        self, input_: torch.Tensor, document_index: torch.Tensor | None = None, lengths: list[int] | None = None
+    ) -> torch.Tensor:
+        if document_index is not None and lengths is None:
+            raise ValueError("Torch implementation of CausalConv1d requires lengths.")
+        if lengths is not None:
+            return torch.cat([self._forward_torch(x) for x in input_.split(lengths, dim=-1)], dim=-1)
         return self._activation.activation_fn(
             torch.nn.functional.conv1d(
                 input_,
@@ -49,13 +51,17 @@ def _forward_torch(self, input_: torch.Tensor, **kwargs) -> torch.Tensor:
             )[..., : input_.size(1)]
         )
 
-    def _forward_causal_conv1d(self, input_: torch.Tensor, **kwargs) -> torch.Tensor:
+    def _forward_causal_conv1d(
+        self, input_: torch.Tensor, document_index: torch.Tensor | None = None, lengths: list[int] | None = None
+    ) -> torch.Tensor:
+        if lengths is not None and document_index is None:
+            raise ValueError("Compiled implementation of CausalConv1d requires document indices.")
         return _causal_conv1d_fn(
             input_,
             self.weight.squeeze(1),
             self.bias,
             activation=(None if self._activation == ActivationType.identity else self._activation.value),
-            **kwargs,
+            seq_idx=document_index,
         )
 
     def get_compute_usage(self, input_: TensorMeta, config: ResourceUsageConfig) -> int:
diff --git a/fast_llm/layers/language_model/embedding.py b/fast_llm/layers/language_model/embedding.py
index c6df8f62b..f1f1dea75 100644
--- a/fast_llm/layers/language_model/embedding.py
+++ b/fast_llm/layers/language_model/embedding.py
@@ -87,7 +87,7 @@ def _forward(
         if self._vocab_parallel:
             token_mask = (token_ids >= self._vocab_start_index) * (token_ids < self._vocab_end_index)
             masked_input = (token_ids - self._vocab_start_index) * token_mask
-            embeddings = torch.embedding(self.word_embeddings_weight, masked_input) * token_mask.unsqueeze(2)  # noqa
+            embeddings = torch.embedding(self.word_embeddings_weight, masked_input) * token_mask.unsqueeze(-1)  # noqa
             embeddings = reduce_forward(embeddings, group)
             # TODO: Input masking of position embeddings inconsistant with non-vocab-parallel
             if self.position_embeddings_weight is not None:
diff --git a/fast_llm/layers/ssm/gdn.py b/fast_llm/layers/ssm/gdn.py
index 5e721d424..70c2fda26 100644
--- a/fast_llm/layers/ssm/gdn.py
+++ b/fast_llm/layers/ssm/gdn.py
@@ -2,8 +2,6 @@
 import typing
 
 import torch
-import torch.nn.functional as F
-from einops import rearrange
 
 from fast_llm.engine.base_model.config import ResourceUsageConfig
 from fast_llm.engine.config_utils.initialization import LambdaInitializer, init_normal_, init_ones_
@@ -50,6 +48,7 @@ def torch_chunk_gated_delta_rule(
     initial_state=None,
     output_final_state=False,
     use_qk_l2norm_in_kernel=False,
+    cu_seqlens=None,
 ):
     initial_dtype = query.dtype
     if use_qk_l2norm_in_kernel:
@@ -62,11 +61,11 @@ def torch_chunk_gated_delta_rule(
     batch_size, num_heads, sequence_length, k_head_dim = key.shape
     v_head_dim = value.shape[-1]
     pad_size = (chunk_size - sequence_length % chunk_size) % chunk_size
-    query = F.pad(query, (0, 0, 0, pad_size))
-    key = F.pad(key, (0, 0, 0, pad_size))
-    value = F.pad(value, (0, 0, 0, pad_size))
-    beta = F.pad(beta, (0, pad_size))
-    g = F.pad(g, (0, pad_size))
+    query = torch.nn.functional.pad(query, (0, 0, 0, pad_size))
+    key = torch.nn.functional.pad(key, (0, 0, 0, pad_size))
+    value = torch.nn.functional.pad(value, (0, 0, 0, pad_size))
+    beta = torch.nn.functional.pad(beta, (0, pad_size))
+    g = torch.nn.functional.pad(g, (0, pad_size))
     total_sequence_length = sequence_length + pad_size
     scale = 1 / (query.shape[-1] ** 0.5)
     query = query * scale
@@ -252,36 +251,6 @@ def __init__(
             )
             self.chunk_gated_delta_rule = torch_chunk_gated_delta_rule
 
-        if not _causal_conv1d_available:
-            raise RuntimeError("Gated delta net requires `causal_conv1d`.")
-
-    def fix_query_key_value_ordering(self, mixed_qkvz, mixed_ba):
-        """
-        Derives `query`, `key` and `value` tensors from `mixed_qkvz` and `mixed_ba`.
-        Replaces fix_query_key_value_ordering from Qwen due to layout differences.
-        """
-
-        local_qkv_sizes = (
-            self._local_key_heads * self._config.key_head_dim,
-            self._local_key_heads * self._config.key_head_dim,
-            self._local_value_heads * self._config.value_head_dim,
-            self._local_value_heads * self._config.value_head_dim,
-        )
-        query, key, value, z = torch.split(mixed_qkvz, local_qkv_sizes, dim=-1)
-        query = query.reshape(*query.shape[:-1], self._local_key_heads, self._config.key_head_dim)
-        key = key.reshape(*key.shape[:-1], self._local_key_heads, self._config.key_head_dim)
-        value = value.reshape(*value.shape[:-1], self._local_value_heads, self._config.value_head_dim)
-        z = z.reshape(*z.shape[:-1], self._local_value_heads, self._config.value_head_dim)
-
-        beta, alpha = torch.split(
-            mixed_ba,
-            (self._local_value_heads, self._local_value_heads),
-            dim=-1,
-        )
-        beta = beta.reshape(*beta.shape[:-1], self._local_value_heads)
-        alpha = alpha.reshape(*alpha.shape[:-1], self._local_value_heads)
-        return query, key, value, z, beta, alpha
-
     def _forward(
         self,
         input_: torch.Tensor,
@@ -301,74 +270,72 @@ def _forward(
         """
 
         # in sequence parallel TP the input here is already scattered across sequence dimension
-        # TODO: fuse soome of the reshapes into rearranges
+        # TODO: fuse some of the reshapes into rearranges
         hidden_states = input_
 
+        # TODO: ====== Merge qkvz and ba ======
         projected_states_qkvz = self.in_proj_qkvz(hidden_states)  # bs/seq x seq_len/bs x (qkvz)
         projected_states_ba = self.in_proj_ba(hidden_states)  # bs/seq x seq_len/bs x (b a)
 
-        batch_size, sequence_length = projected_states_qkvz.shape[:2]
+        query_key_value, z = torch.split(
+            projected_states_qkvz,
+            [
+                2 * self._local_key_heads * self._config.key_head_dim
+                + self._local_value_heads * self._config.value_head_dim,
+                self._local_value_heads * self._config.value_head_dim,
+            ],
+            dim=-1,
+        )
 
-        # note: to support var len training (packing) we need to flatten hidden states to batch_size = 1
-        # this is does not seem to be required by causal_conv1d_fn, but it it required by chunked_gdn_rule: https://github.com/fla-org/flash-linear-attention/blob/71260ecd573cfaaa94305b726465143199e99734/fla/ops/gated_delta_rule/chunk.py#L299
-        # similarly to kimi linear and to SHortCOnv from fla, we pass it flattened tro conv_1d as well, i.e. see https://github.com/fla-org/flash-linear-attention/blob/71260ecd573cfaaa94305b726465143199e99734/fla/modules/convolution.py#L914
-        query, key, value, z, beta, alpha = self.fix_query_key_value_ordering(
-            projected_states_qkvz, projected_states_ba
+        # Move sequence dim to last so the convolution acts on it, add pretend batch dimension.
+        # sequence, qkv_total -> 1, qkv_total, sequence
+        query_key_value = query_key_value.unsqueeze(0).transpose(1, 2)
+        query_key_value = self.convolution(
+            query_key_value,
+            document_index=kwargs[MixerKwargs.document_index_q].unsqueeze(0),
+            lengths=[length for lengths in kwargs[MixerKwargs.lengths] for length in lengths],
         )
-        query, key, value = (x.reshape(x.shape[0], x.shape[1], -1) for x in (query, key, value))
-
-        mixed_qkv = torch.cat((query, key, value), dim=-1)
-        mixed_qkv = rearrange(mixed_qkv, "b s ... -> (b s) ...").unsqueeze(0)  # 1 s d
-        mixed_qkv = rearrange(mixed_qkv, "b t d -> b d t")  # mixed_qkv.transpose(1, 2)
-        # conv func. gets sequence dim as last dim, see https://github.com/Dao-AILab/causal-conv1d/blob/22a4577d8ace9d5703daea91a7fb56695492152b/causal_conv1d/causal_conv1d_interface.py#L110
-        mixed_qkv = self.convolution(mixed_qkv, seq_idx=kwargs[MixerKwargs.seq_idx].unsqueeze(0))
-        mixed_qkv = rearrange(mixed_qkv, "b d t -> b t d")  # mixed_qkv.transpose(1, 2)
+        # 1, qkv_total, sequence -> 1, sequence, qkv_total
+        query_key_value = query_key_value.transpose(1, 2)
         query, key, value = torch.split(
-            mixed_qkv,
-            (
+            query_key_value,
+            [
                 self._local_key_heads * self._config.key_head_dim,
                 self._local_key_heads * self._config.key_head_dim,
                 self._local_value_heads * self._config.value_head_dim,
-            ),
+            ],
             dim=-1,
         )
-        query = query.reshape(query.shape[0], query.shape[1], -1, self._config.key_head_dim)
-        key = key.reshape(key.shape[0], key.shape[1], -1, self._config.key_head_dim)
-        value = value.reshape(value.shape[0], value.shape[1], -1, self._config.value_head_dim)
 
-        beta = beta.sigmoid()
-        g = -self.A_log.float().exp() * F.softplus(alpha.float() + self.dt_bias)
-
-        beta = rearrange(beta, "b s ... -> (b s) ...").unsqueeze(0)
-        g = rearrange(g, "b s ... -> (b s) ...").unsqueeze(0)
+        # 1, sequence, heads, head_dim
+        query = query.unflatten(-1, (self._local_key_heads, self._config.key_head_dim))
+        key = key.unflatten(-1, (self._local_key_heads, self._config.key_head_dim))
+        value = value.unflatten(-1, (self._local_value_heads, self._config.value_head_dim))
 
         if self._value_heads_per_key > 1:
             query = query.repeat_interleave(self._value_heads_per_key, dim=2)
             key = key.repeat_interleave(self._value_heads_per_key, dim=2)
 
-        core_attn_out, _ = self.chunk_gated_delta_rule(
+        beta, alpha = torch.split(projected_states_ba, [self._local_value_heads, self._local_value_heads], dim=-1)
+
+        out, _ = self.chunk_gated_delta_rule(
             query,
             key,
             value,
-            g=g,
-            beta=beta,
+            g=self._calculate_g(alpha).unsqueeze(0),
+            beta=beta.sigmoid().unsqueeze(0),
             initial_state=None,
             output_final_state=False,
             use_qk_l2norm_in_kernel=True,
             cu_seqlens=kwargs[MixerKwargs.cu_seqlens_q],
         )
+        out = out.squeeze(0)
+        out = self.norm(out, z.reshape_as(out))
+        return self.out_proj(out.flatten(-2))
 
-        z_shape_og = z.shape
-        core_attn_out = rearrange(core_attn_out.squeeze(0), "(b s) ... -> b s ...", b=batch_size, s=sequence_length)
-
-        core_attn_out = core_attn_out.reshape(-1, core_attn_out.shape[-1])
-        z = z.reshape(-1, z.shape[-1])
-        core_attn_out = self.norm(core_attn_out, z)
-        core_attn_out = core_attn_out.reshape(z_shape_og)
-        core_attn_out = core_attn_out.reshape(core_attn_out.shape[0], core_attn_out.shape[1], -1)
-        output = self.out_proj(core_attn_out)
-
-        return output
+    @torch.compile
+    def _calculate_g(self, alpha: torch.Tensor) -> torch.Tensor:
+        return -self.A_log.float().exp() * torch.nn.functional.softplus(alpha.float() + self.dt_bias)
 
     def preprocess(self, kwargs: dict[str, typing.Any]) -> None:
         preprocess_for_varlen(
diff --git a/fast_llm/layers/ssm/kda.py b/fast_llm/layers/ssm/kda.py
index 07ca3a997..608fb5921 100644
--- a/fast_llm/layers/ssm/kda.py
+++ b/fast_llm/layers/ssm/kda.py
@@ -2,7 +2,6 @@
 import typing
 
 import torch
-from einops import rearrange, repeat
 
 from fast_llm.engine.base_model.config import ResourceUsageConfig
 from fast_llm.engine.config_utils.initialization import LambdaInitializer, init_normal_, init_ones_
@@ -27,16 +26,6 @@
     _kda_available = False
 
 
-def index_first_axis(x, indices):
-    other_shape = x.shape[1:]
-    second_dim = other_shape.numel()
-    return torch.gather(
-        rearrange(x, "b ... -> b (...)"),
-        0,
-        repeat(indices, "z -> z d", d=second_dim),
-    ).reshape(-1, *other_shape)
-
-
 class KimiDeltaAttention[ConfigType: KimiDeltaAttentionConfig](BlockWithBias[ConfigType]):
     """
     Implementation of the Kimi Delta Attention mixer.
@@ -200,24 +189,6 @@ def __init__(
             peft=self._peft,
         )
 
-    def _apply_conv(self, tensor: torch.Tensor, conv: torch.nn.Module, seq_idx: torch.Tensor = None) -> torch.Tensor:
-        """
-        Applies convolution.
-        Note, in the reference code they use Short Convolution from flash-linear-attention/fla/modules/convolution.py, but that one just uses causal_conv1d anyways.
-        Varlen:
-        - seq. idx are only suppored in channel last layout, i.e. no transpose
-        """
-        tensor = rearrange(tensor, "b t d -> b d t")
-        # tensor = tensor.transpose(1, 2).contiguous() if seq_idx is None else tensor.transpose(1, 2)
-        tensor = conv(tensor, seq_idx=seq_idx)
-        return tensor.transpose(1, 2).contiguous()
-
-    def _reshape_heads(self, tensor: torch.Tensor) -> torch.Tensor:
-        tensor = tensor.contiguous()
-        # since head_dim is the same vor k,q and v
-        # same as rearrange(v, '... (h d) -> ... h d', d=self.head_dim)
-        return tensor.view(tensor.shape[0], tensor.shape[1], self._local_heads, self._config.head_dim)
-
     def _forward(
         self,
         input_: torch.Tensor,
@@ -226,66 +197,54 @@ def _forward(
         metrics: dict[str, typing.Any] | None = None,
     ) -> tuple[torch.Tensor, torch.Tensor | None]:
         """
-        Same as in gdn, the idea is to always do forward pass in a packed way, whcih is required for varlen support.
+        Same as in gdn, the idea is to always do forward pass in a packed way, which is required for varlen support.
         """
-        hidden_states = input_
-
-        # TODO: can be made more efficeint by rearranging hidden states directly and only once
-        residual_dtype = hidden_states.dtype
-
-        q = self.q_proj(hidden_states)
-        k = self.k_proj(hidden_states)
-        v = self.v_proj(hidden_states)
-
-        batch_size, sequence_length, _ = q.size()
-        q = rearrange(q, "b s ... -> (b s) ...").unsqueeze(0)
-        k = rearrange(k, "b s ... -> (b s) ...").unsqueeze(0)
-        v = rearrange(v, "b s ... -> (b s) ...").unsqueeze(0)
 
-        # because we use cu_seqlens, chunk_kda requires batch size to be 1 (flatten, see https://github.com/fla-org/flash-linear-attention/blob/71260ecd573cfaaa94305b726465143199e99734/fla/ops/kda/chunk.py#L303)
-        # similarly to ShortConvolution from fla we already operate on flattened batches here (https://github.com/fla-org/flash-linear-attention/blob/71260ecd573cfaaa94305b726465143199e99734/fla/modules/convolution.py#L914)
-        seq_idx = kwargs[MixerKwargs.seq_idx].unsqueeze(0)
-        q = self._apply_conv(q, self.q_conv, seq_idx)
-        k = self._apply_conv(k, self.k_conv, seq_idx)
-        v = self._apply_conv(v, self.v_conv, seq_idx)
-
-        g_kernel = self.f_b_proj(self.f_a_proj(hidden_states))
-        g_kernel = self._reshape_heads(g_kernel)
-        g_kernel = rearrange(g_kernel, "b s ... -> (b s) ...").unsqueeze(0)
+        # TODO: ===== Merge q,k,v into a single tensor ======
+        q = self.q_proj(input_)
+        k = self.k_proj(input_)
+        v = self.v_proj(input_)
+
+        document_index = kwargs[MixerKwargs.document_index_q].unsqueeze(0)
+        lengths = [length for lengths in kwargs[MixerKwargs.lengths] for length in lengths]
+        # Move sequence dim to last so the convolution acts on it, add pretend batch dimension.
+        q = (
+            self.q_conv(q.unsqueeze(0).transpose(1, 2), document_index=document_index, lengths=lengths)
+            .transpose(1, 2)
+            .unflatten(-1, (self._local_heads, self._config.head_dim))
+        )
+        k = (
+            self.k_conv(k.unsqueeze(0).transpose(1, 2), document_index=document_index, lengths=lengths)
+            .transpose(1, 2)
+            .unflatten(-1, (self._local_heads, self._config.head_dim))
+        )
+        v = (
+            self.v_conv(v.unsqueeze(0).transpose(1, 2), document_index=document_index, lengths=lengths)
+            .transpose(1, 2)
+            .unflatten(-1, (self._local_heads, self._config.head_dim))
+        )
 
+        g_kernel = (
+            self.f_b_proj(self.f_a_proj(input_)).unsqueeze(0).unflatten(-1, (self._local_heads, self._config.head_dim))
+        )
         g_kernel = fused_kda_gate(g_kernel, self.A_log.float(), dt_bias=self.dt_bias)
 
-        beta = torch.sigmoid(self.beta_proj(hidden_states).float())
-        q = self._reshape_heads(q)
-        k = self._reshape_heads(k)
-        v = self._reshape_heads(v)
-        beta = rearrange(beta, "b s h -> (b s) h").unsqueeze(0)
-
-        # need to install nightly triton for this to work on H100, see https://github.com/fla-org/flash-linear-attention/blob/main/FAQs.md
-        # cu_seqlens requires batch ssize to be 1, i.e. flattened bacthes
-        attn_out, _ = chunk_kda(
+        out, _ = chunk_kda(
             q=q,
             k=k,
             v=v,
             g=g_kernel,
-            beta=beta,
+            beta=torch.sigmoid(self.beta_proj(input_).float()).unsqueeze(0),
             initial_state=None,
             output_final_state=False,
             use_qk_l2norm_in_kernel=True,
             cu_seqlens=kwargs[MixerKwargs.cu_seqlens_q],
         )
+        out = out.to(input_.dtype).squeeze(0)
 
-        attn_out = attn_out.to(residual_dtype)
-
-        g_out = self.g_b_proj(self.g_a_proj(hidden_states))  # bs x seq x n_local_heads x head dim
-        g_out = self._reshape_heads(g_out)
-
-        attn_out = rearrange(attn_out.squeeze(0), "(b s) h d -> b s h d", b=batch_size, s=sequence_length)
-        attn_out = self.norm(attn_out, g_out)
-        attn_out = rearrange(attn_out, "b s h d -> b s (h d)")
-        attn_out = self.o_proj(attn_out)
-
-        return attn_out
+        g_out = self.g_b_proj(self.g_a_proj(input_))
+        out = self.norm(out, g_out.view_as(out))
+        return self.o_proj(out.flatten(-2))
 
     def get_compute_usage(self, input_: TensorMeta, kwargs: dict[str, typing.Any], config: ResourceUsageConfig) -> int:
         raise NotImplementedError()
diff --git a/fast_llm/layers/ssm/mamba.py b/fast_llm/layers/ssm/mamba.py
index fd6255e6c..8a7ae2805 100644
--- a/fast_llm/layers/ssm/mamba.py
+++ b/fast_llm/layers/ssm/mamba.py
@@ -167,7 +167,7 @@ def _forward(
         assert _mamba_available
 
         sequence_length = kwargs[BlockKwargs.sequence_q_dim].size
-        token_shape = (kwargs[BlockKwargs.batch_dim].size, kwargs[BlockKwargs.sequence_q_dim].size)
+        token_shape = (div(input_.size(0), sequence_length), sequence_length)
         # inner_projection : (local_tokens, hidden) -> (batch, sequence, local_inner_projection)
         inner_projection = self.in_proj(input_).unflatten(0, token_shape)
         dt = self.dt_proj(self.dt_in_proj(input_)).unflatten(0, token_shape)
@@ -184,7 +184,9 @@ def _forward(
         # x: (batch, sequence, local_head_groups * state) -> (batch, local_heads * state, sequence)
         x = x.transpose(1, 2)
         convolution_kwargs = (
-            {} if self._config.cross_document_attention else {"seq_idx": kwargs[MixerKwargs.seq_idx].unsqueeze(0)}
+            {}
+            if self._config.cross_document_attention
+            else {"seq_idx": kwargs[MixerKwargs.document_index_q].unsqueeze(0)}
         )
         if self._config.repeat_kv_before_conv:
             x = self.convolution(
diff --git a/fast_llm/models/gpt/model.py b/fast_llm/models/gpt/model.py
index 698f624ed..7a6f7ffac 100644
--- a/fast_llm/models/gpt/model.py
+++ b/fast_llm/models/gpt/model.py
@@ -80,7 +80,7 @@ def preprocess_meta(
         )
         # The token dimension as appears in hidden states, i.e. with possible sequence-tensor-parallel split.
         hidden_token_dim = (
-            (
+            TensorDim(
                 "token_tp",
                 token_dim.global_size,
                 self._distributed_config.get_distributed_dim(DistributedDimNames.tensor_and_data),
@@ -194,7 +194,7 @@ def preprocess_batch(
                 AttentionKwargs.past_key_values: pasts,
                 AttentionKwargs.presents: presents,
                 BlockKwargs.iteration: iteration,
-                AttentionKwargs.sequence_lengths: cropped_tokens.lengths,
+                AttentionKwargs.lengths: cropped_tokens.lengths,
                 AttentionKwargs.device: self._distributed.device,
                 BlockKwargs.output_hidden_states: [],
                 BlockKwargs.hidden_states: {},
diff --git a/fast_llm/models/multimodal/model.py b/fast_llm/models/multimodal/model.py
index e90bd4d89..dab9c8027 100644
--- a/fast_llm/models/multimodal/model.py
+++ b/fast_llm/models/multimodal/model.py
@@ -185,7 +185,7 @@ def preprocess_batch(
         kwargs[self._vision_encoder_namespace] = {
             **kwargs[self._vision_encoder_namespace],
             VisionKwargs.patch_positions: positions,
-            VisionKwargs.sequence_lengths: [cropped_image_patches.lengths + [pad_size]],
+            VisionKwargs.lengths: [cropped_image_patches.lengths + [pad_size]],
             VisionKwargs.sequence_length: sequence_length,
             VisionKwargs.device: self._distributed.device,
             VisionKwargs.output_hidden_states: kwargs.get(VisionKwargs.output_hidden_states, []),
diff --git a/tests/layers/test_attention.py b/tests/layers/test_attention.py
index 924c2cc7f..e71441015 100644
--- a/tests/layers/test_attention.py
+++ b/tests/layers/test_attention.py
@@ -35,7 +35,7 @@ def test_attention_implementations(cross_document_attention: bool, causal: bool,
     kwargs = {
         AttentionKwargs.device: device,
         AttentionKwargs.sequence_length: 100,
-        AttentionKwargs.sequence_lengths: [
+        AttentionKwargs.lengths: [
             [20, 32, 10, 11, 9, 18],
             [100],
             [2, 8, 22, 7, 6, 5, 1, 10, 4, 11, 3, 8, 4, 9],
diff --git a/tests/layers/test_ssm.py b/tests/layers/test_ssm.py
index d096b4af3..c281de0d3 100644
--- a/tests/layers/test_ssm.py
+++ b/tests/layers/test_ssm.py
@@ -18,13 +18,16 @@
         Apriel2GatedDeltaNet,
         Apriel2Mamba,
         KimiDeltaAttention,
+        is_fast_path_available,
     )
 except ImportError:
     Apriel2GatedDeltaNet = None
     Apriel2Mamba = None
+    is_fast_path_available = False
 
 HIDDEN_SIZE = 16
-SEQ_LEN = 65
+SEQUENCE_LENGTH = 65
+BATCH_SIZE = 2
 
 
 def _compare_mixers(
@@ -53,8 +56,8 @@ def _compare_mixers(
         Assert.rms_close_relative(fast_param, hf_param.view_as(fast_param), threshold, 1e-5, msg=name)
 
     hidden_states = torch.randn(
-        2,
-        SEQ_LEN,
+        BATCH_SIZE,
+        SEQUENCE_LENGTH,
         HIDDEN_SIZE,
         device=distributed.device,
         dtype=distributed_config.compute_dtype.torch,
@@ -66,37 +69,31 @@ def _compare_mixers(
     if isinstance(hf_out, tuple):
         (hf_out,) = hf_out
 
-    sequence_lengths = [[SEQ_LEN] for _ in range(hidden_states.size(0))]
+    sequence_lengths = [[SEQUENCE_LENGTH] for _ in range(hidden_states.size(0))]
     fast_kwargs = {
         BlockKwargs.device: distributed.device,
-        BlockKwargs.sequence_lengths: sequence_lengths,
-        BlockKwargs.sequence_q_dim: TensorDim("", SEQ_LEN),
-        BlockKwargs.sequence_k_dim: TensorDim("", SEQ_LEN),
+        BlockKwargs.lengths: sequence_lengths,
+        BlockKwargs.sequence_q_dim: TensorDim("", SEQUENCE_LENGTH),
+        BlockKwargs.sequence_k_dim: TensorDim("", SEQUENCE_LENGTH),
     }
     fast_llm_layer.train()
     fast_llm_layer.preprocess(fast_kwargs)
-    fast_out = fast_llm_layer(hidden_states, fast_kwargs)
+    fast_out = fast_llm_layer(hidden_states.flatten(0, 1), fast_kwargs).view_as(hidden_states)
 
     Assert.rms_close_relative(fast_out, hf_out, threshold, 1e-5)
 
 
 @pytest.mark.slow
 # Arguments ('seq_idx',) not implemented for torch implementation of 1d convolution.
-@pytest.mark.skipif(not transformers.utils.import_utils.is_causal_conv1d_available(), reason="GDN deps missing")
+@pytest.mark.skipif(not is_fast_path_available, reason="GDN deps missing")
 def test_gdn(testing_device):
     dtype = torch.bfloat16
-
-    NUM_V_HEADS = 4
-    NUM_K_HEADS = 2
-    HEAD_DIM = 4
-    KERNEL_SIZE = 4
-
     config_common = {
-        "value_heads": NUM_V_HEADS,
-        "key_heads": NUM_K_HEADS,
-        "key_head_dim": HEAD_DIM,
-        "value_head_dim": HEAD_DIM,
-        "convolution_layer": {"kernel_size": KERNEL_SIZE, "activation": "silu"},
+        "value_heads": 4,
+        "key_heads": 2,
+        "key_head_dim": 4,
+        "value_head_dim": 4,
+        "convolution_layer": {"kernel_size": 4, "activation": "silu"},
     }
 
     hf_layer = (
@@ -111,14 +108,10 @@ def test_gdn(testing_device):
 @pytest.mark.slow
 @pytest.mark.skipif(not _kda_available, reason="KDA fused kernels not available")
 def test_kda():
-    NUM_HEADS = 4
-    HEAD_DIM = 4
-    KERNEL_SIZE = 4
-
     kda_config = {
-        "heads": NUM_HEADS,
-        "head_dim": HEAD_DIM,
-        "convolution_layer": {"kernel_size": KERNEL_SIZE, "activation": "silu"},
+        "heads": 4,
+        "head_dim": 4,
+        "convolution_layer": {"kernel_size": 4, "activation": "silu"},
         "normalization": {"epsilon": 1e-5, "activation": "sigmoid"},
     }
 
@@ -130,21 +123,17 @@ def test_kda():
 
 
 @pytest.mark.slow
+@pytest.mark.skip("Mamba is broken")
 @pytest.mark.parametrize("add_linear_biases", [True, False])
 @pytest.mark.parametrize("repeat_kv_before_conv", [True, False])
 @pytest.mark.skipif(not transformers.utils.import_utils.is_mamba_ssm_available(), reason="Mamba not available")
 def test_mamba(add_linear_biases, repeat_kv_before_conv):
-    D_INNER = 128
-    D_XB = 64
-    D_STATE = 16
-    D_CONV = 4
-    DT_RANK = 4
 
     config_common = {
-        "d_inner": D_INNER,
-        "d_xb": D_XB,
-        "state_size": D_STATE,
-        "dt_rank": DT_RANK,
+        "d_inner": 128,
+        "d_xb": 64,
+        "state_size": 16,
+        "dt_rank": 4,
         "repeat_kv_before_conv": repeat_kv_before_conv,
         "add_linear_biases": add_linear_biases,
     }
@@ -152,13 +141,13 @@ def test_mamba(add_linear_biases, repeat_kv_before_conv):
     mamba_config = {
         "conv_bias": add_linear_biases,
         "dt_proj_bias": add_linear_biases,
-        **config_common,
+        "d_conv": 4**config_common,
     }
     hf_layer = Apriel2Mamba(HIDDEN_SIZE, mamba_config, layer_idx=0)
 
     # Create Fast-LLM Mamba layer
     fast_llm_config = MambaConfig(
-        convolution_layer={"kernel_size": D_CONV},
+        convolution_layer={"kernel_size": 4},
         **config_common,
     )
 
diff --git a/tests/layers/test_varlen.py b/tests/layers/test_varlen.py
index d31cffa50..350259375 100644
--- a/tests/layers/test_varlen.py
+++ b/tests/layers/test_varlen.py
@@ -71,7 +71,7 @@ def test_mixer_varlen_stacking_equivalence(config: MixerConfig):
 
     kwargs_packed = {
         **kwargs,
-        BlockKwargs.sequence_lengths: sequence_lengths,
+        BlockKwargs.lengths: sequence_lengths,
         BlockKwargs.sequence_length: seq_len,
         BlockKwargs.batch_dim: TensorDim("", batch_size),
         BlockKwargs.sequence_q_dim: TensorDim("", seq_len),
@@ -93,7 +93,7 @@ def test_mixer_varlen_stacking_equivalence(config: MixerConfig):
             seq_len_ = len(seq)
             kwargs_seq = {
                 **kwargs,
-                BlockKwargs.sequence_lengths: [[seq_len_]],
+                BlockKwargs.lengths: [[seq_len_]],
                 BlockKwargs.sequence_length: seq_len_,
                 BlockKwargs.batch_dim: TensorDim("", 1),
                 BlockKwargs.sequence_q_dim: TensorDim("", seq_len_),

From f3974bb5583ff4ef9ee9f123ac11e471608eb285 Mon Sep 17 00:00:00 2001
From: Joel Lamy-Poirier <joel.lamy-poirier@servicenow.com>
Date: Mon, 9 Mar 2026 08:48:03 -0400
Subject: [PATCH 31/37] fixes

---
 fast_llm/data/document/abstract.py            |  5 +-
 fast_llm/layers/common/linear/convolution.py  |  3 +-
 fast_llm/layers/language_model/loss/loss.py   |  1 +
 .../language_model/multi_token_prediction.py  |  7 ++-
 fast_llm/layers/ssm/gdn.py                    | 16 ------
 fast_llm/models/gpt/conversion/llama.py       | 12 +++--
 fast_llm/models/gpt/conversion/mtp_llama.py   | 19 ++++---
 fast_llm/models/gpt/huggingface.py            | 15 ++++--
 fast_llm/models/gpt/model.py                  |  7 +--
 .../models/multimodal/conversion/llava.py     |  8 +--
 fast_llm/models/multimodal/huggingface.py     | 28 +++++++++++
 tests/models/test_checkpoint.py               | 49 +++++++++++++++----
 tests/{ => models}/test_multi_stage.py        |  6 ++-
 tests/utils/model_configs.py                  |  2 +-
 14 files changed, 122 insertions(+), 56 deletions(-)
 rename tests/{ => models}/test_multi_stage.py (92%)

diff --git a/fast_llm/data/document/abstract.py b/fast_llm/data/document/abstract.py
index efae47685..fa9a0726d 100644
--- a/fast_llm/data/document/abstract.py
+++ b/fast_llm/data/document/abstract.py
@@ -18,9 +18,6 @@ def to_device_(self, device: "torch.device") -> typing.Self:
         import torch
 
         for field in dataclasses.fields(self):
-            print(
-                field.name, isinstance(value := getattr(self, field.name), torch.Tensor), isinstance(value, Document)
-            )
             if isinstance(value := getattr(self, field.name), torch.Tensor):
                 setattr(self, field.name, value.to(device))
             elif isinstance(value, Document):
@@ -36,7 +33,7 @@ class ModelInput(Document):
     # referred by name or regex pattern.
     # Tensor names are generally of the form `{module_name}.{tensor_name}`.
     # This field is typically populated downstream, depending on the task.
-    output_hidden_states: set[str] = dataclasses.field(default_factory=list)
+    output_hidden_states: set[str] = dataclasses.field(default_factory=set)
     # The model will populate this with the hidden states specified by `output_hidden_states`,
     # together with the metadata necessary to reconstruct the global tensor.
     hidden_states: "dict[str, tuple[TensorMeta, torch.Tensor]]" = dataclasses.field(default_factory=dict)
diff --git a/fast_llm/layers/common/linear/convolution.py b/fast_llm/layers/common/linear/convolution.py
index 9168284ed..1c23d6d8a 100644
--- a/fast_llm/layers/common/linear/convolution.py
+++ b/fast_llm/layers/common/linear/convolution.py
@@ -40,7 +40,6 @@ def _forward_torch(
         if document_index is not None and lengths is None:
             raise ValueError("Torch implementation of CausalConv1d requires lengths.")
         if lengths is not None:
-            print("AAA", input_.shape, lengths, sum(lengths))
             return torch.cat([self._forward_torch(x) for x in input_.split(lengths, dim=-1)], dim=-1)
         return self._activation.activation_fn(
             torch.nn.functional.conv1d(
@@ -49,7 +48,7 @@ def _forward_torch(
                 bias=self.bias,
                 groups=self.weight.size(0),
                 padding=self.weight.size(2) - 1,
-            )[..., : input_.size(1)]
+            )[..., : input_.size(-1)]
         )
 
     def _forward_causal_conv1d(
diff --git a/fast_llm/layers/language_model/loss/loss.py b/fast_llm/layers/language_model/loss/loss.py
index e52bc85c5..ae5a366d5 100644
--- a/fast_llm/layers/language_model/loss/loss.py
+++ b/fast_llm/layers/language_model/loss/loss.py
@@ -90,6 +90,7 @@ def _get_grad_output(self, kwargs: dict[str, typing.Any]) -> float | None:
         return grad_output
 
     def _get_labels(self, kwargs: dict[str, typing.Any], split_index: int = 0):
+        print("QQQQQQQ", len(kwargs[LanguageModelLossKwargs.labels]), self._prediction_distance - 1)
         return self._prepare_target(
             kwargs[LanguageModelLossKwargs.labels][self._prediction_distance - 1], kwargs, split_index
         )
diff --git a/fast_llm/layers/language_model/multi_token_prediction.py b/fast_llm/layers/language_model/multi_token_prediction.py
index 132ebefb0..c7be11b70 100644
--- a/fast_llm/layers/language_model/multi_token_prediction.py
+++ b/fast_llm/layers/language_model/multi_token_prediction.py
@@ -12,6 +12,7 @@
 from fast_llm.layers.decoder.config import DecoderBlockConfig
 from fast_llm.layers.language_model.config import LanguageModelEmbeddingsConfig, LanguageModelHeadConfig
 from fast_llm.layers.language_model.head import LanguageModelHead
+from fast_llm.utils import safe_merge_dicts
 
 
 class MultiTokenPrediction[ConfigType: LanguageModelHeadConfig](BlockBase[ConfigType]):
@@ -88,7 +89,11 @@ def get_output_weights(self) -> list[torch.Tensor]:
         return sum((head.get_output_weights() for head in self.heads), [])
 
     def get_preprocessing_config(self) -> dict[str, typing.Any]:
-        return self._layers_with_namespace[0].get_preprocessing_config() if self._enabled else {}
+
+        return safe_merge_dicts(
+            {"predicted_tokens": self._config.prediction_heads},
+            self._layers_with_namespace[0].get_preprocessing_config() if self._enabled else {},
+        )
 
     def preprocess(self, kwargs: dict[str, typing.Any]) -> None:
         if self._enabled:
diff --git a/fast_llm/layers/ssm/gdn.py b/fast_llm/layers/ssm/gdn.py
index 42bf861e6..4498e8252 100644
--- a/fast_llm/layers/ssm/gdn.py
+++ b/fast_llm/layers/ssm/gdn.py
@@ -165,15 +165,6 @@ def __init__(
 
         z_dim = CompositeTensorDim("gdn_z", (self._value_heads_dim, self._value_head_dim))
         qkvz_dim = ConcatenatedTensorDim("gdn_qkvz", (query_dim, key_dim, value_dim, z_dim))
-        # for Qwen's layour use soemthing like this instead:
-        # n_vheads_per_k_head = self._config.value_heads // self._config.key_heads
-        # head_size = 2 * self._config.key_head_dim + 2 * self._config.value_head_dim * n_vheads_per_k_head
-        # n_heads = self._config.key_heads
-        # qkvz_dim = TensorDim(e
-        #     "gdn_qkvz",
-        #     n_heads * head_size,
-        #     self._parallel_dim if n_heads > 1 else None,
-        # )
         ba_dim = ConcatenatedTensorDim(
             "gdn_ba",
             (
@@ -181,13 +172,6 @@ def __init__(
                 CompositeTensorDim("gdn_alpha", (self._value_heads_dim,)),
             ),
         )
-        # for Qwen's layour use something like this instead:
-        # ba_dim = TensorDim(
-        #     "gdn_ba",
-        #     2 * self._config.value_heads,
-        #     self._parallel_dim if 2 * self._config.value_heads > 1 else None,
-        # )
-
         qkv_channels_dim = ConcatenatedTensorDim("gdn_qkv", (query_dim, key_dim, value_dim))
 
         self.in_proj_qkvz = self._config.qkv_projection_layer.get_layer(
diff --git a/fast_llm/models/gpt/conversion/llama.py b/fast_llm/models/gpt/conversion/llama.py
index 983df9869..38dc38586 100644
--- a/fast_llm/models/gpt/conversion/llama.py
+++ b/fast_llm/models/gpt/conversion/llama.py
@@ -19,7 +19,11 @@
 from fast_llm.layers.common.normalization.config import RMSNormalizationConfig
 from fast_llm.layers.decoder.config import DecoderBlockConfig
 from fast_llm.layers.decoder.mlp.config import MLPConfig
-from fast_llm.layers.language_model.config import LanguageModelEmbeddingsConfig, LanguageModelHeadConfig
+from fast_llm.layers.language_model.config import (
+    LanguageModelConfig,
+    LanguageModelEmbeddingsConfig,
+    LanguageModelHeadConfig,
+)
 from fast_llm.models.gpt.config import GPTBaseModelConfig, GPTModelConfig
 from fast_llm.models.gpt.conversion.config import LlamaCheckpointFormat
 from fast_llm.models.gpt.model import GPTModel
@@ -486,12 +490,12 @@ def export_config(cls, config: LanguageModelHeadConfig) -> dict:
     @classmethod
     def get_converters(
         cls,
-        config: LanguageModelHeadConfig,
+        config: LanguageModelConfig,
         exported_config: dict,
     ) -> list[WeightConverter]:
         return [
             *cls.normalization_converter_class.get_converters(
-                config.normalization,
+                config.head.normalization,
                 f"head.final_norm",
                 f"model.norm",
             ),
@@ -538,7 +542,7 @@ def get_converters(cls, config: GPTBaseModelConfig, exported_config: dict) -> li
         return [
             *cls.embeddings_converter_class.get_converters(config.embeddings, "embeddings", "model"),
             *cls.decoder_converter_class.get_converters(config.decoder, "decoder", "model.layers"),
-            *cls.head_converter_class.get_converters(config.head, exported_config),
+            *cls.head_converter_class.get_converters(config, exported_config),
         ]
 
 
diff --git a/fast_llm/models/gpt/conversion/mtp_llama.py b/fast_llm/models/gpt/conversion/mtp_llama.py
index 05b6e4bbe..5ce91fbac 100644
--- a/fast_llm/models/gpt/conversion/mtp_llama.py
+++ b/fast_llm/models/gpt/conversion/mtp_llama.py
@@ -5,7 +5,7 @@
 from fast_llm.engine.checkpoint.config import CheckpointFormat
 from fast_llm.engine.checkpoint.external import WeightConverter
 from fast_llm.layers.block.config import FixedBlockSequenceConfig
-from fast_llm.layers.language_model.config import LanguageModelHeadConfig
+from fast_llm.layers.language_model.config import LanguageModelConfig, LanguageModelHeadConfig
 from fast_llm.models.gpt.config import GPTModelConfig
 from fast_llm.models.gpt.conversion.config import MTPLlamaCheckpointFormat
 from fast_llm.models.gpt.conversion.llama import (
@@ -35,17 +35,22 @@ def export_config(cls, config: LanguageModelHeadConfig) -> dict:
     @classmethod
     def get_converters(
         cls,
-        config: LanguageModelHeadConfig,
+        config: LanguageModelConfig,
         exported_config: dict,
     ) -> list[WeightConverter]:
-        return super().get_converters(config, exported_config) + [
-            cls.normalization_converter_class.get_converters(
+        converters = super().get_converters(config, exported_config)
+        for prediction_distance in range(2, config.head.prediction_heads + 1):
+            converters += cls.block_converter_class.get_converters(
+                config.decoder.last_block_config,
+                f"multi_token_prediction.blocks.{prediction_distance-2}",
+                f"model.mtp_heads.{prediction_distance - 1}",
+            )
+            converters += cls.normalization_converter_class.get_converters(
                 config.head.normalization,
                 f"multi_token_prediction.heads.{prediction_distance - 2}.final_norm",
-                f"model.mtp_norms.{prediction_distance-1}",
+                f"model.mtp_norms.{prediction_distance - 1}",
             )
-            for prediction_distance in range(2, config.prediction_heads + 1)
-        ]
+        return converters
 
 
 class MTPLlamaDecoderConverter(LlamaDecoderConverter):
diff --git a/fast_llm/models/gpt/huggingface.py b/fast_llm/models/gpt/huggingface.py
index f843f9258..def664d66 100644
--- a/fast_llm/models/gpt/huggingface.py
+++ b/fast_llm/models/gpt/huggingface.py
@@ -1,3 +1,4 @@
+import functools
 import logging
 import random
 import re
@@ -149,15 +150,17 @@ def _get_input(
         use_cache: bool | None = None,
         output_hidden_states: bool | None = None,
     ) -> LanguageModelInput:
-        (model_input,) = batch.get_model_inputs(self._fast_llm_model.get_preprocessing_config(PhaseType.inference))
+        (model_input,) = batch.get_model_inputs(self.preprocessing_config)
 
         if output_hidden_states:
             if isinstance(output_hidden_states, bool):
                 # Hugging Face expect the last layer to include the final norm.
                 # Note: We can't index `decoder` with slice because it tries to create a new block sequence instance.
-                output_hidden_states = [layer.module_name + "$" for layer in self.fast_llm_base_model.decoder][:-1] + [
-                    self.fast_llm_base_model.head.heads[0].final_norm.module_name + "$"
-                ]
+                output_hidden_states = (
+                    [self.fast_llm_base_model.embeddings.module_name + "$"]
+                    + [layer.module_name + "$" for layer in self.fast_llm_base_model.decoder][:-1]
+                    + [self.fast_llm_base_model.head.final_norm.module_name + "$"]
+                )
 
             # This needs to be set before preprocessing so it propagates to layers with namespace.
             # kwargs is shallow-copied so changes will propagate back to the main namespace.
@@ -175,3 +178,7 @@ def _get_input(
         # Propagate to sub-configs if needed.
         model_input.set_children_attributes()
         return model_input
+
+    @functools.cached_property
+    def preprocessing_config(self):
+        return self._fast_llm_model.get_preprocessing_config(PhaseType.inference)
diff --git a/fast_llm/models/gpt/model.py b/fast_llm/models/gpt/model.py
index 2ebc7e0cd..ab2f7fed0 100644
--- a/fast_llm/models/gpt/model.py
+++ b/fast_llm/models/gpt/model.py
@@ -69,14 +69,14 @@ def preprocess_batch(
                 Assert.empty(kwargs.keys() & extra_kwargs.keys())
                 kwargs.update(extra_kwargs)
             if phase == PhaseType.inference:
-                kwargs[BlockKwargs.output_hidden_states].append(re.compile(r"head\..*logits.*$"))
+                kwargs[BlockKwargs.output_hidden_states].add(re.compile(r"head\..*logits.*$"))
 
             if not model_input.is_meta:
                 for name, reference_model in self._reference_models.items():
                     reference_tokens, reference_kwargs = reference_preprocessed_batches[name][input_index]
                     if name in self._decoder_reference_models:
                         # TODO: Get the actual names
-                        reference_kwargs[BlockKwargs.output_hidden_states].append(
+                        reference_kwargs[BlockKwargs.output_hidden_states].add(
                             re.compile(r"decoder\.\d+\.mixer_output$")
                         )
 
@@ -93,9 +93,10 @@ def preprocess_batch(
 
     def get_tied_parameters(self) -> dict[str, tuple[ParameterMeta, tuple[int, ...]]]:
         # TODO: Integrate to the `LayerBase` interface, move to `LanguageModel`, `MultiTokenPrediction`?
-        output_weights = self.head.get_output_weights()
+        output_weights = self.head.get_output_weights() + self.multi_token_prediction.get_output_weights()
         if self._config.tied_embedding_weight:
             output_weights.insert(0, self.embeddings.word_embeddings_weight)
+        # print("WWWWWWWWW", [x.tensor_name for x in output_weights], self.multi_token_prediction.get_output_weights())
         return {output_weights[0].tensor_name: output_weights} if len(output_weights) > 1 else {}
 
     @functools.cached_property
diff --git a/fast_llm/models/multimodal/conversion/llava.py b/fast_llm/models/multimodal/conversion/llava.py
index 8af22e065..468fdbff5 100644
--- a/fast_llm/models/multimodal/conversion/llava.py
+++ b/fast_llm/models/multimodal/conversion/llava.py
@@ -11,7 +11,7 @@
 from fast_llm.layers.attention.rotary.config import Rotary2DConfig
 from fast_llm.layers.common.normalization.config import RMSNormalizationConfig
 from fast_llm.layers.decoder.mlp.config import MLPConfig
-from fast_llm.layers.language_model.config import LanguageModelHeadConfig
+from fast_llm.layers.language_model.config import LanguageModelConfig
 from fast_llm.layers.vision.config import PatchEmbeddingsConfig, VisionEncoderConfig
 from fast_llm.models.gpt.conversion.llama import (
     LlamaAttentionConverter,
@@ -254,12 +254,12 @@ class LlavaHeadConverter(MistralHeadConverter):
     @classmethod
     def get_converters(
         cls,
-        config: LanguageModelHeadConfig,
+        config: LanguageModelConfig,
         exported_config: dict,
     ) -> list[WeightConverter]:
         return [
             *cls.normalization_converter_class.get_converters(
-                config.normalization,
+                config.head.normalization,
                 f"head.final_norm",
                 f"language_model.model.norm",
             ),
@@ -317,7 +317,7 @@ def get_converters(cls, config: MultiModalBaseModelConfig, exported_config: dict
                 config.decoder, "decoder", "language_model.model.layers"
             ),
             *cls.language_model_converter_class.head_converter_class.get_converters(
-                config.head, {"tie_word_embeddings": False}
+                config, {"tie_word_embeddings": False}
             ),
         ]
 
diff --git a/fast_llm/models/multimodal/huggingface.py b/fast_llm/models/multimodal/huggingface.py
index cd9ce3404..8bf14d715 100644
--- a/fast_llm/models/multimodal/huggingface.py
+++ b/fast_llm/models/multimodal/huggingface.py
@@ -1,11 +1,15 @@
+import functools
 import logging
+import re
 import typing
 
 import torch
 import transformers.modeling_outputs
 
+from fast_llm.data.document.language_model import LanguageModelBatch, LanguageModelInput
 from fast_llm.data.document.patch import PatchBatch
 from fast_llm.data.preparation.image_patch import ImagePreparationConfig
+from fast_llm.engine.distributed.config import PhaseType
 from fast_llm.engine.schedule.runner import ScheduleRunner
 from fast_llm.models.gpt.huggingface import HuggingfaceGPTModelConfig, HuggingfaceGPTModelForCausalLM
 from fast_llm.models.multimodal.config import MultiModalModelConfig
@@ -108,3 +112,27 @@ def _get_batch(
         ).to_device_(input_ids.device)
 
         return batch
+
+    def _get_input(
+        self,
+        batch: LanguageModelBatch,
+        past_key_values=None,
+        use_cache: bool | None = None,
+        output_hidden_states: bool | None = None,
+    ) -> LanguageModelInput:
+        model_input = super()._get_input(batch, past_key_values, use_cache, output_hidden_states)
+        if output_hidden_states and isinstance(output_hidden_states, bool):
+            model_input.output_hidden_states.update(
+                re.compile(pattern)
+                for pattern in (
+                    self.fast_llm_base_model.vision_encoder.embeddings.module_name + "$",
+                    *(layer.module_name + "$" for layer in self.fast_llm_base_model.vision_encoder.encoder),
+                    self.fast_llm_base_model.vision_encoder.adapter.module_name + "$",
+                )
+            )
+        return model_input
+
+    @functools.cached_property
+    def preprocessing_config(self):
+        preprocessing_config = self._fast_llm_model.get_preprocessing_config(PhaseType.inference)
+        return preprocessing_config.from_dict(preprocessing_config, {("vision_encoder", "normalization"): None})
diff --git a/tests/models/test_checkpoint.py b/tests/models/test_checkpoint.py
index dbc53f0b8..558e1b106 100644
--- a/tests/models/test_checkpoint.py
+++ b/tests/models/test_checkpoint.py
@@ -332,7 +332,7 @@ def test_huggingface_model(model_testing_config, get_convert_path, testing_devic
         dtype=torch.int64,
         device=testing_device,
     )
-    kwargs = {}
+    kwargs = {"output_hidden_states": True}
     if model_testing_config.model_type == "multimodal":
         kwargs["pixel_values"] = torch.rand([6, 3, 20, 20]).to(testing_device)
         kwargs["image_sizes"] = torch.tensor(
@@ -360,6 +360,8 @@ def test_huggingface_model(model_testing_config, get_convert_path, testing_devic
         # Last one cropped out.
 
     output_ref = model_ref(test_input, **kwargs)
+    hidden_states_ref = output_ref.hidden_states
+    hidden_states_ref["logits"] = output_ref.logits
     model_from_fast_llm = hf_class.from_pretrained(fast_llm_path, distributed_update).eval()
     model_from_hf = hf_class.from_pretrained(
         CheckpointLoadConfig(
@@ -375,20 +377,49 @@ def test_huggingface_model(model_testing_config, get_convert_path, testing_devic
         .to(testing_device)
         .eval()
     )
+    config = CompareConfig()
     for name, model in zip(
         ("From state dict", "From Huggingface", "Native Huggingface"),
         (model_from_fast_llm, model_from_hf, model_as_hf),
     ):
         print(name)
         output = model(test_input, **kwargs)
-        # TODO: Make a generic comparison util.
-        CompareConfig().compare_tensors(
-            {"samples": output_ref.logits, "shape": output_ref.logits.shape, "step": 0},
-            {"samples": output.logits, "shape": output.logits.shape, "step": 0},
-            errors,
-            name,
-            "logits",
-        )
+        hidden_states_ref_ = hidden_states_ref
+        if model is model_as_hf:
+            hidden_states = output.hidden_states + (output.logits,)
+            if model_testing_config.model_type == "multimodal":
+                # Llava doesn't allow returning the vision hidden states, so we run the vision model directly instead.
+                vision_output = model_as_hf.vision_tower(
+                    pixel_values=kwargs["pixel_values"], image_sizes=kwargs["image_sizes"], output_hidden_states=True
+                )
+                adapter_output = model_as_hf.multi_modal_projector(vision_output.hidden_states[-1])
+                vision_hidden_states = vision_output.hidden_states + (adapter_output,)
+                hidden_states = vision_hidden_states + hidden_states
+                hidden_states_ref_ = hidden_states_ref.copy()
+                # Adjust the vision hidden states
+                # TODO: ====== Do in HF wrapper ======
+                for name, hidden_state in hidden_states_ref.items():
+                    if name.startswith("vision_encoder"):
+                        hidden_states_ref_[name] = hidden_state.flatten(0, 1)[:46].unsqueeze(0)
+
+            hidden_states = {
+                name: hidden_state for name, hidden_state in zip(hidden_states_ref, hidden_states, strict=True)
+            }
+        else:
+            hidden_states = output.hidden_states
+            hidden_states["logits"] = output.logits
+
+        Assert.eq(hidden_states_ref_.keys(), hidden_states.keys())
+
+        for tensor_name, hidden_state_ref in hidden_states_ref_.items():
+            hidden_state = hidden_states[tensor_name]
+            config.compare_tensors(
+                {"samples": hidden_state_ref, "shape": hidden_state_ref.shape, "step": 0},
+                {"samples": hidden_state, "shape": hidden_state.shape, "step": 0},
+                errors,
+                name,
+                tensor_name,
+            )
 
     if errors:
         for error in errors:
diff --git a/tests/test_multi_stage.py b/tests/models/test_multi_stage.py
similarity index 92%
rename from tests/test_multi_stage.py
rename to tests/models/test_multi_stage.py
index 2f476ae52..92e2c6281 100644
--- a/tests/test_multi_stage.py
+++ b/tests/models/test_multi_stage.py
@@ -38,7 +38,11 @@ def test_frozen_weights(model_testing_config):
         model_frozen._num_stages,
     )
     frozen_parameter_counts = [
-        sum(p.numel() for p in layer.unwrap().mlp.parameters()) if layer.module_name.startswith("decoder") else 0
+        (
+            sum(p.numel() for p in layer.unwrap().mlp.parameters())
+            if layer.module_name.startswith("decoder") or layer.module_name.startswith("multi_token_prediction.block")
+            else 0
+        )
         for layer in model_ref.base_model.get_layers()
     ]
 
diff --git a/tests/utils/model_configs.py b/tests/utils/model_configs.py
index f42ca5efe..314bbf5a0 100644
--- a/tests/utils/model_configs.py
+++ b/tests/utils/model_configs.py
@@ -469,7 +469,7 @@ def update_and_add_testing_config(
     "mtp_llama",
     updates={
         ("model", "base_model", "decoder", "num_blocks"): 1,
-        ("model", "base_model", "head", "prediction_heads"): 1,
+        ("model", "base_model", "head", "prediction_heads"): 2,
     },
     # Megatron doesn't support multi-token prediction.
     megatron_args=None,

From b3eb88da71db6f59c6ab88ae4040c52267700934 Mon Sep 17 00:00:00 2001
From: Joel Lamy-Poirier <joel.lamy-poirier@servicenow.com>
Date: Tue, 10 Mar 2026 12:19:52 -0400
Subject: [PATCH 32/37] fixes

---
 fast_llm/data/document/block.py             | 10 ++--
 fast_llm/engine/distributed/config.py       |  6 +++
 fast_llm/engine/distributed/distributed.py  | 10 ++--
 fast_llm/engine/multi_stage/stage_base.py   | 12 +++--
 fast_llm/functional/triton/rotary.py        | 19 ++++---
 fast_llm/layers/attention/attention.py      | 11 ++--
 fast_llm/layers/attention/config.py         |  3 +-
 fast_llm/layers/attention/rotary/rotary.py  | 42 ++++++++-------
 fast_llm/layers/language_model/loss/loss.py |  1 -
 fast_llm/models/gpt/model.py                |  1 -
 tests/functional/test_triton_kernels.py     |  4 +-
 tests/layers/test_rotary.py                 |  8 ++-
 tests/utils/distributed_configs.py          | 30 ++++++-----
 tests/utils/model_configs.py                | 58 +++++++++------------
 14 files changed, 117 insertions(+), 98 deletions(-)

diff --git a/fast_llm/data/document/block.py b/fast_llm/data/document/block.py
index dbdaad767..af136de09 100644
--- a/fast_llm/data/document/block.py
+++ b/fast_llm/data/document/block.py
@@ -62,17 +62,17 @@ def preprocess(self, model_input: BlockModelInput, config: LengthPreprocessingCo
         model_input.lengths = self.lengths
         model_input.unpadded_length = self.unpadded_length
         model_input.sequence_length = self.sequence_length
-        sequence_data_dim = config.distributed.get_distributed_dim(DistributedDimNames.sequence_data)
+        data_dim = config.distributed.get_distributed_dim(DistributedDimNames.data)
         model_input.token_dim = TensorDim(
             "token",
-            self.length * sequence_data_dim.size,
-            sequence_data_dim,
+            self.length * data_dim.size,
+            data_dim,
         )
         model_input.hidden_token_dim = (
             TensorDim(
                 "token_tp",
-                self.length * sequence_data_dim.size,
-                config.distributed.get_distributed_dim(DistributedDimNames.tensor_and_sequence_data),
+                self.length * data_dim.size,
+                config.distributed.get_distributed_dim(DistributedDimNames.tensor_and_data),
             )
             if config.distributed.sequence_tensor_parallel
             else model_input.token_dim
diff --git a/fast_llm/engine/distributed/config.py b/fast_llm/engine/distributed/config.py
index d0011fc76..c3950cedf 100644
--- a/fast_llm/engine/distributed/config.py
+++ b/fast_llm/engine/distributed/config.py
@@ -231,6 +231,12 @@ class DistributedConfig(Config):
         desc="Enable CUDA device.",
         hint=FieldHint.expert,
     )
+    force_cpu_initialization: bool = Field(
+        default=False,
+        desc="Initialize on cpu even if cuda is enabled. Useful for matching cpu and cuda runs.",
+        hint=FieldHint.expert,
+    )
+
     seed: int = Field(default=1234, desc="A seed for training.", hint=FieldHint.optional)
     # TODO: Rename to compute_dtype (not just for training), move elsewhere
     compute_dtype: DataType = Field(
diff --git a/fast_llm/engine/distributed/distributed.py b/fast_llm/engine/distributed/distributed.py
index c13b40b60..ca6df688d 100644
--- a/fast_llm/engine/distributed/distributed.py
+++ b/fast_llm/engine/distributed/distributed.py
@@ -211,8 +211,8 @@ def __init__(self, config: DistributedConfig):
 
         self.pp_generator = torch.Generator(device=self.device)
         self.tp_generator = torch.Generator(device=self.device)
-        self.pp_init_generator = torch.Generator(device=self.device)
-        self.tp_init_generator = torch.Generator(device=self.device)
+        self.pp_init_generator = torch.Generator(device=self.initialization_device)
+        self.tp_init_generator = torch.Generator(device=self.initialization_device)
 
         self._pp_seed = (pp_base_seed + self._config.pp_gen_seed_shift) % MAX_SEED
         self._tp_seed = (tp_base_seed + self._config.tp_gen_seed_shift) % MAX_SEED
@@ -229,9 +229,13 @@ def __init__(self, config: DistributedConfig):
         self.set_step(0, PhaseType.training)
 
     @property
-    def device(self):
+    def device(self) -> torch.device:
         return self._pool.device
 
+    @property
+    def initialization_device(self) -> torch.device:
+        return torch.device("cpu") if self._config.force_cpu_initialization else self.device
+
     def add_group(self, distributed_dim: DistributedDim) -> ProcessGroup | None:
         """
         Add a process group from its definition.
diff --git a/fast_llm/engine/multi_stage/stage_base.py b/fast_llm/engine/multi_stage/stage_base.py
index 96d80ce06..56ea14b8f 100644
--- a/fast_llm/engine/multi_stage/stage_base.py
+++ b/fast_llm/engine/multi_stage/stage_base.py
@@ -188,12 +188,16 @@ def initialize_weights(self) -> None:
                 # Multi-gpu init may be different because of TP or FSDP (different shape), or PP (not on device)
                 global_shape = meta.global_shape
 
-                if meta.requires_global_initialization or (
-                    self._distributed_config.reproducible_init
-                    and (global_shape.numel() != parameter.numel() or not self._mode.on_device)
+                if (
+                    meta.requires_global_initialization
+                    or (
+                        self._distributed_config.reproducible_init
+                        and (global_shape.numel() != parameter.numel() or not self._mode.on_device)
+                    )
+                    or self._distributed.initialization_device != self._distributed.device
                 ):
                     # Initialize all global weights on every gpu, then select the appropriate slice if applicable.
-                    global_param = parameter.new_empty(global_shape, device=self._distributed.device)
+                    global_param = parameter.new_empty(global_shape, device=self._distributed.initialization_device)
                     meta.init_parameter(global_param, distributed=self._distributed)
                     # It happens.
                     Assert.eq(global_param.shape, global_shape)
diff --git a/fast_llm/functional/triton/rotary.py b/fast_llm/functional/triton/rotary.py
index 08c6fbe59..fd5f50dca 100644
--- a/fast_llm/functional/triton/rotary.py
+++ b/fast_llm/functional/triton/rotary.py
@@ -64,14 +64,18 @@ def triton_rotary_kernel(
 def triton_rotary_(
     input_: torch.Tensor,
     frequencies: torch.Tensor,
+    is_key_value: bool = False,
     backward: bool = False,
 ) -> torch.Tensor:
     # TODO: Improve assumptions.
     # TODO: Make a transposed version to avoid contiguous call in key backward.
     # TODO: Improve block size heuristics.
+    out = input_
     assert input_.stride(-1) == 1, f"{input_.shape} {input_.stride()}"
-    if no_batch := input_.ndim == 3:
+    if input_.ndim == 3:
         input_ = input_.unsqueeze(0)
+    if is_key_value:
+        input_ = input_.chunk(2, dim=-2)[0]
     batch_size, seq_len, num_heads, head_size = input_.shape
     rotary_dim = div(head_size, 2)
     rotary_block_size = triton.next_power_of_2(rotary_dim)
@@ -93,18 +97,21 @@ def triton_rotary_(
         seq_len,
         backward,  # noqa
     )
-    return input_.squeeze(0) if no_batch else input_
+    return out
 
 
-def triton_rotary_forward_(input_: torch.Tensor, frequencies: torch.Tensor) -> tuple[torch.Tensor, torch.Tensor]:
-    return triton_rotary_(input_, frequencies), frequencies
+def triton_rotary_forward_(
+    input_: torch.Tensor, frequencies: torch.Tensor, is_key_value: bool = False
+) -> tuple[torch.Tensor, tuple[torch.Tensor, bool]]:
+    return triton_rotary_(input_, frequencies, is_key_value), (frequencies, is_key_value)
 
 
-def triton_rotary_backward_(grad_output: torch.Tensor, context: torch.Tensor) -> torch.Tensor:
+def triton_rotary_backward_(grad_output: torch.Tensor, context: tuple[torch.Tensor, bool]) -> torch.Tensor:
     # TODO: Make a transposed version to avoid contiguous call in key backward.
+    frequencies, is_key_value = context
     if grad_output.stride(-1) != 1:
         grad_output = grad_output.contiguous()
-    return triton_rotary_(grad_output, context, True)
+    return triton_rotary_(grad_output, frequencies, is_key_value, True)
 
 
 triton_rotary_autograd_ = wrap_forward_backward(triton_rotary_forward_, triton_rotary_backward_)
diff --git a/fast_llm/layers/attention/attention.py b/fast_llm/layers/attention/attention.py
index ee3cfd75e..feebf921f 100644
--- a/fast_llm/layers/attention/attention.py
+++ b/fast_llm/layers/attention/attention.py
@@ -297,6 +297,9 @@ def _forward(
         metrics: dict[str, typing.Any] | None = None,
     ) -> tuple[torch.Tensor, torch.Tensor | None]:
         query, key_value = self._query_key_value(input_)
+        query = query.unflatten(-1, (self._local_heads, self._config.head_size))
+        key_value = key_value.unflatten(-1, (2 * self._local_head_groups, self._config.head_size))
+        query, key_value = self._rotary(query, key_value, kwargs)
 
         # TODO: These get unnecessarily big with lots of small documents.
         if (past_key_values := kwargs.get(AttentionKwargs.past_key_values)) is not None:
@@ -311,18 +314,12 @@ def _forward(
             key_value = AttachGrad.apply(key_value, present)
 
         key_value = key_value[: kwargs[AttentionKwargs.sequence_k_dim].size]
-        key, value = key_value.split(self._local_head_groups * self._config.head_size, dim=-1)
-
-        query = query.unflatten(-1, (self._local_heads, self._config.head_size))
-        key = key.unflatten(-1, (self._local_head_groups, self._config.head_size))
-        value = value.unflatten(-1, (self._local_head_groups, self._config.head_size))
+        key, value = key_value.chunk(2, dim=1)
 
         self._debug(
             query, "query_rotary_input", (token_dim := kwargs[AttentionKwargs.token_dim], *self._query_dims), kwargs
         )
         self._debug(key, "key_rotary_input", (token_dim, *self._kv_dims), kwargs)
-        query, key = self._rotary(query, key, kwargs)
-
         with set_generator(self._distributed.tp_generator):
             if self._implementation == AttentionImplementation.flash:
                 input_ = self._attn_flash(query, key, value, kwargs)
diff --git a/fast_llm/layers/attention/config.py b/fast_llm/layers/attention/config.py
index cf287ba36..86469c3d9 100644
--- a/fast_llm/layers/attention/config.py
+++ b/fast_llm/layers/attention/config.py
@@ -26,8 +26,7 @@ class MixerKwargs(BlockKwargs):
 
 
 class AttentionKwargs(MixerKwargs):
-    rotary_freq_q = "rotary_freq_q"
-    rotary_freq_k = "rotary_freq_k"
+    rotary_freq = "rotary_freq"
     attention_mask = "attention_mask"
     attention_mask_value = "attention_mask_value"
     # TODO: Review these
diff --git a/fast_llm/layers/attention/rotary/rotary.py b/fast_llm/layers/attention/rotary/rotary.py
index d4a698754..9ce460e8d 100644
--- a/fast_llm/layers/attention/rotary/rotary.py
+++ b/fast_llm/layers/attention/rotary/rotary.py
@@ -29,7 +29,7 @@ def convert_rotary_real_to_complex(tensor: torch.Tensor, head_size: int, dim: in
     return tensor.unflatten(dim, (-1, 2, div(head_size, 2))).movedim(dim + 1, dim + 2).flatten(dim, dim + 2)
 
 
-def rotary_embeddings_complex(tensor: torch.Tensor, rope_frequencies: torch.Tensor) -> torch.Tensor:
+def rotary_embeddings_complex(tensor: torch.Tensor, frequencies: torch.Tensor) -> torch.Tensor:
     """
     Apply rotary embeddings to a tensor:
     * Convert it to a complex, full-precision tensor
@@ -39,24 +39,31 @@ def rotary_embeddings_complex(tensor: torch.Tensor, rope_frequencies: torch.Tens
     # TODO: This could use torch compile, but it doesn't support complex tensors at the moment.
     """
     complex_tensor = torch.view_as_complex(tensor.to(torch.float32).view(*tensor.shape[:-1], -1, 2))
-    return torch.view_as_real(complex_tensor * rope_frequencies).view_as(tensor).type_as(tensor)
+    return torch.view_as_real(complex_tensor * frequencies).view_as(tensor).type_as(tensor)
 
 
 @torch.compile
-def rotary_embeddings_real(tensor: torch.Tensor, rope_frequencies: torch.Tensor) -> torch.Tensor:
+def rotary_embeddings_real(
+    tensor: torch.Tensor, frequencies: torch.Tensor, is_key_value: bool = False
+) -> torch.Tensor:
     """
     Apply rotary embeddings to a tensor.
     """
+    if is_key_value:
+        tensor, value = tensor.chunk(2, dim=-2)
     tensor_re, tensor_im = torch.chunk(tensor, 2, dim=-1)
-    frequencies_re, frequencies_im = torch.chunk(rope_frequencies, 2, dim=-1)
+    frequencies_re, frequencies_im = torch.chunk(frequencies, 2, dim=-1)
 
-    return torch.cat(
+    out = torch.cat(
         [
             tensor_re * frequencies_re - tensor_im * frequencies_im,
             tensor_im * frequencies_re + tensor_re * frequencies_im,
         ],
         dim=-1,
-    )
+    ).to(tensor.dtype)
+    if is_key_value:
+        out = torch.cat([out, value], dim=-2)
+    return out
 
 
 class Rotary[ConfigType: RotaryConfig](Configurable[ConfigType], torch.nn.Module):
@@ -92,18 +99,17 @@ class DefaultRotary[ConfigType: DefaultRotaryConfig](Rotary[ConfigType]):
     def preprocess(self, kwargs: dict[str, typing.Any]) -> None:
         self._create_tensors(kwargs[AttentionKwargs.sequence_length], kwargs[AttentionKwargs.device])
         sequence_k = kwargs[AttentionKwargs.sequence_k_dim].size
-        kwargs[AttentionKwargs.rotary_freq_q] = self._rotary_embedding_frequencies[
+        kwargs[AttentionKwargs.rotary_freq] = self._rotary_embedding_frequencies[
             sequence_k - kwargs[AttentionKwargs.token_dim].size : sequence_k
         ]
-        kwargs[AttentionKwargs.rotary_freq_k] = self._rotary_embedding_frequencies[:sequence_k]
 
     def forward(
-        self, query: torch.Tensor, key: torch.Tensor, kwargs: dict[str, typing.Any]
+        self, query: torch.Tensor, key_value: torch.Tensor, kwargs: dict[str, typing.Any]
     ) -> tuple[torch.Tensor, torch.Tensor]:
         rotary_fn = triton_rotary_autograd_ if TritonConfig.enabled(query.device) else rotary_embeddings_real
-        query = rotary_fn(query, kwargs[AttentionKwargs.rotary_freq_q])
-        key = rotary_fn(key, kwargs[AttentionKwargs.rotary_freq_k])
-        return query, key
+        query = rotary_fn(query, kwargs[AttentionKwargs.rotary_freq])
+        key_value = rotary_fn(key_value, kwargs[AttentionKwargs.rotary_freq], is_key_value=True)
+        return query, key_value
 
     def _create_tensors(self, sequence_length: int, device: torch.device) -> None:
         if sequence_length <= self._tensor_cache_max_sequence_length:
@@ -227,14 +233,12 @@ def preprocess(self, kwargs: dict[str, typing.Any]) -> None:
         frequencies = convert_rotary_complex_to_real(
             torch.view_as_real(frequencies).flatten(-2), self._head_size, 2
         ).contiguous()
-        # TODO: Support different q and k frequencies.
-        kwargs[AttentionKwargs.rotary_freq_q] = frequencies
-        kwargs[AttentionKwargs.rotary_freq_k] = frequencies
+        kwargs[AttentionKwargs.rotary_freq] = frequencies
 
     def forward(
-        self, query: torch.Tensor, key: torch.Tensor, kwargs: dict[str, typing.Any]
+        self, query: torch.Tensor, key_value: torch.Tensor, kwargs: dict[str, typing.Any]
     ) -> tuple[torch.Tensor, torch.Tensor]:
         rotary_fn = triton_rotary_autograd_ if TritonConfig.enabled(query.device) else rotary_embeddings_real
-        query = rotary_fn(query, kwargs[AttentionKwargs.rotary_freq_q])
-        key = rotary_fn(key, kwargs[AttentionKwargs.rotary_freq_k])
-        return query, key
+        query = rotary_fn(query, kwargs[AttentionKwargs.rotary_freq])
+        key_value = rotary_fn(key_value, kwargs[AttentionKwargs.rotary_freq], is_key_value=True)
+        return query, key_value
diff --git a/fast_llm/layers/language_model/loss/loss.py b/fast_llm/layers/language_model/loss/loss.py
index ae5a366d5..e52bc85c5 100644
--- a/fast_llm/layers/language_model/loss/loss.py
+++ b/fast_llm/layers/language_model/loss/loss.py
@@ -90,7 +90,6 @@ def _get_grad_output(self, kwargs: dict[str, typing.Any]) -> float | None:
         return grad_output
 
     def _get_labels(self, kwargs: dict[str, typing.Any], split_index: int = 0):
-        print("QQQQQQQ", len(kwargs[LanguageModelLossKwargs.labels]), self._prediction_distance - 1)
         return self._prepare_target(
             kwargs[LanguageModelLossKwargs.labels][self._prediction_distance - 1], kwargs, split_index
         )
diff --git a/fast_llm/models/gpt/model.py b/fast_llm/models/gpt/model.py
index ab2f7fed0..fc4537ee7 100644
--- a/fast_llm/models/gpt/model.py
+++ b/fast_llm/models/gpt/model.py
@@ -96,7 +96,6 @@ def get_tied_parameters(self) -> dict[str, tuple[ParameterMeta, tuple[int, ...]]
         output_weights = self.head.get_output_weights() + self.multi_token_prediction.get_output_weights()
         if self._config.tied_embedding_weight:
             output_weights.insert(0, self.embeddings.word_embeddings_weight)
-        # print("WWWWWWWWW", [x.tensor_name for x in output_weights], self.multi_token_prediction.get_output_weights())
         return {output_weights[0].tensor_name: output_weights} if len(output_weights) > 1 else {}
 
     @functools.cached_property
diff --git a/tests/functional/test_triton_kernels.py b/tests/functional/test_triton_kernels.py
index 0ff80ad82..644a3f004 100644
--- a/tests/functional/test_triton_kernels.py
+++ b/tests/functional/test_triton_kernels.py
@@ -99,10 +99,10 @@ def test_triton_rotary(num_tokens, num_heads, head_size, testing_device):
         2,
     )
 
-    y_triton = triton_rotary_(x, frequencies)
+    triton_rotary_(x, frequencies)
 
     Assert.rms_close(y_real, y_complex, 1e-4)
-    Assert.rms_close(y_real, y_triton, 1e-4)
+    Assert.rms_close(y_real, x, 1e-4)
 
 
 @requires_triton
diff --git a/tests/layers/test_rotary.py b/tests/layers/test_rotary.py
index f34b9a35d..91342cf34 100644
--- a/tests/layers/test_rotary.py
+++ b/tests/layers/test_rotary.py
@@ -24,6 +24,7 @@ def test_rotary_2d(testing_device):
         2, len(patch_positions), num_heads, head_dim, dtype=torch.float32, device=testing_device
     ).normal_()
     key = torch.empty_like(query).normal_()
+    value = torch.empty_like(query).normal_()
 
     pixtral_config = transformers.PixtralVisionConfig(hidden_size=head_dim * num_heads, num_attention_heads=num_heads)
     pixtral_rotary = transformers.models.pixtral.modeling_pixtral.PixtralRotaryEmbedding(pixtral_config).to(
@@ -42,7 +43,10 @@ def test_rotary_2d(testing_device):
     fast_llm_rotary = Rotary2DConfig().get_layer(TensorDim("head_dim", head_dim))
     kwargs = {VisionKwargs.patch_positions: patch_positions, AttentionKwargs.device: testing_device}
     fast_llm_rotary.preprocess(kwargs)
-    output_fast_llm_query, output_fast_llm_key = fast_llm_rotary.forward(query, key, kwargs)
-
+    output_fast_llm_query, output_fast_llm_key_value = fast_llm_rotary.forward(
+        query, torch.cat([key, value], dim=-2), kwargs
+    )
+    output_fast_llm_key, output_fast_llm_value_ = output_fast_llm_key_value.chunk(2, dim=-2)
     Assert.rms_close(output_pixtral_query, output_fast_llm_query, 1e-5)
     Assert.rms_close(output_pixtral_key, output_fast_llm_key, 1e-5)
+    Assert.all_equal(output_fast_llm_value_, value)
diff --git a/tests/utils/distributed_configs.py b/tests/utils/distributed_configs.py
index 910f19bff..81b877951 100644
--- a/tests/utils/distributed_configs.py
+++ b/tests/utils/distributed_configs.py
@@ -47,9 +47,12 @@ def get_config(relative: float = 0, absolute: float = 0, **kwargs) -> CompareCon
 for tensor in ("fw", "bw"):
     _compare_layer_mismatch.sub_configs[(None, tensor)].ignore_tensors = True
 _pp_tied_weight_compare = copy.deepcopy(_compare_layer_mismatch)
-_z3_accumulation_compare = copy.deepcopy(_compare_layer_mismatch)
-_z3_accumulation_compare.sub_configs[(None, "bias")].ignore_duplicates = True
-_z3_accumulation_compare.sub_configs[(None, "gradient")].ignore_duplicates = True
+_compare_layer_match_duplicate_gradients = copy.deepcopy(_compare_layer_match)
+_compare_layer_match_duplicate_gradients.sub_configs[(None, "bias")].ignore_duplicates = True
+_compare_layer_match_duplicate_gradients.sub_configs[(None, "gradient")].ignore_duplicates = True
+_compare_layer_mismatch_duplicate_gradients = copy.deepcopy(_compare_layer_mismatch)
+_compare_layer_mismatch_duplicate_gradients.sub_configs[(None, "bias")].ignore_duplicates = True
+_compare_layer_mismatch_duplicate_gradients.sub_configs[(None, "gradient")].ignore_duplicates = True
 _pp_tied_weight_compare.sub_configs[(None, "gradient")].ignore_duplicates = True
 _pp_tied_weight_compare.sub_configs[("init", None)].ignore_duplicates = True
 for tensor in ("fw", "bw"):
@@ -101,6 +104,7 @@ def get_config(relative: float = 0, absolute: float = 0, **kwargs) -> CompareCon
 
 
 # Simple case
+# TODO: ====== Backup attn takes too much memory with 4k tokens.
 SIMPLE_TESTING_CONFIG = DistributedTestingConfig(
     name="simple",
     compare=None,
@@ -214,15 +218,15 @@ def get_config(relative: float = 0, absolute: float = 0, **kwargs) -> CompareCon
     ),
     # Depth-first micro-batches
     DistributedTestingConfig(
-        name="dp2_z3_df4",
+        name="dp2_z2_df4",
         compare="df8",
         config_args=[
-            "model.multi_stage.zero_stage=3",
+            "model.multi_stage.zero_stage=2",
             "schedule.depth_first_micro_batches=4",
             "data.micro_batch_size=512",
         ],
         num_gpus=2,
-        compare_config=_z3_accumulation_compare,
+        compare_config=_compare_layer_mismatch_duplicate_gradients,
     ),
     # Sequence-data-parallel
     DistributedTestingConfig(
@@ -295,7 +299,7 @@ def get_config(relative: float = 0, absolute: float = 0, **kwargs) -> CompareCon
     # Breadth-first micro-batches
     DistributedTestingConfig(
         name="sdp2_stp2_bf4",
-        compare="dp2_z3_df4",
+        compare="df4",
         config_args=[
             "model.distributed.sequence_data_parallel=2",
             "model.distributed.tensor_parallel=2",
@@ -309,12 +313,12 @@ def get_config(relative: float = 0, absolute: float = 0, **kwargs) -> CompareCon
     # Sequence-data-parallel
     DistributedTestingConfig(
         name="sdp2_stp2",
-        compare="dp2",
+        compare="simple",
         config_args=[
             "model.distributed.sequence_data_parallel=2",
             "model.distributed.tensor_parallel=2",
             "model.distributed.sequence_tensor_parallel=True",
-            "data.micro_batch_size=2048",
+            "data.micro_batch_size=4096",
         ],
         num_gpus=4,
         compare_config=_compare_layer_match,
@@ -363,7 +367,7 @@ def get_config(relative: float = 0, absolute: float = 0, **kwargs) -> CompareCon
     # Simple
     DistributedTestingConfig(
         name="dp2_pp2s2_bf4",
-        compare="dp2_z3_df4",
+        compare="dp2_z2_df4",
         config_args=[
             "model.distributed.pipeline_parallel=2",
             "model.multi_stage.layers_per_stage=2",
@@ -371,7 +375,7 @@ def get_config(relative: float = 0, absolute: float = 0, **kwargs) -> CompareCon
             "data.micro_batch_size=512",
         ],
         num_gpus=4,
-        compare_config=_compare_layer_mismatch,
+        compare_config=_compare_layer_match_duplicate_gradients,
     ),
     # ===== 2d configs (Tensor + Pipeline)
     # Simple [mb]
@@ -393,7 +397,7 @@ def get_config(relative: float = 0, absolute: float = 0, **kwargs) -> CompareCon
     # Simple
     DistributedTestingConfig(
         name="dp2_stp2_pp2s2_bf4",
-        compare="dp2_z3_df4",
+        compare="dp2_z2_df4",
         config_args=[
             "model.distributed.tensor_parallel=2",
             "model.distributed.sequence_tensor_parallel=True",
@@ -408,7 +412,7 @@ def get_config(relative: float = 0, absolute: float = 0, **kwargs) -> CompareCon
     # Tied weights on different ranks
     DistributedTestingConfig(
         name="dp2_tp2_pp2s1_bf4",
-        compare="dp2_z3_df4",
+        compare="dp2_z2_df4",
         config_args=[
             "model.distributed.tensor_parallel=2",
             "model.distributed.sequence_tensor_parallel=True",
diff --git a/tests/utils/model_configs.py b/tests/utils/model_configs.py
index 314bbf5a0..d3100a192 100644
--- a/tests/utils/model_configs.py
+++ b/tests/utils/model_configs.py
@@ -817,7 +817,7 @@ def update_and_add_testing_config(
     # Tests apriel2 format with pattern decoder mixing all mixer types.
     # This comprehensive test exercises: attention, mamba, stochastic mixer, sliding window attention, gdn.
     "llama",
-    "apriel2_text_all_hybrid",
+    "apriel2_text",
     updates={
         ("model", "base_model", "tied_embedding_weight"): True,
         ("model", "base_model", "decoder"): {
@@ -828,9 +828,9 @@ def update_and_add_testing_config(
                     "mixer": {
                         "type": "attention",
                         "rotary": {"type": "default", "theta": 10000},
-                        "heads": 8,
-                        "head_groups": 4,
-                        "head_size": 32,
+                        "heads": 4,
+                        "head_groups": 2,
+                        "head_size": 16,
                         "add_linear_biases": False,
                     },
                 },
@@ -838,10 +838,10 @@ def update_and_add_testing_config(
                     **copy.deepcopy(_llama_block),
                     "mixer": {
                         "type": "mamba",
-                        "d_inner": 512,
-                        "state_size": 16,
-                        "dt_rank": 16,
-                        "d_xb": 256,
+                        "d_inner": 256,
+                        "state_size": 8,
+                        "dt_rank": 8,
+                        "d_xb": 128,
                         "add_linear_biases": False,
                     },
                 },
@@ -853,9 +853,9 @@ def update_and_add_testing_config(
                             "attn": {
                                 "type": "attention",
                                 "rotary": {"type": "default", "theta": 10000},
-                                "heads": 8,
-                                "head_groups": 4,
-                                "head_size": 32,
+                                "heads": 4,
+                                "head_groups": 2,
+                                "head_size": 16,
                                 "add_linear_biases": False,
                             },
                             "gdn": {
@@ -867,10 +867,10 @@ def update_and_add_testing_config(
                             },
                             "mamba": {
                                 "type": "mamba",
-                                "d_inner": 512,
-                                "state_size": 16,
-                                "dt_rank": 16,
-                                "d_xb": 256,
+                                "d_inner": 256,
+                                "state_size": 8,
+                                "dt_rank": 8,
+                                "d_xb": 128,
                                 "add_linear_biases": False,
                             },
                             "kda": {
@@ -888,9 +888,9 @@ def update_and_add_testing_config(
                     "mixer": {
                         "type": "attention",
                         "rotary": {"type": "default", "theta": 10000},
-                        "heads": 8,
-                        "head_groups": 4,
-                        "head_size": 32,
+                        "heads": 4,
+                        "head_groups": 2,
+                        "head_size": 16,
                         "window_size": 128,
                         "add_linear_biases": False,
                     },
@@ -939,27 +939,19 @@ def update_and_add_testing_config(
 
 update_and_add_testing_config(
     # Tests apriel2 multimodal format combining pattern decoder with vision encoder.
-    # Uses the same decoder as apriel2_text_all_hybrid but adds vision capabilities.
-    "apriel2_text_all_hybrid",
-    "apriel2",
+    # Uses the same decoder as apriel2_text but adds vision capabilities.
+    "apriel2_text",
+    "apriel2_multimodal",
     model_type="multimodal",
     updates={
-        ("model", "base_model", "vision_encoder"): {
-            "embeddings": {"patch_height": 4, "patch_width": 4, "normalization": {"type": "rms_norm"}},
-            "encoder": copy.deepcopy(MODEL_CONFIGS["llama"].config_dict["model"]["base_model"]["decoder"]),
-            "adapter": {"intermediate_size": 256},
-            "hidden_size": 256,
-        },
+        ("model", "base_model", "vision_encoder"): copy.deepcopy(
+            MODEL_CONFIGS["llava"].config_dict["model"]["base_model"]["vision_encoder"]
+        ),
         # Reduce decoder blocks for faster testing
         ("model", "base_model", "decoder", "num_blocks"): 2,
         # Extend the vocab size to ensure the image token id is not in the mock dataset.
         ("model", "base_model", "embeddings", "vocab_size"): 386,
         ("model", "base_model", "image_token_index"): 384,
-        ("model", "base_model", "vision_encoder", "encoder", "block", "mixer", "rotary", "type"): "default_2d",
-        ("model", "base_model", "vision_encoder", "encoder", "num_blocks"): 1,
-        ("model", "base_model", "vision_encoder", "encoder", "block", "mixer", "causal"): False,
-        # Pixtral doesn't support GQA
-        ("model", "base_model", "vision_encoder", "encoder", "block", "mixer", "head_groups"): 8,
     },
     get_dataset=get_multimodal_test_dataset,
     megatron_args=None,
@@ -970,7 +962,7 @@ def update_and_add_testing_config(
         ModelTestingGroup.convert: ModelTestingGroupAction.normal,
         ModelTestingGroup.generate: ModelTestingGroupAction.not_implemented,
         ModelTestingGroup.megatron: ModelTestingGroupAction.not_implemented,
-        ModelTestingGroup.distributed: ModelTestingGroupAction.normal,
+        ModelTestingGroup.distributed: ModelTestingGroupAction.unimportant,
     },
     compare_factor=6.0,
     # Micro-sequence split and sequence-first not supported for Mamba.

From 1af4e9fbabec7882b6f66908b8f47ee61af637b4 Mon Sep 17 00:00:00 2001
From: Joel Lamy-Poirier <joel.lamy-poirier@servicenow.com>
Date: Thu, 12 Mar 2026 12:42:13 -0400
Subject: [PATCH 33/37] fixes

---
 fast_llm/data/document/language_model.py      |   4 +-
 fast_llm/engine/config_utils/logging.py       |   1 +
 fast_llm/layers/decoder/stochastic_mixer.py   |   6 +
 fast_llm/logging.py                           |   4 +
 .../models/multimodal/conversion/apriel2.py   |   1 +
 .../apriel2/modeling_apriel2.py               |  60 +++-
 .../modeling_apriel_hybrid_ssm.py             |   4 +-
 .../tests/test_apriel2/test_equivalence.py    |   6 +-
 tests/models/test_checkpoint.py               |  23 +-
 tests/utils/model_configs.py                  | 312 ++++++++----------
 10 files changed, 214 insertions(+), 207 deletions(-)

diff --git a/fast_llm/data/document/language_model.py b/fast_llm/data/document/language_model.py
index 0ca66a64c..04de1a020 100644
--- a/fast_llm/data/document/language_model.py
+++ b/fast_llm/data/document/language_model.py
@@ -126,10 +126,10 @@ def _get_model_input(
                     labels[span_begin:span_end] = -100
 
             # Mask cross-document predictions.
-            cropped_lengths, _, _ = self._get_cropped_lengths(label_begin, label_end)
+            cropped_lengths, _, _ = self._get_cropped_lengths(begin, label_end)
             document_begin = cropped_lengths[0]
             for length in cropped_lengths[1:]:
-                labels[document_begin : document_begin + prediction_distance] = -100
+                labels[max(document_begin - prediction_distance, 0) : document_begin] = -100
                 document_begin += length
 
             # Labels contain all four sources of masking: padding, user-defined spans, image placeholders, cross-document predictions.
diff --git a/fast_llm/engine/config_utils/logging.py b/fast_llm/engine/config_utils/logging.py
index 358674a98..943b8de38 100644
--- a/fast_llm/engine/config_utils/logging.py
+++ b/fast_llm/engine/config_utils/logging.py
@@ -75,6 +75,7 @@ class TensorLogsConfig(Config):
         hint=FieldHint.logging,
         valid=skip_valid_if_none(check_field(Assert.gt, 0)),
     )
+    full_tensors: bool = Field(default=False, desc="Save and/or print entire tensors.")
 
 
 class TensorLogs:
diff --git a/fast_llm/layers/decoder/stochastic_mixer.py b/fast_llm/layers/decoder/stochastic_mixer.py
index 984f34b80..0af1e73c7 100644
--- a/fast_llm/layers/decoder/stochastic_mixer.py
+++ b/fast_llm/layers/decoder/stochastic_mixer.py
@@ -16,6 +16,7 @@
 )
 from fast_llm.logging import get_model_debug_level
 from fast_llm.tensor import TensorMeta
+from fast_llm.utils import safe_merge_dicts
 
 logger = logging.getLogger(__name__)
 
@@ -150,6 +151,11 @@ def _forward(
 
         return self.mixers[mixer_name]._forward(input_, kwargs, losses, metrics)
 
+    def get_preprocessing_config(self) -> dict[str, typing.Any]:
+        for mixer in self.mixers.values():
+            mixer.get_preprocessing_config()
+        return safe_merge_dicts(*(mixer.get_preprocessing_config() for mixer in self.mixers.values()))
+
     def preprocess(self, kwargs: dict[str, typing.Any]) -> None:
         from fast_llm.engine.distributed.config import MAX_SEED
         from fast_llm.layers.block.config import BlockKwargs
diff --git a/fast_llm/logging.py b/fast_llm/logging.py
index a25b3b0f8..0ce0b793d 100644
--- a/fast_llm/logging.py
+++ b/fast_llm/logging.py
@@ -163,6 +163,8 @@ def log_tensor[T](
                 min=v_float.min().item(),
                 max=v_float.max().item(),
             )
+            if TensorLogs.config.full_tensors:
+                stats["tensor"] = tensor
         txt.extend(
             [
                 ("mu", format_number(stats["mu"] * scale), 10),
@@ -210,6 +212,8 @@ def log_tensor[T](
         prefix = "" if prefix is None else f" {prefix}="
         len_ += col_len + len(prefix) + 1
         out = f"{f'{out}{prefix}{str(val)}':{len_}s}"
+        if TensorLogs.config.full_tensors:
+            out = f"{out}\nTensor:\n{tensor}"
     if TensorLogs.config.show and log_fn is not None:
         return log(out, log_fn=log_fn)
 
diff --git a/fast_llm/models/multimodal/conversion/apriel2.py b/fast_llm/models/multimodal/conversion/apriel2.py
index d7bff8477..8a947baaa 100644
--- a/fast_llm/models/multimodal/conversion/apriel2.py
+++ b/fast_llm/models/multimodal/conversion/apriel2.py
@@ -400,6 +400,7 @@ def _export_config(cls, config: MultiModalModelConfig) -> dict[str, typing.Any]:
                 "auto_map": {
                     "AutoConfig": "configuration_apriel2.Apriel2Config",
                     "AutoModel": "modeling_apriel2.Apriel2Model",
+                    "AutoModelForCausalLM": "modeling_apriel2.Apriel2ForConditionalGeneration",
                     "AutoModelForImageTextToText": "modeling_apriel2.Apriel2ForConditionalGeneration",
                 },
             },
diff --git a/fast_llm_external_models/apriel2/modeling_apriel2.py b/fast_llm_external_models/apriel2/modeling_apriel2.py
index 076e7f4b8..1aa4b414c 100644
--- a/fast_llm_external_models/apriel2/modeling_apriel2.py
+++ b/fast_llm_external_models/apriel2/modeling_apriel2.py
@@ -2768,7 +2768,9 @@ def _iter_block_configs(self, encoder_config: dict):
             for block_config in blocks_config.values():
                 yield block_config
 
-    def forward(self, pixel_values: torch.Tensor) -> torch.Tensor:
+    def forward(
+        self, pixel_values: torch.Tensor, output_hidden_states: bool = False
+    ) -> tuple[torch.Tensor, Optional[tuple]]:
         """Process images through vision encoder using Pixtral-style concatenation.
 
         All image patches are concatenated into ONE sequence. Vision encoder computes:
@@ -2800,15 +2802,15 @@ def forward(self, pixel_values: torch.Tensor) -> torch.Tensor:
             patch_embeds_list.append(embed.squeeze(0))
 
         # Concatenate all patches into one sequence: [1, total_patches, hidden]
-        hidden_states = torch.cat(patch_embeds_list, dim=0).unsqueeze(0)
+        patch_embeds = torch.cat(patch_embeds_list, dim=0).unsqueeze(0)
 
         # Compute position_ids for 2D rotary: position_id = row * max_patches_per_side + col
         # Vision encoder owns 2D position encoding - attention just uses position_ids
         positions = []
         for _ in range(batch_size):
             mesh = torch.meshgrid(
-                torch.arange(height_patches, device=hidden_states.device),
-                torch.arange(width_patches, device=hidden_states.device),
+                torch.arange(height_patches, device=patch_embeds.device),
+                torch.arange(width_patches, device=patch_embeds.device),
                 indexing="ij",
             )
             h_grid, w_grid = torch.stack(mesh, dim=-1).reshape(-1, 2).chunk(2, -1)
@@ -2820,14 +2822,14 @@ def forward(self, pixel_values: torch.Tensor) -> torch.Tensor:
         sequence_lengths = [num_patches_per_image] * batch_size
 
         # Forward through vision encoder block sequence
-        hidden_states, _, _ = self.encoder(
-            hidden_states,
+        hidden_states, all_hidden_states, _ = self.encoder(
+            patch_embeds,
             attention_mask=None,  # Attention computes masks from sequence_lengths if needed
             position_ids=position_ids,
             sequence_lengths=sequence_lengths,
             past_key_values=None,
             output_attentions=False,
-            output_hidden_states=False,
+            output_hidden_states=output_hidden_states,
             use_cache=False,
             cache_position=None,
         )
@@ -2837,8 +2839,7 @@ def forward(self, pixel_values: torch.Tensor) -> torch.Tensor:
 
         # Reshape back to [batch, num_patches, text_hidden]
         image_features = image_features.squeeze(0).view(batch_size, num_patches_per_image, -1)
-
-        return image_features
+        return image_features, (patch_embeds, *all_hidden_states, image_features)
 
 
 class SimpleMLP(nn.Module):
@@ -2918,7 +2919,7 @@ def __init__(self, config: Apriel2Config):
         # Re-run post_init to handle any vision encoder initialization
         self.post_init()
 
-    def get_image_features(self, pixel_values, image_sizes=None):
+    def get_image_features(self, pixel_values, image_sizes=None, output_hidden_states: bool = False):
         """Extract and project image features.
 
         Args:
@@ -2933,7 +2934,8 @@ def get_image_features(self, pixel_values, image_sizes=None):
 
         if image_sizes is None:
             # No cropping needed - process as batch
-            return self.vision_encoder(pixel_values)
+            features, hidden_states = self.vision_encoder(pixel_values, output_hidden_states)
+            return features, hidden_states
 
         # Get patch size from embeddings layer to determine minimum valid image size
         patch_height = self.vision_encoder.embeddings.patch_embeddings.kernel_size[0]
@@ -2941,6 +2943,7 @@ def get_image_features(self, pixel_values, image_sizes=None):
 
         # Process each image individually with its actual size
         all_features = []
+        all_hidden_states = []
         for i, (image, (height, width)) in enumerate(zip(pixel_values, image_sizes)):
             height, width = int(height), int(width)
             # Skip images that are too small to produce any patches
@@ -2949,16 +2952,25 @@ def get_image_features(self, pixel_values, image_sizes=None):
             # Crop to actual image size
             cropped = image[:, :height, :width]
             # Process single image - add batch dim
-            features = self.vision_encoder(cropped.unsqueeze(0))
+            features, hidden_states = self.vision_encoder(cropped.unsqueeze(0), output_hidden_states)
             # Remove batch dim and add to list
             all_features.append(features.squeeze(0))
+            all_hidden_states.append(hidden_states)
+
+        if all_hidden_states:
+            all_hidden_states = tuple(
+                torch.cat([all_hidden_states[j][i] for j in range(len(all_hidden_states))], dim=1)
+                for i in range(len(all_hidden_states[0]))
+            )
+        else:
+            all_hidden_states = None
 
         if not all_features:
             # No valid images - return empty tensor
             return torch.zeros(0, 0, self.config.hidden_size, device=pixel_values.device)
 
         # Concatenate all features along patch dimension
-        return torch.cat(all_features, dim=0).unsqueeze(0)  # [1, total_patches, hidden]
+        return torch.cat(all_features, dim=0).unsqueeze(0), all_hidden_states  # [1, total_patches, hidden]
 
     def forward(
         self,
@@ -2974,12 +2986,15 @@ def forward(
         output_hidden_states: Optional[bool] = None,
         return_dict: Optional[bool] = None,
         cache_position: Optional[torch.LongTensor] = None,
+        output_vision_hidden_states: Optional[bool] = None,
         **kwargs,
     ) -> Union[tuple, BaseModelOutputWithPast]:
         # If pixel_values provided, we need to merge vision and text embeddings
         if pixel_values is not None and input_ids is not None:
             # Encode and project images (with optional cropping based on image_sizes)
-            image_features = self.get_image_features(pixel_values, image_sizes)
+            image_features, vision_hidden_states = self.get_image_features(
+                pixel_values, image_sizes, output_hidden_states=output_vision_hidden_states
+            )
 
             # Get text embeddings (use inherited embed_tokens)
             inputs_embeds = self.embed_tokens(input_ids)
@@ -3012,9 +3027,11 @@ def forward(
 
             # Clear input_ids since we're using inputs_embeds
             input_ids = None
+        else:
+            vision_hidden_states = None
 
         # Forward through inherited text model components
-        return super().forward(
+        output = super().forward(
             input_ids=input_ids,
             attention_mask=attention_mask,
             position_ids=position_ids,
@@ -3027,6 +3044,9 @@ def forward(
             cache_position=cache_position,
             **kwargs,
         )
+        if vision_hidden_states:
+            output.hidden_states = vision_hidden_states + output.hidden_states
+        return output
 
 
 class Apriel2ForConditionalGeneration(Apriel2PreTrainedModel, GenerationMixin):
@@ -3064,9 +3084,13 @@ def get_output_embeddings(self):
     def set_output_embeddings(self, new_embeddings):
         self.lm_head = new_embeddings
 
-    def get_image_features(self, pixel_values):
+    def get_image_features(self, pixel_values, image_sizes=None, output_hidden_states: bool = False):
         """Extract and project image features."""
-        return self.model.get_image_features(pixel_values)
+        return self.model.get_image_features(pixel_values, image_sizes, output_hidden_states)
+
+    @property
+    def vision_encoder(self):
+        return self.model.vision_encoder
 
     def forward(
         self,
@@ -3084,6 +3108,7 @@ def forward(
         return_dict: Optional[bool] = None,
         cache_position: Optional[torch.LongTensor] = None,
         logits_to_keep: Union[int, torch.Tensor] = 0,
+        output_vision_hidden_states: Optional[bool] = None,
         **kwargs,
     ) -> Union[tuple, CausalLMOutputWithPast]:
         return_dict = return_dict if return_dict is not None else self.config.use_return_dict
@@ -3102,6 +3127,7 @@ def forward(
             output_hidden_states=output_hidden_states,
             return_dict=return_dict,
             cache_position=cache_position,
+            output_vision_hidden_states=output_vision_hidden_states,
             **kwargs,
         )
 
diff --git a/fast_llm_external_models/apriel_hybrid_ssm/modeling_apriel_hybrid_ssm.py b/fast_llm_external_models/apriel_hybrid_ssm/modeling_apriel_hybrid_ssm.py
index 68652ff77..e2cf9483b 100644
--- a/fast_llm_external_models/apriel_hybrid_ssm/modeling_apriel_hybrid_ssm.py
+++ b/fast_llm_external_models/apriel_hybrid_ssm/modeling_apriel_hybrid_ssm.py
@@ -617,7 +617,7 @@ class AprielHybridCausalOutput(ModelOutput):
 
     loss: Optional[torch.FloatTensor] = None
     logits: Optional[torch.FloatTensor] = None
-    all_hidden_states: Optional[tuple[torch.FloatTensor, ...]] = None
+    hidden_states: Optional[tuple[torch.FloatTensor, ...]] = None
     last_hidden_state: Optional[torch.FloatTensor] = None
     attention_weights: Optional[torch.FloatTensor] = None
     past_key_values: Optional[Cache] = None
@@ -1686,7 +1686,7 @@ def forward(
         return AprielHybridCausalOutput(
             loss=loss,
             logits=logits,
-            all_hidden_states=outputs.hidden_states,
+            hidden_states=outputs.hidden_states,
             past_key_values=outputs.past_key_values,
         )
 
diff --git a/fast_llm_external_models/tests/test_apriel2/test_equivalence.py b/fast_llm_external_models/tests/test_apriel2/test_equivalence.py
index 9b3eb4efe..c5268f23c 100644
--- a/fast_llm_external_models/tests/test_apriel2/test_equivalence.py
+++ b/fast_llm_external_models/tests/test_apriel2/test_equivalence.py
@@ -244,7 +244,7 @@ def test_vision_encoder(self, model_pair, input_config: InputConfig):
             src_features = get_pixtral_vision_features(source, inputs.pixel_values)
 
             # Apriel2 vision features (flatten to match Pixtral format)
-            tgt_features = target.get_image_features(inputs.pixel_values)
+            tgt_features, _ = target.get_image_features(inputs.pixel_values)
             tgt_features = tgt_features.view(-1, tgt_features.shape[-1])
 
         assert_equivalent(src_features, tgt_features, f"{variant}/{input_config}/vision_encoder")
@@ -481,12 +481,12 @@ def test_batch_processing_behavior(self, model_pair):
         with torch.no_grad():
             # Batch processing
             batch_src = get_pixtral_vision_features(source, pixel_values)
-            batch_tgt = target.get_image_features(pixel_values).view(-1, batch_src.shape[-1])
+            batch_tgt, _ = target.get_image_features(pixel_values).view(-1, batch_src.shape[-1])
 
             # Sequential processing
             singles_src = [get_pixtral_vision_features(source, pixel_values[i : i + 1]) for i in range(3)]
             singles_tgt = [
-                target.get_image_features(pixel_values[i : i + 1]).view(-1, batch_src.shape[-1]) for i in range(3)
+                target.get_image_features(pixel_values[i : i + 1])[0].view(-1, batch_src.shape[-1]) for i in range(3)
             ]
 
             single_concat_src = torch.cat(singles_src, dim=0)
diff --git a/tests/models/test_checkpoint.py b/tests/models/test_checkpoint.py
index 558e1b106..5d8a494ca 100644
--- a/tests/models/test_checkpoint.py
+++ b/tests/models/test_checkpoint.py
@@ -377,24 +377,28 @@ def test_huggingface_model(model_testing_config, get_convert_path, testing_devic
         .to(testing_device)
         .eval()
     )
-    config = CompareConfig()
+    config = CompareConfig().rescale(model_testing_config.hf_compare_factor)
     for name, model in zip(
         ("From state dict", "From Huggingface", "Native Huggingface"),
         (model_from_fast_llm, model_from_hf, model_as_hf),
     ):
         print(name)
-        output = model(test_input, **kwargs)
         hidden_states_ref_ = hidden_states_ref
         if model is model_as_hf:
+            if model_testing_config.model_type == "multimodal" and hasattr(model, "vision_encoder"):
+                kwargs["output_vision_hidden_states"] = True
+            output = model(test_input, **kwargs)
             hidden_states = output.hidden_states + (output.logits,)
+            # Llava models doesn't return vision hidden states, so we run the vision model directly instead.
             if model_testing_config.model_type == "multimodal":
-                # Llava doesn't allow returning the vision hidden states, so we run the vision model directly instead.
-                vision_output = model_as_hf.vision_tower(
-                    pixel_values=kwargs["pixel_values"], image_sizes=kwargs["image_sizes"], output_hidden_states=True
-                )
-                adapter_output = model_as_hf.multi_modal_projector(vision_output.hidden_states[-1])
-                vision_hidden_states = vision_output.hidden_states + (adapter_output,)
-                hidden_states = vision_hidden_states + hidden_states
+                if hasattr(model, "vision_tower"):
+                    vision_output = model.vision_tower(
+                        pixel_values=kwargs["pixel_values"],
+                        image_sizes=kwargs["image_sizes"],
+                        output_hidden_states=True,
+                    )
+                    adapter_output = model.multi_modal_projector(vision_output.hidden_states[-1])
+                    hidden_states = vision_output.hidden_states + (adapter_output,) + hidden_states
                 hidden_states_ref_ = hidden_states_ref.copy()
                 # Adjust the vision hidden states
                 # TODO: ====== Do in HF wrapper ======
@@ -406,6 +410,7 @@ def test_huggingface_model(model_testing_config, get_convert_path, testing_devic
                 name: hidden_state for name, hidden_state in zip(hidden_states_ref, hidden_states, strict=True)
             }
         else:
+            output = model(test_input, **kwargs)
             hidden_states = output.hidden_states
             hidden_states["logits"] = output.logits
 
diff --git a/tests/utils/model_configs.py b/tests/utils/model_configs.py
index d3100a192..2cc0afa3d 100644
--- a/tests/utils/model_configs.py
+++ b/tests/utils/model_configs.py
@@ -18,7 +18,6 @@
 from fast_llm.engine.training.config import TrainerConfig
 from fast_llm.models.gpt.conversion.config import (
     Apriel2TextCheckpointFormat,
-    AprielHybridSSMCheckpointFormat,
     DiffusionDreamCheckpointFormat,
     DiffusionLlamaCheckpointFormat,
     LlamaCheckpointFormat,
@@ -88,6 +87,8 @@ class ModelTestingConfig:
     groups: dict[ModelTestingGroup, ModelTestingGroupAction]
     # Scale the comparison thresholds for specific models.
     compare_factor: float = 1.0
+    hf_compare_factor: float = 1.0
+    megatron_args: list[str] | None
     # Option to skip specific distributed configuration with name matching any of the provided regex patterns.
     skip_tests: tuple[str] = ()
     get_dataset: typing.Callable[[bool], tuple[pathlib.Path, dict[str, typing.Any], pathlib.Path]] = (
@@ -646,49 +647,6 @@ def update_and_add_testing_config(
     compare_factor=2.0,
 )
 
-
-update_and_add_testing_config(
-    # Tests hybrid Mamba 2.
-    "llama",
-    "hybrid_mamba",
-    updates={
-        ("model", "base_model", "decoder"): {
-            "type": "pattern",
-            "blocks": {
-                "t": copy.deepcopy(_llama_block),
-                "m2": {
-                    **copy.deepcopy(_llama_block),
-                    "mixer": {
-                        "type": "mamba",
-                        "dt_layer": {"bias": {"enabled": True}},
-                        "d_inner": 512,
-                        "state_size": 8,
-                        "dt_rank": 16,
-                        "d_xb": 256,
-                        "add_linear_biases": False,
-                    },
-                },
-            },
-            "num_blocks": 2,
-            "pattern": ["t", "m2"],
-        },
-    },
-    megatron_args=None,
-    checkpoint_format=AprielHybridSSMCheckpointFormat,
-    groups={
-        ModelTestingGroup.basic: ModelTestingGroupAction.normal,
-        ModelTestingGroup.checkpoint: ModelTestingGroupAction.normal,
-        ModelTestingGroup.convert: ModelTestingGroupAction.normal,
-        ModelTestingGroup.generate: ModelTestingGroupAction.not_implemented,
-        ModelTestingGroup.megatron: ModelTestingGroupAction.not_implemented,
-        ModelTestingGroup.distributed: ModelTestingGroupAction.normal,
-    },
-    compare_factor=2.0,
-    # Micro-sequence split not supported.
-    skip_tests=("sdp", "ms"),
-    requires_cuda=True,
-)
-
 update_and_add_testing_config(
     # Tests vision multimodal.
     "llama",
@@ -731,37 +689,88 @@ def update_and_add_testing_config(
 )
 
 
+update_and_add_testing_config(
+    # Tests apriel 2 basic conversion.
+    "llama",
+    "apriel2_attn",
+    megatron_args=None,
+    checkpoint_format=Apriel2TextCheckpointFormat,
+    groups={
+        ModelTestingGroup.basic: ModelTestingGroupAction.unimportant,
+        ModelTestingGroup.checkpoint: ModelTestingGroupAction.normal,
+        ModelTestingGroup.convert: ModelTestingGroupAction.normal,
+        ModelTestingGroup.generate: ModelTestingGroupAction.not_implemented,
+        ModelTestingGroup.megatron: ModelTestingGroupAction.not_implemented,
+        ModelTestingGroup.distributed: ModelTestingGroupAction.unimportant,
+    },
+    compare_factor=10.0,  # High diff for fp16 and bf16 due to rms_norm_gated from fla
+    # note: tp is excluded because there is currently no gradient reductions implemented for tp norm in gdn.py (STP works though).
+    # we should be using STP with this model, not TP!
+    skip_tests=("sdp", "ms", TP_NO_STP),
+    requires_cuda=False,
+)
+
+
+update_and_add_testing_config(
+    # Tests hybrid Mamba 2.
+    "llama",
+    "apriel2_mamba",
+    updates={
+        ("model", "base_model", "decoder", "block", "mixer"): {
+            "type": "mamba",
+            "z_layer": {"weight": init_1},
+            "x_layer": {"weight": init_1},
+            "b_layer": {"weight": init_1},
+            "c_layer": {"weight": init_1},
+            "output_layer": {"weight": init_2},
+            "d_inner": 512,
+            "state_size": 8,
+            "dt_rank": 16,
+            "d_xb": 256,
+            "add_linear_biases": False,
+        },
+    },
+    megatron_args=None,
+    checkpoint_format=Apriel2TextCheckpointFormat,
+    groups={
+        ModelTestingGroup.basic: ModelTestingGroupAction.broken,
+        ModelTestingGroup.checkpoint: ModelTestingGroupAction.broken,
+        ModelTestingGroup.convert: ModelTestingGroupAction.broken,
+        ModelTestingGroup.generate: ModelTestingGroupAction.not_implemented,
+        ModelTestingGroup.megatron: ModelTestingGroupAction.not_implemented,
+        ModelTestingGroup.distributed: ModelTestingGroupAction.unimportant,
+    },
+    compare_factor=2.0,
+    # Micro-sequence split not supported.
+    skip_tests=("sdp", "ms"),
+    requires_cuda=True,
+)
+
+_mamba_block = MODEL_CONFIGS["apriel2_mamba"].config_dict["model"]["base_model"]["decoder"]["block"]
+
+
 update_and_add_testing_config(
     # Tests hybrid with attention + gated delta net mixer.
     "llama",
-    "hybrid_gdn",
+    "apriel2_gdn",
     updates={
-        ("model", "base_model", "decoder"): {
-            "type": "pattern",
-            "blocks": {
-                "attention": copy.deepcopy(_llama_block),
-                "gdn": {
-                    **copy.deepcopy(_llama_block),
-                    "mixer": {
-                        "type": "gdn",
-                        "value_heads": 4,
-                        "key_heads": 4,
-                        "key_head_dim": 16,
-                        "value_head_dim": 16,
-                    },
-                },
-            },
-            "num_blocks": 2,
-            "pattern": ["attention", "gdn"],
+        ("model", "base_model", "decoder", "block", "mixer"): {
+            "type": "gdn",
+            "qkv_projection_layer": {"weight": init_1},
+            "ba_projection_layer": {"weight": init_1},
+            "output_layer": {"weight": init_2},
+            "value_heads": 8,
+            "key_heads": 8,
+            "key_head_dim": 32,
+            "value_head_dim": 32,
         },
     },
     megatron_args=None,
-    checkpoint_format=AprielHybridSSMCheckpointFormat,
+    checkpoint_format=Apriel2TextCheckpointFormat,
     groups={
         ModelTestingGroup.basic: ModelTestingGroupAction.normal,
         ModelTestingGroup.checkpoint: ModelTestingGroupAction.normal,
-        # TODO: Fix (`fast_llm/models/gpt/conversion/apriel.py:235: KeyError: 'value_head_dim'`)
-        ModelTestingGroup.convert: ModelTestingGroupAction.broken,
+        ModelTestingGroup.convert: ModelTestingGroupAction.normal,
         ModelTestingGroup.generate: ModelTestingGroupAction.not_implemented,
         ModelTestingGroup.megatron: ModelTestingGroupAction.not_implemented,
         ModelTestingGroup.distributed: ModelTestingGroupAction.normal,
@@ -773,34 +782,33 @@ def update_and_add_testing_config(
     requires_cuda=False,
 )
 
+_gdn_block = MODEL_CONFIGS["apriel2_gdn"].config_dict["model"]["base_model"]["decoder"]["block"]
+
 update_and_add_testing_config(
     # Tests hybrid with KDA mixer.
     "llama",
-    "hybrid_kda",
+    "apriel2_kda",
     updates={
-        ("model", "base_model", "decoder"): {
-            "type": "pattern",
-            "blocks": {
-                "attention": copy.deepcopy(_llama_block),
-                "kda": {
-                    **copy.deepcopy(_llama_block),
-                    "mixer": {
-                        "type": "kda",
-                        "heads": 4,
-                        "head_dim": 16,
-                    },
-                },
-            },
-            "num_blocks": 2,
-            "pattern": ["attention", "kda"],
+        ("model", "base_model", "decoder", "block", "mixer"): {
+            "type": "kda",
+            "q_projection_layer": {"weight": init_1},
+            "k_projection_layer": {"weight": init_1},
+            "v_projection_layer": {"weight": init_1},
+            "f_a_projection_layer": {"weight": init_1},
+            "f_b_projection_layer": {"weight": init_2},
+            "g_a_projection_layer": {"weight": init_1},
+            "g_b_projection_layer": {"weight": init_2},
+            "output_projection_layer": {"weight": init_2},
+            "heads": 8,
+            "head_dim": 32,
         },
     },
     megatron_args=None,
-    checkpoint_format=AprielHybridSSMCheckpointFormat,
+    checkpoint_format=Apriel2TextCheckpointFormat,
     groups={
         ModelTestingGroup.basic: ModelTestingGroupAction.normal,
-        ModelTestingGroup.checkpoint: ModelTestingGroupAction.broken,
-        ModelTestingGroup.convert: ModelTestingGroupAction.broken,
+        ModelTestingGroup.checkpoint: ModelTestingGroupAction.normal,
+        ModelTestingGroup.convert: ModelTestingGroupAction.normal,
         ModelTestingGroup.generate: ModelTestingGroupAction.not_implemented,
         ModelTestingGroup.megatron: ModelTestingGroupAction.not_implemented,
         ModelTestingGroup.distributed: ModelTestingGroupAction.normal,
@@ -812,110 +820,68 @@ def update_and_add_testing_config(
     requires_cuda=True,
 )
 
+_kda_block = MODEL_CONFIGS["apriel2_kda"].config_dict["model"]["base_model"]["decoder"]["block"]
 
 update_and_add_testing_config(
     # Tests apriel2 format with pattern decoder mixing all mixer types.
     # This comprehensive test exercises: attention, mamba, stochastic mixer, sliding window attention, gdn.
     "llama",
-    "apriel2_text",
+    "apriel2_hybrid",
     updates={
         ("model", "base_model", "tied_embedding_weight"): True,
         ("model", "base_model", "decoder"): {
             "type": "pattern",
             "blocks": {
-                "attn_full": {
-                    **copy.deepcopy(_llama_block),
-                    "mixer": {
-                        "type": "attention",
-                        "rotary": {"type": "default", "theta": 10000},
-                        "heads": 4,
-                        "head_groups": 2,
-                        "head_size": 16,
-                        "add_linear_biases": False,
-                    },
-                },
-                "mamba": {
-                    **copy.deepcopy(_llama_block),
-                    "mixer": {
-                        "type": "mamba",
-                        "d_inner": 256,
-                        "state_size": 8,
-                        "dt_rank": 8,
-                        "d_xb": 128,
-                        "add_linear_biases": False,
-                    },
-                },
-                "stochastic": {
-                    **copy.deepcopy(_llama_block),
-                    "mixer": {
-                        "type": "stochastic",
-                        "mixers": {
-                            "attn": {
-                                "type": "attention",
-                                "rotary": {"type": "default", "theta": 10000},
-                                "heads": 4,
-                                "head_groups": 2,
-                                "head_size": 16,
-                                "add_linear_biases": False,
-                            },
-                            "gdn": {
-                                "type": "gdn",
-                                "value_heads": 4,
-                                "key_heads": 4,
-                                "key_head_dim": 16,
-                                "value_head_dim": 16,
-                            },
-                            "mamba": {
-                                "type": "mamba",
-                                "d_inner": 256,
-                                "state_size": 8,
-                                "dt_rank": 8,
-                                "d_xb": 128,
-                                "add_linear_biases": False,
-                            },
-                            "kda": {
-                                "type": "kda",
-                                "heads": 4,
-                                "head_dim": 16,
-                            },
-                        },
-                        "sampling_strategy": "uniform",
-                        "main_mixer_name": "attn",
-                    },
-                },
+                "attn_full": copy.deepcopy(_llama_block),
                 "attn_swa": {
                     **copy.deepcopy(_llama_block),
                     "mixer": {
-                        "type": "attention",
-                        "rotary": {"type": "default", "theta": 10000},
-                        "heads": 4,
-                        "head_groups": 2,
-                        "head_size": 16,
+                        **copy.deepcopy(_llama_block["mixer"]),
                         "window_size": 128,
-                        "add_linear_biases": False,
-                    },
-                },
-                "gdn": {
-                    **copy.deepcopy(_llama_block),
-                    "mixer": {
-                        "type": "gdn",
-                        "value_heads": 4,
-                        "key_heads": 4,
-                        "key_head_dim": 16,
-                        "value_head_dim": 16,
-                    },
-                },
-                "kda": {
-                    **copy.deepcopy(_llama_block),
-                    "mixer": {
-                        "type": "kda",
-                        "heads": 4,
-                        "head_dim": 16,
                     },
                 },
+                "gdn": copy.deepcopy(_gdn_block),
+                "kda": copy.deepcopy(_kda_block),
+            },
+            "pattern": ["attn_full", "attn_swa", "gdn", "kda"],
+            "num_blocks": 4,
+        },
+    },
+    megatron_args=None,
+    checkpoint_format=Apriel2TextCheckpointFormat,
+    groups={
+        ModelTestingGroup.basic: ModelTestingGroupAction.normal,
+        ModelTestingGroup.checkpoint: ModelTestingGroupAction.normal,
+        ModelTestingGroup.convert: ModelTestingGroupAction.normal,
+        ModelTestingGroup.generate: ModelTestingGroupAction.not_implemented,
+        ModelTestingGroup.megatron: ModelTestingGroupAction.not_implemented,
+        ModelTestingGroup.distributed: ModelTestingGroupAction.normal,
+    },
+    compare_factor=12.0,
+    hf_compare_factor=1.5,
+    # Micro-sequence split not supported for Mamba.
+    # Pipeline-parallel gives a different mixer selection.
+    # TP excluded because no gradient reductions implemented for TP norm in GDN (use STP instead).
+    skip_tests=("sdp", "ms", "pp", TP_NO_STP),
+    requires_cuda=True,
+)
+
+update_and_add_testing_config(
+    # Tests apriel2 format with pattern decoder mixing all mixer types.
+    # This comprehensive test exercises: attention, mamba, stochastic mixer, sliding window attention, gdn.
+    "llama",
+    "apriel2_stochastic",
+    updates={
+        ("model", "base_model", "tied_embedding_weight"): True,
+        ("model", "base_model", "decoder", "block", "mixer"): {
+            "type": "stochastic",
+            "mixers": {
+                "attn": copy.deepcopy(_llama_block["mixer"]),
+                "gdn": copy.deepcopy(_gdn_block["mixer"]),
+                "kda": copy.deepcopy(_kda_block["mixer"]),
             },
-            "pattern": ["attn_full", "mamba", "stochastic", "attn_swa", "gdn", "kda", "stochastic"],
-            "num_blocks": 7,
+            "sampling_strategy": "uniform",
+            "main_mixer_name": "attn",
         },
     },
     megatron_args=None,
@@ -940,15 +906,13 @@ def update_and_add_testing_config(
 update_and_add_testing_config(
     # Tests apriel2 multimodal format combining pattern decoder with vision encoder.
     # Uses the same decoder as apriel2_text but adds vision capabilities.
-    "apriel2_text",
+    "apriel2_attn",
     "apriel2_multimodal",
     model_type="multimodal",
     updates={
         ("model", "base_model", "vision_encoder"): copy.deepcopy(
             MODEL_CONFIGS["llava"].config_dict["model"]["base_model"]["vision_encoder"]
         ),
-        # Reduce decoder blocks for faster testing
-        ("model", "base_model", "decoder", "num_blocks"): 2,
         # Extend the vocab size to ensure the image token id is not in the mock dataset.
         ("model", "base_model", "embeddings", "vocab_size"): 386,
         ("model", "base_model", "image_token_index"): 384,

From f2a2e94d50bc63b72767e5427314e8446486c31e Mon Sep 17 00:00:00 2001
From: Joel Lamy-Poirier <joel.lamy-poirier@servicenow.com>
Date: Thu, 12 Mar 2026 15:31:32 -0400
Subject: [PATCH 34/37] fixes

---
 fast_llm/data/document/patch.py | 64 +++++++++++++++++++++------------
 tests/utils/model_configs.py    | 13 ++++---
 2 files changed, 49 insertions(+), 28 deletions(-)

diff --git a/fast_llm/data/document/patch.py b/fast_llm/data/document/patch.py
index a35a1a142..090757825 100644
--- a/fast_llm/data/document/patch.py
+++ b/fast_llm/data/document/patch.py
@@ -95,9 +95,10 @@ def get_model_input(self, begin: int, end: int, config: PatchPreprocessingConfig
                 positions=self.positions[begin:end],
                 namespace=config.namespace,
             )
-            pad_size = 0
             unpadded_length = end - begin
-
+            lengths = [end - begin]
+            sequence_k_past = begin
+            first_document_begin = begin
         else:
             # Here `begin` and `end` refer to token rather than patch positions,
             # so we build a filter from the token map to get the corresponding patch positions.
@@ -120,34 +121,51 @@ def get_model_input(self, begin: int, end: int, config: PatchPreprocessingConfig
                 namespace=config.namespace,
             )
 
-        patch_begin = 0
-        lengths = []
-        for length in self.lengths:
-            patch_end = patch_begin + length
-            filtered_length = end - begin if is_meta else patch_filter[patch_begin:patch_end].sum().item()
-            if filtered_length > 0:
-                if not lengths:
-                    sequence_k_past = patch_end - filtered_length
-                    first_document_begin = patch_begin
-                lengths.append(filtered_length)
-            if patch_end >= end:
-                break
-            elif len(lengths) > 1:
-                # We assume the token map is ordered, so only the first and last patch may be cropped.
-                Assert.eq(filtered_length, length)
-            patch_begin = patch_end
-
-        if pad_size > 0:
-            lengths.append(pad_size)
+            patch_begin = 0
+            # We assume the token map is ordered, so only the first and last patch may be cropped.
+            done = False
+            lengths = []
+            for length in self.lengths:
+                patch_end = patch_begin + length
+                document_patch_filter = patch_filter[patch_begin:patch_end]
+                filtered_length = document_patch_filter.sum().item()
+                if filtered_length > 0:
+                    assert not done
+                    filtered = document_patch_filter.nonzero()
+                    filter_begin = filtered[0].item()
+                    filter_end = filtered[-1].item() + 1
+                    Assert.eq(filtered_length, filter_end - filter_begin)
+                    if filter_begin > 0:
+                        # Only the first patch may be cropped at the beginning.
+                        assert not lengths
+                    if filter_end < length:
+                        # TODO: Support non-causal cropping (needs to know about the future too).
+                        assert not config.causal
+                        # Last patch is cropped at the end, future patches should be completely cropped.
+                        done = True
+                    if not lengths:
+                        sequence_k_past = patch_begin + filter_begin
+                        first_document_begin = patch_begin
+                    lengths.append(filtered_length)
+
+                elif lengths:
+                    # Last patch already seen, mark as done.
+                    done = True
+
+                patch_begin = patch_end
+
+            if pad_size > 0:
+                lengths.append(pad_size)
 
         LengthModelInputPreprocessor(
             lengths=lengths,
             sequence_k_past=sequence_k_past,
             first_document_begin=first_document_begin,
-            last_document_end=patch_end + pad_size,
+            # TODO:
+            last_document_end=end,
             device=self.patches.device,
             unpadded_length=unpadded_length,
-            sequence_length=len(self.patches),
+            sequence_length=len(model_input.patches),
         ).preprocess(model_input, config)
 
         if is_meta:
diff --git a/tests/utils/model_configs.py b/tests/utils/model_configs.py
index 2cc0afa3d..a77d9cd8f 100644
--- a/tests/utils/model_configs.py
+++ b/tests/utils/model_configs.py
@@ -683,8 +683,7 @@ def update_and_add_testing_config(
     },
     compare_factor=6.0,
     # Micro-sequence split and sequence-first not supported.
-    # TODO: Gradient accumulation works but comparison is broken.
-    skip_tests=("sdp", "ms", GRAD_ACC),
+    skip_tests=("sdp", "ms"),
     auto_model_class=transformers.AutoModelForImageTextToText,
 )
 
@@ -701,6 +700,7 @@ def update_and_add_testing_config(
         ModelTestingGroup.convert: ModelTestingGroupAction.normal,
         ModelTestingGroup.generate: ModelTestingGroupAction.not_implemented,
         ModelTestingGroup.megatron: ModelTestingGroupAction.not_implemented,
+        # Same as llama
         ModelTestingGroup.distributed: ModelTestingGroupAction.unimportant,
     },
     compare_factor=10.0,  # High diff for fp16 and bf16 due to rms_norm_gated from fla
@@ -773,7 +773,8 @@ def update_and_add_testing_config(
         ModelTestingGroup.convert: ModelTestingGroupAction.normal,
         ModelTestingGroup.generate: ModelTestingGroupAction.not_implemented,
         ModelTestingGroup.megatron: ModelTestingGroupAction.not_implemented,
-        ModelTestingGroup.distributed: ModelTestingGroupAction.normal,
+        # Tested through apriel2_hybrid.
+        ModelTestingGroup.distributed: ModelTestingGroupAction.unimportant,
     },
     compare_factor=10.0,  # High diff for fp16 and bf16 due to rms_norm_gated from fla
     # note: tp is excluded because there is currently no gradient reductions implemented for tp norm in gdn.py (STP works though).
@@ -811,7 +812,8 @@ def update_and_add_testing_config(
         ModelTestingGroup.convert: ModelTestingGroupAction.normal,
         ModelTestingGroup.generate: ModelTestingGroupAction.not_implemented,
         ModelTestingGroup.megatron: ModelTestingGroupAction.not_implemented,
-        ModelTestingGroup.distributed: ModelTestingGroupAction.normal,
+        # Tested through apriel2_hybrid.
+        ModelTestingGroup.distributed: ModelTestingGroupAction.unimportant,
     },
     compare_factor=15.0,  # similar to gdn with compare_factor 2 fails fp16 and bf16 tests in the normalization layer when using rms_norm_gated from fla
     # note: tp is excluded because there is currently no gradient reductions implemented for tp norm in gdn.py (STP works though).
@@ -906,7 +908,7 @@ def update_and_add_testing_config(
 update_and_add_testing_config(
     # Tests apriel2 multimodal format combining pattern decoder with vision encoder.
     # Uses the same decoder as apriel2_text but adds vision capabilities.
-    "apriel2_attn",
+    "llava",
     "apriel2_multimodal",
     model_type="multimodal",
     updates={
@@ -926,6 +928,7 @@ def update_and_add_testing_config(
         ModelTestingGroup.convert: ModelTestingGroupAction.normal,
         ModelTestingGroup.generate: ModelTestingGroupAction.not_implemented,
         ModelTestingGroup.megatron: ModelTestingGroupAction.not_implemented,
+        # Same as llava.
         ModelTestingGroup.distributed: ModelTestingGroupAction.unimportant,
     },
     compare_factor=6.0,

From 8dd1186323daea32696e9f6d23ca8d626800ef6e Mon Sep 17 00:00:00 2001
From: Joel Lamy-Poirier <joel.lamy-poirier@servicenow.com>
Date: Fri, 13 Mar 2026 15:43:04 -0400
Subject: [PATCH 35/37] fixes

---
 fast_llm/data/document/block.py            |  14 +++
 fast_llm/functional/triton/rotary.py       |   6 +-
 fast_llm/layers/attention/attention.py     |  57 ++++++----
 fast_llm/layers/attention/rotary/rotary.py | 124 +++++++++++++++------
 fast_llm/layers/block/block.py             |   4 +-
 fast_llm/layers/block/config.py            |   2 +-
 fast_llm/layers/language_model/head.py     |   2 +-
 fast_llm/logging.py                        |   2 +-
 tests/utils/model_configs.py               |   2 +
 9 files changed, 153 insertions(+), 60 deletions(-)

diff --git a/fast_llm/data/document/block.py b/fast_llm/data/document/block.py
index af136de09..530be42ea 100644
--- a/fast_llm/data/document/block.py
+++ b/fast_llm/data/document/block.py
@@ -18,6 +18,7 @@ class BlockModelInput(ModelInput):
     token_dim: TensorDim = None
     hidden_token_dim: TensorDim = None
     sequence_k_dim: TensorDim = None
+    key_value_token_dim: TensorDim = None
     unpadded_length: int = None  # Number of tokens in the current input excluding padding at the end.
     sequence_length: int = None  # Total number of tokens across all inputs, including padding.
     lengths: list[int] = None
@@ -35,6 +36,7 @@ def to_kwargs(self) -> dict[str, typing.Any]:
             LanguageModelKwargs.token_dim: self.token_dim,
             LanguageModelKwargs.hidden_token_dim: self.hidden_token_dim,
             LanguageModelKwargs.sequence_k_dim: self.sequence_k_dim,
+            LanguageModelKwargs.key_value_token_dim: self.key_value_token_dim,
             LanguageModelKwargs.num_tokens: self.unpadded_length,
             LanguageModelKwargs.sequence_length: self.sequence_length,
             LanguageModelKwargs.lengths: self.lengths,
@@ -77,6 +79,18 @@ def preprocess(self, model_input: BlockModelInput, config: LengthPreprocessingCo
             if config.distributed.sequence_tensor_parallel
             else model_input.token_dim
         )
+
+        # Key-value token dim after sequence-data-parallel gather.
+        model_input.key_value_token_dim = (
+            TensorDim(
+                "key_value_token",
+                self.length * data_dim.size,
+                config.distributed.get_distributed_dim(DistributedDimNames.batch_data),
+            )
+            if config.distributed.sequence_data_parallel > 1
+            else model_input.token_dim
+        )
+        # Key-value token dim as seen by the attention layer, after concatenating the past and cropping the future.
         model_input.sequence_k_dim = TensorDim("sequence_k", self.sequence_k_past + self.length)
 
         if not config.causal:
diff --git a/fast_llm/functional/triton/rotary.py b/fast_llm/functional/triton/rotary.py
index fd5f50dca..3d9c07145 100644
--- a/fast_llm/functional/triton/rotary.py
+++ b/fast_llm/functional/triton/rotary.py
@@ -71,9 +71,12 @@ def triton_rotary_(
     # TODO: Make a transposed version to avoid contiguous call in key backward.
     # TODO: Improve block size heuristics.
     out = input_
-    assert input_.stride(-1) == 1, f"{input_.shape} {input_.stride()}"
+    if input_.stride(-1) != 1:
+        # TODO: Make a transposed version to avoid contiguous call in key backward.
+        input_ = input_.contiguous()
     if input_.ndim == 3:
         input_ = input_.unsqueeze(0)
+        frequencies = frequencies.unsqueeze(0)
     if is_key_value:
         input_ = input_.chunk(2, dim=-2)[0]
     batch_size, seq_len, num_heads, head_size = input_.shape
@@ -107,7 +110,6 @@ def triton_rotary_forward_(
 
 
 def triton_rotary_backward_(grad_output: torch.Tensor, context: tuple[torch.Tensor, bool]) -> torch.Tensor:
-    # TODO: Make a transposed version to avoid contiguous call in key backward.
     frequencies, is_key_value = context
     if grad_output.stride(-1) != 1:
         grad_output = grad_output.contiguous()
diff --git a/fast_llm/layers/attention/attention.py b/fast_llm/layers/attention/attention.py
index feebf921f..5997f341a 100644
--- a/fast_llm/layers/attention/attention.py
+++ b/fast_llm/layers/attention/attention.py
@@ -237,7 +237,7 @@ def _attn_flash(
         )
 
     def _query_key_value_forward(
-        self, input_: torch.Tensor
+        self, input_: torch.Tensor, kwargs: dict[str, typing.Any]
     ) -> tuple[torch.Tensor, torch.Tensor, dict[str, typing.Any]]:
         key_value, key_value_context = self.key_value.forward_only(input_)
 
@@ -246,21 +246,27 @@ def _query_key_value_forward(
         if self._config.head_groups == 1 and self._sequence_parallel:
             key_value, handle = gather_op(key_value, group=self._parallel_dim.group, dim=0, async_op=True)
 
+        query, query_context = self.query.forward_only(input_)
+
+        if handle:
+            # TODO: This is probably unnecessary.
+            handle.wait()
+
+        query, key_value, rotary_context = self._rotary.forward_only(
+            query.unflatten(1, (self._local_heads, self._config.head_size)),
+            key_value.unflatten(1, (2 * self._local_head_groups, self._config.head_size)),
+            kwargs,
+        )
+
         if self._sequence_data_parallel_dim.group:
-            if handle:
-                # TODO: This is probably unnecessary.
-                handle.wait()
             # sequence dim may not be zero, but this needs to be handled after `handle.wait()`
             key_value, handle = gather_op(
                 key_value, group=self._sequence_data_parallel_dim.group, dim=0, async_op=True
             )
-
-        query, query_context = self.query.forward_only(input_)
-
         if handle:
             handle.wait()
 
-        context = {"query": query_context, "key_value": key_value_context}
+        context = {"query": query_context, "key_value": key_value_context, "rotary": rotary_context}
         return query, key_value, context
 
     def _query_key_value_backward(
@@ -274,12 +280,18 @@ def _query_key_value_backward(
             async_op=True,
         )
 
+        rotary_context = context.pop("rotary")
+        query_grad, _ = self._rotary.backward(query_grad, None, rotary_context)
+
         # TODO: Overlap with both.
-        input_grad = self.query.backward(query_grad, context.pop("query"))
+        input_grad = self.query.backward(query_grad.flatten(1), context.pop("query"))
 
         if handle:
             handle.wait()
 
+        _, key_value_grad = self._rotary.backward(None, key_value_grad, rotary_context)
+        key_value_grad = key_value_grad.flatten(1)
+
         if self._config.head_groups == 1 and (group := self._parallel_dim.group):
             if self._sequence_parallel:
                 key_value_grad = reduce_scatter_op(key_value_grad, group=group, dim=0)
@@ -296,10 +308,15 @@ def _forward(
         losses: dict[str, typing.Any] | None = None,
         metrics: dict[str, typing.Any] | None = None,
     ) -> tuple[torch.Tensor, torch.Tensor | None]:
-        query, key_value = self._query_key_value(input_)
-        query = query.unflatten(-1, (self._local_heads, self._config.head_size))
-        key_value = key_value.unflatten(-1, (2 * self._local_head_groups, self._config.head_size))
-        query, key_value = self._rotary(query, key_value, kwargs)
+        self._debug(input_, "attn_input", (kwargs[AttentionKwargs.hidden_token_dim], self._hidden_dim), kwargs)
+        query, key_value = self._query_key_value(input_, kwargs)
+
+        self._debug(
+            key_value.chunk(2, dim=1)[0],
+            "key_rotary_input",
+            (kwargs[AttentionKwargs.key_value_token_dim], *self._kv_dims),
+            kwargs,
+        )
 
         # TODO: These get unnecessarily big with lots of small documents.
         if (past_key_values := kwargs.get(AttentionKwargs.past_key_values)) is not None:
@@ -316,10 +333,6 @@ def _forward(
         key_value = key_value[: kwargs[AttentionKwargs.sequence_k_dim].size]
         key, value = key_value.chunk(2, dim=1)
 
-        self._debug(
-            query, "query_rotary_input", (token_dim := kwargs[AttentionKwargs.token_dim], *self._query_dims), kwargs
-        )
-        self._debug(key, "key_rotary_input", (token_dim, *self._kv_dims), kwargs)
         with set_generator(self._distributed.tp_generator):
             if self._implementation == AttentionImplementation.flash:
                 input_ = self._attn_flash(query, key, value, kwargs)
@@ -328,13 +341,13 @@ def _forward(
                 input_ = self._attn_backup(query, key, value, kwargs)
             else:
                 raise NotImplementedError(self._implementation)
-
-        self._debug(query, "query", (token_dim, *self._query_dims), kwargs)
-        self._debug(key, "key", (token_dim, *self._kv_dims), kwargs)
-        self._debug(value, "value", (token_dim, *self._kv_dims), kwargs)
+        input_ = input_.flatten(1)
+        self._debug(query, "query", (token_dim := kwargs[AttentionKwargs.token_dim], *self._query_dims), kwargs)
+        self._debug(key, "key", (sequence_k_dim := kwargs[AttentionKwargs.sequence_k_dim], *self._kv_dims), kwargs)
+        self._debug(value, "value", (sequence_k_dim, *self._kv_dims), kwargs)
         self._debug(input_, "context", (token_dim, self._dense_dim), kwargs)
 
-        out, bias = self.dense(input_.flatten(1))
+        out, bias = self.dense(input_)
         self._debug(
             out,
             None,
diff --git a/fast_llm/layers/attention/rotary/rotary.py b/fast_llm/layers/attention/rotary/rotary.py
index 9ce460e8d..7752e058c 100644
--- a/fast_llm/layers/attention/rotary/rotary.py
+++ b/fast_llm/layers/attention/rotary/rotary.py
@@ -7,7 +7,7 @@
 from fast_llm.config import Configurable
 from fast_llm.engine.config_utils.tensor_dim import TensorDim
 from fast_llm.functional.config import TritonConfig
-from fast_llm.functional.triton.rotary import triton_rotary_autograd_
+from fast_llm.functional.triton.rotary import triton_rotary_
 from fast_llm.layers.attention.config import AttentionKwargs
 from fast_llm.layers.attention.rotary.config import (
     DefaultRotaryConfig,
@@ -44,7 +44,7 @@ def rotary_embeddings_complex(tensor: torch.Tensor, frequencies: torch.Tensor) -
 
 @torch.compile
 def rotary_embeddings_real(
-    tensor: torch.Tensor, frequencies: torch.Tensor, is_key_value: bool = False
+    tensor: torch.Tensor, frequencies: torch.Tensor, is_key_value: bool = False, backward: bool = False
 ) -> torch.Tensor:
     """
     Apply rotary embeddings to a tensor.
@@ -54,18 +54,44 @@ def rotary_embeddings_real(
     tensor_re, tensor_im = torch.chunk(tensor, 2, dim=-1)
     frequencies_re, frequencies_im = torch.chunk(frequencies, 2, dim=-1)
 
-    out = torch.cat(
-        [
-            tensor_re * frequencies_re - tensor_im * frequencies_im,
-            tensor_im * frequencies_re + tensor_re * frequencies_im,
-        ],
-        dim=-1,
-    ).to(tensor.dtype)
+    if backward:
+        out = torch.cat(
+            [
+                tensor_re * frequencies_re + tensor_im * frequencies_im,
+                tensor_im * frequencies_re - tensor_re * frequencies_im,
+            ],
+            dim=-1,
+        ).to(tensor.dtype)
+    else:
+        out = torch.cat(
+            [
+                tensor_re * frequencies_re - tensor_im * frequencies_im,
+                tensor_im * frequencies_re + tensor_re * frequencies_im,
+            ],
+            dim=-1,
+        ).to(tensor.dtype)
     if is_key_value:
         out = torch.cat([out, value], dim=-2)
     return out
 
 
+class _RotaryFunction(torch.autograd.Function):
+    @staticmethod
+    def forward(
+        ctx, query: torch.Tensor, key_value: torch.Tensor, kwargs: dict[str, typing.Any], rotary: "Rotary"
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        query, key_value, context = rotary.forward_only(query, key_value, kwargs)
+        ctx.rotary = rotary
+        ctx.context = context
+        return query, key_value
+
+    @staticmethod
+    def backward(
+        ctx, query_grad: torch.Tensor, key_value_grad: torch.Tensor
+    ) -> tuple[torch.Tensor, torch.Tensor, None, None]:
+        return ctx.rotary.backward(query_grad, key_value_grad, ctx.context)
+
+
 class Rotary[ConfigType: RotaryConfig](Configurable[ConfigType], torch.nn.Module):
     def __init__(
         self,
@@ -75,10 +101,21 @@ def __init__(
         super().__init__(config)
         self._head_size = head_size_dim.global_size
 
-    @abc.abstractmethod
     def forward(
-        self, query: torch.Tensor, key: torch.Tensor, kwargs: dict[str, typing.Any]
-    ) -> tuple[torch.Tensor, torch.Tensor]:
+        self, query: torch.Tensor | None, key: torch.Tensor | None, kwargs: dict[str, typing.Any]
+    ) -> tuple[torch.Tensor | None, torch.Tensor | None]:
+        return _RotaryFunction.apply(query, key, kwargs, self)
+
+    @abc.abstractmethod
+    def forward_only(
+        self, query: torch.Tensor | None, key_value: torch.Tensor | None, kwargs: dict[str, typing.Any]
+    ) -> tuple[torch.Tensor | None, torch.Tensor | None, typing.Any]:
+        pass
+
+    @abc.abstractmethod
+    def backward(
+        self, query_grad: torch.Tensor | None, key_value_grad: torch.Tensor | None, context: typing.Any
+    ) -> tuple[torch.Tensor | None, torch.Tensor | None]:
         pass
 
     def preprocess(self, kwargs: dict[str, typing.Any]) -> None:
@@ -87,12 +124,51 @@ def preprocess(self, kwargs: dict[str, typing.Any]) -> None:
 
 class NoRotary[ConfigType: NoRotaryConfig](Rotary[ConfigType]):
     def forward(
-        self, query: torch.Tensor, key: torch.Tensor, kwargs: dict[str, typing.Any]
+        self, query: torch.Tensor | None, key_value: torch.Tensor | None, kwargs: dict[str, typing.Any]
     ) -> tuple[torch.Tensor, torch.Tensor]:
-        return query, key
+        return query, key_value
 
+    def forward_only(
+        self, query: torch.Tensor | None, key_value: torch.Tensor | None, kwargs: dict[str, typing.Any]
+    ) -> tuple[torch.Tensor | None, torch.Tensor | None, typing.Any]:
+        return query, key_value, None
 
-class DefaultRotary[ConfigType: DefaultRotaryConfig](Rotary[ConfigType]):
+    def backward(
+        self, query_grad: torch.Tensor, key_value_grad: torch.Tensor, context: typing.Any
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        return query_grad, key_value_grad
+
+
+class RotaryBase[ConfigType: DefaultRotaryConfig](Rotary[ConfigType]):
+    @classmethod
+    def _forward(
+        cls,
+        query: torch.Tensor | None,
+        key_value: torch.Tensor | None,
+        frequencies: torch.Tensor,
+        backward: bool = False,
+    ) -> tuple[torch.Tensor | None, torch.Tensor | None]:
+        rotary_fn = triton_rotary_ if TritonConfig.enabled(frequencies.device) else rotary_embeddings_real
+        query = None if query is None else rotary_fn(query, frequencies, backward=backward)
+        key_value = (
+            None if key_value is None else rotary_fn(key_value, frequencies, is_key_value=True, backward=backward)
+        )
+        return query, key_value
+
+    def forward_only(
+        self, query: torch.Tensor | None, key_value: torch.Tensor | None, kwargs: dict[str, typing.Any]
+    ) -> tuple[torch.Tensor | None, torch.Tensor | None, torch.Tensor]:
+        frequencies: torch.Tensor = kwargs[AttentionKwargs.rotary_freq]
+        query, key_value = self._forward(query, key_value, frequencies, backward=False)
+        return query, key_value, frequencies
+
+    def backward(
+        self, query_grad: torch.Tensor | None, key_value_grad: torch.Tensor | None, context: torch.Tensor
+    ) -> tuple[torch.Tensor | None, torch.Tensor | None]:
+        return self._forward(query_grad, key_value_grad, context, backward=True)
+
+
+class DefaultRotary[ConfigType: DefaultRotaryConfig](RotaryBase[ConfigType]):
     _rotary_embedding_frequencies: torch.Tensor
     _tensor_cache_max_sequence_length: int = -1
 
@@ -103,14 +179,6 @@ def preprocess(self, kwargs: dict[str, typing.Any]) -> None:
             sequence_k - kwargs[AttentionKwargs.token_dim].size : sequence_k
         ]
 
-    def forward(
-        self, query: torch.Tensor, key_value: torch.Tensor, kwargs: dict[str, typing.Any]
-    ) -> tuple[torch.Tensor, torch.Tensor]:
-        rotary_fn = triton_rotary_autograd_ if TritonConfig.enabled(query.device) else rotary_embeddings_real
-        query = rotary_fn(query, kwargs[AttentionKwargs.rotary_freq])
-        key_value = rotary_fn(key_value, kwargs[AttentionKwargs.rotary_freq], is_key_value=True)
-        return query, key_value
-
     def _create_tensors(self, sequence_length: int, device: torch.device) -> None:
         if sequence_length <= self._tensor_cache_max_sequence_length:
             return
@@ -201,7 +269,7 @@ def _get_correction(self, beta: float, dim: int) -> float:
         )
 
 
-class Rotary2D[ConfigType: Rotary2DConfig](Rotary[ConfigType]):
+class Rotary2D[ConfigType: Rotary2DConfig](RotaryBase[ConfigType]):
     _frequencies: torch.Tensor
     _config: ConfigType
 
@@ -234,11 +302,3 @@ def preprocess(self, kwargs: dict[str, typing.Any]) -> None:
             torch.view_as_real(frequencies).flatten(-2), self._head_size, 2
         ).contiguous()
         kwargs[AttentionKwargs.rotary_freq] = frequencies
-
-    def forward(
-        self, query: torch.Tensor, key_value: torch.Tensor, kwargs: dict[str, typing.Any]
-    ) -> tuple[torch.Tensor, torch.Tensor]:
-        rotary_fn = triton_rotary_autograd_ if TritonConfig.enabled(query.device) else rotary_embeddings_real
-        query = rotary_fn(query, kwargs[AttentionKwargs.rotary_freq])
-        key_value = rotary_fn(key_value, kwargs[AttentionKwargs.rotary_freq], is_key_value=True)
-        return query, key_value
diff --git a/fast_llm/layers/block/block.py b/fast_llm/layers/block/block.py
index dc7334b45..acf807c69 100644
--- a/fast_llm/layers/block/block.py
+++ b/fast_llm/layers/block/block.py
@@ -77,7 +77,9 @@ def _get_meta(
         tensor: torch.Tensor | None,
         name: str,
         dims: tuple[TensorDim | str | None, ...] | None,
-    ) -> TensorMeta:
+    ) -> TensorMeta | None:
+        if tensor is None:
+            return None
         if dims is None:
             dims = tuple(f"dim_{i}" for i in range(tensor.ndim))
         return TensorMeta.from_dims(
diff --git a/fast_llm/layers/block/config.py b/fast_llm/layers/block/config.py
index 7260e8156..184d00504 100644
--- a/fast_llm/layers/block/config.py
+++ b/fast_llm/layers/block/config.py
@@ -32,8 +32,8 @@ class BlockDimNames:
 
 class BlockKwargs:
     batch_dim = "batch_dim"
-    sequence_q_dim = "sequence_q_dim"
     sequence_k_dim = "sequence_k_dim"
+    key_value_token_dim = "key_value_token_dim"
     token_dim = "token_dim"
     num_tokens = "num_tokens"
     hidden_token_dim = "hidden_token_dim"
diff --git a/fast_llm/layers/language_model/head.py b/fast_llm/layers/language_model/head.py
index c6b1b8253..5d997a14c 100644
--- a/fast_llm/layers/language_model/head.py
+++ b/fast_llm/layers/language_model/head.py
@@ -259,7 +259,7 @@ def _logits_loss_forward_backward_partial(
         self._debug(
             logits,
             f"logits{"" if self._config.cross_entropy_splits == 1 else f"_{split_index}"}",
-            (kwargs.get(LanguageModelKwargs.hidden_token_dim), self._hidden_dim),
+            (kwargs.get(LanguageModelKwargs.hidden_token_dim), self._vocab_dim),
             kwargs,
             scale=self._config.logits_scale_factor,
         )
diff --git a/fast_llm/logging.py b/fast_llm/logging.py
index 0ce0b793d..0508e7064 100644
--- a/fast_llm/logging.py
+++ b/fast_llm/logging.py
@@ -164,7 +164,7 @@ def log_tensor[T](
                 max=v_float.max().item(),
             )
             if TensorLogs.config.full_tensors:
-                stats["tensor"] = tensor
+                stats["tensor"] = tensor.clone()
         txt.extend(
             [
                 ("mu", format_number(stats["mu"] * scale), 10),
diff --git a/tests/utils/model_configs.py b/tests/utils/model_configs.py
index a77d9cd8f..0a87e245e 100644
--- a/tests/utils/model_configs.py
+++ b/tests/utils/model_configs.py
@@ -208,6 +208,8 @@ def update_and_add_testing_config(
             "tensor_logs": {
                 "save": True,
                 "show": False,
+                # Uncomment to save whole tensors for debugging
+                # "full_tensors": True,
             },
             # Triton kernels are extremely slow in interpreter mode.
             "enable_triton_kernels": torch.cuda.is_available(),

From 362d7587a112984d1ada6018a026c60086c0681f Mon Sep 17 00:00:00 2001
From: Joel Lamy-Poirier <joel.lamy-poirier@servicenow.com>
Date: Mon, 16 Mar 2026 17:05:09 -0400
Subject: [PATCH 36/37] fixes

---
 fast_llm/__init__.py                          |  2 +-
 fast_llm/data/data/abstract.py                |  2 --
 fast_llm/data/data/gpt/data.py                |  1 -
 fast_llm/data/dataset/blended.py              |  2 +-
 fast_llm/data/dataset/config.py               | 18 ++++++------
 .../data/dataset/memmap/language_model.py     |  5 ----
 fast_llm/data/dataset/sampled.py              | 28 +++++++++++++------
 fast_llm/data/document/abstract.py            |  8 ------
 fast_llm/data/document/patch.py               |  4 +--
 fast_llm/engine/training/trainer.py           |  2 +-
 fast_llm/layers/attention/attention.py        |  2 +-
 fast_llm/layers/language_model/embedding.py   |  2 +-
 fast_llm/layers/language_model/loss/dpo.py    |  2 +-
 fast_llm/layers/ssm/gdn.py                    |  2 +-
 fast_llm/layers/ssm/kda.py                    |  2 +-
 .../models/multimodal/conversion/llava.py     |  2 +-
 tests/data/common.py                          |  1 -
 tests/data/test_image_patch.py                |  6 ++--
 tests/layers/test_varlen.py                   |  2 --
 tests/models/test_checkpoint.py               |  2 +-
 20 files changed, 43 insertions(+), 52 deletions(-)

diff --git a/fast_llm/__init__.py b/fast_llm/__init__.py
index 493f7415d..6a9beea82 100644
--- a/fast_llm/__init__.py
+++ b/fast_llm/__init__.py
@@ -1 +1 @@
-__version__ = "0.3.0"
+__version__ = "0.4.0"
diff --git a/fast_llm/data/data/abstract.py b/fast_llm/data/data/abstract.py
index 244f9d712..ad4480c8e 100644
--- a/fast_llm/data/data/abstract.py
+++ b/fast_llm/data/data/abstract.py
@@ -14,8 +14,6 @@
 
 class Data[ConfigType: DataConfig](Configurable[ConfigType], abc.ABC):
     _distributed: "Distributed"
-    # _sampling_parameters: dict[str, SamplingParameters]
-    # _preprocessing: dict[str, PreprocessingConfig]
     _cache_directory: pathlib.Path | None
     _is_setup: bool = False
 
diff --git a/fast_llm/data/data/gpt/data.py b/fast_llm/data/data/gpt/data.py
index cc83a7131..4edff3ad2 100644
--- a/fast_llm/data/data/gpt/data.py
+++ b/fast_llm/data/data/gpt/data.py
@@ -28,7 +28,6 @@ class GPTData[ConfigType: GPTDataConfig](Data[ConfigType]):
     """
 
     _datasets: dict[str, SampledDataset]
-    # _sampling_parameters: dict[str, SamplingParameters]
     _preprocessing: dict[str, LanguageModelBatchPreprocessingConfig]
 
     def __init__(
diff --git a/fast_llm/data/dataset/blended.py b/fast_llm/data/dataset/blended.py
index 088acddb5..dfe415495 100644
--- a/fast_llm/data/dataset/blended.py
+++ b/fast_llm/data/dataset/blended.py
@@ -60,7 +60,7 @@ def __getitem__(self, index: int) -> list[DocumentType]:
         sampled = self._get_sampled(index)
         # Then get the present sample.
         dataset_index = self._get_next_dataset(index, sampled)
-        # TODO: ====== Can we mix documents from multiple datasets? ======
+        # TODO: Can we mix documents from multiple datasets?
         return self._datasets[dataset_index][sampled[dataset_index].item()]
 
     def _get_sampled(self, num_samples: int) -> torch.Tensor:
diff --git a/fast_llm/data/dataset/config.py b/fast_llm/data/dataset/config.py
index 7296f5c8c..6ec76f79f 100644
--- a/fast_llm/data/dataset/config.py
+++ b/fast_llm/data/dataset/config.py
@@ -52,13 +52,11 @@ class SamplingConfigBase(Config):
         hint=FieldHint.core,
         valid=check_field(Assert.gt, 0),
     )
-    # TODO: ===== Implement ======
-    maximum_document_length: int = Field(
+    maximum_document_length: int | None = Field(
         default=None,
         desc="Maximum number of tokens in a document."
         " Document exceeding this size will be truncated or dropped depending on `truncate_documents`.",
         hint=FieldHint.core,
-        valid=check_field(Assert.gt, 0),
     )
     truncate_documents: bool | None = Field(
         default=True,
@@ -70,11 +68,6 @@ class SamplingConfigBase(Config):
         hint=FieldHint.feature,
     )
 
-    def _validate(self) -> None:
-        if self.maximum_document_length is None:
-            self.maximum_document_length = self.micro_batch_size
-        super()._validate()
-
 
 @config_class()
 class SamplingConfig(SamplingConfigBase):
@@ -84,7 +77,6 @@ class SamplingConfig(SamplingConfigBase):
 
     # How many extra tokens to add to the sequence length.
     # This is used to provide labels even for the last tokens in the sequence.
-    # TODO: ===== Already in `preprocessing` ======
     predicted_tokens: int = Field(default=1)
     cache_directory: pathlib.Path | None = Field(default=None)
     dataset_name: str = Field(default="dataset")
@@ -95,6 +87,7 @@ class SamplingConfig(SamplingConfigBase):
     def _validate(self):
         # Using itertools.count to make the field mutable.
         self._rank_counter = itertools.count()
+        super()._validate()
 
     def is_running_next(self) -> bool:
         # Counter that loops over ranks to try to distribute workloads evenly between ranks.
@@ -104,6 +97,13 @@ def is_running_next(self) -> bool:
     def sample_size(self) -> int:
         return self.micro_batch_size + self.predicted_tokens
 
+    @functools.cached_property
+    def sampling_maximum_document_length(self) -> int:
+        if self.maximum_document_length is None:
+            return self.sample_size
+        else:
+            return min(self.maximum_document_length, self.sample_size)
+
 
 @config_class()
 class DatasetConfig[DocumentType: Document](Config):
diff --git a/fast_llm/data/dataset/memmap/language_model.py b/fast_llm/data/dataset/memmap/language_model.py
index ab31c5b07..94f73315c 100644
--- a/fast_llm/data/dataset/memmap/language_model.py
+++ b/fast_llm/data/dataset/memmap/language_model.py
@@ -12,7 +12,6 @@
 from fast_llm.data.dataset.memmap.range import RangeReader, RangeWriter
 from fast_llm.data.dataset.memmap.token import TokenWriter
 from fast_llm.data.document.abstract import Document
-from fast_llm.data.document.config import ImageNormalizationConfig
 from fast_llm.data.document.language_model import LanguageModelDocument
 from fast_llm.utils import Assert
 
@@ -26,8 +25,6 @@ def __init__(self, config: ConfigType, buffer: memoryview):
         self._chosen_spans = self._config.chosen_spans.get_reader(buffer)
         self._rejected_spans = self._config.rejected_spans.get_reader(buffer)
         self._image_patches = self._config.image_patches.get_reader(buffer)
-        # TODO: ======= Move to model preprocessing ======
-        self._image_normalization_config = ImageNormalizationConfig()
 
     @property
     def num_tokens(self) -> int:
@@ -35,8 +32,6 @@ def num_tokens(self) -> int:
 
     def get_document(self, index: int, begin: int, end: int) -> Document:
         image_patches = self._image_patches.get_document(index, begin, end)
-        if image_patches is not None:
-            image_patches.patches = self._image_normalization_config.normalize(image_patches.patches)
         return LanguageModelDocument(
             **dataclasses.asdict(self._tokens.get_document(index, begin, end)),
             loss_masking_spans=self._loss_masking_spans.get_document(index, begin, end),
diff --git a/fast_llm/data/dataset/sampled.py b/fast_llm/data/dataset/sampled.py
index dd8d313c9..839ebca73 100644
--- a/fast_llm/data/dataset/sampled.py
+++ b/fast_llm/data/dataset/sampled.py
@@ -124,11 +124,11 @@ def _sample(self) -> None:
                 "The C++ extension for dataset sampling is missing."
                 " Please make sure Fast-LLM is installed correctly."
             )
-            long_docs_filter = document_sizes > self._config.sample_size
+            long_docs_filter = document_sizes > self._config.sampling_maximum_document_length
             ignored_documents = long_docs_filter.sum().item()
             if ignored_documents:
                 log_main_rank(
-                    f" > {ignored_documents}/{documents_per_epoch} documents are longer than {self._config.sample_size} tokens and will be ignored.",
+                    f" > {ignored_documents}/{documents_per_epoch} documents are longer than {self._config.sampling_maximum_document_length} tokens and will be ignored.",
                     log_fn=logger.warning,
                 )
             tokens_per_epoch = document_sizes[~long_docs_filter].sum().item()
@@ -369,7 +369,7 @@ def __getitem__(self, index: int) -> list[DocumentType]:
             document_size = self._indexed_dataset.get_document_size(document_index)
 
             if not self._config.truncate_documents:
-                if document_size > self._config.sample_size:
+                if document_size > self._config.sampling_maximum_document_length:
                     # Document too long, ignore
                     document_sampling_index += 1
                     continue
@@ -389,12 +389,22 @@ def __getitem__(self, index: int) -> list[DocumentType]:
                 # Determine which part of the document belong to the sample, and add it to the list.
                 token_start_index_in_document = max(token_start - token_count, 0)
                 token_end_index_in_document = min(token_end - token_count, document_size)
-                documents.append(
-                    self._indexed_dataset.get_document(
-                        document_index,
-                        begin=token_start_index_in_document,
-                        end=token_end_index_in_document,
-                    )
+                # If cropping is enabled, split long documents into chunks not exceeding the specified maximum length.
+                documents.extend(
+                    [
+                        self._indexed_dataset.get_document(
+                            document_index,
+                            begin=begin,
+                            end=min(
+                                begin + self._config.sampling_maximum_document_length, token_end_index_in_document
+                            ),
+                        )
+                        for begin in range(
+                            token_start_index_in_document,
+                            token_end_index_in_document,
+                            self._config.sampling_maximum_document_length,
+                        )
+                    ]
                 )
 
             # Go to the next document.
diff --git a/fast_llm/data/document/abstract.py b/fast_llm/data/document/abstract.py
index fa9a0726d..85014452f 100644
--- a/fast_llm/data/document/abstract.py
+++ b/fast_llm/data/document/abstract.py
@@ -63,11 +63,3 @@ def to_kwargs(self) -> dict[str, typing.Any]:
 @dataclasses.dataclass(kw_only=True)
 class Batch(Document):
     pass
-
-    # @abc.abstractmethod
-    # def __len__(self) -> int:
-    #    pass
-
-    # @abc.abstractmethod
-    # def crop(self, begin: int, end: int) -> typing.Self:
-    #    pass
diff --git a/fast_llm/data/document/patch.py b/fast_llm/data/document/patch.py
index 090757825..1ebac0d84 100644
--- a/fast_llm/data/document/patch.py
+++ b/fast_llm/data/document/patch.py
@@ -102,14 +102,14 @@ def get_model_input(self, begin: int, end: int, config: PatchPreprocessingConfig
         else:
             # Here `begin` and `end` refer to token rather than patch positions,
             # so we build a filter from the token map to get the corresponding patch positions.
-            # TODO: ====== Should it actually refer to patch positions so model inputs have balanced sizes?? ======
+            # TODO: Should it actually refer to patch positions so model inputs have balanced sizes?
             patch_filter = (self.token_map >= begin) & (self.token_map < end)
             patches = self.patches[patch_filter]
             if config.normalization is not None:
                 patches = config.normalization.normalize(patches)
             patches = patches.to(config.distributed.compute_dtype.torch)
 
-            # TODO: ====== Avoid excessive padding ======
+            # TODO: Avoid excessive padding
             unpadded_length = len(patches)
             pad_size = end - begin - unpadded_length
             model_input = PatchModelInput(
diff --git a/fast_llm/engine/training/trainer.py b/fast_llm/engine/training/trainer.py
index d9413c25f..614c60937 100644
--- a/fast_llm/engine/training/trainer.py
+++ b/fast_llm/engine/training/trainer.py
@@ -120,7 +120,7 @@ def setup(self, distributed: Distributed, run: Run) -> None:
                 phase=PhaseType.training,
             )
             self._data.sample_dataset(
-                PhaseType.training,
+                str(PhaseType.training),
                 preprocessing_config,
                 self._config.training.train_iters * self._schedule.samples_per_batch,
             )
diff --git a/fast_llm/layers/attention/attention.py b/fast_llm/layers/attention/attention.py
index 5997f341a..16caf2d66 100644
--- a/fast_llm/layers/attention/attention.py
+++ b/fast_llm/layers/attention/attention.py
@@ -360,7 +360,7 @@ def _forward(
         return out, bias
 
     def get_compute_usage(self, input_: TensorMeta, kwargs: dict[str, typing.Any], config: ResourceUsageConfig) -> int:
-        # TODO: ====== Account for varlen =======
+        # TODO: Account for varlen
         sequence_q_dim: TensorDim = kwargs[AttentionKwargs.token_dim]
         sequence_k_dim: TensorDim = kwargs[AttentionKwargs.sequence_k_dim]
 
diff --git a/fast_llm/layers/language_model/embedding.py b/fast_llm/layers/language_model/embedding.py
index eac644338..f01d6ad73 100644
--- a/fast_llm/layers/language_model/embedding.py
+++ b/fast_llm/layers/language_model/embedding.py
@@ -152,7 +152,7 @@ def forward(
                 dtype=self._residual_dtype,
             )
         if (embedding_map := kwargs.get(LanguageModelKwargs.embedding_map)) is None:
-            # Language model: input_ contains duplicate token ids. TODO: ===== remove ======
+            # Language model: input_ contains duplicate token ids. TODO: remove
             input_ = None
 
         out = self._forward(
diff --git a/fast_llm/layers/language_model/loss/dpo.py b/fast_llm/layers/language_model/loss/dpo.py
index a210b1c1f..c12374c82 100644
--- a/fast_llm/layers/language_model/loss/dpo.py
+++ b/fast_llm/layers/language_model/loss/dpo.py
@@ -76,7 +76,7 @@ def dpo_loss(
         reference_log_probabilities, chosen_spans
     ) - _get_target_log_probability_for_spans(reference_log_probabilities, rejected_spans)
 
-    # TODO: ====== Shouldn't the sigmoid be computed independently for each document? =======
+    # TODO: Shouldn't the sigmoid be computed independently for each document?
     return -torch.nn.functional.logsigmoid(beta * (policy_log_ratios - reference_log_ratios)).mean()
 
 
diff --git a/fast_llm/layers/ssm/gdn.py b/fast_llm/layers/ssm/gdn.py
index 4498e8252..309402cbb 100644
--- a/fast_llm/layers/ssm/gdn.py
+++ b/fast_llm/layers/ssm/gdn.py
@@ -256,7 +256,7 @@ def _forward(
         # TODO: fuse some of the reshapes into rearranges
         hidden_states = input_
 
-        # TODO: ====== Merge qkvz and ba ======
+        # TODO: Merge qkvz and ba?
         projected_states_qkvz = self.in_proj_qkvz(hidden_states)  # bs/seq x seq_len/bs x (qkvz)
         projected_states_ba = self.in_proj_ba(hidden_states)  # bs/seq x seq_len/bs x (b a)
 
diff --git a/fast_llm/layers/ssm/kda.py b/fast_llm/layers/ssm/kda.py
index 4bd484367..1c313102f 100644
--- a/fast_llm/layers/ssm/kda.py
+++ b/fast_llm/layers/ssm/kda.py
@@ -199,7 +199,7 @@ def _forward(
         Same as in gdn, the idea is to always do forward pass in a packed way, which is required for varlen support.
         """
 
-        # TODO: ===== Merge q,k,v into a single tensor ======
+        # TODO: Merge q,k,v into a single tensor?
         q = self.q_proj(input_)
         k = self.k_proj(input_)
         v = self.v_proj(input_)
diff --git a/fast_llm/models/multimodal/conversion/llava.py b/fast_llm/models/multimodal/conversion/llava.py
index 468fdbff5..fe7c77f5e 100644
--- a/fast_llm/models/multimodal/conversion/llava.py
+++ b/fast_llm/models/multimodal/conversion/llava.py
@@ -279,7 +279,7 @@ class LlavaBaseModelConverter(HuggingFaceBaseModelConverter):
     vision_model_converter_class: typing.ClassVar[type[LlavaVisionModelConverter]] = LlavaVisionModelConverter
     # TODO: Make it flexible?
     language_model_converter_class: typing.ClassVar[type[LlavaLanguageModelConverter]] = LlavaLanguageModelConverter
-    # TODO: ====== Is tie_word_embeddings supported? ======
+    # TODO: Is tie_word_embeddings supported?
 
     @classmethod
     def import_config(cls, config: dict) -> dict:
diff --git a/tests/data/common.py b/tests/data/common.py
index 73b85ea2b..72c64a441 100644
--- a/tests/data/common.py
+++ b/tests/data/common.py
@@ -40,7 +40,6 @@ def get_sampling_data(
             truncate_documents=truncate_documents,
             preprocessing=preprocessing,
             cache_directory=cache_directory,
-            distributed_config=DistributedConfig(use_cuda=torch.cuda.is_available()),
             dataset_name=phase.value,
         ),
         num_samples,
diff --git a/tests/data/test_image_patch.py b/tests/data/test_image_patch.py
index 8d975269e..9d613c2ec 100644
--- a/tests/data/test_image_patch.py
+++ b/tests/data/test_image_patch.py
@@ -97,10 +97,10 @@ def _position_ids(height_patches: int, width_patches: int):
 }
 DATASET_WITH_IMAGE_PATCHES_PATCHES_MD5 = {
     27: "d41d8cd98f00b204e9800998ecf8427e",
-    30: "f9e5a216990b1a3646677195532dddec",
-    31: "bd469b52ddd4f8f2bea4af5c7d843da9",
+    30: "ef1d732c98587298aba69ab6f94f0301",
+    31: "75878404f11359c1e98e67a19ae9979a",
     77: "d41d8cd98f00b204e9800998ecf8427e",
-    87: "946d6363c3440c4d3d7b5c684c6efcee",
+    87: "2671321f4eab42f4e152079cfd00e527",
 }
 
 
diff --git a/tests/layers/test_varlen.py b/tests/layers/test_varlen.py
index f51b2159d..1dceba6eb 100644
--- a/tests/layers/test_varlen.py
+++ b/tests/layers/test_varlen.py
@@ -101,8 +101,6 @@ def test_mixer_varlen_stacking_equivalence(config: MixerConfig, lengths: list[in
         out_refs.append(out)
     out_ref = torch.cat(out_refs, dim=0)
 
-    print(out_packed.shape)
-
     Assert.rms_close_relative(out_packed, out_ref, 1e-3, 1e-4)
 
     for name, parameter, grad_packed in zip(names, parameters, grads_packed, strict=True):
diff --git a/tests/models/test_checkpoint.py b/tests/models/test_checkpoint.py
index 5d8a494ca..74c51719d 100644
--- a/tests/models/test_checkpoint.py
+++ b/tests/models/test_checkpoint.py
@@ -401,7 +401,7 @@ def test_huggingface_model(model_testing_config, get_convert_path, testing_devic
                     hidden_states = vision_output.hidden_states + (adapter_output,) + hidden_states
                 hidden_states_ref_ = hidden_states_ref.copy()
                 # Adjust the vision hidden states
-                # TODO: ====== Do in HF wrapper ======
+                # TODO: Do in HF wrapper
                 for name, hidden_state in hidden_states_ref.items():
                     if name.startswith("vision_encoder"):
                         hidden_states_ref_[name] = hidden_state.flatten(0, 1)[:46].unsqueeze(0)

From 15a50c30e360ad7d9238b61980972d5259a64c9a Mon Sep 17 00:00:00 2001
From: Joel Lamy-Poirier <joel.lamy-poirier@servicenow.com>
Date: Tue, 17 Mar 2026 19:28:22 -0400
Subject: [PATCH 37/37] fixes

---
 fast_llm/engine/evaluation/evaluator.py       | 12 +++++-------
 fast_llm/engine/multi_stage/stage_base.py     | 19 ++++---------------
 fast_llm/logging.py                           |  7 +++----
 fast_llm/models/gpt/megatron.py               |  2 +-
 fast_llm/tensor.py                            |  8 +++++++-
 .../apriel2/modeling_apriel2.py               |  2 +-
 tests/utils/distributed_configs.py            |  4 ++--
 tests/utils/model_configs.py                  |  4 +++-
 8 files changed, 26 insertions(+), 32 deletions(-)

diff --git a/fast_llm/engine/evaluation/evaluator.py b/fast_llm/engine/evaluation/evaluator.py
index 74a08ea5d..0f1fcda03 100644
--- a/fast_llm/engine/evaluation/evaluator.py
+++ b/fast_llm/engine/evaluation/evaluator.py
@@ -152,13 +152,11 @@ def run(
         )
 
         log_main_rank(
-            "\n".join(
-                format_metrics(
-                    metrics,
-                    self._loss_definitions,
-                    PhaseType.validation,
-                    dataset_name=self._name,
-                )
+            format_metrics(
+                metrics,
+                self._loss_definitions,
+                PhaseType.validation,
+                dataset_name=self._name,
             )
         )
 
diff --git a/fast_llm/engine/multi_stage/stage_base.py b/fast_llm/engine/multi_stage/stage_base.py
index 56ea14b8f..23ee5d8bd 100644
--- a/fast_llm/engine/multi_stage/stage_base.py
+++ b/fast_llm/engine/multi_stage/stage_base.py
@@ -13,7 +13,6 @@
 from fast_llm.engine.multi_stage.config import ShardName, StageConfig, StageMode
 from fast_llm.engine.multi_stage.fsdp import FSDP
 from fast_llm.engine.optimizer.config import ParamGroup
-from fast_llm.logging import log_generator
 from fast_llm.tensor import ParameterMeta, SafeTensorSlice
 from fast_llm.utils import Assert, div
 
@@ -163,10 +162,6 @@ def initialize_weights(self) -> None:
         # TODO: Avoid all the _on_device checks
         assert self._is_setup
         with torch.no_grad():
-            if self._config.debug_param_init:
-                log_generator("CPU generator before reset", torch.random.default_generator)
-                log_generator("PP init generator before reset", self._distributed.pp_init_generator)
-                log_generator("TP init generator before reset", self._distributed.tp_init_generator)
 
             # Ensure a reproducible ordering.
             metas = (
@@ -198,21 +193,20 @@ def initialize_weights(self) -> None:
                 ):
                     # Initialize all global weights on every gpu, then select the appropriate slice if applicable.
                     global_param = parameter.new_empty(global_shape, device=self._distributed.initialization_device)
-                    meta.init_parameter(global_param, distributed=self._distributed)
+                    meta.init_parameter(
+                        global_param, distributed=self._distributed, debug=self._config.debug_param_init
+                    )
                     # It happens.
                     Assert.eq(global_param.shape, global_shape)
                     if self._mode.on_device:
                         parameter.copy_(fsdp.parameter_global_to_shard(global_param, meta.tensor_name))
                 elif self._mode.on_device:
-                    meta.init_parameter(parameter, self._distributed)
+                    meta.init_parameter(parameter, self._distributed, debug=self._config.debug_param_init)
 
             if self.mode.on_device:
                 fsdp.reset_shard_pad(fsdp.weight_shard, ShardName.weights)
 
         if self._config.debug_param_init:
-            log_generator("CPU generator after reset", torch.random.default_generator)
-            log_generator("PP init generator after reset", self._distributed.pp_init_generator)
-            log_generator("TP init generator after reset", self._distributed.tp_init_generator)
             if self._mode.on_device:
                 fsdp.log_shard(
                     name="param",
@@ -222,11 +216,6 @@ def initialize_weights(self) -> None:
                     global_=self._config.debug_global_tensors,
                 )
 
-    # def reset_shard_pad(self, shard: torch.Tensor) -> int:
-    #    assert self._is_setup
-    #    assert self._mode.on_device
-    #    return sum(fsdp.reset_shard_pad(shard) for fsdp in self._fsdps)
-
     def get_param_groups(
         self, optimizer_state_shards: dict[str, tuple[torch.Tensor]], param_group_cls: type[ParamGroup]
     ) -> tuple[list[ParamGroup], list[torch.Tensor]]:
diff --git a/fast_llm/logging.py b/fast_llm/logging.py
index 0508e7064..3f45c8184 100644
--- a/fast_llm/logging.py
+++ b/fast_llm/logging.py
@@ -35,8 +35,8 @@
 )
 
 _VALIDATION_METRIC_FORMAT_KEYS = _MEMORY_METRIC_FORMAT_KEYS | {
-    "iteration",
-    "train_iters",
+    "completed_steps",
+    "total_steps",
     "consumed_samples",
     "consumed_tokens",
     "step_time_ms",
@@ -47,8 +47,7 @@
 }
 
 _VALIDATION_METRIC_FORMATS = (
-    "{phase}{dataset_name} @ iteration {iteration:6.0f}/{train_iters:6.0f}"
-    " | consumed samples: {consumed_samples:12,.0f}"
+    "{phase}{dataset_name} @ step {completed_steps:6.0f}/{total_steps:6.0f}"
     " | consumed tokens: {consumed_tokens:16,.0f}"
     " | batch size: {batch_size:3.0f}"
     " | step time: {step_time_ms:.2f} ms"
diff --git a/fast_llm/models/gpt/megatron.py b/fast_llm/models/gpt/megatron.py
index 3b97df3d1..8522a6720 100644
--- a/fast_llm/models/gpt/megatron.py
+++ b/fast_llm/models/gpt/megatron.py
@@ -15,7 +15,7 @@
 def get_init_megatron(
     meta: "ParameterMeta", config: DecoderBlockConfig, hidden_size: int
 ) -> typing.Callable[["torch.Tensor", "Distributed"], None]:
-    def init_megatron(tensor: "torch.Tensor", distributed: "Distributed") -> None:
+    def init_megatron(tensor: "torch.Tensor", distributed: "Distributed", debug: bool = False) -> None:
         Assert.eq(distributed.config.world_size, 1)
         if "bias" in meta.tensor_name:
             # Generator unused.
diff --git a/fast_llm/tensor.py b/fast_llm/tensor.py
index c614793ba..fbf55e3b2 100644
--- a/fast_llm/tensor.py
+++ b/fast_llm/tensor.py
@@ -302,7 +302,7 @@ def __repr__(self, *, tensor_contents=()) -> str:
             tensor_contents=(f"wd={self.param_weight_decay}", f"lr_scale={self.lr_scale}", *tensor_contents)
         )
 
-    def init_parameter(self, tensor: torch.Tensor, distributed: Distributed) -> None:
+    def init_parameter(self, tensor: torch.Tensor, distributed: Distributed, debug: bool = False) -> None:
         assert self.param_init_method is not None
         if (
             distributed.config.tensor_parallel == 1
@@ -312,6 +312,12 @@ def init_parameter(self, tensor: torch.Tensor, distributed: Distributed) -> None
             generator = distributed.pp_init_generator
         else:
             generator = distributed.tp_init_generator if self.is_tensor_parallel else distributed.pp_init_generator
+        if debug:
+            from fast_llm.logging import log_generator
+
+            log_generator(
+                f"Initializing parameter `{self.tensor_name}` (shape={self.shape}, device={tensor.device})", generator
+            )
         self.param_init_method(self, tensor, generator)
 
     @property
diff --git a/fast_llm_external_models/apriel2/modeling_apriel2.py b/fast_llm_external_models/apriel2/modeling_apriel2.py
index 1aa4b414c..ea0611953 100644
--- a/fast_llm_external_models/apriel2/modeling_apriel2.py
+++ b/fast_llm_external_models/apriel2/modeling_apriel2.py
@@ -2839,7 +2839,7 @@ def forward(
 
         # Reshape back to [batch, num_patches, text_hidden]
         image_features = image_features.squeeze(0).view(batch_size, num_patches_per_image, -1)
-        return image_features, (patch_embeds, *all_hidden_states, image_features)
+        return image_features, (*all_hidden_states, hidden_states, image_features)
 
 
 class SimpleMLP(nn.Module):
diff --git a/tests/utils/distributed_configs.py b/tests/utils/distributed_configs.py
index 81b877951..b085f0994 100644
--- a/tests/utils/distributed_configs.py
+++ b/tests/utils/distributed_configs.py
@@ -305,7 +305,7 @@ def get_config(relative: float = 0, absolute: float = 0, **kwargs) -> CompareCon
             "model.distributed.tensor_parallel=2",
             "model.distributed.sequence_tensor_parallel=True",
             "schedule.breadth_first_micro_batches=4",
-            "data.micro_batch_size=512",
+            "data.micro_batch_size=1024",
         ],
         num_gpus=4,
         compare_config=_compare_layer_mismatch,
@@ -386,7 +386,7 @@ def get_config(relative: float = 0, absolute: float = 0, **kwargs) -> CompareCon
             "model.distributed.tensor_parallel=2",
             "model.distributed.sequence_tensor_parallel=True",
             "model.distributed.pipeline_parallel=2",
-            "model.multi_stage.layers_per_stage=2",
+            "model.multi_stage.layers_per_stage=1",
             "schedule.breadth_first_micro_batches=4",
             "data.micro_batch_size=1024",
         ],
diff --git a/tests/utils/model_configs.py b/tests/utils/model_configs.py
index 0a87e245e..49887ade2 100644
--- a/tests/utils/model_configs.py
+++ b/tests/utils/model_configs.py
@@ -685,7 +685,9 @@ def update_and_add_testing_config(
     },
     compare_factor=6.0,
     # Micro-sequence split and sequence-first not supported.
-    skip_tests=("sdp", "ms"),
+    # pp2s2 works but test fails because the adapter and lm embedding layer end up in the same stage
+    # and this changes the initialization order.
+    skip_tests=("sdp", "ms", "pp2s2"),
     auto_model_class=transformers.AutoModelForImageTextToText,
 )