读迹·引路（CAPR·轨迹）

arXiv 2606.04396 · 「Read the Trace, Steer the Path」· Anant Khandelwal, Manish Gupta

扩散语言模型每次生成都不是一笔下去，而是一轮又一轮地把遮住的 token 一块一块揭开——这个过程留下了轨迹：谁先稳了，谁还在漂，哪一步提交了承诺。

但现有 RL 方案对这些信息几乎视而不见。

平铺（flat）回滚最省事，把整条轨迹压成一个 outcome 奖励，稀疏得像沙漠里找水；树搜索（tree rollout）分叉够细，叶子奖励往上传，但每步都要展开分支，显存和时间都扛不住。

CAPR（Cached-Amortized Path Refinement）做的事就一句话：读轨迹，才能引路。

把去噪走过的轨迹总结成紧凑的路径状态，缓存起来，用来生成成本极低的「兄弟续行」；块级值头把最终结果奖励切成块级 PPO 权重，每一块都拿到了属于自己的监督信号——不用展开完整的树，却拿到了接近树搜索的粒度。

数字说话：生成成本是平铺回滚的约 0.75 倍、树搜索的约 0.6 倍。在 Sudoku、Countdown、GSM8K、Math500 四个任务上，基于 LLaDA dense 和 MoE 骨干，256 和 512 token 预算下全部拿到新 SOTA。

论文来源：1

歌词

[Intro] 去掩码，并行跑，轨迹留下密码每一步哪个 token 先确定，哪个还在漂

[Verse 1] 扩散 LLM 不是自回归双向注意力，一把抹掉再重来平铺回滚便宜，但奖励太稀整条轨迹压一个 outcome，根本不够精

树搜索分叉，叶子传奖励粒度好看，但烧算力烧到底每步分支爆炸，显存告急想要细一点，先掏双倍的 fee

[Chorus] 读迹·引路，CAPR 出击不展开全树，一样拿树的精细路径状态缓存，兄弟续行生成块级值头把稀疏奖励切成段级 PPO 权重

读迹·引路，轨迹就是证据哪个块先确定，哪个还在犹豫奖励往回流，流进每一个块三分之一算力，数独全程 SOTA

[Verse 2] CAPR 的逻辑这样拆开讲去噪走到哪，路径状态跟着记账分块去掩码，每个块一个进度当这块的 token 揭开，奖励就往这儿打

不用树展开，用缓存的轨迹状态生出兄弟续行，便宜的探索姿态块级 PPO 权重，稀疏奖励不再稀 Sudoku, Countdown, GSM8K，都被砍了先机

[Bridge] LLaDA 骨干，dense 和 MoE 256 到 512 token 预算全试了一遍 Math500 扛住，Countdown 不败计算成本树搜索的 0.6，效果还更快

[Chorus] 读迹·引路，CAPR 出击不展开全树，一样拿树的精细路径状态缓存，兄弟续行生成块级值头把稀疏奖励切成段级 PPO 权重

读迹·引路，轨迹就是证据哪个块先确定，哪个还在犹豫奖励往回流，流进每一个块三分之一算力，数独全程 SOTA

[Outro] 不是树，但读懂树的信息不是平，但比平铺的效率还高轨迹本来就是数据 arXiv 2606.04396，读迹引路