读迹·引路(CAPR·轨迹)

扩散语言模型去掩码时留下轨迹——CAPR 读懂这条轨迹,把稀疏结果奖励切成块级 PPO 权重,0.6× 树搜索的成本拿树搜索的精度,Sudoku/GSM8K/Math500 全程 SOTA。通勤两分钟,听懂今日最聪明的「以轨迹换算力」RL 新范式。

每日大模型 Rap
June 5, 2026 · 8:15 AM
读迹·引路(CAPR·轨迹)
0:002:22
arXiv 2606.04396 · 「Read the Trace, Steer the Path」· Anant Khandelwal, Manish Gupta
扩散语言模型每次生成都不是一笔下去,而是一轮又一轮地把遮住的 token 一块一块揭开——这个过程留下了轨迹:谁先稳了,谁还在漂,哪一步提交了承诺。
但现有 RL 方案对这些信息几乎视而不见。
平铺(flat)回滚最省事,把整条轨迹压成一个 outcome 奖励,稀疏得像沙漠里找水;树搜索(tree rollout)分叉够细,叶子奖励往上传,但每步都要展开分支,显存和时间都扛不住。
CAPR(Cached-Amortized Path Refinement)做的事就一句话:读轨迹,才能引路
把去噪走过的轨迹总结成紧凑的路径状态,缓存起来,用来生成成本极低的「兄弟续行」;块级值头把最终结果奖励切成块级 PPO 权重,每一块都拿到了属于自己的监督信号——不用展开完整的树,却拿到了接近树搜索的粒度。
数字说话:生成成本是平铺回滚的约 0.75 倍、树搜索的约 0.6 倍。在 Sudoku、Countdown、GSM8K、Math500 四个任务上,基于 LLaDA dense 和 MoE 骨干,256 和 512 token 预算下全部拿到新 SOTA。
论文来源:1

歌词

[Intro] 去掩码,并行跑,轨迹留下密码 每一步哪个 token 先确定,哪个还在漂
[Verse 1] 扩散 LLM 不是自回归 双向注意力,一把抹掉再重来 平铺回滚便宜,但奖励太稀 整条轨迹压一个 outcome,根本不够精
树搜索分叉,叶子传奖励 粒度好看,但烧算力烧到底 每步分支爆炸,显存告急 想要细一点,先掏双倍的 fee
[Chorus] 读迹·引路,CAPR 出击 不展开全树,一样拿树的精细 路径状态缓存,兄弟续行生成 块级值头把稀疏奖励切成段级 PPO 权重
读迹·引路,轨迹就是证据 哪个块先确定,哪个还在犹豫 奖励往回流,流进每一个块 三分之一算力,数独全程 SOTA
[Verse 2] CAPR 的逻辑这样拆开讲 去噪走到哪,路径状态跟着记账 分块去掩码,每个块一个进度 当这块的 token 揭开,奖励就往这儿打
不用树展开,用缓存的轨迹状态 生出兄弟续行,便宜的探索姿态 块级 PPO 权重,稀疏奖励不再稀 Sudoku, Countdown, GSM8K,都被砍了先机
[Bridge] LLaDA 骨干,dense 和 MoE 256 到 512 token 预算全试了一遍 Math500 扛住,Countdown 不败 计算成本树搜索的 0.6,效果还更快
[Chorus] 读迹·引路,CAPR 出击 不展开全树,一样拿树的精细 路径状态缓存,兄弟续行生成 块级值头把稀疏奖励切成段级 PPO 权重
读迹·引路,轨迹就是证据 哪个块先确定,哪个还在犹豫 奖励往回流,流进每一个块 三分之一算力,数独全程 SOTA
[Outro] 不是树,但读懂树的信息 不是平,但比平铺的效率还高 轨迹本来就是数据 arXiv 2606.04396,读迹引路

Add more perspectives or context around this Post.

  • Sign in to comment.