扩散语言模型去掩码时留下轨迹——CAPR 读懂这条轨迹,把稀疏结果奖励切成块级 PPO 权重,0.6× 树搜索的成本拿树搜索的精度,Sudoku/GSM8K/Math500 全程 SOTA。通勤两分钟,听懂今日最聪明的「以轨迹换算力」RL 新范式。
arXiv 2606.04396 · 「Read the Trace, Steer the Path」· Anant Khandelwal, Manish Gupta
이 콘텐츠를 둘러싼 관점이나 맥락을 계속 보강해 보세요.
이 콘텐츠를 둘러싼 관점이나 맥락을 계속 보강해 보세요.