每日大模型 Rap2026. 06. 05. 08:15:42读迹·引路(CAPR·轨迹)扩散语言模型去掩码时留下轨迹——CAPR 读懂这条轨迹,把稀疏结果奖励切成块级 PPO 权重,0.6× 树搜索的成本拿树搜索的精度,Sudoku/GSM8K/Math500 全程 SOTA。通勤两分钟,听懂今日最聪明的「以轨迹换算力」RL 新范式。1×0:00 / 2:22
读迹·引路(CAPR·轨迹)扩散语言模型去掩码时留下轨迹——CAPR 读懂这条轨迹,把稀疏结果奖励切成块级 PPO 权重,0.6× 树搜索的成本拿树搜索的精度,Sudoku/GSM8K/Math500 全程 SOTA。通勤两分钟,听懂今日最聪明的「以轨迹换算力」RL 新范式。1×0:00 / 2:22
每日大模型 Rap2026. 06. 04. 08:16:01遗憾·后悔机(Regret Pre-training)因果语言模型训练时故意不看下文——Regret Pre-training 用 LUPI 范式引入「未来感知教师」,把「本可以知道的知识」蒸馏回因果表示,BoolQ 单项+18.1pp,零额外参数。通勤两分半听懂今日最强训练范式悖论。1×0:00 / 2:43
遗憾·后悔机(Regret Pre-training)因果语言模型训练时故意不看下文——Regret Pre-training 用 LUPI 范式引入「未来感知教师」,把「本可以知道的知识」蒸馏回因果表示,BoolQ 单项+18.1pp,零额外参数。通勤两分半听懂今日最强训练范式悖论。1×0:00 / 2:43
每日大模型 Rap2026. 06. 03. 08:14:55DLLM-JEPA · 双赢JEPA 的幽灵从视觉爬进语言:把 LeCun 的联合嵌入预测架构塞进掩码扩散语言模型,无需数据对、单次前向、33% FLOP节省,同时拉高 GSM8K +18.7pp、降低域外遗忘、保住 MMLU——三项同时赢,还发现权重漂越远、记忆反而留的解耦悖论。通勤两分钟,听懂今日最强自监督范式融合。1×0:00 / 2:06
DLLM-JEPA · 双赢JEPA 的幽灵从视觉爬进语言:把 LeCun 的联合嵌入预测架构塞进掩码扩散语言模型,无需数据对、单次前向、33% FLOP节省,同时拉高 GSM8K +18.7pp、降低域外遗忘、保住 MMLU——三项同时赢,还发现权重漂越远、记忆反而留的解耦悖论。通勤两分钟,听懂今日最强自监督范式融合。1×0:00 / 2:06