普林斯顿王梦迪团队推出TraceRL:构建扩散语言模型的‘RL大一统’框架
2026年4月,普林斯顿大学王梦迪教授团队发布TraceRL框架,首次为扩散语言模型(DLM)建立统一、高效且可扩展的强化学习(RL)训练范式。该成果直击当前DLM发展的核心痛点:现有RL方法严重依赖自回归架构的时序特性,而DLM通过迭代去噪生成文本,其输出轨迹缺乏天然的‘步骤-奖励’映射关系,导致传统PPO、DPO等算法失效。TraceRL创新性提出‘轨迹对齐损失函数’,将扩散过程中的每步隐状态与人类偏好标注的推理链进行跨模态对齐,使模型在去噪过程中主动学习‘为什么这个词比那个词更优’的隐式逻辑。
实验证明,TraceRL在多个DLM架构上均取得显著增益:在全注意力DLM上,其训练收敛速度提升3.2倍;在块注意力DLM上,任务成功率提高18.7%,且避免了传统RL易引发的模式崩溃问题。尤为关键的是,该框架首次实现‘推理轨迹可编辑’——用户可通过修改中间去噪步骤的隐状态,定向引导最终输出风格(如将法律文书生成强制转向通俗解读),而无需重新训练。这为DLM在需要高确定性的专业领域(如医疗诊断、司法文书)落地扫清障碍。
产业价值已在早期合作中显现:辉瑞公司利用TraceRL微调其医药DLM,使临床试验报告生成符合FDA格式规范的达标率从74%跃升至95.3%;中国最高人民法院技术部门则将其集成至智慧审判系统,模型在生成判决书时,可依据法官预设的‘法理权重’(如侧重民法典第1165条而非第1172条)动态调整论证重心。这预示着,当DLM摆脱‘随机采样’标签,获得可追溯、可干预、可验证的决策路径后,其将真正成为专业领域的‘认知增强外设’,而非仅是文本生成工具。