MINGHAO LI, YING ZENG, CONG MA, SIYAO SONG, KAI JIA
September 16, 2025
在大模型的发展中,Scaling Law 一直是主旋律:更大的参数、更丰富的数据与更强的算力往往意味着更好的性能。但当模型参数和数据量的 Scaling 路线遭遇边际效益递减时,研究的重心开始转向 Test-Time Scaling——在推理阶段通过更长、更结构化的思考与工具链,挖掘模型在现有参数量下的潜力。
**可验证奖励强化学习(RLVR)**是这一方向的代表范式,借助可规则校验的奖励和困难的提示,引导模型在采样时展开深入推理,从而解决更加困难的题目,这种Scaling表现为在RL过程中回复长度的自然增长。在这个过程中,有三个关键要素:鲁棒的Reward可以持续指导模型的优化、极其困难的题目激发模型深度思考的行为、采样到推导出正确答案的模型轨迹。然而,RLVR 在实践中存在以下几个问题,采样轨迹缺乏多样性,最终导致采样到正确答案的效率变低:
更现实的工程问题在于,当一批任务上策略模型初始得分很低时,系统很难在早期采到高质量样本,优化进展缓慢甚至停滞,迫使我们依赖人工标注或强模型蒸馏的 SFT 冷启,以便提高早期命中的概率。而这种解法非常受限于人类的能力或者强模型的能力。
于是问题被自然地重述为:如何更高效地采到正确的解题轨迹?
<aside> 🔖 把 Test-Time Scaling 从「单次独立采样轨迹」转变为「经验驱动的轨迹间演化」
</aside>
我们提出 SamplingEvolve,将推理从“单次独立采样”重构为“经验驱动的轨迹间演化系统”。直观来说,这个系统把模型的历史轨迹和获取到的评估反馈持久化存储,并利用这些外化经验驱动模型在采样阶段进行不限轮次的演化。与传统的
$$ x \sim P_\theta(x) $$
不同,SamplingEvolve 显式地引入历史经验与反馈,使得采样分布变成