一篇新的 arXiv 论文提出了 Probabilistic Tiny Recursive Model(PTRM)。它的思路很直接:不要只让 Tiny Recursive Model(TRM)按固定路径推理一次,而是在推理阶段给隐藏状态加一点随机噪声,让模型并行跑出多条轨迹,再用模型已有的 Q head 选出最可能正确的答案。
这个方法有意思的地方在于,它没有改训练过程,也没有为每个任务手写增强规则。作者只在测试时增加计算量,就把一些推理基准的准确率明显拉高。论文摘要里给出的结果包括:Sudoku-Extreme 从 87.4% 提升到 98.75%,Pencil Puzzle Bench 多类谜题从 62.6% 提升到 91.2%。在后者上,PTRM 用 7M 参数达到 91.2%,高于论文对比的前沿 LLM 55.1%,成本还低于 0.0001 倍。
TRM 本来强在哪里
TRM 和常见的大语言模型推理方式不太一样。
LLM 通常是一个 token 接一个 token 地生成答案,中间可能写出思维链、代码或解释。TRM 则更像是在一个连续的隐藏状态里反复修正答案:同一个小网络被多次调用,每一步都更新内部状态和当前答案,直到得到最终解。
这种设计让 TRM 可以用很少参数解决一些结构化推理问题,比如数独、迷宫和纸笔逻辑谜题。它不是靠大规模语言知识覆盖问题,而是靠递归更新把答案逐步逼近正确状态。
但确定性递归也带来一个问题:如果模型走进了一个错误的“盆地”,后面再多迭代几步,也可能只是在错误区域里打转。
失败不是完全不会,而是卡住了
论文作者分析了 TRM 在 Pencil Puzzle Bench 上的轨迹,发现模型大致会出现三种模式:
| 模式 | 表现 |
|---|---|
| 快速成功 | 很快进入正确区域,答案准确率和 Q 值同步上升 |
| 延迟成功 | 前面在错误区域徘徊,后面突然跳到正确区域 |
| 失败 | 一直在错误区域振荡,最终答案仍然不对 |
这里的“盆地”可以理解为隐藏空间里的局部区域。好盆地会解码出正确答案,坏盆地会解码出错误答案。TRM 的问题不是完全没有能力解题,而是确定性轨迹一旦落到坏盆地,就缺少跳出去的机制。
更关键的是,TRM 原本就有一个 Q head。这个头在训练中用于判断当前答案是否已经足够好,从而决定是否提前停止计算。论文发现,Q head 的分数和答案质量高度相关:正确轨迹的 Q 值会上升,错误轨迹的 Q 值通常保持较低。
换句话说,模型其实有一个内置的“这条路像不像对”的信号,只是标准推理阶段没有充分使用它。
PTRM 怎么做
PTRM 的方法可以概括为三步:
- 对同一个题目并行跑多条 rollout;
- 在每个深层递归步骤给隐藏状态注入高斯噪声;
- 用 Q head 给每条轨迹打分,选择 Q 值最高的答案。
这相当于给 TRM 增加了一个“宽度扩展”维度。传统做法可以多跑几步,也就是增加深度;PTRM 则是同时跑多条略有不同的路径,也就是增加宽度。
这个设计很像 LLM 里的多采样:同一个问题让模型生成多个候选答案,再用投票或验证器选择结果。区别是,PTRM 不生成自然语言推理链,而是在连续隐藏空间里采样不同轨迹;它使用的验证器也不是外部模型,而是 TRM 自己训练出来的 Q head。
为什么随机噪声有用
直觉上,给推理过程加噪声听起来像是在制造不稳定。但对 TRM 这种递归模型来说,适度噪声反而能帮它摆脱错误轨迹。
论文里有一个例子:某个确定性 TRM 解不出来的谜题,在 100 条随机 rollout 里,92 条仍然卡在坏盆地,但有 8 条逃到了正确区域并给出正确答案。只要 Q head 能把这 8 条识别出来,最终输出就会从错误变成正确。
这也是 PTRM 的核心收益:不要求每条轨迹都更好,只要并行轨迹里偶尔出现正确解,并且 Q head 能把它挑出来,整体准确率就会上升。
宽度比深度更实用
TRM 原本也可以通过增加递归步数来提升测试时计算量,但深度扩展是顺序执行的,前一步没有完成就不能跑下一步。PTRM 的多条 rollout 则天然可以并行执行,更适合 GPU。
论文在 PPBench 验证集上观察到,随着 rollout 数增加,pass@K 和 best-Q@K 都会明显上升。更有意思的是,best-Q@K 和 oracle 意义上的 pass@K 差距很小,说明 Q head 在这些测试里确实能接近“正确答案选择器”的效果。
相比之下,简单选择出现次数最多的答案,收益要小很多。这说明 PTRM 的提升并不只是“多跑几次然后投票”,而是依赖 Q head 识别少数正确轨迹的能力。
结果到底有多强
论文给出的关键数字可以这样看:
| 基准 | 标准 TRM | PTRM | 说明 |
|---|---|---|---|
| Sudoku-Extreme | 87.4% | 98.75% | 不重新训练,仅测试时增加随机 rollout |
| Pencil Puzzle Bench 多类谜题 | 62.6% | 91.2% | 使用 7M 参数 |
| PPBench 对比前沿 LLM | 55.1% | 91.2% | 论文称 PTRM 成本低于 0.0001 倍 |
这些结果不能简单理解成“小模型全面打败大模型”。PTRM 面向的是结构化、答案可验证、训练分布明确的推理任务。它在数独和纸笔谜题上表现亮眼,不代表它能直接替代通用 LLM 处理开放问答、写作、代码协作或复杂工具调用。
但它确实说明一件事:在某些推理任务上,模型架构和测试时搜索策略可能比单纯堆参数更重要。
适用边界
PTRM 最适合的场景有几个特征:
- 答案空间相对结构化;
- 问题有明确正确答案;
- 模型已经学会大部分解题能力;
- 错误主要来自推理轨迹卡住,而不是知识缺失;
- 存在可靠的内部评分头或外部验证器。
如果任务本身是开放式生成,比如写文章、做产品分析、聊天陪伴,PTRM 这套方法就不能直接套用。因为这些任务没有唯一标准答案,Q head 也很难只凭内部状态判断“正确”。
另一个限制是算力。PTRM 把推理从一条轨迹变成多条轨迹,准确率提升来自额外测试时计算。虽然单个 TRM 很小,成本仍然需要随 rollout 数增加而增加。
它对 AI Agent 有什么启发
PTRM 虽然是一篇模型论文,但思路对 Agent 系统也有启发。
很多 Agent 失败,不是因为第一步完全不会,而是因为一旦进入错误路线,就会沿着错误假设继续推进。PTRM 的做法提醒我们:与其押注一次推理路径,不如让系统保留多条候选轨迹,再用验证器、测试、规则或评分模型挑选更好的路径。
这和“循环工程取代提示词工程”的方向也有点呼应:重点不只是写一个更漂亮的 prompt,而是设计生成、扰动、验证、选择和重试的闭环。
结论
Probabilistic TRM 的价值不在于“加噪声”这个技巧本身,而在于它证明了一个更朴素的判断:小模型如果已经具备解题能力,推理阶段的搜索和选择机制可以大幅释放潜力。
对大模型来说,测试时计算通常表现为多采样、反思、工具验证和长链推理;对 TRM 这类递归模型来说,它可以表现为隐藏空间里的随机 rollout 和 Q head 选择。两者形式不同,但都在回答同一个问题:模型第一次走错时,系统有没有办法让它换一条路。