Probabilistic TRM：给小模型加一点随机性，推理成绩反而大涨

Wed, 10 Jun 2026 14:54:59 +0800

一篇新的 arXiv 论文提出了 Probabilistic Tiny Recursive Model（PTRM）。它的思路很直接：不要只让 Tiny Recursive Model（TRM）按固定路径推理一次，而是在推理阶段给隐藏状态加一点随机噪声，让模型并行跑出多条轨迹，再用模型已有的 Q head 选出最可能正确的答案。

这个方法有意思的地方在于，它没有改训练过程，也没有为每个任务手写增强规则。作者只在测试时增加计算量，就把一些推理基准的准确率明显拉高。论文摘要里给出的结果包括：Sudoku-Extreme 从 87.4% 提升到 98.75%，Pencil Puzzle Bench 多类谜题从 62.6% 提升到 91.2%。在后者上，PTRM 用 7M 参数达到 91.2%，高于论文对比的前沿 LLM 55.1%，成本还低于 0.0001 倍。

TRM 本来强在哪里

TRM 和常见的大语言模型推理方式不太一样。

LLM 通常是一个 token 接一个 token 地生成答案，中间可能写出思维链、代码或解释。TRM 则更像是在一个连续的隐藏状态里反复修正答案：同一个小网络被多次调用，每一步都更新内部状态和当前答案，直到得到最终解。

这种设计让 TRM 可以用很少参数解决一些结构化推理问题，比如数独、迷宫和纸笔逻辑谜题。它不是靠大规模语言知识覆盖问题，而是靠递归更新把答案逐步逼近正确状态。

但确定性递归也带来一个问题：如果模型走进了一个错误的“盆地”，后面再多迭代几步，也可能只是在错误区域里打转。

失败不是完全不会，而是卡住了

论文作者分析了 TRM 在 Pencil Puzzle Bench 上的轨迹，发现模型大致会出现三种模式：

模式	表现
快速成功	很快进入正确区域，答案准确率和 Q 值同步上升
延迟成功	前面在错误区域徘徊，后面突然跳到正确区域
失败	一直在错误区域振荡，最终答案仍然不对

这里的“盆地”可以理解为隐藏空间里的局部区域。好盆地会解码出正确答案，坏盆地会解码出错误答案。TRM 的问题不是完全没有能力解题，而是确定性轨迹一旦落到坏盆地，就缺少跳出去的机制。

更关键的是，TRM 原本就有一个 Q head。这个头在训练中用于判断当前答案是否已经足够好，从而决定是否提前停止计算。论文发现，Q head 的分数和答案质量高度相关：正确轨迹的 Q 值会上升，错误轨迹的 Q 值通常保持较低。

换句话说，模型其实有一个内置的“这条路像不像对”的信号，只是标准推理阶段没有充分使用它。

PTRM 怎么做

PTRM 的方法可以概括为三步：

对同一个题目并行跑多条 rollout；
在每个深层递归步骤给隐藏状态注入高斯噪声；
用 Q head 给每条轨迹打分，选择 Q 值最高的答案。

这相当于给 TRM 增加了一个“宽度扩展”维度。传统做法可以多跑几步，也就是增加深度；PTRM 则是同时跑多条略有不同的路径，也就是增加宽度。

这个设计很像 LLM 里的多采样：同一个问题让模型生成多个候选答案，再用投票或验证器选择结果。区别是，PTRM 不生成自然语言推理链，而是在连续隐藏空间里采样不同轨迹；它使用的验证器也不是外部模型，而是 TRM 自己训练出来的 Q head。

为什么随机噪声有用

直觉上，给推理过程加噪声听起来像是在制造不稳定。但对 TRM 这种递归模型来说，适度噪声反而能帮它摆脱错误轨迹。

论文里有一个例子：某个确定性 TRM 解不出来的谜题，在 100 条随机 rollout 里，92 条仍然卡在坏盆地，但有 8 条逃到了正确区域并给出正确答案。只要 Q head 能把这 8 条识别出来，最终输出就会从错误变成正确。

这也是 PTRM 的核心收益：不要求每条轨迹都更好，只要并行轨迹里偶尔出现正确解，并且 Q head 能把它挑出来，整体准确率就会上升。

宽度比深度更实用

TRM 原本也可以通过增加递归步数来提升测试时计算量，但深度扩展是顺序执行的，前一步没有完成就不能跑下一步。PTRM 的多条 rollout 则天然可以并行执行，更适合 GPU。

论文在 PPBench 验证集上观察到，随着 rollout 数增加，pass@K 和 best-Q@K 都会明显上升。更有意思的是，best-Q@K 和 oracle 意义上的 pass@K 差距很小，说明 Q head 在这些测试里确实能接近“正确答案选择器”的效果。

相比之下，简单选择出现次数最多的答案，收益要小很多。这说明 PTRM 的提升并不只是“多跑几次然后投票”，而是依赖 Q head 识别少数正确轨迹的能力。

结果到底有多强

论文给出的关键数字可以这样看：

基准	标准 TRM	PTRM	说明
Sudoku-Extreme	87.4%	98.75%	不重新训练，仅测试时增加随机 rollout
Pencil Puzzle Bench 多类谜题	62.6%	91.2%	使用 7M 参数
PPBench 对比前沿 LLM	55.1%	91.2%	论文称 PTRM 成本低于 0.0001 倍

这些结果不能简单理解成“小模型全面打败大模型”。PTRM 面向的是结构化、答案可验证、训练分布明确的推理任务。它在数独和纸笔谜题上表现亮眼，不代表它能直接替代通用 LLM 处理开放问答、写作、代码协作或复杂工具调用。

但它确实说明一件事：在某些推理任务上，模型架构和测试时搜索策略可能比单纯堆参数更重要。

适用边界

PTRM 最适合的场景有几个特征：

答案空间相对结构化；
问题有明确正确答案；
模型已经学会大部分解题能力；
错误主要来自推理轨迹卡住，而不是知识缺失；
存在可靠的内部评分头或外部验证器。

如果任务本身是开放式生成，比如写文章、做产品分析、聊天陪伴，PTRM 这套方法就不能直接套用。因为这些任务没有唯一标准答案，Q head 也很难只凭内部状态判断“正确”。

另一个限制是算力。PTRM 把推理从一条轨迹变成多条轨迹，准确率提升来自额外测试时计算。虽然单个 TRM 很小，成本仍然需要随 rollout 数增加而增加。

它对 AI Agent 有什么启发

PTRM 虽然是一篇模型论文，但思路对 Agent 系统也有启发。

很多 Agent 失败，不是因为第一步完全不会，而是因为一旦进入错误路线，就会沿着错误假设继续推进。PTRM 的做法提醒我们：与其押注一次推理路径，不如让系统保留多条候选轨迹，再用验证器、测试、规则或评分模型挑选更好的路径。

这和“循环工程取代提示词工程”的方向也有点呼应：重点不只是写一个更漂亮的 prompt，而是设计生成、扰动、验证、选择和重试的闭环。

结论

Probabilistic TRM 的价值不在于“加噪声”这个技巧本身，而在于它证明了一个更朴素的判断：小模型如果已经具备解题能力，推理阶段的搜索和选择机制可以大幅释放潜力。

对大模型来说，测试时计算通常表现为多采样、反思、工具验证和长链推理；对 TRM 这类递归模型来说，它可以表现为隐藏空间里的随机 rollout 和 Q head 选择。两者形式不同，但都在回答同一个问题：模型第一次走错时，系统有没有办法让它换一条路。

参考来源：arXiv: Probabilistic Tiny Recursive Model、HTML 版本

AI研究 on KnightLi的博客