<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>AI研究 on KnightLi的博客</title>
        <link>https://knightli.com/tags/ai%E7%A0%94%E7%A9%B6/</link>
        <description>Recent content in AI研究 on KnightLi的博客</description>
        <generator>Hugo -- gohugo.io</generator>
        <language>zh-cn</language>
        <lastBuildDate>Wed, 10 Jun 2026 14:54:59 +0800</lastBuildDate><atom:link href="https://knightli.com/tags/ai%E7%A0%94%E7%A9%B6/index.xml" rel="self" type="application/rss+xml" /><item>
        <title>Probabilistic TRM：给小模型加一点随机性，推理成绩反而大涨</title>
        <link>https://knightli.com/2026/06/10/probabilistic-tiny-recursive-model-test-time-compute/</link>
        <pubDate>Wed, 10 Jun 2026 14:54:59 +0800</pubDate>
        
        <guid>https://knightli.com/2026/06/10/probabilistic-tiny-recursive-model-test-time-compute/</guid>
        <description>&lt;p&gt;一篇新的 arXiv 论文提出了 Probabilistic Tiny Recursive Model（PTRM）。它的思路很直接：不要只让 Tiny Recursive Model（TRM）按固定路径推理一次，而是在推理阶段给隐藏状态加一点随机噪声，让模型并行跑出多条轨迹，再用模型已有的 Q head 选出最可能正确的答案。&lt;/p&gt;
&lt;p&gt;这个方法有意思的地方在于，它没有改训练过程，也没有为每个任务手写增强规则。作者只在测试时增加计算量，就把一些推理基准的准确率明显拉高。论文摘要里给出的结果包括：Sudoku-Extreme 从 87.4% 提升到 98.75%，Pencil Puzzle Bench 多类谜题从 62.6% 提升到 91.2%。在后者上，PTRM 用 7M 参数达到 91.2%，高于论文对比的前沿 LLM 55.1%，成本还低于 0.0001 倍。&lt;/p&gt;
&lt;h2 id=&#34;trm-本来强在哪里&#34;&gt;TRM 本来强在哪里
&lt;/h2&gt;&lt;p&gt;TRM 和常见的大语言模型推理方式不太一样。&lt;/p&gt;
&lt;p&gt;LLM 通常是一个 token 接一个 token 地生成答案，中间可能写出思维链、代码或解释。TRM 则更像是在一个连续的隐藏状态里反复修正答案：同一个小网络被多次调用，每一步都更新内部状态和当前答案，直到得到最终解。&lt;/p&gt;
&lt;p&gt;这种设计让 TRM 可以用很少参数解决一些结构化推理问题，比如数独、迷宫和纸笔逻辑谜题。它不是靠大规模语言知识覆盖问题，而是靠递归更新把答案逐步逼近正确状态。&lt;/p&gt;
&lt;p&gt;但确定性递归也带来一个问题：如果模型走进了一个错误的“盆地”，后面再多迭代几步，也可能只是在错误区域里打转。&lt;/p&gt;
&lt;h2 id=&#34;失败不是完全不会而是卡住了&#34;&gt;失败不是完全不会，而是卡住了
&lt;/h2&gt;&lt;p&gt;论文作者分析了 TRM 在 Pencil Puzzle Bench 上的轨迹，发现模型大致会出现三种模式：&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;模式&lt;/th&gt;
          &lt;th&gt;表现&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;快速成功&lt;/td&gt;
          &lt;td&gt;很快进入正确区域，答案准确率和 Q 值同步上升&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;延迟成功&lt;/td&gt;
          &lt;td&gt;前面在错误区域徘徊，后面突然跳到正确区域&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;失败&lt;/td&gt;
          &lt;td&gt;一直在错误区域振荡，最终答案仍然不对&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;这里的“盆地”可以理解为隐藏空间里的局部区域。好盆地会解码出正确答案，坏盆地会解码出错误答案。TRM 的问题不是完全没有能力解题，而是确定性轨迹一旦落到坏盆地，就缺少跳出去的机制。&lt;/p&gt;
&lt;p&gt;更关键的是，TRM 原本就有一个 Q head。这个头在训练中用于判断当前答案是否已经足够好，从而决定是否提前停止计算。论文发现，Q head 的分数和答案质量高度相关：正确轨迹的 Q 值会上升，错误轨迹的 Q 值通常保持较低。&lt;/p&gt;
&lt;p&gt;换句话说，模型其实有一个内置的“这条路像不像对”的信号，只是标准推理阶段没有充分使用它。&lt;/p&gt;
&lt;h2 id=&#34;ptrm-怎么做&#34;&gt;PTRM 怎么做
&lt;/h2&gt;&lt;p&gt;PTRM 的方法可以概括为三步：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;对同一个题目并行跑多条 rollout；&lt;/li&gt;
&lt;li&gt;在每个深层递归步骤给隐藏状态注入高斯噪声；&lt;/li&gt;
&lt;li&gt;用 Q head 给每条轨迹打分，选择 Q 值最高的答案。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;这相当于给 TRM 增加了一个“宽度扩展”维度。传统做法可以多跑几步，也就是增加深度；PTRM 则是同时跑多条略有不同的路径，也就是增加宽度。&lt;/p&gt;
&lt;p&gt;这个设计很像 LLM 里的多采样：同一个问题让模型生成多个候选答案，再用投票或验证器选择结果。区别是，PTRM 不生成自然语言推理链，而是在连续隐藏空间里采样不同轨迹；它使用的验证器也不是外部模型，而是 TRM 自己训练出来的 Q head。&lt;/p&gt;
&lt;h2 id=&#34;为什么随机噪声有用&#34;&gt;为什么随机噪声有用
&lt;/h2&gt;&lt;p&gt;直觉上，给推理过程加噪声听起来像是在制造不稳定。但对 TRM 这种递归模型来说，适度噪声反而能帮它摆脱错误轨迹。&lt;/p&gt;
&lt;p&gt;论文里有一个例子：某个确定性 TRM 解不出来的谜题，在 100 条随机 rollout 里，92 条仍然卡在坏盆地，但有 8 条逃到了正确区域并给出正确答案。只要 Q head 能把这 8 条识别出来，最终输出就会从错误变成正确。&lt;/p&gt;
&lt;p&gt;这也是 PTRM 的核心收益：不要求每条轨迹都更好，只要并行轨迹里偶尔出现正确解，并且 Q head 能把它挑出来，整体准确率就会上升。&lt;/p&gt;
&lt;h2 id=&#34;宽度比深度更实用&#34;&gt;宽度比深度更实用
&lt;/h2&gt;&lt;p&gt;TRM 原本也可以通过增加递归步数来提升测试时计算量，但深度扩展是顺序执行的，前一步没有完成就不能跑下一步。PTRM 的多条 rollout 则天然可以并行执行，更适合 GPU。&lt;/p&gt;
&lt;p&gt;论文在 PPBench 验证集上观察到，随着 rollout 数增加，pass@K 和 best-Q@K 都会明显上升。更有意思的是，best-Q@K 和 oracle 意义上的 pass@K 差距很小，说明 Q head 在这些测试里确实能接近“正确答案选择器”的效果。&lt;/p&gt;
&lt;p&gt;相比之下，简单选择出现次数最多的答案，收益要小很多。这说明 PTRM 的提升并不只是“多跑几次然后投票”，而是依赖 Q head 识别少数正确轨迹的能力。&lt;/p&gt;
&lt;h2 id=&#34;结果到底有多强&#34;&gt;结果到底有多强
&lt;/h2&gt;&lt;p&gt;论文给出的关键数字可以这样看：&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;基准&lt;/th&gt;
          &lt;th&gt;标准 TRM&lt;/th&gt;
          &lt;th&gt;PTRM&lt;/th&gt;
          &lt;th&gt;说明&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;Sudoku-Extreme&lt;/td&gt;
          &lt;td&gt;87.4%&lt;/td&gt;
          &lt;td&gt;98.75%&lt;/td&gt;
          &lt;td&gt;不重新训练，仅测试时增加随机 rollout&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Pencil Puzzle Bench 多类谜题&lt;/td&gt;
          &lt;td&gt;62.6%&lt;/td&gt;
          &lt;td&gt;91.2%&lt;/td&gt;
          &lt;td&gt;使用 7M 参数&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;PPBench 对比前沿 LLM&lt;/td&gt;
          &lt;td&gt;55.1%&lt;/td&gt;
          &lt;td&gt;91.2%&lt;/td&gt;
          &lt;td&gt;论文称 PTRM 成本低于 0.0001 倍&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;这些结果不能简单理解成“小模型全面打败大模型”。PTRM 面向的是结构化、答案可验证、训练分布明确的推理任务。它在数独和纸笔谜题上表现亮眼，不代表它能直接替代通用 LLM 处理开放问答、写作、代码协作或复杂工具调用。&lt;/p&gt;
&lt;p&gt;但它确实说明一件事：在某些推理任务上，模型架构和测试时搜索策略可能比单纯堆参数更重要。&lt;/p&gt;
&lt;h2 id=&#34;适用边界&#34;&gt;适用边界
&lt;/h2&gt;&lt;p&gt;PTRM 最适合的场景有几个特征：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;答案空间相对结构化；&lt;/li&gt;
&lt;li&gt;问题有明确正确答案；&lt;/li&gt;
&lt;li&gt;模型已经学会大部分解题能力；&lt;/li&gt;
&lt;li&gt;错误主要来自推理轨迹卡住，而不是知识缺失；&lt;/li&gt;
&lt;li&gt;存在可靠的内部评分头或外部验证器。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;如果任务本身是开放式生成，比如写文章、做产品分析、聊天陪伴，PTRM 这套方法就不能直接套用。因为这些任务没有唯一标准答案，Q head 也很难只凭内部状态判断“正确”。&lt;/p&gt;
&lt;p&gt;另一个限制是算力。PTRM 把推理从一条轨迹变成多条轨迹，准确率提升来自额外测试时计算。虽然单个 TRM 很小，成本仍然需要随 rollout 数增加而增加。&lt;/p&gt;
&lt;h2 id=&#34;它对-ai-agent-有什么启发&#34;&gt;它对 AI Agent 有什么启发
&lt;/h2&gt;&lt;p&gt;PTRM 虽然是一篇模型论文，但思路对 Agent 系统也有启发。&lt;/p&gt;
&lt;p&gt;很多 Agent 失败，不是因为第一步完全不会，而是因为一旦进入错误路线，就会沿着错误假设继续推进。PTRM 的做法提醒我们：与其押注一次推理路径，不如让系统保留多条候选轨迹，再用验证器、测试、规则或评分模型挑选更好的路径。&lt;/p&gt;
&lt;p&gt;这和“循环工程取代提示词工程”的方向也有点呼应：重点不只是写一个更漂亮的 prompt，而是设计生成、扰动、验证、选择和重试的闭环。&lt;/p&gt;
&lt;h2 id=&#34;结论&#34;&gt;结论
&lt;/h2&gt;&lt;p&gt;Probabilistic TRM 的价值不在于“加噪声”这个技巧本身，而在于它证明了一个更朴素的判断：小模型如果已经具备解题能力，推理阶段的搜索和选择机制可以大幅释放潜力。&lt;/p&gt;
&lt;p&gt;对大模型来说，测试时计算通常表现为多采样、反思、工具验证和长链推理；对 TRM 这类递归模型来说，它可以表现为隐藏空间里的随机 rollout 和 Q head 选择。两者形式不同，但都在回答同一个问题：模型第一次走错时，系统有没有办法让它换一条路。&lt;/p&gt;
&lt;p&gt;参考来源：&lt;a class=&#34;link&#34; href=&#34;https://arxiv.org/abs/2605.19943&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;arXiv: Probabilistic Tiny Recursive Model&lt;/a&gt;、&lt;a class=&#34;link&#34; href=&#34;https://arxiv.org/html/2605.19943v1&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;HTML 版本&lt;/a&gt;&lt;/p&gt;
</description>
        </item>
        
    </channel>
</rss>
