<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>測試時計算 on KnightLi的博客</title>
        <link>https://knightli.com/zh-tw/tags/%E6%B8%AC%E8%A9%A6%E6%99%82%E8%A8%88%E7%AE%97/</link>
        <description>Recent content in 測試時計算 on KnightLi的博客</description>
        <generator>Hugo -- gohugo.io</generator>
        <language>zh-tw</language>
        <lastBuildDate>Wed, 10 Jun 2026 14:54:59 +0800</lastBuildDate><atom:link href="https://knightli.com/zh-tw/tags/%E6%B8%AC%E8%A9%A6%E6%99%82%E8%A8%88%E7%AE%97/index.xml" rel="self" type="application/rss+xml" /><item>
        <title>Probabilistic TRM：給小模型加一點隨機性，推理成績反而大漲</title>
        <link>https://knightli.com/zh-tw/2026/06/10/probabilistic-tiny-recursive-model-test-time-compute/</link>
        <pubDate>Wed, 10 Jun 2026 14:54:59 +0800</pubDate>
        
        <guid>https://knightli.com/zh-tw/2026/06/10/probabilistic-tiny-recursive-model-test-time-compute/</guid>
        <description>&lt;p&gt;一篇新的 arXiv 論文提出了 Probabilistic Tiny Recursive Model（PTRM）。它的思路很直接：不要只讓 Tiny Recursive Model（TRM）沿著固定路徑推理一次，而是在推理階段給隱藏狀態加一點隨機噪聲，讓模型並行跑出多條軌跡，再用模型已有的 Q head 選出最可能正確的答案。&lt;/p&gt;
&lt;p&gt;這個方法有意思的地方在於，它沒有改訓練流程，也沒有為每個任務手寫增強規則。作者只在測試時增加計算量，就把一些推理基準的準確率明顯拉高。論文摘要給出的結果包括：Sudoku-Extreme 從 87.4% 提升到 98.75%，Pencil Puzzle Bench 多類謎題從 62.6% 提升到 91.2%。在後者上，PTRM 用 7M 參數達到 91.2%，高於論文對比的前沿 LLM 55.1%，成本還低於 0.0001 倍。&lt;/p&gt;
&lt;h2 id=&#34;trm-本來強在哪裡&#34;&gt;TRM 本來強在哪裡
&lt;/h2&gt;&lt;p&gt;TRM 和常見的大語言模型推理方式不太一樣。&lt;/p&gt;
&lt;p&gt;LLM 通常是一個 token 接一個 token 地生成答案，中間可能寫出思維鏈、程式碼或解釋。TRM 則更像是在一個連續的隱藏狀態裡反覆修正答案：同一個小網路被多次呼叫，每一步都更新內部狀態和目前答案，直到得到最終解。&lt;/p&gt;
&lt;p&gt;這種設計讓 TRM 可以用很少參數解決一些結構化推理問題，例如數獨、迷宮和紙筆邏輯謎題。它不是靠大規模語言知識覆蓋問題，而是靠遞迴更新把答案逐步逼近正確狀態。&lt;/p&gt;
&lt;p&gt;但確定性遞迴也帶來一個問題：如果模型走進了一個錯誤的「盆地」，後面再多迭代幾步，也可能只是在錯誤區域裡打轉。&lt;/p&gt;
&lt;h2 id=&#34;失敗不是完全不會而是卡住了&#34;&gt;失敗不是完全不會，而是卡住了
&lt;/h2&gt;&lt;p&gt;論文作者分析了 TRM 在 Pencil Puzzle Bench 上的軌跡，發現模型大致會出現三種模式：&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;模式&lt;/th&gt;
          &lt;th&gt;表現&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;快速成功&lt;/td&gt;
          &lt;td&gt;很快進入正確區域，答案準確率和 Q 值同步上升&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;延遲成功&lt;/td&gt;
          &lt;td&gt;前面在錯誤區域徘徊，後面突然跳到正確區域&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;失敗&lt;/td&gt;
          &lt;td&gt;一直在錯誤區域振盪，最終答案仍然不對&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;這裡的「盆地」可以理解為隱藏空間裡的局部區域。好盆地會解碼出正確答案，壞盆地會解碼出錯誤答案。TRM 的問題不是完全沒有能力解題，而是確定性軌跡一旦落到壞盆地，就缺少跳出去的機制。&lt;/p&gt;
&lt;p&gt;更關鍵的是，TRM 原本就有一個 Q head。這個頭在訓練中用於判斷目前答案是否已經足夠好，從而決定是否提前停止計算。論文發現，Q head 的分數和答案品質高度相關：正確軌跡的 Q 值會上升，錯誤軌跡的 Q 值通常保持較低。&lt;/p&gt;
&lt;p&gt;換句話說，模型其實有一個內建的「這條路像不像對」的訊號，只是標準推理階段沒有充分使用它。&lt;/p&gt;
&lt;h2 id=&#34;ptrm-怎麼做&#34;&gt;PTRM 怎麼做
&lt;/h2&gt;&lt;p&gt;PTRM 的方法可以概括為三步：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;對同一個題目並行跑多條 rollout；&lt;/li&gt;
&lt;li&gt;在每個深層遞迴步驟給隱藏狀態注入高斯噪聲；&lt;/li&gt;
&lt;li&gt;用 Q head 給每條軌跡打分，選擇 Q 值最高的答案。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;這相當於給 TRM 增加了一個「寬度擴展」維度。傳統做法可以多跑幾步，也就是增加深度；PTRM 則是同時跑多條略有不同的路徑，也就是增加寬度。&lt;/p&gt;
&lt;p&gt;這個設計很像 LLM 裡的多採樣：同一個問題讓模型生成多個候選答案，再用投票或驗證器選擇結果。差別是，PTRM 不生成自然語言推理鏈，而是在連續隱藏空間裡採樣不同軌跡；它使用的驗證器也不是外部模型，而是 TRM 自己訓練出來的 Q head。&lt;/p&gt;
&lt;h2 id=&#34;為什麼隨機噪聲有用&#34;&gt;為什麼隨機噪聲有用
&lt;/h2&gt;&lt;p&gt;直覺上，給推理過程加噪聲聽起來像是在製造不穩定。但對 TRM 這種遞迴模型來說，適度噪聲反而能幫它擺脫錯誤軌跡。&lt;/p&gt;
&lt;p&gt;論文裡有一個例子：某個確定性 TRM 解不出來的謎題，在 100 條隨機 rollout 裡，92 條仍然卡在壞盆地，但有 8 條逃到了正確區域並給出正確答案。只要 Q head 能把這 8 條識別出來，最終輸出就會從錯誤變成正確。&lt;/p&gt;
&lt;p&gt;這也是 PTRM 的主要收益：不要求每條軌跡都更好，只要並行軌跡裡偶爾出現正確解，並且 Q head 能把它挑出來，整體準確率就會上升。&lt;/p&gt;
&lt;h2 id=&#34;寬度比深度更實用&#34;&gt;寬度比深度更實用
&lt;/h2&gt;&lt;p&gt;TRM 原本也可以透過增加遞迴步數來提升測試時計算量，但深度擴展是順序執行的，前一步沒有完成就不能跑下一步。PTRM 的多條 rollout 則天然可以並行執行，更適合 GPU。&lt;/p&gt;
&lt;p&gt;論文在 PPBench 驗證集上觀察到，隨著 rollout 數增加，pass@K 和 best-Q@K 都會明顯上升。更有意思的是，best-Q@K 和 oracle 意義上的 pass@K 差距很小，說明 Q head 在這些測試裡確實能接近「正確答案選擇器」的效果。&lt;/p&gt;
&lt;p&gt;相比之下，簡單選擇出現次數最多的答案，收益要小很多。這說明 PTRM 的提升不只是「多跑幾次然後投票」，而是依賴 Q head 識別少數正確軌跡的能力。&lt;/p&gt;
&lt;h2 id=&#34;結果到底有多強&#34;&gt;結果到底有多強
&lt;/h2&gt;&lt;p&gt;論文給出的關鍵數字可以這樣看：&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;基準&lt;/th&gt;
          &lt;th&gt;標準 TRM&lt;/th&gt;
          &lt;th&gt;PTRM&lt;/th&gt;
          &lt;th&gt;說明&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;Sudoku-Extreme&lt;/td&gt;
          &lt;td&gt;87.4%&lt;/td&gt;
          &lt;td&gt;98.75%&lt;/td&gt;
          &lt;td&gt;不重新訓練，僅測試時增加隨機 rollout&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Pencil Puzzle Bench 多類謎題&lt;/td&gt;
          &lt;td&gt;62.6%&lt;/td&gt;
          &lt;td&gt;91.2%&lt;/td&gt;
          &lt;td&gt;使用 7M 參數&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;PPBench 對比前沿 LLM&lt;/td&gt;
          &lt;td&gt;55.1%&lt;/td&gt;
          &lt;td&gt;91.2%&lt;/td&gt;
          &lt;td&gt;論文稱 PTRM 成本低於 0.0001 倍&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;這些結果不能簡單理解成「小模型全面打敗大模型」。PTRM 面向的是結構化、答案可驗證、訓練分布明確的推理任務。它在數獨和紙筆謎題上表現亮眼，不代表它能直接替代通用 LLM 處理開放問答、寫作、程式協作或複雜工具呼叫。&lt;/p&gt;
&lt;p&gt;但它確實說明一件事：在某些推理任務上，模型架構和測試時搜尋策略可能比單純堆參數更重要。&lt;/p&gt;
&lt;h2 id=&#34;適用邊界&#34;&gt;適用邊界
&lt;/h2&gt;&lt;p&gt;PTRM 最適合的場景有幾個特徵：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;答案空間相對結構化；&lt;/li&gt;
&lt;li&gt;問題有明確正確答案；&lt;/li&gt;
&lt;li&gt;模型已經學會大部分解題能力；&lt;/li&gt;
&lt;li&gt;錯誤主要來自推理軌跡卡住，而不是知識缺失；&lt;/li&gt;
&lt;li&gt;存在可靠的內部評分頭或外部驗證器。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;如果任務本身是開放式生成，例如寫文章、做產品分析、聊天陪伴，PTRM 這套方法就不能直接套用。因為這些任務沒有唯一標準答案，Q head 也很難只憑內部狀態判斷「正確」。&lt;/p&gt;
&lt;p&gt;另一個限制是算力。PTRM 把推理從一條軌跡變成多條軌跡，準確率提升來自額外測試時計算。雖然單個 TRM 很小，成本仍然會隨 rollout 數增加。&lt;/p&gt;
&lt;h2 id=&#34;它對-ai-agent-有什麼啟發&#34;&gt;它對 AI Agent 有什麼啟發
&lt;/h2&gt;&lt;p&gt;PTRM 雖然是一篇模型論文，但思路對 Agent 系統也有啟發。&lt;/p&gt;
&lt;p&gt;很多 Agent 失敗，不是因為第一步完全不會，而是因為一旦進入錯誤路線，就會沿著錯誤假設繼續推進。PTRM 的做法提醒我們：與其押注一次推理路徑，不如讓系統保留多條候選軌跡，再用驗證器、測試、規則或評分模型挑選更好的路徑。&lt;/p&gt;
&lt;p&gt;這和「循環工程取代提示詞工程」的方向也有點呼應：重點不只是寫一個更漂亮的 prompt，而是設計生成、擾動、驗證、選擇和重試的閉環。&lt;/p&gt;
&lt;h2 id=&#34;結論&#34;&gt;結論
&lt;/h2&gt;&lt;p&gt;Probabilistic TRM 的價值不在於「加噪聲」這個技巧本身，而在於它證明了一個更樸素的判斷：小模型如果已經具備解題能力，推理階段的搜尋和選擇機制可以大幅釋放潛力。&lt;/p&gt;
&lt;p&gt;對大模型來說，測試時計算通常表現為多採樣、反思、工具驗證和長鏈推理；對 TRM 這類遞迴模型來說，它可以表現為隱藏空間裡的隨機 rollout 和 Q head 選擇。兩者形式不同，但都在回答同一個問題：模型第一次走錯時，系統有沒有辦法讓它換一條路。&lt;/p&gt;
&lt;p&gt;參考來源：&lt;a class=&#34;link&#34; href=&#34;https://arxiv.org/abs/2605.19943&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;arXiv: Probabilistic Tiny Recursive Model&lt;/a&gt;、&lt;a class=&#34;link&#34; href=&#34;https://arxiv.org/html/2605.19943v1&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;HTML 版本&lt;/a&gt;&lt;/p&gt;
</description>
        </item>
        
    </channel>
</rss>
