Probabilistic TRM：給小模型加一點隨機性，推理成績反而大漲

Wed, 10 Jun 2026 14:54:59 +0800

一篇新的 arXiv 論文提出了 Probabilistic Tiny Recursive Model（PTRM）。它的思路很直接：不要只讓 Tiny Recursive Model（TRM）沿著固定路徑推理一次，而是在推理階段給隱藏狀態加一點隨機噪聲，讓模型並行跑出多條軌跡，再用模型已有的 Q head 選出最可能正確的答案。

這個方法有意思的地方在於，它沒有改訓練流程，也沒有為每個任務手寫增強規則。作者只在測試時增加計算量，就把一些推理基準的準確率明顯拉高。論文摘要給出的結果包括：Sudoku-Extreme 從 87.4% 提升到 98.75%，Pencil Puzzle Bench 多類謎題從 62.6% 提升到 91.2%。在後者上，PTRM 用 7M 參數達到 91.2%，高於論文對比的前沿 LLM 55.1%，成本還低於 0.0001 倍。

TRM 本來強在哪裡

TRM 和常見的大語言模型推理方式不太一樣。

LLM 通常是一個 token 接一個 token 地生成答案，中間可能寫出思維鏈、程式碼或解釋。TRM 則更像是在一個連續的隱藏狀態裡反覆修正答案：同一個小網路被多次呼叫，每一步都更新內部狀態和目前答案，直到得到最終解。

這種設計讓 TRM 可以用很少參數解決一些結構化推理問題，例如數獨、迷宮和紙筆邏輯謎題。它不是靠大規模語言知識覆蓋問題，而是靠遞迴更新把答案逐步逼近正確狀態。

但確定性遞迴也帶來一個問題：如果模型走進了一個錯誤的「盆地」，後面再多迭代幾步，也可能只是在錯誤區域裡打轉。

失敗不是完全不會，而是卡住了

論文作者分析了 TRM 在 Pencil Puzzle Bench 上的軌跡，發現模型大致會出現三種模式：

模式	表現
快速成功	很快進入正確區域，答案準確率和 Q 值同步上升
延遲成功	前面在錯誤區域徘徊，後面突然跳到正確區域
失敗	一直在錯誤區域振盪，最終答案仍然不對

這裡的「盆地」可以理解為隱藏空間裡的局部區域。好盆地會解碼出正確答案，壞盆地會解碼出錯誤答案。TRM 的問題不是完全沒有能力解題，而是確定性軌跡一旦落到壞盆地，就缺少跳出去的機制。

更關鍵的是，TRM 原本就有一個 Q head。這個頭在訓練中用於判斷目前答案是否已經足夠好，從而決定是否提前停止計算。論文發現，Q head 的分數和答案品質高度相關：正確軌跡的 Q 值會上升，錯誤軌跡的 Q 值通常保持較低。

換句話說，模型其實有一個內建的「這條路像不像對」的訊號，只是標準推理階段沒有充分使用它。

PTRM 怎麼做

PTRM 的方法可以概括為三步：

對同一個題目並行跑多條 rollout；
在每個深層遞迴步驟給隱藏狀態注入高斯噪聲；
用 Q head 給每條軌跡打分，選擇 Q 值最高的答案。

這相當於給 TRM 增加了一個「寬度擴展」維度。傳統做法可以多跑幾步，也就是增加深度；PTRM 則是同時跑多條略有不同的路徑，也就是增加寬度。

這個設計很像 LLM 裡的多採樣：同一個問題讓模型生成多個候選答案，再用投票或驗證器選擇結果。差別是，PTRM 不生成自然語言推理鏈，而是在連續隱藏空間裡採樣不同軌跡；它使用的驗證器也不是外部模型，而是 TRM 自己訓練出來的 Q head。

為什麼隨機噪聲有用

直覺上，給推理過程加噪聲聽起來像是在製造不穩定。但對 TRM 這種遞迴模型來說，適度噪聲反而能幫它擺脫錯誤軌跡。

論文裡有一個例子：某個確定性 TRM 解不出來的謎題，在 100 條隨機 rollout 裡，92 條仍然卡在壞盆地，但有 8 條逃到了正確區域並給出正確答案。只要 Q head 能把這 8 條識別出來，最終輸出就會從錯誤變成正確。

這也是 PTRM 的主要收益：不要求每條軌跡都更好，只要並行軌跡裡偶爾出現正確解，並且 Q head 能把它挑出來，整體準確率就會上升。

寬度比深度更實用

TRM 原本也可以透過增加遞迴步數來提升測試時計算量，但深度擴展是順序執行的，前一步沒有完成就不能跑下一步。PTRM 的多條 rollout 則天然可以並行執行，更適合 GPU。

論文在 PPBench 驗證集上觀察到，隨著 rollout 數增加，pass@K 和 best-Q@K 都會明顯上升。更有意思的是，best-Q@K 和 oracle 意義上的 pass@K 差距很小，說明 Q head 在這些測試裡確實能接近「正確答案選擇器」的效果。

相比之下，簡單選擇出現次數最多的答案，收益要小很多。這說明 PTRM 的提升不只是「多跑幾次然後投票」，而是依賴 Q head 識別少數正確軌跡的能力。

結果到底有多強

論文給出的關鍵數字可以這樣看：

基準	標準 TRM	PTRM	說明
Sudoku-Extreme	87.4%	98.75%	不重新訓練，僅測試時增加隨機 rollout
Pencil Puzzle Bench 多類謎題	62.6%	91.2%	使用 7M 參數
PPBench 對比前沿 LLM	55.1%	91.2%	論文稱 PTRM 成本低於 0.0001 倍

這些結果不能簡單理解成「小模型全面打敗大模型」。PTRM 面向的是結構化、答案可驗證、訓練分布明確的推理任務。它在數獨和紙筆謎題上表現亮眼，不代表它能直接替代通用 LLM 處理開放問答、寫作、程式協作或複雜工具呼叫。

但它確實說明一件事：在某些推理任務上，模型架構和測試時搜尋策略可能比單純堆參數更重要。

適用邊界

PTRM 最適合的場景有幾個特徵：

答案空間相對結構化；
問題有明確正確答案；
模型已經學會大部分解題能力；
錯誤主要來自推理軌跡卡住，而不是知識缺失；
存在可靠的內部評分頭或外部驗證器。

如果任務本身是開放式生成，例如寫文章、做產品分析、聊天陪伴，PTRM 這套方法就不能直接套用。因為這些任務沒有唯一標準答案，Q head 也很難只憑內部狀態判斷「正確」。

另一個限制是算力。PTRM 把推理從一條軌跡變成多條軌跡，準確率提升來自額外測試時計算。雖然單個 TRM 很小，成本仍然會隨 rollout 數增加。

它對 AI Agent 有什麼啟發

PTRM 雖然是一篇模型論文，但思路對 Agent 系統也有啟發。

很多 Agent 失敗，不是因為第一步完全不會，而是因為一旦進入錯誤路線，就會沿著錯誤假設繼續推進。PTRM 的做法提醒我們：與其押注一次推理路徑，不如讓系統保留多條候選軌跡，再用驗證器、測試、規則或評分模型挑選更好的路徑。

這和「循環工程取代提示詞工程」的方向也有點呼應：重點不只是寫一個更漂亮的 prompt，而是設計生成、擾動、驗證、選擇和重試的閉環。

結論

Probabilistic TRM 的價值不在於「加噪聲」這個技巧本身，而在於它證明了一個更樸素的判斷：小模型如果已經具備解題能力，推理階段的搜尋和選擇機制可以大幅釋放潛力。

對大模型來說，測試時計算通常表現為多採樣、反思、工具驗證和長鏈推理；對 TRM 這類遞迴模型來說，它可以表現為隱藏空間裡的隨機 rollout 和 Q head 選擇。兩者形式不同，但都在回答同一個問題：模型第一次走錯時，系統有沒有辦法讓它換一條路。

參考來源：arXiv: Probabilistic Tiny Recursive Model、HTML 版本

測試時計算 on KnightLi的博客