一篇新的 arXiv 論文提出了 Probabilistic Tiny Recursive Model(PTRM)。它的思路很直接:不要只讓 Tiny Recursive Model(TRM)沿著固定路徑推理一次,而是在推理階段給隱藏狀態加一點隨機噪聲,讓模型並行跑出多條軌跡,再用模型已有的 Q head 選出最可能正確的答案。
這個方法有意思的地方在於,它沒有改訓練流程,也沒有為每個任務手寫增強規則。作者只在測試時增加計算量,就把一些推理基準的準確率明顯拉高。論文摘要給出的結果包括:Sudoku-Extreme 從 87.4% 提升到 98.75%,Pencil Puzzle Bench 多類謎題從 62.6% 提升到 91.2%。在後者上,PTRM 用 7M 參數達到 91.2%,高於論文對比的前沿 LLM 55.1%,成本還低於 0.0001 倍。
TRM 本來強在哪裡
TRM 和常見的大語言模型推理方式不太一樣。
LLM 通常是一個 token 接一個 token 地生成答案,中間可能寫出思維鏈、程式碼或解釋。TRM 則更像是在一個連續的隱藏狀態裡反覆修正答案:同一個小網路被多次呼叫,每一步都更新內部狀態和目前答案,直到得到最終解。
這種設計讓 TRM 可以用很少參數解決一些結構化推理問題,例如數獨、迷宮和紙筆邏輯謎題。它不是靠大規模語言知識覆蓋問題,而是靠遞迴更新把答案逐步逼近正確狀態。
但確定性遞迴也帶來一個問題:如果模型走進了一個錯誤的「盆地」,後面再多迭代幾步,也可能只是在錯誤區域裡打轉。
失敗不是完全不會,而是卡住了
論文作者分析了 TRM 在 Pencil Puzzle Bench 上的軌跡,發現模型大致會出現三種模式:
| 模式 | 表現 |
|---|---|
| 快速成功 | 很快進入正確區域,答案準確率和 Q 值同步上升 |
| 延遲成功 | 前面在錯誤區域徘徊,後面突然跳到正確區域 |
| 失敗 | 一直在錯誤區域振盪,最終答案仍然不對 |
這裡的「盆地」可以理解為隱藏空間裡的局部區域。好盆地會解碼出正確答案,壞盆地會解碼出錯誤答案。TRM 的問題不是完全沒有能力解題,而是確定性軌跡一旦落到壞盆地,就缺少跳出去的機制。
更關鍵的是,TRM 原本就有一個 Q head。這個頭在訓練中用於判斷目前答案是否已經足夠好,從而決定是否提前停止計算。論文發現,Q head 的分數和答案品質高度相關:正確軌跡的 Q 值會上升,錯誤軌跡的 Q 值通常保持較低。
換句話說,模型其實有一個內建的「這條路像不像對」的訊號,只是標準推理階段沒有充分使用它。
PTRM 怎麼做
PTRM 的方法可以概括為三步:
- 對同一個題目並行跑多條 rollout;
- 在每個深層遞迴步驟給隱藏狀態注入高斯噪聲;
- 用 Q head 給每條軌跡打分,選擇 Q 值最高的答案。
這相當於給 TRM 增加了一個「寬度擴展」維度。傳統做法可以多跑幾步,也就是增加深度;PTRM 則是同時跑多條略有不同的路徑,也就是增加寬度。
這個設計很像 LLM 裡的多採樣:同一個問題讓模型生成多個候選答案,再用投票或驗證器選擇結果。差別是,PTRM 不生成自然語言推理鏈,而是在連續隱藏空間裡採樣不同軌跡;它使用的驗證器也不是外部模型,而是 TRM 自己訓練出來的 Q head。
為什麼隨機噪聲有用
直覺上,給推理過程加噪聲聽起來像是在製造不穩定。但對 TRM 這種遞迴模型來說,適度噪聲反而能幫它擺脫錯誤軌跡。
論文裡有一個例子:某個確定性 TRM 解不出來的謎題,在 100 條隨機 rollout 裡,92 條仍然卡在壞盆地,但有 8 條逃到了正確區域並給出正確答案。只要 Q head 能把這 8 條識別出來,最終輸出就會從錯誤變成正確。
這也是 PTRM 的主要收益:不要求每條軌跡都更好,只要並行軌跡裡偶爾出現正確解,並且 Q head 能把它挑出來,整體準確率就會上升。
寬度比深度更實用
TRM 原本也可以透過增加遞迴步數來提升測試時計算量,但深度擴展是順序執行的,前一步沒有完成就不能跑下一步。PTRM 的多條 rollout 則天然可以並行執行,更適合 GPU。
論文在 PPBench 驗證集上觀察到,隨著 rollout 數增加,pass@K 和 best-Q@K 都會明顯上升。更有意思的是,best-Q@K 和 oracle 意義上的 pass@K 差距很小,說明 Q head 在這些測試裡確實能接近「正確答案選擇器」的效果。
相比之下,簡單選擇出現次數最多的答案,收益要小很多。這說明 PTRM 的提升不只是「多跑幾次然後投票」,而是依賴 Q head 識別少數正確軌跡的能力。
結果到底有多強
論文給出的關鍵數字可以這樣看:
| 基準 | 標準 TRM | PTRM | 說明 |
|---|---|---|---|
| Sudoku-Extreme | 87.4% | 98.75% | 不重新訓練,僅測試時增加隨機 rollout |
| Pencil Puzzle Bench 多類謎題 | 62.6% | 91.2% | 使用 7M 參數 |
| PPBench 對比前沿 LLM | 55.1% | 91.2% | 論文稱 PTRM 成本低於 0.0001 倍 |
這些結果不能簡單理解成「小模型全面打敗大模型」。PTRM 面向的是結構化、答案可驗證、訓練分布明確的推理任務。它在數獨和紙筆謎題上表現亮眼,不代表它能直接替代通用 LLM 處理開放問答、寫作、程式協作或複雜工具呼叫。
但它確實說明一件事:在某些推理任務上,模型架構和測試時搜尋策略可能比單純堆參數更重要。
適用邊界
PTRM 最適合的場景有幾個特徵:
- 答案空間相對結構化;
- 問題有明確正確答案;
- 模型已經學會大部分解題能力;
- 錯誤主要來自推理軌跡卡住,而不是知識缺失;
- 存在可靠的內部評分頭或外部驗證器。
如果任務本身是開放式生成,例如寫文章、做產品分析、聊天陪伴,PTRM 這套方法就不能直接套用。因為這些任務沒有唯一標準答案,Q head 也很難只憑內部狀態判斷「正確」。
另一個限制是算力。PTRM 把推理從一條軌跡變成多條軌跡,準確率提升來自額外測試時計算。雖然單個 TRM 很小,成本仍然會隨 rollout 數增加。
它對 AI Agent 有什麼啟發
PTRM 雖然是一篇模型論文,但思路對 Agent 系統也有啟發。
很多 Agent 失敗,不是因為第一步完全不會,而是因為一旦進入錯誤路線,就會沿著錯誤假設繼續推進。PTRM 的做法提醒我們:與其押注一次推理路徑,不如讓系統保留多條候選軌跡,再用驗證器、測試、規則或評分模型挑選更好的路徑。
這和「循環工程取代提示詞工程」的方向也有點呼應:重點不只是寫一個更漂亮的 prompt,而是設計生成、擾動、驗證、選擇和重試的閉環。
結論
Probabilistic TRM 的價值不在於「加噪聲」這個技巧本身,而在於它證明了一個更樸素的判斷:小模型如果已經具備解題能力,推理階段的搜尋和選擇機制可以大幅釋放潛力。
對大模型來說,測試時計算通常表現為多採樣、反思、工具驗證和長鏈推理;對 TRM 這類遞迴模型來說,它可以表現為隱藏空間裡的隨機 rollout 和 Q head 選擇。兩者形式不同,但都在回答同一個問題:模型第一次走錯時,系統有沒有辦法讓它換一條路。