Probabilistic TRM:給小模型加一點隨機性,推理成績反而大漲

整理 arXiv 論文 Probabilistic Tiny Recursive Model:研究者在 TRM 推理階段注入高斯噪聲,並用模型已有的 Q head 選擇最可信答案,在不重新訓練的情況下顯著提升數獨和紙筆謎題表現。

一篇新的 arXiv 論文提出了 Probabilistic Tiny Recursive Model(PTRM)。它的思路很直接:不要只讓 Tiny Recursive Model(TRM)沿著固定路徑推理一次,而是在推理階段給隱藏狀態加一點隨機噪聲,讓模型並行跑出多條軌跡,再用模型已有的 Q head 選出最可能正確的答案。

這個方法有意思的地方在於,它沒有改訓練流程,也沒有為每個任務手寫增強規則。作者只在測試時增加計算量,就把一些推理基準的準確率明顯拉高。論文摘要給出的結果包括:Sudoku-Extreme 從 87.4% 提升到 98.75%,Pencil Puzzle Bench 多類謎題從 62.6% 提升到 91.2%。在後者上,PTRM 用 7M 參數達到 91.2%,高於論文對比的前沿 LLM 55.1%,成本還低於 0.0001 倍。

TRM 本來強在哪裡

TRM 和常見的大語言模型推理方式不太一樣。

LLM 通常是一個 token 接一個 token 地生成答案,中間可能寫出思維鏈、程式碼或解釋。TRM 則更像是在一個連續的隱藏狀態裡反覆修正答案:同一個小網路被多次呼叫,每一步都更新內部狀態和目前答案,直到得到最終解。

這種設計讓 TRM 可以用很少參數解決一些結構化推理問題,例如數獨、迷宮和紙筆邏輯謎題。它不是靠大規模語言知識覆蓋問題,而是靠遞迴更新把答案逐步逼近正確狀態。

但確定性遞迴也帶來一個問題:如果模型走進了一個錯誤的「盆地」,後面再多迭代幾步,也可能只是在錯誤區域裡打轉。

失敗不是完全不會,而是卡住了

論文作者分析了 TRM 在 Pencil Puzzle Bench 上的軌跡,發現模型大致會出現三種模式:

模式 表現
快速成功 很快進入正確區域,答案準確率和 Q 值同步上升
延遲成功 前面在錯誤區域徘徊,後面突然跳到正確區域
失敗 一直在錯誤區域振盪,最終答案仍然不對

這裡的「盆地」可以理解為隱藏空間裡的局部區域。好盆地會解碼出正確答案,壞盆地會解碼出錯誤答案。TRM 的問題不是完全沒有能力解題,而是確定性軌跡一旦落到壞盆地,就缺少跳出去的機制。

更關鍵的是,TRM 原本就有一個 Q head。這個頭在訓練中用於判斷目前答案是否已經足夠好,從而決定是否提前停止計算。論文發現,Q head 的分數和答案品質高度相關:正確軌跡的 Q 值會上升,錯誤軌跡的 Q 值通常保持較低。

換句話說,模型其實有一個內建的「這條路像不像對」的訊號,只是標準推理階段沒有充分使用它。

PTRM 怎麼做

PTRM 的方法可以概括為三步:

  1. 對同一個題目並行跑多條 rollout;
  2. 在每個深層遞迴步驟給隱藏狀態注入高斯噪聲;
  3. 用 Q head 給每條軌跡打分,選擇 Q 值最高的答案。

這相當於給 TRM 增加了一個「寬度擴展」維度。傳統做法可以多跑幾步,也就是增加深度;PTRM 則是同時跑多條略有不同的路徑,也就是增加寬度。

這個設計很像 LLM 裡的多採樣:同一個問題讓模型生成多個候選答案,再用投票或驗證器選擇結果。差別是,PTRM 不生成自然語言推理鏈,而是在連續隱藏空間裡採樣不同軌跡;它使用的驗證器也不是外部模型,而是 TRM 自己訓練出來的 Q head。

為什麼隨機噪聲有用

直覺上,給推理過程加噪聲聽起來像是在製造不穩定。但對 TRM 這種遞迴模型來說,適度噪聲反而能幫它擺脫錯誤軌跡。

論文裡有一個例子:某個確定性 TRM 解不出來的謎題,在 100 條隨機 rollout 裡,92 條仍然卡在壞盆地,但有 8 條逃到了正確區域並給出正確答案。只要 Q head 能把這 8 條識別出來,最終輸出就會從錯誤變成正確。

這也是 PTRM 的主要收益:不要求每條軌跡都更好,只要並行軌跡裡偶爾出現正確解,並且 Q head 能把它挑出來,整體準確率就會上升。

寬度比深度更實用

TRM 原本也可以透過增加遞迴步數來提升測試時計算量,但深度擴展是順序執行的,前一步沒有完成就不能跑下一步。PTRM 的多條 rollout 則天然可以並行執行,更適合 GPU。

論文在 PPBench 驗證集上觀察到,隨著 rollout 數增加,pass@K 和 best-Q@K 都會明顯上升。更有意思的是,best-Q@K 和 oracle 意義上的 pass@K 差距很小,說明 Q head 在這些測試裡確實能接近「正確答案選擇器」的效果。

相比之下,簡單選擇出現次數最多的答案,收益要小很多。這說明 PTRM 的提升不只是「多跑幾次然後投票」,而是依賴 Q head 識別少數正確軌跡的能力。

結果到底有多強

論文給出的關鍵數字可以這樣看:

基準 標準 TRM PTRM 說明
Sudoku-Extreme 87.4% 98.75% 不重新訓練,僅測試時增加隨機 rollout
Pencil Puzzle Bench 多類謎題 62.6% 91.2% 使用 7M 參數
PPBench 對比前沿 LLM 55.1% 91.2% 論文稱 PTRM 成本低於 0.0001 倍

這些結果不能簡單理解成「小模型全面打敗大模型」。PTRM 面向的是結構化、答案可驗證、訓練分布明確的推理任務。它在數獨和紙筆謎題上表現亮眼,不代表它能直接替代通用 LLM 處理開放問答、寫作、程式協作或複雜工具呼叫。

但它確實說明一件事:在某些推理任務上,模型架構和測試時搜尋策略可能比單純堆參數更重要。

適用邊界

PTRM 最適合的場景有幾個特徵:

  • 答案空間相對結構化;
  • 問題有明確正確答案;
  • 模型已經學會大部分解題能力;
  • 錯誤主要來自推理軌跡卡住,而不是知識缺失;
  • 存在可靠的內部評分頭或外部驗證器。

如果任務本身是開放式生成,例如寫文章、做產品分析、聊天陪伴,PTRM 這套方法就不能直接套用。因為這些任務沒有唯一標準答案,Q head 也很難只憑內部狀態判斷「正確」。

另一個限制是算力。PTRM 把推理從一條軌跡變成多條軌跡,準確率提升來自額外測試時計算。雖然單個 TRM 很小,成本仍然會隨 rollout 數增加。

它對 AI Agent 有什麼啟發

PTRM 雖然是一篇模型論文,但思路對 Agent 系統也有啟發。

很多 Agent 失敗,不是因為第一步完全不會,而是因為一旦進入錯誤路線,就會沿著錯誤假設繼續推進。PTRM 的做法提醒我們:與其押注一次推理路徑,不如讓系統保留多條候選軌跡,再用驗證器、測試、規則或評分模型挑選更好的路徑。

這和「循環工程取代提示詞工程」的方向也有點呼應:重點不只是寫一個更漂亮的 prompt,而是設計生成、擾動、驗證、選擇和重試的閉環。

結論

Probabilistic TRM 的價值不在於「加噪聲」這個技巧本身,而在於它證明了一個更樸素的判斷:小模型如果已經具備解題能力,推理階段的搜尋和選擇機制可以大幅釋放潛力。

對大模型來說,測試時計算通常表現為多採樣、反思、工具驗證和長鏈推理;對 TRM 這類遞迴模型來說,它可以表現為隱藏空間裡的隨機 rollout 和 Q head 選擇。兩者形式不同,但都在回答同一個問題:模型第一次走錯時,系統有沒有辦法讓它換一條路。

參考來源:arXiv: Probabilistic Tiny Recursive ModelHTML 版本

记录并分享
使用 Hugo 建立
主題 StackJimmy 設計