新しい arXiv 論文が Probabilistic Tiny Recursive Model(PTRM)を提案しています。考え方はかなり直接的です。Tiny Recursive Model(TRM)に固定された推論経路を一度だけ走らせるのではなく、推論時に隠れ状態へ少しランダムノイズを加え、複数の軌跡を並列に走らせ、モデルにもともとある Q head で最も正しそうな答えを選びます。
この方法が面白いのは、学習手順を変えず、タスクごとの手書きルールも追加しない点です。著者らはテスト時の計算量を増やすだけで、いくつかの推論ベンチマークの精度を大きく引き上げています。論文要旨では、Sudoku-Extreme が 87.4% から 98.75% へ、Pencil Puzzle Bench の複数タスクが 62.6% から 91.2% へ向上したと報告されています。後者では、PTRM は 7M パラメータで 91.2% に達し、論文が比較する最前線 LLM の 55.1% を上回り、コストは 0.0001 倍未満とされています。
TRM は何が強いのか
TRM の推論方法は、一般的な大規模言語モデルとはかなり異なります。
LLM は通常、token を一つずつ生成して答えを作ります。途中で思考過程、コード、説明を出すこともあります。一方 TRM は、連続的な隠れ状態の中で答えを繰り返し修正する仕組みです。同じ小さなネットワークを何度も呼び出し、各ステップで内部状態と現在の答えを更新し、最終解に近づけます。
この設計により、TRM は少ないパラメータで数独、迷路、紙筆ロジックパズルのような構造化推論問題を解けます。広範な言語知識で問題を覆うのではなく、再帰的な更新で答えを正しい状態へ近づけます。
ただし決定的な再帰には弱点もあります。モデルが悪い「盆地」に入ると、その後に何ステップ繰り返しても、誤った領域の中で回り続けるだけになることがあります。
失敗は「解けない」より「抜け出せない」
著者らは Pencil Puzzle Bench 上の TRM の軌跡を分析し、主に三つのパターンを見つけています。
| パターン | 振る舞い |
|---|---|
| 早い成功 | すぐ正しい領域に入り、答えの精度と Q 値が同時に上がる |
| 遅い成功 | 前半は誤った領域をさまよい、後半で正しい領域へ跳ぶ |
| 失敗 | 誤った領域で振動し続け、最終的な答えも間違う |
ここでいう「盆地」は、隠れ空間の局所領域として理解できます。良い盆地は正しい答えにデコードされ、悪い盆地は誤答にデコードされます。TRM の問題は能力がまったくないことではなく、決定的な軌跡が悪い盆地に落ちると、そこから抜け出す仕組みが弱いことです。
さらに重要なのは、TRM にはもともと Q head がある点です。この head は学習中、現在の答えが十分よいかを判断し、早期停止に使われます。論文では、Q head のスコアが答えの品質と強く相関することが示されています。正しい軌跡では Q 値が上がり、誤った軌跡では低いままになる傾向があります。
つまりモデルには「この経路は正しそうか」を見る内部信号がすでにあります。ただし標準的な推論では、その信号を十分に使っていません。
PTRM の方法
PTRM は次の三段階で説明できます。
- 同じ問題に対して複数の rollout を並列に走らせる。
- 深い再帰ステップごとに隠れ状態へガウスノイズを注入する。
- Q head で各軌跡を採点し、Q 値が最も高い答えを選ぶ。
これは TRM に「幅」の拡張を加える方法です。従来は再帰ステップを増やして深さを伸ばせます。PTRM は少しずつ異なる複数経路を同時に走らせ、幅を増やします。
LLM の複数サンプリングにも似ています。同じ問題に対して複数の候補を生成させ、投票や検証器で選ぶ手法です。ただし PTRM は自然言語の推論チェーンを生成しません。連続的な隠れ空間の中で異なる軌跡をサンプリングし、外部モデルではなく TRM 自身の Q head を検証器として使います。
なぜランダムノイズが効くのか
直感的には、推論過程にノイズを入れると不安定になりそうです。しかし TRM のような再帰モデルでは、適度なノイズが誤った軌跡から抜け出す助けになります。
論文では一つの例が紹介されています。決定的な TRM では解けないパズルに対し、100 本のランダム rollout を走らせると、92 本は悪い盆地に残るものの、8 本は正しい領域へ逃げて正答を出します。Q head がその 8 本を見分けられれば、最終出力は誤答から正答に変わります。
これが PTRM の中心的な利点です。すべての軌跡が良くなる必要はありません。並列軌跡の一部が正解を見つけ、Q head がそれを選べれば、全体の精度は上がります。
深さより幅のほうが実用的
TRM は再帰ステップを増やすことでもテスト時計算を増やせます。ただし深さ方向の拡張は逐次的で、前のステップが終わらないと次へ進めません。PTRM の複数 rollout は自然に並列化できるため、GPU に向いています。
PPBench の検証セットでは、rollout 数が増えるにつれて pass@K と best-Q@K がどちらも上がることが観察されています。さらに best-Q@K は oracle としての pass@K に近く、これらのテストでは Q head がかなり「正答選択器」に近い働きをしていることがわかります。
単に出現回数が最も多い答えを選ぶだけでは、効果はずっと小さくなります。PTRM の改善は「何度も走らせて投票する」だけではなく、少数の正しい軌跡を Q head が見分けられることに依存しています。
結果はどれほど強いのか
論文の主な数字は次の通りです。
| ベンチマーク | 標準 TRM | PTRM | 説明 |
|---|---|---|---|
| Sudoku-Extreme | 87.4% | 98.75% | 再学習なし、テスト時にランダム rollout を追加 |
| Pencil Puzzle Bench の複数タスク | 62.6% | 91.2% | 7M パラメータ |
| PPBench での最前線 LLM 比較 | 55.1% | 91.2% | 論文では PTRM のコストは 0.0001 倍未満とされる |
これらの結果を「小モデルが大モデルを全面的に上回った」と読むべきではありません。PTRM が対象にするのは、構造化され、答えを検証でき、学習分布が明確な推論タスクです。数独や紙筆パズルで優れていても、オープンな質問応答、文章作成、コード協業、複雑なツール利用を汎用 LLM の代わりにこなせるわけではありません。
それでも、特定の推論タスクでは、単にパラメータを増やすよりも、モデル構造とテスト時探索戦略が重要になり得ることを示しています。
適用範囲
PTRM が向いているのは、次のような条件を持つ場面です。
- 答えの空間が比較的構造化されている。
- 明確な正解がある。
- モデルが解法の大部分をすでに学習している。
- 失敗の主因が知識不足ではなく、推論軌跡の詰まりである。
- 信頼できる内部スコア head または外部検証器がある。
記事作成、製品分析、雑談のようなオープン生成には、この方法をそのまま適用できません。唯一の標準解がなく、Q head も内部状態だけで「正しい」と判断しにくいためです。
もう一つの制約は計算量です。PTRM は一つの軌跡を複数に増やすため、精度向上は追加のテスト時計算から来ます。TRM 一つが小さくても、rollout 数に応じてコストは増えます。
AI Agent への示唆
PTRM はモデル論文ですが、Agent システムにも示唆があります。
多くの Agent の失敗は、最初の一歩が完全にできないからではなく、一度誤った経路に入ると誤った仮定のまま進み続けることから起きます。PTRM は、一つの推論経路に賭けるのではなく、複数の候補軌跡を保持し、テスト、規則、検証器、スコアリングモデルでより良い経路を選ぶ発想を思い出させます。
これは「プロンプトエンジニアリングからループエンジニアリングへ」という流れにも通じます。重要なのは、よりきれいな prompt を書くことだけではなく、生成、摂動、検証、選択、再試行のループを設計することです。
まとめ
Probabilistic TRM の価値は、「ノイズを加える」という小技そのものではありません。小さなモデルがすでに解く力を持っているなら、推論時の探索と選択の仕組みによって、その能力を大きく引き出せることを示しています。
大規模モデルでは、テスト時計算は複数サンプリング、反省、ツール検証、長い推論チェーンとして現れます。TRM のような再帰モデルでは、隠れ空間のランダム rollout と Q head 選択として現れます。形式は違っても、問いは同じです。モデルが最初に間違った道を進んだとき、システムは別の道を試せるのか。