Probabilistic TRM: un poco de aleatoriedad hace mucho más fuerte a un modelo pequeño de razonamiento

Wed, 10 Jun 2026 14:54:59 +0800

Un nuevo paper de arXiv propone Probabilistic Tiny Recursive Model, o PTRM. La idea es directa: en lugar de dejar que Tiny Recursive Model siga una única ruta de razonamiento fija, se añade un poco de ruido aleatorio al estado oculto durante la inferencia, se ejecutan varias trayectorias en paralelo y se usa el Q head que el modelo ya tiene para escoger la respuesta con mayor probabilidad de ser correcta.

Lo interesante es que el método no cambia el entrenamiento ni añade reglas escritas a mano para cada tarea. Los autores solo aumentan el cálculo en tiempo de prueba y aun así reportan mejoras claras: Sudoku-Extreme pasa de 87.4% a 98.75%, y varias tareas de Pencil Puzzle Bench suben de 62.6% a 91.2%. En este último caso, PTRM logra 91.2% con 7M parámetros, por encima del 55.1% de los LLM de frontera citados en el paper, con un coste inferior a 0.0001x.

Dónde es fuerte TRM

TRM razona de forma distinta a un gran modelo de lenguaje típico.

Un LLM suele generar la respuesta token por token, a veces con cadena de pensamiento, código o explicación. TRM, en cambio, refina una respuesta repetidamente dentro de un estado oculto continuo. La misma red pequeña se llama muchas veces, actualizando su estado interno y la respuesta actual hasta llegar a una solución final.

Este diseño permite resolver problemas de razonamiento estructurado con muy pocos parámetros, como Sudoku, laberintos y puzzles lógicos de lápiz y papel. No depende de cubrir el problema con conocimiento lingüístico masivo, sino de empujar la respuesta hacia un estado correcto mediante actualizaciones recursivas.

La parte débil es que una recursión determinista puede atascarse. Si el modelo entra en una cuenca incorrecta, más iteraciones pueden mantenerlo dando vueltas dentro de la región equivocada.

Fallar suele significar quedarse atascado

Los autores analizan las trayectorias de TRM en Pencil Puzzle Bench y encuentran tres patrones generales:

Patrón	Comportamiento
Éxito rápido	Entra pronto en la región correcta; la precisión y el valor Q suben juntos
Éxito tardío	Vaga por una región errónea y luego salta a la correcta
Fallo	Oscila en una región errónea y termina con una respuesta incorrecta

La “cuenca” puede entenderse como una región local del espacio oculto. Una buena cuenca se decodifica en una respuesta correcta; una mala cuenca se decodifica en una respuesta errónea. El problema de TRM no es que no tenga capacidad para resolver, sino que una trayectoria determinista tiene pocos mecanismos para escapar cuando cae en una mala cuenca.

TRM ya tiene además un Q head. Durante el entrenamiento, este head estima si la respuesta actual es suficientemente buena y ayuda a decidir si se puede detener el cálculo antes de tiempo. El paper muestra que la puntuación Q está muy correlacionada con la calidad de la respuesta: las trayectorias correctas tienden a subir de Q, mientras que las fallidas se mantienen bajas.

Es decir, el modelo ya tiene una señal interna de “esta ruta parece correcta”, pero la inferencia estándar no la aprovecha del todo.

Cómo funciona PTRM

PTRM se puede resumir en tres pasos:

Ejecutar varios rollouts en paralelo para el mismo problema;
Inyectar ruido gaussiano en el estado oculto durante cada paso recursivo profundo;
Usar el Q head para puntuar cada trayectoria y elegir la respuesta con mayor Q.

Esto añade una dimensión de anchura a TRM. El enfoque tradicional puede ejecutar más pasos recursivos, aumentando la profundidad. PTRM ejecuta varias rutas ligeramente distintas al mismo tiempo, aumentando la anchura.

Se parece al muestreo múltiple en LLMs: pedir varias respuestas candidatas y luego elegir mediante voto o verificación. La diferencia es que PTRM no genera cadenas de razonamiento en lenguaje natural. Muestrea trayectorias en un espacio oculto continuo, y el verificador no es un modelo externo, sino el Q head entrenado del propio TRM.

Por qué ayuda el ruido aleatorio

A primera vista, añadir ruido a la inferencia parece volver el sistema menos estable. Pero para un modelo recursivo como TRM, un ruido moderado puede ayudar a escapar de una trayectoria equivocada.

El paper da un ejemplo: un puzzle que el TRM determinista no puede resolver. Entre 100 rollouts aleatorios, 92 siguen atrapados en malas cuencas, pero 8 escapan a la región correcta y producen la respuesta adecuada. Si el Q head puede identificar esos 8, la salida final cambia de incorrecta a correcta.

Esa es la ganancia central de PTRM. No necesita que todas las trayectorias sean mejores. Basta con que algunas trayectorias paralelas encuentren una solución correcta y que el Q head pueda seleccionarlas.

La anchura es más práctica que la profundidad

TRM también puede aumentar el cálculo en tiempo de prueba ejecutando más pasos recursivos, pero esa profundidad es secuencial: el siguiente paso depende del anterior. Los rollouts de PTRM son naturalmente paralelos y encajan mejor con GPU.

En el conjunto de validación de PPBench, el paper observa que pass@K y best-Q@K suben a medida que aumenta el número de rollouts. Además, best-Q@K queda cerca del pass@K oracle, lo que sugiere que el Q head actúa casi como un selector de respuestas correctas en estas pruebas.

Elegir simplemente la respuesta más frecuente ayuda mucho menos. La mejora de PTRM no es solo “ejecutar varias veces y votar”; depende de la capacidad del Q head para reconocer trayectorias correctas raras.

Qué tan fuertes son los resultados

Los números principales son:

Benchmark	TRM estándar	PTRM	Nota
Sudoku-Extreme	87.4%	98.75%	Sin reentrenar; solo rollouts aleatorios en test
Tareas de Pencil Puzzle Bench	62.6%	91.2%	7M parámetros
PPBench frente a LLM de frontera	55.1%	91.2%	El paper reporta coste inferior a 0.0001x

Estos resultados no significan que “los modelos pequeños superen a los grandes en todo”. PTRM apunta a tareas estructuradas, verificables y con distribuciones de entrenamiento claras. Que funcione muy bien en Sudoku y puzzles de lápiz y papel no implica que reemplace a un LLM general en preguntas abiertas, escritura, colaboración de código o uso complejo de herramientas.

Pero sí muestra que, en algunas tareas de razonamiento, la arquitectura y la estrategia de búsqueda en tiempo de prueba pueden importar más que apilar parámetros.

Alcance

PTRM encaja mejor cuando:

el espacio de respuestas es relativamente estructurado;
el problema tiene una respuesta correcta clara;
el modelo ya aprendió la mayor parte de la habilidad de resolución;
los errores vienen de trayectorias atascadas, no de falta de conocimiento;
existe un head de puntuación interno o un verificador externo fiable.

Para generación abierta, como escribir artículos, analizar productos o conversar, este método no se puede aplicar directamente. No hay una única respuesta estándar, y un Q head difícilmente puede juzgar la corrección solo desde el estado interno.

La otra limitación es el cómputo. PTRM convierte una trayectoria en muchas, así que la mejora viene de cálculo adicional en tiempo de prueba. Aunque cada TRM sea pequeño, el coste crece con el número de rollouts.

Qué sugiere para AI Agents

PTRM es un paper de modelos, pero su idea también sirve para sistemas de Agent.

Muchos fallos de Agent no ocurren porque el primer paso sea imposible, sino porque el sistema entra en una ruta errónea y sigue construyendo sobre una hipótesis equivocada. PTRM recuerda que, en lugar de apostar por una sola ruta de razonamiento, un sistema puede mantener varias trayectorias candidatas y usar tests, reglas, verificadores o modelos de puntuación para escoger una mejor.

Esto conecta con el paso de prompt engineering a loop engineering. Lo importante no es solo escribir un prompt más bonito, sino diseñar un ciclo de generación, perturbación, validación, selección y reintento.

Conclusión

El valor de Probabilistic TRM no está solo en el truco de añadir ruido. Muestra algo más práctico: si un modelo pequeño ya tiene capacidad de resolver, la búsqueda y selección durante la inferencia pueden liberar mucho más de esa capacidad.

En modelos grandes, el test-time compute suele aparecer como muestreo múltiple, reflexión, verificación con herramientas y razonamiento largo. En modelos recursivos como TRM, puede aparecer como rollouts aleatorios en el espacio oculto más selección con Q head. Las formas son distintas, pero la pregunta es la misma: cuando el modelo toma el primer camino equivocado, ¿el sistema tiene una forma de probar otro?

Referencias: arXiv: Probabilistic Tiny Recursive Model, versión HTML

Test-Time Compute on KnightLi Blog