Cómo elegir los cinco modos de MinerU 3.4: pipeline, hybrid-engine, vlm-engine, hybrid-http-client y vlm-http-client

La CLI oficial de MinerU 3.4 admite cinco nombres de backend:

1
2
3
4
5


pipeline
hybrid-engine
vlm-engine
hybrid-http-client
vlm-http-client

El backend predeterminado es hybrid-engine, y Hybrid usa --effort medium por defecto. Lo que suele confundir no es cómo escribir el comando, sino dónde se ejecuta el modelo, si la GPU local es obligatoria y qué tipo de PDF conviene procesar con cada modo.

Resumen rápido: usa pipeline para PDFs digitales normales y trabajos por lotes; usa hybrid-engine --effort medium si quieres la mejor calidad local general; prueba vlm-engine para escaneos complejos; y considera los dos modos HTTP Client solo si el modelo está desplegado en otro servidor con GPU.

Comparación rápida de los cinco modos

Backend	Ubicación de cómputo	Método principal	GPU local	Características
`pipeline`	Equipo local	Combinación de modelos especializados como OCR, análisis de diseño y reconocimiento de fórmulas	Opcional	Mejor compatibilidad, estable, casi sin alucinaciones
`hybrid-engine`	Equipo local	Extracción de texto nativo + VLM + Pipeline	Obligatoria, mínimo aprox. 8GB	Mejor precisión general, adecuado para la mayoría de análisis de alta calidad
`vlm-engine`	Equipo local	Principalmente un modelo visión-lenguaje entiende toda la página	Obligatoria, mínimo aprox. 8GB	Bueno para escaneos complejos, tablas, fórmulas y diseños especiales
`hybrid-http-client`	Modelos pequeños locales + VLM remoto	Hybrid, pero el modelo grande corre en el servidor	Puede evitarse GPU local	Adecuado si ya tienes un servidor remoto con GPU
`vlm-http-client`	Servidor remoto	El VLM corre completamente en el servidor	No requiere GPU local	El equipo local solo sube archivos y recibe resultados

HTTP Client no es un “modo local que ahorra VRAM”. Es un modo de despliegue remoto. Tu equipo local puede no ejecutar el modelo grande, pero el servidor remoto sigue necesitando hacer la inferencia VLM.

pipeline: estable, ligero en VRAM y bueno para lotes

Comando:

1

mineru -p "input.pdf" -o "output" -b pipeline

pipeline no entrega toda la página a un único modelo grande. Combina varios módulos especializados:

Extracción de texto nativo del PDF.
OCR.
Detección de diseño.
Reconocimiento de tablas.
Reconocimiento de fórmulas.
Reconstrucción del orden de lectura.

Sus ventajas son la estabilidad y los bajos requisitos de recursos. Puede ejecutarse solo con CPU y también puede usar una GPU NVIDIA para acelerar. La descripción oficial destaca que es rápido, estable y sin alucinaciones. La tabla muestra una precisión general de aproximadamente 86.47, y el modo GPU requiere alrededor de 4GB de VRAM como mínimo.

pipeline es adecuado para:

PDFs digitales normales.
Procesamiento masivo por lotes.
Documentos principalmente textuales.
Escenarios donde no quieres que el modelo adivine contenido.
GPUs de 8GB cuando la estabilidad importa más que la máxima precisión.

Si usas una RTX 4060 8GB, suele ser el modo GPU local más seguro. También es una buena primera prueba para confirmar que tu entorno CUDA funciona.

vlm-engine: entregar toda la página al modelo visión-lenguaje

Comando:

1

mineru -p "input.pdf" -o "output" -b vlm-engine

vlm-engine usa principalmente el modelo visión-lenguaje de MinerU para entender cada página como imagen. Detecta títulos, texto principal, estructura de tablas, fórmulas, orden de lectura y relaciones entre bloques de diseño complejos.

Su precisión en la tabla es de aproximadamente 95.30, claramente superior a pipeline. Pero la ejecución local requiere alrededor de 8GB de VRAM como mínimo y no admite modo solo CPU.

vlm-engine es adecuado para:

Artículos escaneados.
Diseños complejos de varias columnas.
Tablas con bordes irregulares.
Páginas con muchas fórmulas.
Escritura manual o diseños especiales.
Archivos donde pipeline da malos resultados.

Su desventaja es la mayor presión sobre la VRAM. En comparación con hybrid-engine, tampoco tiene la ventaja combinada de extraer primero texto nativo del PDF y usar VLM para las zonas difíciles, así que no siempre conviene como modo predeterminado diario.

hybrid-engine: Pipeline y VLM combinados

Comando:

1

mineru -p "input.pdf" -o "output" -b hybrid-engine --effort medium

hybrid-engine combina dos enfoques:

En PDFs digitales, intenta extraer directamente el texto nativo.
En contenido escaneado, tablas complejas, fórmulas y diseños especiales, llama al VLM.
Luego usa partes de Pipeline como procesamiento auxiliar.

Por eso combina la alta precisión del VLM, la fiabilidad de la extracción de texto nativo, menor riesgo de alucinaciones y mejor soporte para PDFs digitales multilingües. Oficialmente se presenta como un modo de alta precisión, extracción de texto nativo y baja alucinación, y es el modo local recomendado por defecto.

Hybrid tiene dos niveles comunes.

Medium:

1

mineru -p "input.pdf" -o "output" -b hybrid-engine --effort medium

Su precisión en la tabla es de aproximadamente 95.26. Es más rápido y adecuado para la mayoría de documentos. El valor predeterminado actual es medium, pero Medium desactiva automáticamente el análisis de imágenes y gráficos.

High:

1

mineru -p "input.pdf" -o "output" -b hybrid-engine --effort high

Su precisión en la tabla es de aproximadamente 95.39. Admite análisis de imágenes y gráficos, pero procesa más lento. En los datos oficiales, Medium solo baja unos 0.13 puntos frente a High, y en algunos entornos Windows puede acelerar bastante el análisis.

Si tu GPU es una RTX 4060 8GB, hybrid-engine --effort medium es la primera opción para análisis local de alta calidad. Antes de ejecutarlo, conviene cerrar juegos, aceleración por hardware del navegador y otros programas que ocupen VRAM, porque 8GB está cerca del mínimo.

vlm-http-client: el equipo local no ejecuta el modelo

Ejemplo:

1
2
3


mineru -p "input.pdf" -o "output" `
  -b vlm-http-client `
  -u "http://192.168.1.100:30000"

En este modo, tu computadora es solo un cliente:

1

equipo local sube páginas -> servidor remoto con GPU las analiza -> equipo local recibe resultados

El VLM real se ejecuta en otra máquina con GPU, un servidor Linux con GPU, un servidor en la red local o un servicio de inferencia compatible con la API de OpenAI. Por eso el equipo local no necesita una GPU NVIDIA e incluso puede usar una instalación ligera de MinerU. La documentación oficial también describe vlm-http-client como adecuado para dispositivos de borde con solo CPU y conexión de red.

El detalle importante: “no requiere GPU local” no significa que todo el sistema no necesite GPU. El servidor remoto sigue haciendo la inferencia VLM.

hybrid-http-client: reparto de trabajo entre local y servidor

Comando:

1
2
3


mineru -p "input.pdf" -o "output" `
  -b hybrid-http-client `
  -u "http://192.168.1.100:30000"

hybrid-http-client no es lo mismo que vlm-http-client. Normalmente funciona así:

El equipo local maneja la extracción de texto del PDF y algunas tareas de modelos pequeños.
El servidor remoto maneja la inferencia VLM.
MinerU combina los resultados.

Así que el equipo local puede funcionar solo con CPU. Si tiene GPU, los pasos auxiliares locales pueden ser más rápidos. La recomendación oficial es instalar mineru[pipeline] en el cliente. Los aproximadamente 2GB de VRAM mínima que aparecen en la tabla se refieren sobre todo a la aceleración GPU local opcional para los modelos pequeños del cliente Hybrid. No significa que el servidor VLM remoto solo necesite 2GB.

Por qué HTTP Client y Engine tienen la misma precisión

La tabla oficial muestra resultados como estos:

1
2


hybrid-engine        95.39 / 95.26
hybrid-http-client   95.39 / 95.26

La razón es que ambos usan básicamente la misma lógica de análisis y los mismos modelos. La diferencia principal es dónde se ejecuta el modelo:

hybrid-engine: el modelo corre en la GPU local.
hybrid-http-client: el modelo corre en un servidor remoto.

Por eso HTTP Client no es una edición de menor precisión. Es la edición de despliegue remoto. Sirve para equipos que ya tienen un servidor con GPU, no para usuarios de una sola máquina que quieren ahorrar VRAM de forma casual.

Cómo elegir con una RTX 4060 8GB

Si tu GPU es una RTX 4060 8GB, puedes elegir en este orden.

Uso diario estable:

1

mineru -p "input.pdf" -o "output" -b pipeline

Tiene poca presión de VRAM, sirve para comprobar CUDA y funciona bien para procesar muchos PDFs normales.

Mejor calidad local general:

1
2
3


mineru -p "input.pdf" -o "output" `
  -b hybrid-engine `
  --effort medium

Es el modo de alta calidad preferido para una GPU de 8GB. Intenta liberar VRAM antes de ejecutarlo.

Análisis de imágenes o máxima precisión:

1
2
3


mineru -p "input.pdf" -o "output" `
  -b hybrid-engine `
  --effort high

Es más lento, pero habilita el análisis de imágenes y gráficos.

Escaneos complejos con resultados pobres:

1

mineru -p "input.pdf" -o "output" -b vlm-engine

Puedes compararlo con los resultados de Hybrid, pero normalmente no necesita ser tu modo predeterminado permanente.

Si no tienes un servidor remoto, no necesitas considerar:

1
2


hybrid-http-client
vlm-http-client

Requieren un servidor de inferencia compatible con OpenAI, o al menos una máquina remota con GPU disponible.

Guía de elección en una línea

PDFs normales, procesamiento por lotes, estabilidad primero:

1

pipeline

Mejor calidad local general:

1

hybrid-engine --effort medium

Análisis de imágenes o máxima precisión:

1

hybrid-engine --effort high

Diseños escaneados muy complejos donde quieres probar VLM por separado:

1

vlm-engine

Modelos desplegados en otro servidor con GPU:

1

hybrid-http-client / vlm-http-client

Por último, revisa tu entorno de PyTorch. Si todavía estás en torch 2.8.0+cpu, pipeline solo podrá usar CPU, y hybrid-engine junto con vlm-engine no podrán usar realmente tu RTX 4060 hasta que instales la versión CUDA de PyTorch.