MinerU 3.4 五种模式怎么选？pipeline、hybrid-engine、vlm-engine、hybrid-http-client、vlm-http-client 一篇看懂

MinerU 3.4 的官方 CLI 现在支持五种后端名称：

1
2
3
4
5


pipeline
hybrid-engine
vlm-engine
hybrid-http-client
vlm-http-client

默认后端是 hybrid-engine，Hybrid 默认使用 --effort medium。这五种模式最容易混淆的地方，不是命令怎么写，而是模型到底跑在本机还是远程服务器、本机 GPU 是否必须、以及它更适合哪类 PDF。

先给结论：普通电子 PDF 和批量任务优先用 pipeline；追求本地综合效果优先用 hybrid-engine --effort medium；复杂扫描件可以单独试 vlm-engine；如果模型部署在另一台 GPU 服务器上，才考虑两个 HTTP Client。

五种模式快速对比

后端	计算位置	核心方式	本机 GPU	特点
`pipeline`	本机	OCR、版面分析、公式识别等多个专用模型组合	可选	兼容性最好、稳定、几乎无幻觉
`hybrid-engine`	本机	原生文字提取 + VLM + Pipeline	必须，最低约 8GB	综合准确率最高，适合大多数高质量解析
`vlm-engine`	本机	主要由视觉语言模型理解整个页面	必须，最低约 8GB	复杂扫描件、表格、公式、特殊排版表现好
`hybrid-http-client`	本机小模型 + 远程 VLM	Hybrid，但大模型在服务器运行	本机可不用 GPU	适合已有远程 GPU 服务器
`vlm-http-client`	远程服务器	VLM 完全在服务器运行	本机不需要 GPU	本机只上传文件、接收结果

HTTP Client 不是“更省显存的本地模式”，而是远程部署模式。你的本机可以不跑大模型，但远程服务器仍然要负责 VLM 推理。

pipeline：稳定、省显存、适合批处理

运行命令：

1

mineru -p "input.pdf" -o "output" -b pipeline

pipeline 不是把整页交给一个大模型理解，而是由多个专用模块组合处理：

PDF 原生文字提取。
OCR。
版面检测。
表格识别。
公式识别。
阅读顺序整理。

它的优点是稳定、资源要求低、可以纯 CPU 运行，也能使用 NVIDIA GPU 加速。官方将它描述为“快速、稳定、无幻觉”，表中综合准确率约为 86.47，GPU 模式最低约需 4GB 显存。

pipeline 适合：

普通电子 PDF。
大量批处理任务。
文字为主的文档。
不希望模型自行猜测内容的场景。
8GB 显卡上希望运行更稳定的任务。

如果你用的是 RTX 4060 8GB，这通常是最稳妥的本地 GPU 模式，也适合作为验证 CUDA 环境是否正常的第一步。

vlm-engine：整页交给视觉语言模型

运行命令：

1

mineru -p "input.pdf" -o "output" -b vlm-engine

vlm-engine 主要使用 MinerU 的视觉语言模型，把页面当成图像整体理解。它会判断标题、正文、表格结构、公式、阅读顺序，以及复杂版面之间的关系。

表中准确率约为 95.30，明显高于 pipeline。但它本地运行最低约需 8GB 显存，并且不支持纯 CPU 模式。

vlm-engine 适合：

扫描论文。
多栏复杂排版。
边框不规则的表格。
公式密集页面。
手写或特殊布局。
pipeline 解析效果不理想的文件。

它的缺点是显存压力更高。相较 hybrid-engine，它也没有“优先提取 PDF 原生文字、再让 VLM 处理复杂区域”的综合优势，所以不一定适合作为日常默认模式。

hybrid-engine：Pipeline 和 VLM 混合

运行命令：

1

mineru -p "input.pdf" -o "output" -b hybrid-engine --effort medium

hybrid-engine 会结合两套方法：

对电子 PDF，尽量直接提取原生文字。
对扫描内容、复杂表格、公式和特殊版面，调用 VLM。
再由 Pipeline 的部分模块完成辅助处理。

因此它兼顾了 VLM 的高准确率、原生文字提取的可靠性、更低的幻觉风险，以及对多语言电子 PDF 的支持。官方将它定位为“高精度、原生文本提取、低幻觉”，也是当前推荐的默认本地模式。

Hybrid 有两个常用强度。

Medium：

1

mineru -p "input.pdf" -o "output" -b hybrid-engine --effort medium

表中准确率约为 95.26。它速度更快，适合绝大多数文档。当前版本默认就是 medium，但 Medium 会自动关闭图片和图表分析。

High：

1

mineru -p "input.pdf" -o "output" -b hybrid-engine --effort high

表中准确率约为 95.39。它支持图片和图表分析，但处理速度更慢。官方数据里，Medium 相比 High 只低约 0.13 分，但在 Windows 的部分场景可以明显加快解析。

如果你的显卡是 RTX 4060 8GB，hybrid-engine --effort medium 是本地高质量解析的首选。运行前最好关闭游戏、浏览器硬件加速和其他占显存程序，因为 8GB 属于最低门槛。

vlm-http-client：本机不运行模型

运行示例：

1
2
3


mineru -p "input.pdf" -o "output" `
  -b vlm-http-client `
  -u "http://192.168.1.100:30000"

这个模式里，你的电脑只是客户端：

1

本机上传页面 -> 远程 GPU 服务器解析 -> 本机接收结果

真正的 VLM 模型运行在另一台 GPU 电脑、Linux GPU 服务器、局域网服务器，或者 OpenAI API 兼容的推理服务上。因此本机不需要 NVIDIA GPU，甚至可以只安装轻量版 MinerU。官方文档也说明，vlm-http-client 适合只有 CPU 和网络连接的边缘设备。

需要注意的是，“本机不需要 GPU”不代表整个系统不需要 GPU。远程服务器仍然要承担 VLM 推理。

hybrid-http-client：本机和服务器分工

运行命令：

1
2
3


mineru -p "input.pdf" -o "output" `
  -b hybrid-http-client `
  -u "http://192.168.1.100:30000"

hybrid-http-client 和 vlm-http-client 不完全一样。它通常是：

本机处理 PDF 文字提取和部分小模型任务。
远程服务器处理 VLM 推理。
最后组合解析结果。

所以本机可以使用纯 CPU；如果本机有 GPU，本地辅助步骤会更快。官方建议客户端安装 mineru[pipeline]。表里的约 2GB 最低显存，主要对应 Hybrid 客户端本地小模型的可选 GPU 加速，不是说远程 VLM 服务器只需要 2GB。

为什么 HTTP Client 和 Engine 准确率一样

官方表格里可以看到类似结果：

1
2


hybrid-engine        95.39 / 95.26
hybrid-http-client   95.39 / 95.26

原因是两者使用的解析逻辑和模型基本相同，区别主要是模型运行位置：

hybrid-engine：模型在本机显卡运行。
hybrid-http-client：模型在远程服务器运行。

所以 HTTP Client 不是低精度版本，而是远程部署版本。它适合已经有 GPU 服务器的团队，而不是单机用户为了省显存随手切换的模式。

RTX 4060 8GB 怎么选

如果你的显卡是 RTX 4060 8GB，可以按这个顺序选择。

日常稳定使用：

1

mineru -p "input.pdf" -o "output" -b pipeline

它显存压力小，适合先验证 CUDA 环境，也适合批量处理普通 PDF。

追求最高综合效果：

1
2
3


mineru -p "input.pdf" -o "output" `
  -b hybrid-engine `
  --effort medium

这是 8GB 显卡上的首选高精度模式。运行时尽量释放显存。

需要图片分析或最高精度：

1
2
3


mineru -p "input.pdf" -o "output" `
  -b hybrid-engine `
  --effort high

它更慢，但会开启图片和图表分析。

复杂扫描件解析不理想：

1

mineru -p "input.pdf" -o "output" -b vlm-engine

可以拿它和 Hybrid 的结果对比，但一般不必长期默认使用。

没有远程服务器时，不需要考虑：

1
2


hybrid-http-client
vlm-http-client

它们要求你另外准备一个 OpenAI 兼容推理服务器，或者至少有一台可用的远程 GPU 机器。

一句话选择

普通 PDF、批量处理、稳定优先：

1

pipeline

本地最高综合质量：

1

hybrid-engine --effort medium

需要图片分析或最高精度：

1

hybrid-engine --effort high

极复杂扫描版面，想单独尝试 VLM：

1

vlm-engine

模型部署在另一台 GPU 服务器：

1

hybrid-http-client / vlm-http-client

最后还要看 PyTorch 环境。如果当前还是 torch 2.8.0+cpu，在替换成 CUDA 版 PyTorch 之前，pipeline 只能走 CPU，hybrid-engine 和 vlm-engine 也无法真正使用 RTX 4060。