MinerU 3.4 五种模式怎么选?pipeline、hybrid-engine、vlm-engine、hybrid-http-client、vlm-http-client 一篇看懂

整理 MinerU 3.4 CLI 支持的五种后端模式,说明 pipeline、hybrid-engine、vlm-engine、hybrid-http-client 和 vlm-http-client 的计算位置、显存需求和适用场景。

MinerU 3.4 的官方 CLI 现在支持五种后端名称:

1
2
3
4
5
pipeline
hybrid-engine
vlm-engine
hybrid-http-client
vlm-http-client

默认后端是 hybrid-engine,Hybrid 默认使用 --effort medium。这五种模式最容易混淆的地方,不是命令怎么写,而是模型到底跑在本机还是远程服务器、本机 GPU 是否必须、以及它更适合哪类 PDF。

先给结论:普通电子 PDF 和批量任务优先用 pipeline;追求本地综合效果优先用 hybrid-engine --effort medium;复杂扫描件可以单独试 vlm-engine;如果模型部署在另一台 GPU 服务器上,才考虑两个 HTTP Client。

五种模式快速对比

后端 计算位置 核心方式 本机 GPU 特点
pipeline 本机 OCR、版面分析、公式识别等多个专用模型组合 可选 兼容性最好、稳定、几乎无幻觉
hybrid-engine 本机 原生文字提取 + VLM + Pipeline 必须,最低约 8GB 综合准确率最高,适合大多数高质量解析
vlm-engine 本机 主要由视觉语言模型理解整个页面 必须,最低约 8GB 复杂扫描件、表格、公式、特殊排版表现好
hybrid-http-client 本机小模型 + 远程 VLM Hybrid,但大模型在服务器运行 本机可不用 GPU 适合已有远程 GPU 服务器
vlm-http-client 远程服务器 VLM 完全在服务器运行 本机不需要 GPU 本机只上传文件、接收结果

HTTP Client 不是“更省显存的本地模式”,而是远程部署模式。你的本机可以不跑大模型,但远程服务器仍然要负责 VLM 推理。

pipeline:稳定、省显存、适合批处理

运行命令:

1
mineru -p "input.pdf" -o "output" -b pipeline

pipeline 不是把整页交给一个大模型理解,而是由多个专用模块组合处理:

  1. PDF 原生文字提取。
  2. OCR。
  3. 版面检测。
  4. 表格识别。
  5. 公式识别。
  6. 阅读顺序整理。

它的优点是稳定、资源要求低、可以纯 CPU 运行,也能使用 NVIDIA GPU 加速。官方将它描述为“快速、稳定、无幻觉”,表中综合准确率约为 86.47,GPU 模式最低约需 4GB 显存。

pipeline 适合:

  1. 普通电子 PDF。
  2. 大量批处理任务。
  3. 文字为主的文档。
  4. 不希望模型自行猜测内容的场景。
  5. 8GB 显卡上希望运行更稳定的任务。

如果你用的是 RTX 4060 8GB,这通常是最稳妥的本地 GPU 模式,也适合作为验证 CUDA 环境是否正常的第一步。

vlm-engine:整页交给视觉语言模型

运行命令:

1
mineru -p "input.pdf" -o "output" -b vlm-engine

vlm-engine 主要使用 MinerU 的视觉语言模型,把页面当成图像整体理解。它会判断标题、正文、表格结构、公式、阅读顺序,以及复杂版面之间的关系。

表中准确率约为 95.30,明显高于 pipeline。但它本地运行最低约需 8GB 显存,并且不支持纯 CPU 模式。

vlm-engine 适合:

  1. 扫描论文。
  2. 多栏复杂排版。
  3. 边框不规则的表格。
  4. 公式密集页面。
  5. 手写或特殊布局。
  6. pipeline 解析效果不理想的文件。

它的缺点是显存压力更高。相较 hybrid-engine,它也没有“优先提取 PDF 原生文字、再让 VLM 处理复杂区域”的综合优势,所以不一定适合作为日常默认模式。

hybrid-engine:Pipeline 和 VLM 混合

运行命令:

1
mineru -p "input.pdf" -o "output" -b hybrid-engine --effort medium

hybrid-engine 会结合两套方法:

  1. 对电子 PDF,尽量直接提取原生文字。
  2. 对扫描内容、复杂表格、公式和特殊版面,调用 VLM。
  3. 再由 Pipeline 的部分模块完成辅助处理。

因此它兼顾了 VLM 的高准确率、原生文字提取的可靠性、更低的幻觉风险,以及对多语言电子 PDF 的支持。官方将它定位为“高精度、原生文本提取、低幻觉”,也是当前推荐的默认本地模式。

Hybrid 有两个常用强度。

Medium:

1
mineru -p "input.pdf" -o "output" -b hybrid-engine --effort medium

表中准确率约为 95.26。它速度更快,适合绝大多数文档。当前版本默认就是 medium,但 Medium 会自动关闭图片和图表分析。

High:

1
mineru -p "input.pdf" -o "output" -b hybrid-engine --effort high

表中准确率约为 95.39。它支持图片和图表分析,但处理速度更慢。官方数据里,Medium 相比 High 只低约 0.13 分,但在 Windows 的部分场景可以明显加快解析。

如果你的显卡是 RTX 4060 8GB,hybrid-engine --effort medium 是本地高质量解析的首选。运行前最好关闭游戏、浏览器硬件加速和其他占显存程序,因为 8GB 属于最低门槛。

vlm-http-client:本机不运行模型

运行示例:

1
2
3
mineru -p "input.pdf" -o "output" `
  -b vlm-http-client `
  -u "http://192.168.1.100:30000"

这个模式里,你的电脑只是客户端:

1
本机上传页面 -> 远程 GPU 服务器解析 -> 本机接收结果

真正的 VLM 模型运行在另一台 GPU 电脑、Linux GPU 服务器、局域网服务器,或者 OpenAI API 兼容的推理服务上。因此本机不需要 NVIDIA GPU,甚至可以只安装轻量版 MinerU。官方文档也说明,vlm-http-client 适合只有 CPU 和网络连接的边缘设备。

需要注意的是,“本机不需要 GPU”不代表整个系统不需要 GPU。远程服务器仍然要承担 VLM 推理。

hybrid-http-client:本机和服务器分工

运行命令:

1
2
3
mineru -p "input.pdf" -o "output" `
  -b hybrid-http-client `
  -u "http://192.168.1.100:30000"

hybrid-http-clientvlm-http-client 不完全一样。它通常是:

  1. 本机处理 PDF 文字提取和部分小模型任务。
  2. 远程服务器处理 VLM 推理。
  3. 最后组合解析结果。

所以本机可以使用纯 CPU;如果本机有 GPU,本地辅助步骤会更快。官方建议客户端安装 mineru[pipeline]。表里的约 2GB 最低显存,主要对应 Hybrid 客户端本地小模型的可选 GPU 加速,不是说远程 VLM 服务器只需要 2GB。

为什么 HTTP Client 和 Engine 准确率一样

官方表格里可以看到类似结果:

1
2
hybrid-engine        95.39 / 95.26
hybrid-http-client   95.39 / 95.26

原因是两者使用的解析逻辑和模型基本相同,区别主要是模型运行位置:

  1. hybrid-engine:模型在本机显卡运行。
  2. hybrid-http-client:模型在远程服务器运行。

所以 HTTP Client 不是低精度版本,而是远程部署版本。它适合已经有 GPU 服务器的团队,而不是单机用户为了省显存随手切换的模式。

RTX 4060 8GB 怎么选

如果你的显卡是 RTX 4060 8GB,可以按这个顺序选择。

日常稳定使用:

1
mineru -p "input.pdf" -o "output" -b pipeline

它显存压力小,适合先验证 CUDA 环境,也适合批量处理普通 PDF。

追求最高综合效果:

1
2
3
mineru -p "input.pdf" -o "output" `
  -b hybrid-engine `
  --effort medium

这是 8GB 显卡上的首选高精度模式。运行时尽量释放显存。

需要图片分析或最高精度:

1
2
3
mineru -p "input.pdf" -o "output" `
  -b hybrid-engine `
  --effort high

它更慢,但会开启图片和图表分析。

复杂扫描件解析不理想:

1
mineru -p "input.pdf" -o "output" -b vlm-engine

可以拿它和 Hybrid 的结果对比,但一般不必长期默认使用。

没有远程服务器时,不需要考虑:

1
2
hybrid-http-client
vlm-http-client

它们要求你另外准备一个 OpenAI 兼容推理服务器,或者至少有一台可用的远程 GPU 机器。

一句话选择

普通 PDF、批量处理、稳定优先:

1
pipeline

本地最高综合质量:

1
hybrid-engine --effort medium

需要图片分析或最高精度:

1
hybrid-engine --effort high

极复杂扫描版面,想单独尝试 VLM:

1
vlm-engine

模型部署在另一台 GPU 服务器:

1
hybrid-http-client / vlm-http-client

最后还要看 PyTorch 环境。如果当前还是 torch 2.8.0+cpu,在替换成 CUDA 版 PyTorch 之前,pipeline 只能走 CPU,hybrid-enginevlm-engine 也无法真正使用 RTX 4060。

记录并分享
使用 Hugo 构建
主题 StackJimmy 设计