MinerU 3.4 的官方 CLI 现在支持五种后端名称:
|
|
默认后端是 hybrid-engine,Hybrid 默认使用 --effort medium。这五种模式最容易混淆的地方,不是命令怎么写,而是模型到底跑在本机还是远程服务器、本机 GPU 是否必须、以及它更适合哪类 PDF。
先给结论:普通电子 PDF 和批量任务优先用 pipeline;追求本地综合效果优先用 hybrid-engine --effort medium;复杂扫描件可以单独试 vlm-engine;如果模型部署在另一台 GPU 服务器上,才考虑两个 HTTP Client。
五种模式快速对比
| 后端 | 计算位置 | 核心方式 | 本机 GPU | 特点 |
|---|---|---|---|---|
pipeline |
本机 | OCR、版面分析、公式识别等多个专用模型组合 | 可选 | 兼容性最好、稳定、几乎无幻觉 |
hybrid-engine |
本机 | 原生文字提取 + VLM + Pipeline | 必须,最低约 8GB | 综合准确率最高,适合大多数高质量解析 |
vlm-engine |
本机 | 主要由视觉语言模型理解整个页面 | 必须,最低约 8GB | 复杂扫描件、表格、公式、特殊排版表现好 |
hybrid-http-client |
本机小模型 + 远程 VLM | Hybrid,但大模型在服务器运行 | 本机可不用 GPU | 适合已有远程 GPU 服务器 |
vlm-http-client |
远程服务器 | VLM 完全在服务器运行 | 本机不需要 GPU | 本机只上传文件、接收结果 |
HTTP Client 不是“更省显存的本地模式”,而是远程部署模式。你的本机可以不跑大模型,但远程服务器仍然要负责 VLM 推理。
pipeline:稳定、省显存、适合批处理
运行命令:
|
|
pipeline 不是把整页交给一个大模型理解,而是由多个专用模块组合处理:
- PDF 原生文字提取。
- OCR。
- 版面检测。
- 表格识别。
- 公式识别。
- 阅读顺序整理。
它的优点是稳定、资源要求低、可以纯 CPU 运行,也能使用 NVIDIA GPU 加速。官方将它描述为“快速、稳定、无幻觉”,表中综合准确率约为 86.47,GPU 模式最低约需 4GB 显存。
pipeline 适合:
- 普通电子 PDF。
- 大量批处理任务。
- 文字为主的文档。
- 不希望模型自行猜测内容的场景。
- 8GB 显卡上希望运行更稳定的任务。
如果你用的是 RTX 4060 8GB,这通常是最稳妥的本地 GPU 模式,也适合作为验证 CUDA 环境是否正常的第一步。
vlm-engine:整页交给视觉语言模型
运行命令:
|
|
vlm-engine 主要使用 MinerU 的视觉语言模型,把页面当成图像整体理解。它会判断标题、正文、表格结构、公式、阅读顺序,以及复杂版面之间的关系。
表中准确率约为 95.30,明显高于 pipeline。但它本地运行最低约需 8GB 显存,并且不支持纯 CPU 模式。
vlm-engine 适合:
- 扫描论文。
- 多栏复杂排版。
- 边框不规则的表格。
- 公式密集页面。
- 手写或特殊布局。
pipeline解析效果不理想的文件。
它的缺点是显存压力更高。相较 hybrid-engine,它也没有“优先提取 PDF 原生文字、再让 VLM 处理复杂区域”的综合优势,所以不一定适合作为日常默认模式。
hybrid-engine:Pipeline 和 VLM 混合
运行命令:
|
|
hybrid-engine 会结合两套方法:
- 对电子 PDF,尽量直接提取原生文字。
- 对扫描内容、复杂表格、公式和特殊版面,调用 VLM。
- 再由 Pipeline 的部分模块完成辅助处理。
因此它兼顾了 VLM 的高准确率、原生文字提取的可靠性、更低的幻觉风险,以及对多语言电子 PDF 的支持。官方将它定位为“高精度、原生文本提取、低幻觉”,也是当前推荐的默认本地模式。
Hybrid 有两个常用强度。
Medium:
|
|
表中准确率约为 95.26。它速度更快,适合绝大多数文档。当前版本默认就是 medium,但 Medium 会自动关闭图片和图表分析。
High:
|
|
表中准确率约为 95.39。它支持图片和图表分析,但处理速度更慢。官方数据里,Medium 相比 High 只低约 0.13 分,但在 Windows 的部分场景可以明显加快解析。
如果你的显卡是 RTX 4060 8GB,hybrid-engine --effort medium 是本地高质量解析的首选。运行前最好关闭游戏、浏览器硬件加速和其他占显存程序,因为 8GB 属于最低门槛。
vlm-http-client:本机不运行模型
运行示例:
|
|
这个模式里,你的电脑只是客户端:
|
|
真正的 VLM 模型运行在另一台 GPU 电脑、Linux GPU 服务器、局域网服务器,或者 OpenAI API 兼容的推理服务上。因此本机不需要 NVIDIA GPU,甚至可以只安装轻量版 MinerU。官方文档也说明,vlm-http-client 适合只有 CPU 和网络连接的边缘设备。
需要注意的是,“本机不需要 GPU”不代表整个系统不需要 GPU。远程服务器仍然要承担 VLM 推理。
hybrid-http-client:本机和服务器分工
运行命令:
|
|
hybrid-http-client 和 vlm-http-client 不完全一样。它通常是:
- 本机处理 PDF 文字提取和部分小模型任务。
- 远程服务器处理 VLM 推理。
- 最后组合解析结果。
所以本机可以使用纯 CPU;如果本机有 GPU,本地辅助步骤会更快。官方建议客户端安装 mineru[pipeline]。表里的约 2GB 最低显存,主要对应 Hybrid 客户端本地小模型的可选 GPU 加速,不是说远程 VLM 服务器只需要 2GB。
为什么 HTTP Client 和 Engine 准确率一样
官方表格里可以看到类似结果:
|
|
原因是两者使用的解析逻辑和模型基本相同,区别主要是模型运行位置:
hybrid-engine:模型在本机显卡运行。hybrid-http-client:模型在远程服务器运行。
所以 HTTP Client 不是低精度版本,而是远程部署版本。它适合已经有 GPU 服务器的团队,而不是单机用户为了省显存随手切换的模式。
RTX 4060 8GB 怎么选
如果你的显卡是 RTX 4060 8GB,可以按这个顺序选择。
日常稳定使用:
|
|
它显存压力小,适合先验证 CUDA 环境,也适合批量处理普通 PDF。
追求最高综合效果:
|
|
这是 8GB 显卡上的首选高精度模式。运行时尽量释放显存。
需要图片分析或最高精度:
|
|
它更慢,但会开启图片和图表分析。
复杂扫描件解析不理想:
|
|
可以拿它和 Hybrid 的结果对比,但一般不必长期默认使用。
没有远程服务器时,不需要考虑:
|
|
它们要求你另外准备一个 OpenAI 兼容推理服务器,或者至少有一台可用的远程 GPU 机器。
一句话选择
普通 PDF、批量处理、稳定优先:
|
|
本地最高综合质量:
|
|
需要图片分析或最高精度:
|
|
极复杂扫描版面,想单独尝试 VLM:
|
|
模型部署在另一台 GPU 服务器:
|
|
最后还要看 PyTorch 环境。如果当前还是 torch 2.8.0+cpu,在替换成 CUDA 版 PyTorch 之前,pipeline 只能走 CPU,hybrid-engine 和 vlm-engine 也无法真正使用 RTX 4060。