MinerU 3.4 五種模式怎麼選?pipeline、hybrid-engine、vlm-engine、hybrid-http-client、vlm-http-client 一篇看懂

整理 MinerU 3.4 CLI 支援的五種後端模式,說明 pipeline、hybrid-engine、vlm-engine、hybrid-http-client 和 vlm-http-client 的計算位置、顯存需求與適用場景。

MinerU 3.4 的官方 CLI 目前支援五種後端名稱:

1
2
3
4
5
pipeline
hybrid-engine
vlm-engine
hybrid-http-client
vlm-http-client

預設後端是 hybrid-engine,Hybrid 預設使用 --effort medium。這五種模式最容易混淆的地方,不是命令怎麼寫,而是模型到底跑在本機還是遠端伺服器、本機 GPU 是否必要,以及它更適合哪一類 PDF。

先給結論:普通電子 PDF 和批次任務優先用 pipeline;追求本地綜合效果優先用 hybrid-engine --effort medium;複雜掃描件可以單獨試 vlm-engine;如果模型部署在另一台 GPU 伺服器上,才考慮兩個 HTTP Client。

五種模式快速對比

後端 計算位置 核心方式 本機 GPU 特點
pipeline 本機 OCR、版面分析、公式識別等多個專用模型組合 可選 相容性最好、穩定、幾乎無幻覺
hybrid-engine 本機 原生文字提取 + VLM + Pipeline 必須,最低約 8GB 綜合準確率最高,適合大多數高品質解析
vlm-engine 本機 主要由視覺語言模型理解整個頁面 必須,最低約 8GB 複雜掃描件、表格、公式、特殊排版表現好
hybrid-http-client 本機小模型 + 遠端 VLM Hybrid,但大模型在伺服器執行 本機可不用 GPU 適合已有遠端 GPU 伺服器
vlm-http-client 遠端伺服器 VLM 完全在伺服器執行 本機不需要 GPU 本機只上傳檔案、接收結果

HTTP Client 不是「更省顯存的本地模式」,而是遠端部署模式。你的本機可以不跑大模型,但遠端伺服器仍然要負責 VLM 推理。

pipeline:穩定、省顯存、適合批次處理

執行命令:

1
mineru -p "input.pdf" -o "output" -b pipeline

pipeline 不是把整頁交給一個大模型理解,而是由多個專用模組組合處理:

  1. PDF 原生文字提取。
  2. OCR。
  3. 版面檢測。
  4. 表格識別。
  5. 公式識別。
  6. 閱讀順序整理。

它的優點是穩定、資源要求低、可以純 CPU 執行,也能使用 NVIDIA GPU 加速。官方將它描述為「快速、穩定、無幻覺」,表中綜合準確率約為 86.47,GPU 模式最低約需 4GB 顯存。

pipeline 適合:

  1. 普通電子 PDF。
  2. 大量批次處理任務。
  3. 文字為主的文件。
  4. 不希望模型自行猜測內容的場景。
  5. 8GB 顯卡上希望執行更穩定的任務。

如果你用的是 RTX 4060 8GB,這通常是最穩妥的本地 GPU 模式,也適合作為驗證 CUDA 環境是否正常的第一步。

vlm-engine:整頁交給視覺語言模型

執行命令:

1
mineru -p "input.pdf" -o "output" -b vlm-engine

vlm-engine 主要使用 MinerU 的視覺語言模型,把頁面當成圖像整體理解。它會判斷標題、正文、表格結構、公式、閱讀順序,以及複雜版面之間的關係。

表中準確率約為 95.30,明顯高於 pipeline。但它本地執行最低約需 8GB 顯存,並且不支援純 CPU 模式。

vlm-engine 適合:

  1. 掃描論文。
  2. 多欄複雜排版。
  3. 邊框不規則的表格。
  4. 公式密集頁面。
  5. 手寫或特殊布局。
  6. pipeline 解析效果不理想的檔案。

它的缺點是顯存壓力更高。相較 hybrid-engine,它也沒有「優先提取 PDF 原生文字、再讓 VLM 處理複雜區域」的綜合優勢,所以不一定適合作為日常預設模式。

hybrid-engine:Pipeline 和 VLM 混合

執行命令:

1
mineru -p "input.pdf" -o "output" -b hybrid-engine --effort medium

hybrid-engine 會結合兩套方法:

  1. 對電子 PDF,盡量直接提取原生文字。
  2. 對掃描內容、複雜表格、公式和特殊版面,呼叫 VLM。
  3. 再由 Pipeline 的部分模組完成輔助處理。

因此它兼顧了 VLM 的高準確率、原生文字提取的可靠性、更低的幻覺風險,以及對多語言電子 PDF 的支援。官方將它定位為「高精度、原生文本提取、低幻覺」,也是目前推薦的預設本地模式。

Hybrid 有兩個常用強度。

Medium:

1
mineru -p "input.pdf" -o "output" -b hybrid-engine --effort medium

表中準確率約為 95.26。它速度更快,適合絕大多數文件。目前版本預設就是 medium,但 Medium 會自動關閉圖片和圖表分析。

High:

1
mineru -p "input.pdf" -o "output" -b hybrid-engine --effort high

表中準確率約為 95.39。它支援圖片和圖表分析,但處理速度更慢。官方資料中,Medium 相比 High 只低約 0.13 分,但在 Windows 的部分場景可以明顯加快解析。

如果你的顯卡是 RTX 4060 8GB,hybrid-engine --effort medium 是本地高品質解析的首選。執行前最好關閉遊戲、瀏覽器硬體加速和其他占顯存程式,因為 8GB 屬於最低門檻。

vlm-http-client:本機不執行模型

執行範例:

1
2
3
mineru -p "input.pdf" -o "output" `
  -b vlm-http-client `
  -u "http://192.168.1.100:30000"

這個模式裡,你的電腦只是客戶端:

1
本機上傳頁面 -> 遠端 GPU 伺服器解析 -> 本機接收結果

真正的 VLM 模型執行在另一台 GPU 電腦、Linux GPU 伺服器、區域網路伺服器,或 OpenAI API 相容的推理服務上。因此本機不需要 NVIDIA GPU,甚至可以只安裝輕量版 MinerU。官方文件也說明,vlm-http-client 適合只有 CPU 和網路連線的邊緣裝置。

需要注意的是,「本機不需要 GPU」不代表整個系統不需要 GPU。遠端伺服器仍然要承擔 VLM 推理。

hybrid-http-client:本機和伺服器分工

執行命令:

1
2
3
mineru -p "input.pdf" -o "output" `
  -b hybrid-http-client `
  -u "http://192.168.1.100:30000"

hybrid-http-clientvlm-http-client 不完全一樣。它通常是:

  1. 本機處理 PDF 文字提取和部分小模型任務。
  2. 遠端伺服器處理 VLM 推理。
  3. 最後組合解析結果。

所以本機可以使用純 CPU;如果本機有 GPU,本地輔助步驟會更快。官方建議客戶端安裝 mineru[pipeline]。表裡的約 2GB 最低顯存,主要對應 Hybrid 客戶端本地小模型的可選 GPU 加速,不是說遠端 VLM 伺服器只需要 2GB。

為什麼 HTTP Client 和 Engine 準確率一樣

官方表格裡可以看到類似結果:

1
2
hybrid-engine        95.39 / 95.26
hybrid-http-client   95.39 / 95.26

原因是兩者使用的解析邏輯和模型基本相同,差異主要是模型執行位置:

  1. hybrid-engine:模型在本機顯卡執行。
  2. hybrid-http-client:模型在遠端伺服器執行。

所以 HTTP Client 不是低精度版本,而是遠端部署版本。它適合已經有 GPU 伺服器的團隊,而不是單機使用者為了省顯存隨手切換的模式。

RTX 4060 8GB 怎麼選

如果你的顯卡是 RTX 4060 8GB,可以按這個順序選擇。

日常穩定使用:

1
mineru -p "input.pdf" -o "output" -b pipeline

它顯存壓力小,適合先驗證 CUDA 環境,也適合批次處理普通 PDF。

追求最高綜合效果:

1
2
3
mineru -p "input.pdf" -o "output" `
  -b hybrid-engine `
  --effort medium

這是 8GB 顯卡上的首選高精度模式。執行時盡量釋放顯存。

需要圖片分析或最高精度:

1
2
3
mineru -p "input.pdf" -o "output" `
  -b hybrid-engine `
  --effort high

它更慢,但會開啟圖片和圖表分析。

複雜掃描件解析不理想:

1
mineru -p "input.pdf" -o "output" -b vlm-engine

可以拿它和 Hybrid 的結果對比,但一般不必長期預設使用。

沒有遠端伺服器時,不需要考慮:

1
2
hybrid-http-client
vlm-http-client

它們要求你另外準備一個 OpenAI 相容推理伺服器,或者至少有一台可用的遠端 GPU 機器。

一句話選擇

普通 PDF、批次處理、穩定優先:

1
pipeline

本地最高綜合品質:

1
hybrid-engine --effort medium

需要圖片分析或最高精度:

1
hybrid-engine --effort high

極複雜掃描版面,想單獨嘗試 VLM:

1
vlm-engine

模型部署在另一台 GPU 伺服器:

1
hybrid-http-client / vlm-http-client

最後還要看 PyTorch 環境。如果目前還是 torch 2.8.0+cpu,在替換成 CUDA 版 PyTorch 之前,pipeline 只能走 CPU,hybrid-enginevlm-engine 也無法真正使用 RTX 4060。

记录并分享
使用 Hugo 建立
主題 StackJimmy 設計