MinerU 3.4 五種模式怎麼選？pipeline、hybrid-engine、vlm-engine、hybrid-http-client、vlm-http-client 一篇看懂

MinerU 3.4 的官方 CLI 目前支援五種後端名稱：

1
2
3
4
5


pipeline
hybrid-engine
vlm-engine
hybrid-http-client
vlm-http-client

預設後端是 hybrid-engine，Hybrid 預設使用 --effort medium。這五種模式最容易混淆的地方，不是命令怎麼寫，而是模型到底跑在本機還是遠端伺服器、本機 GPU 是否必要，以及它更適合哪一類 PDF。

先給結論：普通電子 PDF 和批次任務優先用 pipeline；追求本地綜合效果優先用 hybrid-engine --effort medium；複雜掃描件可以單獨試 vlm-engine；如果模型部署在另一台 GPU 伺服器上，才考慮兩個 HTTP Client。

五種模式快速對比

後端	計算位置	核心方式	本機 GPU	特點
`pipeline`	本機	OCR、版面分析、公式識別等多個專用模型組合	可選	相容性最好、穩定、幾乎無幻覺
`hybrid-engine`	本機	原生文字提取 + VLM + Pipeline	必須，最低約 8GB	綜合準確率最高，適合大多數高品質解析
`vlm-engine`	本機	主要由視覺語言模型理解整個頁面	必須，最低約 8GB	複雜掃描件、表格、公式、特殊排版表現好
`hybrid-http-client`	本機小模型 + 遠端 VLM	Hybrid，但大模型在伺服器執行	本機可不用 GPU	適合已有遠端 GPU 伺服器
`vlm-http-client`	遠端伺服器	VLM 完全在伺服器執行	本機不需要 GPU	本機只上傳檔案、接收結果

HTTP Client 不是「更省顯存的本地模式」，而是遠端部署模式。你的本機可以不跑大模型，但遠端伺服器仍然要負責 VLM 推理。

pipeline：穩定、省顯存、適合批次處理

執行命令：

1

mineru -p "input.pdf" -o "output" -b pipeline

pipeline 不是把整頁交給一個大模型理解，而是由多個專用模組組合處理：

PDF 原生文字提取。
OCR。
版面檢測。
表格識別。
公式識別。
閱讀順序整理。

它的優點是穩定、資源要求低、可以純 CPU 執行，也能使用 NVIDIA GPU 加速。官方將它描述為「快速、穩定、無幻覺」，表中綜合準確率約為 86.47，GPU 模式最低約需 4GB 顯存。

pipeline 適合：

普通電子 PDF。
大量批次處理任務。
文字為主的文件。
不希望模型自行猜測內容的場景。
8GB 顯卡上希望執行更穩定的任務。

如果你用的是 RTX 4060 8GB，這通常是最穩妥的本地 GPU 模式，也適合作為驗證 CUDA 環境是否正常的第一步。

vlm-engine：整頁交給視覺語言模型

執行命令：

1

mineru -p "input.pdf" -o "output" -b vlm-engine

vlm-engine 主要使用 MinerU 的視覺語言模型，把頁面當成圖像整體理解。它會判斷標題、正文、表格結構、公式、閱讀順序，以及複雜版面之間的關係。

表中準確率約為 95.30，明顯高於 pipeline。但它本地執行最低約需 8GB 顯存，並且不支援純 CPU 模式。

vlm-engine 適合：

掃描論文。
多欄複雜排版。
邊框不規則的表格。
公式密集頁面。
手寫或特殊布局。
pipeline 解析效果不理想的檔案。

它的缺點是顯存壓力更高。相較 hybrid-engine，它也沒有「優先提取 PDF 原生文字、再讓 VLM 處理複雜區域」的綜合優勢，所以不一定適合作為日常預設模式。

hybrid-engine：Pipeline 和 VLM 混合

執行命令：

1

mineru -p "input.pdf" -o "output" -b hybrid-engine --effort medium

hybrid-engine 會結合兩套方法：

對電子 PDF，盡量直接提取原生文字。
對掃描內容、複雜表格、公式和特殊版面，呼叫 VLM。
再由 Pipeline 的部分模組完成輔助處理。

因此它兼顧了 VLM 的高準確率、原生文字提取的可靠性、更低的幻覺風險，以及對多語言電子 PDF 的支援。官方將它定位為「高精度、原生文本提取、低幻覺」，也是目前推薦的預設本地模式。

Hybrid 有兩個常用強度。

Medium：

1

mineru -p "input.pdf" -o "output" -b hybrid-engine --effort medium

表中準確率約為 95.26。它速度更快，適合絕大多數文件。目前版本預設就是 medium，但 Medium 會自動關閉圖片和圖表分析。

High：

1

mineru -p "input.pdf" -o "output" -b hybrid-engine --effort high

表中準確率約為 95.39。它支援圖片和圖表分析，但處理速度更慢。官方資料中，Medium 相比 High 只低約 0.13 分，但在 Windows 的部分場景可以明顯加快解析。

如果你的顯卡是 RTX 4060 8GB，hybrid-engine --effort medium 是本地高品質解析的首選。執行前最好關閉遊戲、瀏覽器硬體加速和其他占顯存程式，因為 8GB 屬於最低門檻。

vlm-http-client：本機不執行模型

執行範例：

1
2
3


mineru -p "input.pdf" -o "output" `
  -b vlm-http-client `
  -u "http://192.168.1.100:30000"

這個模式裡，你的電腦只是客戶端：

1

本機上傳頁面 -> 遠端 GPU 伺服器解析 -> 本機接收結果

真正的 VLM 模型執行在另一台 GPU 電腦、Linux GPU 伺服器、區域網路伺服器，或 OpenAI API 相容的推理服務上。因此本機不需要 NVIDIA GPU，甚至可以只安裝輕量版 MinerU。官方文件也說明，vlm-http-client 適合只有 CPU 和網路連線的邊緣裝置。

需要注意的是，「本機不需要 GPU」不代表整個系統不需要 GPU。遠端伺服器仍然要承擔 VLM 推理。

hybrid-http-client：本機和伺服器分工

執行命令：

1
2
3


mineru -p "input.pdf" -o "output" `
  -b hybrid-http-client `
  -u "http://192.168.1.100:30000"

hybrid-http-client 和 vlm-http-client 不完全一樣。它通常是：

本機處理 PDF 文字提取和部分小模型任務。
遠端伺服器處理 VLM 推理。
最後組合解析結果。

所以本機可以使用純 CPU；如果本機有 GPU，本地輔助步驟會更快。官方建議客戶端安裝 mineru[pipeline]。表裡的約 2GB 最低顯存，主要對應 Hybrid 客戶端本地小模型的可選 GPU 加速，不是說遠端 VLM 伺服器只需要 2GB。

為什麼 HTTP Client 和 Engine 準確率一樣

官方表格裡可以看到類似結果：

1
2


hybrid-engine        95.39 / 95.26
hybrid-http-client   95.39 / 95.26

原因是兩者使用的解析邏輯和模型基本相同，差異主要是模型執行位置：

hybrid-engine：模型在本機顯卡執行。
hybrid-http-client：模型在遠端伺服器執行。

所以 HTTP Client 不是低精度版本，而是遠端部署版本。它適合已經有 GPU 伺服器的團隊，而不是單機使用者為了省顯存隨手切換的模式。

RTX 4060 8GB 怎麼選

如果你的顯卡是 RTX 4060 8GB，可以按這個順序選擇。

日常穩定使用：

1

mineru -p "input.pdf" -o "output" -b pipeline

它顯存壓力小，適合先驗證 CUDA 環境，也適合批次處理普通 PDF。

追求最高綜合效果：

1
2
3


mineru -p "input.pdf" -o "output" `
  -b hybrid-engine `
  --effort medium

這是 8GB 顯卡上的首選高精度模式。執行時盡量釋放顯存。

需要圖片分析或最高精度：

1
2
3


mineru -p "input.pdf" -o "output" `
  -b hybrid-engine `
  --effort high

它更慢，但會開啟圖片和圖表分析。

複雜掃描件解析不理想：

1

mineru -p "input.pdf" -o "output" -b vlm-engine

可以拿它和 Hybrid 的結果對比，但一般不必長期預設使用。

沒有遠端伺服器時，不需要考慮：

1
2


hybrid-http-client
vlm-http-client

它們要求你另外準備一個 OpenAI 相容推理伺服器，或者至少有一台可用的遠端 GPU 機器。

一句話選擇

普通 PDF、批次處理、穩定優先：

1

pipeline

本地最高綜合品質：

1

hybrid-engine --effort medium

需要圖片分析或最高精度：

1

hybrid-engine --effort high

極複雜掃描版面，想單獨嘗試 VLM：

1

vlm-engine

模型部署在另一台 GPU 伺服器：

1

hybrid-http-client / vlm-http-client

最後還要看 PyTorch 環境。如果目前還是 torch 2.8.0+cpu，在替換成 CUDA 版 PyTorch 之前，pipeline 只能走 CPU，hybrid-engine 和 vlm-engine 也無法真正使用 RTX 4060。