MinerU 3.4 的官方 CLI 目前支援五種後端名稱:
|
|
預設後端是 hybrid-engine,Hybrid 預設使用 --effort medium。這五種模式最容易混淆的地方,不是命令怎麼寫,而是模型到底跑在本機還是遠端伺服器、本機 GPU 是否必要,以及它更適合哪一類 PDF。
先給結論:普通電子 PDF 和批次任務優先用 pipeline;追求本地綜合效果優先用 hybrid-engine --effort medium;複雜掃描件可以單獨試 vlm-engine;如果模型部署在另一台 GPU 伺服器上,才考慮兩個 HTTP Client。
五種模式快速對比
| 後端 | 計算位置 | 核心方式 | 本機 GPU | 特點 |
|---|---|---|---|---|
pipeline |
本機 | OCR、版面分析、公式識別等多個專用模型組合 | 可選 | 相容性最好、穩定、幾乎無幻覺 |
hybrid-engine |
本機 | 原生文字提取 + VLM + Pipeline | 必須,最低約 8GB | 綜合準確率最高,適合大多數高品質解析 |
vlm-engine |
本機 | 主要由視覺語言模型理解整個頁面 | 必須,最低約 8GB | 複雜掃描件、表格、公式、特殊排版表現好 |
hybrid-http-client |
本機小模型 + 遠端 VLM | Hybrid,但大模型在伺服器執行 | 本機可不用 GPU | 適合已有遠端 GPU 伺服器 |
vlm-http-client |
遠端伺服器 | VLM 完全在伺服器執行 | 本機不需要 GPU | 本機只上傳檔案、接收結果 |
HTTP Client 不是「更省顯存的本地模式」,而是遠端部署模式。你的本機可以不跑大模型,但遠端伺服器仍然要負責 VLM 推理。
pipeline:穩定、省顯存、適合批次處理
執行命令:
|
|
pipeline 不是把整頁交給一個大模型理解,而是由多個專用模組組合處理:
- PDF 原生文字提取。
- OCR。
- 版面檢測。
- 表格識別。
- 公式識別。
- 閱讀順序整理。
它的優點是穩定、資源要求低、可以純 CPU 執行,也能使用 NVIDIA GPU 加速。官方將它描述為「快速、穩定、無幻覺」,表中綜合準確率約為 86.47,GPU 模式最低約需 4GB 顯存。
pipeline 適合:
- 普通電子 PDF。
- 大量批次處理任務。
- 文字為主的文件。
- 不希望模型自行猜測內容的場景。
- 8GB 顯卡上希望執行更穩定的任務。
如果你用的是 RTX 4060 8GB,這通常是最穩妥的本地 GPU 模式,也適合作為驗證 CUDA 環境是否正常的第一步。
vlm-engine:整頁交給視覺語言模型
執行命令:
|
|
vlm-engine 主要使用 MinerU 的視覺語言模型,把頁面當成圖像整體理解。它會判斷標題、正文、表格結構、公式、閱讀順序,以及複雜版面之間的關係。
表中準確率約為 95.30,明顯高於 pipeline。但它本地執行最低約需 8GB 顯存,並且不支援純 CPU 模式。
vlm-engine 適合:
- 掃描論文。
- 多欄複雜排版。
- 邊框不規則的表格。
- 公式密集頁面。
- 手寫或特殊布局。
pipeline解析效果不理想的檔案。
它的缺點是顯存壓力更高。相較 hybrid-engine,它也沒有「優先提取 PDF 原生文字、再讓 VLM 處理複雜區域」的綜合優勢,所以不一定適合作為日常預設模式。
hybrid-engine:Pipeline 和 VLM 混合
執行命令:
|
|
hybrid-engine 會結合兩套方法:
- 對電子 PDF,盡量直接提取原生文字。
- 對掃描內容、複雜表格、公式和特殊版面,呼叫 VLM。
- 再由 Pipeline 的部分模組完成輔助處理。
因此它兼顧了 VLM 的高準確率、原生文字提取的可靠性、更低的幻覺風險,以及對多語言電子 PDF 的支援。官方將它定位為「高精度、原生文本提取、低幻覺」,也是目前推薦的預設本地模式。
Hybrid 有兩個常用強度。
Medium:
|
|
表中準確率約為 95.26。它速度更快,適合絕大多數文件。目前版本預設就是 medium,但 Medium 會自動關閉圖片和圖表分析。
High:
|
|
表中準確率約為 95.39。它支援圖片和圖表分析,但處理速度更慢。官方資料中,Medium 相比 High 只低約 0.13 分,但在 Windows 的部分場景可以明顯加快解析。
如果你的顯卡是 RTX 4060 8GB,hybrid-engine --effort medium 是本地高品質解析的首選。執行前最好關閉遊戲、瀏覽器硬體加速和其他占顯存程式,因為 8GB 屬於最低門檻。
vlm-http-client:本機不執行模型
執行範例:
|
|
這個模式裡,你的電腦只是客戶端:
|
|
真正的 VLM 模型執行在另一台 GPU 電腦、Linux GPU 伺服器、區域網路伺服器,或 OpenAI API 相容的推理服務上。因此本機不需要 NVIDIA GPU,甚至可以只安裝輕量版 MinerU。官方文件也說明,vlm-http-client 適合只有 CPU 和網路連線的邊緣裝置。
需要注意的是,「本機不需要 GPU」不代表整個系統不需要 GPU。遠端伺服器仍然要承擔 VLM 推理。
hybrid-http-client:本機和伺服器分工
執行命令:
|
|
hybrid-http-client 和 vlm-http-client 不完全一樣。它通常是:
- 本機處理 PDF 文字提取和部分小模型任務。
- 遠端伺服器處理 VLM 推理。
- 最後組合解析結果。
所以本機可以使用純 CPU;如果本機有 GPU,本地輔助步驟會更快。官方建議客戶端安裝 mineru[pipeline]。表裡的約 2GB 最低顯存,主要對應 Hybrid 客戶端本地小模型的可選 GPU 加速,不是說遠端 VLM 伺服器只需要 2GB。
為什麼 HTTP Client 和 Engine 準確率一樣
官方表格裡可以看到類似結果:
|
|
原因是兩者使用的解析邏輯和模型基本相同,差異主要是模型執行位置:
hybrid-engine:模型在本機顯卡執行。hybrid-http-client:模型在遠端伺服器執行。
所以 HTTP Client 不是低精度版本,而是遠端部署版本。它適合已經有 GPU 伺服器的團隊,而不是單機使用者為了省顯存隨手切換的模式。
RTX 4060 8GB 怎麼選
如果你的顯卡是 RTX 4060 8GB,可以按這個順序選擇。
日常穩定使用:
|
|
它顯存壓力小,適合先驗證 CUDA 環境,也適合批次處理普通 PDF。
追求最高綜合效果:
|
|
這是 8GB 顯卡上的首選高精度模式。執行時盡量釋放顯存。
需要圖片分析或最高精度:
|
|
它更慢,但會開啟圖片和圖表分析。
複雜掃描件解析不理想:
|
|
可以拿它和 Hybrid 的結果對比,但一般不必長期預設使用。
沒有遠端伺服器時,不需要考慮:
|
|
它們要求你另外準備一個 OpenAI 相容推理伺服器,或者至少有一台可用的遠端 GPU 機器。
一句話選擇
普通 PDF、批次處理、穩定優先:
|
|
本地最高綜合品質:
|
|
需要圖片分析或最高精度:
|
|
極複雜掃描版面,想單獨嘗試 VLM:
|
|
模型部署在另一台 GPU 伺服器:
|
|
最後還要看 PyTorch 環境。如果目前還是 torch 2.8.0+cpu,在替換成 CUDA 版 PyTorch 之前,pipeline 只能走 CPU,hybrid-engine 和 vlm-engine 也無法真正使用 RTX 4060。