Holo 3.1 是 H Company 發布的本地 computer-use Agent 模型系列,定位是視覺語言模型與電腦操作代理。根據官方模型卡,Holo3.1 支援網頁、桌面和行動環境,提供 0.8B、4B、9B、35B-A3B 等尺寸,並有適合本地執行的量化版本。
它適合想把 AI Agent 跑在自己電腦上的使用者:不走雲端 API,不按 token 計費,也更容易把瀏覽器自動化、桌面操作和本地檔案流程控制在自己的機器裡。
下面記錄一套比較直接的本地部署流程:用 llama.cpp 啟動 Holo 3.1 的 OpenAI-compatible 服務,再把 OpenClaw 指向本地位址。
準備條件
建議準備:
- Windows、macOS 或 Linux 電腦。
- 一張顯存足夠的獨立顯卡,或 Apple Silicon Mac。
llama.cpp的llama-server。- Holo 3.1 的主模型 GGUF 檔案和視覺
mmproj檔案。 - OpenClaw。
模型大小可以按硬體選擇:
| 硬體配置 | 推薦模型 |
|---|---|
| RTX 4090 / RTX 3090 24GB | 35B-A3B Q4_K_M |
| RTX 5070 Ti / RTX 4060 Ti 16GB | 9B |
| Apple Silicon | 9B GGUF |
| 12GB 顯存 | 4B |
| 8GB 顯存 | 0.8B |
如果只是體驗瀏覽器自動化和簡單桌面任務,9B 會更容易跑起來。35B-A3B 更適合 24GB 顯存以上機器,但也更吃上下文、顯存和載入時間。
1. 下載 llama.cpp
可以從 llama.cpp releases 下載預編譯版本,也可以自己編譯。Windows 使用者下載後解壓,確認目錄裡有:
|
|
然後在 llama.cpp 目錄下新建:
|
|
後續把 Holo 3.1 的主模型和 mmproj 檔案都放進這個目錄。
2. 下載 Holo 3.1 模型
Holo 3.1 的官方 Hugging Face 組織為 Hcompany。如果使用 llama.cpp,需要選擇 GGUF 格式。
以 35B-A3B 為例,需要下載:
- 主模型,例如
Q4_K_M量化的 GGUF。 - 對應的視覺投影模型,例如
mmproj.f16.gguf。
放入目錄後,可以整理成類似結構:
|
|
檔名可以自訂,但啟動腳本裡的路徑必須對應修改。
3. 啟動 Holo 3.1 本地服務
下面是一個 Windows 批次處理腳本範例,可以儲存為 start-holo31.bat,放在 llama-server.exe 同級目錄。
|
|
執行腳本後選擇對應顯存檔位。成功後,llama-server 會在本地提供 OpenAI-compatible API:
|
|
如果啟動失敗,優先檢查三件事:
- 模型檔名是否和腳本一致。
mmproj檔案是否存在。- 顯存是否足夠目前模型和上下文長度。
4. 安裝 OpenClaw
Windows 以管理員身分開啟 PowerShell,執行:
|
|
macOS / Linux 執行:
|
|
安裝完成後進入 OpenClaw 設定,把模型提供商配置為本地 OpenAI-compatible 服務:
|
|
啟動模式可以選擇瀏覽器啟動。進入 OpenClaw 視覺化介面後,應能在底部看到本地模型已載入。
如果介面裡有思考模式開關,可以先關閉。Holo 3.1 這類 computer-use Agent 場景更看重動作規劃和介面執行,開啟額外思考過程可能顯著拖慢回應。
5. 安裝瀏覽器自動化 skills
為了讓 OpenClaw 更好地操作瀏覽器,可以安裝兩個常用 skills:
|
|
安裝完成後重啟 OpenClaw gateway:
|
|
也可以在 OpenClaw 對話框裡輸入:
|
|
讓它開啟新會話並重新載入能力。
6. 測試一個簡單任務
可以先用低風險任務測試:
|
|
觀察重點不是回答是否漂亮,而是:
- 能否正確打開瀏覽器。
- 能否識別頁面內容。
- 能否連續執行搜尋、點擊、閱讀和總結。
- 是否頻繁卡住或重複操作。
- 本地模型回應速度是否能接受。
如果瀏覽器動作正常,再嘗試更複雜的任務,例如整理資料、比較模型頁面、生成 Markdown 摘要、分析網頁表格等。
使用建議
本地 Agent 的優點是成本低、隱私邊界清楚、沒有雲端 token 帳單。但它也有現實限制:
- 小模型適合輕量瀏覽器任務,不適合高難推理。
- 視覺模型對介面識別能力很關鍵,不能只下載主模型。
- 上下文開太大容易吃顯存,建議從保守參數開始。
- 自動化操作有誤點風險,不要一開始就讓它處理支付、刪除、生產系統等高風險任務。
- 本地模型不會自動等於安全,瀏覽器權限、檔案權限和命令執行權限仍然要控制。
如果只是做日常網頁資料整理、輕量自動化和本地實驗,Holo 3.1 + llama.cpp + OpenClaw 是一個值得嘗試的組合。它的關鍵價值不是「免費無限 token」這個口號,而是把 Agent 的執行環境、模型和資料流盡量留在本機。
參考連結
- Holo 3.1 官方頁面:https://hcompany.ai/holo3.1
- H Company Hugging Face:https://huggingface.co/Hcompany
- Holo 3.1 35B-A3B GGUF:https://huggingface.co/Hcompany/Holo-3.1-35B-A3B-GGUF
- llama.cpp:https://github.com/ggml-org/llama.cpp
- OpenClaw + llama.cpp 設定參考:https://openclawlaunch.com/guides/openclaw-llamacpp