Holo 3.1 本地部署教程：用 llama.cpp 接入 OpenClaw 跑 Computer Use Agent

Holo 3.1 是 H Company 發布的本地 computer-use Agent 模型系列，定位是視覺語言模型與電腦操作代理。根據官方模型卡，Holo3.1 支援網頁、桌面和行動環境，提供 0.8B、4B、9B、35B-A3B 等尺寸，並有適合本地執行的量化版本。

它適合想把 AI Agent 跑在自己電腦上的使用者：不走雲端 API，不按 token 計費，也更容易把瀏覽器自動化、桌面操作和本地檔案流程控制在自己的機器裡。

下面記錄一套比較直接的本地部署流程：用 llama.cpp 啟動 Holo 3.1 的 OpenAI-compatible 服務，再把 OpenClaw 指向本地位址。

準備條件

建議準備：

Windows、macOS 或 Linux 電腦。
一張顯存足夠的獨立顯卡，或 Apple Silicon Mac。
llama.cpp 的 llama-server。
Holo 3.1 的主模型 GGUF 檔案和視覺 mmproj 檔案。
OpenClaw。

模型大小可以按硬體選擇：

硬體配置	推薦模型
RTX 4090 / RTX 3090 24GB	35B-A3B Q4_K_M
RTX 5070 Ti / RTX 4060 Ti 16GB	9B
Apple Silicon	9B GGUF
12GB 顯存	4B
8GB 顯存	0.8B

如果只是體驗瀏覽器自動化和簡單桌面任務，9B 會更容易跑起來。35B-A3B 更適合 24GB 顯存以上機器，但也更吃上下文、顯存和載入時間。

1. 下載 llama.cpp

可以從 llama.cpp releases 下載預編譯版本，也可以自己編譯。Windows 使用者下載後解壓，確認目錄裡有：

1

llama-server.exe

然後在 llama.cpp 目錄下新建：

1

models

後續把 Holo 3.1 的主模型和 mmproj 檔案都放進這個目錄。

2. 下載 Holo 3.1 模型

Holo 3.1 的官方 Hugging Face 組織為 Hcompany。如果使用 llama.cpp，需要選擇 GGUF 格式。

以 35B-A3B 為例，需要下載：

主模型，例如 Q4_K_M 量化的 GGUF。
對應的視覺投影模型，例如 mmproj.f16.gguf。

放入目錄後，可以整理成類似結構：

1
2
3
4
5


llama.cpp/
  llama-server.exe
  models/
    q4_k_m.gguf
    mmproj.f16.gguf

檔名可以自訂，但啟動腳本裡的路徑必須對應修改。

3. 啟動 Holo 3.1 本地服務

下面是一個 Windows 批次處理腳本範例，可以儲存為 start-holo31.bat，放在 llama-server.exe 同級目錄。

  1
  2
  3
  4
  5
  6
  7
  8
  9
 10
 11
 12
 13
 14
 15
 16
 17
 18
 19
 20
 21
 22
 23
 24
 25
 26
 27
 28
 29
 30
 31
 32
 33
 34
 35
 36
 37
 38
 39
 40
 41
 42
 43
 44
 45
 46
 47
 48
 49
 50
 51
 52
 53
 54
 55
 56
 57
 58
 59
 60
 61
 62
 63
 64
 65
 66
 67
 68
 69
 70
 71
 72
 73
 74
 75
 76
 77
 78
 79
 80
 81
 82
 83
 84
 85
 86
 87
 88
 89
 90
 91
 92
 93
 94
 95
 96
 97
 98
 99
100
101
102
103
104
105
106


@echo off
chcp 65001 >nul
title Holo 3.1 VLM Launcher

set LLAMA=llama-server.exe

:MENU
cls
echo ==========================================
echo          Holo 3.1 VLM Launcher
echo ==========================================
echo.
echo 1. 8GB GPU  (0.8B)
echo 2. 12GB GPU (4B)
echo 3. 16GB GPU (9B)
echo 4. 24GB GPU (35B-A3B)
echo 5. CPU mode (4B)
echo 0. Exit
echo.
set /p CHOICE=Choose:

if "%CHOICE%"=="1" goto GPU8
if "%CHOICE%"=="2" goto GPU12
if "%CHOICE%"=="3" goto GPU16
if "%CHOICE%"=="4" goto GPU24
if "%CHOICE%"=="5" goto CPU
if "%CHOICE%"=="0" exit
goto MENU

:GPU8
"%LLAMA%" ^
-m models\holo-0.8b.gguf ^
--mmproj models\holo-0.8b-mmproj.gguf ^
-ngl 999 ^
-c 8192 ^
-fa ^
--cache-type-k q4_0 ^
--cache-type-v q4_0 ^
--temp 0.2 ^
--top-p 0.9 ^
--host 127.0.0.1 ^
--port 1234
pause
goto MENU

:GPU12
"%LLAMA%" ^
-m models\holo-4b.gguf ^
--mmproj models\holo-4b-mmproj.gguf ^
-ngl 999 ^
-c 16384 ^
-fa ^
--cache-type-k q4_0 ^
--cache-type-v q4_0 ^
--temp 0.2 ^
--top-p 0.9 ^
--host 127.0.0.1 ^
--port 1234
pause
goto MENU

:GPU16
"%LLAMA%" ^
-m models\holo-9b.gguf ^
--mmproj models\holo-9b-mmproj.gguf ^
-ngl 999 ^
-c 24576 ^
-fa ^
--cache-type-k q8_0 ^
--cache-type-v q8_0 ^
--temp 0.2 ^
--top-p 0.9 ^
--host 127.0.0.1 ^
--port 1234
pause
goto MENU

:GPU24
"%LLAMA%" ^
-m models\q4_k_m.gguf ^
--mmproj models\mmproj.f16.gguf ^
-ngl 999 ^
-c 65536 ^
--flash-attn on ^
--cache-type-k q8_0 ^
--cache-type-v q8_0 ^
--temp 0.2 ^
--top-p 0.9 ^
--repeat-penalty 1.05 ^
--host 127.0.0.1 ^
--port 1234
pause
goto MENU

:CPU
"%LLAMA%" ^
-m models\holo-4b.gguf ^
--mmproj models\holo-4b-mmproj.gguf ^
-ngl 0 ^
-c 4096 ^
--threads 16 ^
--temp 0.2 ^
--host 127.0.0.1 ^
--port 1234
pause
goto MENU

執行腳本後選擇對應顯存檔位。成功後，llama-server 會在本地提供 OpenAI-compatible API：

1

http://127.0.0.1:1234/v1

如果啟動失敗，優先檢查三件事：

模型檔名是否和腳本一致。
mmproj 檔案是否存在。
顯存是否足夠目前模型和上下文長度。

4. 安裝 OpenClaw

Windows 以管理員身分開啟 PowerShell，執行：

1

powershell -c "irm https://openclaw.ai/install.ps1 | iex"

macOS / Linux 執行：

1

curl -fsSL https://openclaw.ai/install.sh | bash

安裝完成後進入 OpenClaw 設定，把模型提供商配置為本地 OpenAI-compatible 服務：

1
2


API Base URL: http://127.0.0.1:1234/v1
API Key: 留空或填寫任意占位值

啟動模式可以選擇瀏覽器啟動。進入 OpenClaw 視覺化介面後，應能在底部看到本地模型已載入。

如果介面裡有思考模式開關，可以先關閉。Holo 3.1 這類 computer-use Agent 場景更看重動作規劃和介面執行，開啟額外思考過程可能顯著拖慢回應。

5. 安裝瀏覽器自動化 skills

為了讓 OpenClaw 更好地操作瀏覽器，可以安裝兩個常用 skills：

1
2


openclaw skills install agent-browser-cli
openclaw skills install use-my-browser

安裝完成後重啟 OpenClaw gateway：

1

openclaw gateway

也可以在 OpenClaw 對話框裡輸入：

1

/new

讓它開啟新會話並重新載入能力。

6. 測試一個簡單任務

可以先用低風險任務測試：

1

打開瀏覽器，搜尋 Holo 3.1 的官方模型頁面，總結它支援的模型尺寸和部署方式。

觀察重點不是回答是否漂亮，而是：

能否正確打開瀏覽器。
能否識別頁面內容。
能否連續執行搜尋、點擊、閱讀和總結。
是否頻繁卡住或重複操作。
本地模型回應速度是否能接受。

如果瀏覽器動作正常，再嘗試更複雜的任務，例如整理資料、比較模型頁面、生成 Markdown 摘要、分析網頁表格等。

使用建議

本地 Agent 的優點是成本低、隱私邊界清楚、沒有雲端 token 帳單。但它也有現實限制：

小模型適合輕量瀏覽器任務，不適合高難推理。
視覺模型對介面識別能力很關鍵，不能只下載主模型。
上下文開太大容易吃顯存，建議從保守參數開始。
自動化操作有誤點風險，不要一開始就讓它處理支付、刪除、生產系統等高風險任務。
本地模型不會自動等於安全，瀏覽器權限、檔案權限和命令執行權限仍然要控制。

如果只是做日常網頁資料整理、輕量自動化和本地實驗，Holo 3.1 + llama.cpp + OpenClaw 是一個值得嘗試的組合。它的關鍵價值不是「免費無限 token」這個口號，而是把 Agent 的執行環境、模型和資料流盡量留在本機。

常見問題

這個專案是什麼？

它是本文介紹的一個 AI 工具專案，重點在於它能做什麼、怎麼使用，以及什麼情況下值得嘗試。

適合誰使用？

主要適合希望把專案接入真實工作流，而不是只閱讀 README 的開發者和 AI 工具使用者。

使用前應該檢查什麼？

先確認安裝方式、支援工具、資料與權限邊界，以及專案是否仍在快速變化。

適合直接用在生產環境嗎？

建議先小範圍測試。確認行為穩定後，再考慮用於敏感或生產任務。

參考連結

Holo 3.1 官方頁面：https://hcompany.ai/holo3.1
H Company Hugging Face：https://huggingface.co/Hcompany
Holo 3.1 35B-A3B GGUF：https://huggingface.co/Hcompany/Holo-3.1-35B-A3B-GGUF
llama.cpp：https://github.com/ggml-org/llama.cpp
OpenClaw + llama.cpp 設定參考：https://openclawlaunch.com/guides/openclaw-llamacpp