Holo 3.1ローカルAgent構築:llama.cppをOpenClawに接続する

Holo 3.1をローカルAgentとして動かす手順。llama.cppをダウンロードし、GGUFモデルを選び、OpenAI-compatibleなローカルサービスを起動して、OpenClawにAPI Base URLとブラウザ自動化skillsを設定する。

Holo 3.1は、H Companyが公開したローカルcomputer-use Agent向けモデルファミリーです。位置づけは、コンピュータ操作に使う視覚言語モデルです。公式モデルカードによると、Holo3.1はWeb、デスクトップ、モバイル環境をサポートし、0.8B、4B、9B、35B-A3Bなどのサイズを提供し、ローカル実行に適した量子化版もあります。

自分のPC上でAI Agentを動かしたいユーザーに向いています。クラウドAPIを使わず、token課金もなく、ブラウザ自動化、デスクトップ操作、ローカルファイル処理の流れを自分のマシン内に収めやすいからです。

以下では、比較的まっすぐなローカル構築手順を記録します。llama.cppでHolo 3.1のOpenAI-compatibleサービスを起動し、OpenClawをローカルアドレスへ向けます。

準備するもの

次のものを用意します。

  • Windows、macOS、LinuxのいずれかのPC。
  • 十分なVRAMを持つGPU、またはApple Silicon Mac。
  • llama.cppllama-server
  • Holo 3.1のメインGGUFモデルファイルと、視覚用mmprojファイル。
  • OpenClaw。

モデルサイズはハードウェアに合わせて選びます。

ハードウェア構成 推奨モデル
RTX 4090 / RTX 3090 24GB 35B-A3B Q4_K_M
RTX 5070 Ti / RTX 4060 Ti 16GB 9B
Apple Silicon 9B GGUF
12GB VRAM 4B
8GB VRAM 0.8B

ブラウザ自動化や簡単なデスクトップタスクを試すだけなら、9Bのほうが動かしやすいです。35B-A3Bは24GB以上のVRAMを持つマシン向けですが、コンテキスト、VRAM、読み込み時間の負担も大きくなります。

1. llama.cppをダウンロードする

llama.cppのreleasesからビルド済み版をダウンロードしても、自分でビルドしても構いません。Windowsユーザーはダウンロード後に展開し、ディレクトリ内に次のファイルがあることを確認します。

1
llama-server.exe

次に、llama.cppディレクトリの下に次のフォルダを作ります。

1
models

あとでHolo 3.1のメインモデルとmmprojファイルをこのフォルダに入れます。

2. Holo 3.1モデルをダウンロードする

Holo 3.1の公式Hugging Face組織はHcompanyです。llama.cppで使う場合はGGUF形式を選びます。

35B-A3Bを例にすると、必要なのは次の2つです。

  • メインモデル。たとえばQ4_K_M量子化のGGUF。
  • 対応する視覚投影モデル。たとえばmmproj.f16.gguf

ファイルを置いた後、次のような構成にできます。

1
2
3
4
5
llama.cpp/
  llama-server.exe
  models/
    q4_k_m.gguf
    mmproj.f16.gguf

ファイル名は自由に変えられますが、起動スクリプト内のパスも必ず合わせて変更してください。

3. Holo 3.1ローカルサービスを起動する

以下はWindowsのバッチスクリプト例です。start-holo31.batとして保存し、llama-server.exeと同じ階層に置きます。

  1
  2
  3
  4
  5
  6
  7
  8
  9
 10
 11
 12
 13
 14
 15
 16
 17
 18
 19
 20
 21
 22
 23
 24
 25
 26
 27
 28
 29
 30
 31
 32
 33
 34
 35
 36
 37
 38
 39
 40
 41
 42
 43
 44
 45
 46
 47
 48
 49
 50
 51
 52
 53
 54
 55
 56
 57
 58
 59
 60
 61
 62
 63
 64
 65
 66
 67
 68
 69
 70
 71
 72
 73
 74
 75
 76
 77
 78
 79
 80
 81
 82
 83
 84
 85
 86
 87
 88
 89
 90
 91
 92
 93
 94
 95
 96
 97
 98
 99
100
101
102
103
104
105
106
@echo off
chcp 65001 >nul
title Holo 3.1 VLM Launcher

set LLAMA=llama-server.exe

:MENU
cls
echo ==========================================
echo          Holo 3.1 VLM Launcher
echo ==========================================
echo.
echo 1. 8GB GPU  (0.8B)
echo 2. 12GB GPU (4B)
echo 3. 16GB GPU (9B)
echo 4. 24GB GPU (35B-A3B)
echo 5. CPU mode (4B)
echo 0. Exit
echo.
set /p CHOICE=Choose:

if "%CHOICE%"=="1" goto GPU8
if "%CHOICE%"=="2" goto GPU12
if "%CHOICE%"=="3" goto GPU16
if "%CHOICE%"=="4" goto GPU24
if "%CHOICE%"=="5" goto CPU
if "%CHOICE%"=="0" exit
goto MENU

:GPU8
"%LLAMA%" ^
-m models\holo-0.8b.gguf ^
--mmproj models\holo-0.8b-mmproj.gguf ^
-ngl 999 ^
-c 8192 ^
-fa ^
--cache-type-k q4_0 ^
--cache-type-v q4_0 ^
--temp 0.2 ^
--top-p 0.9 ^
--host 127.0.0.1 ^
--port 1234
pause
goto MENU

:GPU12
"%LLAMA%" ^
-m models\holo-4b.gguf ^
--mmproj models\holo-4b-mmproj.gguf ^
-ngl 999 ^
-c 16384 ^
-fa ^
--cache-type-k q4_0 ^
--cache-type-v q4_0 ^
--temp 0.2 ^
--top-p 0.9 ^
--host 127.0.0.1 ^
--port 1234
pause
goto MENU

:GPU16
"%LLAMA%" ^
-m models\holo-9b.gguf ^
--mmproj models\holo-9b-mmproj.gguf ^
-ngl 999 ^
-c 24576 ^
-fa ^
--cache-type-k q8_0 ^
--cache-type-v q8_0 ^
--temp 0.2 ^
--top-p 0.9 ^
--host 127.0.0.1 ^
--port 1234
pause
goto MENU

:GPU24
"%LLAMA%" ^
-m models\q4_k_m.gguf ^
--mmproj models\mmproj.f16.gguf ^
-ngl 999 ^
-c 65536 ^
--flash-attn on ^
--cache-type-k q8_0 ^
--cache-type-v q8_0 ^
--temp 0.2 ^
--top-p 0.9 ^
--repeat-penalty 1.05 ^
--host 127.0.0.1 ^
--port 1234
pause
goto MENU

:CPU
"%LLAMA%" ^
-m models\holo-4b.gguf ^
--mmproj models\holo-4b-mmproj.gguf ^
-ngl 0 ^
-c 4096 ^
--threads 16 ^
--temp 0.2 ^
--host 127.0.0.1 ^
--port 1234
pause
goto MENU

スクリプトを実行し、VRAMに合う項目を選びます。成功すると、llama-serverがローカルでOpenAI-compatible APIを提供します。

1
http://127.0.0.1:1234/v1

起動に失敗した場合は、まず次の3点を確認してください。

  • モデルファイル名がスクリプトと一致しているか。
  • mmprojファイルが存在するか。
  • 選んだモデルとコンテキスト長に対してVRAMが足りているか。

4. OpenClawをインストールする

Windowsでは、管理者としてPowerShellを開き、次を実行します。

1
powershell -c "irm https://openclaw.ai/install.ps1 | iex"

macOS / Linuxでは次を実行します。

1
curl -fsSL https://openclaw.ai/install.sh | bash

インストール後、OpenClawの設定に入り、モデルプロバイダーをローカルのOpenAI-compatibleサービスとして設定します。

1
2
API Base URL: http://127.0.0.1:1234/v1
API Key: 空欄、または任意のプレースホルダー値

起動モードはブラウザ起動を選べます。OpenClawのビジュアル操作画面に入ると、下部にローカルモデルが読み込まれているはずです。

画面に思考モードのスイッチがある場合は、まずオフにしておくとよいです。Holo 3.1のようなcomputer-use Agentでは、動作計画とUI実行が重要であり、追加の思考過程を有効にすると応答がかなり遅くなることがあります。

5. ブラウザ自動化skillsをインストールする

OpenClawにブラウザ操作をさせやすくするため、よく使う2つのskillsをインストールします。

1
2
openclaw skills install agent-browser-cli
openclaw skills install use-my-browser

インストール後、OpenClaw gatewayを再起動します。

1
openclaw gateway

または、OpenClawのチャット欄に次を入力しても構いません。

1
/new

新しいセッションを開始し、能力を再読み込みします。

6. 簡単なタスクでテストする

まず低リスクのタスクで試します。

1
ブラウザを開き、Holo 3.1の公式モデルページを検索して、対応するモデルサイズとデプロイ方法を要約してください。

見るべきポイントは、回答がきれいかどうかではありません。

  • ブラウザを正しく開けるか。
  • ページ内容を認識できるか。
  • 検索、クリック、読解、要約を連続して実行できるか。
  • 頻繁に止まったり、同じ操作を繰り返したりしないか。
  • ローカルモデルの応答速度が許容範囲か。

ブラウザ操作が正常なら、資料整理、モデルページ比較、Markdown要約生成、Web表の分析など、より複雑なタスクを試します。

使用上の注意

ローカルAgentの利点は、低コスト、明確なプライバシー境界、クラウドtoken請求がないことです。ただし現実的な制限もあります。

  • 小型モデルは軽量なブラウザタスク向きで、高難度推論には向きません。
  • UI認識には視覚モデルが重要です。メインモデルだけをダウンロードしないでください。
  • コンテキストを大きくしすぎるとVRAMを消費しやすいため、保守的なパラメータから始めるのが安全です。
  • 自動操作には誤クリックのリスクがあります。最初から支払い、削除、本番システムなど高リスク作業を任せないでください。
  • ローカルモデルだから自動的に安全というわけではありません。ブラウザ権限、ファイル権限、コマンド実行権限は引き続き管理が必要です。

日常的なWeb資料整理、軽量自動化、ローカル実験が目的なら、Holo 3.1 + llama.cpp + OpenClawは試す価値があります。重要なのは「無料でtoken無制限」という宣伝文句ではなく、Agentの実行環境、モデル、データフローをできるだけローカルに置けることです。

参考リンク

记录并分享
Hugo で構築されています。
テーマ StackJimmy によって設計されています。