Holo 3.1は、H Companyが公開したローカルcomputer-use Agent向けモデルファミリーです。位置づけは、コンピュータ操作に使う視覚言語モデルです。公式モデルカードによると、Holo3.1はWeb、デスクトップ、モバイル環境をサポートし、0.8B、4B、9B、35B-A3Bなどのサイズを提供し、ローカル実行に適した量子化版もあります。
自分のPC上でAI Agentを動かしたいユーザーに向いています。クラウドAPIを使わず、token課金もなく、ブラウザ自動化、デスクトップ操作、ローカルファイル処理の流れを自分のマシン内に収めやすいからです。
以下では、比較的まっすぐなローカル構築手順を記録します。llama.cppでHolo 3.1のOpenAI-compatibleサービスを起動し、OpenClawをローカルアドレスへ向けます。
準備するもの
次のものを用意します。
- Windows、macOS、LinuxのいずれかのPC。
- 十分なVRAMを持つGPU、またはApple Silicon Mac。
llama.cppのllama-server。- Holo 3.1のメインGGUFモデルファイルと、視覚用
mmprojファイル。 - OpenClaw。
モデルサイズはハードウェアに合わせて選びます。
| ハードウェア構成 | 推奨モデル |
|---|---|
| RTX 4090 / RTX 3090 24GB | 35B-A3B Q4_K_M |
| RTX 5070 Ti / RTX 4060 Ti 16GB | 9B |
| Apple Silicon | 9B GGUF |
| 12GB VRAM | 4B |
| 8GB VRAM | 0.8B |
ブラウザ自動化や簡単なデスクトップタスクを試すだけなら、9Bのほうが動かしやすいです。35B-A3Bは24GB以上のVRAMを持つマシン向けですが、コンテキスト、VRAM、読み込み時間の負担も大きくなります。
1. llama.cppをダウンロードする
llama.cppのreleasesからビルド済み版をダウンロードしても、自分でビルドしても構いません。Windowsユーザーはダウンロード後に展開し、ディレクトリ内に次のファイルがあることを確認します。
|
|
次に、llama.cppディレクトリの下に次のフォルダを作ります。
|
|
あとでHolo 3.1のメインモデルとmmprojファイルをこのフォルダに入れます。
2. Holo 3.1モデルをダウンロードする
Holo 3.1の公式Hugging Face組織はHcompanyです。llama.cppで使う場合はGGUF形式を選びます。
35B-A3Bを例にすると、必要なのは次の2つです。
- メインモデル。たとえば
Q4_K_M量子化のGGUF。 - 対応する視覚投影モデル。たとえば
mmproj.f16.gguf。
ファイルを置いた後、次のような構成にできます。
|
|
ファイル名は自由に変えられますが、起動スクリプト内のパスも必ず合わせて変更してください。
3. Holo 3.1ローカルサービスを起動する
以下はWindowsのバッチスクリプト例です。start-holo31.batとして保存し、llama-server.exeと同じ階層に置きます。
|
|
スクリプトを実行し、VRAMに合う項目を選びます。成功すると、llama-serverがローカルでOpenAI-compatible APIを提供します。
|
|
起動に失敗した場合は、まず次の3点を確認してください。
- モデルファイル名がスクリプトと一致しているか。
mmprojファイルが存在するか。- 選んだモデルとコンテキスト長に対してVRAMが足りているか。
4. OpenClawをインストールする
Windowsでは、管理者としてPowerShellを開き、次を実行します。
|
|
macOS / Linuxでは次を実行します。
|
|
インストール後、OpenClawの設定に入り、モデルプロバイダーをローカルのOpenAI-compatibleサービスとして設定します。
|
|
起動モードはブラウザ起動を選べます。OpenClawのビジュアル操作画面に入ると、下部にローカルモデルが読み込まれているはずです。
画面に思考モードのスイッチがある場合は、まずオフにしておくとよいです。Holo 3.1のようなcomputer-use Agentでは、動作計画とUI実行が重要であり、追加の思考過程を有効にすると応答がかなり遅くなることがあります。
5. ブラウザ自動化skillsをインストールする
OpenClawにブラウザ操作をさせやすくするため、よく使う2つのskillsをインストールします。
|
|
インストール後、OpenClaw gatewayを再起動します。
|
|
または、OpenClawのチャット欄に次を入力しても構いません。
|
|
新しいセッションを開始し、能力を再読み込みします。
6. 簡単なタスクでテストする
まず低リスクのタスクで試します。
|
|
見るべきポイントは、回答がきれいかどうかではありません。
- ブラウザを正しく開けるか。
- ページ内容を認識できるか。
- 検索、クリック、読解、要約を連続して実行できるか。
- 頻繁に止まったり、同じ操作を繰り返したりしないか。
- ローカルモデルの応答速度が許容範囲か。
ブラウザ操作が正常なら、資料整理、モデルページ比較、Markdown要約生成、Web表の分析など、より複雑なタスクを試します。
使用上の注意
ローカルAgentの利点は、低コスト、明確なプライバシー境界、クラウドtoken請求がないことです。ただし現実的な制限もあります。
- 小型モデルは軽量なブラウザタスク向きで、高難度推論には向きません。
- UI認識には視覚モデルが重要です。メインモデルだけをダウンロードしないでください。
- コンテキストを大きくしすぎるとVRAMを消費しやすいため、保守的なパラメータから始めるのが安全です。
- 自動操作には誤クリックのリスクがあります。最初から支払い、削除、本番システムなど高リスク作業を任せないでください。
- ローカルモデルだから自動的に安全というわけではありません。ブラウザ権限、ファイル権限、コマンド実行権限は引き続き管理が必要です。
日常的なWeb資料整理、軽量自動化、ローカル実験が目的なら、Holo 3.1 + llama.cpp + OpenClawは試す価値があります。重要なのは「無料でtoken無制限」という宣伝文句ではなく、Agentの実行環境、モデル、データフローをできるだけローカルに置けることです。
参考リンク
- Holo 3.1公式ページ:https://hcompany.ai/holo3.1
- H Company Hugging Face:https://huggingface.co/Hcompany
- Holo 3.1 35B-A3B GGUF:https://huggingface.co/Hcompany/Holo-3.1-35B-A3B-GGUF
- llama.cpp:https://github.com/ggml-org/llama.cpp
- OpenClaw + llama.cpp設定参考:https://openclawlaunch.com/guides/openclaw-llamacpp