Guía de despliegue local de Holo 3.1: ejecutar un Computer Use Agent con llama.cpp y OpenClaw

Holo 3.1 es una familia de modelos locales para computer-use Agent publicada por H Company. Está orientada a modelos visión-lenguaje capaces de operar un computador. Según la model card oficial, Holo3.1 soporta entornos web, de escritorio y móviles, ofrece tamaños como 0.8B, 4B, 9B y 35B-A3B, y tiene versiones cuantizadas adecuadas para ejecución local.

Es una opción útil para usuarios que quieren ejecutar un AI Agent en su propio equipo: sin API en la nube, sin cobro por token y con más control sobre automatización del navegador, acciones de escritorio y flujos de archivos locales.

Este es un flujo directo de despliegue local: usar llama.cpp para iniciar un servicio OpenAI-compatible con Holo 3.1, y luego apuntar OpenClaw a la dirección local.

Requisitos

Conviene preparar:

Un computador Windows, macOS o Linux.
Una GPU dedicada con suficiente VRAM, o un Apple Silicon Mac.
llama-server de llama.cpp.
El archivo GGUF del modelo principal de Holo 3.1 y el archivo visual mmproj.
OpenClaw.

El tamaño del modelo puede elegirse según el hardware:

Hardware	Modelo recomendado
RTX 4090 / RTX 3090 24GB	35B-A3B Q4_K_M
RTX 5070 Ti / RTX 4060 Ti 16GB	9B
Apple Silicon	9B GGUF
12GB VRAM	4B
8GB VRAM	0.8B

Si solo quieres probar automatización del navegador y tareas simples de escritorio, 9B será más fácil de ejecutar. 35B-A3B encaja mejor en equipos con 24GB de VRAM o más, pero también consume más contexto, VRAM y tiempo de carga.

1. Descargar llama.cpp

Puedes descargar una versión precompilada desde las releases de llama.cpp, o compilarlo por tu cuenta. En Windows, descarga y descomprime el paquete, y confirma que el directorio contiene:

1

llama-server.exe

Luego crea una carpeta bajo el directorio de llama.cpp:

1

models

Después coloca ahí el modelo principal de Holo 3.1 y el archivo mmproj.

2. Descargar el modelo Holo 3.1

La organización oficial de Holo 3.1 en Hugging Face es Hcompany. Si usas llama.cpp, necesitas elegir formato GGUF.

Tomando 35B-A3B como ejemplo, debes descargar:

El modelo principal, por ejemplo un GGUF cuantizado Q4_K_M.
El modelo de proyección visual correspondiente, por ejemplo mmproj.f16.gguf.

Después de colocar los archivos, la estructura puede quedar así:

1
2
3
4
5


llama.cpp/
  llama-server.exe
  models/
    q4_k_m.gguf
    mmproj.f16.gguf

Puedes personalizar los nombres de archivo, pero las rutas del script de inicio deben modificarse para coincidir.

3. Iniciar el servicio local de Holo 3.1

El siguiente es un ejemplo de script batch para Windows. Guárdalo como start-holo31.bat y colócalo en el mismo directorio que llama-server.exe.

  1
  2
  3
  4
  5
  6
  7
  8
  9
 10
 11
 12
 13
 14
 15
 16
 17
 18
 19
 20
 21
 22
 23
 24
 25
 26
 27
 28
 29
 30
 31
 32
 33
 34
 35
 36
 37
 38
 39
 40
 41
 42
 43
 44
 45
 46
 47
 48
 49
 50
 51
 52
 53
 54
 55
 56
 57
 58
 59
 60
 61
 62
 63
 64
 65
 66
 67
 68
 69
 70
 71
 72
 73
 74
 75
 76
 77
 78
 79
 80
 81
 82
 83
 84
 85
 86
 87
 88
 89
 90
 91
 92
 93
 94
 95
 96
 97
 98
 99
100
101
102
103
104
105
106


@echo off
chcp 65001 >nul
title Holo 3.1 VLM Launcher

set LLAMA=llama-server.exe

:MENU
cls
echo ==========================================
echo          Holo 3.1 VLM Launcher
echo ==========================================
echo.
echo 1. 8GB GPU  (0.8B)
echo 2. 12GB GPU (4B)
echo 3. 16GB GPU (9B)
echo 4. 24GB GPU (35B-A3B)
echo 5. CPU mode (4B)
echo 0. Exit
echo.
set /p CHOICE=Choose:

if "%CHOICE%"=="1" goto GPU8
if "%CHOICE%"=="2" goto GPU12
if "%CHOICE%"=="3" goto GPU16
if "%CHOICE%"=="4" goto GPU24
if "%CHOICE%"=="5" goto CPU
if "%CHOICE%"=="0" exit
goto MENU

:GPU8
"%LLAMA%" ^
-m models\holo-0.8b.gguf ^
--mmproj models\holo-0.8b-mmproj.gguf ^
-ngl 999 ^
-c 8192 ^
-fa ^
--cache-type-k q4_0 ^
--cache-type-v q4_0 ^
--temp 0.2 ^
--top-p 0.9 ^
--host 127.0.0.1 ^
--port 1234
pause
goto MENU

:GPU12
"%LLAMA%" ^
-m models\holo-4b.gguf ^
--mmproj models\holo-4b-mmproj.gguf ^
-ngl 999 ^
-c 16384 ^
-fa ^
--cache-type-k q4_0 ^
--cache-type-v q4_0 ^
--temp 0.2 ^
--top-p 0.9 ^
--host 127.0.0.1 ^
--port 1234
pause
goto MENU

:GPU16
"%LLAMA%" ^
-m models\holo-9b.gguf ^
--mmproj models\holo-9b-mmproj.gguf ^
-ngl 999 ^
-c 24576 ^
-fa ^
--cache-type-k q8_0 ^
--cache-type-v q8_0 ^
--temp 0.2 ^
--top-p 0.9 ^
--host 127.0.0.1 ^
--port 1234
pause
goto MENU

:GPU24
"%LLAMA%" ^
-m models\q4_k_m.gguf ^
--mmproj models\mmproj.f16.gguf ^
-ngl 999 ^
-c 65536 ^
--flash-attn on ^
--cache-type-k q8_0 ^
--cache-type-v q8_0 ^
--temp 0.2 ^
--top-p 0.9 ^
--repeat-penalty 1.05 ^
--host 127.0.0.1 ^
--port 1234
pause
goto MENU

:CPU
"%LLAMA%" ^
-m models\holo-4b.gguf ^
--mmproj models\holo-4b-mmproj.gguf ^
-ngl 0 ^
-c 4096 ^
--threads 16 ^
--temp 0.2 ^
--host 127.0.0.1 ^
--port 1234
pause
goto MENU

Ejecuta el script y elige el perfil que corresponda a tu VRAM. Si arranca correctamente, llama-server expondrá una API local OpenAI-compatible:

1

http://127.0.0.1:1234/v1

Si el arranque falla, revisa primero tres cosas:

Si los nombres de archivo del modelo coinciden con el script.
Si el archivo mmproj existe.
Si la VRAM alcanza para el modelo y la longitud de contexto elegidos.

4. Instalar OpenClaw

En Windows, abre PowerShell como administrador y ejecuta:

1

powershell -c "irm https://openclaw.ai/install.ps1 | iex"

En macOS / Linux, ejecuta:

1

curl -fsSL https://openclaw.ai/install.sh | bash

Después de instalar, entra en la configuración de OpenClaw y configura el proveedor de modelo como servicio local OpenAI-compatible:

1
2


API Base URL: http://127.0.0.1:1234/v1
API Key: dejar vacío o escribir cualquier valor de relleno

Puedes elegir el modo de inicio por navegador. Tras entrar en la interfaz visual de OpenClaw, deberías ver abajo que el modelo local se cargó correctamente.

Si la interfaz tiene un interruptor de modo de pensamiento, conviene desactivarlo al principio. En escenarios de computer-use Agent como Holo 3.1, importan más la planificación de acciones y la ejecución en la interfaz; activar un proceso adicional de razonamiento puede ralentizar bastante la respuesta.

5. Instalar skills de automatización del navegador

Para que OpenClaw opere mejor el navegador, instala dos skills comunes:

1
2


openclaw skills install agent-browser-cli
openclaw skills install use-my-browser

Después de instalarlas, reinicia OpenClaw gateway:

1

openclaw gateway

También puedes escribir esto en el cuadro de conversación de OpenClaw:

1

/new

Así abre una nueva sesión y recarga capacidades.

6. Probar una tarea simple

Empieza con una tarea de bajo riesgo:

1

Abre el navegador, busca la página oficial del modelo Holo 3.1 y resume los tamaños de modelo y métodos de despliegue que soporta.

Lo importante no es si la respuesta queda elegante, sino observar:

Si puede abrir correctamente el navegador.
Si puede reconocer el contenido de la página.
Si puede ejecutar de forma continua búsqueda, clics, lectura y resumen.
Si se atasca o repite acciones con frecuencia.
Si la velocidad de respuesta del modelo local es aceptable.

Si las acciones del navegador funcionan bien, prueba tareas más complejas, como organizar materiales, comparar páginas de modelos, generar resúmenes Markdown o analizar tablas web.

Recomendaciones De Uso

Las ventajas de un Agent local son bajo costo, límites de privacidad claros y ausencia de factura de tokens en la nube. Pero también tiene límites prácticos:

Los modelos pequeños sirven para tareas ligeras de navegador, no para razonamiento difícil.
El modelo visual es clave para reconocer interfaces; no descargues solo el modelo principal.
Un contexto demasiado grande consume mucha VRAM, así que conviene empezar con parámetros conservadores.
La automatización puede hacer clics erróneos. No empieces delegándole pagos, borrados, sistemas de producción u otras tareas de alto riesgo.
Un modelo local no es automáticamente seguro. Los permisos del navegador, archivos y ejecución de comandos siguen necesitando control.

Para organizar materiales web cotidianos, hacer automatización ligera y experimentar en local, Holo 3.1 + llama.cpp + OpenClaw es una combinación que vale la pena probar. Su valor principal no es el eslogan de “tokens gratuitos ilimitados”, sino mantener el entorno de ejecución del Agent, el modelo y el flujo de datos lo más local posible.

Preguntas frecuentes

¿Qué es este proyecto?

Es un proyecto de herramientas de IA cubierto en este artículo, con foco en qué hace, cómo se usa y cuándo merece la pena probarlo.

¿Para quién es?

Principalmente para desarrolladores y usuarios de herramientas de IA que quieren conectarlo a flujos reales, no solo leer el README.

¿Qué conviene revisar antes de usarlo?

Revisa instalación, herramientas compatibles, límites de datos y permisos, y si el proyecto sigue cambiando rápido.

¿Sirve para producción?

Conviene probarlo primero en un flujo pequeño. Verifica el comportamiento antes de usarlo en tareas sensibles o de producción.

Referencias

Página oficial de Holo 3.1: https://hcompany.ai/holo3.1
H Company Hugging Face: https://huggingface.co/Hcompany
Holo 3.1 35B-A3B GGUF: https://huggingface.co/Hcompany/Holo-3.1-35B-A3B-GGUF
llama.cpp: https://github.com/ggml-org/llama.cpp
Referencia de configuración OpenClaw + llama.cpp: https://openclawlaunch.com/guides/openclaw-llamacpp