Holo 3.1 es una familia de modelos locales para computer-use Agent publicada por H Company. Está orientada a modelos visión-lenguaje capaces de operar un computador. Según la model card oficial, Holo3.1 soporta entornos web, de escritorio y móviles, ofrece tamaños como 0.8B, 4B, 9B y 35B-A3B, y tiene versiones cuantizadas adecuadas para ejecución local.
Es una opción útil para usuarios que quieren ejecutar un AI Agent en su propio equipo: sin API en la nube, sin cobro por token y con más control sobre automatización del navegador, acciones de escritorio y flujos de archivos locales.
Este es un flujo directo de despliegue local: usar llama.cpp para iniciar un servicio OpenAI-compatible con Holo 3.1, y luego apuntar OpenClaw a la dirección local.
Requisitos
Conviene preparar:
- Un computador Windows, macOS o Linux.
- Una GPU dedicada con suficiente VRAM, o un Apple Silicon Mac.
llama-serverdellama.cpp.- El archivo GGUF del modelo principal de Holo 3.1 y el archivo visual
mmproj. - OpenClaw.
El tamaño del modelo puede elegirse según el hardware:
| Hardware | Modelo recomendado |
|---|---|
| RTX 4090 / RTX 3090 24GB | 35B-A3B Q4_K_M |
| RTX 5070 Ti / RTX 4060 Ti 16GB | 9B |
| Apple Silicon | 9B GGUF |
| 12GB VRAM | 4B |
| 8GB VRAM | 0.8B |
Si solo quieres probar automatización del navegador y tareas simples de escritorio, 9B será más fácil de ejecutar. 35B-A3B encaja mejor en equipos con 24GB de VRAM o más, pero también consume más contexto, VRAM y tiempo de carga.
1. Descargar llama.cpp
Puedes descargar una versión precompilada desde las releases de llama.cpp, o compilarlo por tu cuenta. En Windows, descarga y descomprime el paquete, y confirma que el directorio contiene:
|
|
Luego crea una carpeta bajo el directorio de llama.cpp:
|
|
Después coloca ahí el modelo principal de Holo 3.1 y el archivo mmproj.
2. Descargar el modelo Holo 3.1
La organización oficial de Holo 3.1 en Hugging Face es Hcompany. Si usas llama.cpp, necesitas elegir formato GGUF.
Tomando 35B-A3B como ejemplo, debes descargar:
- El modelo principal, por ejemplo un GGUF cuantizado
Q4_K_M. - El modelo de proyección visual correspondiente, por ejemplo
mmproj.f16.gguf.
Después de colocar los archivos, la estructura puede quedar así:
|
|
Puedes personalizar los nombres de archivo, pero las rutas del script de inicio deben modificarse para coincidir.
3. Iniciar el servicio local de Holo 3.1
El siguiente es un ejemplo de script batch para Windows. Guárdalo como start-holo31.bat y colócalo en el mismo directorio que llama-server.exe.
|
|
Ejecuta el script y elige el perfil que corresponda a tu VRAM. Si arranca correctamente, llama-server expondrá una API local OpenAI-compatible:
|
|
Si el arranque falla, revisa primero tres cosas:
- Si los nombres de archivo del modelo coinciden con el script.
- Si el archivo
mmprojexiste. - Si la VRAM alcanza para el modelo y la longitud de contexto elegidos.
4. Instalar OpenClaw
En Windows, abre PowerShell como administrador y ejecuta:
|
|
En macOS / Linux, ejecuta:
|
|
Después de instalar, entra en la configuración de OpenClaw y configura el proveedor de modelo como servicio local OpenAI-compatible:
|
|
Puedes elegir el modo de inicio por navegador. Tras entrar en la interfaz visual de OpenClaw, deberías ver abajo que el modelo local se cargó correctamente.
Si la interfaz tiene un interruptor de modo de pensamiento, conviene desactivarlo al principio. En escenarios de computer-use Agent como Holo 3.1, importan más la planificación de acciones y la ejecución en la interfaz; activar un proceso adicional de razonamiento puede ralentizar bastante la respuesta.
5. Instalar skills de automatización del navegador
Para que OpenClaw opere mejor el navegador, instala dos skills comunes:
|
|
Después de instalarlas, reinicia OpenClaw gateway:
|
|
También puedes escribir esto en el cuadro de conversación de OpenClaw:
|
|
Así abre una nueva sesión y recarga capacidades.
6. Probar una tarea simple
Empieza con una tarea de bajo riesgo:
|
|
Lo importante no es si la respuesta queda elegante, sino observar:
- Si puede abrir correctamente el navegador.
- Si puede reconocer el contenido de la página.
- Si puede ejecutar de forma continua búsqueda, clics, lectura y resumen.
- Si se atasca o repite acciones con frecuencia.
- Si la velocidad de respuesta del modelo local es aceptable.
Si las acciones del navegador funcionan bien, prueba tareas más complejas, como organizar materiales, comparar páginas de modelos, generar resúmenes Markdown o analizar tablas web.
Recomendaciones De Uso
Las ventajas de un Agent local son bajo costo, límites de privacidad claros y ausencia de factura de tokens en la nube. Pero también tiene límites prácticos:
- Los modelos pequeños sirven para tareas ligeras de navegador, no para razonamiento difícil.
- El modelo visual es clave para reconocer interfaces; no descargues solo el modelo principal.
- Un contexto demasiado grande consume mucha VRAM, así que conviene empezar con parámetros conservadores.
- La automatización puede hacer clics erróneos. No empieces delegándole pagos, borrados, sistemas de producción u otras tareas de alto riesgo.
- Un modelo local no es automáticamente seguro. Los permisos del navegador, archivos y ejecución de comandos siguen necesitando control.
Para organizar materiales web cotidianos, hacer automatización ligera y experimentar en local, Holo 3.1 + llama.cpp + OpenClaw es una combinación que vale la pena probar. Su valor principal no es el eslogan de “tokens gratuitos ilimitados”, sino mantener el entorno de ejecución del Agent, el modelo y el flujo de datos lo más local posible.
Referencias
- Página oficial de Holo 3.1: https://hcompany.ai/holo3.1
- H Company Hugging Face: https://huggingface.co/Hcompany
- Holo 3.1 35B-A3B GGUF: https://huggingface.co/Hcompany/Holo-3.1-35B-A3B-GGUF
- llama.cpp: https://github.com/ggml-org/llama.cpp
- Referencia de configuración OpenClaw + llama.cpp: https://openclawlaunch.com/guides/openclaw-llamacpp