Ollama se conecta a Codex App: cómo los LLM locales se convierten en agentes de programación con IA

Análisis del soporte de Ollama Launch para Codex App: con ollama launch codex-app, Codex App puede conectarse a modelos locales o en la nube, llevando los LLM locales del chat al flujo de trabajo de agentes de programación con IA.

Ollama ha acercado aún más los LLM locales a las herramientas de programación con IA: con ollama launch codex-app, los usuarios pueden conectar Codex App a modelos locales o en la nube gestionados por Ollama.

Esto no significa solo “cambiar el backend del modelo”. Se parece más a mover los LLM locales desde una ventana de chat hacia el flujo real de desarrollo. El modelo ya no solo responde preguntas; puede entrar en un proyecto de código, entender la estructura de archivos, ayudar a modificar código, ejecutar tareas y convertirse en parte de un agente de programación con IA.

Primero, una aclaración: esto no hace gratuitas todas las funciones de OpenAI para siempre

Muchas explicaciones en línea resumen esto como “Codex ahora es gratis”. Esa frase puede llevar a confusión.

Una lectura más precisa es:

  • Codex App es la herramienta de programación con IA de OpenAI;
  • Ollama Launch puede ayudar a Codex App a usar modelos de Ollama;
  • El modelo puede ser local o un modelo cloud de Ollama;
  • Si usas un modelo local, el coste de inferencia pasa a ser principalmente tu hardware, electricidad y tiempo, no facturación por API token;
  • Codex App, los beneficios de la cuenta OpenAI, la disponibilidad de modelos y las limitaciones oficiales siguen dependiendo de las reglas actuales de OpenAI y Ollama.

Así que no significa “todas las capacidades de Codex son gratuitas para siempre”. Significa que ahora hay una ruta local para que los agentes de programación con IA no dependan por completo de OpenAI API, Claude API o Gemini API.

Qué hace ollama launch codex-app

En la documentación oficial de Ollama, el comando de integración con Codex App es sencillo:

1
ollama launch codex-app

Para elegir un modelo:

1
ollama launch codex-app --model gpt-oss:120b

También puedes generar la configuración sin lanzar la app inmediatamente:

1
ollama launch codex-app --config

Para restaurar tu configuración normal de Codex:

1
ollama launch codex-app --restore

Su valor está en reducir la configuración manual. Antes, conectar una herramienta de programación con IA a un modelo local solía implicar editar variables de entorno, endpoints compatibles con OpenAI, config.toml, nombres de modelos y profiles. Ollama Launch empaqueta esos pasos en un flujo más directo.

Por qué importa conectar modelos locales a agentes

El uso tradicional de los LLM locales era el chat:

  • Escribir un texto breve;
  • Responder una pregunta;
  • Explicar un fragmento de código;
  • Hacer autocompletado simple;
  • Resumir un documento.

Todo eso es útil, pero sigue siendo una herramienta de preguntas y respuestas.

Un agente de programación con IA es distinto porque trabaja sobre un proyecto real. Tiene que leer directorios, inspeccionar archivos, entender errores, modificar código, ejecutar comandos, revisar resultados e iterar. Es decir, no solo produce respuestas; participa en la ejecución de tareas.

Cuando un modelo local se conecta a herramientas como Codex App, Claude Code, OpenCode, Aider u OpenHands, el papel de la IA local cambia:

  • Puede escanear la estructura del proyecto;
  • Puede localizar bugs;
  • Puede modificar archivos;
  • Puede generar páginas nuevas o pequeños juegos;
  • Puede explicar y refactorizar código;
  • Puede ejecutar, verificar y corregir dentro del ciclo de desarrollo.

Este es el paso clave para que los LLM locales pasen de “pueden chatear” a “pueden trabajar”.

Ventajas de los agentes locales

1. Coste más controlable

Los proyectos grandes pueden consumir muchos tokens. Un escaneo completo del proyecto, análisis con contexto largo y varias rondas de corrección pueden acumular costes rápidamente en modelos cloud.

Los modelos locales también tienen coste, como GPU, RAM, electricidad y tiempo, pero no cobran directamente por token. Para mucha experimentación, proyectos personales y pruebas offline, la ruta local es más adecuada para iterar con calma.

2. Trabajo offline

Si el modelo, las herramientas y las dependencias ya están preparados en la máquina, un agente local puede seguir trabajando offline en muchos escenarios. Puede leer código local, analizar el proyecto, modificar archivos y generar páginas o scripts.

Por supuesto, las tareas que implican búsqueda web, descarga de dependencias o acceso a APIs online siguen necesitando red. Pero el análisis básico de código y la modificación de proyectos locales no dependen necesariamente de modelos cloud.

3. Límites de privacidad más claros

Muchos repositorios, documentos internos y proyectos experimentales no son adecuados para enviarse directamente a modelos cloud. Mantener el modelo en local reduce la probabilidad de que el contenido del código salga de la máquina.

Esto no significa que lo local sea automáticamente seguro. Un agente aún puede ejecutar comandos, editar archivos y acceder a rutas sensibles, así que permisos, sandbox y revisión de Git diff siguen siendo importantes. Pero en la capa de inferencia, lo local da más control al usuario.

Qué modelos probar

La documentación oficial de ollama launch recomienda ventanas de contexto grandes para herramientas de código, idealmente al menos 64K tokens. La razón es simple: las tareas de programación con IA suelen necesitar leer estructura del proyecto, varios archivos, logs de error, requisitos y cambios previos al mismo tiempo.

Puedes probar modelos locales como:

  • qwen3-coder: orientado a tareas de código;
  • gpt-oss:20b: adecuado para pruebas locales;
  • glm-4.7-flash: uno de los modelos de coding recomendados por Ollama;
  • Modelos cloud más grandes: si tu hardware local no alcanza, los modelos cloud de Ollama pueden ofrecer contexto más completo.

Para escenarios en chino, la familia Qwen sigue siendo una buena primera opción. Es madura en comprensión china, generación de código, razonamiento y soporte en el ecosistema local.

El requisito de hardware no es tan alto como parece

Mucha gente asume que un AI Agent exige una RTX 4090, 24GB de VRAM o incluso GPUs empresariales.

La realidad es más flexible. Modelos pequeños, modelos cuantizados, modelos MoE, cuantización de KV cache y CPU/GPU mixed offload permiten hacer bastante en máquinas con 6GB, 8GB o 12GB de VRAM.

Eso sí, las máquinas con poca VRAM no son ideales para la mejor experiencia:

  • La velocidad será menor;
  • El contexto no puede ser demasiado grande;
  • Escanear proyectos grandes será pesado;
  • La concurrencia múltiple no es realista;
  • La calidad del modelo sigue por detrás de modelos cloud de 100B+.

Pero para proyectos personales, arreglos de scripts, páginas frontend simples, juegos pequeños, explicación de código y experimentos offline, los modelos locales ya son utilizables.

También puedes usar llama.cpp con una API compatible con OpenAI

Además de Ollama, otra ruta común es usar llama.cpp y llama-server para ofrecer una API local compatible con OpenAI, y conectar la herramienta de programación con IA al puerto local.

Un comando típico de llama.cpp se ve así:

1
2
3
4
5
6
7
8
9
llama-server.exe ^
 -m "models\Qwen3.6-27B-UD-Q5_K_XL.gguf" ^
 -ngl 999 ^
 -c 16384 ^
 -n 2048 ^
 -fa on ^
 --jinja ^
 --host 127.0.0.1 ^
 --port 8080

Después, apunta el provider del modelo a:

1
2
3
4
[model_providers.llamacpp]
name = "llama.cpp"
base_url = "http://127.0.0.1:8080/v1/"
wire_api = "responses"

Esta ruta es más flexible, pero también más manual. La ventaja de Ollama Launch es la simplicidad; la ventaja de llama.cpp es tener más control sobre VRAM, contexto, cuantización y backend de inferencia.

Qué tener en cuenta al usar un AI Agent local

Local no significa sin riesgo. Si un agente puede modificar archivos, ejecutar comandos y crear proyectos, también puede borrar archivos por error, cambiar el código equivocado o ejecutar operaciones que no debería.

Recomendaciones:

  1. Trabaja dentro de un repositorio Git para poder revisar diff y volver atrás.
  2. No des al agente permisos de sistema excesivos.
  3. Empieza en un proyecto de prueba, no directamente en código de producción.
  4. Revisa manualmente los cambios importantes.
  5. No expongas claves, cuentas ni configuraciones de producción al agente.
  6. Los modelos locales tienen límites; no delegues por completo decisiones de arquitectura complejas.

Trata al agente local como un asistente capaz de ejecutar tareas, no como un ingeniero totalmente fiable. La experiencia será más sana.

Mi interpretación

El valor de que Ollama se conecte a Codex App está en llevar modelos locales de verdad al flujo de programación con IA.

Antes, los modelos locales eran sobre todo un chat. Ahora empiezan a entrar en proyectos, leer código, modificar archivos y ejecutar tareas. Este cambio hará que muchos desarrolladores reconsideren el PC que ya tienen: quizá no hace falta la GPU más cara para construir un entorno de programación con IA barato, offline y controlable.

Los modelos cloud siguen siendo fuertes, sobre todo en razonamiento complejo, contexto grande, multimodalidad y estabilidad en tareas largas. Pero los modelos locales están cubriendo cada vez mejor la parte de “herramienta ejecutora”.

El futuro de la programación con IA probablemente no será puramente cloud ni puramente local, sino híbrido:

  • Tareas pequeñas, código local y proyectos privados para modelos locales;
  • Razonamiento difícil, contexto grande y tareas entre sistemas para modelos cloud;
  • Ollama, Codex App, Claude Code y OpenCode conectando ambos lados en un mismo flujo.

Ahí está lo interesante de los AI agents locales.

Referencias

记录并分享
Creado con Hugo
Tema Stack diseñado por Jimmy