DeepSeek on KnightLi Blog

DeepSeek-TUI: convertir DeepSeek V4 en un agente de programación en la terminal

Sat, 16 May 2026 22:41:41 +0800

DeepSeek-TUI es un proyecto open source que lleva DeepSeek V4 al flujo de desarrollo en terminal. No es una simple carcasa de chat. Se parece más a un “agente de programación de línea de comandos”, como Claude Code o Codex CLI: puede leer archivos, modificar código, ejecutar comandos, llamar herramientas y seguir avanzando tareas desde una TUI.

Si ya estás acostumbrado a alternar entre editor y terminal, el valor de este tipo de herramienta es directo: no tienes que copiar código una y otra vez en una ventana de chat web, ni describir manualmente toda la estructura del proyecto. Le das una tarea, puede leer el contexto del workspace actual, planificar pasos, aplicar cambios y devolverte el resultado para revisión.

Resuelve el problema de entrada para usar DeepSeek

Los modelos DeepSeek ya ofrecen buenas capacidades de razonamiento y código, pero para llevar esa capacidad a un flujo real de desarrollo hace falta una capa de ingeniería.

El chat web sirve para hacer preguntas, pero no para editar proyectos durante mucho tiempo. La API sirve para integraciones, pero un desarrollador común tendría que construir por su cuenta llamadas a herramientas, gestión de contexto, operaciones de archivos y control de permisos. DeepSeek-TUI intenta cubrir esa capa: envolver DeepSeek V4 como un Agent que puede trabajar dentro de la terminal.

Según la presentación del proyecto, sus capacidades principales incluyen:

Interfaz TUI en terminal;
Conversación y ejecución de tareas para DeepSeek V4;
Llamadas a herramientas y operaciones de archivos;
Soporte de contexto de 1M;
Modo Auto;
Subagentes;
Ejecución en sandbox;
Cola de tareas persistente.

El objetivo de combinar estas funciones no es que el modelo responda de forma más humana, sino que pueda entrar con más facilidad en el entorno de desarrollo.

Una TUI encaja mejor con tareas largas que una CLI textual

Muchas herramientas AI CLI empiezan con interacción de texto puro: escribes un prompt, esperas la salida, copias comandos o añades más contexto. Es simple, pero cuando la tarea se alarga, se vuelve confuso.

La ventaja de una TUI es que puede colocar conversaciones, archivos, resultados de ejecución y estado de tareas en una interfaz más estable. Para un Agent de programación, eso importa. Una tarea de código rara vez es una sola pregunta y respuesta. Suele incluir:

Entender la estructura del proyecto;
Encontrar archivos relevantes;
Modificar código;
Ejecutar tests o comandos;
Corregir según los errores;
Resumir los cambios.

Si la interfaz solo es una cadena de logs, al usuario le cuesta ver en qué punto está el Agent. Una TUI al menos ofrece un lugar mejor para observar y tomar el control.

El modo Auto conviene para tareas con límites claros

El modo Auto que menciona DeepSeek-TUI encaja con trabajos de límites claros. Por ejemplo, arreglar un bug pequeño, añadir un script, cambiar una configuración, ordenar documentos o implementar una función local.

Estas tareas tienen algo en común: el objetivo es claro, la forma de comprobarlo también, y el alcance del impacto es controlable. El Agent puede revisar archivos, editarlos, ejecutar comandos y luego entregar el resultado al usuario para confirmación.

Pero el modo Auto no debe significar permisos ilimitados. En proyectos reales, borrar archivos, hacer refactors masivos, migrar bases de datos o ejecutar despliegues debería requerir confirmación explícita. La eficiencia de los Agents de programación viene de la automatización, pero el riesgo también. Cuanto más pueda ejecutar comandos una herramienta, más necesita sandbox, límites de permisos y revisión humana.

Los subagentes importan porque dividen tareas

Los subagentes no son un concepto nuevo, pero son útiles en escenarios de código.

Una tarea algo compleja suele requerir varios tipos de trabajo a la vez: alguien lee el código, alguien cambia la implementación, alguien revisa tests y alguien ordena documentación. Los sistemas multi-agent tradicionales a menudo parecen llamativos porque no tienen herramientas reales ni un workspace real; solo discuten dentro de una conversación.

Si los subagentes se combinan con sistema de archivos, ejecución de comandos y cola de tareas, se parecen más a un mecanismo de descomposición de trabajo. Por ejemplo, un subagente analiza dependencias, otro modifica un módulo concreto y el agente principal integra el resultado. Así se reduce el problema de meter demasiada información no relacionada en un solo contexto.

Por supuesto, los subagentes también añaden costo: más tokens, estado más complejo y límites de responsabilidad más difíciles de seguir. Por eso encajan mejor con tareas de complejidad media o superior, no necesariamente con cada cambio pequeño.

El contexto de 1M no es magia, pero ayuda a leer proyectos

El contexto de 1M suena exagerado, pero en programación no es solo una cifra de marketing.

El contexto de un repositorio real está fragmentado: README, archivos de configuración, definiciones de tipos, tests, cadenas de llamadas, convenciones históricas y logs de errores pueden influir en un cambio. Un contexto más largo puede reducir el problema de editar tras mirar solo una parte local, y ayudar al modelo a conservar más restricciones del proyecto.

Aun así, más contexto no significa mejor juicio automáticamente. Las tareas de código siguen necesitando búsqueda, filtrado y verificación. Meter todo el proyecto en el contexto no siempre es mejor que leer con precisión los archivos relevantes. Un buen Agent de programación debería tratar el contexto largo como un buffer, no como un atajo que sustituye el criterio de ingeniería.

Para quién es más útil

DeepSeek-TUI encaja mejor con varios grupos:

Desarrolladores que quieren usar DeepSeek para tareas de código en la terminal;
Personas que no quieren construir por su cuenta frameworks de llamadas a herramientas y operaciones de archivos;
Usuarios que ya conocen Claude Code o Codex CLI y quieren probar una entrada basada en DeepSeek;
Quienes necesitan contexto de proyecto local, no solo preguntar por fragmentos de código en una web;
Desarrolladores que quieren llevar el flujo de AI Coding al entorno de línea de comandos.

Si solo preguntas de vez en cuando cómo escribir una función, el chat web basta. Si quieres que el modelo participe directamente en cambios del proyecto, un Agent de terminal tiene más sentido.

Riesgos a vigilar

Hay tres cosas especialmente importantes en este tipo de herramienta.

La primera son los permisos. Si una herramienta puede leer y escribir archivos o ejecutar comandos, hay que saber a qué puede acceder por defecto, si puede borrar archivos, si puede conectarse a la red y si los comandos peligrosos requieren confirmación.

La segunda es la reversibilidad. Antes de usarla, conviene mantener limpio el árbol de trabajo de Git, para que cada cambio del Agent pueda verse claramente con git diff. No conviene dejar que un Agent edite automáticamente un proyecto con muchos cambios sin commit.

La tercera es la verificación. Que el Agent escriba código no significa que la tarea esté terminada. Tests, builds, lint y review humana siguen siendo necesarios. Las herramientas de AI Coding pueden acelerar el avance, pero no sustituyen la confirmación final de ingeniería.

Conclusión

La importancia de DeepSeek-TUI no está en añadir otro cliente de chat, sino en poner DeepSeek V4 dentro de un entorno de terminal más cercano al trabajo real de desarrollo.

Para los desarrolladores, la capacidad del modelo es solo el primer paso. La experiencia real depende de si puede leer el proyecto, modificar archivos con seguridad, ejecutar comandos de verificación, mantener estado en tareas largas y permitir que el usuario tome el control en cualquier momento.

Si quieres usar DeepSeek para cambios diarios de código, lectura de proyectos y tareas de desarrollo automatizadas, DeepSeek-TUI merece atención. La dirección también está clara: las herramientas de AI Coding están pasando de “responder preguntas de código” a “participar en la ejecución de proyectos”.

Ejecutar DeepSeek 4 en local: el experimento ds4 de Antirez en Apple Silicon Mac

Mon, 11 May 2026 08:51:37 +0800

Antirez ha publicado un nuevo proyecto open source: ds4. No es un framework LLM de propósito general, sino un motor de inferencia local para DeepSeek V4 Flash, centrado en Apple Silicon y el backend Metal.

URL del proyecto: https://github.com/antirez/ds4

Qué es ds4

ds4 tiene un objetivo muy claro: ejecutar DeepSeek V4 Flash localmente en un Mac.

Actualmente ofrece tres formas de uso:

CLI interactiva.
HTTP server.
Un modo Agent experimental.

Por su posicionamiento, se parece más a un proyecto de inferencia profundamente optimizado para un modelo específico que a un reemplazo de herramientas generales como llama.cpp, Ollama o vLLM.

Por qué merece atención

Hay tres razones principales por las que este tipo de proyecto merece atención.

La primera es que su autor es Antirez, creador de Redis. Lleva mucho tiempo interesado en sistemas de bajo nivel, rendimiento y herramientas simples, y sus proyectos suelen tener un estilo bastante directo.

La segunda es que DeepSeek V4 Flash apunta a una inferencia eficiente. Si la experiencia local es lo bastante buena, puede resultar muy atractivo para usuarios de Mac.

La tercera es que ds4 apunta directamente a Apple Metal. En lugar de intentar soportar todas las plataformas primero y optimizar después, parece buscar profundidad en un escenario muy definido.

Para quién es

ds4 encaja mejor con usuarios que:

Usan un Apple Silicon Mac.
Quieren ejecutar DeepSeek V4 Flash en local.
Se interesan por el rendimiento de inferencia con Metal.
Están dispuestos a probar un proyecto en fase alpha.
Quieren estudiar motores de inferencia ligeros y detalles de ejecución de modelos.

Si tu objetivo es un despliegue estable, ejecución multiplataforma o una infraestructura compatible con OpenAI API, probablemente no sea la primera opción en esta etapa. Tiene más sentido como herramienta experimental y como proyecto técnico para observar.

Cómo usarlo

El flujo básico que muestra el README del proyecto es compilar primero y ejecutar después.

1
2
3

git clone https://github.com/antirez/ds4.git
cd ds4
make

Ejecución interactiva:

./ds4

Iniciar el HTTP server:

`1`	`./ds4 --server`

Modo Agent:

`1`	`./ds4 --agent`

Para los parámetros concretos y la preparación de los archivos del modelo, conviene seguir el README del repositorio, porque el proyecto todavía cambia con rapidez.

Riesgos actuales

ds4 todavía está en una etapa temprana, así que conviene ajustar expectativas antes de usarlo:

Las funciones pueden estar incompletas.
Los parámetros, formatos de modelo y comportamientos de línea de comandos pueden cambiar.
La compatibilidad gira principalmente alrededor de Apple Silicon y Metal.
El modo Agent es más experimental y no es adecuado para usarlo directamente en producción.
Si surge un problema, quizá tengas que leer el README, los issues o el código fuente por tu cuenta.

En otras palabras, ahora mismo se parece más a un experimento open source que vale la pena probar que a una herramienta de un clic para usuarios generales.

Diferencias frente a herramientas de inferencia generales

Las herramientas de inferencia generales suelen buscar compatibilidad amplia con formatos de modelo, plataformas, backends y APIs. ds4 toma un camino más estrecho: ejecutar DeepSeek V4 Flash en local con Metal.

Esa decisión tiene ventajas y costes.

La ventaja es que la implementación puede mantenerse enfocada, lo que facilita optimizar rendimiento y experiencia alrededor de un único objetivo. El coste es un alcance limitado: no está pensado para ejecutar todo tipo de modelos ni para sustituir una plataforma completa de despliegue.

Si ya usas llama.cpp u Ollama, ds4 puede servir como herramienta complementaria de pruebas, no como sustituto inmediato de tu flujo de trabajo actual.

Resumen

Lo interesante de ds4 no es que sea otra herramienta local para grandes modelos. Lo interesante es que reduce mucho su alcance: DeepSeek V4 Flash, Apple Silicon, Metal e inferencia local.

Si tienes un Mac adecuado y te apetece experimentar con un proyecto temprano, vale la pena seguir su rendimiento, su forma de soportar modelos y la evolución de sus capacidades de server/agent. Para entornos de producción, es mejor observar un poco más y evaluarlo cuando las interfaces y la forma de uso sean más estables.

Referencias

Proyecto en GitHub: https://github.com/antirez/ds4

Por qué DeepSeek se volvió la clave para ahorrar en esta ola de herramientas de AI Coding

Mon, 11 May 2026 04:59:00 +0800

En esta ola de herramientas de AI Coding, la competencia parece girar en torno a capacidad del modelo, ecosistema de plugins y automatización con agentes. Pero cuando se usan de verdad, el primer muro que aparece es el coste.

Claude Code, Codex, OpenClaw y Superpowers son herramientas muy útiles, pero comparten una característica: cuando una tarea se vuelve compleja, consumen muchísimos tokens. Tienen que leer el proyecto, crear planes, llamar herramientas, resumir contexto, revisar resultados una y otra vez, e incluso lanzar subtareas. Cuanto más inteligente es el modelo y más automatizado es el workflow, más fácil es que la factura crezca en silencio.

Por eso DeepSeek se volvió importante en esta ronda. No solo porque pueda escribir código, sino porque su contexto largo y su coste de caché atacan justo la parte más cara de las herramientas de AI Coding.

Por qué las herramientas agent consumen tantos tokens

Los asistentes de programación tradicionales en modo chat suelen funcionar con preguntas y respuestas. Preguntas cómo escribir una función y el modelo responde con un fragmento de código. Ese modo también consume tokens, pero sigue siendo relativamente controlable.

Las herramientas agent son distintas. No solo responden preguntas, sino que entran al proyecto como un ingeniero temporal:

escanean directorios y archivos clave;
entienden el requisito y la arquitectura existente;
crean un plan;
modifican archivos;
ejecutan comandos o tests;
siguen corrigiendo según los errores;
resumen al final qué cambió.

Durante este proceso, el modelo lee repetidamente el mismo contexto. Descripciones del proyecto, fragmentos de código, resultados de herramientas, historial de conversación, planes y logs de error vuelven una y otra vez al contexto. Cuando la tarea es un poco compleja, cientos de miles de tokens desaparecen rápido.

Si además instalas plugins más agresivos, el coste se nota todavía más. Algunas extensiones de OpenCode o Claude Code pueden organizar por defecto todo un equipo de agentes. Tú solo querías cambiar una pequeña función, pero la herramienta puede iniciar planificación, revisión, ejecución y retrospectiva. La tarea parece más “inteligente”, pero los tokens suben sin parar.

La ventaja de Superpowers es activarse bajo demanda

Una ventaja de herramientas como Superpowers es que no fuerzan un flujo agent completo en todas las tareas.

Normalmente puedes seguir usando Claude Code, OpenCode o Codex de la forma habitual. Solo cuando llamas explícitamente a una skill, como brainstorming, planificación, ejecución de plan o retrospectiva, entra en un flujo de automatización más pesado.

Esto importa mucho para el coste.

AI Coding no debería usar artillería pesada para todo. Cambiar una línea de configuración, revisar un error o escribir un script pequeño se puede resolver con una conversación normal. Solo refactors complejos, cambios en varios archivos, procesamiento de documentos largos y validación por varias rondas justifican un flujo agent completo.

Cuanto más poderosa es la herramienta, más importante es controlar cuándo se activa. Si no, más automatización solo significa más desperdicio.

La ventaja clave de DeepSeek es una caché barata

Una razón importante por la que DeepSeek encaja con estas herramientas agent es su bajo coste cuando hay cache hit.

Las tareas de AI Coding tienen muchos prefijos repetidos: contexto del proyecto, prompts de sistema, instrucciones de herramientas, contenido de archivos y turnos anteriores aparecen muchas veces en solicitudes posteriores. Si el servicio del modelo soporta prompt cache, esas partes repetidas cuestan mucho menos después de un acierto de caché.

En muchos modelos, un cache hit solo es algo más barato que un miss, quizá alrededor de un tercio del precio original. La ventaja de DeepSeek es que la diferencia después de un hit puede ser mucho mayor. En workflows agent con contexto largo, muchas rondas y lectura repetida del proyecto, esa diferencia se ve directamente en la factura.

Es decir, DeepSeek no tiene por qué dar la mejor respuesta en cada turno. Pero en escenarios con tareas largas, muchas rondas y lectura repetida de contexto, su estructura de costes encaja especialmente bien con AI Coding.

El contexto largo hace más útil a Claude Code

Al conectar Claude Code o herramientas similares a DeepSeek V4, otra ventaja clara es el contexto largo.

Lo que más temen las herramientas de AI Coding es quedarse sin contexto. Cuando el contexto no alcanza, hay que comprimir con frecuencia. Cuando se comprime mucho, se pueden perder detalles ya leídos. El modelo empieza a olvidar la estructura del proyecto, las restricciones o por qué se modificó cierto archivo, y la calidad baja después.

La capacidad de contexto largo de DeepSeek V4 lo hace más adecuado para repositorios de código, procesamiento por lotes de documentos, traducción de subtítulos y limpieza de artículos de sitio. Especialmente al conectarlo a Claude Code u OpenClaw, una buena configuración puede retrasar la compresión de contexto y conservar más detalles del proyecto.

Por eso algunas tareas se sienten “resistentes” con DeepSeek: no necesariamente impresiona en cada paso, pero aguanta llamadas largas, baratas y repetidas.

Cómo repartir trabajo entre V4 Pro y V4 Flash

DeepSeek V4 Pro y V4 Flash no deberían usarse sin distinción.

Para tareas simples, DeepSeek V4 Flash suele ser mejor. Es rápido, barato y normalmente suficiente para:

traducir subtítulos;
ordenar documentos;
generar scripts comunes;
modificar pequeñas zonas de código;
ejecutar tareas ligeras en OpenClaw;
procesar contenido simple de un sitio.

Para tareas complejas, conviene considerar DeepSeek V4 Pro:

refactors de gran escala;
comprensión de código con varios módulos;
razonamiento complejo;
tareas agent de cadena larga;
cambios de código de alto riesgo;
tareas de ingeniería que requieren planificación más fuerte.

Mucha gente quiere conectar siempre el modelo más fuerte, pero eso suele ser poco rentable. La forma práctica de usar herramientas de AI Coding es dividir las tareas por capas: que el modelo barato procese mucho trabajo rutinario, y reservar el modelo caro para los puntos críticos.

MiniMax, Doubao y DeepSeek ocupan posiciones distintas

Entre modelos y planes chinos, MiniMax, Doubao, Kimi y DeepSeek tienen posiciones diferentes.

MiniMax destaca por dar mucho volumen, bajo precio y funciones amplias. Quizá no sea el modelo de programación más inteligente, pero sirve muy bien para traducción, limpieza ligera y procesamiento por lotes. Procesar subtítulos, cambiar formatos o hacer revisión simple son buenos casos para planes tipo MiniMax.

Doubao destaca por un ecosistema de herramientas más completo: imagen, video, búsqueda, TTS, posible STT y embedding pueden conectarse dentro de la misma caja. Se parece más a una caja de herramientas general.

DeepSeek tiene una posición más clara: texto, código, contexto largo y caché barata. No tiene un ecosistema completo de generación de imagen, voz y video, y sus debilidades son evidentes. Pero en AI Coding y workflows agent de texto largo, sus fortalezas son suficientemente fuertes.

No se trata de que uno sustituya a otro. Se trata de dividir la tarea y usar cada herramienta donde encaja.

Ahorrar no es solo elegir un modelo barato

Ahorrar en AI Coding no significa cambiar todas las solicitudes al modelo más barato.

Las formas realmente efectivas son:

No iniciar un agent pesado para tareas simples.
No usar Pro cuando Flash basta.
Aprovechar la caché en tareas largas.
Mantener estable el contexto repetido para no romper cache hits con cambios inútiles.
Dejar que un modelo barato haga borradores y batch processing, y usar un modelo fuerte para revisiones clave.
Decirle claramente al agent que no repita hechos ni resuma el mismo punto una y otra vez.

El último punto es especialmente importante. Las herramientas de AI tienden a ser verbosas, y la verbosidad no es solo un problema de lectura; también es un problema de coste. Incluir en el prompt “describe cada hecho una sola vez y expresa cada opinión una sola vez” puede mejorar tanto la calidad del texto como el consumo de tokens.

Para qué workflows de AI Coding encaja DeepSeek

DeepSeek encaja mejor en:

lectura de repositorios largos;
cambios ligeros en varios archivos;
limpieza de documentos por lotes;
traducción masiva de subtítulos;
limpieza de artículos Hugo;
ejecución de planes agent;
automatización barata con mucho contexto repetido.

No sirve para todo. Si necesitas gusto frontend especialmente fuerte, juicio de producto complejo o creación multimodal, quizá necesites combinarlo con Claude, GPT, Gemini, Doubao u otras herramientas.

Pero cuando la tarea es de texto largo, contexto largo, llamadas repetidas y sensibilidad al coste, DeepSeek se vuelve fácilmente la primera opción.

Resumen

En esta ola de herramientas de AI Coding, el valor de DeepSeek no es solo que un modelo chino pueda escribir código. Su valor real es resolver el dolor más práctico de las herramientas agent: las tareas largas cuestan demasiado.

Herramientas como Claude Code, OpenClaw y Superpowers automatizan cada vez más el proceso de desarrollo, pero detrás de esa automatización hay lecturas masivas de contexto y llamadas en múltiples rondas. Quien consiga bajar ese coste puede convertir AI Coding de algo “agradable de vez en cuando” en algo “usable todos los días”.

El contexto largo de DeepSeek, su bajo coste de caché y el uso por capas de V4 Flash / V4 Pro lo colocan justo en esa posición.

La verdadera clave de ahorro en esta ronda no es dejar de usar buenos modelos. Es combinar bien modelos buenos, modelos baratos, caché y workflows agent. Cuando entiendes esa factura, las herramientas de AI Coding se convierten en productividad real, no en un juguete bonito pero caro.

DeepSeek-TUI: ejecuta un agente de programación DeepSeek en la terminal

Fri, 08 May 2026 13:41:15 +0800

DeepSeek-TUI es un agente de programación con IA que corre en la terminal. Está diseñado alrededor de modelos DeepSeek V4 y se inicia con el comando deepseek. Dentro de una TUI puede leer y editar archivos, ejecutar comandos shell, buscar en la web, gestionar git, conectar servidores MCP y coordinar subagentes.

Es más un espacio de trabajo de terminal que un chat CLI simple. Combina lectura de código, edición de archivos, comandos, diagnósticos, recuperación de sesión y rollback del workspace.

El repositorio está escrito principalmente en Rust y usa licencia MIT.

Para quién es

Sirve para desarrolladores que prefieren trabajar en terminal y quieren usar modelos DeepSeek en tareas locales reales.

Cambios de código y análisis de proyectos.
Trabajo sin abrir un IDE completo.
Lectura y modificación de un workspace local.
Modos Plan, Agent y YOLO.
Guardar y reanudar sesiones largas.
Revertir cambios del workspace.
Integrar MCP, diagnósticos LSP, HTTP/SSE runtime API y skills.

Para preguntas simples, un cliente web o CLI ligero basta. DeepSeek-TUI tiene más sentido cuando el modelo debe formar parte del flujo de desarrollo local.

Instalación

Con npm:

1
2
3

npm install -g deepseek-tui
deepseek --version
deepseek --model auto

El paquete npm es un instalador/wrapper que descarga binarios Rust precompilados. Requiere Node.js >=18.

Con Cargo:

1
2

cargo install deepseek-tui-cli --locked
cargo install deepseek-tui --locked

Con Homebrew:

1
2

brew tap Hmbown/deepseek-tui
brew install deepseek-tui

También hay binarios en GitHub Releases para Linux x64/ARM64, macOS x64/ARM64 y Windows x64.

Docker:

docker run --rm -it \
  -e DEEPSEEK_API_KEY \
  -v "$PWD:/workspace" \
  ghcr.io/hmbown/deepseek-tui:latest

Configurar la API Key

En el primer inicio, DeepSeek-TUI pide la API key y la guarda en:

`1`	`~/.deepseek/config.toml`

También puedes configurarla así:

1
2

deepseek auth set --provider deepseek
deepseek auth status

O usar variable de entorno:

1
2

export DEEPSEEK_API_KEY="YOUR_KEY"
deepseek

Comprueba la instalación:

`1`	`deepseek doctor`

Para borrar la clave guardada:

`1`	`deepseek auth clear --provider deepseek`

Auto mode

`1`	`deepseek --model auto`

En la TUI:

`1`	`/model auto`

Auto mode decide dos cosas:

Modelo: deepseek-v4-flash o deepseek-v4-pro
Thinking: off, high o max

Antes del turno real, hace una llamada pequeña de enrutamiento para analizar la petición y el contexto. Las tareas simples pueden usar Flash con thinking desactivado; tareas complejas pueden subir a Pro o mayor thinking.

auto es local a DeepSeek-TUI. La API upstream recibe el modelo concreto elegido.

Modos

Modo	Uso
Plan	Exploración y planificación de solo lectura
Agent	Modo interactivo con aprobaciones
YOLO	Autoaprobación en workspaces confiables

YOLO es rápido pero riesgoso. Úsalo solo en ramas temporales o directorios de prueba.

Herramientas

Incluye lectura/escritura de archivos, apply patch, shell, git, web search/browse, subagentes, MCP, diagnósticos LSP, guardado/reanudación de sesiones, rollback del workspace, cola de tareas durable, HTTP/SSE runtime API y sistema de skills.

Los diagnósticos LSP ayudan a devolver errores de rust-analyzer, pyright, typescript-language-server, gopls o clangd al modelo después de editar. El rollback usa snapshots side-git y comandos como /restore y revert_turn, pero los commits normales de git siguen siendo importantes.

Comandos comunes

deepseek
deepseek "explain this function"
deepseek --model deepseek-v4-flash "summarize"
deepseek --model auto "fix this bug"
deepseek --yolo
deepseek auth set --provider deepseek
deepseek doctor
deepseek doctor --json
deepseek models
deepseek sessions
deepseek resume --last
deepseek resume <SESSION_ID>
deepseek fork <SESSION_ID>
deepseek serve --http
deepseek serve --acp
deepseek pr <N>
deepseek mcp list
deepseek mcp validate
deepseek update

Zed y ACP

{
  "agent_servers": {
    "DeepSeek": {
      "type": "custom",
      "command": "deepseek",
      "args": ["serve", "--acp"],
      "env": {}
    }
  }
}

El README indica que ACP permite nuevas sesiones y respuestas a prompts, pero la edición con herramientas y la repetición de checkpoints aún no están expuestas.

Configuración y proveedores

Configuración de usuario:

`1`	`~/.deepseek/config.toml`

Overlay de proyecto:

`1`	`<workspace>/.deepseek/config.toml`

Campos como api_key, base_url, provider y mcp_config_path no se permiten en el overlay del proyecto.

Endpoint compatible con OpenAI:

1
2

deepseek auth set --provider openai --api-key "YOUR_OPENAI_COMPATIBLE_API_KEY"
OPENAI_BASE_URL="https://openai-compatible.example/v4" deepseek --provider openai --model glm-5

Ollama:

1
2

ollama pull deepseek-coder:1.3b
deepseek --provider ollama --model deepseek-coder:1.3b

Resumen

DeepSeek-TUI reúne DeepSeek V4, TUI, llamadas a herramientas, diagnósticos LSP, recuperación de sesiones, rollback, MCP y skills en un flujo Rust de terminal. No es el cliente más ligero, pero su valor está en pasar del chat al desarrollo local ejecutable.

Referencias

Despliegue privado local de DeepSeek V4: elegir entre chips nacionales y clusters de GPU de consumo

Fri, 08 May 2026 09:39:35 +0800

Tras el lanzamiento de DeepSeek V4, muchas empresas empezaron a hacerse una pregunta: ¿se puede evitar una API externa y desplegar el modelo en un centro de datos propio, una nube privada o un cluster dedicado?

La necesidad es muy real. Finanzas, sanidad, gobierno, fabricacion, legal y equipos de I+D a menudo no pueden enviar documentos internos, codigo, contratos, tickets o datos de clientes directamente a modelos de nube publica. En estos escenarios, el atractivo de DeepSeek V4 no esta solo en la capacidad del modelo, sino en que ofrece a las empresas una opcion mas cercana a una infraestructura LLM controlable.

Sin embargo, desplegar DeepSeek V4 localmente no es tan simple como descargar el modelo y buscar unas cuantas GPU. Especialmente en modelos MoE muy grandes como Pro, el numero total de parametros, parametros activos, longitud de contexto, KV cache, concurrencia y framework de inferencia determinan directamente el coste de hardware. Lo que una empresa debe hacer no es perseguir a ciegas la version completa, sino confirmar primero que forma de despliegue necesita el negocio.

Aclarar primero el objetivo del despliegue

El despliegue privado local en empresas suele tener tres objetivos:

Que los datos no salgan del dominio: documentos internos, codigo, materiales de clientes, logs y bases de conocimiento no abandonan el entorno empresarial.
Estabilidad y control: servicios de modelo, permisos, auditoria, logs y ritmo de actualizaciones quedan bajo control de la empresa.
Reducir coste a largo plazo: con llamadas frecuentes, la inferencia local puede ser mas controlable que comprar API externas durante mucho tiempo.

Si solo unos pocos empleados preguntan de vez en cuando, el despliegue local no siempre compensa. La privatizacion encaja mejor con escenarios frecuentes, estables, sensibles en datos y con flujos claros, por ejemplo:

Preguntas sobre una base de conocimiento interna.
Revision de codigo y asistentes de desarrollo.
Resumen de tickets de atencion al cliente.
Analisis de contratos, historias clinicas e informes.
Asistentes para consultas de bases de datos.
Automatizacion de flujos con Agent.

Estos escenarios comparten rasgos: datos sensibles, llamadas estables y posibilidad de incorporarse a la gobernanza empresarial mediante permisos y logs.

No perseguir Pro completo desde el primer dia

Las versiones comunes de DeepSeek V4 incluyen Pro y Flash. Segun materiales publicos, Pro se orienta a razonamiento mas fuerte y tareas Agent complejas, mientras Flash enfatiza coste y velocidad de respuesta. Al elegir, una empresa no deberia asumir que todo el negocio necesita Pro.

Puedes dividir por complejidad de tarea:

Preguntas simples, resumen, clasificacion y generacion de etiquetas: priorizar Flash o modelos mas pequenos.
RAG para bases de conocimiento internas: Flash cubre muchos escenarios; RAG, permisos y calidad de recuperacion importan mas.
Code Agents, razonamiento complejo y analisis de contexto largo: entonces evaluar Pro.
Tareas de alto valor y baja frecuencia: se puede usar Pro, pero no necesariamente con alta concurrencia.
Asistentes de oficina comunes: no hace falta ocupar durante mucho tiempo los recursos de inferencia mas caros.

La ventaja de los modelos MoE es que cada inferencia solo activa una parte de los parametros, pero eso no significa que la presion de hardware sea pequena. Almacenamiento de pesos, paralelismo de expertos, comunicacion de red, cache de contexto y planificacion concurrente siguen siendo pesados. Especialmente con contexto de nivel 1M token, lo que consume recursos no suele ser una respuesta aislada, sino el contexto largo, la concurrencia multiusuario y las sesiones persistentes.

Ruta de chips nacionales: adecuada para nube privada empresarial

Si una empresa ya tiene un pool de computo nacional, o requisitos de Xinchuang, cumplimiento o control de cadena de suministro, puede evaluar primero chips nacionales como Ascend y Cambricon.

Las ventajas de esta ruta son:

Encaja mejor con requisitos de localizacion y control de cadena de suministro.
Es adecuada para centros de datos empresariales, nubes dedicadas y proyectos de gobierno/empresa.
Facilita unificar permisos, auditoria, aislamiento de recursos y operaciones.
Es mas amable para servicios estables a largo plazo.

Pero la ruta de chips nacionales tambien requiere mirar tres problemas reales.

Primero, adaptacion del framework. Que el modelo pueda ejecutarse no depende solo de la potencia del chip, sino de si el framework de inferencia, operadores, bibliotecas de comunicacion, formatos de cuantizacion, paralelismo de expertos MoE y optimizacion de contexto largo estan maduros.

Segundo, experiencia de ingenieria. La empresa necesita mas que “arranco correctamente”; necesita servicio estable: multiinquilino, limitacion de tasa, monitorizacion, recuperacion ante fallos, despliegues grises, auditoria de logs y aislamiento de permisos.

Tercero, diferencias de ecosistema. El mismo modelo no tendra exactamente el mismo rendimiento, precision, soporte de cuantizacion y herramientas de despliegue en NVIDIA, Ascend, Cambricon u otras plataformas. Antes de producción hay que hacer pruebas de carga reales, no mirar solo la potencia nominal.

Por tanto, los chips nacionales encajan mejor con empresas de presupuesto claro, requisitos altos de cumplimiento y voluntad de invertir en ingenieria de plataforma. No es la ruta mas facil, pero puede ser la que mejor encaje con la gobernanza a largo plazo.

Clusters de GPU de consumo: adecuados para pilotos y equipos pequenos

Si el objetivo es validar primero el valor de negocio, un cluster de GPU de consumo es mas facil para empezar. GPU como RTX 4090, RTX 5090, RTX 3090 y RTX 3060 12GB tienen mas herramientas comunitarias, modelos cuantizados y referencias de inferencia local, por lo que el coste de prueba y error es menor.

La ruta de GPU de consumo encaja con:

Pilotos internos de equipos de I+D.
Preguntas sobre bases de conocimiento en pymes.
Asistentes de codigo de baja concurrencia.
Procesamiento offline de documentos.
Herramientas internas sin requisitos estrictos de SLA.

Pero tambien tiene limites claros:

La VRAM es pequena y cuesta alojar directamente un modelo grande completo.
La comunicacion multi-GPU es debil, y la comunicacion entre maquinas es mas complicada.
La estabilidad a plena carga durante largo tiempo es peor que en soluciones de servidor.
Chasis, alimentacion, refrigeracion, drivers y operaciones se convierten en costes ocultos.
No conviene prometer alta disponibilidad empresarial desde el principio.

Un enfoque mas realista es ejecutar primero Flash, versiones destiladas, versiones cuantizadas o modelos pequenos en GPU de consumo, hacer funcionar el flujo de negocio y decidir despues si migrar a GPU de servidor o a una plataforma de computo nacional tras validar volumen de llamadas, efecto y gobernanza de datos.

Posible arquitectura de despliegue

Una arquitectura privada empresarial relativamente estable puede dividirse en seis capas:

Capa de modelo: DeepSeek V4 Pro, V4 Flash o modelos destilados mas pequenos segun la tarea.
Capa de inferencia: SGLang, vLLM, llama.cpp, stacks de inferencia NPU de fabricantes o servicios propios.
Capa de gateway: autenticacion unificada, limitacion de tasa, auditoria, enrutamiento de modelos y logs de llamadas.
Capa de conocimiento: base vectorial, busqueda de texto completo, analisis de documentos, filtrado por permisos y RAG.
Capa de aplicacion: atencion al cliente, asistentes de codigo, analisis de documentos, preguntas sobre informes y flujos Agent.
Capa de operaciones: monitorizacion, alertas, estadisticas de coste, despliegues grises, rollback y auditoria de seguridad.

Las capas que mas se subestiman son el gateway y la capa de conocimiento. Muchos proyectos fallan no porque el modelo sea inutilizable, sino porque permisos, recuperacion, logs, gestion de contexto, plantillas de prompt y flujos de negocio no estan bien hechos.

Al desplegar LLM dentro de una empresa, el modelo debe tratarse como una capacidad de infraestructura, no como una pagina de chat aislada. El valor real aparece cuando el modelo entra en los flujos y puede procesar de forma estable los datos y tareas propios de la empresa.

Criterios para elegir hardware

El hardware no debe evaluarse solo por “si puede correr”, sino tambien por “si puede prestar servicio de forma estable”.

Puedes elegir por etapas:

Etapa de validacion

El objetivo es demostrar si merece la pena hacer el negocio.

Usar 1-4 GPU de consumo.
Priorizar Flash, modelos pequenos, modelos destilados o modelos cuantizados.
Mantener baja la concurrencia y centrarse en la tasa de finalizacion de tareas.
No prometer alta disponibilidad.

En esta etapa no conviene comprar hardware a gran escala demasiado pronto. Primero confirma si los empleados realmente lo usan, si el negocio ahorra tiempo y si las respuestas pueden entrar en el flujo.

Etapa piloto

El objetivo es que un departamento o una linea de negocio lo use de forma estable.

Usar 4-16 GPU o un conjunto de nodos NPU nacionales.
Agregar gateway unificado, logs y control de permisos.
Construir RAG, analisis de documentos, enrutamiento de modelos y cache.
Empezar a medir tokens, concurrencia, latencia y tasa de fallos.

En esta etapa hay que empezar a cuidar operaciones. El efecto del modelo es solo una parte; estabilidad, coste y gobernanza de datos son igual de importantes.

Etapa de produccion

El objetivo es entrar en servicio empresarial.

Usar GPU de servidor, clusters de computo nacional o pools de recursos de nube privada.
Establecer multiples replicas, limitacion de tasa, failover y planificacion de capacidad.
Enrutar modelos por tarea: tareas simples a modelos ligeros, tareas complejas a Pro.
Conectar con sistemas de identidad, auditoria y politicas de seguridad de la empresa.

En produccion no se recomienda enviar todas las solicitudes al modelo mas fuerte. Un enrutamiento razonable suele ahorrar mas dinero que acumular hardware.

Como elegir framework de inferencia

Modelos como DeepSeek V4 exigen mucho al framework de inferencia. Cuando intervienen MoE, contexto largo, atencion dispersa, cuantizacion y paralelismo multi-GPU, la madurez del framework afecta directamente velocidad y estabilidad.

Las opciones comunes pueden entenderse asi:

SGLang: adecuado para equipos que buscan inferencia de alto rendimiento, Agent, llamadas multi-turno a herramientas y orquestacion de servicios complejos.
vLLM: ecosistema maduro, adecuado para servicios LLM generales, pero el soporte concreto depende de la version y del progreso de adaptacion del modelo.
llama.cpp: mas adecuado para modelos pequenos, modelos cuantizados y despliegue en edge; no para alojar directamente un MoE enorme completo.
Stacks de inferencia NPU nacionales: adecuados para Xinchuang y entornos de computo nacional, pero hay que verificar operadores, cuantizacion y contexto largo.

No elijas framework solo por benchmark. Una empresa deberia probar sus entradas reales: longitud de documentos internos, concurrencia, longitud media de salida, tasa de acierto de RAG, numero de llamadas a herramientas de Agent y reintentos tras fallos.

La seguridad de datos debe hacerse fuera del modelo

El despliegue privado no significa seguridad automatica. Ejecutar el modelo localmente solo resuelve una parte de si los datos salen de la empresa.

Tambien hay que completar:

Cuentas y permisos: cada departamento solo puede acceder a su propia base de conocimiento.
Auditoria de logs: quien pregunto que, que modelo se llamo y que documentos se consultaron.
Enmascaramiento de datos: informacion de clientes, numeros de documento, telefonos, importes de contrato y otros campos sensibles deben tratarse.
Seguridad de prompts: evitar que usuarios eludan permisos o filtren prompts de sistema mediante prompts.
Revision de salidas: en escenarios importantes debe haber revision humana o por reglas.
Ciclo de vida de datos: documentos subidos, indices vectoriales, cache y registros de sesion deben poder eliminarse.

Para construir LLM locales, la empresa no puede involucrar solo al equipo de algoritmos. Seguridad, legal, operaciones y responsables de negocio tambien deben participar; si no, los riesgos se concentraran tras el lanzamiento.

El coste no son solo las GPU

El coste del despliegue local suele subestimarse. Ademas de GPU o NPU, hay que contar:

Servidores, racks, alimentacion, refrigeracion y red.
Almacenamiento y copias.
Adaptacion de framework de inferencia y desarrollo de ingenieria.
Monitorizacion operativa y gestion de incidentes.
Actualizacion de modelos, rollback y pruebas de compatibilidad.
Auditoria de seguridad y sistemas de permisos.
Prompts, RAG y flujos de trabajo del lado del negocio.

Si el volumen de llamadas es bajo, una API externa puede ser mas barata. Si el volumen es alto, los datos son sensibles y el flujo es estable, el despliegue local amortiza mejor el coste.

Una estrategia mas razonable es el despliegue hibrido:

Datos muy sensibles usan modelos locales.
Tareas generales de baja sensibilidad pueden usar API externas.
Tareas simples usan modelos pequenos.
Tareas complejas usan DeepSeek V4 Pro.
Tareas frecuentes priorizan optimizar cache, recuperacion y enrutamiento de modelos.

Ruta recomendada de implantacion

Una empresa puede avanzar en este orden:

Elegir primero 2-3 escenarios de alto valor, sin desplegar en toda la empresa.
Usar GPU de consumo o computo a pequena escala para un PoC.
Ejecutar primero Flash, modelos destilados o modelos cuantizados, conectando RAG y permisos.
Introducir Pro para comparar en tareas complejas.
Registrar volumen real de llamadas, latencia, tasa de fallos y tiempo humano ahorrado.
Despues decidir si comprar clusters de chips nacionales o GPU de servidor.
Antes de produccion, completar gateway, auditoria, monitorizacion, limitacion de tasa y rollback.

Esta ruta es mas estable que comprar un gran cluster desde el principio. El mayor riesgo para una empresa no es que el modelo no sea lo bastante fuerte, sino gastar mucho dinero y descubrir despues que el flujo de negocio no puede absorber esa capacidad.

Resumen

DeepSeek V4 abre mas imaginacion para el despliegue privado local en empresas, pero no es simplemente un “ChatGPT local”. La dificultad real esta en la ingenieria: hardware, frameworks, enrutamiento de modelos, permisos, RAG, auditoria, monitorizacion y control de costes deben considerarse juntos.

La ruta de chips nacionales encaja mejor con empresas de alto cumplimiento y planes de nube privada a largo plazo. Los clusters de GPU de consumo encajan mejor con pilotos y validacion rapida en equipos pequenos y medianos. Pro sirve para razonamiento complejo y Agent; Flash o modelos pequenos son mejores para muchas tareas comunes.

Si solo recuerdas una frase: el despliegue privado de DeepSeek V4 no debe empezar por comprar hardware, sino por escenarios de negocio, limites de datos y volumen de llamadas. Primero haz funcionar el escenario; despues decide si usar un modelo grande, que tamano debe tener y sobre que computo desplegarlo.

Referencias

Cómo usar DeepSeek V4 Pro en Cline

Fri, 01 May 2026 20:59:06 +0800

Cline ya admite el proveedor OpenAI Compatible. La API de DeepSeek también es compatible con llamadas al estilo del SDK de OpenAI, así que conectar deepseek-v4-pro a Cline no es complicado: elige OpenAI Compatible y completa la Base URL de DeepSeek, la API Key y el nombre del modelo.

Los pasos siguientes cubren tanto la interfaz de la extensión para VS Code como Cline CLI.

Preparar una API Key de DeepSeek

Primero, crea una API Key en la plataforma de DeepSeek.

Necesitas tres valores:

Elemento	Valor
Provider	`OpenAI Compatible`
Base URL	`https://api.deepseek.com`
Model ID	`deepseek-v4-pro`

La documentación oficial de DeepSeek indica que la serie V4 usa la interfaz existente compatible con OpenAI. Mantén base_url como https://api.deepseek.com y establece model en deepseek-v4-pro o deepseek-v4-flash al llamarlo.

Configurarlo en la extensión de Cline

Si usas la extensión de Cline en VS Code, configúrala así:

Abre Cline desde la barra lateral de VS Code.
Entra en la configuración de Cline o en la configuración de modelos.
Selecciona OpenAI Compatible como proveedor.
Introduce tu API Key de DeepSeek.
Configura Base URL como:

`1`	`https://api.deepseek.com`

Configura Model ID como:

`1`	`deepseek-v4-pro`

Guarda la configuración y ejecuta una prueba sencilla en Cline.

Empieza con una tarea de solo lectura y bajo riesgo:

`1`	`Please read the current project directory structure and summarize what type of project this is. Do not modify any files.`

Si Cline puede leer y responder con normalidad, la conexión del modelo funciona.

Configurarlo en Cline CLI

Si usas Cline CLI, ejecuta cline provider configure openai-compatible para entrar en la configuración interactiva.

Ejemplo:

`1`	`cline provider configure openai-compatible`

Completa:

1
2
3

API Key: sk-...
Base URL: https://api.deepseek.com
Model ID: deepseek-v4-pro

Después de configurarlo, prueba con una tarea de solo lectura:

`1`	`cline "Summarize this repository structure without changing files."`

Si quieres reducir el coste al principio, puedes cambiar temporalmente Model ID a:

`1`	`deepseek-v4-flash`

Luego vuelve a deepseek-v4-pro para planificación compleja, verificación de hechos, colaboración con varias herramientas o cambios de código de alto riesgo.

División de modelos recomendada

DeepSeek V4 Pro y Flash funcionan mejor con una separación clara.

Modelo	Mejor para
`deepseek-v4-flash`	Lectura rutinaria de código, pequeños arreglos por lotes, generación de scripts, resúmenes de contexto, cambios frontend de bajo riesgo
`deepseek-v4-pro`	Planificación de arquitectura, bugs complejos, refactors entre archivos, verificación de hechos, llamadas multi-herramienta, cambios de alto riesgo

En herramientas de Agent como Cline, el coste suele venir del contexto largo, lecturas repetidas de archivos, generación de planes y llamadas de herramientas en varias rondas. Si la tarea es ligera, usa Flash para volumen; si necesita mejor juicio, cambia a Pro.

Cómo configurar la longitud de contexto

DeepSeek V4 Pro y Flash admiten contexto largo. Si Cline exige un valor manual de ventana de contexto, puedes interpretarlo según el contexto de 1M indicado en la página oficial de modelos de DeepSeek.

En la práctica, no conviene meter todos los archivos en contexto desde el inicio. Cline lee archivos según la tarea, y un flujo mejor suele ser:

primero pedirle que inspeccione la estructura del directorio;
luego pedirle que localice los archivos relevantes;
finalmente dejar que modifique solo los archivos objetivo.

Esto ahorra tokens y mantiene más claro el límite de la tarea.

Problemas comunes

1. Modelo no encontrado

Primero comprueba que Model ID sea exactamente:

`1`	`deepseek-v4-pro`

No escribas DeepSeek V4 Pro, deepseek-v4 ni otro nombre mostrado.

2. 401 o fallo de autenticación

Comprueba la API Key:

si se copió completa;
si contiene espacios adicionales;
si se introdujo en la configuración de proveedor que Cline está usando;
si la cuenta de DeepSeek tiene saldo disponible.

3. Fallo de conexión

Comprueba la Base URL:

`1`	`https://api.deepseek.com`

No añadas /v1/chat/completions al final. El proveedor OpenAI Compatible de Cline construirá por sí mismo las solicitudes de la interfaz compatible.

4. Las llamadas de Cline son demasiado caras

Puedes pasar las tareas rutinarias a deepseek-v4-flash y usar deepseek-v4-pro solo para tareas complejas.

Además, haz que la descripción de la tarea sea lo más clara posible:

`1`	`Only modify files related to the login page. Do not refactor unrelated modules. First provide a plan, and modify code only after confirmation.`

Las tareas de Agent son más caras cuando los límites son poco claros. Cuanto más claro sea el límite, menos archivos leerá, menos llamadas de herramienta hará y más controlable será el coste.

5. Error: reasoning_content must be passed back

Si ves un error como este:

{
  "message": "400 The `reasoning_content` in the thinking mode must be passed back to the API.",
  "code": "invalid_request_error",
  "modelId": "deepseek-v4-pro"
}

Normalmente no es un problema de Key, cuota o Base URL. Significa que el modo de pensamiento de DeepSeek V4 Pro y el historial multi-ronda de llamadas de herramientas del cliente actual no están alineados.

La documentación oficial de DeepSeek indica:

el modo de pensamiento está enabled por defecto;
el modo de pensamiento devuelve reasoning_content;
si ocurre una llamada de herramienta en una ronda, las solicitudes posteriores deben devolver el reasoning_content de ese mensaje del asistente;
si el cliente no lo devuelve correctamente, la API devuelve 400.

Cuando Cline se conecta mediante el proveedor OpenAI Compatible, este error puede aparecer en la segunda ronda o después de llamadas de herramienta si la versión actual no conserva y reenvía por completo el reasoning_content de DeepSeek.

Prueba en este orden:

Actualiza Cline a la versión más reciente;
confirma que estás usando OpenAI Compatible, no el proveedor normal OpenAI;
si Cline admite cuerpo de solicitud personalizado, intenta desactivar el modo de pensamiento:

{
  "thinking": {
    "type": "disabled"
  }
}

si Cline no admite parámetros extra en el body, usa temporalmente otro modelo o un servicio proxy compatible;
vuelve a deepseek-v4-pro cuando Cline admita reenviar reasoning_content de DeepSeek V4.

Ten en cuenta que desactivar el modo de pensamiento puede reducir la capacidad de razonamiento complejo, pero puede esquivar problemas de compatibilidad del cliente cuando reasoning_content no se devuelve.

Configuración copiable

Provider: OpenAI Compatible
API Key: sk-your DeepSeek API Key
Base URL: https://api.deepseek.com
Model ID: deepseek-v4-pro

Para modo de bajo coste:

Provider: OpenAI Compatible
API Key: sk-your DeepSeek API Key
Base URL: https://api.deepseek.com
Model ID: deepseek-v4-flash

Resumen

Solo hay tres pasos clave para llamar a DeepSeek V4 Pro en Cline:

elegir OpenAI Compatible como proveedor;
establecer Base URL en https://api.deepseek.com;
establecer Model ID en deepseek-v4-pro.

Después de configurarlo, prueba con una tarea de solo lectura antes de darle cambios reales de código. Si ejecutas tareas de Agent con frecuencia, separa Flash y Pro: Flash maneja trabajo ligero y frecuente, mientras Pro se ocupa del juicio complejo y las tareas de respaldo.

Referencias:

Cómo las rebajas de DeepSeek V4 reescriben el modelo de costes de los AI Agents

Fri, 01 May 2026 19:47:47 +0800

DeepSeek V4 no llegó con un lanzamiento especialmente ruidoso. No hubo gran evento ni una historia de benchmarks que aplastara al instante a todos los competidores. Pero unos días después apareció la parte que realmente afecta a la industria: rebajas repetidas de precio.

El punto de este cambio no es que “el modelo se volvió un poco más fuerte”, sino que “el coste de uso fue empujado a otro nivel”. Cuando los precios por token bajan lo suficiente para que una tarea ordinaria de Agent termine por unos pocos centavos o un par de yuanes, la lógica de negocio detrás de muchos Coding Plans y Token Plans necesita reconsiderarse.

El día de lanzamiento no fue explosivo

La primera ola de comentarios sobre DeepSeek V4 no fue especialmente intensa. Mucha gente esperaba un impacto como el de R1: liderazgo general en benchmarks, validación del cómputo doméstico y avances simultáneos en multimodalidad y capacidades de Agent. Tras el lanzamiento real, sin embargo, se pareció más a una actualización sólida.

V4 Pro es sin duda un modelo fuerte, especialmente en programación, matemáticas, contexto largo y agentic coding. Pero no es el tipo de producto que hace que todos los modelos pares parezcan obsoletos de inmediato. Por eso, el día de lanzamiento la discusión se sintió algo incómoda: la gente quería elogiarlo, pero era difícil encontrar un ángulo lo bastante explosivo.

El verdadero punto de inflexión no fue el lanzamiento, sino los ajustes de precio que llegaron después.

Las rebajas sucesivas son la clave

Después de publicarse DeepSeek V4, los precios empezaron a moverse hacia abajo. Según la página oficial de precios de DeepSeek y la información resumida en el artículo fuente, los precios aproximados de aquel momento eran:

DeepSeek V4 Flash: alrededor de 1 yuan por 1 millón de tokens de entrada; alrededor de 0,02 yuan por 1 millón de tokens tras un cache hit;
DeepSeek V4 Pro: alrededor de 3 yuanes por 1 millón de tokens de entrada; alrededor de 0,025 yuan por 1 millón de tokens tras un cache hit;
el precio de entrada con cache hit en toda la familia de modelos cayó a una décima parte del precio de lanzamiento;
V4 Pro estuvo en un periodo de descuento del 75%, extendido hasta el 31 de mayo de 2026 a las 23:59.

Los precios de API en dólares estadounidenses muestran la diferencia con más claridad:

Modelo	Entrada cacheada	Entrada no cacheada	Salida	Contexto
`deepseek-v4-flash`	$0.0028 / 1M tokens	$0.14 / 1M tokens	$0.28 / 1M tokens	1M
`deepseek-v4-pro` precio promocional	$0.003625 / 1M tokens	$0.435 / 1M tokens	$0.87 / 1M tokens	1M
`deepseek-v4-pro` precio regular	$0.0145 / 1M tokens	$1.74 / 1M tokens	$3.48 / 1M tokens	1M

Aquí importan dos detalles.

Primero, los $0.435 / $0.87 de V4 Pro son precio promocional, no el precio regular a largo plazo. En las notas oficiales de DeepSeek, este descuento del 75% fue extendido hasta el 31 de mayo de 2026 a las 15:59 UTC.

Segundo, el precio con cache hit es la variable clave del modelo de costes de Agent. La entrada cacheada de Flash baja hasta $0.0028 / 1M tokens, mientras el precio promocional cacheado de Pro es $0.003625 / 1M tokens. Eso significa que contexto de proyecto repetido, definiciones de herramientas, system prompts y resúmenes históricos ya no necesitan cobrarse al precio completo de entrada.

Lo más importante de esta política de precios es que vuelve “insensible” el coste en tokens de muchas tareas. Antes, los desarrolladores temían que una tarea de Agent consumiera mucho contexto, leyera y escribiera código repetidamente y llamara herramientas con frecuencia. Ahora, mientras la tasa de cache hit sea lo bastante alta, el coste puede empujarse muy abajo.

Comparación de precios con GPT y Claude

Los precios de DeepSeek por sí solos no transmiten toda la brecha. El contraste se vuelve mucho más claro al ponerlos junto a modelos cerrados comunes del mismo periodo.

Modelo	Entrada	Entrada cacheada	Salida	Mejor para
`deepseek-v4-flash`	$0.14 / M	$0.0028 / M	$0.28 / M	Agents de alta frecuencia, programación rutinaria, tareas por lotes
`deepseek-v4-pro` precio promocional	$0.435 / M	$0.003625 / M	$0.87 / M	Programación compleja, planificación, verificación de hechos
`deepseek-v4-pro` precio regular	$1.74 / M	$0.0145 / M	$3.48 / M	Línea base de coste Pro tras la promoción
GPT-5.5	$5 / M	$0.50 / M	$30 / M	Tareas complejas de alta calidad, razonamiento general
GPT-5.4	$2.50 / M	$0.25 / M	$15 / M	Opción intermedia para programación y trabajo profesional
GPT-5.4 mini	$0.75 / M	$0.075 / M	$4.50 / M	Modelo general y de subtareas de menor coste
Claude Opus 4.7	$5 / M	$0.50 / M	$25 / M	Escritura de alta calidad, razonamiento complejo, tareas largas
Claude Sonnet 4.6	$3 / M	$0.30 / M	$15 / M	Programación, Agents, trabajo general
Claude Haiku 4.5	$1 / M	$0.10 / M	$5 / M	Tareas ligeras, resumen, clasificación

El número más llamativo de esta tabla es el precio de salida. Los Agents no solo leen contexto; también generan planes, parches, explicaciones, logs y siguientes acciones. Si hay mucha salida, los $0.87 / M promocionales de DeepSeek V4 Pro son drásticamente más baratos que los $30 / M de GPT-5.5 o los $15 / M de Claude Sonnet 4.6.

Incluso al precio regular de salida de V4 Pro, $3.48 / M, sigue claramente por debajo de GPT-5.4, GPT-5.5 y Claude Sonnet / Opus. Si la tarea puede manejarse con Flash, el precio de salida baja aún más hasta $0.28 / M.

La brecha de entrada cacheada es todavía más extrema. DeepSeek V4 Flash cuesta $0.0028 / M en entrada cacheada, mientras GPT-5.5 y Claude Opus 4.7 cuestan ambos $0.50 / M. No están en el mismo orden de magnitud. Para Agents que leen repetidamente el mismo repositorio de código, esta brecha importa más que en un chat normal.

Por qué las tareas de Agent se ven especialmente afectadas

Los AI Agents son distintos del chat ordinario. El chat normal suele ser un flujo de pregunta y respuesta con contexto de entrada relativamente limitado. Las tareas de Agent leen archivos de proyecto repetidamente, generan planes, llaman herramientas, inspeccionan resultados y vuelven a modificar código.

Estas tareas tienen dos rasgos:

gran consumo de tokens;
mucho contexto repetido.

El segundo punto es crucial. En un proyecto de código, el modelo lee una y otra vez los mismos archivos, estructura de directorios, logs de error y resultados de modificación. Si la plataforma admite cache hits, el coste de entrada repetida cae de forma pronunciada.

El artículo fuente mencionaba una experiencia real: conectar DeepSeek V4 Pro y Flash a una herramienta parecida a Claude Code, pedirle que descargara un repositorio de prompts y lo convirtiera en un sitio local de búsqueda. La tarea se completó con un coste total de poco más de 0,8 yuanes, y Pro alcanzó una tasa de cache hit del 98,7%.

Este ejemplo ilustra un punto práctico: cuanto más se parece una tarea de Agent a “trabajo repetido alrededor del mismo proyecto”, más valiosos se vuelven los cache hits. Si generar un sitio, arreglar un bug o cambiar un frontend cuesta solo unos centavos o unos pocos yuanes, los planes de suscripción pierden atractivo.

Podemos estimar la brecha con una tarea simplificada. Supongamos que una tarea de coding agent incluye:

500.000 tokens de entrada, de los cuales 80% pueden cachearse;
50.000 tokens de salida;
sin llamadas de herramientas, costes de búsqueda ni markup de plataforma, solo coste de tokens del modelo.

Los costes aproximados son:

Modelo	Coste estimado
DeepSeek V4 Flash	alrededor de $0.03
DeepSeek V4 Pro precio promocional	alrededor de $0.09
DeepSeek V4 Pro precio regular	alrededor de $0.36
GPT-5.4 mini	alrededor de $0.30
GPT-5.4	alrededor de $1.01
GPT-5.5	alrededor de $1.75
Claude Sonnet 4.6	alrededor de $1.11
Claude Opus 4.7	alrededor de $1.65

Esta estimación no significa que DeepSeek sea mejor para todas las tareas. Calidad del modelo, estabilidad de tool calls, capacidad de recuperación en contexto largo, estilo de código y fiabilidad factual necesitan evaluación separada. Pero desde el coste, DeepSeek V4 empuja muy abajo el coste marginal de “dejar correr al Agent unas rondas más”. Eso animará a diseñar flujos más largos, autochecks más frecuentes y más soluciones candidatas sin preocuparse por la factura de tokens cada vez.

La diferencia entre Coding Plans y Token Plans

Muchos productos de IA ofrecen ahora dos tipos de planes: Coding Plans y Token Plans.

La diferencia aproximada es:

los Coding Plans suelen estar orientados principalmente a programación;
los Token Plans suelen cubrir más capacidades, como STT, TTS, generación de imágenes, búsqueda, embeddings y RAG;
STT significa speech to text;
TTS significa text to speech;
los Coding Plans a menudo restringen al usuario a escenarios de programación, mientras otras capacidades requieren compras separadas.

Desde el negocio, un Coding Plan se parece más a un buffet. Los usuarios pagan una tarifa fija por adelantado, mientras el proveedor apuesta a que la mayoría no agotará la cuota. Algunos usuarios consumen más, otros menos, y la plataforma todavía puede ganar dinero en promedio.

Pero si los precios pay-as-you-go por token bajan lo suficiente, los usuarios empiezan a calcular: ¿por qué tengo que comprar un plan? Si el coste mensual real es solo unos pocos yuanes o una decena, un plan de 40 o 200 yuanes puede dejar de valer la pena.

Por qué las rebajas desafían el modelo de suscripción

Los planes de suscripción dependen de una premisa: los usuarios sienten que cada uso individual es caro, o no quieren calcular el coste de cada llamada. Cuando los tokens son caros, un plan da tranquilidad. Cuando los tokens son casi insignificantes, pay-as-you-go se vuelve más natural.

La rebaja de DeepSeek V4 revela de hecho el coste subyacente:

las tareas de Agent pueden ser muy baratas;
el contexto largo no es necesariamente demasiado caro de usar;
los cache hits pueden reducir mucho el coste;
los desarrolladores comunes no necesitan necesariamente una suscripción fija;
el punto de entrada del modelo puede desplazarse de una “plataforma de planes” a una “API de bajo coste”.

Esto incomodará a plataformas construidas alrededor de Coding Plans. Si los usuarios ven que las llamadas pay-as-you-go son más baratas y libres, tienen menos razones para quedar atados a la suscripción de una plataforma.

Cómo elegir entre Flash y Pro

Una forma práctica de usar DeepSeek V4 es dividir el trabajo entre Flash y Pro.

Flash es adecuado para tareas frecuentes, ligeras y repetibles:

corregir bugs;
escribir código frontend;
escribir scripts;
comprensión rutinaria de código;
procesar información ordinaria en contexto largo;
ejecutar gran cantidad de subtareas.

Flash es barato, rápido y también admite contexto muy largo. Para agents de programación cotidianos, muchas tareas no necesitan Pro desde el inicio.

Pro es mejor para juicio complejo y trabajo de respaldo:

planificación multi-ronda;
flujos complejos de Agent;
múltiples llamadas de función;
verificación de hechos;
investigación financiera;
producción de contenido que requiere conocimiento y juicio más fuertes;
cambios de código de alto riesgo.

Una configuración razonable es: Flash maneja volumen, Pro maneja fallback. Empieza tareas ordinarias con Flash y cambia a Pro para planificación de largo alcance, juicio complejo, verificación de hechos o colaboración multi-herramienta. Así se controla el coste sin renunciar a calidad de modelo.

Por qué DeepSeek puede poner estos precios

DeepSeek tiene una estructura de negocio distinta a muchas grandes plataformas. No tiene e-commerce, redes sociales, video corto, cloud computing, teléfonos, coches, suites de oficina, sistemas operativos, navegadores ni un gran ecosistema SaaS empresarial.

Eso significa que no necesita encerrar a los usuarios en una plataforma completa. Puede simplemente vender capacidad de modelo de texto: usa modelos de texto baratos aquí y llama cualquier otra capacidad en otro lugar.

Las grandes plataformas suelen pensar distinto. Si compras su Coding Plan o Token Plan, entras en su ecosistema de cloud, búsqueda, generación de imágenes, voz, base de datos y herramientas de desarrollo. El plan no solo vende el modelo; compite por el punto de entrada del usuario.

El enfoque de DeepSeek es más directo: bajar el precio de los modelos de texto e intentar convertirse en el punto de entrada por defecto para Agents. Una vez ocupado ese punto de entrada, muchos desarrolladores y toolchains se adaptarán naturalmente alrededor.

Modelos abiertos y el punto de entrada por defecto

Si DeepSeek V4 mantiene una ruta de modelo abierto, proveedores cloud y plataformas de terceros pueden desplegarlo por su cuenta y ofrecer servicios. Para DeepSeek, eso es distribución y posible desviación a la vez.

Aquí es donde importa una API oficial de bajo precio. Si el precio oficial ya es lo bastante bajo, otras plataformas tendrán difícil ofrecer una ventaja clara aunque puedan desplegar el modelo. Los usuarios tenderán a usar directamente el punto de entrada por defecto, barato y estable.

Esto es especialmente cierto para herramientas de Agent. Las tareas de Agent dependen de contexto largo, caching, llamadas de herramientas y throughput estable. Una vez que un modelo es lo bastante barato en estos escenarios, tiene opción de convertirse en la opción por defecto.

Los Coding Plans aún no son inútiles

Esto no significa que los Coding Plans desaparezcan inmediatamente. Todavía encajan con algunos usuarios.

Si algunos usuarios son realmente intensivos y agotan su cuota todos los días, una suscripción fija puede seguir siendo económica. Igual que un buffet: si nadie pudiera comer suficiente para amortizarlo, nadie lo compraría.

El problema es que la mayoría de usuarios no son tan extremadamente frecuentes. Usuarios de baja frecuencia, desarrolladores ligeros y personas que ocasionalmente escriben scripts o modifican proyectos encajan mejor con pay-as-you-go. Después de que DeepSeek reduzca los costes por uso, el atractivo de los planes se debilita.

El futuro probablemente será una elección por capas:

usuarios intensivos de alta frecuencia seguirán comprando Coding Plans;
usuarios ordinarios se moverán a APIs de bajo coste;
las herramientas de Agent elegirán automáticamente Flash / Pro según la tarea;
los planes de plataforma tendrán que ofrecer más valor no relacionado con el modelo, como workflows, integración IDE, despliegue, gestión de equipos y auditoría de seguridad.

Resumen

DeepSeek V4 no creó su mayor impacto mediante benchmarks. Lo que realmente cambió las expectativas de la industria fue la reducción de precios posterior.

Cuando los tokens de entrada y el precio con cache hit bajan mucho, cambia el coste de usar AI Agents. Contexto largo, análisis de proyectos de código y llamadas multi-ronda de herramientas que antes parecían caras pueden convertirse en costes cotidianos de unos centavos o unos pocos yuanes.

Esto desafía directamente la lógica de negocio de Coding Plans y Token Plans. Si los usuarios pueden pagar por uso, combinar libremente modelos y herramientas, y mantener costes lo bastante bajos, quizá no quieran quedar atados a un plan de plataforma específico.

Lo que DeepSeek V4 toca realmente esta vez no es solo el ranking de capacidades del modelo, sino la estructura de costes de los AI Agents y la batalla por el punto de entrada por defecto.

Referencias:

free-claude-code: conectar Claude Code a OpenRouter, DeepSeek y modelos locales mediante un proxy

Fri, 01 May 2026 03:41:49 +0800

free-claude-code es un Anthropic-compatible proxy para usar con Claude Code.

La idea no es crackear Claude Code ni ofrecer un servicio Claude oficial gratuito, sino iniciar localmente un proxy compatible con la forma de la API de Anthropic y reenviar las solicitudes de Claude Code a otros backends de modelos. El README menciona backends como NVIDIA NIM, OpenRouter, DeepSeek, LM Studio, llama.cpp y Ollama.

En pocas palabras, resuelve este problema: te gusta la experiencia de Claude Code en la terminal, pero quieres conectar las peticiones del modelo a otro provider o a un modelo local.

Qué problema resuelve

La experiencia interactiva de Claude Code es muy adecuada para tareas de desarrollo.

Puede leer código en la terminal, modificar archivos, ejecutar comandos y avanzar según el contexto del proyecto. El problema es que muchos usuarios no necesariamente quieren usar siempre el mismo backend de modelo:

Quieren probar distintos modelos en OpenRouter
Quieren usar modelos como DeepSeek para reducir costes
Quieren conectar las peticiones a Ollama local
Quieren ejecutar modelos locales con LM Studio o llama.cpp
Quieren unificar en el entorno de desarrollo una entrada de proxy
Quieren comparar el rendimiento de distintos modelos dentro del flujo de Claude Code

El posicionamiento de free-claude-code es añadir una capa de proxy compatible entre Claude Code y estos servicios de modelos.

Así, Claude Code sigue enviando solicitudes con estilo Anthropic, y el proxy se encarga de adaptarlas a distintos backends.

Funcionamiento

Puede entenderse como tres capas:

El frontend es Claude Code
En medio está el proxy free-claude-code
El backend es OpenRouter, DeepSeek, un modelo local u otro servicio de modelo

Claude Code cree que está accediendo a una API Anthropic-compatible.

El proxy recibe la solicitud, elige el provider objetivo según la configuración, transforma los campos necesarios y devuelve la respuesta a Claude Code.

La ventaja de esta estructura es que no necesitas modificar Claude Code ni exigir que cada servicio de modelo soporte Claude Code de forma nativa. Mientras el proxy pueda alinear la interfaz, puede conectar más modelos al mismo flujo de trabajo.

Backends soportados

Las direcciones listadas en el README incluyen:

NVIDIA NIM
OpenRouter
DeepSeek
LM Studio
llama.cpp
Ollama

Estos backends representan varias formas de uso.

OpenRouter se parece más a una entrada agregadora de modelos, útil para probar distintos modelos comerciales y open source.

DeepSeek conviene a quienes se preocupan por capacidad en chino, capacidad de código y coste.

LM Studio, llama.cpp y Ollama se inclinan hacia la ruta de modelos locales. Sirven para ejecutar modelos en tu propia máquina o en un entorno de intranet, reducir dependencia de APIs externas y facilitar experimentos offline.

NVIDIA NIM está más orientado a inferencia empresarial y despliegue con GPU.

Por qué un Anthropic-compatible proxy

Claude Code está diseñado alrededor de la interfaz y los hábitos de modelo de Anthropic.

Si quieres conectarlo a otros modelos, el problema más directo es que las interfaces no coinciden:

Campos de solicitud distintos
Nombres de modelo distintos
Formatos de streaming distintos
Expresión de tool use distinta
Formatos de error distintos
Límites de tokens y contexto distintos

El valor de la capa proxy está ahí.

Mantiene la interfaz vista por Claude Code con una forma cercana a Anthropic y adapta el backend. Para el usuario, después de configurar el proxy, puede probar distintos modelos dentro del mismo flujo de Claude Code.

Escenarios adecuados

free-claude-code es adecuado para:

Querer usar el flujo de terminal de Claude Code
Probar modelos no Anthropic dentro de Claude Code
Reducir costes de llamadas de modelo
Conectar Claude Code a OpenRouter
Integrar DeepSeek u otros servicios de modelo compatibles
Usar Ollama, LM Studio o llama.cpp para ejecutar modelos locales
Configurar para un equipo una entrada unificada de proxy de modelos

Si solo usas Claude Code oficial normalmente y no tienes necesidades especiales de provider, coste o despliegue local, quizá no necesites este tipo de proxy.

Pero si comparas modelos con frecuencia o quieres que Claude Code acceda a modelos locales y de terceros, este tipo de herramienta es útil.

Diferencia frente a usar directamente OpenRouter u Ollama

Usar directamente OpenRouter, Ollama o LM Studio normalmente significa conversar con el modelo o llamarlo mediante API.

El punto central de free-claude-code no es sustituir esos servicios, sino conectarlos al flujo de desarrollo de Claude Code.

La diferencia está en:

Sigues usando la experiencia de terminal de Claude Code
La IA puede realizar tareas alrededor del repositorio de código
El backend de modelo puede cambiarse por otro provider
Los modelos locales también tienen oportunidad de entrar en el flujo de Claude Code
La configuración se concentra en la capa proxy, no se cambia por separado en cada herramienta

Por eso se parece más a un puente que a un nuevo cliente de chat.

Precauciones con modelos locales

Conectar Claude Code a modelos locales es atractivo, pero también tiene límites prácticos.

Primero, diferencia de capacidad del modelo.

Las tareas de Claude Code no son solo chat; incluyen entender código, planificar cambios, editar archivos y procesar salidas de comandos. Un modelo local pequeño no necesariamente puede completar estas tareas de forma estable.

Segundo, ventana de contexto.

Las tareas de código consumen mucho contexto. Si la ventana del modelo es demasiado pequeña, puede no leer archivos completos, perder restricciones o olvidar contexto durante varias rondas.

Tercero, compatibilidad con tool use.

El flujo de Claude Code depende de llamadas a herramientas y comportamiento estructurado. Aunque un backend pueda chatear, no necesariamente sigue bien protocolos de tool calling.

Cuarto, velocidad y hardware.

La velocidad del modelo local depende de la máquina, el método de cuantización y el tamaño del modelo. Si una tarea de código responde demasiado lento, la experiencia se degrada de forma notable.

Por eso, los modelos locales son más adecuados para experimentos, tareas de bajo riesgo y escenarios concretos. Para tareas de código realmente complejas, todavía hay que elegir con cuidado según la capacidad del modelo.

Límites de uso

Este tipo de proyecto puede malinterpretarse fácilmente por el título, así que conviene aclarar los límites.

Primero, no es cuota gratuita oficial de Claude Code.

Solo reenvía las solicitudes de Claude Code a otros backends de modelos. Al usar OpenRouter, DeepSeek, NVIDIA NIM u otras APIs, sigues teniendo que cumplir precios, cuotas y condiciones de uso de esos servicios.

Segundo, no es una herramienta para saltarse autorización.

Al usar cualquier proxy, hay que cumplir las licencias y términos de Claude Code, del proveedor de modelo y del propio proyecto. No debería entenderse como una forma de evitar restricciones oficiales.

Tercero, el proxy procesará el contenido de tus solicitudes.

Código, salida de comandos y contexto del proyecto pueden pasar por el proxy y por el servicio backend. Al desplegarlo, hay que considerar logs, claves, red y límites de privacidad. Para código de empresa o proyectos sensibles, es mejor usar un entorno controlado.

Cuarto, el rendimiento de distintos modelos puede variar mucho.

La misma operación de Claude Code puede comportarse de forma completamente distinta al cambiar de modelo. No asumas que todos los modelos pueden sustituir a Claude.

Relación con proxies como LiteLLM

Desde el punto de vista de diseño, free-claude-code pertenece a la categoría de “proxies de interfaz compatible”.

El objetivo común de estas herramientas es reducir el acoplamiento entre la aplicación superior y los servicios de modelos inferiores. La aplicación superior solo se enfrenta a una interfaz relativamente unificada, y los providers de abajo pueden cambiarse por configuración.

Cada proyecto tiene un foco distinto. Algunos se orientan a gateway de modelos general, otros a OpenAI-compatible API, y otros se adaptan específicamente a herramientas como Claude Code.

Lo interesante de free-claude-code es que coloca el escenario objetivo directamente en Claude Code, no en un proxy de chat genérico.

Usuarios adecuados

Es más adecuado para usuarios con cierta capacidad de configuración:

Conocen Claude Code
Saben configurar API key y provider de modelos
Entienden cómo arrancar un proxy y variables de entorno
Pueden diagnosticar problemas de red, puertos, nombres de modelo y streaming
Quieren comparar el rendimiento de distintos modelos en tareas de código

Si solo quieres algo listo para usar, la configuración oficial suele ser más tranquila.

Si estás dispuesto a montar proxy, cambiar modelos, ajustar parámetros y quieres llevar Claude Code a más entornos de modelo, este proyecto merece estudio.

Referencia

Alishahryar1/free-claude-code

Una última frase

El valor de free-claude-code no está en la palabra “free”, sino en construir un puente entre Claude Code y más backends de modelos.

Cuando quieres conservar la experiencia de desarrollo de Claude Code y al mismo tiempo probar OpenRouter, DeepSeek, modelos locales o servicios de inferencia empresariales, este tipo de Anthropic-compatible proxy tiene sentido.

DeepSeek V4 Pro vs GPT-5.5: después de probar la interfaz, la escritura y la codificación, la brecha parece mayor de lo esperado

Sat, 25 Apr 2026 11:12:00 +0800

Las comparaciones entre DeepSeek V4 Pro y GPT-5.5 están recibiendo más atención últimamente. La razón ya no es si alguno de los modelos es utilizable. La verdadera pregunta es: cuando el trabajo recae en el desarrollo, la redacción y la codificación del frontend, ¿cuál es mejor para ser su herramienta principal?

Cuando la gente compara modelos como este, a menudo empiezan preguntando cuál es más fuerte.
Pero la pregunta más útil suele ser diferente: en una tarea real, ¿cuál es más estable, más barata para comunicarse y con mayor probabilidad de producir algo que pueda seguir construyendo de inmediato?

Si simplificamos primero la conclusión, queda más o menos así:

Cuando desea un resultado más equilibrado y una experiencia productiva más completa, mucha gente todavía mira primero GPT-5.5
Cuando necesita una iteración de alta frecuencia en chino, se preocupa más por el costo y desea ciclos de respuesta rápidos, “DeepSeek V4 Pro” se convierte en un candidato serio.
Lo que realmente determina la experiencia a menudo no es el nombre del modelo en sí, sino el tipo de tarea, el enfoque de las indicaciones y si es necesario seguir revisándolo después.

Analicemos esto en los tres escenarios de comparación más comunes.

1. Tareas frontend: la verdadera pregunta no es si puede crear una página, sino si puede seguir mejorándola

El trabajo frontend parece ideal para comparaciones de modelos porque el resultado es fácil de ver.
¿Se puede ejecutar la página? ¿Se ve bien? ¿Está limpia la estructura? Puedes juzgar todo eso rápidamente.

Pero la verdadera diferencia no suele aparecer en si el primer borrador funciona. Aparece en preguntas como estas:

¿Está la estructura lo suficientemente clara?
¿La división del componente es natural?
¿Cambiar una pieza accidentalmente rompe otra?
¿Puede seguir la misma lógica de implementación en múltiples rondas de instrucciones?

Es también por eso que muchas demostraciones de frontend que parecen impresionantes en la primera ronda no necesariamente se mantienen a la vanguardia en los flujos de trabajo reales.

Si su tarea es algo como:

Generar rápidamente un prototipo de página ejecutable
Redactar una idea de página de destino.
Complete los estilos, botones, tarjetas, formularios y otros elementos básicos requeridos

entonces ambos modelos a menudo te acercarán bastante, y la diferencia está más en el estilo de salida.

Pero si la tarea se convierte en:

Revisar repetidamente la interfaz de usuario durante varias rondas.
Leer el código existente y continuar desde allí.
Equilibrar la estructura de los componentes, la coherencia del estilo y la mantenibilidad.
Convertir gradualmente una página estática en código de proyecto real.

entonces lo que debes observar ya no es “quién luce mejor en la primera ronda”, sino “quién tiene menos probabilidades de quedarse dormido en la quinta ronda”.

Entonces, en el trabajo frontend, la comparación clave no es si el modelo puede generar una página. Se trata de si, después de seguir agregando restricciones, aún puede mantener una estructura estable, nombres consistentes y costos de modificación manejables.

2. Tareas de escritura: la verdadera diferencia no es cuánto se escribe, sino qué tan estable se mantiene el estilo y qué tan bien se reescribe.

La escritura es otra área en la que la gente puede juzgar mal los modelos con mucha facilidad.

Una razón importante es que los primeros borradores suelen verse bien desde ambos lados.
La estructura es completa, los párrafos están ahí y el tono es lo suficientemente suave como para que sea fácil pensar que son básicamente similares.

Pero tan pronto como avanzas la tarea un paso más, aparecen las diferencias:

¿Puede comprender con precisión a su público objetivo?
¿Puede cambiar de tono manteniendo el mismo tema?
¿Se pierden puntos clave al reescribir?
¿Se mantiene estable al comprimir, ampliar, retitular o reestructurar?

El mayor problema al escribir no suele ser “no puede escribir”, sino “escribió algo que aún necesita mucho arreglo”.

Entonces, al comparar “DeepSeek V4 Pro” y “GPT-5.5”, el método más útil es no pedirles a cada uno que escriba un artículo. Se trata de ejecutar varias rondas como esta:

Escribe el primer borrador.
Reescríbelo en un tono diferente.
Comprímelo en una versión más corta.
Modifíquelo para convertirlo en algo más adecuado para titulares basados en clics o distribución de búsqueda.

Si un modelo puede mantener intactos los puntos clave, la redacción estable y la estructura limpia durante esas rondas, entonces tiene mucho más valor en un flujo de trabajo de escritura real.

En otras palabras, lo que realmente miden las tareas de escritura no es el “estilo literario”, sino la capacidad de revisión, el seguimiento de instrucciones y el sentimiento de colaboración continua.

3. Tareas de codificación: la brecha real se muestra en la estabilidad de la cadena larga

Las tareas de codificación exponen el nivel real de un modelo más fácilmente que el trabajo frontend, porque no se trata solo de generar resultados. Tienen que conectar con la realidad.

Muy rápidamente, te encuentras con preguntas como:

¿Puede comprender la estructura de un proyecto existente?
¿Puede modificar varios archivos a la vez?
¿Introduce nuevos problemas después de realizar cambios?
¿Puede seguir depurando siguiendo registros y errores?
Después de varias rondas, ¿todavía recuerda lo que ya cambió?

En este tipo de trabajo, lo que más preocupa a los usuarios no suele ser si un único fragmento de código parece elegante. Es: ¿puede este modelo seguir avanzando en la tarea, en lugar de dejarme a mí limpiar el desorden?

Entonces, al comparar DeepSeek V4 Pro y GPT-5.5, lo más significativo a considerar generalmente no son indicaciones de codificación aisladas, sino un proceso más cercano al trabajo real:

Leer un repositorio existente
Encuentra un error
Modificar varios archivos relacionados
Continuar corrigiendo según los mensajes de error.
Resumir claramente el resultado al final.

Una vez que la tarea ingresa a ese tipo de flujo de trabajo continuo, la retención del contexto, los hábitos de ejecución, la calidad de la explicación y la tasa de retrabajo son más importantes que la calidad de la respuesta en un solo turno.

Esta es también la razón por la que muchos usuarios eventualmente no se conforman con “usar un solo modelo para siempre” para codificar. En cambio, cambian su herramienta principal según la etapa de la tarea.

4. Lo que realmente vale la pena comparar no es quién gana, sino qué tareas son más rentables asignar a quién

Si pones “DeepSeek V4 Pro” y “GPT-5.5” uno al lado del otro y solo intentas elegir un campeón general, el resultado suele ser una conclusión vacía.

Esto se debe a que las tareas reales no son un examen estándar:

Algunos son de una sola generación.
Algunas son colaboraciones de múltiples rondas.
Algunos están escritos en chino.
Algunos son cambios de ingeniería.
Algunos priorizan la velocidad
Algunos priorizan la estabilidad
Algunos priorizan el costo

Entonces, el enfoque que se acerca más al uso real suele ser dividir por objetivo de la tarea:

Si desea una experiencia general más completa, una interacción más madura y un resultado general más estable, pruebe primero GPT-5.5
Si desea experimentar con alta frecuencia en chino, iteración rápida y mejor relación calidad-precio, “DeepSeek V4 Pro” merece un lugar importante en su flujo de trabajo.
Si la tarea en sí es de cadena larga, de múltiples rondas y colaborativa, no se detenga en el primer resultado; observe quién se mantiene más estable después de cinco rondas.

En otras palabras, la verdadera pregunta no es “quién es absolutamente más fuerte”, sino ésta:
para el trabajo frontend, la escritura y la codificación, ¿qué modelo parece más la herramienta más práctica para su etapa actual?

5. Cómo realizar una comparación que realmente signifique algo

Si desea probar DeepSeek V4 Pro y GPT-5.5 usted mismo, un método más confiable generalmente no es ejecutar una sola ronda, sino hacer algo como esto:

Dé a ambos modelos el mismo requisito inicial.
Mantenga las mismas restricciones en ambos lados
Continúe haciendo preguntas de seguimiento durante tres a cinco rondas.
Registre la calidad de salida, la frecuencia de deriva y la cantidad de retrabajo
Solo entonces compara velocidad, coste y usabilidad final.

Ese tipo de prueba te acercará mucho más al trabajo real que simplemente preguntar quién luce más impresionante en la primera ronda.

Especialmente en frontend, escritura y codificación, lo que a menudo determina la experiencia real no es la línea de partida, sino quién puede quedarse contigo y ayudarte a terminar el trabajo.

6. Una forma sencilla de recordarlo

Si solo quieres un resumen práctico, puedes recordarlo así:

GPT-5.5: más como un espacio de trabajo predeterminado amplio, productivo y convencional
DeepSeek V4 Pro: más bien un competidor fuerte que vale la pena incorporar a los flujos de trabajo diarios en chino y al trabajo de prueba y error de alta frecuencia
El verdadero punto de comparación: no un resultado llamativo en la primera ronda, sino quién se mantiene más estable y ahorra más esfuerzo después de múltiples rondas de revisión.

Entonces, en este tipo de comparación, lo que realmente importa nunca es simplemente “quién ganó”. Es este:
Para sus tareas de frontend, escritura y codificación, ¿qué modelo facilita el progreso continuo, reduce el retrabajo y le brinda resultados más estables?

Lanzamiento de la vista previa de DeepSeek-V4: contexto de 1M, dos modelos y notas de migración de API

Fri, 24 Apr 2026 22:39:46 +0800

DeepSeek lanzó Lanzamiento preliminar de DeepSeek V4 el 2026-04-24. Según la página de anuncio oficial, la actualización se centra en algunos temas muy claros: “1M context”, una línea de dos modelos con “V4-Pro” y “V4-Flash”, optimización dedicada para escenarios de agentes y migración de modelos del lado API.

Si reducimos el comunicado a una frase, la señal principal es la siguiente: DeepSeek no sólo está intentando crear un modelo más potente. Está impulsando el contexto ultralargo y las capacidades de los agentes hacia algo que esté listo para su implementación práctica.

1. Lo que se lanzó esta vez

Según la página oficial, DeepSeek-V4 Preview incluye principalmente dos líneas de productos:

-DeepSeek-V4-Pro -DeepSeek-V4-Flash

Las descripciones oficiales también son muy directas:

DeepSeek-V4-Pro: 1.6T total / 49B parámetros activos
DeepSeek-V4-Flash: 284B en total / 13B de parámetros activos

El nombre ya deja clara la estrategia. Esta no es una actualización de un solo modelo. DeepSeek está lanzando un modelo de gama alta y un modelo más rentable al mismo tiempo.

“V4-Pro” está posicionado alrededor del techo de rendimiento, y DeepSeek dice que puede competir con los mejores modelos de código cerrado del mundo. V4-Flash, por el contrario, se posiciona en torno a la velocidad, la eficiencia y el menor costo, lo que lo hace más adecuado para cargas de trabajo que se preocupan más por la latencia y el precio de API.

2. `1M contexto` es el título más visible

Una de las líneas más destacadas de la página oficial es: “Bienvenido a la era del contexto rentable de 1 millón de longitud”.

DeepSeek no se limita a decir que el modelo admite un contexto prolongado. Presenta “contexto 1M” como una capacidad predeterminada de esta generación. La página es explícita que:

1M context es ahora el estándar predeterminado en todos los servicios oficiales de DeepSeek
Tanto V4-Pro como V4-Flash admiten contexto 1M

La importancia de esto no es sólo que puedas colocar más tokens. Afecta directamente a tareas como:

Comprender grandes bases de código
Preguntas y respuestas de documentos extensos y síntesis de información.
Flujos de trabajo de agentes de múltiples turnos
Tareas complejas que abarcan múltiples archivos, herramientas y etapas.

Cuando la ventana de contexto es lo suficientemente grande, es menos probable que el modelo pierda el contexto a mitad del camino y vuelva a leer el material repetidamente. Esto es muy importante para la codificación agente y el trabajo de conocimiento complejo.

3. Qué enfatiza principalmente `V4-Pro`

Según el texto de la página oficial, “DeepSeek-V4-Pro” se centra en tres cosas:

Capacidad de codificación agente
conocimiento mundial
Capacidad de razonamiento

La página dice que “V4-Pro” alcanza SOTA de código abierto en puntos de referencia de codificación agente. También afirma ser líder entre los modelos abiertos actuales en el conocimiento mundial, sólo por detrás de “Gemini-3.1-Pro”, y afirma que su rendimiento en matemáticas, “STEM” y codificación supera a los modelos abiertos actuales y rivaliza con los mejores modelos de código cerrado.

En otras palabras, “V4-Pro” no se posiciona como un simple modelo de preguntas y respuestas. Está dirigido mucho más al razonamiento de alta dificultad, la codificación compleja y la ejecución de tareas a largo plazo.

4. `V4-Flash` no es solo una versión reducida

Otro punto destacable es que DeepSeek no presenta V4-Flash como modelo de gama baja. Más bien, subraya que el modelo ya es lo suficientemente sólido para muchas tareas prácticas.

Según el anuncio, V4-Flash:

Tiene una capacidad de razonamiento cercana a “V4-Pro”.
Funciona a la par con V4-Pro en tareas simples de agente
Utiliza menos parámetros, responde más rápido y es más económico para el uso de API

Eso significa que la alineación no es una estructura muy dividida de “un buque insignia, un nivel de entrada”. Está más cerca de:

V4-Pro: optimización para un mayor rendimiento y un techo más resistente
V4-Flash: optimización para una menor latencia y una mejor rentabilidad

Para los desarrolladores, esta suele ser una combinación más práctica, porque muchas tareas de producción no necesitan el modelo más sólido en teoría. Necesitan algo lo suficientemente fuerte, lo suficientemente rápido y lo suficientemente asequible.

5. El lanzamiento pone un claro énfasis en la optimización de los agentes.

Otra señal fuerte de la página de anuncios es que DeepSeek está impulsando activamente “V4” hacia casos de uso de agentes.

La página dice que “DeepSeek-V4” se ha integrado perfectamente con varios agentes líderes de IA, incluidos:

Código Claude
OpenClaw
Código Abierto

DeepSeek también dice que “V4” ya se está utilizando en sus flujos de trabajo de codificación agentes internos.

Eso significa que el objetivo ya no se limita al chat o a la finalización ordinaria. El modelo se está posicionando para flujos de trabajo más largos: leer código, comprender la estructura, llamar a herramientas, generar resultados y conectar todo el proceso.

Si ha estado prestando atención a los agentes de codificación recientemente, vale la pena señalarlo. Los proveedores de modelos ya no compiten sólo en base a puntos de referencia. También compiten sobre si el modelo realmente puede integrarse en flujos de trabajo reales.

6. La innovación estructural está al servicio de la eficiencia en el contexto a largo plazo.

En el aspecto técnico, la página resume el trabajo estructural de este lanzamiento como:

compresión por token
DSA (Atención escasa de DeepSeek)

La dirección es clara: hacer que el contexto largo sea más barato y más eficiente, al mismo tiempo que se reducen los costos de computación y memoria tanto como sea posible.

La página del anuncio no entra en detalles técnicos completos, pero al menos sugiere que DeepSeek no depende únicamente del escalamiento por fuerza bruta para admitir ventanas más largas. También está realizando optimizaciones a nivel de arquitectura específicamente para la eficiencia en contextos prolongados.

Para los usuarios reales, eso a menudo es más importante que simplemente ver un número de contexto mayor, porque la usabilidad real depende de algo más que si “1M” está técnicamente disponible. También depende de:

Si la velocidad sigue siendo aceptable
Si el costo sigue siendo aceptable
Si las tareas de contexto largo permanecen estables en la práctica

7. La API ya está disponible, pero la migración del modelo es importante

La página oficial indica claramente que la API está disponible hoy.

La ruta de migración también es relativamente sencilla:

Mantener la misma base_url
Cambie el nombre del modelo a deepseek-v4-pro o deepseek-v4-flash

La página también dice que ambos modelos admiten:

Contexto 1M
Modos duales “Pensamiento / No pensamiento”
Compleciones de Chat OpenAI
API antrópicas

Eso significa que si ya utiliza la API de DeepSeek, la ruta de actualización no es especialmente difícil. El trabajo principal es actualizar los nombres de los modelos y validar el comportamiento.

8. El calendario de jubilación para modelos antiguos es explícito.

Para los desarrolladores, uno de los detalles más importantes de la página es en realidad el aviso de retirada de modelos más antiguos.

DeepSeek dice explícitamente:

chat de búsqueda profunda
razonador de búsqueda profunda

quedará completamente retirado y será inaccesible después del 24 de julio de 2026 a las 15:59 UTC. La página también señala que estos dos modelos están siendo encaminados actualmente a los modos de pensamiento y no pensamiento de “deepseek-v4-flash”.

Eso significa que si su proyecto todavía hace referencia directa a deepseek-chat o deepseek-reasoner, ahora es el momento de planificar la migración en lugar de esperar hasta que se acerque la fecha de cierre formal.

9. Por qué vale la pena leer este comunicado

Si comprimimos la actualización en algunas conclusiones principales, se ven así:

DeepSeek está convirtiendo el “contexto 1M” de una característica premium a un estándar predeterminado
La estrategia de dos modelos es más clara: uno apunta al techo de rendimiento, el otro apunta a la velocidad y la rentabilidad.
La capacidad del agente se ha trasladado a un papel muy central.
La ruta de actualización de API es relativamente directa, pero el cronograma de retiro del modelo antiguo necesita atención pronto.

Para los usuarios generales, el cambio más visible puede ser que los documentos largos, los contextos de código largos y los flujos de trabajo largos sean más fáciles de encajar en una sola sesión.
Para los desarrolladores, el punto más importante es que si ya están creando agentes, asistentes de codificación, flujos de trabajo de conocimiento o canales de automatización complejos, esta generación está muy claramente diseñada para esos escenarios.

Esta no es sólo una actualización rutinaria del modelo de DeepSeek. Se lee más como una declaración más clara de la próxima dirección de su producto: contexto ultralargo, optimización de agentes y preparación de API más práctica.

Enlaces relacionados

Página oficial de noticias de DeepSeek: https://api-docs.deepseek.com/news/news260424
Informe técnico: https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf
Pesos abiertos: https://huggingface.co/collections/deepseek-ai/deepseek-v4