Anthropic actualizó las Claude Platform release notes el 26 de junio de 2026: los rate limits de la API de Claude subieron, y los límites de Claude Sonnet y Claude Haiku ahora quedan alineados con Claude Opus en cada usage tier. Los usage tiers anteriores también se consolidaron en tres niveles más simples: Start, Build y Scale.
Según Anthropic, la mayoría de las organizaciones pasarán a un tier más alto, ninguna organización recibirá límites inferiores a los anteriores y los desarrolladores no tienen que hacer nada manualmente. Puedes revisar tu tier y tus limits actuales en Claude Console.
Notas de lanzamiento:
https://platform.claude.com/docs/en/release-notes/overview
Documentación de rate limits:
https://platform.claude.com/docs/en/api/rate-limits
Documentación de Rate Limits API:
https://platform.claude.com/docs/en/api/rate-limits-api
Lo más importante de esta actualización
Si solo usas la API de Claude para scripts ocasionales o herramientas pequeñas, quizá no notes el cambio de inmediato. Pero si ejecutas Claude Code, AI Agents, resúmenes por lotes, preguntas RAG o colas backend, esta actualización merece atención.
El cambio se puede resumir en tres puntos:
- Los límites generales de la API de Claude subieron.
- Los límites de Sonnet y Haiku se alinean con Opus dentro de cada usage tier.
- Los usage tiers se simplifican a
Start,BuildyScale.
¿Qué significa en la práctica? Antes, algunos desarrolladores tenían que revisar límites distintos al cambiar entre Opus, Sonnet y Haiku. Ahora la estructura de tiers y los límites por modelo son más fáciles de entender, algo útil para apps multimodelo, productos con Agents y plataformas internas.
Pero esto no significa que puedas abrir concurrencia sin control. La API de Claude sigue limitada por número de solicitudes, input tokens, output tokens y velocidad de crecimiento del tráfico.
Por qué importa a los desarrolladores
En muchas integraciones con Claude API, el problema real no es si el modelo puede responder. Es encontrarse de pronto con 429 después de pasar a producción.
Escenarios típicos:
- Un script local envía cientos de archivos a Claude para resumirlos.
- Una app con Agents ejecuta muchas llamadas a herramientas y solicitudes de contexto largo al mismo tiempo.
- Un sistema RAG mete resultados de búsqueda, historial de conversación y system prompts en un solo prompt.
- Una cola backend consume trabajos demasiado rápido y agota la capacidad de tokens en minutos.
- Las solicitudes fallidas activan reintentos automáticos y empeoran la congestión.
La subida de límites ayudará a que algunas cargas corran mejor. Pero si tu app puede amplificar solicitudes, todavía tienes que tratar los rate limits con seriedad. Más límite es una buena noticia, pero el throttling, las colas y la estrategia de reintentos siguen siendo necesarios.
Cómo entender Start, Build y Scale
Los nuevos usage tiers quedan en tres niveles:
| Nivel | Para qué encaja mejor |
|---|---|
Start |
Desarrolladores individuales, scripts pequeños, prototipos iniciales |
Build |
Apps con tráfico estable, herramientas internas de equipo |
Scale |
Producción, Agents de alta concurrencia, tareas por lotes e integraciones empresariales |
No copies números concretos desde un artículo. Claude Console y la documentación oficial deben ser la fuente de verdad. Los límites de Anthropic pueden cambiar según cuenta, organización, workspace, modelo y política de producto.
En términos simples: si solo escribes scripts de vez en cuando, lo importante es no subir demasiado la concurrencia. Si estás construyendo un producto real, trata Claude como un servicio externo que necesita planificación de capacidad, no como una llamada de función normal.
RPM, ITPM y OTPM siguen siendo clave
Los rate limits de la API de Claude no son solo “solicitudes por minuto”. La documentación usa con frecuencia tres métricas:
| Métrica | Significado | Dónde suele fallar |
|---|---|---|
RPM |
requests per minute, solicitudes por minuto | Muchas solicitudes pequeñas, alta concurrencia, demasiados reintentos automáticos |
ITPM |
input tokens per minute, input tokens por minuto | Prompts largos, contexto grande, demasiados resultados RAG |
OTPM |
output tokens per minute, output tokens por minuto | max_tokens demasiado alto, generación masiva de textos largos o código |
Muchos errores 429 no ocurren por exceso de solicitudes, sino por exceso de tokens. Por ejemplo, puedes enviar solo 10 solicitudes por minuto, pero si cada una lleva cientos de miles de input tokens, puedes chocar primero con ITPM. Al revés, si el prompt es corto pero el modelo genera informes largos en lote, puedes chocar primero con OTPM.
Por eso, al depurar no mires solo el número de llamadas API. Como mínimo, registra el nombre del modelo, workspace, input tokens, output tokens, estado de respuesta y número de reintentos.
Agents y tareas por lotes ganan más margen
La subida de límites también ayuda a solicitudes normales tipo chat, pero los beneficiarios más claros son Agents y tareas por lotes.
Una sola “solicitud de usuario” en una app con Agent puede esconder una cadena de llamadas a Claude API:
- Leer archivos.
- Resumir contexto.
- Llamar herramientas.
- Revisar resultados de herramientas.
- Planificar el siguiente paso.
- Producir la respuesta final.
Si varios usuarios lo usan al mismo tiempo, o si el backend también ejecuta trabajos por lotes, el consumo de tokens sube rápido. Con límites más altos, estas cargas tienen más margen y cambiar de modelo debería ser más fluido. Aun así, en producción conviene separar carriles: solicitudes online por una ruta de baja latencia, lotes por cola y tareas largas con límites de concurrencia propios.
No culpes solo al modelo por un 429
Cuando aparece 429, no conviene cambiar de modelo de inmediato ni subir los reintentos al máximo. Un orden de diagnóstico más útil es:
- Leer el mensaje de error y confirmar si es rate limit, quota u otra restricción.
- Revisar cabeceras de respuesta como limit, remaining y reset.
- Calcular los
RPM,ITPMyOTPMrecientes. - Ver si frontend, backend, cola y SDK están reintentando al mismo tiempo.
- Ver si tareas backend y solicitudes de usuario comparten la misma organización o workspace.
- Revisar si un aumento reciente de tráfico activó acceleration limits.
La documentación de Anthropic también menciona acceleration limits cuando el tráfico sube de forma repentina. Es decir, aunque el volumen promedio parezca razonable, una subida brusca puede activar límites.
Al lanzar una función nueva, lo más seguro es abrir tráfico gradualmente. Por ejemplo, actívala primero para el 5% de usuarios y mira 429, latencia, consumo de tokens y curva de costos antes de mandar todo el tráfico a Claude API.
Rate Limits API encaja en monitorización
Anthropic también ofrece Rate Limits API para consultar la configuración de límites de organizaciones y workspaces. Es útil para monitorización interna, paneles de administración y scripts de operaciones.
Puede servir para:
- Confirmar límites del workspace antes de desplegar.
- Mostrar capacidad disponible a distintas líneas de negocio.
- Explicar por qué staging funciona pero producción recibe
429. - Ajustar concurrencia de colas según los límites actuales.
- Crear alertas de capacidad antes de que los usuarios reporten errores.
Pero no debe sustituir el throttling de la aplicación. Tu servicio sigue necesitando colas, límites de concurrencia, exponential backoff y un máximo de reintentos.
Qué cambiar ahora en tu código
Si ya usas Claude API, empieza por algunas revisiones prácticas:
- Abre Claude Console y confirma si tu tier ya es
Start,BuildoScale. - Revisa los rate limits actuales de los modelos que usas de verdad. No dependas de capturas antiguas ni de memoria.
- Haz configurables la concurrencia, las solicitudes por minuto y los maximum output tokens.
- Pon las tareas por lotes detrás de una cola, en vez de golpear la API con un
fordirecto. - Usa exponential backoff para
429, con un máximo de reintentos. - Registra input tokens, output tokens, nombre del modelo, workspace y latencia de solicitud.
- Si reutilizas contexto largo, evalúa prompt caching, pero no lo trates como si no contara para ningún límite.
Esta actualización es claramente positiva: la API de Claude tiene más capacidad y los usage tiers son más fáciles de entender. Para los desarrolladores, la acción correcta no es “enviar más fuerte sin pensar”. Es usar ese margen extra para ordenar la cadena de llamadas, la monitorización y la estrategia de reintentos. Así los límites más altos se convierten en estabilidad, no en una forma más rápida de llegar al siguiente cuello de botella.