<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>Cost Optimization on KnightLi Blog</title>
        <link>https://knightli.com/es/tags/cost-optimization/</link>
        <description>Recent content in Cost Optimization on KnightLi Blog</description>
        <generator>Hugo -- gohugo.io</generator>
        <language>es</language>
        <lastBuildDate>Sun, 31 May 2026 14:17:42 +0800</lastBuildDate><atom:link href="https://knightli.com/es/tags/cost-optimization/index.xml" rel="self" type="application/rss+xml" /><item>
        <title>¿Cuántos tokens extra consume un subagent? Costes y estrategia de uso en flujos multi-agent</title>
        <link>https://knightli.com/es/2026/05/31/subagent-multi-agent-token-cost/</link>
        <pubDate>Sun, 31 May 2026 14:17:42 +0800</pubDate>
        
        <guid>https://knightli.com/es/2026/05/31/subagent-multi-agent-token-cost/</guid>
        <description>&lt;p&gt;Usar subagents o un flujo multi-agent normalmente aumenta el uso de tokens. La pregunta no es si aumenta, sino cuánto aumenta y si la mejora en velocidad o estabilidad compensa ese coste adicional.&lt;/p&gt;
&lt;p&gt;Para tareas pequeñas, suele ser más barato que el agent principal haga el trabajo directamente. Los subagents tienen más sentido cuando la tarea se puede dividir con claridad, o cuando merece la pena una revisión independiente.&lt;/p&gt;
&lt;h2 id=&#34;un-subagent-no-es-un-hilo-paralelo-más-barato&#34;&gt;Un subagent no es un hilo paralelo más barato
&lt;/h2&gt;&lt;p&gt;Al ver subagents por primera vez, es fácil imaginarlos como hilos paralelos: el agent principal hace una parte, el subagent hace otra, la tarea termina antes y por tanto debería ser más eficiente.&lt;/p&gt;
&lt;p&gt;Pero no funciona así. Un subagent también es una llamada independiente al modelo. Necesita leer la tarea, entender el contexto, inspeccionar archivos, razonar sobre el problema y producir una salida. No es una copia gratuita del agent principal; es una ruta de razonamiento adicional.&lt;/p&gt;
&lt;p&gt;Por eso la pregunta clave no es &amp;ldquo;¿puede ejecutarse en paralelo?&amp;rdquo;, sino &amp;ldquo;¿el tiempo ahorrado o la mejora de calidad justifican el coste extra en tokens?&amp;rdquo;.&lt;/p&gt;
&lt;h2 id=&#34;por-qué-aumenta-el-uso-de-tokens&#34;&gt;Por qué aumenta el uso de tokens
&lt;/h2&gt;&lt;p&gt;Una llamada a un subagent suele añadir consumo de tokens en varias partes:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;la descripción de la tarea que escribe el agent principal;&lt;/li&gt;
&lt;li&gt;el contexto que se pasa al subagent;&lt;/li&gt;
&lt;li&gt;los archivos y detalles que el subagent lee;&lt;/li&gt;
&lt;li&gt;el razonamiento y la salida del propio subagent;&lt;/li&gt;
&lt;li&gt;la revisión, integración y verificación posterior del agent principal.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Si varios agents leen los mismos archivos grandes, el desperdicio se vuelve más evidente. Esto ocurre especialmente en análisis de codebases, traducción de documentos largos y limpieza de contenido por lotes. Si la división es mala, muchos tokens se gastan en entender repetidamente el mismo contexto.&lt;/p&gt;
&lt;h2 id=&#34;releer-contexto-es-el-mayor-desperdicio-de-tokens&#34;&gt;Releer contexto es el mayor desperdicio de tokens
&lt;/h2&gt;&lt;p&gt;El mayor desperdicio no suele ser &amp;ldquo;abrir un agent más&amp;rdquo;, sino hacer que varios agents lean los mismos materiales una y otra vez.&lt;/p&gt;
&lt;p&gt;Por ejemplo, supongamos que una tarea debe procesar 6 artículos. Si 4 agents empiezan leyendo toda la estructura del sitio, toda la documentación de skills y toda la lista de artículos antes de tocar una parte pequeña, la paralelización sale cara. Una mejor opción es que el agent principal defina primero los límites y que cada subagent lea solo el directorio del artículo que le corresponde.&lt;/p&gt;
&lt;p&gt;Una división más barata suele verse así:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;cada agent se encarga de un directorio claro;&lt;/li&gt;
&lt;li&gt;el contexto enviado a cada subagent es lo más corto posible;&lt;/li&gt;
&lt;li&gt;varios agents no repiten la misma exploración;&lt;/li&gt;
&lt;li&gt;el agent principal hace la revisión final una sola vez, en lugar de pedir a cada agent una revisión completa;&lt;/li&gt;
&lt;li&gt;las comprobaciones que se pueden automatizar con scripts se ejecutan una vez, no se repiten con varios agents.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;En otras palabras, controlar el coste de los subagents depende sobre todo de los límites, no solo del número de agents.&lt;/p&gt;
&lt;h2 id=&#34;cuánto-puede-aumentar&#34;&gt;Cuánto puede aumentar
&lt;/h2&gt;&lt;p&gt;La siguiente tabla es una estimación aproximada. El consumo real depende de la longitud del contexto, el tamaño de los archivos, la complejidad de la tarea y el número de agents.&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;Escenario&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;Aumento de tokens&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;Un subagent procesa una tarea pequeña&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;Aproximadamente &lt;code&gt;1.2x - 2x&lt;/code&gt;&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;2-4 agents procesan en paralelo una tarea bien dividida&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;Aproximadamente &lt;code&gt;2x - 5x&lt;/code&gt;&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Varios agents leen muchos archivos y hacen análisis largos&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;Posiblemente &lt;code&gt;5x+&lt;/code&gt;&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;El agent principal y los subagents leen repetidamente los mismos archivos grandes&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;El desperdicio más evidente&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;No es una fórmula exacta de facturación, solo un rango práctico. El consumo real también depende de si cada agent necesita leer archivos completos, hacer razonamiento largo o esperar varias veces a que se le pase más contexto.&lt;/p&gt;
&lt;h2 id=&#34;cómo-escribir-una-tarea-de-subagent-que-consuma-menos-tokens&#34;&gt;Cómo escribir una tarea de subagent que consuma menos tokens
&lt;/h2&gt;&lt;p&gt;Cuanto más amplia sea la instrucción, más probable es que el subagent explore por su cuenta, y eso aumenta el consumo de tokens. Una instrucción más barata define los límites con claridad.&lt;/p&gt;
&lt;p&gt;Una buena tarea para subagent debería incluir:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;qué archivos o directorios puede procesar;&lt;/li&gt;
&lt;li&gt;qué archivos son solo de lectura y cuáles puede modificar;&lt;/li&gt;
&lt;li&gt;si puede sobrescribir archivos existentes;&lt;/li&gt;
&lt;li&gt;qué campos debe conservar, como &lt;code&gt;date&lt;/code&gt;, &lt;code&gt;slug&lt;/code&gt; y &lt;code&gt;aliases&lt;/code&gt;;&lt;/li&gt;
&lt;li&gt;qué debe incluir el informe final;&lt;/li&gt;
&lt;li&gt;qué no debe hacer, por ejemplo no ejecutar una build completa ni editar archivos no relacionados.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Para una traducción, no basta con decir &amp;ldquo;traduce este artículo a varios idiomas&amp;rdquo;. Una instrucción más eficiente sería: &amp;ldquo;Procesa solo &lt;code&gt;content/post/2026/05/240&lt;/code&gt;; lee &lt;code&gt;index.zh-cn.md&lt;/code&gt;; crea solo los archivos que falten: &lt;code&gt;index.en.md&lt;/code&gt;, &lt;code&gt;index.zh-tw.md&lt;/code&gt;, &lt;code&gt;index.ja.md&lt;/code&gt; e &lt;code&gt;index.es.md&lt;/code&gt;; si ya existen, omítelos; conserva &lt;code&gt;date&lt;/code&gt; y &lt;code&gt;slug&lt;/code&gt;.&amp;rdquo;&lt;/p&gt;
&lt;p&gt;La instrucción es un poco más larga, pero reduce las suposiciones y la exploración repetida. En conjunto suele salir más barata.&lt;/p&gt;
&lt;h2 id=&#34;dividir-por-archivo-o-directorio-es-más-barato-que-dividir-por-idioma-o-paso&#34;&gt;Dividir por archivo o directorio es más barato que dividir por idioma o paso
&lt;/h2&gt;&lt;p&gt;Para traducción por lotes, dividir por directorio de artículo suele ser mejor que dividir por idioma.&lt;/p&gt;
&lt;p&gt;Supongamos que hay 6 artículos y cada uno necesita versiones en inglés, chino tradicional, japonés y español. Es mejor que un agent se encargue de todos los idiomas dentro de un directorio de artículo, en lugar de asignar un agent a todos los archivos en inglés y otro a todos los archivos en japonés.&lt;/p&gt;
&lt;p&gt;La razón es simple: el front matter, los bloques de código, los enlaces, las tablas y el contexto semántico de un artículo solo necesitan leerse una vez. Si divides por idioma, varios agents leen el mismo texto fuente repetidamente y el consumo de tokens aumenta.&lt;/p&gt;
&lt;p&gt;La misma lógica aplica a tareas de código. Es mejor dividir por módulo, directorio o componente que por pasos como &amp;ldquo;primero analizar, luego implementar, luego probar&amp;rdquo;. Dividir por pasos suele obligar a cada agent a releer el mismo contexto.&lt;/p&gt;
&lt;h2 id=&#34;cuándo-merece-la-pena-usar-subagents&#34;&gt;Cuándo merece la pena usar subagents
&lt;/h2&gt;&lt;p&gt;El valor de los subagents viene principalmente de dos cosas: paralelismo y una perspectiva independiente.&lt;/p&gt;
&lt;p&gt;Casos adecuados:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;traducir varios artículos por lotes;&lt;/li&gt;
&lt;li&gt;editar varios directorios independientes;&lt;/li&gt;
&lt;li&gt;separar claramente trabajo de frontend, backend y pruebas;&lt;/li&gt;
&lt;li&gt;un agent implementa y otro revisa riesgos;&lt;/li&gt;
&lt;li&gt;cambios de alto riesgo que necesitan una segunda perspectiva.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;En estos casos, el uso de tokens aumenta, pero el tiempo total puede bajar de forma notable. Además, cada agent puede concentrarse en una parte concreta del trabajo.&lt;/p&gt;
&lt;h2 id=&#34;cuándo-merece-la-pena-usar-un-agent-de-revisión&#34;&gt;Cuándo merece la pena usar un agent de revisión
&lt;/h2&gt;&lt;p&gt;Un agent de revisión no siempre vale la pena. Es más útil cuando la tarea es arriesgada, tiene mucho impacto o es fácil que el agent principal pase por alto detalles.&lt;/p&gt;
&lt;p&gt;Casos en los que puede valer la pena añadir un agent de revisión:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;cambios relacionados con inicio de sesión, pagos, permisos o borrado de datos;&lt;/li&gt;
&lt;li&gt;contenido multilingüe que afecta categorías, URLs o enlaces internos;&lt;/li&gt;
&lt;li&gt;refactors amplios que necesitan revisión independiente de regresiones;&lt;/li&gt;
&lt;li&gt;el usuario pide explícitamente code review o revisión de riesgos;&lt;/li&gt;
&lt;li&gt;el agent principal ya implementó el cambio y hace falta una segunda mirada sobre casos límite.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;También hay casos claros en los que no compensa: cambios pequeños en un solo archivo, ajustes de título, correcciones simples de front matter o ejecutar un solo comando. Para eso, la autocomprobación del agent principal suele ser suficiente.&lt;/p&gt;
&lt;h2 id=&#34;cuándo-no-merece-la-pena&#34;&gt;Cuándo no merece la pena
&lt;/h2&gt;&lt;p&gt;Los subagents no suelen merecer la pena en estos casos:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;cambios pequeños en un solo archivo;&lt;/li&gt;
&lt;li&gt;preguntas y respuestas simples;&lt;/li&gt;
&lt;li&gt;ejecutar un único comando;&lt;/li&gt;
&lt;li&gt;cambios de alcance muy pequeño;&lt;/li&gt;
&lt;li&gt;tareas que no se pueden dividir claramente;&lt;/li&gt;
&lt;li&gt;tareas en las que el subagent debe esperar varias veces a que el agent principal le pase contexto.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;En estos casos, usar un subagent suele añadir sobrecarga. El agent principal es más rápido y más barato.&lt;/p&gt;
&lt;h2 id=&#34;mi-estrategia-por-defecto-ahorrar-tokens-primero-y-añadir-revisión-solo-por-riesgo&#34;&gt;Mi estrategia por defecto: ahorrar tokens primero y añadir revisión solo por riesgo
&lt;/h2&gt;&lt;p&gt;Si el objetivo es ahorrar tokens, una estrategia conservadora funciona bien:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Tareas pequeñas: no usar subagents.&lt;/li&gt;
&lt;li&gt;Tareas medianas: no usar subagents.&lt;/li&gt;
&lt;li&gt;Tareas grandes por lotes: no usar subagents por defecto, salvo que el usuario pida explícitamente paralelizar para ganar velocidad.&lt;/li&gt;
&lt;li&gt;Tareas de alto riesgo: considerar un agent adicional de revisión, intercambiando tokens por estabilidad.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Esta estrategia renuncia a parte de la velocidad paralela, pero reduce la lectura repetida de contexto y el razonamiento duplicado.&lt;/p&gt;
&lt;p&gt;Si una tarea es grande pero no es de alto riesgo, primero conviene mirar scripts, comprobaciones por lotes y procesamiento local estructurado. Varios agents tienen más sentido cuando la división es muy clara o cuando el usuario quiere explícitamente más velocidad mediante paralelización.&lt;/p&gt;
&lt;h2 id=&#34;una-estrategia-más-equilibrada&#34;&gt;Una estrategia más equilibrada
&lt;/h2&gt;&lt;p&gt;Si quieres controlar el coste sin renunciar del todo al paralelismo, una estrategia intermedia sería:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;por defecto, el agent principal hace el trabajo directamente;&lt;/li&gt;
&lt;li&gt;considerar subagents solo cuando la tarea se puede dividir claramente por archivo o directorio;&lt;/li&gt;
&lt;li&gt;cada subagent lee solo los archivos que le corresponden;&lt;/li&gt;
&lt;li&gt;no permitir que varios agents lean los mismos archivos grandes;&lt;/li&gt;
&lt;li&gt;el agent principal hace la revisión final de campos clave, resultados de pruebas y Git diff;&lt;/li&gt;
&lt;li&gt;añadir un agent de revisión independiente solo en tareas de alto riesgo.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Así se evita paralelizar por paralelizar. Los subagents deberían servir a un objetivo claro de velocidad o calidad, no convertirse en la acción por defecto.&lt;/p&gt;
&lt;h2 id=&#34;resumen&#34;&gt;Resumen
&lt;/h2&gt;&lt;p&gt;Los subagents y los flujos multi-agent siempre aumentan el uso de tokens. Un solo subagent puede añadir poco, pero varios agents en paralelo pueden multiplicar el coste.&lt;/p&gt;
&lt;p&gt;Que merezca la pena depende de la tarea. Si el trabajo se puede dividir con claridad, o si el riesgo justifica una revisión independiente, los tokens extra pueden tener sentido. Para cambios pequeños en un solo archivo, preguntas simples o comprobaciones rutinarias, es más barato que el agent principal lo haga directamente.&lt;/p&gt;
&lt;p&gt;En una frase: &lt;strong&gt;ahorra tokens en tareas pequeñas, divide solo cuando los límites sean claros y usa agents extra para estabilidad solo cuando el riesgo lo justifique.&lt;/strong&gt;&lt;/p&gt;
</description>
        </item>
        
    </channel>
</rss>
