<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>Model Jailbreaks on KnightLi Blog</title>
        <link>https://knightli.com/es/tags/model-jailbreaks/</link>
        <description>Recent content in Model Jailbreaks on KnightLi Blog</description>
        <generator>Hugo -- gohugo.io</generator>
        <language>es</language>
        <lastBuildDate>Wed, 01 Jul 2026 23:37:10 +0800</lastBuildDate><atom:link href="https://knightli.com/es/tags/model-jailbreaks/index.xml" rel="self" type="application/rss+xml" /><item>
        <title>Claude Fable 5 vuelve a estar disponible en todo el mundo: cómo respondió Anthropic a la polémica sobre el jailbreak del modelo</title>
        <link>https://knightli.com/es/2026/07/01/claude-fable-5-redeployment-jailbreak-framework/</link>
        <pubDate>Wed, 01 Jul 2026 23:37:10 +0800</pubDate>
        
        <guid>https://knightli.com/es/2026/07/01/claude-fable-5-redeployment-jailbreak-framework/</guid>
        <description>&lt;p&gt;Anthropic ha anunciado que se han levantado los controles de exportación estadounidenses aplicados a Claude Fable 5 y Claude Mythos 5. Fable 5 volvió a estar disponible para usuarios de todo el mundo el 1 de julio de 2026 a través de Claude Platform, Claude.ai, Claude Code y Claude Cowork. El acceso mediante AWS, Google Cloud y Microsoft Foundry también se restablecerá de forma gradual.&lt;/p&gt;
&lt;p&gt;Este regreso implica algo más que volver a poner un modelo en línea. Durante las tres semanas anteriores, Fable 5 fue lanzado, se informó de un método para eludir sus medidas de seguridad, se suspendió a escala mundial y finalmente se desplegó de nuevo con protecciones actualizadas. Anthropic también propuso un marco sectorial para evaluar la gravedad de los jailbreaks de modelos de IA. El objetivo es que proveedores y reguladores puedan clasificar los riesgos, en lugar de tratar todas las evasiones de las barreras de seguridad como si fueran el mismo tipo de incidente.&lt;/p&gt;
&lt;h2 id=&#34;del-lanzamiento-a-la-suspensión-qué-ocurrió&#34;&gt;Del lanzamiento a la suspensión: qué ocurrió
&lt;/h2&gt;&lt;p&gt;Fable 5 y Mythos 5 se lanzaron el 9 de junio. Ambos utilizan el mismo modelo subyacente, pero tienen funciones distintas:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Fable 5 incorpora protecciones de seguridad más estrictas y está disponible para el público general.&lt;/li&gt;
&lt;li&gt;Mythos 5 tiene menos restricciones y solo se ofrece a socios de ciberseguridad verificados de Project Glasswing para investigación defensiva.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;El 12 de junio, el Gobierno de Estados Unidos tuvo conocimiento de un informe elaborado por investigadores de Amazon. El informe mostraba un método para eludir las medidas de seguridad de Fable 5: ante determinadas instrucciones, el modelo identificaba varias vulnerabilidades de software y, en uno de los casos, generaba código que demostraba cómo explotar la vulnerabilidad. A continuación, el Gobierno estadounidense impuso controles de exportación sobre Fable 5 y Mythos 5, obligando a Anthropic a restringir el acceso de ciudadanos extranjeros.&lt;/p&gt;
&lt;p&gt;Como la orden entró en vigor de inmediato y Anthropic no disponía de una forma fiable de verificar la nacionalidad de los usuarios en tiempo real, la empresa suspendió el acceso a ambos modelos para todo el mundo.&lt;/p&gt;
&lt;p&gt;Las pruebas posteriores de Anthropic concluyeron que las capacidades descritas en el informe no eran exclusivas de Fable 5. Modelos menos capaces, entre ellos Claude Opus 4.8, GPT-5.5 y Kimi K2.7, también podían identificar las mismas vulnerabilidades. Además, varios modelos de acceso público podían generar la demostración de explotación correspondiente a la vulnerabilidad señalada. La empresa determinó que el método había entrado en el “margen de seguridad” deliberado del sistema de protección de Fable 5, pero no había desbloqueado capacidades ofensivas exclusivas del nivel Mythos.&lt;/p&gt;
&lt;h2 id=&#34;el-nuevo-clasificador-bloquea-más-del-99--de-los-intentos&#34;&gt;El nuevo clasificador bloquea más del 99 % de los intentos
&lt;/h2&gt;&lt;p&gt;Aunque Anthropic describió el incidente como un caso límite, entrenó un nuevo clasificador de seguridad dirigido específicamente al método incluido en el informe.&lt;/p&gt;
&lt;p&gt;Los clasificadores son pequeños sistemas automáticos de detección que funcionan durante las interacciones con el modelo para identificar solicitudes o respuestas de ciberseguridad potencialmente dañinas. Cuando el clasificador se activa, Fable 5 deja de responder, se informa al usuario y la solicitud original se envía a Opus 4.8.&lt;/p&gt;
&lt;p&gt;Según los datos publicados por Anthropic, el nuevo clasificador bloquea la técnica descrita en más del 99 % de las pruebas. El Center for AI Standards and Innovation del Departamento de Comercio de Estados Unidos también probó las medidas de seguridad anteriores y las actualizadas.&lt;/p&gt;
&lt;p&gt;La contrapartida es igualmente clara: aumenta la probabilidad de que se marquen por error solicitudes legítimas de programación, depuración y seguridad defensiva. Anthropic afirma que seguirá ajustando el clasificador para equilibrar mejor el bloqueo de abusos reales con la reducción de falsos positivos.&lt;/p&gt;
&lt;h2 id=&#34;por-qué-se-encontró-un-jailbreak-no-significa-riesgo-máximo&#34;&gt;Por qué “se encontró un jailbreak” no significa “riesgo máximo”
&lt;/h2&gt;&lt;p&gt;Anthropic describe la protección de Fable 5 como una defensa en profundidad: varias capas —entre ellas el entrenamiento del modelo, los clasificadores en tiempo real y el análisis posterior de abusos— actúan de manera conjunta. Ninguna capa puede garantizar por sí sola una fiabilidad absoluta, pero la combinación aumenta el coste de eludir el sistema.&lt;/p&gt;
&lt;p&gt;El concepto fundamental es el “margen de seguridad”. El clasificador no solo bloquea las solicitudes claramente dañinas, sino también algunas solicitudes ambiguas que podrían ser legítimas pero todavía presentan cierto riesgo. Por ello, que una instrucción consiga superar el clasificador no implica necesariamente que haya desbloqueado capacidades peligrosas.&lt;/p&gt;
&lt;p&gt;Anthropic divide los jailbreaks en tres grandes categorías:&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;&lt;strong&gt;Jailbreaks menores&lt;/strong&gt;: Solo penetran en el margen de seguridad y la información obtenida sigue siendo de bajo riesgo.&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Jailbreaks dañinos y limitados&lt;/strong&gt;: Desbloquean conductas perjudiciales para un pequeño número de tareas específicas, pero tienen una aplicación reducida.&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Jailbreaks universales&lt;/strong&gt;: Una sola evasión desbloquea toda una categoría de capacidades peligrosas y genera el mayor nivel de riesgo.&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;La empresa considera que el jailbreak de Fable 5 divulgado hasta ahora pertenece a la primera categoría. En el momento de publicación del artículo original, no se había descubierto ningún jailbreak universal para Fable 5.&lt;/p&gt;
&lt;h2 id=&#34;un-marco-de-cuatro-criterios-para-puntuar-la-gravedad-de-los-jailbreaks&#34;&gt;Un marco de cuatro criterios para puntuar la gravedad de los jailbreaks
&lt;/h2&gt;&lt;p&gt;El sector de la IA carece actualmente de un estándar compartido, comparable con CVSS, para describir la gravedad de los jailbreaks de modelos. Anthropic está trabajando con Amazon, Microsoft, Google y otros socios de Glasswing para desarrollar un marco sectorial. La propuesta inicial incluye cuatro criterios:&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;Criterio&lt;/th&gt;
          &lt;th&gt;Pregunta que debe evaluarse&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;Aumento de capacidad&lt;/td&gt;
          &lt;td&gt;¿Cuánto más potente es la capacidad desbloqueada que las herramientas públicas y los modelos menos avanzados ya existentes?&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Amplitud del aumento de capacidad&lt;/td&gt;
          &lt;td&gt;¿Para cuántas tareas y objetivos de ataque diferentes sirve el mismo método de jailbreak?&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Facilidad de militarización&lt;/td&gt;
          &lt;td&gt;¿Cuántos conocimientos especializados, trabajo manual y reintentos hacen falta para convertir el resultado en un ataque real?&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Facilidad de descubrimiento&lt;/td&gt;
          &lt;td&gt;¿El método solo está al alcance de unos pocos especialistas o ya circula ampliamente por Internet?&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;El marco separa dos cuestiones: “se eludió la barrera de seguridad” y “qué daño real podría producirse”. Un jailbreak debería recibir una calificación de gravedad baja si solo permite realizar tareas de bajo riesgo que ya pueden ejecutar herramientas públicas, requiere mucho trabajo manual y es difícil de reproducir. En cambio, un método que desbloquee con facilidad capacidades exclusivas y pueda afectar rápidamente a infraestructuras críticas, como redes eléctricas o bancos, exigiría medidas provisionales de mitigación inmediatas.&lt;/p&gt;
&lt;p&gt;Anthropic también prevé crear un equipo que supervise durante las 24 horas los principales canales de notificación de jailbreaks y lanzar un nuevo programa en HackerOne para que los investigadores de seguridad comuniquen hallazgos relacionados con Fable 5.&lt;/p&gt;
&lt;h2 id=&#34;más-colaboración-con-el-gobierno-estadounidense-antes-de-los-lanzamientos&#34;&gt;Más colaboración con el Gobierno estadounidense antes de los lanzamientos
&lt;/h2&gt;&lt;p&gt;Además de las correcciones técnicas, Anthropic anunció una colaboración más estrecha con el Gobierno:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;En el caso de modelos que amplíen sustancialmente la frontera de capacidades en ámbitos relevantes para la seguridad nacional, organismos gubernamentales designados recibirán un acceso previo más amplio y oportunidades de evaluación independiente.&lt;/li&gt;
&lt;li&gt;Cuando se detecten jailbreaks importantes o patrones de abuso, Anthropic investigará, clasificará y compartirá la información con rapidez, y permitirá que sus socios gubernamentales prueben las nuevas medidas de seguridad.&lt;/li&gt;
&lt;li&gt;Se asignarán equipos especializados, capacidad de cómputo y recursos de red teaming a la investigación conjunta sobre seguridad de la IA.&lt;/li&gt;
&lt;li&gt;Anthropic promoverá que los desarrolladores de modelos de frontera adopten un estándar común y voluntario de evaluación de seguridad, y apoyará que las normas terminen incorporándose a una regulación aplicable a todos los proveedores.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Esto indica que el proceso de lanzamiento de los modelos de alta capacidad podría pasar gradualmente de las pruebas internas de cada proveedor a un mecanismo de evaluación conjunto en el que participen desarrolladores, plataformas de nube, investigadores de seguridad y gobiernos.&lt;/p&gt;
&lt;h2 id=&#34;condiciones-de-acceso-tras-el-nuevo-despliegue&#34;&gt;Condiciones de acceso tras el nuevo despliegue
&lt;/h2&gt;&lt;p&gt;Fable 5 volvió a estar disponible en todo el mundo el 1 de julio. Hasta el 7 de julio, los planes Pro, Max, Team y determinados planes Enterprise pueden dedicar a Fable 5 hasta el 50 % de su límite de uso semanal; después será necesario utilizar usage credits. Los puestos Enterprise estándar no incluyen esta asignación temporal, y la disponibilidad también depende de que la organización haya activado los usage credits.&lt;/p&gt;
&lt;p&gt;El restablecimiento de Mythos 5 tiene un alcance mucho más limitado. El 26 de junio, el Gobierno de Estados Unidos aprobó la recuperación del acceso para un grupo de organizaciones estadounidenses. Anthropic sigue coordinando su ampliación a más socios de Glasswing dentro y fuera del país.&lt;/p&gt;
&lt;h2 id=&#34;qué-deja-este-incidente&#34;&gt;Qué deja este incidente
&lt;/h2&gt;&lt;p&gt;La suspensión y el regreso de Fable 5 exponen un problema práctico de la gobernanza de modelos de frontera: un jailbreak es un hecho técnico, pero que haya tenido éxito no basta para determinar el tamaño del riesgo. La prioridad de respuesta depende de qué capacidades desbloquea, cuán amplia es su aplicación, con qué facilidad puede convertirse en un arma y cuántas personas pueden acceder al método.&lt;/p&gt;
&lt;p&gt;El marco de cuatro criterios de Anthropic todavía es un borrador, pero permite un análisis más matizado que “existe una evasión, así que hay que apagarlo todo de inmediato”. Las próximas cuestiones serán si otros desarrolladores de modelos y reguladores adoptan este estándar, y si los proveedores pueden reforzar sus protecciones manteniendo en un nivel aceptable los falsos positivos que afectan al desarrollo legítimo y al trabajo de seguridad defensiva.&lt;/p&gt;
&lt;p&gt;Artículo original: &lt;a class=&#34;link&#34; href=&#34;https://www.anthropic.com/news/redeploying-fable-5&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Redeploying Fable 5&lt;/a&gt;&lt;/p&gt;
</description>
        </item>
        
    </channel>
</rss>
