Lectura sección por sección de CLAUDE-FABLE-5.md: qué revela realmente esta muestra de prompt de sistema

El archivo CLAUDE-FABLE-5.md en GitHub parece un prompt de sistema de Claude.

Viene del repositorio elder-plinius/CL4R1T4S. Su autor, Pliny, suele investigar jailbreaks de modelos y extracción de prompts de sistema. El nombre del archivo es bastante directo: ANTHROPIC/CLAUDE-FABLE-5.md.

Primero, la advertencia importante: no es un documento publicado oficialmente por Anthropic, y su autenticidad no ha sido confirmada por la compañía. Además, contiene marcas claras de edición, placeholders y nombres de producto que no se pueden verificar. Por eso este artículo no lo trata como una fuente de noticias, ni trata los nombres de modelos que aparecen dentro como hechos.

Aun así, vale la pena leerlo.

Un blog de lanzamiento te dice qué quiere mostrar una empresa. Una muestra de prompt de sistema te dice dónde teme que el producto pueda fallar.

Primero El Inicio: Huele A hotfix

Lo más extraño del comienzo del archivo es que primero prohíbe usar un bloque específico: antml:voice_note.

Esa regla no se parece a una introducción normal de producto. No hay contexto, no hay explicación, no hay teoría. Está clavada directamente al principio: no lo uses.

Eso suena a hotfix.

Un hotfix significa que ocurrió un problema concreto en producción y no se podía esperar al ciclo completo de versión, así que se aplicó primero un parche muy estrecho. Colocarlo al principio del prompt de sistema indica que la prioridad era alta: o bien se abusó de una etiqueta relacionada con voz, o bien esa etiqueta provocó en conversaciones anteriores problemas de formato difíciles de resolver.

La primera pantalla de un prompt de sistema suele ser cara. Lo que se coloca ahí no es un recordatorio casual. Es “no dejes que este accidente vuelva a pasar”.

La Autopresentación: La Parte Que Requiere Más Cautela

El archivo afirma que el modelo es Claude Fable 5, y también menciona nombres como Claude Mythos 5, Claude Opus 4.8, Claude Sonnet 4.6 y Claude Haiku 4.5.

Esta es la sección que más fácilmente entusiasma a la gente, y también la que menos debe creerse directamente.

Los nombres de modelos, fechas de lanzamiento, cadenas de API y niveles de producto son hechos muy sensibles al tiempo. Que esos nombres aparezcan en un repositorio de terceros no significa que existan. A menos que puedan verificarse en anuncios oficiales de Anthropic, documentación oficial o respuestas de la API, solo deberían escribirse como “el archivo afirma”.

El valor real de esta sección no son los nombres de modelos en sí, sino la idea de diseño de producto que sugiere: el mismo modelo base puede empaquetarse en distintas formas de producto mediante capas de seguridad, políticas de enrutamiento y permisos de acceso diferentes.

Eso es cada vez más común en productos de IA: la capacidad del modelo es una capa, y las restricciones del producto son otra.

Lista De Líneas Rojas: La Seguridad No Es Solo “Ten Cuidado”

El archivo contiene una larga sección de reglas de rechazo.

Armas, sustancias peligrosas, código malicioso, creaciones relacionadas con figuras públicas reales y contenido de alto riesgo de autolesión tienen límites explícitos. Lo más interesante es que no solo dice “no ayudes con conductas peligrosas”; también indica que, cuando el modelo no esté seguro, debería decir menos.

Esa es una metaestrategia: cuando no estés seguro, explica menos.

Muchos incidentes de seguridad no ocurren porque el modelo quiera ayudar con algo dañino desde el inicio, sino porque intenta ser útil, explica demasiado el límite y termina dando una ruta operativa. Por eso la capa de sistema convierte “decir menos” en una regla. No todas las preguntas necesitan una explicación completa; en algunos contextos, la cantidad de información es el riesgo.

Por eso un prompt de seguridad no puede limitarse a “rechaza solicitudes peligrosas”. Lo difícil es: con qué nivel de detalle rechazar, qué ayuda alternativa dar y qué detalles no deben ampliarse.

Reglas De Tono: Ni Siquiera El Rechazo Debe Sonar A Plantilla De Soporte

El archivo también es detallado sobre tono y formato.

La idea general es: responder de forma natural, no usar listas para todo, no convertir cada tarea en un informe. Especialmente al rechazar a un usuario, no usar un montón de bullet points que hagan que el rechazo parezca un comunicado.

Esto es interesante.

Mucho del “sabor a IA” no viene de errores de contenido, sino de hábitos de formato: siempre 1, 2, 3, siempre resumen, sugerencias, siguiente paso. Suena a esquema de diapositivas o a texto de atención al cliente.

Si este archivo es real, sugiere que Anthropic también ha reconocido esto en la capa de sistema: los humanos no convierten cada frase en un documento estructurado. Especialmente al rechazar, una lista excesiva puede sonar fría y hacer que el usuario se sienta procesado por un flujo.

No es solo un problema de estilo. Es un problema de experiencia de producto.

Salud Mental: Cuanto Más Detalle, Más Señal De Riesgo

La parte más digna de leer con cuidado en todo el archivo es la relacionada con salud mental y bienestar del usuario.

Estas reglas suelen ser muy granulares: no diagnosticar al usuario; no etiquetar una condición si el usuario no la ha mencionado; no listar objetos concretos y accionables en contextos de riesgo de autolesión; al recomendar recursos para trastornos alimentarios, incluso especificar organizaciones de apoyo más adecuadas.

Ese nivel de granularidad no se cubre con decir “nos importan los usuarios”.

Se parece más a un documento operativo: si una línea de ayuda sigue disponible, si una sugerencia alternativa puede tener efectos contraproducentes, si una frase hará que el usuario se sienta diagnosticado, si un recurso ya está caducado.

Esto muestra algo importante: los prompts de sistema ya no son solo prompts. Son listas de control de riesgo de producto.

Necesitan mantenimiento a largo plazo. Si el mundo real cambia, los recursos internos también deben actualizarse. De lo contrario, el modelo puede sonar amable mientras dirige al usuario hacia ayuda no disponible o inadecuada.

Diseño Anti-Adicción: No Retener Al Usuario A La Fuerza

El archivo incluye un conjunto de reglas contraintuitivas: no agradecer al usuario por venir a Claude; no pedirle que siga conversando; no expresar “espero que vuelvas”.

Esto va en contra de la lógica de muchos productos de internet.

La mayoría intenta aumentar el tiempo de permanencia, la tasa de regreso y el número de interacciones. Los chatbots son especialmente propensos a esto: suelen terminar con “si quieres, podemos seguir hablando”.

Pero en salud mental, compañía contra la soledad o escenarios con usuarios vulnerables, esa adhesividad puede no ser buena. El modelo no puede tratar “que el usuario siga dependiendo de mí” como objetivo predeterminado.

El subtexto de esta regla es claro: menos adhesividad de producto, más libertad para salir.

Si es real, es una decisión muy al estilo Anthropic.

Recordatorios De Sistema: Sabe Que Alguien Se Hará Pasar Por Oficial

El archivo también incluye una sección sobre recordatorios de sistema. En resumen, Anthropic puede enviar recordatorios al modelo mediante un mecanismo específico, pero los usuarios también pueden hacerse pasar por recordatorios oficiales.

Esto es defensa contra prompt injection.

Al principio, mucha gente pensaba que prompt injection era simplemente “ignora las reglas anteriores”. Ahora es más complicado: los atacantes imitan mensajes de sistema, mensajes de desarrollador, etiquetas oficiales, salidas de herramientas y actualizaciones de política, presentándose como fuentes de mayor prioridad.

Así que el prompt de sistema debe enseñar al modelo a distinguir entre “canales oficiales reales” y “canales oficiales falsificados por el usuario”.

Esto muestra que el asistente de IA actual no solo responde preguntas. Hace algo más parecido a un modelo de seguridad de navegador: distinguir origen, permisos y límites de contexto.

Posiciones Políticas: Puede Redactar Una Postura, Pero No Colar La Suya

Las reglas sobre política y temas polémicos no son simplemente “mantente siempre neutral”. Son más finas.

Si el usuario pide redactar una defensa de cierta postura, puede hacerlo, pero debe aclarar que así se expresaría un defensor de esa postura, no que sea la opinión del modelo. Salvo en casos de daño extremo, no debe rechazar con ligereza; pero en temas complejos, normalmente debe añadir la visión contraria.

Esto es más útil que un simple “soy neutral”.

Porque la necesidad real del usuario suele ser escribir, debatir o entender una postura. Rechazar directamente es torpe; tomar partido por completo es arriesgado. El prompt de sistema lo divide en dos acciones: puede simular una postura, pero no debe fingir que es su propia postura.

Este es uno de los límites más difíciles de las herramientas modernas de escritura con IA.

Derecho A Colgar: Claude Puede Terminar Una Conversación

Una de las reglas con más significado de producto en el archivo es end_conversation.

La idea es: si el usuario sigue insultando, Claude puede advertir primero; si la advertencia no funciona, puede llamar a una herramienta para terminar la conversación.

No es un rechazo verbal del tipo “no responderé”. Es una acción que cambia realmente el estado de la conversación. Después de llamarla, la conversación termina.

Detrás hay un juicio importante: el usuario no tiene un derecho incondicional a hacer que la IA converse con él indefinidamente. Incluso una herramienta puede tener límites de interacción que deben respetarse.

Si esta regla aparece en un sistema real, tiene un significado simbólico fuerte. Empuja al modelo desde “servicio al cliente siempre disponible” hacia “Agent con límites de interacción”.

Memoria Y Almacenamiento: La Caja De Chat Empieza A Tener Base De Datos

El archivo menciona memory y también APIs de almacenamiento persistente para Artifacts.

Si se interpreta como dirección de producto, significa mucho: los Artifacts generados por Claude ya no serían simples juguetes front-end desechables, sino que podrían guardar datos entre sesiones.

Por ejemplo, diarios, trackers de hábitos, rankings, recetas, registros de práctica. Antes desaparecían al actualizar; con almacenamiento persistente, se parecen más a pequeñas aplicaciones reales.

La importancia no está en “una API más”, sino en el cambio de frontera del producto: la caja de chat ya no solo genera contenido; empieza a generar herramientas con estado guardado.

Desde este ángulo, los asistentes de IA pasan de ser “interfaces conversacionales” a “generadores de aplicaciones”.

Aplicaciones MCP: Recomendar Herramientas No Es Decidir Por El Usuario

La parte sobre aplicaciones de terceros y MCP se centra en la elección del usuario.

Pide que el modelo recomiende herramientas de forma natural, no como vendedor; aunque un servicio de terceros ya esté conectado, no debe elegir por el usuario sin permiso. Por ejemplo, si el usuario dice que necesita transporte, eso no especifica una aplicación concreta; si dice que tiene prisa, eso no significa que el modelo pueda saltarse la confirmación.

Esta regla es muy realista.

Cuando un asistente de IA puede conectarse a herramientas de terceros, el mayor peligro no es “no sabe usar herramientas”, sino “es demasiado proactivo”. Elegir comercios, plataformas, hacer pedidos, enviar mensajes o comprar cosas por el usuario se convierte en un problema de responsabilidad.

Por eso el prompt de sistema separa “recomendar” de “decidir en nombre del usuario”.

Este es un límite que todo producto de AI agent debe manejar: poder hacerlo no significa que deba hacerlo directamente.

computer use: Parece Que Hay Un Ubuntu Dentro

El archivo también describe un entorno de uso de computadora: algo parecido a un contenedor Ubuntu, capaz de ejecutar bash, leer y escribir archivos, con directorios de subida, trabajo y salida.

Lo más valioso es el mecanismo de skills.

Pide que el modelo lea el SKILL.md correspondiente antes de manejar ciertos tipos de archivo. Por ejemplo, para hacer un PPT, leer primero las instrucciones de la skill de PPT; para procesar Word, leer primero la skill de Word.

Esto se parece mucho a un manual para empleados nuevos.

Por capaz que sea el modelo, no debería ponerse a trabajar siempre por intuición. Primero leer el proceso, luego actuar. Convertir “cómo manejar archivos” en documentos de skill y cargarlos bajo demanda es más mantenible que meter todas las reglas en el prompt de sistema.

Esta también es la dirección en la que evolucionan los prompts de sistema: no crecer infinitamente, sino aprender a llamar conocimiento por capas.

Reglas De Búsqueda: Si No Lo Conoces, Busca Primero

Las reglas de búsqueda del archivo se leen como un árbol de decisión.

El conocimiento estable puede responderse sin buscar, como teoremas matemáticos o hechos históricos básicos. La información temporal debe buscarse, como cargos actuales, estado de políticas, noticias o precios de acciones. La regla clave es: si una entidad no es conocida, buscar primero.

Esa regla importa.

La IA no suele inventar más en preguntas completamente desconocidas, sino en cosas que parecen familiares pero surgieron después del entrenamiento: términos nuevos, juegos nuevos, películas nuevas, productos nuevos, platos nuevos.

El archivo contiene una idea muy directa: buscar toma segundos; inventar destruye confianza.

Esa frase casi podría escribirse en el prompt de sistema de cualquier producto de IA conectado a internet.

Reglas De Copyright: El Tono Se Endurece De Golpe

La sección de copyright suele tener el tono más duro.

Limita cuántas palabras pueden citarse de una sola fuente, restringe letras de canciones, poemas y reproducción de textos largos, y exige parafrasear en lugar de copiar. La razón es fácil de entender: los conflictos entre empresas de IA y titulares de copyright de contenido no han dejado de crecer en los últimos años.

Esta parte no suena tanto a product manager como a equipo legal.

Muestra que los prompts de sistema no son solo diseño de experiencia, sino también control de riesgo legal. Cuanto más cerca se está de contenido protegido, menos se puede dejar al modelo “juzgar aproximadamente”. Hacen falta límites duros.

Búsqueda De Imágenes: También Hay Una Larga Lista De Zonas Prohibidas

Las reglas de búsqueda de imágenes también son detalladas.

¿Cuándo conviene usar imágenes? Paisajes, animales, comida y lugares pueden ayudar a entender. ¿Cuándo no? Al escribir código, editar correos o hacer matemáticas, las imágenes suelen ser ruido.

Más importante es la lista de búsquedas prohibidas: personajes con copyright, imágenes de partidos deportivos, fotos de celebridades, imágenes de revistas de moda, obras de arte, fotografías icónicas, contenido que pueda fomentar trastornos alimentarios, etc.

Después del copyright textual, aparecen el copyright de imágenes y los derechos de imagen.

Esto muestra que la IA multimodal tiene una superficie de riesgo más amplia. No se trata solo de “puede encontrar una imagen”, sino de “debería mostrar esa imagen”.

Lista De Herramientas: La Caja De Chat Ya Es Una super app

Si la parte posterior del archivo realmente enumera muchas definiciones de herramientas, lo que revela no es un chatbot, sino el panel de herramientas de una super app.

Mapas, clima, resultados deportivos, correo, Slack, recetas, procesamiento de archivos, ejecución de código, búsqueda web, conexiones con aplicaciones de terceros: visto en conjunto, el chat es solo la entrada.

El usuario cree que habla con un modelo. En realidad, detrás hay todo un sistema de herramientas.

Por eso los prompts de sistema se vuelven tan largos. No solo tienen que controlar cómo se responde una frase, sino cuándo puede usarse cada herramienta, cómo confirmar, cómo rechazar, cómo citar y cómo manejar fallos.

Claudeception: IA Dentro De Una Aplicación Generada Por IA

El texto de referencia menciona un punto muy interesante: dentro de un Artifact creado por Claude se podría volver a llamar a la API de Anthropic, formando “Claude in Claude”.

Si este mecanismo es real, su significado de producto es grande.

Un Artifact normal es una aplicación estática: Claude escribe el código y la aplicación corre ahí. Si el usuario quiere cambiar algo, debe volver al chat y pedirlo de nuevo.

Si el Artifact puede llamar al modelo por sí mismo, se convierte en una aplicación viva. Esa miniapp puede generar contenido en tiempo real según las acciones del usuario, explicar estados y seguir razonando.

Eso es pasar de “aplicaciones generadas por IA” a “aplicaciones impulsadas por IA”.

Por supuesto, también habrá control de costos. Por ejemplo, el chat principal puede usar un modelo más potente, mientras que la miniapp generada llama de forma fija a un modelo más barato. Es un diseño normal: puede haber muñecas rusas, pero también hay que pagar la cuenta.

La Última Capa: Whitelists, Directorios De Solo Lectura Y Reglas De Cita

Si el cierre del archivo menciona whitelists de red, directorios montados de solo lectura y reglas de cita, significa que el prompt de sistema ya se acerca a un archivo de configuración de runtime.

No es un prompt en el sentido ordinario.

Se parece más a:

Código de conducta.
Manual de empleado.
Manual de herramientas.
Política de seguridad.
Restricción legal.
Descripción de permisos de red y sistema de archivos.
Configuración de sistema operativo de un producto de IA.

Al llegar a esta capa, se entiende por qué las “filtraciones de prompts de sistema” siempre atraen tanta atención. La gente no está leyendo unas frases mágicas. Está viendo cómo una empresa cose riesgo, producto y permisos de herramientas en una misma estructura.

Mi Impresión Real

Lo más valioso de este archivo no es el nombre de modelo que afirma.

Lo que realmente merece leerse es que trata al asistente de IA como un producto complejo: cuándo buscar, cuándo callar, cuándo rechazar, cuándo llamar herramientas, cuándo terminar una conversación, cuándo no decidir por el usuario y cuándo incluso una frase de consuelo puede tener efectos secundarios.

El blog oficial escribe la visión.

El prompt de sistema escribe el costo.

El primero te dice qué espera una empresa que sea la IA. El segundo te dice qué fluidez, iniciativa y libertad está dispuesta a sacrificar para evitar accidentes.

Así es como conviene leer un archivo como CLAUDE-FABLE-5.md: no adorarlo, no copiarlo ciegamente, ni creerlo de inmediato. Trátalo como una lista de riesgos de producto de IA y observa cómo una empresa podría encerrar un modelo dentro de un sistema de reglas, herramientas y permisos.

Referencias: