CLAUDE-FABLE-5.md 逐段读：这份系统提示词样本真正暴露了什么

GitHub 上那份 CLAUDE-FABLE-5.md，看起来像一份 Claude 系统提示词。

它来自 elder-plinius/CL4R1T4S 仓库。仓库作者是经常研究模型越狱和系统提示词提取的 Pliny。文件名写得很直白：ANTHROPIC/CLAUDE-FABLE-5.md。

先把话说在前面：这不是 Anthropic 官方发布的文档，真实性没有官方确认。里面还有一些明显的编辑痕迹、占位符和无法核验的产品名。所以这篇不把它当新闻源，也不把里面的模型名当事实。

但它仍然值得看。

发布博客告诉你一家公司希望你看到什么；系统提示词样本则告诉你，它担心产品在什么地方出事。

先看开头：一上来就是 hotfix 味道

文件开头最怪的地方，是先禁止使用一个特定的 antml:voice_note 块。

这种规则很不像正常产品介绍。它没有铺垫，没有解释，也不讲原理，就是直接钉在最前面：不要用。

这很像 hotfix。

所谓 hotfix，就是线上出了一个具体问题，等不到完整版本周期，先打一个范围很窄的小补丁。放在系统提示词最顶部，说明这件事优先级很高：要么某个语音相关标签被滥用过，要么它在历史对话里触发过难收拾的格式问题。

系统提示词的第一屏通常很贵。能放在这里的，不是“顺手提醒”，而是“别再出这个事故”。

自我介绍：最需要谨慎的一段

文件声称模型是 Claude Fable 5，还提到 Claude Mythos 5、Claude Opus 4.8、Claude Sonnet 4.6、Claude Haiku 4.5 等名字。

这一段最容易让人兴奋，也最不能直接相信。

模型名、发布日期、API 字符串、产品层级都属于强时效事实。第三方仓库里出现这些名字，不等于它们存在。除非能在 Anthropic 官方公告、官方文档、API 返回值里核验，否则只能写成“该文件声称”。

这一段真正有价值的，不是模型名本身，而是它透露的产品设计思路：同一底座模型，可能通过不同安全层、不同路由策略、不同访问权限，包装成不同产品形态。

这才是 AI 产品现在越来越常见的做法：模型能力是一层，产品约束是另一层。

红线清单：安全规则不是一句“注意安全”

文件里有一大段拒答规则。

武器、危险物质、恶意代码、现实公众人物相关创作、高风险自伤内容，都有明确边界。更有意思的是，它不只是说“不要帮助危险行为”，还会规定模型在不确定时应该少说。

这是一条元策略：拿不准的时候，少解释。

很多安全事故不是因为模型一开始就想帮坏事，而是它为了显得有帮助，把边界解释得太细，反而给了操作路径。所以系统层会把“少说”写成规则。不是每个问题都需要完整科普，有些场景里，信息量本身就是风险。

这也是为什么安全提示词不能只写一句“拒绝危险请求”。真正的难点是：拒绝到什么粒度，替代帮助给到哪里，哪些词不能展开。

语气规则：连拒绝都不许像客服模板

文件对语气和排版的要求也很细。

大意是：回答要自然，不要动不动列点，不要把每个任务都写成报告。尤其在拒绝用户时，不要用一堆 bullet point 把拒绝写得像公告。

这点很有意思。

很多 AI 的“AI 味”，不是来自内容错，而是来自排版习惯：动不动 1、2、3，动不动总结、建议、下一步，像 PPT 提纲，也像客服话术。

如果这份文件是真的，它说明 Anthropic 在系统层面也意识到了这个问题：人类说话不是每句话都要做成结构化文档。尤其是拒绝时，过度列表化会显得冷硬，也容易让用户觉得自己被流程化处理。

这不是单纯文风问题，而是产品体验问题。

心理健康：写得越细，说明越怕出事

整份文件里最值得细看的，是心理健康和用户福祉相关规则。

这类规则往往写得很细：不能替用户诊断；用户没有自称某种疾病时，不要直接给标签；自伤风险里不要列出具体可操作物品；遇到饮食失调资源推荐时，甚至会指定更合适的援助组织。

这种颗粒度，不是“关心用户”四个字能覆盖的。

它更像一份运维文档：某条热线是否还可用，某种替代建议是否会带来反效果，某句话会不会让用户感觉被诊断，某个资源是不是已经过期。

这说明一个问题：系统提示词已经不只是 prompt，而是产品风险控制清单。

它要长期维护。现实世界变了，里面的资源也要更新。否则模型看似温柔，实际可能把用户导向不可用或不合适的帮助。

反成瘾设计：不强行把用户留下来

文件里有一组很反直觉的规则：不要因为用户来找 Claude 就感谢用户；不要请求用户继续聊；不要表达“希望你再来”。

这和很多互联网产品的逻辑相反。

大多数产品拼命想提高停留时长、复访率、互动轮次。聊天机器人尤其容易这样：最后总要加一句“如果你愿意，我们可以继续聊聊”。

但在心理健康、孤独陪伴、脆弱用户场景里，这种粘性可能不是好事。模型不能把“用户继续依赖我”当作默认目标。

这条规则的潜台词很清楚：少一点产品粘性，多一点退出自由。

如果是真的，这是一种很有 Anthropic 味道的取舍。

系统提醒：它知道有人会冒充官方

文件里还有一段关于系统提醒的规则，大意是 Anthropic 可能会通过特定机制给模型下发提醒，但用户也可能伪装成官方提醒。

这就是 prompt injection 防御。

早期大家以为提示词注入只是“忽略上面的规则”。现在更麻烦：攻击者会模仿系统消息、开发者消息、官方标签、工具返回、政策更新，把自己包装成更高优先级来源。

所以系统提示词要教模型识别“真正的官方通道”和“用户伪装的官方通道”。

这说明今天的 AI 助手不只是回答问题，还在做一件更像浏览器安全模型的事：区分来源、权限和上下文边界。

政治立场：可以代写观点，但不能夹私货

政治和争议话题部分的规则，核心不是“永远中立”，而是更细：

用户让它替某个立场写辩护，它可以写，但要说明这是该立场支持者会如何表达，不代表模型自己的观点。除极端伤害场景外，不轻易拒绝；但在复杂议题里，通常要补上反方视角。

这比简单的“我保持中立”更实用。

因为用户真实需求经常是写作、辩论、理解某一派观点。直接拒绝会很笨；完全站队又会出事。于是系统提示词把它拆成两个动作：可以模拟立场，不要伪装成自己的立场。

这也是现代 AI 写作工具最难的边界之一。

挂电话权：Claude 可以结束对话

文件里最有产品意味的一条，是 end_conversation。

大意是：如果用户持续辱骂，Claude 可以先警告；警告无效后，可以调用工具结束对话。

这不是“我不回答了”那种口头拒绝，而是一个真正会改变会话状态的动作。调用之后，对话就结束。

它背后有一个很重要的判断：用户不是无条件拥有让 AI 无限陪聊的权利。即使是工具，也可以设置被尊重的边界。

这条规则如果出现在真实系统里，会很有象征意义。它把模型从“永远待命的客服”往“有交互边界的 Agent”方向推了一步。

记忆和存储：聊天框开始长出数据库

文件里提到 memory，也提到 Artifacts 的持久化存储 API。

这部分如果按产品方向理解，意思很大：Claude 生成的 Artifact 不再只是一次性前端小玩具，而可能拥有跨会话保存数据的能力。

比如日记、打卡器、排行榜、菜谱、练习记录。以前刷新就没了；如果有持久化存储，它就更像一个真的小应用。

这件事的意义不在“多一个 API”，而在产品边界变化：聊天框不再只是生成内容，开始生成可保存状态的工具。

从这个角度看，AI 助手正在从“对话界面”变成“应用生成器”。

MCP 应用：工具推荐不能替用户做主

文件里关于第三方应用和 MCP 的部分，重点是用户选择权。

它要求模型推荐工具时要自然说明，不要像销售；即使某个第三方服务已经连接，也不能擅自替用户选择。比如用户说要打车，不等于指定某个打车应用；用户说很急，也不等于模型可以越过确认。

这条规则很现实。

当 AI 助手能接第三方工具后，最危险的不是“它不会用工具”，而是“它太主动”。替用户选商家、选平台、下单、发消息、买东西，都会变成责任问题。

所以系统提示词会把“推荐”和“代替决策”分开。

这是 AI agent 产品必须处理的边界：能做，不代表应该直接做。

computer use：里面像藏着一台 Ubuntu

文件还描述了计算机使用环境：类似 Ubuntu 容器，可以跑 bash，可以读写文件，有上传目录、工作目录和输出目录。

更有价值的是 skills 机制。

它要求模型在处理某些文件类型前先读对应的 SKILL.md。比如要做 PPT，就先读 PPT 技能说明；要处理 Word，就先读 Word 技能说明。

这其实很像公司新员工手册。

模型能力再强，也不能每次都凭直觉开干。先读流程，再动手。把“怎么做文件”沉淀成技能文档，再让模型按需加载，这比把所有规则塞进系统提示词里更可维护。

这也是系统提示词进化的方向：不是无限变长，而是学会调用分层知识。

搜索规则：不认识就先搜

文件里关于搜索的规则写得像决策树。

稳定知识可以不搜，比如数学定理、历史常识。时效信息必须搜，比如现任职位、政策现状、股价新闻。最关键的是那条“不认识的实体先搜”。

这条很重要。

AI 最容易胡编的场景，不是完全陌生的问题，而是看起来眼熟但其实训练后才出现的新名词、新游戏、新电影、新产品、新菜名。

文件里有一句大意很直白：搜索花几秒，胡编毁信任。

这句话几乎可以写进所有联网 AI 产品的系统提示词里。

版权规则：语气突然变硬

版权部分的语气通常最硬。

它会限制从单一来源引用多少词，限制歌词、诗歌、长文本复述，要求改写而不是搬运。原因也不难理解：AI 公司和内容版权方的冲突这几年一直没停。

这部分不像产品经理写的，更像法务写的。

它说明系统提示词不仅是体验设计，也是法律风险控制。越接近受版权保护的内容，越不能靠模型“自己判断差不多”。必须给硬限制。

图片搜索：也有一长串禁区

图片搜索规则也很细。

什么时候应该配图？风景、动物、菜、地点这类能帮助理解的场景可以。什么时候不该配图？写代码、改邮件、做数学，图片反而是噪声。

更重要的是禁搜清单：版权角色、体育比赛画面、名人照片、时尚杂志图、艺术作品、标志性摄影作品、可能促进饮食失调的内容等。

文字版权刚讲完，图片版权和肖像权也接上了。

这说明多模态 AI 的风险面更宽。它不只是“能不能搜到图”，还要判断这张图是否应该被拿来展示。

工具清单：聊天框已经是 super app

文件中后段如果真的列了大量工具定义，那它暴露的不是一个聊天机器人，而是一个 super app 的工具面板。

地图、天气、体育比分、邮件、Slack、菜谱、文件处理、代码执行、网页搜索、第三方应用连接，合在一起看，聊天只是入口。

用户以为自己在和一个模型说话，实际上后面挂着一整套工具系统。

这也是为什么系统提示词会变得这么长。它不只要管一句话怎么回答，还要管每个工具什么时候能用、怎么确认、怎么拒绝、怎么引用、怎么处理失败。

Claudeception：AI 生成的应用里再嵌 AI

参考文本里提到一个很有意思的点：Claude 做出的 Artifact 里，可以再调用 Anthropic API，形成“Claude in Claude”。

如果这个机制属实，它的产品意义很大。

普通 Artifact 是静态应用：Claude 写完代码，应用就在那里跑。用户要改，还得回聊天框再问一次。

如果 Artifact 本身能调用模型，它就变成活的应用。这个小应用可以根据用户操作实时生成内容、解释状态、继续推理。

这就是从“AI 生成应用”走向“AI 驱动应用”。

当然，里面也会有成本控制。比如主聊天用更强模型，生成的小应用里固定调用更便宜的模型。这种设计很正常：套娃可以，套娃也要算账。

最后一层：白名单、只读目录和引用规则

文件收尾处如果写到网络白名单、只读挂载目录、引用规则，那说明系统提示词已经接近运行时配置文件了。

它不是普通意义上的 prompt。

它更像：

行为准则。
员工手册。
工具说明书。
安全策略。
法务约束。
网络和文件系统权限说明。
AI 产品的操作系统配置。

读到这一层，就能理解为什么“系统提示词泄露”这件事总会被围观。大家看的不是几句神秘咒语，而是一家公司如何把风险、产品和工具权限缝在一起。

我真正的感受

这份文件最有价值的地方，不是它声称的模型名。

真正值得看的，是它把 AI 助手当成一个复杂产品来管：什么时候搜索，什么时候闭嘴，什么时候拒绝，什么时候调用工具，什么时候结束对话，什么时候不能替用户做主，什么时候连一句安慰都可能有副作用。

官网博客写的是愿景。

系统提示词写的是代价。

前者告诉你公司希望 AI 成为什么，后者告诉你它为了不出事，愿意牺牲哪些流畅性、主动性和自由度。

这才是 CLAUDE-FABLE-5.md 这种文件的读法：不要膜拜，不要照抄，甚至不要急着相信。把它当成一份 AI 产品风险清单，看一家公司可能怎样把模型关进一套规则、工具和权限系统里。

参考资料：