CLAUDE-FABLE-5.md 逐段读:这份系统提示词样本真正暴露了什么

按段解读 GitHub 仓库 CL4R1T4S 中的 CLAUDE-FABLE-5.md:它自称是 Claude Fable 5 的系统提示词,但更重要的是从中观察 AI 产品如何把安全边界、工具权限、搜索规则、版权限制和用户福祉写进系统层。

GitHub 上那份 CLAUDE-FABLE-5.md,看起来像一份 Claude 系统提示词。

它来自 elder-plinius/CL4R1T4S 仓库。仓库作者是经常研究模型越狱和系统提示词提取的 Pliny。文件名写得很直白:ANTHROPIC/CLAUDE-FABLE-5.md

先把话说在前面:这不是 Anthropic 官方发布的文档,真实性没有官方确认。里面还有一些明显的编辑痕迹、占位符和无法核验的产品名。所以这篇不把它当新闻源,也不把里面的模型名当事实。

但它仍然值得看。

发布博客告诉你一家公司希望你看到什么;系统提示词样本则告诉你,它担心产品在什么地方出事。

先看开头:一上来就是 hotfix 味道

文件开头最怪的地方,是先禁止使用一个特定的 antml:voice_note 块。

这种规则很不像正常产品介绍。它没有铺垫,没有解释,也不讲原理,就是直接钉在最前面:不要用。

这很像 hotfix。

所谓 hotfix,就是线上出了一个具体问题,等不到完整版本周期,先打一个范围很窄的小补丁。放在系统提示词最顶部,说明这件事优先级很高:要么某个语音相关标签被滥用过,要么它在历史对话里触发过难收拾的格式问题。

系统提示词的第一屏通常很贵。能放在这里的,不是“顺手提醒”,而是“别再出这个事故”。

自我介绍:最需要谨慎的一段

文件声称模型是 Claude Fable 5,还提到 Claude Mythos 5Claude Opus 4.8Claude Sonnet 4.6Claude Haiku 4.5 等名字。

这一段最容易让人兴奋,也最不能直接相信。

模型名、发布日期、API 字符串、产品层级都属于强时效事实。第三方仓库里出现这些名字,不等于它们存在。除非能在 Anthropic 官方公告、官方文档、API 返回值里核验,否则只能写成“该文件声称”。

这一段真正有价值的,不是模型名本身,而是它透露的产品设计思路:同一底座模型,可能通过不同安全层、不同路由策略、不同访问权限,包装成不同产品形态。

这才是 AI 产品现在越来越常见的做法:模型能力是一层,产品约束是另一层。

红线清单:安全规则不是一句“注意安全”

文件里有一大段拒答规则。

武器、危险物质、恶意代码、现实公众人物相关创作、高风险自伤内容,都有明确边界。更有意思的是,它不只是说“不要帮助危险行为”,还会规定模型在不确定时应该少说。

这是一条元策略:拿不准的时候,少解释。

很多安全事故不是因为模型一开始就想帮坏事,而是它为了显得有帮助,把边界解释得太细,反而给了操作路径。所以系统层会把“少说”写成规则。不是每个问题都需要完整科普,有些场景里,信息量本身就是风险。

这也是为什么安全提示词不能只写一句“拒绝危险请求”。真正的难点是:拒绝到什么粒度,替代帮助给到哪里,哪些词不能展开。

语气规则:连拒绝都不许像客服模板

文件对语气和排版的要求也很细。

大意是:回答要自然,不要动不动列点,不要把每个任务都写成报告。尤其在拒绝用户时,不要用一堆 bullet point 把拒绝写得像公告。

这点很有意思。

很多 AI 的“AI 味”,不是来自内容错,而是来自排版习惯:动不动 1、2、3,动不动总结、建议、下一步,像 PPT 提纲,也像客服话术。

如果这份文件是真的,它说明 Anthropic 在系统层面也意识到了这个问题:人类说话不是每句话都要做成结构化文档。尤其是拒绝时,过度列表化会显得冷硬,也容易让用户觉得自己被流程化处理。

这不是单纯文风问题,而是产品体验问题。

心理健康:写得越细,说明越怕出事

整份文件里最值得细看的,是心理健康和用户福祉相关规则。

这类规则往往写得很细:不能替用户诊断;用户没有自称某种疾病时,不要直接给标签;自伤风险里不要列出具体可操作物品;遇到饮食失调资源推荐时,甚至会指定更合适的援助组织。

这种颗粒度,不是“关心用户”四个字能覆盖的。

它更像一份运维文档:某条热线是否还可用,某种替代建议是否会带来反效果,某句话会不会让用户感觉被诊断,某个资源是不是已经过期。

这说明一个问题:系统提示词已经不只是 prompt,而是产品风险控制清单。

它要长期维护。现实世界变了,里面的资源也要更新。否则模型看似温柔,实际可能把用户导向不可用或不合适的帮助。

反成瘾设计:不强行把用户留下来

文件里有一组很反直觉的规则:不要因为用户来找 Claude 就感谢用户;不要请求用户继续聊;不要表达“希望你再来”。

这和很多互联网产品的逻辑相反。

大多数产品拼命想提高停留时长、复访率、互动轮次。聊天机器人尤其容易这样:最后总要加一句“如果你愿意,我们可以继续聊聊”。

但在心理健康、孤独陪伴、脆弱用户场景里,这种粘性可能不是好事。模型不能把“用户继续依赖我”当作默认目标。

这条规则的潜台词很清楚:少一点产品粘性,多一点退出自由。

如果是真的,这是一种很有 Anthropic 味道的取舍。

系统提醒:它知道有人会冒充官方

文件里还有一段关于系统提醒的规则,大意是 Anthropic 可能会通过特定机制给模型下发提醒,但用户也可能伪装成官方提醒。

这就是 prompt injection 防御。

早期大家以为提示词注入只是“忽略上面的规则”。现在更麻烦:攻击者会模仿系统消息、开发者消息、官方标签、工具返回、政策更新,把自己包装成更高优先级来源。

所以系统提示词要教模型识别“真正的官方通道”和“用户伪装的官方通道”。

这说明今天的 AI 助手不只是回答问题,还在做一件更像浏览器安全模型的事:区分来源、权限和上下文边界。

政治立场:可以代写观点,但不能夹私货

政治和争议话题部分的规则,核心不是“永远中立”,而是更细:

用户让它替某个立场写辩护,它可以写,但要说明这是该立场支持者会如何表达,不代表模型自己的观点。除极端伤害场景外,不轻易拒绝;但在复杂议题里,通常要补上反方视角。

这比简单的“我保持中立”更实用。

因为用户真实需求经常是写作、辩论、理解某一派观点。直接拒绝会很笨;完全站队又会出事。于是系统提示词把它拆成两个动作:可以模拟立场,不要伪装成自己的立场。

这也是现代 AI 写作工具最难的边界之一。

挂电话权:Claude 可以结束对话

文件里最有产品意味的一条,是 end_conversation

大意是:如果用户持续辱骂,Claude 可以先警告;警告无效后,可以调用工具结束对话。

这不是“我不回答了”那种口头拒绝,而是一个真正会改变会话状态的动作。调用之后,对话就结束。

它背后有一个很重要的判断:用户不是无条件拥有让 AI 无限陪聊的权利。即使是工具,也可以设置被尊重的边界。

这条规则如果出现在真实系统里,会很有象征意义。它把模型从“永远待命的客服”往“有交互边界的 Agent”方向推了一步。

记忆和存储:聊天框开始长出数据库

文件里提到 memory,也提到 Artifacts 的持久化存储 API。

这部分如果按产品方向理解,意思很大:Claude 生成的 Artifact 不再只是一次性前端小玩具,而可能拥有跨会话保存数据的能力。

比如日记、打卡器、排行榜、菜谱、练习记录。以前刷新就没了;如果有持久化存储,它就更像一个真的小应用。

这件事的意义不在“多一个 API”,而在产品边界变化:聊天框不再只是生成内容,开始生成可保存状态的工具。

从这个角度看,AI 助手正在从“对话界面”变成“应用生成器”。

MCP 应用:工具推荐不能替用户做主

文件里关于第三方应用和 MCP 的部分,重点是用户选择权。

它要求模型推荐工具时要自然说明,不要像销售;即使某个第三方服务已经连接,也不能擅自替用户选择。比如用户说要打车,不等于指定某个打车应用;用户说很急,也不等于模型可以越过确认。

这条规则很现实。

当 AI 助手能接第三方工具后,最危险的不是“它不会用工具”,而是“它太主动”。替用户选商家、选平台、下单、发消息、买东西,都会变成责任问题。

所以系统提示词会把“推荐”和“代替决策”分开。

这是 AI agent 产品必须处理的边界:能做,不代表应该直接做。

computer use:里面像藏着一台 Ubuntu

文件还描述了计算机使用环境:类似 Ubuntu 容器,可以跑 bash,可以读写文件,有上传目录、工作目录和输出目录。

更有价值的是 skills 机制。

它要求模型在处理某些文件类型前先读对应的 SKILL.md。比如要做 PPT,就先读 PPT 技能说明;要处理 Word,就先读 Word 技能说明。

这其实很像公司新员工手册。

模型能力再强,也不能每次都凭直觉开干。先读流程,再动手。把“怎么做文件”沉淀成技能文档,再让模型按需加载,这比把所有规则塞进系统提示词里更可维护。

这也是系统提示词进化的方向:不是无限变长,而是学会调用分层知识。

搜索规则:不认识就先搜

文件里关于搜索的规则写得像决策树。

稳定知识可以不搜,比如数学定理、历史常识。时效信息必须搜,比如现任职位、政策现状、股价新闻。最关键的是那条“不认识的实体先搜”。

这条很重要。

AI 最容易胡编的场景,不是完全陌生的问题,而是看起来眼熟但其实训练后才出现的新名词、新游戏、新电影、新产品、新菜名。

文件里有一句大意很直白:搜索花几秒,胡编毁信任。

这句话几乎可以写进所有联网 AI 产品的系统提示词里。

版权规则:语气突然变硬

版权部分的语气通常最硬。

它会限制从单一来源引用多少词,限制歌词、诗歌、长文本复述,要求改写而不是搬运。原因也不难理解:AI 公司和内容版权方的冲突这几年一直没停。

这部分不像产品经理写的,更像法务写的。

它说明系统提示词不仅是体验设计,也是法律风险控制。越接近受版权保护的内容,越不能靠模型“自己判断差不多”。必须给硬限制。

图片搜索:也有一长串禁区

图片搜索规则也很细。

什么时候应该配图?风景、动物、菜、地点这类能帮助理解的场景可以。什么时候不该配图?写代码、改邮件、做数学,图片反而是噪声。

更重要的是禁搜清单:版权角色、体育比赛画面、名人照片、时尚杂志图、艺术作品、标志性摄影作品、可能促进饮食失调的内容等。

文字版权刚讲完,图片版权和肖像权也接上了。

这说明多模态 AI 的风险面更宽。它不只是“能不能搜到图”,还要判断这张图是否应该被拿来展示。

工具清单:聊天框已经是 super app

文件中后段如果真的列了大量工具定义,那它暴露的不是一个聊天机器人,而是一个 super app 的工具面板。

地图、天气、体育比分、邮件、Slack、菜谱、文件处理、代码执行、网页搜索、第三方应用连接,合在一起看,聊天只是入口。

用户以为自己在和一个模型说话,实际上后面挂着一整套工具系统。

这也是为什么系统提示词会变得这么长。它不只要管一句话怎么回答,还要管每个工具什么时候能用、怎么确认、怎么拒绝、怎么引用、怎么处理失败。

Claudeception:AI 生成的应用里再嵌 AI

参考文本里提到一个很有意思的点:Claude 做出的 Artifact 里,可以再调用 Anthropic API,形成“Claude in Claude”。

如果这个机制属实,它的产品意义很大。

普通 Artifact 是静态应用:Claude 写完代码,应用就在那里跑。用户要改,还得回聊天框再问一次。

如果 Artifact 本身能调用模型,它就变成活的应用。这个小应用可以根据用户操作实时生成内容、解释状态、继续推理。

这就是从“AI 生成应用”走向“AI 驱动应用”。

当然,里面也会有成本控制。比如主聊天用更强模型,生成的小应用里固定调用更便宜的模型。这种设计很正常:套娃可以,套娃也要算账。

最后一层:白名单、只读目录和引用规则

文件收尾处如果写到网络白名单、只读挂载目录、引用规则,那说明系统提示词已经接近运行时配置文件了。

它不是普通意义上的 prompt。

它更像:

  • 行为准则。
  • 员工手册。
  • 工具说明书。
  • 安全策略。
  • 法务约束。
  • 网络和文件系统权限说明。
  • AI 产品的操作系统配置。

读到这一层,就能理解为什么“系统提示词泄露”这件事总会被围观。大家看的不是几句神秘咒语,而是一家公司如何把风险、产品和工具权限缝在一起。

我真正的感受

这份文件最有价值的地方,不是它声称的模型名。

真正值得看的,是它把 AI 助手当成一个复杂产品来管:什么时候搜索,什么时候闭嘴,什么时候拒绝,什么时候调用工具,什么时候结束对话,什么时候不能替用户做主,什么时候连一句安慰都可能有副作用。

官网博客写的是愿景。

系统提示词写的是代价。

前者告诉你公司希望 AI 成为什么,后者告诉你它为了不出事,愿意牺牲哪些流畅性、主动性和自由度。

这才是 CLAUDE-FABLE-5.md 这种文件的读法:不要膜拜,不要照抄,甚至不要急着相信。把它当成一份 AI 产品风险清单,看一家公司可能怎样把模型关进一套规则、工具和权限系统里。

参考资料:

记录并分享
使用 Hugo 构建
主题 StackJimmy 设计