CLAUDE-FABLE-5.md 逐段讀:這份系統提示詞樣本真正暴露了什麼

按段解讀 GitHub 倉庫 CL4R1T4S 中的 CLAUDE-FABLE-5.md:它自稱是 Claude Fable 5 的系統提示詞,但更重要的是從中觀察 AI 產品如何把安全邊界、工具權限、搜尋規則、版權限制和使用者福祉寫進系統層。

GitHub 上那份 CLAUDE-FABLE-5.md,看起來像一份 Claude 系統提示詞。

它來自 elder-plinius/CL4R1T4S 倉庫。倉庫作者是經常研究模型越獄和系統提示詞提取的 Pliny。檔名寫得很直白:ANTHROPIC/CLAUDE-FABLE-5.md

先把話說在前面:這不是 Anthropic 官方發布的文件,真實性沒有官方確認。裡面還有一些明顯的編輯痕跡、占位符和無法核驗的產品名。所以這篇不把它當新聞源,也不把裡面的模型名當事實。

但它仍然值得看。

發布部落格告訴你一家公司希望你看到什麼;系統提示詞樣本則告訴你,它擔心產品在什麼地方出事。

先看開頭:一上來就是 hotfix 味道

檔案開頭最怪的地方,是先禁止使用一個特定的 antml:voice_note 區塊。

這種規則很不像正常產品介紹。它沒有鋪墊,沒有解釋,也不講原理,就是直接釘在最前面:不要用。

這很像 hotfix。

所謂 hotfix,就是線上出了一個具體問題,等不到完整版本週期,先打一個範圍很窄的小補丁。放在系統提示詞最頂部,說明這件事優先級很高:要麼某個語音相關標籤被濫用過,要麼它在歷史對話裡觸發過難收拾的格式問題。

系統提示詞的第一屏通常很貴。能放在這裡的,不是「順手提醒」,而是「別再出這個事故」。

自我介紹:最需要謹慎的一段

檔案聲稱模型是 Claude Fable 5,還提到 Claude Mythos 5Claude Opus 4.8Claude Sonnet 4.6Claude Haiku 4.5 等名字。

這一段最容易讓人興奮,也最不能直接相信。

模型名、發布日期、API 字串、產品層級都屬於強時效事實。第三方倉庫裡出現這些名字,不等於它們存在。除非能在 Anthropic 官方公告、官方文件、API 返回值裡核驗,否則只能寫成「該檔案聲稱」。

這一段真正有價值的,不是模型名本身,而是它透露的產品設計思路:同一底座模型,可能透過不同安全層、不同路由策略、不同存取權限,包裝成不同產品形態。

這才是 AI 產品現在越來越常見的做法:模型能力是一層,產品約束是另一層。

紅線清單:安全規則不是一句「注意安全」

檔案裡有一大段拒答規則。

武器、危險物質、惡意程式碼、現實公眾人物相關創作、高風險自傷內容,都有明確邊界。更有意思的是,它不只是說「不要幫助危險行為」,還會規定模型在不確定時應該少說。

這是一條元策略:拿不準的時候,少解釋。

很多安全事故不是因為模型一開始就想幫壞事,而是它為了顯得有幫助,把邊界解釋得太細,反而給了操作路徑。所以系統層會把「少說」寫成規則。不是每個問題都需要完整科普,有些場景裡,資訊量本身就是風險。

這也是為什麼安全提示詞不能只寫一句「拒絕危險請求」。真正的難點是:拒絕到什麼粒度,替代幫助給到哪裡,哪些詞不能展開。

語氣規則:連拒絕都不許像客服模板

檔案對語氣和排版的要求也很細。

大意是:回答要自然,不要動不動列點,不要把每個任務都寫成報告。尤其在拒絕使用者時,不要用一堆 bullet point 把拒絕寫得像公告。

這點很有意思。

很多 AI 的「AI 味」,不是來自內容錯,而是來自排版習慣:動不動 1、2、3,動不動總結、建議、下一步,像 PPT 提綱,也像客服話術。

如果這份檔案是真的,它說明 Anthropic 在系統層面也意識到了這個問題:人類說話不是每句話都要做成結構化文件。尤其是拒絕時,過度列表化會顯得冷硬,也容易讓使用者覺得自己被流程化處理。

這不是單純文風問題,而是產品體驗問題。

心理健康:寫得越細,說明越怕出事

整份檔案裡最值得細看的,是心理健康和使用者福祉相關規則。

這類規則往往寫得很細:不能替使用者診斷;使用者沒有自稱某種疾病時,不要直接給標籤;自傷風險裡不要列出具體可操作物品;遇到飲食失調資源推薦時,甚至會指定更合適的援助組織。

這種顆粒度,不是「關心使用者」四個字能覆蓋的。

它更像一份運維文件:某條熱線是否還可用,某種替代建議是否會帶來反效果,某句話會不會讓使用者感覺被診斷,某個資源是不是已經過期。

這說明一個問題:系統提示詞已經不只是 prompt,而是產品風險控制清單。

它要長期維護。現實世界變了,裡面的資源也要更新。否則模型看似溫柔,實際可能把使用者導向不可用或不合適的幫助。

反成癮設計:不強行把使用者留下來

檔案裡有一組很反直覺的規則:不要因為使用者來找 Claude 就感謝使用者;不要請求使用者繼續聊;不要表達「希望你再來」。

這和很多網際網路產品的邏輯相反。

大多數產品拼命想提高停留時長、回訪率、互動輪次。聊天機器人尤其容易這樣:最後總要加一句「如果你願意,我們可以繼續聊聊」。

但在心理健康、孤獨陪伴、脆弱使用者場景裡,這種黏性可能不是好事。模型不能把「使用者繼續依賴我」當作預設目標。

這條規則的潛台詞很清楚:少一點產品黏性,多一點退出自由。

如果是真的,這是一種很有 Anthropic 味道的取捨。

系統提醒:它知道有人會冒充官方

檔案裡還有一段關於系統提醒的規則,大意是 Anthropic 可能會透過特定機制給模型下發提醒,但使用者也可能偽裝成官方提醒。

這就是 prompt injection 防禦。

早期大家以為提示詞注入只是「忽略上面的規則」。現在更麻煩:攻擊者會模仿系統訊息、開發者訊息、官方標籤、工具返回、政策更新,把自己包裝成更高優先級來源。

所以系統提示詞要教模型識別「真正的官方通道」和「使用者偽裝的官方通道」。

這說明今天的 AI 助手不只是回答問題,還在做一件更像瀏覽器安全模型的事:區分來源、權限和上下文邊界。

政治立場:可以代寫觀點,但不能夾私貨

政治和爭議話題部分的規則,核心不是「永遠中立」,而是更細:

使用者讓它替某個立場寫辯護,它可以寫,但要說明這是該立場支持者會如何表達,不代表模型自己的觀點。除極端傷害場景外,不輕易拒絕;但在複雜議題裡,通常要補上反方視角。

這比簡單的「我保持中立」更實用。

因為使用者真實需求經常是寫作、辯論、理解某一派觀點。直接拒絕會很笨;完全站隊又會出事。於是系統提示詞把它拆成兩個動作:可以模擬立場,不要偽裝成自己的立場。

這也是現代 AI 寫作工具最難的邊界之一。

掛電話權:Claude 可以結束對話

檔案裡最有產品意味的一條,是 end_conversation

大意是:如果使用者持續辱罵,Claude 可以先警告;警告無效後,可以呼叫工具結束對話。

這不是「我不回答了」那種口頭拒絕,而是一個真正會改變會話狀態的動作。呼叫之後,對話就結束。

它背後有一個很重要的判斷:使用者不是無條件擁有讓 AI 無限陪聊的權利。即使是工具,也可以設定被尊重的邊界。

這條規則如果出現在真實系統裡,會很有象徵意義。它把模型從「永遠待命的客服」往「有互動邊界的 Agent」方向推了一步。

記憶和儲存:聊天框開始長出資料庫

檔案裡提到 memory,也提到 Artifacts 的持久化儲存 API。

這部分如果按產品方向理解,意思很大:Claude 生成的 Artifact 不再只是一次性前端小玩具,而可能擁有跨會話保存資料的能力。

比如日記、打卡器、排行榜、食譜、練習記錄。以前重新整理就沒了;如果有持久化儲存,它就更像一個真的小應用。

這件事的意義不在「多一個 API」,而在產品邊界變化:聊天框不再只是生成內容,開始生成可保存狀態的工具。

從這個角度看,AI 助手正在從「對話介面」變成「應用生成器」。

MCP 應用:工具推薦不能替使用者做主

檔案裡關於第三方應用和 MCP 的部分,重點是使用者選擇權。

它要求模型推薦工具時要自然說明,不要像銷售;即使某個第三方服務已經連接,也不能擅自替使用者選擇。比如使用者說要叫車,不等於指定某個叫車應用;使用者說很急,也不等於模型可以越過確認。

這條規則很現實。

當 AI 助手能接第三方工具後,最危險的不是「它不會用工具」,而是「它太主動」。替使用者選商家、選平台、下單、發訊息、買東西,都會變成責任問題。

所以系統提示詞會把「推薦」和「代替決策」分開。

這是 AI agent 產品必須處理的邊界:能做,不代表應該直接做。

computer use:裡面像藏著一台 Ubuntu

檔案還描述了電腦使用環境:類似 Ubuntu 容器,可以跑 bash,可以讀寫檔案,有上傳目錄、工作目錄和輸出目錄。

更有價值的是 skills 機制。

它要求模型在處理某些檔案類型前先讀對應的 SKILL.md。比如要做 PPT,就先讀 PPT 技能說明;要處理 Word,就先讀 Word 技能說明。

這其實很像公司新員工手冊。

模型能力再強,也不能每次都憑直覺開幹。先讀流程,再動手。把「怎麼做檔案」沉澱成技能文件,再讓模型按需載入,這比把所有規則塞進系統提示詞裡更可維護。

這也是系統提示詞進化的方向:不是無限變長,而是學會呼叫分層知識。

搜尋規則:不認識就先搜

檔案裡關於搜尋的規則寫得像決策樹。

穩定知識可以不搜,比如數學定理、歷史常識。時效資訊必須搜,比如現任職位、政策現狀、股價新聞。最關鍵的是那條「不認識的實體先搜」。

這條很重要。

AI 最容易胡編的場景,不是完全陌生的問題,而是看起來眼熟但其實訓練後才出現的新名詞、新遊戲、新電影、新產品、新菜名。

檔案裡有一句大意很直白:搜尋花幾秒,胡編毀信任。

這句話幾乎可以寫進所有連網 AI 產品的系統提示詞裡。

版權規則:語氣突然變硬

版權部分的語氣通常最硬。

它會限制從單一來源引用多少詞,限制歌詞、詩歌、長文本復述,要求改寫而不是搬運。原因也不難理解:AI 公司和內容版權方的衝突這幾年一直沒停。

這部分不像產品經理寫的,更像法務寫的。

它說明系統提示詞不僅是體驗設計,也是法律風險控制。越接近受版權保護的內容,越不能靠模型「自己判斷差不多」。必須給硬限制。

圖片搜尋:也有一長串禁區

圖片搜尋規則也很細。

什麼時候應該配圖?風景、動物、菜、地點這類能幫助理解的場景可以。什麼時候不該配圖?寫程式碼、改郵件、做數學,圖片反而是噪音。

更重要的是禁搜清單:版權角色、體育比賽畫面、名人照片、時尚雜誌圖、藝術作品、標誌性攝影作品、可能促進飲食失調的內容等。

文字版權剛講完,圖片版權和肖像權也接上了。

這說明多模態 AI 的風險面更寬。它不只是「能不能搜到圖」,還要判斷這張圖是否應該被拿來展示。

工具清單:聊天框已經是 super app

檔案中後段如果真的列了大量工具定義,那它暴露的不是一個聊天機器人,而是一個 super app 的工具面板。

地圖、天氣、體育比分、郵件、Slack、食譜、檔案處理、程式碼執行、網頁搜尋、第三方應用連接,合在一起看,聊天只是入口。

使用者以為自己在和一個模型說話,實際上後面掛著一整套工具系統。

這也是為什麼系統提示詞會變得這麼長。它不只要管一句話怎麼回答,還要管每個工具什麼時候能用、怎麼確認、怎麼拒絕、怎麼引用、怎麼處理失敗。

Claudeception:AI 生成的應用裡再嵌 AI

參考文本裡提到一個很有意思的點:Claude 做出的 Artifact 裡,可以再呼叫 Anthropic API,形成「Claude in Claude」。

如果這個機制屬實,它的產品意義很大。

普通 Artifact 是靜態應用:Claude 寫完程式碼,應用就在那里跑。使用者要改,還得回聊天框再問一次。

如果 Artifact 本身能呼叫模型,它就變成活的應用。這個小應用可以根據使用者操作即時生成內容、解釋狀態、繼續推理。

這就是從「AI 生成應用」走向「AI 驅動應用」。

當然,裡面也會有成本控制。比如主聊天用更強模型,生成的小應用裡固定呼叫更便宜的模型。這種設計很正常:套娃可以,套娃也要算帳。

最後一層:白名單、唯讀目錄和引用規則

檔案收尾處如果寫到網路白名單、唯讀掛載目錄、引用規則,那說明系統提示詞已經接近執行時配置檔了。

它不是普通意義上的 prompt。

它更像:

  • 行為準則。
  • 員工手冊。
  • 工具說明書。
  • 安全策略。
  • 法務約束。
  • 網路和檔案系統權限說明。
  • AI 產品的作業系統配置。

讀到這一層,就能理解為什麼「系統提示詞洩露」這件事總會被圍觀。大家看的不是幾句神秘咒語,而是一家公司如何把風險、產品和工具權限縫在一起。

我真正的感受

這份檔案最有價值的地方,不是它聲稱的模型名。

真正值得看的,是它把 AI 助手當成一個複雜產品來管:什麼時候搜尋,什麼時候閉嘴,什麼時候拒絕,什麼時候呼叫工具,什麼時候結束對話,什麼時候不能替使用者做主,什麼時候連一句安慰都可能有副作用。

官網部落格寫的是願景。

系統提示詞寫的是代價。

前者告訴你公司希望 AI 成為什麼,後者告訴你它為了不出事,願意犧牲哪些流暢性、主動性和自由度。

這才是 CLAUDE-FABLE-5.md 這種檔案的讀法:不要膜拜,不要照抄,甚至不要急著相信。把它當成一份 AI 產品風險清單,看一家公司可能怎樣把模型關進一套規則、工具和權限系統裡。

參考資料:

记录并分享
使用 Hugo 建立
主題 StackJimmy 設計