CLAUDE-FABLE-5.md 逐段讀：這份系統提示詞樣本真正暴露了什麼

GitHub 上那份 CLAUDE-FABLE-5.md，看起來像一份 Claude 系統提示詞。

它來自 elder-plinius/CL4R1T4S 倉庫。倉庫作者是經常研究模型越獄和系統提示詞提取的 Pliny。檔名寫得很直白：ANTHROPIC/CLAUDE-FABLE-5.md。

先把話說在前面：這不是 Anthropic 官方發布的文件，真實性沒有官方確認。裡面還有一些明顯的編輯痕跡、占位符和無法核驗的產品名。所以這篇不把它當新聞源，也不把裡面的模型名當事實。

但它仍然值得看。

發布部落格告訴你一家公司希望你看到什麼；系統提示詞樣本則告訴你，它擔心產品在什麼地方出事。

先看開頭：一上來就是 hotfix 味道

檔案開頭最怪的地方，是先禁止使用一個特定的 antml:voice_note 區塊。

這種規則很不像正常產品介紹。它沒有鋪墊，沒有解釋，也不講原理，就是直接釘在最前面：不要用。

這很像 hotfix。

所謂 hotfix，就是線上出了一個具體問題，等不到完整版本週期，先打一個範圍很窄的小補丁。放在系統提示詞最頂部，說明這件事優先級很高：要麼某個語音相關標籤被濫用過，要麼它在歷史對話裡觸發過難收拾的格式問題。

系統提示詞的第一屏通常很貴。能放在這裡的，不是「順手提醒」，而是「別再出這個事故」。

自我介紹：最需要謹慎的一段

檔案聲稱模型是 Claude Fable 5，還提到 Claude Mythos 5、Claude Opus 4.8、Claude Sonnet 4.6、Claude Haiku 4.5 等名字。

這一段最容易讓人興奮，也最不能直接相信。

模型名、發布日期、API 字串、產品層級都屬於強時效事實。第三方倉庫裡出現這些名字，不等於它們存在。除非能在 Anthropic 官方公告、官方文件、API 返回值裡核驗，否則只能寫成「該檔案聲稱」。

這一段真正有價值的，不是模型名本身，而是它透露的產品設計思路：同一底座模型，可能透過不同安全層、不同路由策略、不同存取權限，包裝成不同產品形態。

這才是 AI 產品現在越來越常見的做法：模型能力是一層，產品約束是另一層。

紅線清單：安全規則不是一句「注意安全」

檔案裡有一大段拒答規則。

武器、危險物質、惡意程式碼、現實公眾人物相關創作、高風險自傷內容，都有明確邊界。更有意思的是，它不只是說「不要幫助危險行為」，還會規定模型在不確定時應該少說。

這是一條元策略：拿不準的時候，少解釋。

很多安全事故不是因為模型一開始就想幫壞事，而是它為了顯得有幫助，把邊界解釋得太細，反而給了操作路徑。所以系統層會把「少說」寫成規則。不是每個問題都需要完整科普，有些場景裡，資訊量本身就是風險。

這也是為什麼安全提示詞不能只寫一句「拒絕危險請求」。真正的難點是：拒絕到什麼粒度，替代幫助給到哪裡，哪些詞不能展開。

語氣規則：連拒絕都不許像客服模板

檔案對語氣和排版的要求也很細。

大意是：回答要自然，不要動不動列點，不要把每個任務都寫成報告。尤其在拒絕使用者時，不要用一堆 bullet point 把拒絕寫得像公告。

這點很有意思。

很多 AI 的「AI 味」，不是來自內容錯，而是來自排版習慣：動不動 1、2、3，動不動總結、建議、下一步，像 PPT 提綱，也像客服話術。

如果這份檔案是真的，它說明 Anthropic 在系統層面也意識到了這個問題：人類說話不是每句話都要做成結構化文件。尤其是拒絕時，過度列表化會顯得冷硬，也容易讓使用者覺得自己被流程化處理。

這不是單純文風問題，而是產品體驗問題。

心理健康：寫得越細，說明越怕出事

整份檔案裡最值得細看的，是心理健康和使用者福祉相關規則。

這類規則往往寫得很細：不能替使用者診斷；使用者沒有自稱某種疾病時，不要直接給標籤；自傷風險裡不要列出具體可操作物品；遇到飲食失調資源推薦時，甚至會指定更合適的援助組織。

這種顆粒度，不是「關心使用者」四個字能覆蓋的。

它更像一份運維文件：某條熱線是否還可用，某種替代建議是否會帶來反效果，某句話會不會讓使用者感覺被診斷，某個資源是不是已經過期。

這說明一個問題：系統提示詞已經不只是 prompt，而是產品風險控制清單。

它要長期維護。現實世界變了，裡面的資源也要更新。否則模型看似溫柔，實際可能把使用者導向不可用或不合適的幫助。

反成癮設計：不強行把使用者留下來

檔案裡有一組很反直覺的規則：不要因為使用者來找 Claude 就感謝使用者；不要請求使用者繼續聊；不要表達「希望你再來」。

這和很多網際網路產品的邏輯相反。

大多數產品拼命想提高停留時長、回訪率、互動輪次。聊天機器人尤其容易這樣：最後總要加一句「如果你願意，我們可以繼續聊聊」。

但在心理健康、孤獨陪伴、脆弱使用者場景裡，這種黏性可能不是好事。模型不能把「使用者繼續依賴我」當作預設目標。

這條規則的潛台詞很清楚：少一點產品黏性，多一點退出自由。

如果是真的，這是一種很有 Anthropic 味道的取捨。

系統提醒：它知道有人會冒充官方

檔案裡還有一段關於系統提醒的規則，大意是 Anthropic 可能會透過特定機制給模型下發提醒，但使用者也可能偽裝成官方提醒。

這就是 prompt injection 防禦。

早期大家以為提示詞注入只是「忽略上面的規則」。現在更麻煩：攻擊者會模仿系統訊息、開發者訊息、官方標籤、工具返回、政策更新，把自己包裝成更高優先級來源。

所以系統提示詞要教模型識別「真正的官方通道」和「使用者偽裝的官方通道」。

這說明今天的 AI 助手不只是回答問題，還在做一件更像瀏覽器安全模型的事：區分來源、權限和上下文邊界。

政治立場：可以代寫觀點，但不能夾私貨

政治和爭議話題部分的規則，核心不是「永遠中立」，而是更細：

使用者讓它替某個立場寫辯護，它可以寫，但要說明這是該立場支持者會如何表達，不代表模型自己的觀點。除極端傷害場景外，不輕易拒絕；但在複雜議題裡，通常要補上反方視角。

這比簡單的「我保持中立」更實用。

因為使用者真實需求經常是寫作、辯論、理解某一派觀點。直接拒絕會很笨；完全站隊又會出事。於是系統提示詞把它拆成兩個動作：可以模擬立場，不要偽裝成自己的立場。

這也是現代 AI 寫作工具最難的邊界之一。

掛電話權：Claude 可以結束對話

檔案裡最有產品意味的一條，是 end_conversation。

大意是：如果使用者持續辱罵，Claude 可以先警告；警告無效後，可以呼叫工具結束對話。

這不是「我不回答了」那種口頭拒絕，而是一個真正會改變會話狀態的動作。呼叫之後，對話就結束。

它背後有一個很重要的判斷：使用者不是無條件擁有讓 AI 無限陪聊的權利。即使是工具，也可以設定被尊重的邊界。

這條規則如果出現在真實系統裡，會很有象徵意義。它把模型從「永遠待命的客服」往「有互動邊界的 Agent」方向推了一步。

記憶和儲存：聊天框開始長出資料庫

檔案裡提到 memory，也提到 Artifacts 的持久化儲存 API。

這部分如果按產品方向理解，意思很大：Claude 生成的 Artifact 不再只是一次性前端小玩具，而可能擁有跨會話保存資料的能力。

比如日記、打卡器、排行榜、食譜、練習記錄。以前重新整理就沒了；如果有持久化儲存，它就更像一個真的小應用。

這件事的意義不在「多一個 API」，而在產品邊界變化：聊天框不再只是生成內容，開始生成可保存狀態的工具。

從這個角度看，AI 助手正在從「對話介面」變成「應用生成器」。

MCP 應用：工具推薦不能替使用者做主

檔案裡關於第三方應用和 MCP 的部分，重點是使用者選擇權。

它要求模型推薦工具時要自然說明，不要像銷售；即使某個第三方服務已經連接，也不能擅自替使用者選擇。比如使用者說要叫車，不等於指定某個叫車應用；使用者說很急，也不等於模型可以越過確認。

這條規則很現實。

當 AI 助手能接第三方工具後，最危險的不是「它不會用工具」，而是「它太主動」。替使用者選商家、選平台、下單、發訊息、買東西，都會變成責任問題。

所以系統提示詞會把「推薦」和「代替決策」分開。

這是 AI agent 產品必須處理的邊界：能做，不代表應該直接做。

computer use：裡面像藏著一台 Ubuntu

檔案還描述了電腦使用環境：類似 Ubuntu 容器，可以跑 bash，可以讀寫檔案，有上傳目錄、工作目錄和輸出目錄。

更有價值的是 skills 機制。

它要求模型在處理某些檔案類型前先讀對應的 SKILL.md。比如要做 PPT，就先讀 PPT 技能說明；要處理 Word，就先讀 Word 技能說明。

這其實很像公司新員工手冊。

模型能力再強，也不能每次都憑直覺開幹。先讀流程，再動手。把「怎麼做檔案」沉澱成技能文件，再讓模型按需載入，這比把所有規則塞進系統提示詞裡更可維護。

這也是系統提示詞進化的方向：不是無限變長，而是學會呼叫分層知識。

搜尋規則：不認識就先搜

檔案裡關於搜尋的規則寫得像決策樹。

穩定知識可以不搜，比如數學定理、歷史常識。時效資訊必須搜，比如現任職位、政策現狀、股價新聞。最關鍵的是那條「不認識的實體先搜」。

這條很重要。

AI 最容易胡編的場景，不是完全陌生的問題，而是看起來眼熟但其實訓練後才出現的新名詞、新遊戲、新電影、新產品、新菜名。

檔案裡有一句大意很直白：搜尋花幾秒，胡編毀信任。

這句話幾乎可以寫進所有連網 AI 產品的系統提示詞裡。

版權規則：語氣突然變硬

版權部分的語氣通常最硬。

它會限制從單一來源引用多少詞，限制歌詞、詩歌、長文本復述，要求改寫而不是搬運。原因也不難理解：AI 公司和內容版權方的衝突這幾年一直沒停。

這部分不像產品經理寫的，更像法務寫的。

它說明系統提示詞不僅是體驗設計，也是法律風險控制。越接近受版權保護的內容，越不能靠模型「自己判斷差不多」。必須給硬限制。

圖片搜尋：也有一長串禁區

圖片搜尋規則也很細。

什麼時候應該配圖？風景、動物、菜、地點這類能幫助理解的場景可以。什麼時候不該配圖？寫程式碼、改郵件、做數學，圖片反而是噪音。

更重要的是禁搜清單：版權角色、體育比賽畫面、名人照片、時尚雜誌圖、藝術作品、標誌性攝影作品、可能促進飲食失調的內容等。

文字版權剛講完，圖片版權和肖像權也接上了。

這說明多模態 AI 的風險面更寬。它不只是「能不能搜到圖」，還要判斷這張圖是否應該被拿來展示。

工具清單：聊天框已經是 super app

檔案中後段如果真的列了大量工具定義，那它暴露的不是一個聊天機器人，而是一個 super app 的工具面板。

地圖、天氣、體育比分、郵件、Slack、食譜、檔案處理、程式碼執行、網頁搜尋、第三方應用連接，合在一起看，聊天只是入口。

使用者以為自己在和一個模型說話，實際上後面掛著一整套工具系統。

這也是為什麼系統提示詞會變得這麼長。它不只要管一句話怎麼回答，還要管每個工具什麼時候能用、怎麼確認、怎麼拒絕、怎麼引用、怎麼處理失敗。

Claudeception：AI 生成的應用裡再嵌 AI

參考文本裡提到一個很有意思的點：Claude 做出的 Artifact 裡，可以再呼叫 Anthropic API，形成「Claude in Claude」。

如果這個機制屬實，它的產品意義很大。

普通 Artifact 是靜態應用：Claude 寫完程式碼，應用就在那里跑。使用者要改，還得回聊天框再問一次。

如果 Artifact 本身能呼叫模型，它就變成活的應用。這個小應用可以根據使用者操作即時生成內容、解釋狀態、繼續推理。

這就是從「AI 生成應用」走向「AI 驅動應用」。

當然，裡面也會有成本控制。比如主聊天用更強模型，生成的小應用裡固定呼叫更便宜的模型。這種設計很正常：套娃可以，套娃也要算帳。

最後一層：白名單、唯讀目錄和引用規則

檔案收尾處如果寫到網路白名單、唯讀掛載目錄、引用規則，那說明系統提示詞已經接近執行時配置檔了。

它不是普通意義上的 prompt。

它更像：

行為準則。
員工手冊。
工具說明書。
安全策略。
法務約束。
網路和檔案系統權限說明。
AI 產品的作業系統配置。

讀到這一層，就能理解為什麼「系統提示詞洩露」這件事總會被圍觀。大家看的不是幾句神秘咒語，而是一家公司如何把風險、產品和工具權限縫在一起。

我真正的感受

這份檔案最有價值的地方，不是它聲稱的模型名。

真正值得看的，是它把 AI 助手當成一個複雜產品來管：什麼時候搜尋，什麼時候閉嘴，什麼時候拒絕，什麼時候呼叫工具，什麼時候結束對話，什麼時候不能替使用者做主，什麼時候連一句安慰都可能有副作用。

官網部落格寫的是願景。

系統提示詞寫的是代價。

前者告訴你公司希望 AI 成為什麼，後者告訴你它為了不出事，願意犧牲哪些流暢性、主動性和自由度。

這才是 CLAUDE-FABLE-5.md 這種檔案的讀法：不要膜拜，不要照抄，甚至不要急著相信。把它當成一份 AI 產品風險清單，看一家公司可能怎樣把模型關進一套規則、工具和權限系統裡。

參考資料：