Prompt-Vault：一個適合測試 AI 程式設計能力的 Prompt 規格庫

w512/Prompt-Vault 是一個很小但有用的 prompt 倉庫。它不是收集“萬能咒語”，而是把一組可執行的 coding prompt 按難度整理成規格文件，用來測試 LLM 或 coding agent 能不能真正完成一個小專案。

專案地址：https://github.com/w512/Prompt-Vault

截至寫作時，這個倉庫只有少量檔案和提交，但結構很清楚：Easy、Medium、Hard 三個目錄，每個 Markdown 檔案都是一個獨立任務。README 裡也寫得很直接：這些 prompt 適合測試大語言模型，或者給開發者當練手專案。

它不是 prompt 收藏夾

很多 prompt 倉庫的問題，是內容看起來很多，但很難判斷質量。標題很吸引人，真正拿去用時卻缺少驗收標準。

Prompt-Vault 更像一個小型規格庫。每個任務都儘量寫清楚：

要做什麼應用
必須有哪些功能
UI 應該是什麼風格
技術約束是什麼
是否必須單檔案執行
是否允許外部依賴
資料是否需要持久化

這種結構比“請幫我做一個好看的看板”更適合測試模型。因為它能看出模型是否真的理解需求，而不是隻生成一份看似完整的頁面。

Easy：測試基礎互動

Easy 目錄裡有兩個任務。

第一個是 Bubble_Sort_Visualizer.md，要求做一個單檔案 index.html，用柱狀條實時展示氣泡排序。它要求有開始按鈕、重置按鈕、速度滑塊、比較次數統計和深色主題。

這個任務適合測試模型的基礎前端能力：

能不能把演算法狀態對映到 UI
能不能做動畫節奏控制
能不能正確處理重置和執行狀態
能不能保持程式碼簡單可讀

第二個是 ToDo_List.md，從靜態 HTML 開始，一步步增加新增任務、完成狀態、刪除按鈕、計數器、Active / Completed 統計和 localStorage 持久化。

這個任務看起來普通，但很適合測試模型是否會按步驟演進，而不是一口氣堆出一份混亂程式碼。

Medium：測試複雜狀態和動畫

Medium/Sorting_Visualization.md 把排序視覺化升級了一檔。

它要求同一個頁面支援 6 種排序演算法：

Bubble Sort
Insertion Sort
Selection Sort
Merge Sort
Quick Sort
Heap Sort

同時還要有演算法選擇、速度滑塊、陣列大小滑塊、重置按鈕、開始 / 暫停切換，以及實時統計面板。

這個任務能測出不少問題。很多模型可以寫出一個氣泡排序動畫，但一旦要支援多個演算法、暫停恢復、統計比較次數和交換次數，就容易出現狀態混亂。

如果用它做評測，可以重點看這些點：

每種演算法是否真的按預期排序
動畫是否和演算法步驟一致
暫停後能否繼續
重置是否會停止舊動畫
陣列大小變化是否會破壞狀態
統計資料是否可信

這類 prompt 很適合作為前端 coding agent 的中等難度 smoke test。

Hard：測試完整產品感

Hard 目錄目前有兩個任務。

一個是 Kanban_Board.md。它要求做一個完整的看板應用：預設四列、可新增列、雙擊重新命名、空列刪除、卡片標題和描述、優先順序、截止日期、拖拽、搜尋、優先順序過濾、localStorage 持久化、底部統計欄、深色玻璃擬態風格和響應式橫向滾動。

這個 prompt 的價值在於它不是隻測單點能力，而是測“產品完整度”：

原生 Drag & Drop 是否可靠
新增列和卡片後狀態是否持久化
搜尋和過濾是否影響佈局
overdue 邏輯是否正確
Done 列是否觸發視覺狀態變化
刪除、重新命名、取消、儲存這些邊界是否完整

另一個是 Markdown_Editor_Desktop.md，要求用 Tauri 2 做跨平臺 Markdown 編輯器。它包含分欄編輯與預覽、同步滾動、實時渲染、預覽模式、專注模式、開啟檔案、儲存、另存為、視窗標題未儲存標記、格式化工具欄、快捷鍵、主題、字型設定、Vue 3、Pinia、marked.js、prism.js 和 Tauri 外掛。

這已經不是普通網頁 prompt，而是一個能測試桌面應用工程能力的規格。模型需要理解前端狀態、Tauri 外掛、檔案系統許可權、IPC 邊界和跨平臺打包。

為什麼這種倉庫有價值

Prompt-Vault 的價值不在於任務數量，而在於它給了可複用的評測樣本。

如果你在比較不同模型或 coding agent，可以用同一個 prompt 反覆測試：

哪個模型更能遵守約束
哪個模型更少漏功能
哪個模型更會處理邊界狀態
哪個模型生成的程式碼更容易維護
哪個模型更擅長 UI 細節
哪個模型在單檔案約束下更穩定

這比“我感覺這個模型更聰明”可靠得多。

尤其是前端任務，很多失敗不是語法錯誤，而是體驗細節缺失。比如按鈕能不能禁用、動畫是否卡住、重新整理後資料是否還在、拖拽目標是否高亮、統計是否同步更新。這些都需要具體 prompt 才能測出來。

可以怎麼擴充套件

如果要把 Prompt-Vault 變成更完整的評測庫，可以繼續補幾類任務。

第一類是驗收清單。每個 prompt 後面加一組 checklist，比如“重新整理後任務仍存在”“刪除空列成功，非空列不能刪除”“暫停排序後陣列狀態不變”。這樣人和 agent 都更容易驗收。

第二類是失敗用例。比如給排序視覺化任務補充“快速連續點選 Start / Reset 不應產生多個動畫迴圈”。這能測出狀態管理是否紮實。

第三類是評分維度。可以按功能完整度、程式碼可維護性、UI 質量、可訪問性、效能、邊界處理打分。

第四類是參考實現。不是為了讓模型抄答案，而是給評測者一個基準，方便判斷輸出是不是合理。

第五類是跨模型記錄。把不同模型在同一 prompt 下的結果、失敗點和 token 成本記錄下來，就能形成真正的 coding benchmark。

使用建議

如果你想用這個倉庫測試 AI 程式設計工具，建議不要只看“能不能生成頁面”。

更好的做法是：

選一個 prompt，原樣交給模型。
不做額外提示，看第一次輸出能完成多少。
開啟生成結果，按功能逐項驗收。
記錄漏掉的功能和明顯 bug。
再給一次修復機會。
比較總耗時、token 成本和最終程式碼質量。

這樣測出來的結果更接近真實開發。因為真正的 coding agent 不只是生成程式碼，還要理解規格、處理反饋、修復缺陷，並保持程式碼可維護。

小結

Prompt-Vault 是一個輕量級 prompt 規格庫。它適合拿來做 AI 程式設計測試，也適合前端開發者練習小專案。

它提醒我們：好的 prompt 不只是描述願望，而是寫清需求、約束、互動、狀態、驗收和執行方式。越是想測試模型能力，越不能只給一句模糊指令。

如果你正在比較 Codex、Claude Code、Cursor、Gemini CLI 或其他 coding agent，這類分級 prompt 很值得收藏。它們能幫你把“感覺好用”變成“具體哪裡做對了，哪裡漏了，修一次能不能補回來”。