w512/Prompt-Vault 是一個很小但有用的 prompt 倉庫。它不是收集“萬能咒語”,而是把一組可執行的 coding prompt 按難度整理成規格文件,用來測試 LLM 或 coding agent 能不能真正完成一個小專案。
專案地址:https://github.com/w512/Prompt-Vault
截至寫作時,這個倉庫只有少量檔案和提交,但結構很清楚:Easy、Medium、Hard 三個目錄,每個 Markdown 檔案都是一個獨立任務。README 裡也寫得很直接:這些 prompt 適合測試大語言模型,或者給開發者當練手專案。
它不是 prompt 收藏夾
很多 prompt 倉庫的問題,是內容看起來很多,但很難判斷質量。標題很吸引人,真正拿去用時卻缺少驗收標準。
Prompt-Vault 更像一個小型規格庫。每個任務都儘量寫清楚:
- 要做什麼應用
- 必須有哪些功能
- UI 應該是什麼風格
- 技術約束是什麼
- 是否必須單檔案執行
- 是否允許外部依賴
- 資料是否需要持久化
這種結構比“請幫我做一個好看的看板”更適合測試模型。因為它能看出模型是否真的理解需求,而不是隻生成一份看似完整的頁面。
Easy:測試基礎互動
Easy 目錄裡有兩個任務。
第一個是 Bubble_Sort_Visualizer.md,要求做一個單檔案 index.html,用柱狀條實時展示氣泡排序。它要求有開始按鈕、重置按鈕、速度滑塊、比較次數統計和深色主題。
這個任務適合測試模型的基礎前端能力:
- 能不能把演算法狀態對映到 UI
- 能不能做動畫節奏控制
- 能不能正確處理重置和執行狀態
- 能不能保持程式碼簡單可讀
第二個是 ToDo_List.md,從靜態 HTML 開始,一步步增加新增任務、完成狀態、刪除按鈕、計數器、Active / Completed 統計和 localStorage 持久化。
這個任務看起來普通,但很適合測試模型是否會按步驟演進,而不是一口氣堆出一份混亂程式碼。
Medium:測試複雜狀態和動畫
Medium/Sorting_Visualization.md 把排序視覺化升級了一檔。
它要求同一個頁面支援 6 種排序演算法:
- Bubble Sort
- Insertion Sort
- Selection Sort
- Merge Sort
- Quick Sort
- Heap Sort
同時還要有演算法選擇、速度滑塊、陣列大小滑塊、重置按鈕、開始 / 暫停切換,以及實時統計面板。
這個任務能測出不少問題。很多模型可以寫出一個氣泡排序動畫,但一旦要支援多個演算法、暫停恢復、統計比較次數和交換次數,就容易出現狀態混亂。
如果用它做評測,可以重點看這些點:
- 每種演算法是否真的按預期排序
- 動畫是否和演算法步驟一致
- 暫停後能否繼續
- 重置是否會停止舊動畫
- 陣列大小變化是否會破壞狀態
- 統計資料是否可信
這類 prompt 很適合作為前端 coding agent 的中等難度 smoke test。
Hard:測試完整產品感
Hard 目錄目前有兩個任務。
一個是 Kanban_Board.md。它要求做一個完整的看板應用:預設四列、可新增列、雙擊重新命名、空列刪除、卡片標題和描述、優先順序、截止日期、拖拽、搜尋、優先順序過濾、localStorage 持久化、底部統計欄、深色玻璃擬態風格和響應式橫向滾動。
這個 prompt 的價值在於它不是隻測單點能力,而是測“產品完整度”:
- 原生 Drag & Drop 是否可靠
- 新增列和卡片後狀態是否持久化
- 搜尋和過濾是否影響佈局
- overdue 邏輯是否正確
- Done 列是否觸發視覺狀態變化
- 刪除、重新命名、取消、儲存這些邊界是否完整
另一個是 Markdown_Editor_Desktop.md,要求用 Tauri 2 做跨平臺 Markdown 編輯器。它包含分欄編輯與預覽、同步滾動、實時渲染、預覽模式、專注模式、開啟檔案、儲存、另存為、視窗標題未儲存標記、格式化工具欄、快捷鍵、主題、字型設定、Vue 3、Pinia、marked.js、prism.js 和 Tauri 外掛。
這已經不是普通網頁 prompt,而是一個能測試桌面應用工程能力的規格。模型需要理解前端狀態、Tauri 外掛、檔案系統許可權、IPC 邊界和跨平臺打包。
為什麼這種倉庫有價值
Prompt-Vault 的價值不在於任務數量,而在於它給了可複用的評測樣本。
如果你在比較不同模型或 coding agent,可以用同一個 prompt 反覆測試:
- 哪個模型更能遵守約束
- 哪個模型更少漏功能
- 哪個模型更會處理邊界狀態
- 哪個模型生成的程式碼更容易維護
- 哪個模型更擅長 UI 細節
- 哪個模型在單檔案約束下更穩定
這比“我感覺這個模型更聰明”可靠得多。
尤其是前端任務,很多失敗不是語法錯誤,而是體驗細節缺失。比如按鈕能不能禁用、動畫是否卡住、重新整理後資料是否還在、拖拽目標是否高亮、統計是否同步更新。這些都需要具體 prompt 才能測出來。
可以怎麼擴充套件
如果要把 Prompt-Vault 變成更完整的評測庫,可以繼續補幾類任務。
第一類是驗收清單。每個 prompt 後面加一組 checklist,比如“重新整理後任務仍存在”“刪除空列成功,非空列不能刪除”“暫停排序後陣列狀態不變”。這樣人和 agent 都更容易驗收。
第二類是失敗用例。比如給排序視覺化任務補充“快速連續點選 Start / Reset 不應產生多個動畫迴圈”。這能測出狀態管理是否紮實。
第三類是評分維度。可以按功能完整度、程式碼可維護性、UI 質量、可訪問性、效能、邊界處理打分。
第四類是參考實現。不是為了讓模型抄答案,而是給評測者一個基準,方便判斷輸出是不是合理。
第五類是跨模型記錄。把不同模型在同一 prompt 下的結果、失敗點和 token 成本記錄下來,就能形成真正的 coding benchmark。
使用建議
如果你想用這個倉庫測試 AI 程式設計工具,建議不要只看“能不能生成頁面”。
更好的做法是:
- 選一個 prompt,原樣交給模型。
- 不做額外提示,看第一次輸出能完成多少。
- 開啟生成結果,按功能逐項驗收。
- 記錄漏掉的功能和明顯 bug。
- 再給一次修復機會。
- 比較總耗時、token 成本和最終程式碼質量。
這樣測出來的結果更接近真實開發。因為真正的 coding agent 不只是生成程式碼,還要理解規格、處理反饋、修復缺陷,並保持程式碼可維護。
小結
Prompt-Vault 是一個輕量級 prompt 規格庫。它適合拿來做 AI 程式設計測試,也適合前端開發者練習小專案。
它提醒我們:好的 prompt 不只是描述願望,而是寫清需求、約束、互動、狀態、驗收和執行方式。越是想測試模型能力,越不能只給一句模糊指令。
如果你正在比較 Codex、Claude Code、Cursor、Gemini CLI 或其他 coding agent,這類分級 prompt 很值得收藏。它們能幫你把“感覺好用”變成“具體哪裡做對了,哪裡漏了,修一次能不能補回來”。