ai-engineering-from-scratch:從零手搓 AI 工程的學習路線

整理 rohitg00/ai-engineering-from-scratch 專案:它如何用從零實作的方式覆蓋機器學習、深度學習、音訊、Transformer、生成式 AI、強化學習和 LLM 工程。

rohitg00/ai-engineering-from-scratch 是一份很大的 AI 工程學習路線。它的口號是 “Learn it. Build it. Ship it for others.”,重點不只是讀概念,而是把 AI 系統從底層原理一路實作出來。

如果你已經會呼叫 OpenAI、Claude 或 Gemini API,但想補上機器學習、Transformer、訓練、推理和工程化底層知識,這個專案值得收藏。

它不是普通資源列表

很多 AI 學習倉庫只是把論文、課程、部落格連結堆在一起。ai-engineering-from-scratch 更像一套課程目錄,每個主題都標明是 Learn 還是 Build,並且大量內容要求你用 Python 從零實作。

它覆蓋的範圍很廣,包括:

  • 數學和機器學習基礎;
  • 神經網路和深度學習;
  • 電腦視覺;
  • 音訊和語音;
  • Transformer 深入;
  • 生成式 AI;
  • 強化學習;
  • LLM 從零實作;
  • 推理最佳化;
  • AI Agent 和生產工程。

這種路線不適合「今晚就上線一個 AI 應用」的人,但非常適合想把 AI 工程基本功補紮實的人。

學習路線有什麼特點

專案的一個明顯特點是分階段推進。比如 Transformer 部分會從 RNN 的問題講起,再進入 self-attention、multi-head attention、positional encoding、完整 Transformer、BERT、GPT、T5、ViT、MoE、KV cache、Flash Attention、Scaling Laws 和從零構建 Transformer。

LLM 部分也不是只講 prompt,而是會覆蓋:

  • tokenizer:BPE、WordPiece、SentencePiece;
  • 從零構建 tokenizer;
  • 預訓練資料管線;
  • 預訓練 Mini GPT;
  • 分散式訓練;
  • Instruction Tuning;
  • RLHF;
  • DPO;
  • 推理最佳化和部署。

這類內容很適合把「我會用 AI API」升級成「我理解模型為什麼這樣工作」。

為什麼強調 from scratch

「從零實作」聽起來慢,但它有一個好處:你會知道框架幫你隱藏了什麼。

比如你自己寫過 attention,就更容易理解:

  • 為什麼上下文越長顯存越吃緊;
  • KV cache 為什麼能加速推理;
  • Flash Attention 最佳化的到底是什麼;
  • RoPE 和 ALiBi 在位置編碼上有什麼差別;
  • MoE 為什麼不是簡單把參數量堆大;
  • tokenization 為什麼會影響多語言效果;
  • 微調、RLHF、DPO 解決的是不同層面的問題。

這些東西平時呼叫 API 不一定用得上,但一旦你要做模型選型、成本最佳化、本地部署、長上下文系統或 Agent 框架,就會變得很有用。

適合誰學

這份路線更適合:

  • 已經會寫 Python,想系統補 AI 工程的人;
  • 做 AI 應用,但對模型底層不夠踏實的人;
  • 想從 API 呼叫者進階到 AI Engineer 的開發者;
  • 準備研究 LLM、推理最佳化或模型訓練的人;
  • 喜歡邊學邊實作,而不是只看影片和文章的人。

它不太適合完全零基礎使用者。至少要有 Python、基礎數學和一點機器學習概念,否則會很容易卡住。

怎麼開始比較穩

不要試圖一口氣啃完整個倉庫。更實際的方式是按目標選擇路徑:

  • 想做 AI 應用:優先看 LLM、Agent、推理和工程化部分;
  • 想理解模型:從神經網路、Transformer、LLM from scratch 開始;
  • 想做語音產品:看 audio、Whisper、TTS、voice assistant pipeline;
  • 想做圖像生成:看 generative AI、diffusion、Stable Diffusion、ControlNet;
  • 想補基礎:從數學、機器學習、深度學習開始。

學習時最好每個階段都留一個小專案。只讀目錄會很爽,但真正有價值的是把 tokenizer、attention、mini GPT、RAG 或推理服務跑起來。

和普通 AI 應用開發的關係

現在很多 AI 應用開發確實不需要從零訓練模型。你可以用雲端 API、向量資料庫、工作流引擎和幾個工具呼叫,很快做出一個產品原型。

但如果你要走得更遠,就會遇到這些問題:

  • 為什麼這個模型上下文長但很慢;
  • 為什麼 RAG 檢索到了答案但模型沒用上;
  • 為什麼微調後某些能力退化;
  • 為什麼本地部署顯存爆了;
  • 為什麼 Agent 工具呼叫不穩定;
  • 為什麼同樣參數下不同模型成本差這麼多。

這時底層知識就不是裝飾,而是排錯能力。

小結

ai-engineering-from-scratch 適合想認真補 AI 工程底層的人。它不承諾速成,也不只是「收藏夾式資源大全」,而是把很多 AI 核心模組拆成可以學習、實作和交付的階段。

如果你只是做簡單 AI 應用,沒必要從頭啃完;但如果你希望自己不只會調 API,而是能理解模型、訓練、推理、最佳化和工程落地,這個倉庫可以作為長期路線圖。

參考來源

记录并分享
使用 Hugo 建立
主題 StackJimmy 設計