ai-engineering-from-scratch：从零手搓 AI 工程的学习路线

rohitg00/ai-engineering-from-scratch 是一份很大的 AI 工程学习路线。它的口号是 “Learn it. Build it. Ship it for others.”，重点不只是读概念，而是把 AI 系统从底层原理一路实现出来。

如果你已经会调用 OpenAI、Claude 或 Gemini API，但想补上机器学习、Transformer、训练、推理和工程化底层知识，这个项目值得收藏。

它不是普通资源列表

很多 AI 学习仓库只是把论文、课程、博客链接堆在一起。ai-engineering-from-scratch 更像一套课程目录，每个主题都标明是 Learn 还是 Build，并且大量内容要求你用 Python 从零实现。

它覆盖的范围很广，包括：

数学和机器学习基础；
神经网络和深度学习；
计算机视觉；
音频和语音；
Transformer 深入；
生成式 AI；
强化学习；
LLM 从零实现；
推理优化；
AI Agent 和生产工程。

这种路线不适合“今晚就上线一个 AI 应用”的人，但非常适合想把 AI 工程基本功补扎实的人。

学习路线有什么特点

项目的一个明显特点是分阶段推进。比如 Transformer 部分会从 RNN 的问题讲起，再进入 self-attention、multi-head attention、positional encoding、完整 Transformer、BERT、GPT、T5、ViT、MoE、KV cache、Flash Attention、Scaling Laws 和从零构建 Transformer。

LLM 部分也不是只讲 prompt，而是会覆盖：

tokenizer：BPE、WordPiece、SentencePiece；
从零构建 tokenizer；
预训练数据管线；
预训练 Mini GPT；
分布式训练；
Instruction Tuning；
RLHF；
DPO；
推理优化和部署。

这类内容很适合把“我会用 AI API”升级成“我理解模型为什么这样工作”。

为什么强调 from scratch

“从零实现”听起来慢，但它有一个好处：你会知道框架帮你隐藏了什么。

比如你自己写过 attention，就更容易理解：

为什么上下文越长显存越吃紧；
KV cache 为什么能加速推理；
Flash Attention 优化的到底是什么；
RoPE 和 ALiBi 在位置编码上有什么差别；
MoE 为什么不是简单把参数量堆大；
tokenization 为什么会影响多语言效果；
微调、RLHF、DPO 解决的是不同层面的问题。

这些东西平时调用 API 不一定用得上，但一旦你要做模型选型、成本优化、本地部署、长上下文系统或 Agent 框架，就会变得很有用。

适合谁学

这份路线更适合：

已经会写 Python，想系统补 AI 工程的人；
做 AI 应用，但对模型底层不够踏实的人；
想从 API 调用者进阶到 AI Engineer 的开发者；
准备研究 LLM、推理优化或模型训练的人；
喜欢边学边实现，而不是只看视频和文章的人。

它不太适合完全零基础用户。至少要有 Python、基础数学和一点机器学习概念，否则会很容易卡住。

怎么开始比较稳

不要试图一口气啃完整个仓库。更实际的方式是按目标选择路径：

想做 AI 应用：优先看 LLM、Agent、推理和工程化部分；
想理解模型：从神经网络、Transformer、LLM from scratch 开始；
想做语音产品：看 audio、Whisper、TTS、voice assistant pipeline；
想做图像生成：看 generative AI、diffusion、Stable Diffusion、ControlNet；
想补基础：从数学、机器学习、深度学习开始。

学习时最好每个阶段都留一个小项目。只读目录会很爽，但真正有价值的是把 tokenizer、attention、mini GPT、RAG 或推理服务跑起来。

和普通 AI 应用开发的关系

现在很多 AI 应用开发确实不需要从零训练模型。你可以用云端 API、向量数据库、工作流引擎和几个工具调用，很快做出一个产品原型。

但如果你要走得更远，就会遇到这些问题：

为什么这个模型上下文长但很慢；
为什么 RAG 检索到了答案但模型没用上；
为什么微调后某些能力退化；
为什么本地部署显存爆了；
为什么 Agent 工具调用不稳定；
为什么同样参数下不同模型成本差这么多。

这时底层知识就不是装饰，而是排错能力。

小结

ai-engineering-from-scratch 适合想认真补 AI 工程底层的人。它不承诺速成，也不只是“收藏夹式资源大全”，而是把很多 AI 核心模块拆成可以学习、实现和交付的阶段。

如果你只是做简单 AI 应用，没必要从头啃完；但如果你希望自己不只会调 API，而是能理解模型、训练、推理、优化和工程落地，这个仓库可以作为长期路线图。

参考来源

rohitg00/ai-engineering-from-scratch - GitHub