rohitg00/ai-engineering-from-scratch 是一份很大的 AI 工程学习路线。它的口号是 “Learn it. Build it. Ship it for others.”,重点不只是读概念,而是把 AI 系统从底层原理一路实现出来。
如果你已经会调用 OpenAI、Claude 或 Gemini API,但想补上机器学习、Transformer、训练、推理和工程化底层知识,这个项目值得收藏。
它不是普通资源列表
很多 AI 学习仓库只是把论文、课程、博客链接堆在一起。ai-engineering-from-scratch 更像一套课程目录,每个主题都标明是 Learn 还是 Build,并且大量内容要求你用 Python 从零实现。
它覆盖的范围很广,包括:
- 数学和机器学习基础;
- 神经网络和深度学习;
- 计算机视觉;
- 音频和语音;
- Transformer 深入;
- 生成式 AI;
- 强化学习;
- LLM 从零实现;
- 推理优化;
- AI Agent 和生产工程。
这种路线不适合“今晚就上线一个 AI 应用”的人,但非常适合想把 AI 工程基本功补扎实的人。
学习路线有什么特点
项目的一个明显特点是分阶段推进。比如 Transformer 部分会从 RNN 的问题讲起,再进入 self-attention、multi-head attention、positional encoding、完整 Transformer、BERT、GPT、T5、ViT、MoE、KV cache、Flash Attention、Scaling Laws 和从零构建 Transformer。
LLM 部分也不是只讲 prompt,而是会覆盖:
- tokenizer:BPE、WordPiece、SentencePiece;
- 从零构建 tokenizer;
- 预训练数据管线;
- 预训练 Mini GPT;
- 分布式训练;
- Instruction Tuning;
- RLHF;
- DPO;
- 推理优化和部署。
这类内容很适合把“我会用 AI API”升级成“我理解模型为什么这样工作”。
为什么强调 from scratch
“从零实现”听起来慢,但它有一个好处:你会知道框架帮你隐藏了什么。
比如你自己写过 attention,就更容易理解:
- 为什么上下文越长显存越吃紧;
- KV cache 为什么能加速推理;
- Flash Attention 优化的到底是什么;
- RoPE 和 ALiBi 在位置编码上有什么差别;
- MoE 为什么不是简单把参数量堆大;
- tokenization 为什么会影响多语言效果;
- 微调、RLHF、DPO 解决的是不同层面的问题。
这些东西平时调用 API 不一定用得上,但一旦你要做模型选型、成本优化、本地部署、长上下文系统或 Agent 框架,就会变得很有用。
适合谁学
这份路线更适合:
- 已经会写 Python,想系统补 AI 工程的人;
- 做 AI 应用,但对模型底层不够踏实的人;
- 想从 API 调用者进阶到 AI Engineer 的开发者;
- 准备研究 LLM、推理优化或模型训练的人;
- 喜欢边学边实现,而不是只看视频和文章的人。
它不太适合完全零基础用户。至少要有 Python、基础数学和一点机器学习概念,否则会很容易卡住。
怎么开始比较稳
不要试图一口气啃完整个仓库。更实际的方式是按目标选择路径:
- 想做 AI 应用:优先看 LLM、Agent、推理和工程化部分;
- 想理解模型:从神经网络、Transformer、LLM from scratch 开始;
- 想做语音产品:看 audio、Whisper、TTS、voice assistant pipeline;
- 想做图像生成:看 generative AI、diffusion、Stable Diffusion、ControlNet;
- 想补基础:从数学、机器学习、深度学习开始。
学习时最好每个阶段都留一个小项目。只读目录会很爽,但真正有价值的是把 tokenizer、attention、mini GPT、RAG 或推理服务跑起来。
和普通 AI 应用开发的关系
现在很多 AI 应用开发确实不需要从零训练模型。你可以用云端 API、向量数据库、工作流引擎和几个工具调用,很快做出一个产品原型。
但如果你要走得更远,就会遇到这些问题:
- 为什么这个模型上下文长但很慢;
- 为什么 RAG 检索到了答案但模型没用上;
- 为什么微调后某些能力退化;
- 为什么本地部署显存爆了;
- 为什么 Agent 工具调用不稳定;
- 为什么同样参数下不同模型成本差这么多。
这时底层知识就不是装饰,而是排错能力。
小结
ai-engineering-from-scratch 适合想认真补 AI 工程底层的人。它不承诺速成,也不只是“收藏夹式资源大全”,而是把很多 AI 核心模块拆成可以学习、实现和交付的阶段。
如果你只是做简单 AI 应用,没必要从头啃完;但如果你希望自己不只会调 API,而是能理解模型、训练、推理、优化和工程落地,这个仓库可以作为长期路线图。