ai-engineering-from-scratch:从零手搓 AI 工程的学习路线

整理 rohitg00/ai-engineering-from-scratch 项目:它如何用从零实现的方式覆盖机器学习、深度学习、音频、Transformer、生成式 AI、强化学习和 LLM 工程。

rohitg00/ai-engineering-from-scratch 是一份很大的 AI 工程学习路线。它的口号是 “Learn it. Build it. Ship it for others.”,重点不只是读概念,而是把 AI 系统从底层原理一路实现出来。

如果你已经会调用 OpenAI、Claude 或 Gemini API,但想补上机器学习、Transformer、训练、推理和工程化底层知识,这个项目值得收藏。

它不是普通资源列表

很多 AI 学习仓库只是把论文、课程、博客链接堆在一起。ai-engineering-from-scratch 更像一套课程目录,每个主题都标明是 Learn 还是 Build,并且大量内容要求你用 Python 从零实现。

它覆盖的范围很广,包括:

  • 数学和机器学习基础;
  • 神经网络和深度学习;
  • 计算机视觉;
  • 音频和语音;
  • Transformer 深入;
  • 生成式 AI;
  • 强化学习;
  • LLM 从零实现;
  • 推理优化;
  • AI Agent 和生产工程。

这种路线不适合“今晚就上线一个 AI 应用”的人,但非常适合想把 AI 工程基本功补扎实的人。

学习路线有什么特点

项目的一个明显特点是分阶段推进。比如 Transformer 部分会从 RNN 的问题讲起,再进入 self-attention、multi-head attention、positional encoding、完整 Transformer、BERT、GPT、T5、ViT、MoE、KV cache、Flash Attention、Scaling Laws 和从零构建 Transformer。

LLM 部分也不是只讲 prompt,而是会覆盖:

  • tokenizer:BPE、WordPiece、SentencePiece;
  • 从零构建 tokenizer;
  • 预训练数据管线;
  • 预训练 Mini GPT;
  • 分布式训练;
  • Instruction Tuning;
  • RLHF;
  • DPO;
  • 推理优化和部署。

这类内容很适合把“我会用 AI API”升级成“我理解模型为什么这样工作”。

为什么强调 from scratch

“从零实现”听起来慢,但它有一个好处:你会知道框架帮你隐藏了什么。

比如你自己写过 attention,就更容易理解:

  • 为什么上下文越长显存越吃紧;
  • KV cache 为什么能加速推理;
  • Flash Attention 优化的到底是什么;
  • RoPE 和 ALiBi 在位置编码上有什么差别;
  • MoE 为什么不是简单把参数量堆大;
  • tokenization 为什么会影响多语言效果;
  • 微调、RLHF、DPO 解决的是不同层面的问题。

这些东西平时调用 API 不一定用得上,但一旦你要做模型选型、成本优化、本地部署、长上下文系统或 Agent 框架,就会变得很有用。

适合谁学

这份路线更适合:

  • 已经会写 Python,想系统补 AI 工程的人;
  • 做 AI 应用,但对模型底层不够踏实的人;
  • 想从 API 调用者进阶到 AI Engineer 的开发者;
  • 准备研究 LLM、推理优化或模型训练的人;
  • 喜欢边学边实现,而不是只看视频和文章的人。

它不太适合完全零基础用户。至少要有 Python、基础数学和一点机器学习概念,否则会很容易卡住。

怎么开始比较稳

不要试图一口气啃完整个仓库。更实际的方式是按目标选择路径:

  • 想做 AI 应用:优先看 LLM、Agent、推理和工程化部分;
  • 想理解模型:从神经网络、Transformer、LLM from scratch 开始;
  • 想做语音产品:看 audio、Whisper、TTS、voice assistant pipeline;
  • 想做图像生成:看 generative AI、diffusion、Stable Diffusion、ControlNet;
  • 想补基础:从数学、机器学习、深度学习开始。

学习时最好每个阶段都留一个小项目。只读目录会很爽,但真正有价值的是把 tokenizer、attention、mini GPT、RAG 或推理服务跑起来。

和普通 AI 应用开发的关系

现在很多 AI 应用开发确实不需要从零训练模型。你可以用云端 API、向量数据库、工作流引擎和几个工具调用,很快做出一个产品原型。

但如果你要走得更远,就会遇到这些问题:

  • 为什么这个模型上下文长但很慢;
  • 为什么 RAG 检索到了答案但模型没用上;
  • 为什么微调后某些能力退化;
  • 为什么本地部署显存爆了;
  • 为什么 Agent 工具调用不稳定;
  • 为什么同样参数下不同模型成本差这么多。

这时底层知识就不是装饰,而是排错能力。

小结

ai-engineering-from-scratch 适合想认真补 AI 工程底层的人。它不承诺速成,也不只是“收藏夹式资源大全”,而是把很多 AI 核心模块拆成可以学习、实现和交付的阶段。

如果你只是做简单 AI 应用,没必要从头啃完;但如果你希望自己不只会调 API,而是能理解模型、训练、推理、优化和工程落地,这个仓库可以作为长期路线图。

参考来源

记录并分享
使用 Hugo 构建
主题 StackJimmy 设计