Claude Code + Ollama 本地部署教程:用 CC Switch 打造免费 AI 编程助手

整理 Claude Code 通过 CC Switch 接入 Ollama 本地模型的思路:它可以保留 Claude Code 的 Agent 操作能力,同时把推理请求转到本地模型,但在长上下文、大型工程和多模态兼容性上仍有明显边界。

最近 Claude Code 在 AI 开发工具圈很火,原因不难理解:它不像普通聊天机器人那样只回答问题,而是可以读取项目、修改代码、执行终端命令、安装依赖,并尝试自动修复报错。

真正的问题在成本。Claude 官方 API 在长上下文、大型项目、多轮 Agent 调用和自动修 Bug 场景下,Token 消耗会很快变大。于是出现了一种新的玩法:继续使用 Claude Code 的 Agent 外壳,但把模型请求转发给本地 Ollama

这条链路的关键工具是 CC Switch

这套方案解决什么问题

可以把它理解为:

1
2
3
Claude Code 桌面版
+ CC Switch API 转发层
+ Ollama 本地模型

Claude Code 继续负责项目操作、终端执行、文件修改和 Agent 流程;真正负责推理的大模型,则换成本地运行的 QwenDeepSeekGemmaGLM 等模型。

这样做的吸引力很直接:

  • 不依赖 Claude 官方 API。
  • 没有持续 Token 计费压力。
  • 模型和数据可以留在本机。
  • 小项目、脚本、网页、运维任务可以低成本反复试。

但它不是“免费获得 Claude Sonnet 能力”。本地模型的工程理解、长上下文稳定性和复杂任务规划,仍然会受模型能力、显存、量化版本和上下文长度限制。

基本准备

前置环境主要包括:

  1. 安装 Git
  2. 安装 Claude Code 官方桌面版。
  3. 安装最新版 Ollama 客户端。
  4. 下载 CC Switch 开源工具。
  5. 在 Ollama 中准备合适的本地模型。

模型选择可以按显存来定。常见选择包括:

  • Qwen 3.6 / Qwen 3.5
  • Gemma4
  • DeepSeek R1
  • GLM

如果显存不大,优先选择较小参数或较低量化版本。不要一开始就用超大模型,否则很容易出现加载慢、上下文短、响应卡顿或直接显存不足。

CC Switch 关键配置

这套方案里最关键的配置项是下面几项。

请求地址:

1
http://127.0.0.1:11434/v1

API 格式:

1
OpenAI Chat Completions

认证字段选择:

1
ANTHROPIC_API_KEY

Claude Code 桌面版的自定义配置文件末尾,还需要加入注册表修改命令:

1
"inferenceModels"="[\"haiku\",\"sonnet\",\"opus\"]"

这一步的作用,是让 CC Switch 把模型名称注入到 Claude Code 里显示。Claude Code 以为自己在调用 Claude 模型,实际请求已经被 CC Switch 转发到了本地 Ollama。

Claude Code 强在哪里

很多人第一次接触 Claude Code,会把它当成高级聊天工具。但它和普通 AI 聊天客户端不太一样。

普通聊天式 AI 通常是:

1
2
你问一句
它答一句

Claude Code 更接近:

1
AI + IDE + Terminal

它可以读取项目结构,例如:

1
2
3
4
src/
components/
package.json
docker-compose.yml

然后尝试完成一串操作:

  • 分析代码。
  • 修改文件。
  • 安装依赖。
  • 执行命令。
  • 查看报错。
  • 再次修改。
  • 重新运行项目。

这也是为什么很多开发者把它叫做 AI 开发 Agent。它的价值不只是“写一段代码”,而是能围绕项目状态连续行动。

Ollama 在这里扮演什么角色

Ollama 负责在本机运行模型。

这套组合的核心逻辑是:

  1. Claude Code 负责 Agent 能力和项目操作。
  2. CC Switch 负责把 Claude Code 的请求转成兼容本地模型的 API。
  3. Ollama 负责实际推理。
  4. 本地模型返回结果后,再交给 Claude Code 继续执行。

所以,这不是把 Ollama 变成一个普通聊天窗口,而是把它接进 Claude Code 的工作流。

对于小型任务,这种组合会很有吸引力。比如:

  • 生成一个 HTML 页面。
  • 修改小型前端项目。
  • 写自动化脚本。
  • 处理 Docker 配置。
  • 做 VPS 运维辅助。
  • 生成简单工具或测试代码。

类似“帮我生成一个赛博朋克风格的个人主页网站”这类任务,本地模型可以完成项目创建、网页生成、动画和特效配置,并尝试自动运行。

体验边界在哪里

这套玩法很有意思,但边界也要说清楚。

目前本地模型仍然很难完全替代 Claude Sonnet,尤其在这些场景里:

  • 长上下文理解。
  • 大型工程结构分析。
  • 多步骤推理。
  • 复杂项目架构调整。
  • 长时间连续修 Bug。

项目一复杂,本地模型更容易出现:

  • 逻辑混乱。
  • 修改错误文件。
  • 反复修同一个 Bug。
  • 忘记前文上下文。
  • 对项目结构判断不稳定。

所以更合理的定位是:它适合低成本试验、小项目、脚本任务和局部代码修改;不适合一开始就把大型生产项目完全交给它自动改。

多模态兼容性还不稳定

这套链路还有一个明显问题:Vision 多模态兼容性。

虽然 Ollama 已经支持一些 Vision 模型,但 Claude Code + CC Switch + Ollama 这条链路对图片支持并不完整。常见情况是:用户上传了图片,但 AI 仍提示没有看到图片。

这并不一定是模型不支持 Vision,而是整条链路里:

  • Claude Code 更偏代码 Agent。
  • CC Switch 主要处理 API 转发。
  • Ollama 模型能力和请求格式还要匹配。
  • 图片输入在不同客户端和模型之间并不总是无缝传递。

所以目前更适合的场景还是:

  • 编程。
  • 终端操作。
  • 项目文件修改。
  • 自动化脚本。

而不是:

  • 图片理解。
  • OCR。
  • 多模态聊天。
  • 复杂视觉任务。

适合谁尝试

这套方案适合几类人:

  • 想体验 Claude Code Agent 工作流,但不想持续消耗 Claude API 的用户。
  • 已经在本机跑 Ollama 的本地大模型玩家。
  • 做小项目、脚本、网页、运维工具的开发者。
  • 想测试本地模型真实编程能力的人。
  • 对数据本地化更敏感的用户。

不太适合:

  • 完全不想折腾配置的人。
  • 希望获得 Claude Sonnet 同等能力的人。
  • 需要稳定处理大型生产代码库的人。
  • 强依赖图片输入和多模态能力的人。

使用建议

如果要尝试,建议按低风险方式开始:

  1. 先用测试项目,不要直接接生产仓库。
  2. 选择中小模型,确认 Ollama 本身运行稳定。
  3. 先做 HTML、脚本、配置文件这类简单任务。
  4. 每次修改后自己检查 git diff
  5. 不要让它在不确认的情况下批量删除或重构文件。
  6. 多模态任务暂时不要依赖这条链路。

如果项目比较复杂,最好把任务拆小:让它只改一个模块、一个函数、一个页面或一个配置文件。这样比“一句话让它重构整个项目”可靠得多。

小结

Claude Code + Ollama + CC Switch 的意义,不是让本地模型立刻变成 Claude Sonnet,而是把本地模型接进一个真正能操作项目的 Agent 外壳里。

这让本地 AI 开发助手第一次变得更接近真实生产力工具:它可以看项目、改文件、跑命令、修错误,而不是只在聊天框里给建议。

但它的能力上限仍然取决于本地模型本身。小项目和自动化任务会很有价值;大型工程、长上下文和复杂推理仍然需要更强模型。

如果你的目标是“零 API 成本、无 Token 焦虑、在本机反复试 AI 编程 Agent”,这套方案值得折腾。只是要记住:它是本地开发助手,不是万能自动程序员。

记录并分享
使用 Hugo 构建
主题 StackJimmy 设计