GitHub AI 开源项目分类整理:从 Coding Agent 到 RAG、本地语音角色和自动化工具

根据站内已更新的 GitHub 项目介绍文章,整理 AI 编程、Agent 工作流、RAG 知识库、多模态内容、本地模型、自动化应用和 AI 应用开发基础设施项目索引。

这里按应用方向整理本站已经介绍过的 GitHub AI 项目。它不是 GitHub star 排行榜,而是一个站内索引:方便从“我想解决什么问题”出发,快速找到对应项目文章。

本次更新补入了 05 月后半段到 06 月新增的一批项目,包括 browser-harnessOpenAI SymphonyGitHub Spec Kitoh-my-codexHeadroomEverOSMemPalaceopen-notebookMinerUturbovecOpen-LLM-VTuber 等。

分类合计

分类 项目数 适合先看的人
AI 编程与 Coding Agent 31 经常使用 Claude Code、Codex、Cursor、终端 Agent 或代码库自动化的人
Agent 技能与工作流 13 想把 AI 编程、研究、求职、趋势分析和创作流程标准化的人
RAG、知识库与记忆 13 需要文档检索、知识库、长期记忆、OCR、结构化解析和本地向量索引的人
多模态与内容创作 11 做图片、视频、语音、数字人、Live2D 角色和内容分发的人
垂直应用与自动化 12 想看金融、交易、闲鱼监控、桌面操作、手机操作和浏览器自动化场景的人
AI 应用开发基础设施 10 构建 AI 应用、Agent 工具链、浏览器自动化、前端 AI 交互和 API 网关的人
本地模型与推理 3 关注本地模型、量化、推理引擎和硬件适配的人
通用开发、运维与学习资源 11 想补基础设施、开发框架、运维安全和学习资料的人

这个分布能看出几个方向:AI 编程工具仍然最多;RAG、Agent 工作流和垂直自动化紧随其后;最近新增项目里,本地知识库、浏览器/手机操作、语音角色和轻量向量索引明显增多。

AI 编程与 Coding Agent

这一类聚焦代码理解、代码修改、工程流程和终端 Agent,是数量最多的一组。

项目 文章 GitHub 核心用途 适合人群
Ralph Ralph 是什么:把 Claude Code 和 Amp 变成可循环执行的自主开发流程 snarktank/ralph 让 Claude Code / Amp 按 PRD、计划、执行、评审循环推进任务 想把 Agent 编程流程拉直的人
Claude-Mem Claude-Mem:给 Claude Code 加上跨会话长期记忆 thedotmack/claude-mem 给 Claude Code 增加跨会话记忆 高频使用 Claude Code 的开发者
Claude Code Hooks Mastery Claude Code Hooks Mastery:13 个 Hooks 生命周期与自动化控制入门 disler/claude-code-hooks-mastery 学习 Claude Code Hooks 生命周期和自动化控制 想定制 Claude Code 流程的人
Compound Engineering Plugin Compound Engineering Plugin:把 AI 编程变成计划、执行、评审的工程循环 EveryInc/compound-engineering-plugin 把 AI 编程拆成计划、执行、评审循环 关注工程化 AI 编程的人
free-claude-code free-claude-code:用代理把 Claude Code 接到 OpenRouter、DeepSeek 和本地模型 Alishahryar1/free-claude-code 通过代理把 Claude Code 接到不同模型后端 想降低 Claude Code 使用成本的人
Hermes Agent Hermes Agent 是什么:简介、优点、快速上手与 OpenClaw 对比 NousResearch/hermes-agent 本地 Agent 框架,支持工具调用和任务执行 想跑本地 Agent 的用户
OpenHarness OpenHarness 是什么:这个开源 Agent Harness 能做什么 HKUDS/OpenHarness Agent Harness 与多 Agent 执行框架 研究 Agent 编排的人
CodexBridge Codex 怎么接入国产大模型?OpenAI 兼容接口中 CodexBridge 使用思路 begonia599/CodexBridge 帮 Codex 接入 OpenAI 兼容模型接口 想把 Codex 接到国产模型的人
ccx Codex 怎么接入国产大模型?用 CCX 统一管理 OpenAI 兼容 API BenedictKing/ccx 统一管理 Claude、Codex、Gemini 等 API 代理 多模型切换用户
cc-haha cc-haha 是什么?一个把 Claude Code 做成桌面工作台的项目 NanmiCoder/cc-haha Claude Code 桌面工作台与 Computer Use 入口 喜欢图形界面的 Claude Code 用户
DeepSeek-TUI DeepSeek-TUI:把 DeepSeek V4 变成终端里的编程智能体 Hmbown/DeepSeek-TUI 在终端里运行 DeepSeek 编程 Agent DeepSeek 与命令行用户
Open Design Open Design 项目解析:把 Claude Code、Codex 变成 AI 设计工具 nexu-io/open-design 让 Claude Code / Codex 参与设计生成 想用 Agent 做设计原型的人
agentmemory agentmemory 项目解析:给 Claude Code、Codex 和 Cursor 加持久记忆 rohitg00/agentmemory 给 Coding Agent 增加持久记忆层 长期维护项目的开发者
Graphify Graphify 解决 Claude Code 最大局限:把代码库变成 AI 可查询知识图谱 safishamsi/graphify 把代码库转成知识图谱,降低 Agent 重复读文件成本 大型代码库用户
oh-my-pi oh-my-pi 是什么?一个把终端、IDE 和调试器打通的 AI 编程助手 can1357/oh-my-pi 打通终端、IDE、LSP 和调试器 想把命令行和 IDE 工作流连接起来的开发者
CodeGraph CodeGraph 是什么?给 Claude Code、Codex 和 Cursor 加一个本地代码地图 colbymchenry/codegraph 为代码库生成本地索引和关系图 维护中大型代码库的开发者
CC Switch CC Switch:一个桌面工具统一管理 Claude Code、Codex、Gemini CLI 和 OpenClaw farion1231/cc-switch 管理多个 AI CLI 工具和账号配置切换 同时使用多套 CLI 的人
Warp Warp 开源:从终端到 Agentic Development Environment warpdotdev/warp Agentic 终端与开发环境 终端重度用户
opencode opencode、Claude Code、Codex 有什么区别?开源 AI 编程工具使用指南 anomalyco/opencode 开源 AI 编程 Agent 想找 Claude Code / Codex 替代品的人
9Router 9Router:把 Claude Code、Codex、Cursor 接到同一个 AI 路由器 decolua/9router AI 编程模型路由与 token 成本控制 多工具、多模型用户
goose goose:桌面端、CLI 和 API 一体的开源 AI Agent aaif-goose/goose 桌面、CLI、API 一体的开源 Agent 想要通用 Agent 工作台的人
OpenAI Symphony OpenAI Symphony 是什么?Codex 编排、Issue 驱动与 AI Agent 开发工作流 openai/symphony 面向 Codex 的任务编排和 Issue 驱动开发 想把 AI 编程流程项目化的人
GitHub Spec Kit GitHub Spec Kit 是什么?用规格驱动开发约束 AI 编程 github/spec-kit 规格驱动开发工具包 想用规格约束 AI 编程的人
oh-my-codex oh-my-codex:给 Codex CLI 加上工作流、技能和运行时护栏 Yeachan-Heo/oh-my-codex Codex CLI 工作流、Skills 和运行时护栏 Codex CLI 重度用户
RTK RTK:给 AI 编程代理省 token 的命令行代理工具 rtk-ai/rtk 给 AI 编程代理压缩上下文和减少 token 消耗 想降低 Agent 编程成本的人
Headroom Headroom 怎么用?给 AI Agent 省上下文的本地压缩层 chopratejas/headroom 本地上下文压缩层 长上下文和多轮 Agent 用户
DeepSeek-Reasonix DeepSeek-Reasonix 怎么用?DeepSeek 原生终端编程代理 esengine/DeepSeek-Reasonix DeepSeek 原生终端编程代理 DeepSeek 和终端开发用户
Understand-Anything Understand-Anything 怎么用?把代码仓库变成可问答知识图谱 Lum1104/Understand-Anything 代码仓库知识图谱和问答 想让 Agent 理解大型仓库的人
CLIProxyAPI CLIProxyAPI:把 Codex、Claude Code、Gemini CLI 统一封装成 API router-for-me/CLIProxyAPI 把多个 AI CLI 封装成兼容 API 想统一接入多套 CLI 的团队
Claude Plugins Official Claude Code 也有插件市场了:能装什么、怎么装、要注意什么 anthropics/claude-plugins-official Claude Code 官方插件目录和安装入口 想扩展 Claude Code 能力的用户

Agent 技能与工作流

这一类更关注把 AI 能力固化成可重复的技能、流程、研究方法和工作流。

项目 文章 GitHub 核心用途 适合人群
mattpocock/skills 拒绝 Vibe Coding:Matt Pocock 的 skills 仓库给 AI 编程补上工程约束 mattpocock/skills 用 Skills 约束 AI 编程流程 想给 Agent 加工程规范的人
Superpowers Superpowers:把 Coding Agent 拉回工程流程的技能框架 obra/superpowers Agentic skills framework 与软件开发方法论 想系统化使用 Coding Agent 的人
Prompt-Vault Prompt-Vault:一个适合测试 AI 编程能力的 Prompt 规格库 w512/Prompt-Vault 收集可测试 AI 编程能力的 prompt 规格 做模型和工具评测的人
web-video-presentation web-video-presentation:把文章做成可录屏网页视频的 Agent Skill ConardLi/garden-skills 把文章转成可录屏网页视频的 Skill 内容创作者和自动化制作用户
nuwa-skill nuwa-skill:把“蒸馏一个人”从灵感变成可执行流程 alchaincyf/nuwa-skill 用 Skill 复刻人物表达和思维流程 做风格化 Agent 的人
Scientific Agent Skills Scientific Agent Skills:把科研工作流交给 AI Agent 的技能库 K-Dense-AI/scientific-agent-skills 科研工作流 Skill 集合 科研、数据分析和技术写作用户
easy-vibe easy-vibe:给 Vibe Coding 初学者的一张学习地图 datawhalechina/easy-vibe Vibe Coding 入门学习地图 AI 编程新手
Taste Skill Taste Skill 怎么用?给 AI 前端生成加一点审美约束 Leonxlnx/taste-skill 给 AI 前端生成加入审美和设计约束 用 AI 生成前端页面的人
academic-research-skills academic-research-skills 怎么用?Claude Code 学术研究 Skill 套件 Imbad0202/academic-research-skills 学术研究 Skill 套件 研究、写论文和资料整理用户
last30days-skill last30days-skill 怎么用?让 AI Agent 做最近 30 天趋势研究 mvanhorn/last30days-skill 最近 30 天趋势研究 Skill 做趋势研究和选题的人
Agent-Reach Agent-Reach 怎么用?给 AI Agent 接入多平台搜索和读取能力 Panniantong/Agent-Reach 多平台搜索和读取 CLI 需要 Agent 看互联网的人
Personal AI Infrastructure Personal AI Infrastructure:个人 AI 基础设施应该怎么搭 danielmiessler/Personal_AI_Infrastructure 个人 AI 基础设施清单 想系统搭建个人 AI 工作流的人
career-ops career-ops 怎么用?用 Claude Code 管理求职流程 santifer/career-ops 用 Claude Code 管理求职流程 正在找工作并想自动化管理材料的人

RAG、知识库与记忆

这一类主要解决文档检索、知识库构建、长期记忆、OCR、文档解析和向量索引问题。

项目 文章 GitHub 核心用途 适合人群
LangExtract Google LangExtract:用 LLM 从长文本里抽取结构化数据 google/langextract 从长文本中抽取结构化信息 做信息抽取和数据处理的人
qmd qmd:给 AI Agent 使用的本地 Markdown 文档搜索工具 tobi/qmd 本地 Markdown 文档搜索 用 Markdown 管理知识库的人
Firecrawl Firecrawl 项目整理:给 AI Agent 用的网页搜索、抓取与交互 API firecrawl/firecrawl 网页抓取、搜索和结构化数据入口 做 RAG 和 Agent 数据入口的人
RAGFlow RAGFlow 项目整理:开源 RAG 引擎的功能与使用方法 infiniflow/ragflow 开源 RAG 引擎 企业知识库和文档问答用户
OpenHuman OpenHuman 速读:开源个人 AI Agent 的桌面化路线 tinyhumansai/openhuman 本地优先的个人 AI Agent 与记忆层 想整合个人数据的人
OpenKB OpenKB:把文档编译成可持续更新的 LLM 知识库 VectifyAI/OpenKB 把文档编译成可更新知识库 文档知识库维护者
PageIndex PageIndex 是什么?不用向量库的推理式 RAG 文档索引解析 VectifyAI/PageIndex 不依赖向量库的推理式文档索引 关注 RAG 新路线的人
EverOS EverOS 怎么用?给 AI Agent 做长期记忆的本地框架 EverMind-AI/EverOS 本地长期记忆框架 想给 Agent 做长期记忆的人
MemPalace MemPalace 怎么用?开源 AI 记忆系统适合哪些 Agent 场景 MemPalace/mempalace AI 记忆系统 多 Agent、长期项目和个人知识库用户
open-notebook open-notebook 怎么用?开源版 NotebookLM 更适合自建知识学习 lfnovo/open-notebook 开源版 NotebookLM 体验 想自建资料学习和问答空间的人
PaddleOCR PaddleOCR 怎么用?把 PDF 和图片变成 AI 可用结构化数据 PaddlePaddle/PaddleOCR OCR 和文档结构化解析 文档数字化和 RAG 数据处理用户
MinerU MinerU 使用指南:把 PDF、Office 和图片解析成适合 RAG 的 Markdown/JSON opendatalab/MinerU 文档解析为 Markdown/JSON 想把复杂文档喂给 RAG 的人
turbovec turbovec 是什么?一个为本地 RAG 省内存的 Rust 向量索引 RyanCodrai/turbovec 压缩向量索引和本地 RAG 检索 内存、隐私和低延迟敏感的 RAG 用户

多模态与内容创作

这一类面向图片、视频、语音、数字人、Live2D 角色和内容分发。

项目 文章 GitHub 核心用途 适合人群
rembg rembg 项目整理:本地图片背景移除工具 danielgatis/rembg 本地图片背景移除 电商、美工和图片处理用户
awesome-gpt-image-2-prompts GPT-Image 2 提示词宝库:电商、海报、人像、UI 全收录 EvoLinkAI/awesome-gpt-image-2-prompts GPT-Image 2 提示词和案例库 AI 绘图和提示词用户
faster-whisper faster-whisper:更快的 Whisper 转写引擎 SYSTRAN/faster-whisper 高性能语音转文字 做字幕、转写和语音处理的人
Pixelle-Video Pixelle-Video:一句主题生成短视频的开源 AI 引擎 AIDC-AI/Pixelle-Video 一句话生成短视频工作流 短视频和 AIGC 内容创作者
AiToEarn 内容发太多平台太累?AiToEarn 想用 AI Agent 帮创作者省点事 yikart/AiToEarn 多平台内容分发与创作者自动化 内容运营和创作者
HyperFrames HyperFrames 怎么用?用 HTML 写视频的 Agent 友好工具 heygen-com/hyperframes 用 HTML 生成视频 想让 Agent 生成视频内容的人
OpenAI Whisper OpenAI Whisper 怎么用?开源语音识别模型的定位和边界 openai/whisper 开源语音识别模型 语音转写和多语言字幕用户
VibeVoice VibeVoice 是什么?微软开源语音 AI 项目值得关注吗 microsoft/VibeVoice 语音 AI 项目 关注语音生成和语音交互的人
LongCat-Video LongCat-Video-Avatar-1.5:美团开源音频驱动数字人视频模型 meituan-longcat/LongCat-Video 音频驱动数字人视频 数字人和视频生成用户
WavFlow WavFlow:Meta 开源原始波形空间音频生成项目 facebookresearch/WavFlow 原始波形空间音频生成 语音和音频生成研究用户
Open-LLM-VTuber Open-LLM-VTuber 怎么用?把本地 LLM 变成会说话的 Live2D 角色 Open-LLM-VTuber/Open-LLM-VTuber 本地 LLM、语音、视觉和 Live2D 角色整合 想自建 AI VTuber 或桌面 AI 伴侣的人

垂直应用与自动化

这一类是把 Agent 或 AI 能力落到金融、交易、电商、桌面、浏览器和手机操作等具体场景。

项目 文章 GitHub 核心用途 适合人群
TradingAgents-CN TradingAgents-CN:面向中文用户的多智能体金融交易研究框架 hsliuping/TradingAgents-CN 多智能体金融交易研究框架 量化、金融和 Agent 研究者
FinceptTerminal FinceptTerminal:开源金融终端、量化研究和 AI Agent 工作台 Fincept-Corporation/FinceptTerminal 金融终端、量化研究和 AI Agent 工作台 金融分析和量化用户
Anthropic financial-services Anthropic financial-services:把金融 Agent 场景做成可复用模板 anthropics/financial-services 金融服务 Agent 模板 做金融 AI 方案的人
ai-goofish-monitor ai-goofish-monitor:用 AI 自动盯闲鱼商品的开源监控系统 Usagi-org/ai-goofish-monitor AI 商品监控和闲鱼自动化 二手交易监控用户
CloakBrowser CloakBrowser 是什么?给 Playwright 和 Puppeteer 换一个更像真实用户的浏览器 CloakHQ/CloakBrowser 更像真实用户的浏览器自动化环境 浏览器自动化和 Agent 操作场景
UI-TARS-desktop 让 AI 自己操作电脑:UI-TARS-desktop 把桌面、浏览器和工具都接了起来 bytedance/UI-TARS-desktop 桌面、浏览器和工具操作 Agent 想让 AI 操作电脑的人
AI-Trader AI-Trader 是什么?一个让 AI Agent 发布交易信号、做模拟交易的平台 HKUDS/AI-Trader AI Agent 交易信号和模拟交易平台 金融 Agent 与交易研究用户
xianyu-auto-reply xianyu-auto-reply 怎么用?闲鱼自动回复系统功能和部署注意 zhinianboke/xianyu-auto-reply 闲鱼自动回复 电商和二手交易自动化用户
MobiAgent MobiAgent 是什么?一个能操作手机 App 的开源 AI 智能体 IPADS-SAI/MobiAgent 操作手机 App 的 AI Agent 研究移动端 Agent 的人
Mobile-Agent AI 能自己点手机、用电脑了吗?Mobile-Agent 项目解读 X-PLUG/MobileAgent 手机 UI 操作 Agent 想让 AI 操作真实 App 的人
Mobilerun 想让 AI 自动点手机?Mobilerun 支持 Android 和 iOS droidrun/mobilerun Android 和 iOS 手机自动化 移动端自动化测试和 Agent 用户
mobile-use mobile-use 看点:让 AI 操作真实 App,还能提取数据 minitap-ai/mobile-use 真实 App 操作和数据提取 做移动端数据抓取和自动化的人

AI 应用开发基础设施

这一类提供构建 AI 应用和 Agent 工具链所需的基础组件。

项目 文章 GitHub 核心用途 适合人群
Prompt Optimizer Prompt Optimizer:开源提示词优化、测试与 MCP 工具 linshenkx/prompt-optimizer 提示词优化、测试和 MCP 工具 做 prompt 工程和应用调参的人
Playwright CLI Playwright CLI 使用入门:安装、Skills、会话管理与常用命令 microsoft/playwright-cli 面向 coding agent 的浏览器自动化 CLI 需要浏览器操作能力的 Agent 用户
Vercel AI SDK Vercel AI SDK 是什么?TypeScript 开发者构建 AI 应用的统一工具包 vercel/ai TypeScript AI 应用开发 SDK 前端和全栈开发者
CLIProxyAPI Management Center CLIProxyAPI Management Center:给 CLIProxyAPI 配一个可视化管理后台 router-for-me/Cli-Proxy-API-Management-Center CLIProxyAPI 的 Web 管理界面 把 CLIProxyAPI 当团队网关的人
browser-harness browser-harness 是什么?AI Agent 接管真实 Chrome 的浏览器自动化工具 browser-use/browser-harness 让 AI Agent 接管真实 Chrome 需要真实浏览器自动化的 Agent 用户
CopilotKit CopilotKit 怎么用?给前端应用接入 AI Copilot 和 Generative UI CopilotKit/CopilotKit 前端 AI Copilot 和 Generative UI 做 AI 前端交互的开发者
Vite Vite 为什么快?现代前端构建工具的默认选择 vitejs/vite 前端构建工具 前端和全栈开发者
Svelte Svelte 还值得学吗?重新理解这个编译型前端框架 sveltejs/svelte 编译型前端框架 想做轻量高性能前端的人
Microsoft MXC Microsoft MXC 是什么?策略驱动的隔离和容器化实验 microsoft/mxc 策略驱动隔离和容器化实验 关注沙箱、隔离和工程安全的人
Remotion Remotion:用 React 以编程方式生成视频 remotion-dev/remotion 用 React 编程生成视频 前端视频生成和自动化内容用户

本地模型与推理

这一类关注本地模型运行、量化和推理实验。

项目 文章 GitHub 核心用途 适合人群
ds4 本地运行 DeepSeek 4:Antirez ds4 在 Apple Silicon Mac 上的尝试 antirez/ds4 在 Apple Silicon 上尝试运行 DeepSeek 4 本地模型和推理实验用户
llama.cpp RTX 3060 也能跑 35B?llama.cpp 的 –n-cpu-moe 让老电脑继续本地大模型 ggml-org/llama.cpp 本地 LLM 推理引擎 消费级显卡和本地模型用户
NVIDIA Model Optimizer NVIDIA 发布 Qwen3.6-35B-A3B-NVFP4:面向 vLLM 部署的 FP4 量化版本 NVIDIA/Model-Optimizer 模型量化和部署优化 关注 vLLM、FP4 和推理部署的人

通用开发、运维与学习资源

这类不是纯 AI Agent 项目,但常被 AI 项目开发、部署、学习和数据处理流程用到。

项目 文章 GitHub 核心用途 适合人群
English-level-up-tips English-level-up-tips 值得看吗?一份很不常规的英语学习指南 byoungd/English-level-up-tips 英语学习经验和资料 想提升英文阅读和表达的人
ai-engineering-from-scratch ai-engineering-from-scratch:从零手搓 AI 工程的学习路线 rohitg00/ai-engineering-from-scratch AI 工程学习路线 想系统学习 AI 工程的人
NGINX NGINX 开源仓库怎么看?Web 服务器、反向代理和负载均衡基础设施 nginx/nginx Web 服务器和反向代理 部署 AI 应用和 Web 服务的人
Trivy Trivy 怎么用?容器、Kubernetes 和代码仓库安全扫描工具 aquasecurity/trivy 容器、Kubernetes 和代码安全扫描 做 DevSecOps 和部署安全的人
Go Go 语言官方仓库怎么看?从源码理解 Go 的演进 golang/go Go 官方源码和语言演进 后端和基础设施开发者
Jimmy Jimmy:把 Evernote、Notion、Google Keep 等笔记导出转换成 Markdown marph91/jimmy 笔记导出为 Markdown 迁移个人知识库的人
Joplin Joplin:离线优先、支持同步和加密的开源笔记应用 laurent22/joplin 开源笔记和同步 自建笔记系统用户

怎么使用这张表

如果你是开发者,优先看 AI 编程与 Coding AgentAgent 技能与工作流AI 应用开发基础设施

如果你在做知识库、私有资料问答或企业 RAG,优先看 RAG、知识库与记忆,尤其是 OpenKBPageIndexMinerUPaddleOCRturbovec 这一组。

如果你在做内容和交互体验,优先看 多模态与内容创作,最近新增的 Open-LLM-VTuber 很适合研究本地语音角色、Live2D 和 LLM 的组合方式。

如果你想让 AI 真正操作软件、网页或手机,优先看 垂直应用与自动化browser-harnessUI-TARS-desktopMobiAgentMobile-Agentmobile-use 这些项目。

后续本站新增 GitHub 项目介绍时,可以继续按这个分类补入。

记录并分享
使用 Hugo 构建
主题 StackJimmy 设计