最近连续整理了四个移动端 GUI 智能体项目:MobiAgent、Mobile-Agent、Mobilerun 和 mobile-use。它们都和“让 AI 操作手机或移动 App”有关,但定位并不一样。
简单说:MobiAgent 更像可定制手机智能体研究系统;Mobile-Agent 是通义实验室围绕 GUI agent 的系列工作集合;Mobilerun 更偏可落地的本地/云端移动设备控制框架;mobile-use 则强调真实 App 操作、任务分解、数据抽取和 AndroidWorld 评测。
基本信息对比
| 项目 | 站内文章 | GitHub | 主要定位 | 设备/平台 | 开源协议 | 更适合谁 |
|---|---|---|---|---|---|---|
| MobiAgent | 站内介绍 | IPADS-SAI/MobiAgent | 可定制手机 GUI 智能体系统,包含模型、runner、记忆、加速和评测 | 主要面向 Android/Harmony 手机 | Apache-2.0 | 研究者、移动智能体实验团队 |
| Mobile-Agent | 站内介绍 | X-PLUG/MobileAgent | 通义实验室 GUI 智能体家族,覆盖移动端、桌面、浏览器和工具调用 | 手机、PC、网页、云手机/云桌面 | MIT | 关注 GUI agent 技术路线的人 |
| Mobilerun | 站内介绍 | droidrun/mobilerun | LLM 无关的移动设备 agent 框架,支持 CLI、Python API 和云端设备工作流 | Android、iOS、本地设备、云端设备 | MIT | 开发者、QA、自动化工作流团队 |
| mobile-use | 站内介绍 | minitap-ai/mobile-use | 用自然语言操作真实移动 App,强调任务分解、结构化抽取和 AndroidWorld | Android 实机/模拟器、iOS 模拟器 | Apache-2.0 | 做移动 App agent、数据抽取和评测的人 |
MobiAgent
MobiAgent 来自 IPADS-SAI,定位是一个可定制的手机智能体系统。它不是只提供一个执行脚本,而是把 MobiMind 模型家族、AgentRR 动作记录与回放、MobiFlow 评测基准、手机 runner、数据采集和 Android app 放到同一套体系里。
它的特点是研究系统比较完整。MobiAgent 关注真实手机任务中的准确率、效率、记忆和可复用动作序列。README 中提到的用户画像记忆、经验记忆、动作记忆,以及多任务执行,都说明它在尝试处理长期任务和重复任务。
它的门槛也相对高。完整运行需要设备、ADB、模型部署、依赖环境、可选的向量数据库和图数据库配置。更适合研究或工程实验,不太像面向普通用户的“安装即用”手机助手。
Mobile-Agent
Mobile-Agent 来自 X-PLUG/通义实验室。这个仓库已经从早期手机操作智能体,扩展成一个 GUI 智能体家族:Mobile-Agent-v1/v2/v3/v3.5、Mobile-Agent-E、PC-Agent、GUI-Critic-R1、UI-S1、GUI-Owl、ToolCUA 等都在同一条技术线上。
它的特点是跨度大。Mobile-Agent 不只关心手机,还覆盖桌面、浏览器、云手机、云桌面、GUI 感知、grounding、错误诊断、强化学习和 GUI/工具路径编排。GUI-Owl 系列模型让它更像一个跨平台 GUI agent 基础模型路线,而不是单个移动自动化项目。
它的不足也来自这个跨度:仓库更像研究成果集合,使用者需要先判断自己要跑哪个子项目、哪个模型和哪个场景。它适合跟踪技术演进和复现实验,不一定是最快接入业务流程的选择。
Mobilerun
Mobilerun 来自 droidrun,定位更工程化:让 LLM agent 通过自然语言控制 Android 和 iOS 设备。它提供 CLI、TUI、Docker、Python API、Portal-based control、vision mode、reasoning mode、结构化输出、自定义工具、app cards、执行轨迹和云端设备服务。
它最突出的地方是模型无关和部署形态清楚。开发者可以接 OpenAI、Anthropic、Gemini、Ollama、DeepSeek、OpenRouter 或 OpenAI-compatible providers;也可以选择本地框架或 Mobilerun Cloud。对真实团队来说,这种“设备控制层和模型层解耦”的设计很重要。
它也有移动端自动化常见的门槛:Android 需要开发者选项、USB 调试和 Portal app;iOS 需要单独流程;复杂任务还要处理权限弹窗、页面变化、失败重试和日志排查。它更适合愿意把 mobile agent 当成工程组件接入的人。
mobile-use
mobile-use 来自 minitap-ai,目标是让 AI agent 使用真实 Android 和 iOS App。它支持自然语言控制、UI-aware automation、数据抽取、不同 LLM 配置,并强调 AndroidWorld 基准表现。README 中还提到项目是首个在 AndroidWorld benchmark 上达到 100% 的 agentic framework。
它的亮点是任务分解和结构化抽取。比如从 Gmail 中找未读邮件,并按指定 JSON 格式返回发件人和主题,这类任务比“打开设置看看电量”更接近真实生产需求。它把移动 GUI agent 从“会操作”推进到“能把 App 里的信息整理出来”。
它的限制主要在设备支持和运行环境。Android 可以用实体手机或模拟器;iOS 目前主要支持 macOS 上的模拟器,物理 iOS 设备还不支持。Docker 快速启动也主要面向 Android。评估它时,要先确认目标设备和 App 场景能否被当前执行通道覆盖。
功能对比
| 功能维度 | MobiAgent | Mobile-Agent | Mobilerun | mobile-use |
|---|---|---|---|---|
| 自然语言任务 | 支持 | 支持 | 支持 | 支持 |
| 真实手机操作 | 强,偏 Android/Harmony | 强,含移动端与云手机 | 强,Android/iOS | 强,Android;iOS 偏模拟器 |
| 桌面/浏览器扩展 | 不是重点 | 强,含 PC-Agent、GUI-Owl、ToolCUA | 不是主要定位 | 不是主要定位 |
| 模型层 | 自带 MobiMind 系列 | GUI-Owl、Mobile-Agent 系列 | LLM 无关,接多家模型 | 可配置多种 LLM |
| 执行器/runner | 强,含 ADB runner、多任务 runner | 子项目各自提供 | 强,CLI/TUI/Python API/Docker | 有源码、Docker 和平台入口 |
| 记忆能力 | 用户画像、经验、动作记忆 | v3/v3.5 路线中强调记忆与反思 | 更偏轨迹、日志和工程调试 | 更偏任务分解与状态执行 |
| 评测 | MobiFlow | 多个论文/基准方向 | 有 benchmark 结果入口 | AndroidWorld 表现突出 |
| 云端设备 | 不是主要卖点 | 支持云手机/云桌面体验 | Mobilerun Cloud 是重点 | 有平台入口 |
| 结构化输出 | 可通过工程流程实现 | 视子项目而定 | 明确支持 | 明确支持 |
优缺点对比
MobiAgent 的优点是系统完整,适合研究手机 GUI agent 的模型、记忆、加速和评测闭环;缺点是部署链路长,工程配置重,普通开发者上手成本较高。
Mobile-Agent 的优点是技术路线最宽,能看到 GUI agent 从手机走向桌面、浏览器、工具调用和基础模型的演进;缺点是项目族复杂,想直接落地某个具体场景时,需要先做较多筛选。
Mobilerun 的优点是工程接口清晰,模型无关,本地框架和云服务分层明确,适合把移动设备自动化接入产品或内部工具;缺点是仍然要面对移动设备权限、环境、App 状态和云端成本问题。
mobile-use 的优点是聚焦真实 App 使用、任务分解和结构化数据抽取,AndroidWorld 方向也让它更容易评估;缺点是 iOS 物理设备支持有限,完整使用仍然需要配置模型、设备和运行环境。
适用范围建议
如果你要做移动智能体研究,优先看 MobiAgent 和 Mobile-Agent。前者更聚焦手机端系统闭环,后者更适合观察 GUI agent 的跨平台演进。
如果你要做移动 App 自动化、QA、数据抽取或内部工作流,优先看 Mobilerun 和 mobile-use。Mobilerun 更像可接入工程系统的运行框架,mobile-use 更适合验证自然语言 App 操作和结构化抽取。
如果你关注未来个人助手形态,四个都值得跟踪。MobiAgent 代表手机 agent 的系统化研究,Mobile-Agent 代表跨平台 GUI agent 路线,Mobilerun 代表设备控制基础设施,mobile-use 代表真实 App 任务分解和评测驱动路线。
我的判断
这四个项目的差异说明,移动端 GUI agent 已经不只是“让模型看截图点按钮”。真正的问题变成了:模型如何理解界面,执行器如何稳定控制设备,任务如何拆解和评估,云端设备如何管理,结果如何结构化返回,风险如何被限制。
短期内,最现实的落地场景会是 QA、数据抽取、内部流程自动化和受控设备池。长期看,谁能把设备控制、模型能力、权限边界、日志追踪和用户确认机制做稳,谁就更接近真正可用的移动端 AI 助手。