AI 自动用手机哪家强？MobiAgent、Mobile-Agent、Mobilerun 和 mobile-use 对比

最近连续整理了四个移动端 GUI 智能体项目：MobiAgent、Mobile-Agent、Mobilerun 和 mobile-use。它们都和“让 AI 操作手机或移动 App”有关，但定位并不一样。

简单说：MobiAgent 更像可定制手机智能体研究系统；Mobile-Agent 是通义实验室围绕 GUI agent 的系列工作集合；Mobilerun 更偏可落地的本地/云端移动设备控制框架；mobile-use 则强调真实 App 操作、任务分解、数据抽取和 AndroidWorld 评测。

基本信息对比

项目	站内文章	GitHub	主要定位	设备/平台	开源协议	更适合谁
MobiAgent	站内介绍	IPADS-SAI/MobiAgent	可定制手机 GUI 智能体系统，包含模型、runner、记忆、加速和评测	主要面向 Android/Harmony 手机	Apache-2.0	研究者、移动智能体实验团队
Mobile-Agent	站内介绍	X-PLUG/MobileAgent	通义实验室 GUI 智能体家族，覆盖移动端、桌面、浏览器和工具调用	手机、PC、网页、云手机/云桌面	MIT	关注 GUI agent 技术路线的人
Mobilerun	站内介绍	droidrun/mobilerun	LLM 无关的移动设备 agent 框架，支持 CLI、Python API 和云端设备工作流	Android、iOS、本地设备、云端设备	MIT	开发者、QA、自动化工作流团队
mobile-use	站内介绍	minitap-ai/mobile-use	用自然语言操作真实移动 App，强调任务分解、结构化抽取和 AndroidWorld	Android 实机/模拟器、iOS 模拟器	Apache-2.0	做移动 App agent、数据抽取和评测的人

MobiAgent

MobiAgent 来自 IPADS-SAI，定位是一个可定制的手机智能体系统。它不是只提供一个执行脚本，而是把 MobiMind 模型家族、AgentRR 动作记录与回放、MobiFlow 评测基准、手机 runner、数据采集和 Android app 放到同一套体系里。

它的特点是研究系统比较完整。MobiAgent 关注真实手机任务中的准确率、效率、记忆和可复用动作序列。README 中提到的用户画像记忆、经验记忆、动作记忆，以及多任务执行，都说明它在尝试处理长期任务和重复任务。

它的门槛也相对高。完整运行需要设备、ADB、模型部署、依赖环境、可选的向量数据库和图数据库配置。更适合研究或工程实验，不太像面向普通用户的“安装即用”手机助手。

Mobile-Agent

Mobile-Agent 来自 X-PLUG/通义实验室。这个仓库已经从早期手机操作智能体，扩展成一个 GUI 智能体家族：Mobile-Agent-v1/v2/v3/v3.5、Mobile-Agent-E、PC-Agent、GUI-Critic-R1、UI-S1、GUI-Owl、ToolCUA 等都在同一条技术线上。

它的特点是跨度大。Mobile-Agent 不只关心手机，还覆盖桌面、浏览器、云手机、云桌面、GUI 感知、grounding、错误诊断、强化学习和 GUI/工具路径编排。GUI-Owl 系列模型让它更像一个跨平台 GUI agent 基础模型路线，而不是单个移动自动化项目。

它的不足也来自这个跨度：仓库更像研究成果集合，使用者需要先判断自己要跑哪个子项目、哪个模型和哪个场景。它适合跟踪技术演进和复现实验，不一定是最快接入业务流程的选择。

Mobilerun

Mobilerun 来自 droidrun，定位更工程化：让 LLM agent 通过自然语言控制 Android 和 iOS 设备。它提供 CLI、TUI、Docker、Python API、Portal-based control、vision mode、reasoning mode、结构化输出、自定义工具、app cards、执行轨迹和云端设备服务。

它最突出的地方是模型无关和部署形态清楚。开发者可以接 OpenAI、Anthropic、Gemini、Ollama、DeepSeek、OpenRouter 或 OpenAI-compatible providers；也可以选择本地框架或 Mobilerun Cloud。对真实团队来说，这种“设备控制层和模型层解耦”的设计很重要。

它也有移动端自动化常见的门槛：Android 需要开发者选项、USB 调试和 Portal app；iOS 需要单独流程；复杂任务还要处理权限弹窗、页面变化、失败重试和日志排查。它更适合愿意把 mobile agent 当成工程组件接入的人。

mobile-use

mobile-use 来自 minitap-ai，目标是让 AI agent 使用真实 Android 和 iOS App。它支持自然语言控制、UI-aware automation、数据抽取、不同 LLM 配置，并强调 AndroidWorld 基准表现。README 中还提到项目是首个在 AndroidWorld benchmark 上达到 100% 的 agentic framework。

它的亮点是任务分解和结构化抽取。比如从 Gmail 中找未读邮件，并按指定 JSON 格式返回发件人和主题，这类任务比“打开设置看看电量”更接近真实生产需求。它把移动 GUI agent 从“会操作”推进到“能把 App 里的信息整理出来”。

它的限制主要在设备支持和运行环境。Android 可以用实体手机或模拟器；iOS 目前主要支持 macOS 上的模拟器，物理 iOS 设备还不支持。Docker 快速启动也主要面向 Android。评估它时，要先确认目标设备和 App 场景能否被当前执行通道覆盖。

功能对比

功能维度	MobiAgent	Mobile-Agent	Mobilerun	mobile-use
自然语言任务	支持	支持	支持	支持
真实手机操作	强，偏 Android/Harmony	强，含移动端与云手机	强，Android/iOS	强，Android；iOS 偏模拟器
桌面/浏览器扩展	不是重点	强，含 PC-Agent、GUI-Owl、ToolCUA	不是主要定位	不是主要定位
模型层	自带 MobiMind 系列	GUI-Owl、Mobile-Agent 系列	LLM 无关，接多家模型	可配置多种 LLM
执行器/runner	强，含 ADB runner、多任务 runner	子项目各自提供	强，CLI/TUI/Python API/Docker	有源码、Docker 和平台入口
记忆能力	用户画像、经验、动作记忆	v3/v3.5 路线中强调记忆与反思	更偏轨迹、日志和工程调试	更偏任务分解与状态执行
评测	MobiFlow	多个论文/基准方向	有 benchmark 结果入口	AndroidWorld 表现突出
云端设备	不是主要卖点	支持云手机/云桌面体验	Mobilerun Cloud 是重点	有平台入口
结构化输出	可通过工程流程实现	视子项目而定	明确支持	明确支持

优缺点对比

MobiAgent 的优点是系统完整，适合研究手机 GUI agent 的模型、记忆、加速和评测闭环；缺点是部署链路长，工程配置重，普通开发者上手成本较高。

Mobile-Agent 的优点是技术路线最宽，能看到 GUI agent 从手机走向桌面、浏览器、工具调用和基础模型的演进；缺点是项目族复杂，想直接落地某个具体场景时，需要先做较多筛选。

Mobilerun 的优点是工程接口清晰，模型无关，本地框架和云服务分层明确，适合把移动设备自动化接入产品或内部工具；缺点是仍然要面对移动设备权限、环境、App 状态和云端成本问题。

mobile-use 的优点是聚焦真实 App 使用、任务分解和结构化数据抽取，AndroidWorld 方向也让它更容易评估；缺点是 iOS 物理设备支持有限，完整使用仍然需要配置模型、设备和运行环境。

适用范围建议

如果你要做移动智能体研究，优先看 MobiAgent 和 Mobile-Agent。前者更聚焦手机端系统闭环，后者更适合观察 GUI agent 的跨平台演进。

如果你要做移动 App 自动化、QA、数据抽取或内部工作流，优先看 Mobilerun 和 mobile-use。Mobilerun 更像可接入工程系统的运行框架，mobile-use 更适合验证自然语言 App 操作和结构化抽取。

如果你关注未来个人助手形态，四个都值得跟踪。MobiAgent 代表手机 agent 的系统化研究，Mobile-Agent 代表跨平台 GUI agent 路线，Mobilerun 代表设备控制基础设施，mobile-use 代表真实 App 任务分解和评测驱动路线。

我的判断

这四个项目的差异说明，移动端 GUI agent 已经不只是“让模型看截图点按钮”。真正的问题变成了：模型如何理解界面，执行器如何稳定控制设备，任务如何拆解和评估，云端设备如何管理，结果如何结构化返回，风险如何被限制。

短期内，最现实的落地场景会是 QA、数据抽取、内部流程自动化和受控设备池。长期看，谁能把设备控制、模型能力、权限边界、日志追踪和用户确认机制做稳，谁就更接近真正可用的移动端 AI 助手。