AI 能自己点手机、用电脑了吗？Mobile-Agent 项目解读

X-PLUG 开源的 Mobile-Agent 已经不只是一个手机自动化项目。按照仓库当前的定位，它更像是通义实验室围绕 GUI 智能体持续沉淀的一组工作：Mobile-Agent-v1/v2/v3/v3.5、Mobile-Agent-E、PC-Agent、GUI-Critic-R1、UI-S1、GUI-Owl 以及 ToolCUA 等，都被放在同一个项目体系里展示。

这条线索值得关注。过去谈 GUI agent，常见问题是“模型能不能看懂截图并点对位置”；而 Mobile-Agent 的演进方向更进一步：让智能体在移动端、桌面、浏览器和工具调用之间切换，处理更长链路、更复杂的真实任务。

它解决什么问题

GUI 智能体面对的不是标准 API，而是应用界面。它需要看懂屏幕、定位控件、规划步骤、执行点击或输入，并在失败时修正路径。移动端场景尤其复杂，因为任务往往跨多个 App，界面状态也会随着登录、权限、弹窗、网络和个性化推荐变化。

Mobile-Agent 系列把这个问题拆成了几个方向：

用 Mobile-Agent-v1/v2 探索手机 GUI 的视觉感知与多智能体协作。
用 PC-Agent 把多智能体操作扩展到 PC 场景。
用 Mobile-Agent-v3 和 v3.5 推进多平台 GUI 智能体框架。
用 GUI-Owl 系列模型提供跨平台 GUI 感知、定位和端到端操作能力。
用 GUI-Critic-R1、UI-S1、ToolCUA 等工作补足错误诊断、强化学习和 GUI/工具路径编排。

这让它不像一个单点 demo，而更像一条围绕“计算机使用智能体”的研究和工程路线。

v3.5 的重点

仓库 README 显示，Mobile-Agent-v3.5 已经可以通过 ModelScope 在线 Demo 和阿里云百炼在线 Demo 体验，百炼上也提供了 v3.5 API。2026 年 3 月，v3.5 还上线了阿里云无影云手机，面向云端 Android 环境提供移动使用体验。

这说明项目正在把“本地跑实验”之外的使用方式也补上。对于 GUI 智能体来说，云手机和云桌面很重要：它们能提供更稳定、更可复现的运行环境，减少本地设备、系统版本、分辨率和 App 状态带来的差异。

如果你想评估这类智能体，稳定环境往往比模型本身更容易被低估。没有可控的执行环境，就很难判断一次失败是模型能力不足、界面变化、设备问题，还是任务定义不清。

GUI-Owl 是底层变化

Mobile-Agent-v3 之后，GUI-Owl 成了这条路线里的关键模型层。README 中把 GUI-Owl 描述为具备 GUI 感知、grounding 和端到端操作能力的多模态跨平台 GUI VLM。到 GUI-Owl-1.5，模型系列已经覆盖 2B、4B、8B、32B、235B，并支持桌面、移动端和浏览器自动化。

这类模型的意义在于，它不只是回答“屏幕里有什么”，还要把自然语言目标、截图内容、界面元素位置和下一步操作连起来。对 GUI agent 来说，视觉理解、坐标定位、操作规划和状态记忆缺一不可。

当然，模型越通用，工程边界也越重要。真实部署时仍然需要执行器、权限控制、任务日志、回滚机制和人工确认。尤其是涉及支付、账号、文件、消息发送等高风险操作时，GUI agent 不能只追求自动完成，还要能清楚说明自己准备做什么。

ToolCUA 暗示的新方向

2026 年 5 月，项目新闻里提到 ToolCUA，定位是面向 GUI 与工具最优路径编排的端到端 Computer Use Agent。这个方向很有意思，因为它承认了一个现实：不是所有任务都应该靠点屏幕完成。

有些事情适合 GUI 操作，比如登录后台、处理复杂表单、读取没有 API 的应用状态；有些事情更适合调用工具，比如检索、计算、解析文件、访问结构化接口。真正可用的计算机使用智能体，需要学会在两者之间切换。

这也是 Mobile-Agent 系列比早期手机自动化项目更值得看的地方。它不再只问“智能体能不能像人一样点 App”，而是在问“智能体什么时候该看屏幕，什么时候该用工具，什么时候该停下来确认”。

适合谁关注

如果你只是想找一个开箱即用的手机自动化助手，Mobile-Agent 仍然偏研究和工程框架。它涉及模型、运行环境、评测任务和具体执行器，完整跑通通常需要一定配置成本。

但如果你关注下面几类问题，它很值得跟踪：

移动端 GUI agent 如何从演示走向稳定执行。
桌面、浏览器和手机自动化能否统一到同一套智能体框架里。
GUI 模型如何处理 grounding、反思、记忆和错误诊断。
智能体如何在 GUI 操作与工具调用之间选择路径。
云手机、云桌面是否会成为 GUI agent 的重要运行环境。

这些问题会直接影响个人助理、企业流程自动化、远程桌面操作、应用测试和无 API 系统集成。

我的判断

Mobile-Agent 的价值不在于某一个版本的指标，而在于它把 GUI 智能体从“手机截图点按”推进到了一个更大的系统问题：模型、执行环境、评测、工具调用、错误诊断和跨平台任务如何协同。

短期看，它更适合研究者和开发者观察 GUI agent 的技术路线；长期看，这类项目可能会影响个人 AI 助手和企业自动化工具的形态。真正的难点不只是让智能体会操作界面，而是让它在真实应用里稳定、可控、可追踪地完成任务。

项目链接：X-PLUG/MobileAgent