AI 能自己点手机、用电脑了吗?Mobile-Agent 项目解读

整理 X-PLUG 开源的 Mobile-Agent:它已经从手机 GUI 智能体扩展为覆盖移动端、桌面、浏览器和工具调用的 GUI 智能体家族。

X-PLUG 开源的 Mobile-Agent 已经不只是一个手机自动化项目。按照仓库当前的定位,它更像是通义实验室围绕 GUI 智能体持续沉淀的一组工作:Mobile-Agent-v1/v2/v3/v3.5、Mobile-Agent-E、PC-Agent、GUI-Critic-R1、UI-S1、GUI-Owl 以及 ToolCUA 等,都被放在同一个项目体系里展示。

这条线索值得关注。过去谈 GUI agent,常见问题是“模型能不能看懂截图并点对位置”;而 Mobile-Agent 的演进方向更进一步:让智能体在移动端、桌面、浏览器和工具调用之间切换,处理更长链路、更复杂的真实任务。

它解决什么问题

GUI 智能体面对的不是标准 API,而是应用界面。它需要看懂屏幕、定位控件、规划步骤、执行点击或输入,并在失败时修正路径。移动端场景尤其复杂,因为任务往往跨多个 App,界面状态也会随着登录、权限、弹窗、网络和个性化推荐变化。

Mobile-Agent 系列把这个问题拆成了几个方向:

  • 用 Mobile-Agent-v1/v2 探索手机 GUI 的视觉感知与多智能体协作。
  • 用 PC-Agent 把多智能体操作扩展到 PC 场景。
  • 用 Mobile-Agent-v3 和 v3.5 推进多平台 GUI 智能体框架。
  • 用 GUI-Owl 系列模型提供跨平台 GUI 感知、定位和端到端操作能力。
  • 用 GUI-Critic-R1、UI-S1、ToolCUA 等工作补足错误诊断、强化学习和 GUI/工具路径编排。

这让它不像一个单点 demo,而更像一条围绕“计算机使用智能体”的研究和工程路线。

v3.5 的重点

仓库 README 显示,Mobile-Agent-v3.5 已经可以通过 ModelScope 在线 Demo 和阿里云百炼在线 Demo 体验,百炼上也提供了 v3.5 API。2026 年 3 月,v3.5 还上线了阿里云无影云手机,面向云端 Android 环境提供移动使用体验。

这说明项目正在把“本地跑实验”之外的使用方式也补上。对于 GUI 智能体来说,云手机和云桌面很重要:它们能提供更稳定、更可复现的运行环境,减少本地设备、系统版本、分辨率和 App 状态带来的差异。

如果你想评估这类智能体,稳定环境往往比模型本身更容易被低估。没有可控的执行环境,就很难判断一次失败是模型能力不足、界面变化、设备问题,还是任务定义不清。

GUI-Owl 是底层变化

Mobile-Agent-v3 之后,GUI-Owl 成了这条路线里的关键模型层。README 中把 GUI-Owl 描述为具备 GUI 感知、grounding 和端到端操作能力的多模态跨平台 GUI VLM。到 GUI-Owl-1.5,模型系列已经覆盖 2B、4B、8B、32B、235B,并支持桌面、移动端和浏览器自动化。

这类模型的意义在于,它不只是回答“屏幕里有什么”,还要把自然语言目标、截图内容、界面元素位置和下一步操作连起来。对 GUI agent 来说,视觉理解、坐标定位、操作规划和状态记忆缺一不可。

当然,模型越通用,工程边界也越重要。真实部署时仍然需要执行器、权限控制、任务日志、回滚机制和人工确认。尤其是涉及支付、账号、文件、消息发送等高风险操作时,GUI agent 不能只追求自动完成,还要能清楚说明自己准备做什么。

ToolCUA 暗示的新方向

2026 年 5 月,项目新闻里提到 ToolCUA,定位是面向 GUI 与工具最优路径编排的端到端 Computer Use Agent。这个方向很有意思,因为它承认了一个现实:不是所有任务都应该靠点屏幕完成。

有些事情适合 GUI 操作,比如登录后台、处理复杂表单、读取没有 API 的应用状态;有些事情更适合调用工具,比如检索、计算、解析文件、访问结构化接口。真正可用的计算机使用智能体,需要学会在两者之间切换。

这也是 Mobile-Agent 系列比早期手机自动化项目更值得看的地方。它不再只问“智能体能不能像人一样点 App”,而是在问“智能体什么时候该看屏幕,什么时候该用工具,什么时候该停下来确认”。

适合谁关注

如果你只是想找一个开箱即用的手机自动化助手,Mobile-Agent 仍然偏研究和工程框架。它涉及模型、运行环境、评测任务和具体执行器,完整跑通通常需要一定配置成本。

但如果你关注下面几类问题,它很值得跟踪:

  • 移动端 GUI agent 如何从演示走向稳定执行。
  • 桌面、浏览器和手机自动化能否统一到同一套智能体框架里。
  • GUI 模型如何处理 grounding、反思、记忆和错误诊断。
  • 智能体如何在 GUI 操作与工具调用之间选择路径。
  • 云手机、云桌面是否会成为 GUI agent 的重要运行环境。

这些问题会直接影响个人助理、企业流程自动化、远程桌面操作、应用测试和无 API 系统集成。

我的判断

Mobile-Agent 的价值不在于某一个版本的指标,而在于它把 GUI 智能体从“手机截图点按”推进到了一个更大的系统问题:模型、执行环境、评测、工具调用、错误诊断和跨平台任务如何协同。

短期看,它更适合研究者和开发者观察 GUI agent 的技术路线;长期看,这类项目可能会影响个人 AI 助手和企业自动化工具的形态。真正的难点不只是让智能体会操作界面,而是让它在真实应用里稳定、可控、可追踪地完成任务。

项目链接:X-PLUG/MobileAgent

记录并分享
使用 Hugo 构建
主题 StackJimmy 设计