X-PLUG 开源的 Mobile-Agent 已经不只是一个手机自动化项目。按照仓库当前的定位,它更像是通义实验室围绕 GUI 智能体持续沉淀的一组工作:Mobile-Agent-v1/v2/v3/v3.5、Mobile-Agent-E、PC-Agent、GUI-Critic-R1、UI-S1、GUI-Owl 以及 ToolCUA 等,都被放在同一个项目体系里展示。
这条线索值得关注。过去谈 GUI agent,常见问题是“模型能不能看懂截图并点对位置”;而 Mobile-Agent 的演进方向更进一步:让智能体在移动端、桌面、浏览器和工具调用之间切换,处理更长链路、更复杂的真实任务。
它解决什么问题
GUI 智能体面对的不是标准 API,而是应用界面。它需要看懂屏幕、定位控件、规划步骤、执行点击或输入,并在失败时修正路径。移动端场景尤其复杂,因为任务往往跨多个 App,界面状态也会随着登录、权限、弹窗、网络和个性化推荐变化。
Mobile-Agent 系列把这个问题拆成了几个方向:
- 用 Mobile-Agent-v1/v2 探索手机 GUI 的视觉感知与多智能体协作。
- 用 PC-Agent 把多智能体操作扩展到 PC 场景。
- 用 Mobile-Agent-v3 和 v3.5 推进多平台 GUI 智能体框架。
- 用 GUI-Owl 系列模型提供跨平台 GUI 感知、定位和端到端操作能力。
- 用 GUI-Critic-R1、UI-S1、ToolCUA 等工作补足错误诊断、强化学习和 GUI/工具路径编排。
这让它不像一个单点 demo,而更像一条围绕“计算机使用智能体”的研究和工程路线。
v3.5 的重点
仓库 README 显示,Mobile-Agent-v3.5 已经可以通过 ModelScope 在线 Demo 和阿里云百炼在线 Demo 体验,百炼上也提供了 v3.5 API。2026 年 3 月,v3.5 还上线了阿里云无影云手机,面向云端 Android 环境提供移动使用体验。
这说明项目正在把“本地跑实验”之外的使用方式也补上。对于 GUI 智能体来说,云手机和云桌面很重要:它们能提供更稳定、更可复现的运行环境,减少本地设备、系统版本、分辨率和 App 状态带来的差异。
如果你想评估这类智能体,稳定环境往往比模型本身更容易被低估。没有可控的执行环境,就很难判断一次失败是模型能力不足、界面变化、设备问题,还是任务定义不清。
GUI-Owl 是底层变化
Mobile-Agent-v3 之后,GUI-Owl 成了这条路线里的关键模型层。README 中把 GUI-Owl 描述为具备 GUI 感知、grounding 和端到端操作能力的多模态跨平台 GUI VLM。到 GUI-Owl-1.5,模型系列已经覆盖 2B、4B、8B、32B、235B,并支持桌面、移动端和浏览器自动化。
这类模型的意义在于,它不只是回答“屏幕里有什么”,还要把自然语言目标、截图内容、界面元素位置和下一步操作连起来。对 GUI agent 来说,视觉理解、坐标定位、操作规划和状态记忆缺一不可。
当然,模型越通用,工程边界也越重要。真实部署时仍然需要执行器、权限控制、任务日志、回滚机制和人工确认。尤其是涉及支付、账号、文件、消息发送等高风险操作时,GUI agent 不能只追求自动完成,还要能清楚说明自己准备做什么。
ToolCUA 暗示的新方向
2026 年 5 月,项目新闻里提到 ToolCUA,定位是面向 GUI 与工具最优路径编排的端到端 Computer Use Agent。这个方向很有意思,因为它承认了一个现实:不是所有任务都应该靠点屏幕完成。
有些事情适合 GUI 操作,比如登录后台、处理复杂表单、读取没有 API 的应用状态;有些事情更适合调用工具,比如检索、计算、解析文件、访问结构化接口。真正可用的计算机使用智能体,需要学会在两者之间切换。
这也是 Mobile-Agent 系列比早期手机自动化项目更值得看的地方。它不再只问“智能体能不能像人一样点 App”,而是在问“智能体什么时候该看屏幕,什么时候该用工具,什么时候该停下来确认”。
适合谁关注
如果你只是想找一个开箱即用的手机自动化助手,Mobile-Agent 仍然偏研究和工程框架。它涉及模型、运行环境、评测任务和具体执行器,完整跑通通常需要一定配置成本。
但如果你关注下面几类问题,它很值得跟踪:
- 移动端 GUI agent 如何从演示走向稳定执行。
- 桌面、浏览器和手机自动化能否统一到同一套智能体框架里。
- GUI 模型如何处理 grounding、反思、记忆和错误诊断。
- 智能体如何在 GUI 操作与工具调用之间选择路径。
- 云手机、云桌面是否会成为 GUI agent 的重要运行环境。
这些问题会直接影响个人助理、企业流程自动化、远程桌面操作、应用测试和无 API 系统集成。
我的判断
Mobile-Agent 的价值不在于某一个版本的指标,而在于它把 GUI 智能体从“手机截图点按”推进到了一个更大的系统问题:模型、执行环境、评测、工具调用、错误诊断和跨平台任务如何协同。
短期看,它更适合研究者和开发者观察 GUI agent 的技术路线;长期看,这类项目可能会影响个人 AI 助手和企业自动化工具的形态。真正的难点不只是让智能体会操作界面,而是让它在真实应用里稳定、可控、可追踪地完成任务。
项目链接:X-PLUG/MobileAgent