mobile-use 是 minitap-ai 开源的移动端 AI agent 框架,目标是让智能体像人一样使用真实 Android 和 iOS App。用户用自然语言描述任务,框架负责理解界面、操作 App,并把结果返回给调用方。
从 README 看,mobile-use 的重点不只是“能点手机”,还强调 UI-aware automation、数据抽取、可配置模型,以及在 AndroidWorld 基准上的表现。项目还提供云平台、文档和论文入口,说明它既是开源框架,也是一个围绕移动端智能体搭建的产品与研究体系。
它和普通手机自动化有什么不同
传统手机自动化通常依赖脚本、坐标、控件 ID 或固定流程。它适合稳定页面,但遇到界面变化、弹窗、搜索结果、列表滚动和跨 App 操作时,很容易失效。
mobile-use 的路线是让 AI agent 直接处理自然语言目标和 UI 状态:
- 用户用自然语言描述任务,不必预先写死每一步。
- 框架读取移动端界面,并结合模型判断下一步操作。
- 可以从 App 中抽取信息,并按指定格式返回,比如 JSON。
- 支持不同 LLM 配置,包括 OpenAI API compatible providers。
- Android 可以通过实体手机或模拟器运行,iOS 目前主要面向 macOS 上的模拟器。
这类框架更适合“半结构化”的移动任务:目标明确,但每次页面状态、数据内容和路径不完全一样。
AndroidWorld 结果值得注意
mobile-use README 中提到,项目在 AndroidWorld benchmark 上达到 100% 完成表现,并链接了对应论文。无论具体评测细节如何,这都说明项目团队把“任务分解”和“可评测执行”放在了很高的位置。
这点比单纯演示更关键。GUI agent 最容易出现的问题是:一个视频里看起来很聪明,但换一个任务、设备或初始状态就不稳定。基准测试不能完全代表真实使用,却能逼迫系统面对一组标准化任务,并暴露规划、定位、恢复和状态理解能力。
README 中的论文题目也点出了方向:通过任务分解提升 AndroidWorld 准确率。对移动端智能体来说,复杂任务往往不能靠一个大提示词直接完成,而需要拆成可执行子任务,并在每一步检查状态。
数据抽取是实用入口
mobile-use 的一个现实场景是从原生 App 中抽取数据。很多信息并不暴露在 API 中,只能在 App 界面里查看,比如邮件列表、订单状态、社交内容、运营后台、消息通知等。
README 给出的示例是打开 Gmail,找到未读邮件,并把发件人和主题整理成 JSON。这个方向很实用,因为它把移动 GUI agent 从“帮我操作一下”推进到“帮我把 App 里的信息结构化拿出来”。
不过,这也带来边界问题。数据抽取涉及账号、隐私、平台条款和访问权限。真正使用时,应该明确设备归属、任务授权、数据保存方式和输出范围,不能把手机界面当成无限制的数据源。
部署门槛和限制
mobile-use 支持从平台快速开始,也支持从源码运行。源码方式需要配置 .env、LLM 配置和依赖环境;Android 侧可以使用实体手机或模拟器,Docker 快速启动目前主要面向 Android;iOS 侧需要 macOS、Xcode 和 Facebook 的 iOS Development Bridge,README 也说明物理 iOS 设备暂不支持。
这些限制并不意外。移动端自动化比浏览器自动化更依赖设备、系统权限和调试通道。尤其是 iOS,系统封闭性更强,能稳定接入模拟器已经有价值,但离“任意真实 iPhone 自动化”还有距离。
因此,评估 mobile-use 时不要只看模型效果,还要看自己的目标设备、App 类型、运行环境和合规边界是否匹配。
适合谁关注
mobile-use 适合几类人关注:
- 想研究 AndroidWorld、移动 GUI agent 和任务分解方法的研究者。
- 想把自然语言移动操作接入内部工具的开发者。
- 需要从原生 App 抽取结构化数据的团队。
- 做移动 App QA、回归测试或探索式测试的人。
- 想比较 mobile-use、Mobilerun、Mobile-Agent 等不同移动端智能体路线的人。
如果目标是一个面向普通用户的手机助手,它目前还偏工程和研究框架;如果目标是验证移动端 agent 的可行性,它提供了一个很好的开源起点。
我的判断
mobile-use 的亮点在于把真实 App 操作、结构化数据抽取和基准评测放在同一个项目里。它不是只做“自然语言点手机”的包装,而是在尝试把移动端任务拆解成可执行、可评估、可复现的智能体流程。
移动端会是 GUI agent 的重要战场,因为大量个人和业务任务发生在 App 里,而不是网页或 API 里。mobile-use 这类项目的意义,就是让智能体从聊天窗口走进真实应用界面。它还没有把设备、权限和风险问题全部抹平,但已经给开发者提供了一个足够具体的实验平台。