IPADS-SAI 开源了 MobiAgent,定位是一个面向手机 GUI 的可定制智能体框架。它不是单一模型仓库,而是把模型、执行器、加速机制、评测基准和移动端应用放在同一个体系里,目标是让智能体能在真实手机环境中完成跨应用、多步骤任务。
从项目结构看,MobiAgent 主要由三部分组成:MobiMind 系列智能体模型、AgentRR 记录与回放加速框架,以及 MobiFlow 评测基准。论文摘要中也强调,现有移动智能体在真实任务里的准确率和效率仍然是主要瓶颈,MobiAgent 的设计就是围绕这两个问题展开。
它解决什么问题
手机 GUI 智能体比网页或桌面自动化更麻烦。它需要理解截图、识别控件、决定下一步操作,还要通过 ADB 或移动端运行环境执行点击、输入、返回、切换应用等动作。真实任务往往不是单 App 内的一次操作,而是跨越搜索、购物、社交、支付、地图等多个应用的连续流程。
MobiAgent 的价值在于把这些环节系统化:
- 用 MobiMind 承担任务规划、决策和界面定位等能力。
- 用 runner 连接手机,通过 ADB 执行预定义任务并记录轨迹。
- 用 AgentRR 复用成功动作序列,减少重复任务的推理与操作成本。
- 用 MobiFlow 评测真实移动场景中的任务完成情况。
- 通过数据采集、标注和处理工具,降低移动 GUI 任务数据构建成本。
这让它更像一个移动智能体实验平台,而不是只能跑演示的模型项目。
最近更新值得关注
项目 README 显示,MobiAgent 在 2025 年 8 月开源,之后持续补齐模型、Runner、记忆系统和端侧运行能力。2025 年 12 月开始,项目支持在手机上进行纯端侧推理,并发布了统一 GUI agent runner,可配置 MobiAgent、UI-TARS、AutoGLM、Qwen-VL、Gemini 等多种模型。
到 2026 年 3 月,项目又发布了 GUI-based mobile “claw” MobiClaw,以及新的 MobiMind-1.5-4B 模型。这说明它的方向不只是论文复现,而是在继续把移动端执行、模型能力和操作工具链往产品化方向推进。
记忆系统是关键补丁
MobiAgent 支持用户画像记忆、经验记忆和动作记忆。用户画像记忆用于给规划提供偏好上下文;经验记忆用于检索类似任务的执行经验;动作记忆则通过 AgentRR 缓存和复用成功动作序列。
这很重要,因为手机任务天然带有重复性。比如用户常用某个 App 搜索商品、打开固定联系人、在特定页面填写信息。如果每次都从零开始看图、规划和点击,成本高且容易出错。记忆模块可以把一部分“已经学会的流程”沉淀下来,让后续任务更快、更稳定。
不过,记忆也会带来新的治理问题。用户偏好、历史任务、应用路径和操作轨迹都可能包含敏感信息。真正落地时,项目需要明确哪些内容进入记忆、保存多久、如何删除,以及是否允许模型在不同任务之间复用这些上下文。
适合谁关注
如果你只想找一个现成的手机自动化 App,MobiAgent 目前仍更偏研究和工程框架。它需要配置模型服务、移动设备、ADB、依赖环境和任务文件,完整跑起来有一定门槛。
但如果你关注移动 GUI agent、端侧智能体、多模型 runner、任务轨迹复用或智能体评测,MobiAgent 很值得跟踪。它把模型、执行、评测和数据流水线放在一起,能帮助研究者和开发者更完整地观察移动智能体的真实短板。
我的判断
MobiAgent 的意义不在于又发布了一个 GUI agent,而在于它把手机智能体从“看截图点按钮”的单点能力,推进到一个可训练、可执行、可评测、可加速的系统框架。
移动端是智能体很难绕开的场景。大量个人任务发生在 App 里,而不是标准化网页或 API 中。谁能稳定理解手机界面、跨应用执行任务、复用经验并控制隐私风险,谁就更接近真正可用的个人智能体。
MobiAgent 还没有把这些问题全部解决,但它提供了一个比较完整的开源起点。短期看,它适合用于移动智能体研究和实验;长期看,这类框架可能会成为手机操作系统、个人助理和自动化工具之间的重要连接层。
项目链接:IPADS-SAI/MobiAgent
论文链接:MobiAgent: A Systematic Framework for Customizable Mobile Agents