Codex 开始控制电脑,对以后意味着什么?

介绍 Codex 电脑使用能力的核心功能,并从工作流、软件交互和普通用户使用电脑方式的角度,分析这类 Agent 能力以后可能带来的影响。

Codex 这次最值得关注的变化,不是又多了一个普通按钮,而是它开始往“控制电脑”这个方向走。

以前我们使用 AI,更多是在聊天框里提问、复制、粘贴、再手动操作软件。
现在这个边界开始往外扩:AI 不只是回答你,而是可以根据你的目标去操作桌面应用。

这件事短期看是一个新功能,长期看可能会改变很多人使用电脑的方式。

这个功能是什么

简单说,Codex 的电脑使用能力,就是让它能接触并操作桌面环境。

它可以做的事包括:

  • 可以选择并控制某个应用
  • 可以用自然语言下达任务
  • 可以打开浏览器、AI 工具、本地文件或其他软件
  • 可以输入内容、点击按钮、等待结果
  • 可以把多个步骤串成一个任务
  • 可以在后台继续执行,不需要用户每一步都手动跟着

它的定位不是单纯替你写一段文本,而是替你完成一段操作流程。

这就是 Agent 和普通聊天机器人的关键区别:
聊天机器人主要给答案,Agent 更接近“拿到目标后去执行”。

为什么这件事重要

过去很多自动化都要求你会写脚本。

比如你想完成一个跨软件流程:

  • 打开网页
  • 找资料
  • 复制内容
  • 交给另一个 AI 工具处理
  • 保存文件
  • 再打开本地目录检查结果

如果要自动化这件事,传统做法可能是写浏览器脚本、调用 API、写本地程序,甚至还要处理各种软件窗口。

但很多普通用户不会写这些东西。
就算会写,也未必值得为一个临时任务专门写脚本。

电脑使用能力的意义就在这里:它把“脚本能力”往自然语言方向推了一步。

你不一定要告诉它每一步怎么点。
你可以告诉它你要什么结果,让它自己去尝试完成。

它能改变哪些工作流

我觉得最先被改变的,不会是特别严肃、特别高风险的工作,而是那些“烦、杂、重复、但又不值得专门写程序”的流程。

1. 跨软件搬运

最典型的就是在多个软件之间搬信息。

以前你可能要在浏览器、文档、聊天窗口、本地文件夹之间来回切。
以后可以把这类任务交给 Agent:

  • 去找某类资料
  • 汇总成文档
  • 保存到指定目录
  • 打开结果给你确认

这类工作不难,但很耗注意力。
Agent 的价值就是把这些碎操作吃掉。

2. 多个 AI 工具协同

现在很多人的真实工作流已经不是只用一个 AI。

可能是:

  • 一个工具写代码
  • 一个工具查资料
  • 一个工具生成图片
  • 一个工具整理文档

以前这些工具之间靠人肉复制粘贴。
以后 Agent 可以成为中间层:它负责打开工具、传递上下文、等待输出、整理结果。

这会让“多个 AI 协同”从手工流程变成半自动流程。

3. 办公软件自动化

表格、PPT、文档、邮件,这些软件都有一个共同特点:功能很强,但很多操作很碎。

如果 Agent 能稳定控制这些软件,以后的办公自动化门槛会明显下降。

你不用记菜单在哪里,也不用学复杂快捷键。
你只需要说清楚目标,比如:

  • 把这份表格整理成月报
  • 根据这份文档做一页总结
  • 把这些资料合并成一个结构清楚的说明

真正麻烦的按钮操作,会逐渐被隐藏到自然语言后面。

对普通用户意味着什么

对普通用户来说,这类功能的影响可能比“模型又聪明了一点”更直接。

因为它降低的不是知识门槛,而是操作门槛。

很多人不是不会表达需求,而是不知道软件里该点哪里、怎么组合功能。
Agent 如果能接管这部分,人使用电脑的方式就会变成:

1
2
3
我描述目标
Agent 操作软件
我检查结果

这比单纯聊天更接近真实生产力。

对软件形态的影响

如果这类 Agent 能力继续成熟,软件本身也会被反向影响。

过去软件设计主要服务人类点击。
以后软件可能还要服务 Agent 操作。

这意味着:

  • 界面元素需要更清晰
  • 操作反馈需要更稳定
  • 本地权限需要更细
  • 软件可能会提供更适合 Agent 调用的接口
  • 用户会更在意“能不能被 AI 顺利操作”

长期看,应用之间的边界可能会变薄。
用户关心的不再是“我打开哪个软件”,而是“我要完成什么任务”。

现在还不能过度乐观

当然,现在还不到完全放手的时候。

这类能力目前还有几个明显限制:

  • 稳定性还需要观察
  • 复杂任务可能中途出错
  • 权限边界必须谨慎
  • 涉及账号、支付、删除文件等操作不能随便放权
  • 额度消耗也不是完全可以忽略

所以现阶段最合适的用法,不是让它完全接管电脑,而是让它处理低风险、可检查、步骤繁琐的任务。

比如:

  • 整理资料
  • 生成草稿
  • 跨工具搬运内容
  • 打开和检查文件
  • 做一些可以人工复核的半自动流程

最后一句

Codex 这次更新真正重要的地方,是它把 AI 从“回答问题”推向了“操作环境”。

短期看,它是一个电脑使用功能。
长期看,它可能是个人电脑交互方式的一次转向。

以后我们使用电脑,可能会越来越少地记按钮、找菜单、切窗口。
更多时候,我们只需要说清楚目标,然后让 Agent 去执行,再由人做最后判断。

记录并分享
使用 Hugo 构建
主题 StackJimmy 设计