Codex 这次最值得关注的变化,不是又多了一个普通按钮,而是它开始往“控制电脑”这个方向走。
以前我们使用 AI,更多是在聊天框里提问、复制、粘贴、再手动操作软件。
现在这个边界开始往外扩:AI 不只是回答你,而是可以根据你的目标去操作桌面应用。
这件事短期看是一个新功能,长期看可能会改变很多人使用电脑的方式。
这个功能是什么
简单说,Codex 的电脑使用能力,就是让它能接触并操作桌面环境。
它可以做的事包括:
- 可以选择并控制某个应用
- 可以用自然语言下达任务
- 可以打开浏览器、AI 工具、本地文件或其他软件
- 可以输入内容、点击按钮、等待结果
- 可以把多个步骤串成一个任务
- 可以在后台继续执行,不需要用户每一步都手动跟着
它的定位不是单纯替你写一段文本,而是替你完成一段操作流程。
这就是 Agent 和普通聊天机器人的关键区别:
聊天机器人主要给答案,Agent 更接近“拿到目标后去执行”。
为什么这件事重要
过去很多自动化都要求你会写脚本。
比如你想完成一个跨软件流程:
- 打开网页
- 找资料
- 复制内容
- 交给另一个 AI 工具处理
- 保存文件
- 再打开本地目录检查结果
如果要自动化这件事,传统做法可能是写浏览器脚本、调用 API、写本地程序,甚至还要处理各种软件窗口。
但很多普通用户不会写这些东西。
就算会写,也未必值得为一个临时任务专门写脚本。
电脑使用能力的意义就在这里:它把“脚本能力”往自然语言方向推了一步。
你不一定要告诉它每一步怎么点。
你可以告诉它你要什么结果,让它自己去尝试完成。
它能改变哪些工作流
我觉得最先被改变的,不会是特别严肃、特别高风险的工作,而是那些“烦、杂、重复、但又不值得专门写程序”的流程。
1. 跨软件搬运
最典型的就是在多个软件之间搬信息。
以前你可能要在浏览器、文档、聊天窗口、本地文件夹之间来回切。
以后可以把这类任务交给 Agent:
- 去找某类资料
- 汇总成文档
- 保存到指定目录
- 打开结果给你确认
这类工作不难,但很耗注意力。
Agent 的价值就是把这些碎操作吃掉。
2. 多个 AI 工具协同
现在很多人的真实工作流已经不是只用一个 AI。
可能是:
- 一个工具写代码
- 一个工具查资料
- 一个工具生成图片
- 一个工具整理文档
以前这些工具之间靠人肉复制粘贴。
以后 Agent 可以成为中间层:它负责打开工具、传递上下文、等待输出、整理结果。
这会让“多个 AI 协同”从手工流程变成半自动流程。
3. 办公软件自动化
表格、PPT、文档、邮件,这些软件都有一个共同特点:功能很强,但很多操作很碎。
如果 Agent 能稳定控制这些软件,以后的办公自动化门槛会明显下降。
你不用记菜单在哪里,也不用学复杂快捷键。
你只需要说清楚目标,比如:
- 把这份表格整理成月报
- 根据这份文档做一页总结
- 把这些资料合并成一个结构清楚的说明
真正麻烦的按钮操作,会逐渐被隐藏到自然语言后面。
对普通用户意味着什么
对普通用户来说,这类功能的影响可能比“模型又聪明了一点”更直接。
因为它降低的不是知识门槛,而是操作门槛。
很多人不是不会表达需求,而是不知道软件里该点哪里、怎么组合功能。
Agent 如果能接管这部分,人使用电脑的方式就会变成:
|
|
这比单纯聊天更接近真实生产力。
对软件形态的影响
如果这类 Agent 能力继续成熟,软件本身也会被反向影响。
过去软件设计主要服务人类点击。
以后软件可能还要服务 Agent 操作。
这意味着:
- 界面元素需要更清晰
- 操作反馈需要更稳定
- 本地权限需要更细
- 软件可能会提供更适合 Agent 调用的接口
- 用户会更在意“能不能被 AI 顺利操作”
长期看,应用之间的边界可能会变薄。
用户关心的不再是“我打开哪个软件”,而是“我要完成什么任务”。
现在还不能过度乐观
当然,现在还不到完全放手的时候。
这类能力目前还有几个明显限制:
- 稳定性还需要观察
- 复杂任务可能中途出错
- 权限边界必须谨慎
- 涉及账号、支付、删除文件等操作不能随便放权
- 额度消耗也不是完全可以忽略
所以现阶段最合适的用法,不是让它完全接管电脑,而是让它处理低风险、可检查、步骤繁琐的任务。
比如:
- 整理资料
- 生成草稿
- 跨工具搬运内容
- 打开和检查文件
- 做一些可以人工复核的半自动流程
最后一句
Codex 这次更新真正重要的地方,是它把 AI 从“回答问题”推向了“操作环境”。
短期看,它是一个电脑使用功能。
长期看,它可能是个人电脑交互方式的一次转向。
以后我们使用电脑,可能会越来越少地记按钮、找菜单、切窗口。
更多时候,我们只需要说清楚目标,然后让 Agent 去执行,再由人做最后判断。