2024 年 10 月,Anthropic 跟 Claude 3.5 Sonnet 一起公布了 Computer Use 的 API 公测——注意,这跟 Claude Code 不是一回事。Computer Use 让 Claude 能看你的屏幕、识别界面元素、操控鼠标键盘帮你干活——在 Salesforce 里填报销单,在浏览器里预约会议。Claude Code 是 2025 年中才出的 CLI 编程工具,干的是另一件事。OpenAI 紧接着推出 Operator,GPT 自己开个虚拟浏览器帮你订餐买票。到 2026 年,这两家的桌面 Agent 都已经进了普通用户的产品里。

一个自然的问题是:AI 怎么学会操作电脑的? 训练数据从哪来?模型怎么学会”看到这个按钮该点”的?

答案比你想的有趣。

学术数据集:够做 demo,不够做产品

在 Anthropic 和 OpenAI 动手之前,学术圈已经攒了不少 UI 操作数据集——GUI-360、OSWorld、WebArena 这些。格式没问题:一张截图配一个操作目标。

但拿来训练产品级 Agent,有三个硬伤:

应用覆盖太窄。 学术数据集覆盖几十种软件,真实世界有上千种。每多一类界面,模型要学的布局规律就多一个维度。长尾填不上。

场景太干净。 打开菜单、填表单、保存文件——这些简单操作占了大头。真实工作中的弹窗打断、加载延迟、表单校验报错,在数据集里很少出现。

轨迹太短。 真实操作是一串连续动作:“打开软件 → 点这个 → 填那个 → 等加载 → 关弹窗 → 继续填”。学术数据以单步或短轨迹为主,缺少多步之间的依赖关系。

三件事叠在一起:学术数据集能训出一个跑 benchmark 的 prototype,训不出一个在各种软件上都能用的产品。

Anthropic 的做法:把操作变成推理数据

2025 年 10 月,一项 Anthropic 的专利(U.S. 12,437,238)获批。它保护的不是”AI 怎么操作电脑”——那叫推理,每家都在做。它保护的是训练数据的采集和生成管线

这条管线的核心思路:不只是记录”做了什么”,还要记录”为什么这么做”。

学术数据集的样本是”看到这个界面 → 做这个动作”,一组静态映射。Anthropic 的管线产出的样本是”看到这个界面 → 理解当前状态 → 判断下一步该做什么 → 做这个动作”,一条推理链。

具体怎么做?三个环节。

第一步:截获

在用户和软件之间放一个透明中间层。用户正常操作——点按钮、填表、滚动页面——中间层记录每一步操作前后的界面状态(截图 + 可访问性元数据 + 文本内容)。

最有意思的部分写在专利 Claim 5 里:用户可以附加”思考标注”——“我点这个按钮是因为它通常在右下角”、“应该选第三个选项,因为前两个是灰色的”。这些标注是人类在当前界面做决策的推理过程,直接编码进训练数据。

对模型来说,训练信号不再是”模仿这个点击”,而是”理解为什么要点这里”。

第二步:翻译

原始操作——“(342, 157) 点击”——送进一个多模态 transformer 模型。模型结合界面截图和上下文,推断用户意图,输出语义化命令:“识别到文本为’提交’的按钮元素,在 (330, 150, 400, 170) 区域内,执行点击”。

关键不是坐标转换,是让模型推理出操作背后的意图——用户不是随机点了一个像素,用户是想提交表单。

第三步:合成扩展

一条真实轨迹经过截获和翻译,变成一份带推理链的训练样本。然后 Anthropic 用一个更强的模型对这份样本做扩展——给同一张操作前截图,让强模型生成多种合理的操作变体。一条真实轨迹扩展出几十条训练样本,每条都包含完整的”看界面 → 推理 → 做动作”链路。

三个环节做的事是同一件:把原始操作转换为推理数据。 第一步从人类那里获取推理标注,第二步用模型补齐意图推断,第三步用更强的模型生成更多推理变体。

OpenAI 的做法:让 Agent 自己学

OpenAI 的 Operator 背后是一个叫 CUA(Computer-Using Agent)的模型。它基于 GPT-4o,但训练方法和 Anthropic 完全不同——走的是强化学习(RL) 路线。

核心区别:Anthropic 靠人类操作数据+模型翻译来制造训练样本,OpenAI 让 Agent 在虚拟环境里自己探索学习。

具体怎么做的:

搭建 Web Gym

不让没训练过的 Agent 在真实网站上乱点——那会点出事。OpenAI 搭建了模拟真实网站的沙箱环境(Web Gym),Agent 在里面随便试,不会搞坏任何东西。

好的 Gym 要满足五个条件:足够真实(DOM 和真实网站接近)、可以探索(按钮真的能点)、数据多样(不能让 Agent 过拟合)、验证器准确(自动判断任务有没有完成)、基础设施稳定(训练环境不能老崩)。

设计好任务

任务设计直接影响学习效果。“买个衬衫”太模糊,Agent 学不到东西。“买最便宜的蓝色 M 码棉衬衫”才是好任务——它迫使 Agent 学会搜索、筛选、比价、验证属性,每一步都有明确的对错标准。

RL 训练

Agent 反复在 Gym 里尝试任务。成功了拿奖励,失败了扣分。关键难点是保持模型的推理能力——RL 训练容易让模型变得”短视”,只会追求即时奖励,丧失长程规划能力。OpenAI 专门做了处理来防止这个问题。

CUA 的运行方式是一个循环:截图(感知)→ 想一想当前状态和下一步(推理,Chain-of-Thought)→ 点击/输入(动作)。每一步都有内部独白,不是直接输出坐标。

两条路线,一个规律

把两家放在一起看:

AnthropicOpenAI
核心方法人类操作数据 + 模型翻译 + 合成扩展强化学习(RL)
数据来源真人操作轨迹 + 思考标注虚拟 Web Gym 环境内自学习
推理怎么来数据里自带推理标注模型自己通过 CoT 学推理
扩展方式强模型生成操作变体环境交互自动生成经验
优势数据质量高,带因果推理不依赖人类标注,覆盖更多异常场景
劣势人类标注贵且慢RL 训练不稳定,推理能力可能退化

Amazon AGI Lab 也发了类似的研究,结论基本一致:好的环境 + 好的任务设计 + 准确的验证器 + 保持推理能力,四层缺一不可。

独立 Browser Agent 的死局

2026 年 5 月 4 日,Google 无预告关掉了 Project Mariner——去年 I/O 大会的 AI Agent 旗舰产品。官方页面只留了一句话:“Technology voyaged to other Google products.”

有意思的是,Anthropic 和 OpenAI 也得出了同样的结论。OpenAI 的 Operator 关了,Instant Checkout 也关了。Anthropic 的 Computer Use 发布 18 个月仍然 beta,官方自己都说”从低风险任务开始”。三家做同类产品的公司,几乎同时放弃了独立 browser agent 路线。

不是技术不行,是结构性死局

你在和反爬系统打仗

独立 browser agent 的部署方式(headless Chrome、云托管浏览器、独立 VM)会创建全新的浏览器会话——没有 cookie、没有浏览历史、没有人类行为特征。这正是网站反爬系统十几年来擅长探测的目标。

OpenAI 的 Operator 连 ChatGPT.com 都访问不了——自己公司的网站都把它当爬虫。Amazon 在 2026 年 3 月对 Perplexity Comet 拿到了法院禁令,法官依据《计算机欺诈和滥用法》判定:Comet 访问 Amazon 账户”有用户许可但没有 Amazon 授权”。

做独立 browser agent 的团队,工程资源不在提升模型能力上,而在和有几十年反爬经验、有直接经济激励的平台打军备竞赛。而且你的每一轮规避策略都会触发下一轮检测升级。

Browser Agent vs Computer Use

先厘清一个关键区分:

品类代表运行环境能力
Browser AgentOperator、Mariner独立 headless 浏览器只能操作网页
Computer UseAnthropic Computer Use、Codex 插件VM/沙箱 或 用户真实桌面控制整个桌面

Browser Agent 瞄准的场景(订机票、比价、购物)对可靠性要求极高。用户容忍不了偶尔买错,而”买错”和自己操作的区别只是几分钟——认知上的收益太小。

真正的需求在 Computer Use 这边:医院 90 年代的病历系统、保险理赔软件、Bloomberg Terminal(API 访问要六位数美元的额外合同)。这些不会因为 AI 出现就自动装上 API,而且它们绝大多数不是网页应用。

需求没错,品类错了。

解法:共享用户的真实会话

三家公司最后都走向了同一个方向——不让 Agent 开新浏览器,而是直接操作用户已在用的浏览器或桌面。从网站角度看,分不出是用户在点还是 Agent 在点。

  • Google:把 Mariner 技术做进了 Chrome(auto-browse),跑在用户真实浏览器里
  • OpenAI:Codex Computer Use 走 macOS 桌面插件路线,直接跑在用户真实 Mac 上,共享桌面环境和浏览器登录态
  • Anthropic:Claude for Chrome 跑在用户真实浏览器里,活得很好

到 Computer Use(控制用户整个桌面)的时候,优势更明显:用户桌面有真实人类操作轨迹——鼠标移动速度、打字节奏、标签切换模式。这些信号 bot 几乎不可能伪造。

Benchmark 现实

说完方向,说现实。当前的成绩离”可靠”还很远:

模型OSWorld(全桌面)WebArena(网页)
人类72.4%
OpenAI CUA38.1%58.1%
Anthropic Computer Use22%

最好的 Agent 在全桌面任务上的成功率刚过人类的三分之一。这就是为什么三家公司都在换方向——不是训练方法的问题,是部署环境的问题。在 headless 浏览器里训得再好,反爬系统一拦就白搭。换到共享真实会话的部署方式,同样的模型能力立刻能发挥出来。

如果你想自己做

总结一下,如果是一个公司或团队想开发桌面操作 Agent:

选对部署方式比选对训练方法更重要。 不要做独立 headless browser agent,那是死路。做浏览器扩展、桌面插件、或者直接接用户桌面——共享真实会话。

最快的起步方式:做一个浏览器扩展或桌面插件,用大模型的 vision 能力做 zero-shot——截图扔给 GPT-4o 或 Claude,让它输出坐标和动作。不用专门训练,先跑通。

要提升成功率:收集失败案例,人工标注正确操作,训练专门的视觉定位模型。加入异常处理:弹窗、加载中、报错、页面滚动。引入 accessibility tree 作为截图的补充信号。

要规模化:建数据飞轮——用户使用产生轨迹 → 人工审核 → 训练模型 → 模型变强 → 吸引更多用户。或者走 RL 路线,搭虚拟环境让 Agent 自己学。

至于 Anthropic 的专利——它保护的是”截获层 + 思考标注 + 翻译 + 合成扩展”的特定管线组合。如果你走 RL 路线,或者用纯 API 调用(截图 → 大模型 → 坐标),根本不在专利覆盖范围内。

一个更深的观察

Computer Use 的竞争,表面上是模型能力的竞争,实际上是训练数据的生产效率 × 部署环境的选择的竞争。

谁家的 Agent 能覆盖更多软件、更稳定地完成任务,取决于两件事:训练数据的质量和规模,以及 Agent 跑在什么环境里。Anthropic 的专利卡的是数据生产,Google 关掉 Mariner 说明部署环境同样关键。最好的训练数据配上 headless 浏览器,打不过一般的训练数据配上用户真实会话。

方向是确定的:AI 操作电脑这件事,不是一个功能,是一个新的交互范式。 但范式落地的路径已经从”给 Agent 一个独立浏览器”转向了”让 Agent 操作用户已有的浏览器和桌面”。这个转向不是退步,是把工程资源从打反爬战争转移到真正提升模型能力上。