AI 是怎么学会操作电脑的

2024 年 10 月，Anthropic 跟 Claude 3.5 Sonnet 一起公布了 Computer Use 的 API 公测——注意，这跟 Claude Code 不是一回事。Computer Use 让 Claude 能看你的屏幕、识别界面元素、操控鼠标键盘帮你干活——在 Salesforce 里填报销单，在浏览器里预约会议。Claude Code 是 2025 年中才出的 CLI 编程工具，干的是另一件事。OpenAI 紧接着推出 Operator，GPT 自己开个虚拟浏览器帮你订餐买票。到 2026 年，这两家的桌面 Agent 都已经进了普通用户的产品里。

一个自然的问题是：AI 怎么学会操作电脑的？ 训练数据从哪来？模型怎么学会”看到这个按钮该点”的？

答案比你想的有趣。

学术数据集：够做 demo，不够做产品

在 Anthropic 和 OpenAI 动手之前，学术圈已经攒了不少 UI 操作数据集——GUI-360、OSWorld、WebArena 这些。格式没问题：一张截图配一个操作目标。

但拿来训练产品级 Agent，有三个硬伤：

应用覆盖太窄。 学术数据集覆盖几十种软件，真实世界有上千种。每多一类界面，模型要学的布局规律就多一个维度。长尾填不上。

场景太干净。 打开菜单、填表单、保存文件——这些简单操作占了大头。真实工作中的弹窗打断、加载延迟、表单校验报错，在数据集里很少出现。

轨迹太短。 真实操作是一串连续动作：“打开软件 → 点这个 → 填那个 → 等加载 → 关弹窗 → 继续填”。学术数据以单步或短轨迹为主，缺少多步之间的依赖关系。

三件事叠在一起：学术数据集能训出一个跑 benchmark 的 prototype，训不出一个在各种软件上都能用的产品。

Anthropic 的做法：把操作变成推理数据

2025 年 10 月，一项 Anthropic 的专利（U.S. 12,437,238）获批。它保护的不是”AI 怎么操作电脑”——那叫推理，每家都在做。它保护的是训练数据的采集和生成管线。

这条管线的核心思路：不只是记录”做了什么”，还要记录”为什么这么做”。

学术数据集的样本是”看到这个界面 → 做这个动作”，一组静态映射。Anthropic 的管线产出的样本是”看到这个界面 → 理解当前状态 → 判断下一步该做什么 → 做这个动作”，一条推理链。

具体怎么做？三个环节。

第一步：截获

在用户和软件之间放一个透明中间层。用户正常操作——点按钮、填表、滚动页面——中间层记录每一步操作前后的界面状态（截图 + 可访问性元数据 + 文本内容）。

最有意思的部分写在专利 Claim 5 里：用户可以附加”思考标注”——“我点这个按钮是因为它通常在右下角”、“应该选第三个选项，因为前两个是灰色的”。这些标注是人类在当前界面做决策的推理过程，直接编码进训练数据。

对模型来说，训练信号不再是”模仿这个点击”，而是”理解为什么要点这里”。

第二步：翻译

原始操作——“(342, 157) 点击”——送进一个多模态 transformer 模型。模型结合界面截图和上下文，推断用户意图，输出语义化命令：“识别到文本为’提交’的按钮元素，在 (330, 150, 400, 170) 区域内，执行点击”。

关键不是坐标转换，是让模型推理出操作背后的意图——用户不是随机点了一个像素，用户是想提交表单。

第三步：合成扩展

一条真实轨迹经过截获和翻译，变成一份带推理链的训练样本。然后 Anthropic 用一个更强的模型对这份样本做扩展——给同一张操作前截图，让强模型生成多种合理的操作变体。一条真实轨迹扩展出几十条训练样本，每条都包含完整的”看界面 → 推理 → 做动作”链路。

三个环节做的事是同一件：把原始操作转换为推理数据。 第一步从人类那里获取推理标注，第二步用模型补齐意图推断，第三步用更强的模型生成更多推理变体。

OpenAI 的做法：让 Agent 自己学

OpenAI 的 Operator 背后是一个叫 CUA（Computer-Using Agent）的模型。它基于 GPT-4o，但训练方法和 Anthropic 完全不同——走的是强化学习（RL） 路线。

核心区别：Anthropic 靠人类操作数据+模型翻译来制造训练样本，OpenAI 让 Agent 在虚拟环境里自己探索学习。

具体怎么做的：

搭建 Web Gym

不让没训练过的 Agent 在真实网站上乱点——那会点出事。OpenAI 搭建了模拟真实网站的沙箱环境（Web Gym），Agent 在里面随便试，不会搞坏任何东西。

好的 Gym 要满足五个条件：足够真实（DOM 和真实网站接近）、可以探索（按钮真的能点）、数据多样（不能让 Agent 过拟合）、验证器准确（自动判断任务有没有完成）、基础设施稳定（训练环境不能老崩）。

设计好任务

任务设计直接影响学习效果。“买个衬衫”太模糊，Agent 学不到东西。“买最便宜的蓝色 M 码棉衬衫”才是好任务——它迫使 Agent 学会搜索、筛选、比价、验证属性，每一步都有明确的对错标准。

RL 训练

Agent 反复在 Gym 里尝试任务。成功了拿奖励，失败了扣分。关键难点是保持模型的推理能力——RL 训练容易让模型变得”短视”，只会追求即时奖励，丧失长程规划能力。OpenAI 专门做了处理来防止这个问题。

CUA 的运行方式是一个循环：截图（感知）→ 想一想当前状态和下一步（推理，Chain-of-Thought）→ 点击/输入（动作）。每一步都有内部独白，不是直接输出坐标。

两条路线，一个规律

把两家放在一起看：

	Anthropic	OpenAI
核心方法	人类操作数据 + 模型翻译 + 合成扩展	强化学习（RL）
数据来源	真人操作轨迹 + 思考标注	虚拟 Web Gym 环境内自学习
推理怎么来	数据里自带推理标注	模型自己通过 CoT 学推理
扩展方式	强模型生成操作变体	环境交互自动生成经验
优势	数据质量高，带因果推理	不依赖人类标注，覆盖更多异常场景
劣势	人类标注贵且慢	RL 训练不稳定，推理能力可能退化

Amazon AGI Lab 也发了类似的研究，结论基本一致：好的环境 + 好的任务设计 + 准确的验证器 + 保持推理能力，四层缺一不可。

独立 Browser Agent 的死局

2026 年 5 月 4 日，Google 无预告关掉了 Project Mariner——去年 I/O 大会的 AI Agent 旗舰产品。官方页面只留了一句话：“Technology voyaged to other Google products.”

有意思的是，Anthropic 和 OpenAI 也得出了同样的结论。OpenAI 的 Operator 关了，Instant Checkout 也关了。Anthropic 的 Computer Use 发布 18 个月仍然 beta，官方自己都说”从低风险任务开始”。三家做同类产品的公司，几乎同时放弃了独立 browser agent 路线。

不是技术不行，是结构性死局。

你在和反爬系统打仗

独立 browser agent 的部署方式（headless Chrome、云托管浏览器、独立 VM）会创建全新的浏览器会话——没有 cookie、没有浏览历史、没有人类行为特征。这正是网站反爬系统十几年来擅长探测的目标。

OpenAI 的 Operator 连 ChatGPT.com 都访问不了——自己公司的网站都把它当爬虫。Amazon 在 2026 年 3 月对 Perplexity Comet 拿到了法院禁令，法官依据《计算机欺诈和滥用法》判定：Comet 访问 Amazon 账户”有用户许可但没有 Amazon 授权”。

做独立 browser agent 的团队，工程资源不在提升模型能力上，而在和有几十年反爬经验、有直接经济激励的平台打军备竞赛。而且你的每一轮规避策略都会触发下一轮检测升级。

Browser Agent vs Computer Use

先厘清一个关键区分：

品类	代表	运行环境	能力
Browser Agent	Operator、Mariner	独立 headless 浏览器	只能操作网页
Computer Use	Anthropic Computer Use、Codex 插件	VM/沙箱或用户真实桌面	控制整个桌面

Browser Agent 瞄准的场景（订机票、比价、购物）对可靠性要求极高。用户容忍不了偶尔买错，而”买错”和自己操作的区别只是几分钟——认知上的收益太小。

真正的需求在 Computer Use 这边：医院 90 年代的病历系统、保险理赔软件、Bloomberg Terminal（API 访问要六位数美元的额外合同）。这些不会因为 AI 出现就自动装上 API，而且它们绝大多数不是网页应用。

需求没错，品类错了。

解法：共享用户的真实会话

三家公司最后都走向了同一个方向——不让 Agent 开新浏览器，而是直接操作用户已在用的浏览器或桌面。从网站角度看，分不出是用户在点还是 Agent 在点。

Google：把 Mariner 技术做进了 Chrome（auto-browse），跑在用户真实浏览器里
OpenAI：Codex Computer Use 走 macOS 桌面插件路线，直接跑在用户真实 Mac 上，共享桌面环境和浏览器登录态
Anthropic：Claude for Chrome 跑在用户真实浏览器里，活得很好

到 Computer Use（控制用户整个桌面）的时候，优势更明显：用户桌面有真实人类操作轨迹——鼠标移动速度、打字节奏、标签切换模式。这些信号 bot 几乎不可能伪造。

Benchmark 现实

说完方向，说现实。当前的成绩离”可靠”还很远：

模型	OSWorld（全桌面）	WebArena（网页）
人类	72.4%	—
OpenAI CUA	38.1%	58.1%
Anthropic Computer Use	22%	—

最好的 Agent 在全桌面任务上的成功率刚过人类的三分之一。这就是为什么三家公司都在换方向——不是训练方法的问题，是部署环境的问题。在 headless 浏览器里训得再好，反爬系统一拦就白搭。换到共享真实会话的部署方式，同样的模型能力立刻能发挥出来。

如果你想自己做

总结一下，如果是一个公司或团队想开发桌面操作 Agent：

选对部署方式比选对训练方法更重要。 不要做独立 headless browser agent，那是死路。做浏览器扩展、桌面插件、或者直接接用户桌面——共享真实会话。

最快的起步方式：做一个浏览器扩展或桌面插件，用大模型的 vision 能力做 zero-shot——截图扔给 GPT-4o 或 Claude，让它输出坐标和动作。不用专门训练，先跑通。

要提升成功率：收集失败案例，人工标注正确操作，训练专门的视觉定位模型。加入异常处理：弹窗、加载中、报错、页面滚动。引入 accessibility tree 作为截图的补充信号。

要规模化：建数据飞轮——用户使用产生轨迹 → 人工审核 → 训练模型 → 模型变强 → 吸引更多用户。或者走 RL 路线，搭虚拟环境让 Agent 自己学。

至于 Anthropic 的专利——它保护的是”截获层 + 思考标注 + 翻译 + 合成扩展”的特定管线组合。如果你走 RL 路线，或者用纯 API 调用（截图 → 大模型 → 坐标），根本不在专利覆盖范围内。

一个更深的观察

Computer Use 的竞争，表面上是模型能力的竞争，实际上是训练数据的生产效率 × 部署环境的选择的竞争。

谁家的 Agent 能覆盖更多软件、更稳定地完成任务，取决于两件事：训练数据的质量和规模，以及 Agent 跑在什么环境里。Anthropic 的专利卡的是数据生产，Google 关掉 Mariner 说明部署环境同样关键。最好的训练数据配上 headless 浏览器，打不过一般的训练数据配上用户真实会话。

方向是确定的：AI 操作电脑这件事，不是一个功能，是一个新的交互范式。 但范式落地的路径已经从”给 Agent 一个独立浏览器”转向了”让 Agent 操作用户已有的浏览器和桌面”。这个转向不是退步，是把工程资源从打反爬战争转移到真正提升模型能力上。

Jason's Blog