Harness Engineering 深度研究
整理时间:2026-03-28 | 来源:OpenAI、LangChain、知乎、掘金等
一、定义:什么是 Harness?
核心概念
Harness(驾驭/马具) 是围绕 AI Agent 设计和构建的约束机制、反馈回路、工作流控制和持续改进循环的工程环境。
关键类比:
- 模型是引擎,Harness 是让引擎可驾驶的整套系统(方向盘、刹车、仪表盘)
- “Harness” 来自马具——缰绳、马鞍、嚼子——人类用这些工具驾驭马的力量
核心哲学:人类掌舵,智能体执行(Human Steer, Agent Execute)
术语起源
- 2026年2月,HashiCorp 联合创始人 Mitchell Hashimoto 首次使用 “Harness Engineering” 这个术语
- 几天后 OpenAI 发表重磅文章《Harness engineering: leveraging Codex in an agent-first world》
- Martin Fowler 跟进深度分析
- 几周内成为 AI Agent 开发绕不开的话题
与之前范式的关系
| 范式 | 关注点 | 时期 |
|---|---|---|
| Prompt Engineering | 优化提示词 | 2023 |
| Context Engineering | 优化上下文窗口 | 2024-2025 |
| Harness Engineering | 优化 Agent 运行环境 | 2026 |
“It doesn’t optimize the model — it optimizes the environment the model runs in.”
二、三层架构:Framework → Runtime → Harness
LangChain 创始人 Harrison Chase 的定义:
1. Agent Framework(框架层)
- 代表: LangChain、Vercel AI SDK、CrewAI、OpenAI Agents SDK、Google ADK、LlamaIndex
- 作用: 提供抽象层,定义心智模型,标准化开发方式
- 特点: 帮你快速上手,但高级用例可能灵活性不够
2. Agent Runtime(运行时层)
- 代表: LangGraph、Temporal、Inngest
- 作用: 生产级基础设施——持久化执行、流式处理、人机协作、线程级状态
- 特点: 比框架更底层,可以支撑框架。LangChain 1.0 就构建在 LangGraph 之上
3. Agent Harness(驾驭层)
- 代表: DeepAgents(LangChain)、Claude Code SDK、Codex CLI、各种 Coding CLI
- 作用: “开箱即用”的完整 Agent——内置提示、工具调用处理、规划工具、文件系统访问
- 特点: 比框架更高级,built on top of Framework。“通用版的 Claude Code”
- 别称: Harness-as-a-Service (HaaS)
层级关系
┌─────────────────────────┐
│ Agent Harness │ ← 通用 Agent,"开箱即用"
│ (DeepAgents/Claude) │
├─────────────────────────┤
│ Agent Framework │ ← 抽象层,标准化
│ (LangChain/CrewAI) │
├─────────────────────────┤
│ Agent Runtime │ ← 生产级基础设施
│ (LangGraph/Temporal) │
└─────────────────────────┘
三、OpenAI 的百万行代码实验
背景
- OpenAI 用 Codex Agent 从零搭建了一个百万行代码的内部产品
- 0 行人工代码
- 3 个工程师驱动 Codex,5 个月内开了约 1,500 个 PR
- 人均 3.5 PR/天,且随团队扩大吞吐量反而提升
核心发现
1. 工程师角色转变
- 从”写代码”变成”设计环境、明确意图、构建反馈循环”
- 工程师通过 prompt 描述任务,Agent 执行并开 PR
- 出问题时不是”再试一次”,而是问”缺少什么能力,怎么让它对 Agent 可读且可执行”
2. 可读性(Legibility)是关键
- 让应用的 UI、日志、指标对 Agent 可读
- 让应用可以按 git worktree 启动,Agent 能独立测试
- 代码仓库知识成为系统的”记录真相”
3. 架构与品味的执行
- 通过 CI/CD、lint 规则、自动化检查来强制执行架构决策
- 不是告诉 Agent “不要做 X”,而是让 X 在技术上不可能
4. 自治级别的递增
- 从人类审查每个 PR → Agent 审查 Agent → 人类只处理异常
- 最终几乎全部 review 都是 agent-to-agent
六大核心组件
- 结构化知识库 — AGENTS.md、README、文档驱动
- 约束机制 — CI/CD、lint、格式化规则
- 反馈回路 — Agent 自查 → Agent 互审 → 人类审查
- 工作流控制 — PR 流程、分支策略、合并策略
- 持续改进 — 从失败中学习,更新约束和知识
- 自治级别管理 — 逐步提升 Agent 自主权
四、开源框架与工具
1. harness0(Python,PyPI)
- GitHub: 基于 OpenAI Harness Engineering 概念的第一个开源库
- 安装:
pip install harness0 - 定位: 围绕 Harness Engineering 纪律构建的完整工具包
2. Agent-Harness(GitHub: ygyang11/Agent-Harness)
- 轻量级、易用的 Agent 构建框架
- 从简单的工具调用助手到多 Agent 并行工作流
- 生产级构建块:工具使用、上下文管理、编排
3. DeepAgents(LangChain 出品)
- 构建在 LangChain + LangGraph 之上
- “通用版的 Claude Code”
- 内置提示、规划工具、文件系统访问
- 最成熟的开源 Harness 方案之一
4. Claude Code SDK(Anthropic)
- Claude Code 的 SDK 版本
- 可以作为 Harness 集成到自己的系统
- Harness-as-a-Service 的概念来源之一
5. Codex CLI(OpenAI)
- OpenAI 官方的 Agent Harness
- 命令行工具,直接在仓库中工作
- AGENTS.md 驱动的知识体系
五、实践效果
OpenAI 实验数据
- 开发效率: 约 1/10 的时间完成百万行代码
- 人均产出: 3.5 PR/天(持续提升)
- 代码质量: 通过 Agent 自审 + 互审保证
行业反馈
- LangChain GitHub 排名从第 30 跃升至第 5(Harness 概念推动)
- 多家公司开始实践”人类掌舵,Agent 执行”
- Martin Fowler 认为 “the harness is moat”(Harness 是护城河)
已知挑战
- 初始设置慢 — 环境 underspecified 时 Agent 无法高效工作
- 熵增问题 — 大量 Agent 生成代码需要”垃圾回收”机制
- 人类 QA 瓶颈 — 需要持续提升系统可读性来减轻人类负担
六、与 OpenClaw 的关系
OpenClaw 本身就是一个 Harness!
- AGENTS.md = 结构化知识库(告诉 Agent 怎么工作)
- Skills = 工具和能力的标准化
- Cron = 工作流控制
- Session 管理 = 反馈回路
- HEARTBEAT.md = 持续改进机制