Harness Engineering 深度研究

整理时间：2026-03-28 | 来源：OpenAI、LangChain、知乎、掘金等

一、定义：什么是 Harness？

核心概念

Harness（驾驭/马具） 是围绕 AI Agent 设计和构建的约束机制、反馈回路、工作流控制和持续改进循环的工程环境。

关键类比：

模型是引擎，Harness 是让引擎可驾驶的整套系统（方向盘、刹车、仪表盘）
“Harness” 来自马具——缰绳、马鞍、嚼子——人类用这些工具驾驭马的力量

核心哲学：人类掌舵，智能体执行（Human Steer, Agent Execute）

术语起源

2026年2月，HashiCorp 联合创始人 Mitchell Hashimoto 首次使用 “Harness Engineering” 这个术语
几天后 OpenAI 发表重磅文章《Harness engineering: leveraging Codex in an agent-first world》
Martin Fowler 跟进深度分析
几周内成为 AI Agent 开发绕不开的话题

与之前范式的关系

范式	关注点	时期
Prompt Engineering	优化提示词	2023
Context Engineering	优化上下文窗口	2024-2025
Harness Engineering	优化 Agent 运行环境	2026

“It doesn’t optimize the model — it optimizes the environment the model runs in.”

二、三层架构：Framework → Runtime → Harness

LangChain 创始人 Harrison Chase 的定义：

1. Agent Framework（框架层）

代表： LangChain、Vercel AI SDK、CrewAI、OpenAI Agents SDK、Google ADK、LlamaIndex
作用： 提供抽象层，定义心智模型，标准化开发方式
特点： 帮你快速上手，但高级用例可能灵活性不够

2. Agent Runtime（运行时层）

代表： LangGraph、Temporal、Inngest
作用： 生产级基础设施——持久化执行、流式处理、人机协作、线程级状态
特点： 比框架更底层，可以支撑框架。LangChain 1.0 就构建在 LangGraph 之上

3. Agent Harness（驾驭层）

代表： DeepAgents（LangChain）、Claude Code SDK、Codex CLI、各种 Coding CLI
作用： “开箱即用”的完整 Agent——内置提示、工具调用处理、规划工具、文件系统访问
特点： 比框架更高级，built on top of Framework。“通用版的 Claude Code”
别称： Harness-as-a-Service (HaaS)

层级关系

┌─────────────────────────┐
│   Agent Harness         │  ← 通用 Agent，"开箱即用"
│   (DeepAgents/Claude)   │
├─────────────────────────┤
│   Agent Framework       │  ← 抽象层，标准化
│   (LangChain/CrewAI)    │
├─────────────────────────┤
│   Agent Runtime         │  ← 生产级基础设施
│   (LangGraph/Temporal)  │
└─────────────────────────┘

三、OpenAI 的百万行代码实验

背景

OpenAI 用 Codex Agent 从零搭建了一个百万行代码的内部产品
0 行人工代码
3 个工程师驱动 Codex，5 个月内开了约 1,500 个 PR
人均 3.5 PR/天，且随团队扩大吞吐量反而提升

核心发现

1. 工程师角色转变

从”写代码”变成”设计环境、明确意图、构建反馈循环”
工程师通过 prompt 描述任务，Agent 执行并开 PR
出问题时不是”再试一次”，而是问”缺少什么能力，怎么让它对 Agent 可读且可执行”

2. 可读性（Legibility）是关键

让应用的 UI、日志、指标对 Agent 可读
让应用可以按 git worktree 启动，Agent 能独立测试
代码仓库知识成为系统的”记录真相”

3. 架构与品味的执行

通过 CI/CD、lint 规则、自动化检查来强制执行架构决策
不是告诉 Agent “不要做 X”，而是让 X 在技术上不可能

4. 自治级别的递增

从人类审查每个 PR → Agent 审查 Agent → 人类只处理异常
最终几乎全部 review 都是 agent-to-agent

六大核心组件

结构化知识库 — AGENTS.md、README、文档驱动
约束机制 — CI/CD、lint、格式化规则
反馈回路 — Agent 自查 → Agent 互审 → 人类审查
工作流控制 — PR 流程、分支策略、合并策略
持续改进 — 从失败中学习，更新约束和知识
自治级别管理 — 逐步提升 Agent 自主权

四、开源框架与工具

1. harness0（Python，PyPI）

GitHub: 基于 OpenAI Harness Engineering 概念的第一个开源库
安装： pip install harness0
定位： 围绕 Harness Engineering 纪律构建的完整工具包

2. Agent-Harness（GitHub: ygyang11/Agent-Harness）

轻量级、易用的 Agent 构建框架
从简单的工具调用助手到多 Agent 并行工作流
生产级构建块：工具使用、上下文管理、编排

3. DeepAgents（LangChain 出品）

构建在 LangChain + LangGraph 之上
“通用版的 Claude Code”
内置提示、规划工具、文件系统访问
最成熟的开源 Harness 方案之一

4. Claude Code SDK（Anthropic）

Claude Code 的 SDK 版本
可以作为 Harness 集成到自己的系统
Harness-as-a-Service 的概念来源之一

5. Codex CLI（OpenAI）

OpenAI 官方的 Agent Harness
命令行工具，直接在仓库中工作
AGENTS.md 驱动的知识体系

五、实践效果

OpenAI 实验数据

开发效率： 约 1/10 的时间完成百万行代码
人均产出： 3.5 PR/天（持续提升）
代码质量： 通过 Agent 自审 + 互审保证

行业反馈

LangChain GitHub 排名从第 30 跃升至第 5（Harness 概念推动）
多家公司开始实践”人类掌舵，Agent 执行”
Martin Fowler 认为 “the harness is moat”（Harness 是护城河）

已知挑战

初始设置慢 — 环境 underspecified 时 Agent 无法高效工作
熵增问题 — 大量 Agent 生成代码需要”垃圾回收”机制
人类 QA 瓶颈 — 需要持续提升系统可读性来减轻人类负担

六、与 OpenClaw 的关系

OpenClaw 本身就是一个 Harness！

AGENTS.md = 结构化知识库（告诉 Agent 怎么工作）
Skills = 工具和能力的标准化
Cron = 工作流控制
Session 管理 = 反馈回路
HEARTBEAT.md = 持续改进机制

Jason's Blog

Harness Engineering 深度研究

Harness Engineering 深度研究

一、定义：什么是 Harness？

核心概念

术语起源

与之前范式的关系

二、三层架构：Framework → Runtime → Harness

1. Agent Framework（框架层）

2. Agent Runtime（运行时层）

3. Agent Harness（驾驭层）

层级关系

三、OpenAI 的百万行代码实验

背景

核心发现

六大核心组件

四、开源框架与工具

1. harness0（Python，PyPI）

2. Agent-Harness（GitHub: ygyang11/Agent-Harness）

3. DeepAgents（LangChain 出品）

4. Claude Code SDK（Anthropic）

5. Codex CLI（OpenAI）

五、实践效果

OpenAI 实验数据

行业反馈

已知挑战

六、与 OpenClaw 的关系

参考资源

目录