Harness Engineering 深度研究

整理时间:2026-03-28 | 来源:OpenAI、LangChain、知乎、掘金等


一、定义:什么是 Harness?

核心概念

Harness(驾驭/马具) 是围绕 AI Agent 设计和构建的约束机制、反馈回路、工作流控制和持续改进循环的工程环境。

关键类比:

  • 模型是引擎,Harness 是让引擎可驾驶的整套系统(方向盘、刹车、仪表盘)
  • “Harness” 来自马具——缰绳、马鞍、嚼子——人类用这些工具驾驭马的力量

核心哲学:人类掌舵,智能体执行(Human Steer, Agent Execute)

术语起源

  • 2026年2月,HashiCorp 联合创始人 Mitchell Hashimoto 首次使用 “Harness Engineering” 这个术语
  • 几天后 OpenAI 发表重磅文章《Harness engineering: leveraging Codex in an agent-first world》
  • Martin Fowler 跟进深度分析
  • 几周内成为 AI Agent 开发绕不开的话题

与之前范式的关系

范式关注点时期
Prompt Engineering优化提示词2023
Context Engineering优化上下文窗口2024-2025
Harness Engineering优化 Agent 运行环境2026

“It doesn’t optimize the model — it optimizes the environment the model runs in.”


二、三层架构:Framework → Runtime → Harness

LangChain 创始人 Harrison Chase 的定义:

1. Agent Framework(框架层)

  • 代表: LangChain、Vercel AI SDK、CrewAI、OpenAI Agents SDK、Google ADK、LlamaIndex
  • 作用: 提供抽象层,定义心智模型,标准化开发方式
  • 特点: 帮你快速上手,但高级用例可能灵活性不够

2. Agent Runtime(运行时层)

  • 代表: LangGraph、Temporal、Inngest
  • 作用: 生产级基础设施——持久化执行、流式处理、人机协作、线程级状态
  • 特点: 比框架更底层,可以支撑框架。LangChain 1.0 就构建在 LangGraph 之上

3. Agent Harness(驾驭层)

  • 代表: DeepAgents(LangChain)、Claude Code SDK、Codex CLI、各种 Coding CLI
  • 作用: “开箱即用”的完整 Agent——内置提示、工具调用处理、规划工具、文件系统访问
  • 特点: 比框架更高级,built on top of Framework。“通用版的 Claude Code”
  • 别称: Harness-as-a-Service (HaaS)

层级关系

┌─────────────────────────┐
│   Agent Harness         │  ← 通用 Agent,"开箱即用"
│   (DeepAgents/Claude)   │
├─────────────────────────┤
│   Agent Framework       │  ← 抽象层,标准化
│   (LangChain/CrewAI)    │
├─────────────────────────┤
│   Agent Runtime         │  ← 生产级基础设施
│   (LangGraph/Temporal)  │
└─────────────────────────┘

三、OpenAI 的百万行代码实验

背景

  • OpenAI 用 Codex Agent 从零搭建了一个百万行代码的内部产品
  • 0 行人工代码
  • 3 个工程师驱动 Codex,5 个月内开了约 1,500 个 PR
  • 人均 3.5 PR/天,且随团队扩大吞吐量反而提升

核心发现

1. 工程师角色转变

  • 从”写代码”变成”设计环境、明确意图、构建反馈循环”
  • 工程师通过 prompt 描述任务,Agent 执行并开 PR
  • 出问题时不是”再试一次”,而是问”缺少什么能力,怎么让它对 Agent 可读且可执行”

2. 可读性(Legibility)是关键

  • 让应用的 UI、日志、指标对 Agent 可读
  • 让应用可以按 git worktree 启动,Agent 能独立测试
  • 代码仓库知识成为系统的”记录真相”

3. 架构与品味的执行

  • 通过 CI/CD、lint 规则、自动化检查来强制执行架构决策
  • 不是告诉 Agent “不要做 X”,而是让 X 在技术上不可能

4. 自治级别的递增

  • 从人类审查每个 PR → Agent 审查 Agent → 人类只处理异常
  • 最终几乎全部 review 都是 agent-to-agent

六大核心组件

  1. 结构化知识库 — AGENTS.md、README、文档驱动
  2. 约束机制 — CI/CD、lint、格式化规则
  3. 反馈回路 — Agent 自查 → Agent 互审 → 人类审查
  4. 工作流控制 — PR 流程、分支策略、合并策略
  5. 持续改进 — 从失败中学习,更新约束和知识
  6. 自治级别管理 — 逐步提升 Agent 自主权

四、开源框架与工具

1. harness0(Python,PyPI)

  • GitHub: 基于 OpenAI Harness Engineering 概念的第一个开源库
  • 安装: pip install harness0
  • 定位: 围绕 Harness Engineering 纪律构建的完整工具包

2. Agent-Harness(GitHub: ygyang11/Agent-Harness)

  • 轻量级、易用的 Agent 构建框架
  • 从简单的工具调用助手到多 Agent 并行工作流
  • 生产级构建块:工具使用、上下文管理、编排

3. DeepAgents(LangChain 出品)

  • 构建在 LangChain + LangGraph 之上
  • “通用版的 Claude Code”
  • 内置提示、规划工具、文件系统访问
  • 最成熟的开源 Harness 方案之一

4. Claude Code SDK(Anthropic)

  • Claude Code 的 SDK 版本
  • 可以作为 Harness 集成到自己的系统
  • Harness-as-a-Service 的概念来源之一

5. Codex CLI(OpenAI)

  • OpenAI 官方的 Agent Harness
  • 命令行工具,直接在仓库中工作
  • AGENTS.md 驱动的知识体系

五、实践效果

OpenAI 实验数据

  • 开发效率: 约 1/10 的时间完成百万行代码
  • 人均产出: 3.5 PR/天(持续提升)
  • 代码质量: 通过 Agent 自审 + 互审保证

行业反馈

  • LangChain GitHub 排名从第 30 跃升至第 5(Harness 概念推动)
  • 多家公司开始实践”人类掌舵,Agent 执行”
  • Martin Fowler 认为 “the harness is moat”(Harness 是护城河)

已知挑战

  • 初始设置慢 — 环境 underspecified 时 Agent 无法高效工作
  • 熵增问题 — 大量 Agent 生成代码需要”垃圾回收”机制
  • 人类 QA 瓶颈 — 需要持续提升系统可读性来减轻人类负担

六、与 OpenClaw 的关系

OpenClaw 本身就是一个 Harness!

  • AGENTS.md = 结构化知识库(告诉 Agent 怎么工作)
  • Skills = 工具和能力的标准化
  • Cron = 工作流控制
  • Session 管理 = 反馈回路
  • HEARTBEAT.md = 持续改进机制

参考资源