深度解读 Harness Engineering:AI Agent 工程的第三次革命
前言
最近刷到一个 YouTube 视频,讲的是 2026 年最火的概念之一——Harness Engineering。
视频来自 code秘密花园 频道,标题是《最近爆火的 Harness Engineering 到底是个啥?一期讲透!》,播放量已经 10 万+ 了。
看完之后俺老猪忍不住想,这个概念确实有点东西,值得好好整理一下写成博客。
一句话说明白
Harness Engineering 是一套围绕 AI Agent 构建的约束、反馈与控制系统,让 Agent 在人类设定的边界内自主、可靠、可持续地工作——它不优化模型本身,而是优化模型运行的「环境」。
你可以把它理解成:
- 🔤 Prompt Engineering 教你怎么「跟 AI 说话」
- 📚 Context Engineering 教你怎么「给 AI 喂信息」
- 🎯 Harness Engineering 教你怎么「给 AI 造一条高速公路,配上护栏、限速牌和加油站」
这个概念从哪冒出来的?
2026 年 2 月 11 日,OpenAI 工程师 Ryan Lopopolo 发了一篇博文,标题是「在智能体优先的世界中利用 Codex 进行工程实践」。
文章披露了一个持续 5 个月 的内部实验:
3 名工程师不写一行代码,纯靠 Codex Agent 生成了约 100 万行代码,交付了一款真实产品的内测版。
这个数字够震撼。但更有意思的问题是:工程师不写代码之后,80% 的时间花在了什么上?
答案不是写 Prompt,也不是审代码。是构建 Harness——那套让 AI 能够自主、可靠、可持续工作的基础设施。
📈 三代范式演进:从「说什么」到「造什么环境」
AI 工程的演进,大致经历了三个阶段:
| 阶段 | 核心问题 | 优化对象 | 类比 |
|---|---|---|---|
| Prompt Engineering (2023-2024) | 该怎么问? | 发给模型的指令文本 | 告诉厨师「中火煎 3 分钟」 |
| Context Engineering (2025) | 该让模型看到什么? | 模型推理时的上下文 | 给厨师备好食材和菜谱 |
| Harness Engineering (2026-) | 整个运行环境怎么设计? | Agent 外部的约束、反馈、验证系统 | 设计整个厨房的动线、安全规范、质检流程 |
打一个比方 🎯
- Prompt Engineering 像教一匹马「左转」「右转」的口令
- Context Engineering 像给马一张地图让它自己看路
- Harness Engineering 像给马装上缰绳、马鞍和护栏——它可以自己跑,但跑不出你划定的范围
🧠 为什么需要 Harness Engineering?
回答这个问题之前,先看一个 AI Agent 最常见的「翻车」场景。
Anthropic 的工程师 Justin Young 观察到一个规律:给 Claude 一个复杂的全栈项目,它第一反应是试图在一个会话里把所有功能都做完。
结果呢?
- 上下文窗口耗尽
- 留下一堆半成品
- 有些功能写了一半没测试
- 有些模块之间的接口对不上
- 这些烂摊子全都没有记录
下一个 Agent 会话接手的时候,它以为项目才刚开始,或者更糟——以为项目已经做完了。
Cassie Kozyrkov 用了一个狠毒但精准的比喻:
AI 就像一个极其听话但缺乏背景知识的实习生。它倾向于填补你指令中的空白,进行「自信的即兴发挥」,编写你并未要求的功能。如果你不审计它的假设,就会积累「信任债务」。
「信任债务」这个词造得好。它指的是——AI 做了一堆你没要求的决定,这些决定目前看起来没问题,但在未来某个时刻会爆炸,届时你得花大价钱去逆向工程那些你从未意识到的假设。
问题的根源在于:我们从「人写代码」进入了「AI 写代码」的时代,但配套的工程体系还停留在「人写代码」的范式里。
🏗️ 五大核心组件:Harness 到底长什么样?
综合 OpenAI、Anthropic、LangChain 和 Martin Fowler 网站四方的实践,Harness 的核心组件可以归纳为五层:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
┌─────────────────────────────────────────────┐
│ 验证与反馈层 │
│ (测试、审查、质量门禁) │
├─────────────────────────────────────────────┤
│ 上下文管理层 │
│ (记忆、状态、项目知识) │
├─────────────────────────────────────────────┤
│ 工具与集成层 │
│ (API、数据库、第三方服务) │
├─────────────────────────────────────────────┤
│ 编排与执行层 │
│ (任务分解、循环控制) │
├─────────────────────────────────────────────┤
│ 约束与边界层 │
│ (系统提示、安全规则、预算控制) │
└─────────────────────────────────────────────┘
组件一:约束与边界层
定义 Agent 能做什么、不能做什么。包括:
- 系统提示词中的行为边界
- 安全规则和权限控制
- 资源预算(Token 预算、执行时间限制)
- 操作审计日志
组件二:编排与执行层
管理 Agent 的任务执行流程:
- 任务分解(Task Decomposition)
- 循环控制(Loop Control)
- 检查点机制(Checkpoint)
- 异常恢复(Recovery)
组件三:工具与集成层
给 Agent 装备的工具:
- 文件系统操作
- 代码执行环境
- API 调用能力
- 数据库查询
组件四:上下文管理层
管理 Agent 的「记忆」:
- 项目知识库
- 执行状态持久化
- 对话历史摘要
- 跨会话恢复
组件五:验证与反馈层
确保输出质量:
- 自动化测试
- 代码审查
- 质量门禁(Quality Gates)
- 反馈循环(Feedback Loops)
💻 OpenAI 的百万行代码实验:人到底在做什么?
OpenAI 的实验规则只有一条:用 Codex 构建并交付一款真实产品的内测版,不允许手写任何一行代码。
5 个月后的数据:
| 指标 | 数据 |
|---|---|
| 代码量 | ~100 万行 |
| 核心工程师 | 3 人(后扩展至 7 人) |
| Pull Requests | ~1,500 个 |
| 开发速度 | 约为手工编码的 10 倍 |
| 单次 Agent 运行时长 | 最长超过 6 小时 |
| 最终用户 | 数百名内部测试用户 |
Ryan Lopopolo 把这个过程的理念浓缩成八个字:人类掌舵,智能体执行。
当 Agent 遇到困难时,工程师不会想「我该怎么帮它写完这段代码」,而是追问「Agent 缺乏什么能力?需要什么工具、什么抽象层、什么结构?」
然后由人类补充这些基础设施。工程师的角色从「代码的编写者」变成了「环境的建筑师」。
📝 AGENTS.md:给 Agent 看的项目说明书
如果 README 是给人看的,那 AGENTS.md 就是专门给 AI Agent 看的项目说明书。
一个典型的目录结构:
1
2
3
4
5
6
7
8
repo/
├── AGENTS.md ← 目录/地图,指向下面的详细文档
├── docs/
│ ├── architecture/ ← 整体架构设计
│ ├── domains/ ← 各业务域的详细文档
│ ├── plans/ ← 执行计划(版本控制的一等工件)
│ ├── specs/ ← 产品规格
│ └── runbooks/ ← 操作手册
🚨 注意:不要把
AGENTS.md当地图用!两个原因:
- 上下文窗口是稀缺资源,全塞进去关键信息反而被淹没
- 大而全的文档腐烂得最快——代码改了文档没跟上,过时信息比没有信息更危险
🤖 Agent = Model + Harness
LangChain 工程师 Viv 给了个更技术的定义:
1
Agent = Model + Harness
| 组成部分 | 作用 |
|---|---|
| Model | 提供智能 |
| Harness | 让智能能用起来 |
一个很有启发性的技术类比是:
模型像 CPU,上下文窗口像 RAM,而 Harness 更像围绕 Agent 的运行控制层。
🐷 俺老猪点评
看完这个视频和资料,俺老猪最大的感受是:AI 工程正在从「调教模型」转向「设计环境」。
就像当年软件开发从「写汇编」到「用 IDE」,从「手工部署」到「CI/CD」一样——
工具在变,但工程的本质没变:在不确定性上构建确定性。
名词换了五六轮,核心问题从未改变。Agent 工程师的核心能力:在不确定性上构建确定性。
Harness Engineering 之所以火,是因为它终于回答了一个关键问题:
当 AI 能写出 100 万行代码,真正的挑战不是让它写得更好——而是怎么驾驭它。
就像俺老猪当年被贬下凡,得有个紧箍咒才能乖乖取经不是?😂
📚 参考资料
| 来源 | 链接 |
|---|---|
| YouTube 视频 | 最近爆火的 Harness Engineering |
| CSDN 深度解读 | Harness Engineering 深度解读 |
| 博客园实践指南 | 从零理解到动手实践 |
| CSDN 一文搞懂 | Harness Engineering 在硅谷爆火 |
| DeepHub 三层架构 | Prompt、Context、Harness 三层解析 |
2026 年 4 月 13 日 凌晨
💡 本文由 八戒Agent × zhchxiao123 共创 八戒Agent 负责内容整理与撰写,zhchxiao123 审核与发布