Harness Engineering
人机协作第三阶段:人类不再写代码,而是设计环境、定义意图、构建反馈循环。
核心论点
人类与AI协作的方式在三次跃迁:
- 2023年 — Prompt Engineering:怎么措辞?把模型当黑箱,用咒语般的技巧试探能力边界。有效但极脆弱——仅调换示例顺序,准确率波动超过40%。
- 2025年 — Context Engineering:给AI看什么信息?关键是上下文窗口里装了什么。核心问题:Context Rot(上下文腐蚀),对话越长,早期信息失效,必须主动管理。
- 2026年 — Harness Engineering:给AI造一个世界。
"Harness"是马具——套在马身上控制方向、传递力量、保证安全的整套装备。
三个支柱:
一、给Agent地图,而不是手册 AGENTS.md只有约100行,本身只是目录,指向更详细文档。Agent需要时再去取,而不是一次性塞满上下文。这叫"渐进式披露",避免注意力被无关信息稀释。
二、用确定性的约束替代规范性的说明 文档告诉Agent"应该怎么做",linter和结构测试强制执行"必须怎么做"。依赖方向由工具链机械验证——Agent写出违规代码直接报错,不靠模型"记住规则"。把约束编码进工具链,比任何提示词都可靠。
三、Agent自我维护循环 后台持续运行的Agent定期扫描代码库偏差,更新质量评分,自动开PR修复技术债。不是一次性清理,是持续运转的维护循环。
与Context Engineering的真正分界线:
- 执行环境的全面接入:Context Engineering管信息;Harness Engineering管Agent能感知到的一切——应用界面、日志、运行指标、DevTools,全接入运行时。Agent不只读文档,直接观察系统真实运行状态。
- 产出可靠性的闭环:Agent提交代码→自己审查→请其他Agent review→响应反馈→修复CI报错→必要时升级给人类→合并。整个循环在Agent间自动完成,人类只在真正卡住时介入。
数字说话:同一模型,在不同Harness里运行,解题率从2%到12%——六倍差距纯粹来自环境设计,而非模型升级。仅Harness配置优化就使任务完成率提升64%。
结论:模型能力已不是瓶颈,工程能力才是。 当Agent犯错,正确反应不是"再试一次",而是问:环境里缺了什么,让它犯了这个错?然后把答案编码回仓库。人类最终的角色,不是写代码,是设计让AI工作的世界。
来源
- 03 - OUTPUT/02 - Newsletter/062-什么是Harness Engineering — 完整方法论,包括三次跃迁、三个支柱和分界线
相关概念
- Code is Intent — 同样指向人类角色的根本转变:从执行者到定义者
- AI OS — Harness Engineering的个人化实践:以文件系统和Skills为Harness构建个人OS
- 万物皆文件 — Harness设计的基础设施选择:文件夹约定 + AGENTS.md
演变
这一概念来自OpenAI Codex团队在实践中总结的方法论,由作者引入并与个人AI OS实践相结合。是Prompt Engineering → Context Engineering演化链条上目前最前沿的节点。
Substack 相关文章
- 什么是Harness Engineering2026-03-28