concept · updated 2026-04-07

Harness Engineering

人机协作第三阶段：人类不再写代码，而是设计环境、定义意图、构建反馈循环。

核心论点

人类与AI协作的方式在三次跃迁：

2023年 — Prompt Engineering：怎么措辞？把模型当黑箱，用咒语般的技巧试探能力边界。有效但极脆弱——仅调换示例顺序，准确率波动超过40%。
2025年 — Context Engineering：给AI看什么信息？关键是上下文窗口里装了什么。核心问题：Context Rot（上下文腐蚀），对话越长，早期信息失效，必须主动管理。
2026年 — Harness Engineering：给AI造一个世界。

"Harness"是马具——套在马身上控制方向、传递力量、保证安全的整套装备。

三个支柱：

一、给Agent地图，而不是手册 AGENTS.md只有约100行，本身只是目录，指向更详细文档。Agent需要时再去取，而不是一次性塞满上下文。这叫"渐进式披露"，避免注意力被无关信息稀释。

二、用确定性的约束替代规范性的说明 文档告诉Agent"应该怎么做"，linter和结构测试强制执行"必须怎么做"。依赖方向由工具链机械验证——Agent写出违规代码直接报错，不靠模型"记住规则"。把约束编码进工具链，比任何提示词都可靠。

三、Agent自我维护循环 后台持续运行的Agent定期扫描代码库偏差，更新质量评分，自动开PR修复技术债。不是一次性清理，是持续运转的维护循环。

与Context Engineering的真正分界线：

执行环境的全面接入：Context Engineering管信息；Harness Engineering管Agent能感知到的一切——应用界面、日志、运行指标、DevTools，全接入运行时。Agent不只读文档，直接观察系统真实运行状态。
产出可靠性的闭环：Agent提交代码→自己审查→请其他Agent review→响应反馈→修复CI报错→必要时升级给人类→合并。整个循环在Agent间自动完成，人类只在真正卡住时介入。

数字说话：同一模型，在不同Harness里运行，解题率从2%到12%——六倍差距纯粹来自环境设计，而非模型升级。仅Harness配置优化就使任务完成率提升64%。

结论：模型能力已不是瓶颈，工程能力才是。 当Agent犯错，正确反应不是"再试一次"，而是问：环境里缺了什么，让它犯了这个错？然后把答案编码回仓库。人类最终的角色，不是写代码，是设计让AI工作的世界。

这一概念来自OpenAI Codex团队在实践中总结的方法论，由作者引入并与个人AI OS实践相结合。是Prompt Engineering → Context Engineering演化链条上目前最前沿的节点。