2025年,麦肯锡发布了一个让人心惊的数字:78%的企业已经部署了生成式AI,但绝大多数部署对企业损益表毫无影响。他们的评价很直白:生成式AI无处不在——除了公司的损益表上。
企业家们的本能反应通常是“买更好的模型”。但过去两年来自Anthopic、OpenAI、Gemini,LangChain等顶级AI团队的实践揭示了一个更深层的答案:问题不在“引擎”,而在“引擎之外的一切”。AI模型就像一台发动机——力量强大,但没有车身、方向盘、刹车、仪表盘,你哪儿也去不了。这套“引擎之外的一切”,技术界称之为“Harness”(罰罩)——它连接、保护、编排各组件,本身不做具体工作,但没有它什么工作都做不成。更准确地说,Harness之于企业,就像操作系统之于电脑:AI模型是CPU,上下文窗口是内存,而Harness是调度任务、管理记忆、提供工具的操作系统。
本文的核心路径是四个词:数据 → 知识 → 智能体 → Harness。每一步都在放大企业独有资产的价值。我会从战略、产品、商业模式、组织、投资五个维度展开,帮你思考清楚这条路径对你的企业意味着什么。
AI行业内部正在进行一场事关每个企业的辩论。一方认为“模型就是一切”——Claude Code的技术负责人说“所有秘密武器都在模型里,我们写的是可能的最薄包装层”;OpenAI的推理研究者说“以前的复杂编排都会被更强的模型淘汰”;独立测试机构METR也发现,Harness的选择在基准测试中“本质上是误差范围内的噪声”。
另一方有同样有力的证据。一篇广为流传的研究显示,仅仅优化Harness就能显著提升每一个被测试模型的表现。LangChain的团队用同一个模型,仅通过调整系统设计,就把编码智能体的准确率从52.8%提升到66.5%,行业排名从Top 30跳到Top 5。LlamaIndex创始人断言:“获取AI价值的最大障碍是你自己对模型进行上下文和工作流编程的能力。”
对企业家而言,这场辩论的结论其实很明确:模型决定能力天花板,但Harness决定你能把多少能力转化为业务价值。而更重要的是,模型是标准化商品——今天用Claude,明天可以换GPT——你买不到独家优势。真正的护城河在于你把独有的数据、行业知识、业务流程织入了一套完整的Harness,形成了什么可以称之为“组织世界模型”的东西——它包含了你企业的业务逻辑、质量标准、合规要求、运营智慧。这套系统一旦转动起来,就会形成飞轮:每次智能体运行都积累新的运营数据,让系统变得更聪明。先动者每天都在拉大差距。
但这里有一个“苦涩的教训”需要警备。AI领域有一条被反复验证的规律:利用计算力的通用方法,最终总是打败人工编码的专家知识。Manus六个月重构了五次Harness来移除僵化假设;Vercel删除了80%的工具反而效果更好;Anthopic发现当新模型发布后,原来必须的“任务分解”机制可以移除了,因为新模型自己就能维持连贯性。这意味着:你的Harness必须轻量灵活、随时可拆卸。“Start Simple, Build to Delete”——从简单开始,为删除而建造。
战略判断框架:
每笔AI投资问三个问题——① 它会因模型进步而过时吗?(少投,准备替换)② 它是否连接了我们的独特数据和工作流?(这是护城河,加大投入)③ 它能否随模型进步自动受益?(最高价值的投资)
第一步:数据 → 知识库——“你不写下来,它就不存在”
很多企业家说“我们有数据”。但一堆Excel、一堆PDF、一堆历史订单,如果没有被组织成AI能理解的形式,对AI智能体来说就是不存在的。这不是比喻,而是字面意思。OpenAI的Codex团队用五个月、零行人工代码让AI生成了100万行代码,他们学到的最深刻教训就是这一点:“从智能体的角度,它在运行时无法访问的任何内容都等于不存在。”存在于Google Docs里的流程、Slack聊天里的决策、老师傅脑子里的经验——智能体全部看不到。
更尖锐的诊断来自一位技术思想家的观察:“当智能体反复犯错时,人们总说‘它不理解我们的业务’。诊断几乎总是错的。智能体失败不是因为缺乏能力。而是因为它需要的知识——什么对你的企业是‘好的’,哪些模式该遵循,哪些该避免——锁在你的脑子里,你没有外化它。智能体不能通过渗透学习。你不写下来,它在第100次运行时犯的错误跟第1次一样。”
但“写下来”的方式很重要。OpenAI团队试过写一个巨大的指令文件把所有规则塞进去,彻底失败。因为上下文是稀缺资源——太多指令会挤掉任务本身的空间;“万事重要”等于“万事不重要”。他们的最终方案是“给智能体一张地图,而不是一本1000页的说明书”——用结构化的知识库作为“单一事实来源”,入口文件只有100行,指向更深层的文档。智能体从一个小而稳定的入口开始,被引导着逐层深入。
对企业的具体动作:
将行业知识、操作规范、客户画像、质量标准编码为版本化、结构化、可索引的文档。不是写一本手册,而是建一个“知识架构”——有入口、有索引、有分层。这是企业AI转型的第一个,也是最被低估的基础设施投资。
第二步:知识库 → 智能体——“像优秀的新员工一样”
有了知识库,下一步是让AI智能体基于它采取行动。这里有一个反直觉的发现:并不是把所有知识一次性塞给智能体效果最好。Claude Code团队发现,早期的Claude用向量数据库自动検索信息,但后来发现给智能体一个搜索工具,让它自己去找信息效果更好。他们把这叫“渐进式披露”——让智能体像优秀的新员工一样,不需要第一天就知道公司的一切,但需要知道“去哪里找答案”。智能体可以递归地从一个文档引导到另一个,逐层深入,找到精确所需的上下文。
同样重要的是工具和能力的匹配。Claude Code团队发现,早期的智能体需要“Todo列表”来保持专注,但随着模型进步,Todo列表反而限制了它——智能体觉得必须严格按列表执行,而不是灵活调整。这就像给初级员工写的工作指南不能用来约束高级员工。智能体的工具必须跟着模型能力迭代。
第三步:智能体 → Harness——“从一个人做事到一个组织在运转”
单个智能体能做事,但企业需要的是一个系统——智能体之间如何分工、如何交接、如何被监督、如何从失败中恢复。为什么这很重要?因为智能体单独工作时有四种典型的失败模式——这不是理论,而是Anthopic团队在大量实验中总结出来的:
① “一步到位”症:智能体试图一次性完成所有工作,半途而废。像新员工第一天就试图做完整个项目。
② “宣布胜利”症:看到部分进展就认为任务完成。像员工做了60%就报告“完成了”。
③ “自评厉害”症:检查自己的工作时总觉得“做得很好”——即使在人类看来质量明显平庸。像员工自己给自己打绩效分。
④ “一片狼藉”症:结束时留下未整理的环境,下一个智能体接手时不知道前人做了什么。像换班工人不做交接。
注意,这四个问题没有一个是因为“模型不够聪明”。它们都是系统设计问题——缺少分工、缺少监督、缺少交接、缺少外部评审。解决方案是什么?三支顶级团队给出了互补的答案:
Anthropic用“规划师+执行者+评审员”三智能体架构,灵感来自生成对抗网络——把“做事”和“判断做得好不好”分开。评审智能体用浏览器像真实用户一样点击测试,找到大量“从代码本身看不出来”的问题。LangChain侧重“自验证循环”——在智能体准备停止工作时自动插入“检查清单”强制重新验证,还加了“死循环检测”——当智能体反复尝试同一方法时自动提醒它换个思路。OpenAI则走得最远,让智能体接入完整的可观测性堆栈——日志、指标、追踪记录——让智能体能“看见”程序的运行状态,实现“确保服务启动在800毫秒内”这样的任务。
这些看似技术的设计,背后是一套通用原则:增量式进展(一次只做一件事)、结构化交接(每次留下清晰记录)、自验证机制(做完必须测试)、外部评审(让别人检查)、环境可观测(让智能体能看到结果)。这些原则跟管理人类团队的逻辑完全一致。
第四步:持续迭代——“Harness不是工程,是产品”
所有团队都强调的一个核心教训是:Harness不是“做完就不管”的工程,而是需要持续迭代的产品。OpenAI团队曾经每周五花20%的时间清理“AI残渣”,后来他们把“金色原则”编码到Harness中,让AI自己清理自己。Claude Code团队发现每次模型升级都需要重新审视工具是否还合适——因为Harness的每个组件都编码了一个假设:“模型不能自己做好这件事”。当模型进步后,这些假设可能过时,反而成为束缚。Anthropic的经验最典型:当新模型发布后,原来必须的Sprint分解机制可以移除了,但规划师和评审员仍然不可或缺——因为“用户究竟想要什么”和“做得究竟好不好”是模型永远无法自己解决的问题。
Harness改变的不仅是技术架构,更是交付方式和定价逻辑。当AI智能体能够可靠地完成完整任务时,客户不关心你用了哪个模型、花了多少token,他们关心的是“这件事做完了没有”。Anthropic的对比实验很说明问题:裸模型用20分钟花9美元做出的游戏制作器,核心功能是坏的;完整Harness花6小时花200美元,产出真正能用的产品。客户愿意为哪个付钱?
对传统企业的机会:如果你拥有独特的行业数据和流程知识,你可以通过“数据→知识→智能体→Harness”这条路径,将其转化为一个可以向行业内其他企业提供的智能体服务。举个例子:一家化工企业20年的安全生产数据,经过知识化、智能体化、Harness化之后,可以变成一个按次收费的“安全审计智能体服务”。这是一种全新的收入模式——从“卖产品”变成“卖能力”,从“按席位收费”变成“按结果收费”。
历史上有一个反复出现的模式:每当一种新技术强大到能在某个层面闭合反馈回路时,人的角色就会根本性转变。1780年,瓦特发明离心调速器,工人从“手动转阀门”变成“设计调速器”。2010年代,Kubernetes出现,工程师从“管服务器”变成“写规范”。今天,AI智能体充当了新的“传感器+执行器”,人的角色再次转变——从“做具体工作”变成“设计智能体工作的环境和规则”。“掌舵者”这个词来自希腊语,也是“控制论”和“Kubernetes”的共同词源。你不再转阀门。你开始掌舵。
OpenAI团队的实践是这个转变的活样本。他们发现:“当事情进展不顺时,解决方案再也不是‘再努力一点’。”工程师总是回到同一个问题:“究竟还需要什么能力,我们又该如何让它对智能体既清晰可读又可强制执行?”这对企业组织有四个深层含义:
① 文档从“好习惯”变成“基础设施”。过去30年每本工程书都推荐文档、测试、架构决策。多数人跳过它们,因为不做的代价是缓慢而分散的。现在AI让这个代价变得无法承受——你不写规范,智能体就会按自己的“直觉”做事,不是在一次任务上,而是在每一次任务上,以机器速度,全天候。
② “品味”必须被编码。OpenAI团队通过自定义检查器将团队的“品味”变成可执行规则:结构化日志、命名规范、文件大小限制……并在错误信息中直接注入修复指令。一旦编码,它就持续应用于每一次智能体运行。你的质量标准、服务规范、合规要求也应该如此。
③ 组织原则:中央强制边界,局部允许自主。OpenAI团队发现,最有效的组织方式是严格约束架构边界(哪些层可以调用哪些层),但具体实现给予充分自由。“生成的代码不总是符合人类的风格偏好,但没关系。只要正确、可维护、对未来的智能体清晰可读,就算达标。”这个原则对企业同样适用。
④ “快速失败、快速纠正”的新含义。OpenAI团队发现,在智能体吞吐量远超人类注意力的系统中,“纠错成本低,等待成本高”。偶发的失败通过后续重跑解决,而不是无限期地阻塞进展。传统的多层审批流程可能需要被重新思考。
“框架”和“Harness”的区别对采购决策至关重要。简单说:框架像乐高积木,你自己组装;Harness像整辆车,拿来就能用。框架适合有技术团队的企业自建,Harness适合快速部署和技术团队较小的企业。但边界正在模糊——LangChain同时提供框架、运行时和Harness三层,Anthopic把Claude Code的底层开放为Claude Agent SDK。对企业而言,关键不是“用哪个工具”,而是“我们的团队在哪个层次建设能力”。
无论哪种选择,有一点是确定的:投资应该集中在与你独有数据和工作流的连接上,而不是在编排逻辑本身上。因为编排逻辑会被新模型淘汰,但你的知识库和业务集成是持久的。
设计瓦特调速器的人没有回去转阀门。不是因为他们不能,而是因为那已经没有意义了。对企业家而言,这个时代的核心问题不是“AI能做什么”,而是:
“我如何把20年的行业经验、独有的客户数据、复杂的业务流程,转化为AI智能体能够理解、执行和持续优化的运营系统?”
这就是“数据→知识→智能体→Harness”的全部含义。每一步都在放大你的独特资产,每一步都在加深你的护城河。而这套系统一旦转动起来,就会形成飞轮——每次运行都积累新的经验,让系统变得更聪明。开始的时机就是现在。
Start Simple. Build to Delete.从简单开始,为删除而建造。