a16z：OpenAI 们不会杀死所有应用层机会，放下你的 AI 焦虑症

OpenAI 会杀死所有 AI 应用？a16z：你走错路了。

作者：Joe Schmidt IV

编译：深潮 TechFlow

深潮导读：AI 创业者最大的焦虑是什么？OpenAI 和 Anthropic 会不会杀死所有应用层机会。a16z 合伙人用"黄砖路"理论给出答案：大模型实验室只会主导横向、单步骤任务，真正的机会在垂直场景、多步骤工作流和合规要求严格的领域。这篇文章对 AI 创业者和投资人都值得一读。

我最近反复被创始人和潜在员工问到一个问题：AI 应用层还有什么可做的，还是 OpenAI 和 Anthropic 会杀死一切？

这个问题背后有一种特殊的 AI 焦虑症。有些人得出结论，唯一能避免沦为永久底层的地方，要么是待在大型实验室内部，要么是去前沿领域做机器人、硬科技之类——理论上任何"实验室碰不到的东西"。如果每一块软件都将被吃掉，要么被 Codex 或 Claude 直接吸收这些工作，要么被未来的模型让你做的东西变得没必要，那就跑吧！

听着，我和几乎所有人一样是 AI 最大主义者，我认为他们说对了一半。实验室确实在吞噬巨大的应用表面。但"应用层"不是一个同质化的机会。正确的框架是你是在黄砖路上，还是在奥兹国的其他地方。

黄砖路是我们对实验室正在走的路径的简称，他们在那里投入了巨大的资源。实验室最适合解决代码生成、写作或图像创作这类问题，是因为这些问题随着原始模型能力的提升而改善：每一美元花在预训练和后训练上都能提高产品质量。与此同时，奥兹国的其他地方居住着更复杂、通常是垂直化的问题，这些问题不像给商业用户一个横向工具加上标准工具和计算机使用那么简单。价值更多来自围绕模型的脚手架，这些脚手架使输出在特定行业内值得信赖、合规且可操作，而不仅仅是底层模型的原始能力（尽管那仍然重要！) .

我们正实时看到这一点，因为 OpenAI 和 Anthropic 实际上在告诉市场，他们无法用通用 AI 同事解决所有问题。他们宣布了大规模的前置部署合资企业，围绕为企业配置和定制他们的模型来建立完整的公司。如果你认为下一次模型发布就能解决问题，你不会往这些项目里砸数十亿美元。

所以如果你想通过构建 AI 应用致富——避开黄砖路，在奥兹国的其他地方构建。以下是我们学到的，以及我们一些投资组合创始人学到的，关于什么有效。

黄砖路

如果你要创办一家公司，黄砖路是最明显的路径，但也是最危险的。拿一个高性能模型，插入一些现成的连接器（如 G Drive、Slack、Salesforce、Notion、GitHub），然后在上面发布某种智能体编排层。太神奇了！

问题在于这正是实验室用 Cowork 和 Codex 在做的事。显然，他们拥有模型，这给了他们更好的利润率、控制权，以及对任何下游者施加定价权的能力。但也许最重要的是，他们还拥有定义其产品擅长解决什么的架构选择。到目前为止，他们在模型加工具调用模式上很谨慎，而这正是路上的横向低步数工作所需要的。即使创业公司能以某种方式超越 Codex 或 Claude Code，实验室也有巨大的分发渠道和 AI 领域最大的品牌光环。

如果你是一家 AI 应用公司，使用相同的连接器运行这套玩法，下面没有子智能体或配置，也没有分发渠道，你很可能走在通往无处的路上。

奥兹国的其他地方

对创业公司来说并非全是厄运和阴霾。在黄砖路之外有巨大的机会，创业公司在那里有清晰的路径来拥有他们的客户并解决复杂问题。

这些企业正在构建智能体体验，其中模型被编织进工具、自动化和集成（换句话说：软件）的复杂网络中，导致这些创业公司默认就是垂直化的。它们可以专注于多步骤和多参与者的工作，使用针对角色和垂直领域特定任务的子智能体，这是 Anthropic 和 OpenAI 用横向平台无法触及的：跨系统收集上下文，然后路由给必须在不同阶段批准的多个人。这通常涉及一个或多个遗留系统，倾向于需要确定性结果，不接受模糊性，有时与某些有价值的商业成果相关联。实验室明白这些问题有多有价值：这就是为什么他们在构建自己的外包配置商店，也是为什么存在整个高端强化学习业务类别。

为什么奥兹国的其他地方不会被巫师拥有

对上述观点的回应是，迄今为止，押注模型/实验室不会改进一直是个相当糟糕的交易。它们很可能会继续变得更好，并最终蚕食这些应用层业务服务的市场。

实验室肯定会改进，但我认为奥兹国的其他地方有几种方式可以随着时间推移保护自己：

数据和学习飞轮：

你内化的很多东西不在任何训练集里——不成文的行业规范、未记录的标准、存在于从业者脑海中的部落知识。这些都不在公开网络上。再多的训练计算也无法替代身处这些知识实际存在的工作流中。这里有两个叠加的飞轮：一个是跨客户的——当你看到同一问题的更多变体时累积的模式——另一个是客户内部的——特定决策背后的原因、未说出的例外、公司自己的经验法则，这些只能通过与系统的真实交互才能浮现。

即使客户数据不能跨客户使用，应用公司也能够利用跨客户问题类型的模式识别，并用它来为未来问题提供正确的架构。一家公司如果已经让其智能体运行过一百次法律修订、一千次保险核保循环或一万次 SDR 活动，它就以一种下一个进入者无法复制的方式内化了问题的形状，即使是第一次启动一个全新智能体。

横向智能体原则上可以构建同样的学习基础设施。它不这样做的原因，除了纯粹的专注外，还有用户体验：捕获这种知识完全取决于你给用户的工作流界面，而垂直玩家可以围绕其工作流需要浮现的内容来塑造这些界面。横向工具做不到。评估集、标记输出和边缘案例分类法可以累积成垂直特定的数据飞轮，为微调提供燃料，而下一个进入者在没有可比生产曝光的情况下无法生成。这是否可能取决于数据权利、累积的生产曝光量以及客户合同的结构，但无论如何模式识别都会累积。

管理模型可变性和复杂性：实验室已经在内部路由——针对不同请求使用不同模型类别，底层使用集成。它们无法做到的是跨供应商路由，或为特定子任务评估竞争对手的模型，或为实际最佳的狭窄部分使用开源微调模型。奥兹国其他地方的公司为整个模型市场的每个子任务挑选正确的模型，而不仅仅是其母实验室发布的东西。它还做没人想做的工作——在升级时重新运行评估，为客户的边缘案例重新校准提示，在不破坏生产的情况下推出——每次新模型发布时。实验室不会代表客户做这些；他们把下一个模型卖给你并告诉你迁移。奥兹国其他地方的公司吸收了迁移工作。客户得到的是整个市场上最好的智能，加上每次升级的连续性。

成本优化：通过 Opus 4.7 运行每个查询是通往负毛利率的最快路径。最好的奥兹国其他地方公司跨模型层级路由——前沿模型处理最难的任务，中端模型处理大部分工作，在他们赢得使用权的地方使用更小的定制或微调模型。有些现在在此基础上对自己的模型进行后训练，针对客户关心的狭窄工作片段进行优化，以前沿 API 调用成本的一小部分提供服务。实验室为底线定价：以 X 美元提供的最少智能。奥兹国其他地方的公司出售相反的东西——工作流实际需要的特定智能水平的最低美元成本。这只有在你确切知道每个子任务需要什么水平时才可能，而实验室在结构上无法跨每个垂直领域知道这一点。这直接转化为更低、可控的结果价格。

治理：成为客户在该垂直领域运行 AI 的控制平面具有相当大的价值——这是权限、审计、智能体被允许做什么以及智能体实际做了什么全部汇聚的地方。该控制平面由特定用例的护栏构建而成，这些护栏在不同行业和工作类型中看起来完全不同。因为他们端到端拥有工具、工作流和智能体接触的数据，他们可以以横向工具难以做到的方式提供确定性结果。他们也是为最终买家吸收监管复杂性的实体——法律领域的 FRCP 和律师协会规则、医疗保健领域的 HIPAA、金融领域的 SEC 和 FINRA、州保险法规等等。横向玩家无法可信地做到这一点，除非同时成为一百个不同的垂直领域。CIO 希望有一个合作伙伴在合同中声明他们正在处理其提供的智能体的合规性。

所有这些都回到同一件事：专注。这可以是一个垂直领域（保险、法律、会计）或深度完成的功能（销售、客户支持、财务）。无论哪种方式，这项工作都需要一个专心致志于一个客户群的团队——其工作流、边缘案例、法规。实验室不是为此而建的。他们必须无处不在，为每个人服务，这就是他们首先建造黄砖路的方式。同样的权衡让他们无法进入奥兹国的其他地方——你可以同时无处不在，也可以在一件事上做到卓越。不能两者兼得。

销售作为例子——来自 11x 技术 CEO 的实用建议

你应该如何在实践中思考这个问题？以下是来自 11x CEO Prabhav Jain 的一些实用建议。

专注于结果

构建一家对实验室有韧性的公司的战术路径，就是从你的客户真正关心的特定结果开始。对我们来说，那就是帮助公司产生更多销售线索。从那里问题变得战术化。我们想要端到端拥有哪些实际推动销售线索的活动？将每个活动分解为任务。哪些任务是智能体化的，哪些不是。哪些需要复杂的领域洞察，哪些不需要。实验室也会发布工作流，但当工作流有很多步骤、混乱的输入、难以解释的状态或现实世界约束时，仅靠更好的模型无法让你达到目标。工作落到了老式的软件工程上，而实验室在这个表面上对专注的应用公司没有任何优势。例如，以下是我们处理的一些任务，有些是智能体化的，有些不是：基于自定义信号的潜在客户挖掘、潜在客户丰富、深度账户研究、从 CRM 获取上下文、特定渠道的消息撰写者、潜在客户资格认证智能体和电子邮件送达系统。这些不是你可以一次性完成的任务，需要深度工程。

奥兹国类比中的关键洞察是，任何真实工作流中大约一半的非智能体化部分不具有实验室优势。他们在编写模型层下面的确定性软件方面并不比你强。而智能体化的那一半仍然需要你针对实际想要的结果来调优、训练和约束模型。领域知识通常不存在于通用训练数据中。这些技能是为垂直领域或功能从头构建的，并在工作流的正确时刻输入模型。当我们的智能体在电话中资格认证入站线索时，我必须针对该特定行业和该角色的良好销售对话进行训练。这是应用公司的工作，而且会复利增长。

更重要的是，这些技能会不断过时，因为业务在持续演进。因此你让这些工作流和上下文保持进化的能力，才是真正的竞争优势。举个例子，当我们推出规模化邮件外展产品时，"AI"撰写的邮件刚开始出现。快进到今天，人们已经对 AI 写的邮件和人类写的邮件有了敏锐的判断力，而且这种判断力每隔几个月就会变化。我们的智能体必须不断适应市场动态，但这正是护城河建立的地方。事实上，尽管市场不断变化，我们的积极回复率在过去几个月里增长了 4 倍，并为客户创造了数亿美元的销售机会。

专注于复杂度高的问题

复杂问题才是真正释放商业价值的地方。否则你会发现自己只是在构建一个薄薄的包装层。

分解任何足够复杂的商业问题，混乱很快就会显现。这里有个来自 GTM 领域的例子，听起来很简单：如果某家公司已经是客户，你就不应该再联系该公司的联系人。但实际远非如此。也许你的 CRM 里有该公司的域名。那么拥有数十家子公司的公司呢？如果 CRM 记录里是母公司的域名呢？如果 Salesforce 里一个过期的匹配字段，把冷邮件发给了现有客户的 CRO 呢？真实世界的数据是混乱的。人类在处理时也很吃力。模型并不能神奇地跨过这道坎。要从混乱中梳理出秩序，需要专门为特定问题形态设计的智能体，而不是一个指向 CRM 的通用副驾驶。事实上，根据我们掌握的数据，我们意识到自己的数据质量和新鲜度远高于客户，所以我们默认以自己的数据为准。

护栏不只是为了防止坏事发生。这才是客户付钱给你的原因。

护栏被严重低估了。即使在同一个产品内，每个用例都需要自己的护栏。对我们来说，一个受监管的金融服务潜在客户，需要的保障与中端市场 SaaS 客户完全不同。这些保障会渗透到智能体如何撰写内容、可以联系谁、可以接触哪些数据、在电话中可以说什么，以及每个决策如何被记录。

一刀切的系统在这种差异面前会崩溃。护栏必须按用例构建，按客户配置，并持续审计。这项工作完全落在应用公司身上。这就是为什么我们有全职部署工程师（FDE）和技术部署策略师，需要为每个客户的需求进行调优。举个例子，我们与一家财富 1000 强机构合作，通过语音向他们庞大的中小企业客户群进行征得同意的外呼。最初几轮迭代的接听率很低——我们必须快速迭代，学习如何让这类特定受众在通话的前 10 秒内参与进来。中小企业主的行为与大型 B2B 买家或消费者截然不同。我们现在一天为他们创造的销售机会，比他们该细分市场的整个销售团队一个月的还多。

以保险为例——来自 FurtherAI CEO 的实战建议

销售是一个例子。保险是另一个，它从不同角度说明了同样的道理。以下是 FurtherAI CEO Aman Gour 关于如何在"路外"构建的思考：

当我们开始在真实的保险业务中部署 AI 时，我们不断听到一个特定的假设：模型就是智能，而工作流只是围绕它的脚手架。

与越来越多的保险公司合作后，我们越来越确信这个观点是错误的。

在保险行业，很多智能其实存在于工作流本身。两家保险公司可能会让一份投保书走过看似相同的路径：提交、审核、报价、承保。但路径是简单的部分。区分两家公司的是路径内部的一切：哪些风险需要上报，哪些损失信号重要，当两条风险偏好规则冲突时哪条优先，何时需要人工签字，调用哪些外部数据，以及最终决策如何被记录。

这些逻辑不存在于一个干净的规则引擎中。它分散在标准操作程序、经理审核、承保理念、公司特定的风险偏好，以及多年的运营经验中。其中很多内容没有以模型可以直接读取的形式记录下来。

这就是为什么我们不相信每次都从头推理的纯智能体，也不相信一遇到混乱现实就崩溃的僵化工作流。我们一直在构建的是智能体化工作流。工作流给你可重复性、可审计性和成本控制。智能体处理变化性，并在理想路径中断时进行恢复。人类在需要问责的判断环节保持参与。

第一天，这会自动化手工工作。但随着时间推移，每次上报都成为信号，每个例外都是反馈，每次人工修正都显示出操作手册的不完整之处。随着时间推移，工作流不再是脚本，而开始成为保险公司的运营记忆。这是实验室难以触及的部分。他们会继续发布更好的模型和更好的通用智能体，这没问题。但他们不会在保险公司的生产工作流中停留足够长的时间，去了解为什么某个账户被上报，为什么某个风险被拒绝，或者为什么承保人推翻了风险偏好指南并且是对的。

这种理解只能来自在生产环境中运行工作流数千次。你第一天交付的工作流不是护城河。生产使用随时间创建的循环才是。

对我们来说，这就是在"路外"构建的意义。

如何判断你是否在"奥兹国的其他地方"？

工具和步骤测试：这项工作需要多少步骤，你需要构建多复杂的工具来支持它？对比一下在 Google Drive 上进行的横向 AI 搜索——一个步骤对应一个工具，结果容错性高，用户读完摘要如果不对可以重新问——和一份针对三年律所先例的多步骤法律修订：数十个步骤跨越多个工具，输出必须通过合伙人审核，可能还需要在法庭上辩护。两者看起来都像"智能体在做工作"，但只有后者需要一个专注团队花费数年构建的深度软件。

系统测试：你在构建一个客户用来运行工作的系统，还是一个位于客户现有系统之上的工具？系统端到端地拥有工作流——数据捕获、治理、完成记录——它们是客户在描述实际工作如何发生时指向的东西。而工具只是为客户已经运行的工作流增加智能。工具场景会产生真实收入，但实验室可以抢走它，因为客户并不依赖你作为编排层。高 ACV 通常是系统的信号，因为系统取代了真实的人力，并据此获得报酬，但这不是保证。问问自己，如果实验室发布了据称直接与你竞争的东西，客户是否还需要你的工具。如果是，你在构建系统。如果否，你就是工具——即使你的 ACV 很高。

对冲基金/损益表测试：实验室的表现是根据基准测试来评判的，而"奥兹国其他地方"的表现是根据客户的损益表来评判的。你的客户不在乎你的模型在 SWE-Bench 或 MMLU 上得分如何——他们在乎你的智能体是否成交了，是否正确修订了合同，或者是否承保了正确的保单。如果他们专注于特定工作流的结果，而不是通用能力分数，你就在"奥兹国的其他地方"。如果他们为通用能力付费，你卖给他们的东西他们用 Claude 或 Codex 订阅就能得到。最好的智能体业务需要像对冲基金一样执行——用客户损益表中的 alpha 取胜，而不是基准分数。

两者都能（也都会）赢

我们将在"黄砖路"上和路外都看到巨大的赢家。模型会继续获胜，因为它们拥有模型，也拥有它们设计的横向工具的分发渠道。

"奥兹国的其他地方"可以获胜，如果它们拥有工作系统——公司工作实际执行的界面，以及从中流动并被捕获的数据。这些公司拥有数据捕获、工作流行动系统和治理。随着垂直领域中更复杂的工作流成熟，它们会复合成客户所依赖的一个核心体验。当新一代模型从现有玩家和新入局者那里发布时，公司成为将它们集成并交付给客户的层。底层的模型是可替换的；工作系统则不是。

下一代企业软件将在路外构建。

如果你正在构建它，请联系：jschmidt@a16z.com。

免责声明：本文章仅代表作者个人观点，不代表本平台的立场和观点。本文章仅供信息分享，不构成对任何人的任何投资建议。用户与作者之间的任何争议，与本平台无关。如网页中刊载的文章或图片涉及侵权，请提供相关的权利证明和身份证明发送邮件到support@aicoin.com，本平台相关工作人员将会进行核查。