原文标题：Avoiding Death on the Yellow Brick Road

原文作者：Joe Schmidt IV，a16z

原文作者编译：Peggy

编者按：随着大模型能力持续提升，AI 应用层正在面临一种普遍焦虑：如果 OpenAI、Anthropic 等模型公司既掌握底层模型，又拥有分发渠道和品牌优势，创业公司还能在应用层做什么？

这正是 a16z 合伙人 Joe Schmidt 在这篇文章中试图回答的问题。他借用《绿野仙踪》中的「黄砖路」作比喻，将 AI 应用机会分成两类：一类是大模型公司正在亲自进入的主路，比如代码生成、写作、图像生成、通用型 Agent 和横向办公助手；另一类则是「奥兹国的其他地方」，也就是那些深入行业流程、依赖复杂工作流、数据沉淀、合规治理和系统集成能力的垂直场景。

在他看来，创业公司真正的机会在后者。

从销售到保险，Joe Schmidt 反复强调同一个逻辑：企业真正愿意付费的，不是一个更聪明的聊天窗口，而是一个能对业务结果负责的系统。它需要理解客户数据的混乱状态，处理多人审批和边界案例，承担合规与审计责任，也要在模型不断升级时，替客户完成迁移、路由和成本优化。

这也是本文对下一代企业软件的核心判断：底层模型会越来越强，也会变得越来越可替换；但真正不可替代的，是围绕具体行业和具体工作流沉淀下来的数据、流程、治理能力与运营记忆。AI 应用公司的机会，不在于与模型公司争夺「黄砖路」，而在于走进那些更复杂、更脏、更慢，但也更接近真实商业价值的地方。

以下为原文：

最近，我不断从创始人和潜在员工那里听到同一个问题：AI 应用层还有什么可做的吗？还是说，OpenAI 和 Anthropic 最终会杀死一切？

这个问题背后有一种很典型的 AI 式焦虑。有人已经得出结论：如果不想沦为永久性的底层，唯一有长期价值的位置，要么是在大模型实验室内部，要么是在机器人、硬科技或类似前沿领域创业——理论上，也就是去做那些「实验室碰不到」的东西。因为如果每一类软件都将被吞噬，要么被 Codex 或 Claude 直接吸收掉对应工作，要么被未来某个模型变得不再必要，那最好的选择似乎就是：快跑！

我承认，自己几乎也是一个 AI 极大主义者，而且我认为他们说对了一半。大模型实验室确实正在进入应用层的大片区域。但「应用层」并不是一个同质化的机会集合。真正重要的判断标准是：你是在走「黄砖路」，还是在奥兹国的其他地方。

注：「黄砖路」是《绿野仙踪》里通往奥兹国翡翠城核心地带、去见「魔法师」的主路。

所谓「黄砖路」，是我们用来形容大模型实验室正在走、并投入巨大资源的那条路径。代码生成、写作、图像创作这类问题之所以天然适合实验室来做，是因为它们会随着模型原始能力的提升而变得更好：每一美元投入到预训练和后训练中，都会直接改善产品质量。

但奥兹国的其他地方，存在着更复杂、通常也更垂直的问题。它们并不是简单地给一个企业用户提供一个横向工具，让它接入标准工具和电脑操作能力就能解决。这里的价值，更多来自模型周围的脚手架：这些脚手架让输出在特定行业中变得可信、合规，并能真正进入业务流程。底层模型的原始能力当然仍然重要，但已经不是全部。

我们正在实时看到这一点。OpenAI 和 Anthropic 实际上正在向市场承认：它们无法用一个通用的 AI 同事解决所有问题。它们已经宣布投入大规模的前线部署式合资项目，围绕为企业配置和定制模型来搭建完整公司。如果它们真的认为下一次模型发布就能解决这些问题，就不会向这类项目投入数十亿美元。

所以，如果你想靠做 AI 应用赚钱，就不要走黄砖路，而要去奥兹国的其他地方建设。以下是我们以及我们投资组合中的一些创始人，在实践中学到的经验。

黄砖路

如果你要创办一家公司，黄砖路是最显眼的一条路，但也是最危险的一条路。拿一个高性能模型，接上一些现成的连接器，比如 Google Drive、Slack、Salesforce、Notion、GitHub，然后在上面搭一个智能体编排层。看起来像魔法一样。

问题在于，这正是大模型实验室正在通过 Cowork 和 Codex 做的事。很显然，它们拥有模型，这意味着它们有更好的利润率、更强的控制力，也能对所有下游参与者施加定价权。但或许更重要的是，它们还掌握着决定产品适合解决什么问题的架构选择。到目前为止，它们一直非常有意地采用「模型 + 工具调用」的模式，而这恰恰是黄砖路上那些横向、低步骤数量工作所需要的模式。即便一家创业公司能以某种方式超越 Codex 或 Claude Code，大模型实验室仍然拥有庞大的分发能力，以及 AI 领域最强的品牌光环。

如果你是一家 AI 应用公司，采用的是同一套打法：接入相同的连接器，没有下层子智能体或配置，也没有分发渠道，那么你很可能是在走一条通向虚无的路。

奥兹国的其他地方

对创业公司来说，情况并不全是悲观的。在黄砖路之外，仍然存在巨大的机会。创业公司可以在这些地方拥有客户，并解决复杂问题。

这些公司正在构建智能体体验：模型被编织进复杂的工具、自动化和集成网络中——换句话说，就是软件。这也使得大多数这类创业公司天然是垂直化的。它们可以专注于多步骤、多参与方的工作流，针对不同角色和垂直场景设计子智能体，处理 Anthropic 和 OpenAI 的横向平台难以触达的问题：跨系统收集上下文，再把任务路由给多个需要在不同阶段审批的人。

这类工作通常会涉及一个或多个遗留系统，往往需要确定性结果，因为模糊性不可接受，而且有时还会直接绑定某个重要的商业结果。大模型实验室当然知道这些问题有多有价值：这就是为什么它们正在搭建自己的外包式配置团队，也是为什么整个面向大客户的强化学习服务公司群体正在出现。

为什么奥兹国的其他地方不会被「巫师」完全占据

对上面观点的一个反驳是：到目前为止，赌模型或实验室不会继续进步，一直是一笔很糟糕的交易。它们很可能会持续变强，并最终吃掉这些应用层公司所服务的市场。

大模型实验室当然会继续进步。但我认为，奥兹国其他地方的公司，长期来看仍然有几种防守方式。

数据与学习飞轮

很多你在业务中真正内化的东西，并不存在于任何训练集中：不成文的行业惯例、没有文档记录的标准、存在于从业者脑子里的部落知识。它们都不在公开互联网上。无论投入多少训练算力，都无法替代真正进入这些知识所在的工作流内部。

这里叠加了两个飞轮：一个是跨客户飞轮，也就是当你见过同一类问题的更多变体后，模式会不断复利；另一个是客户内部飞轮，也就是具体决策背后的原因、那些没有明说的例外、公司自身的经验法则，只有在用户与系统真实互动时才会浮现。

即便客户数据不能跨客户使用，应用公司仍然可以利用对不同客户问题类型的模式识别，并用它来指导未来问题的架构设计。一家公司如果已经让自己的智能体处理过一百次法律红线修改、一千轮保险核保周期，或一万次 SDR 销售开发活动，它对问题形态的理解，已经不是一个后来者第一次启动新智能体就能复制的。

理论上，一个横向智能体也可以建立同样的学习基础设施。但它没有这么做的原因，除了专注度不足以外，更重要的是用户体验。捕捉这种知识，完全取决于你给用户提供了什么样的工作流界面。垂直玩家可以围绕特定工作流真正需要暴露的信息来设计这些界面，横向工具做不到。评估集、标注输出、边界案例分类体系，都可以复合成一个垂直领域的数据飞轮，并进一步支持微调。后来者如果没有同等规模的生产环境暴露，就很难生成这种飞轮。它是否可行，取决于数据权利、积累的生产使用量以及客户合同结构，但模式识别本身仍然会不断积累。

管理模型波动性与复杂性

大模型实验室内部已经在做路由：针对不同请求调用不同类别的模型，在底层使用模型集成。但它们做不到的是跨供应商路由，也很难为了某个具体子任务评估竞争对手的模型，或在某个狭窄环节使用真正最合适的开源微调模型。

奥兹国其他地方的公司，会在整个模型市场中为每个子任务选择最合适的模型，而不仅仅使用某个母实验室发布的模型。它们也会承担那些没人愿意做的工作：每次新模型发布时重新跑评估、针对客户的边界案例重新校准提示词、在不破坏生产环境的情况下完成上线。大模型实验室不会替客户做这些事。它们把新模型卖给你，然后告诉你去迁移。奥兹国其他地方的公司则吸收了迁移成本。客户得到的是整个市场上最好的智能能力，以及每次升级过程中的连续性。

成本优化

把每个查询都丢给 Opus 4.7，是让毛利率转负的最快路径。最好的奥兹国公司会在不同层级的模型之间做路由：最难的任务交给前沿模型，大部分任务交给中等模型，在已经证明可行的地方使用更小的定制模型或微调模型。

其中一些公司现在已经在此基础上做自己的后训练，把模型优化到客户真正关心的那一小段工作上，并以远低于前沿 API 调用的成本提供服务。大模型实验室为「地板价」定价：花 X 美元能买到的最低智能水平。奥兹国公司卖的则是反过来的东西：在特定工作流真正需要的智能水平下，实现最低美元成本。只有当你非常清楚每个子任务到底需要什么级别的智能时，这才可能做到。而大模型实验室在结构上不可能了解每一个垂直行业里的每个任务。最终，这会直接转化为更低、更可控的结果定价。

治理

成为客户在某个垂直领域运行 AI 的控制平面，会产生相当大的价值。这个控制平面，是权限、审计、智能体被允许做什么、智能体实际做了什么汇聚在一起的地方。

这一控制平面建立在具体用例的护栏之上，而不同行业、不同岗位类型中的护栏完全不同。因为这些公司端到端拥有智能体接触的工具、工作流和数据，它们能够以横向工具难以实现的方式提供确定性结果。它们也会替最终买方吸收监管复杂性：法律领域的美国联邦民事诉讼规则和律师执业规则，医疗领域的 HIPAA，金融领域的 SEC 和 FINRA 规则，州级保险监管，等等。横向玩家如果不把自己变成一百个不同的垂直行业，就无法令人信服地做到这一点。CIO 需要的是一个能够在合同中明确承诺：它会为所提供的智能体承担合规处理责任的合作伙伴。

所有这些最终都回到同一件事：专注。

这种专注可以是一个垂直行业，比如保险、法律、会计；也可以是一个被做得足够深的职能，比如销售、客服、财务。无论哪一种，这项工作都需要一个团队长期扎在同一类客户群体中，理解它的工作流、边界案例和监管要求。大模型实验室并不是为此而建的。它们必须服务所有人、覆盖所有地方，这也是它们最初修建黄砖路的原因。同样的取舍，也会让它们难以进入奥兹国的其他地方：你可以同时无处不在，也可以在一件事上做到极致，但不能两者兼得。

以销售为例：来自 11x 技术型 CEO 的实操建议

在实践中，应该如何理解这件事？以下是 11x CEO Prabhav Jain 给出的一些实操建议。

聚焦结果

建立一家能够抵御大模型实验室冲击的公司，一个可行的战术路径，是从客户真正关心的具体结果出发。对我们来说，这个结果就是帮助企业产生更多销售线索和销售管道。

从这里开始，问题就会变得非常具体：哪些活动是我们想要端到端拥有、并且确实能推动销售管道增长的？把每项活动拆解成任务。哪些任务适合智能体，哪些不适合？哪些需要复杂的领域洞察，哪些不需要？大模型实验室也会推出工作流，但当一个工作流步骤很多、输入混乱、状态难以解释，或者存在现实世界约束时，仅仅有一个更好的模型并不能把事情做成。这时，工作又回到了传统的软件工程，而在这个层面上，大模型实验室相较一家专注的应用公司并没有优势。

举例来说，我们处理的一些任务包括：基于自定义信号进行潜在客户挖掘、潜在客户信息补全、深度账户研究、从 CRM 抓取上下文、针对不同渠道撰写信息、潜在客户资格判断智能体，以及邮件送达系统。其中有些是智能体任务，有些不是。这些任务不是一次提示就能完成的，而是需要深度工程能力。

奥兹国这个类比中的关键洞察是：任何真实工作流中，粗略来看有一半是非智能体任务，而这一半并不带来实验室优势。在模型层之下，它们编写确定性软件的能力并不比你强。而另一半智能体任务，也仍然要求你围绕真正想要的结果，对模型进行调优、训练和约束。

领域知识往往不在通用训练数据中。这些能力必须从垂直行业或具体职能中自下而上构建，并在工作流中合适的时刻喂给模型。当我们的智能体通过电话判断一个入站线索是否合格时，它必须被训练成理解：对特定行业、特定用户画像来说，什么才是一场好的销售对话。这是应用公司要做的工作，而且这种能力会复利。

更重要的是，这些能力会不断过时，因为企业本身也在演化。因此，你持续演化工作流和上下文的能力，本身就会成为竞争优势。比如，当我们刚开始做规模化邮件外联产品时，「AI 写的邮件」才刚刚开始出现。快进到今天，人们已经形成了一种敏锐感觉，能够分辨哪些邮件是 AI 写的、哪些更像人写的，而且关键在于，这种判断每隔几个月就会变化。我们的智能体必须随着市场动态不断调整，但护城河也正是在这里建立起来的。事实上，尽管存在这种动态变化，我们的积极回复率在过去几个月里提高了 4 倍，并为客户创造了数亿美元的销售管道。

做高复杂度问题

复杂问题才是真正释放商业价值的地方。否则，你很容易发现自己只是在做一个薄薄的包装层。

拆解任何足够复杂的商业问题，很快就会看到混乱出现。这里有一个来自 GTM 领域、听起来很简单的例子：如果某家公司已经是你的客户，你就不应该再去联系这家公司里的某个联系人。但这件事一点也不简单。

也许你的 CRM 中有这家公司对应的域名。那么，那些拥有几十家子公司的公司怎么办？如果 CRM 记录的是母公司的域名怎么办？如果 Salesforce 中一个过时的匹配字段，导致你向现有客户的首席营收官发出冷启动销售邮件怎么办？真实世界的数据就是混乱的。人类处理起来都会吃力，模型也不会神奇地越过这道门槛。要从这种混乱中建立秩序，需要围绕问题的具体形态设计专门的智能体，而不是把一个通用副驾驶指向 CRM 就结束了。事实上，基于我们掌握的数据，我们发现自己的数据质量和新鲜度已经高于客户自身，因此默认情况下，我们会以自己的数据为锚。

护栏不只是为了防止坏事发生。客户付钱买的正是这件事

护栏被严重低估了。即便在同一个产品内部，每个用例也都需要自己的护栏。对我们来说，一个受监管的金融服务潜在客户，与一个中型 SaaS 客户所要求的保证完全不同。而这些保证会层层传导到智能体如何书写、可以联系谁、可以接触哪些数据、可以在电话中说什么，以及每个决策如何被记录。

一套「一刀切」的系统会在这种差异面前崩溃。护栏必须按用例构建、按客户配置，并且持续审计，而这些工作完全落在应用公司身上。这也是为什么我们需要前线部署工程师和技术部署策略师，针对每个客户的要求进行调优。

举例来说，我们曾与一家财富 1000 强机构合作，通过语音对其庞大的 SMB 客户群进行经同意的外呼。最初几轮尝试中，接听率很低。我们必须快速迭代，学习如何在通话前 10 秒内让这类特定受众产生互动。SMB 企业主的行为方式，与大型 B2B 买家或消费者完全不同。现在，我们一天为他们创造的销售机会，已经超过其整个销售团队在该细分市场一个月所能创造的数量。

以保险为例：来自 FurtherAI CEO 的实操建议

销售只是一个例子。保险是另一个例子，它从不同角度说明了同一件事。以下是 FurtherAI CEO Aman Gour 对「离开黄砖路建设」的理解。

当我们开始把 AI 部署进真实的保险运营中时，反复听到一个假设：模型才是智能，工作流只是围绕模型搭建的脚手架。

但我们合作的保险公司越多，就越确信这件事正好相反。

在保险行业，很多智能本身就存在于工作流之中。两家保险公司可以让一份提交材料走过看起来相同的路径：提交、审核、报价、承保。路径本身是容易的。真正区分两家保险公司的，是路径内部的所有东西：哪些风险需要升级，哪些损失信号重要，当两条承保偏好规则冲突时哪一条优先，什么时候必须由人类签字确认，需要调取哪些外部数据，以及最终决策如何被记录。

这些逻辑并不存在于一个干净的规则引擎中。它们分散在标准操作流程、经理审核、核保哲学、保险公司特定的风险偏好，以及多年运营经验中。其中很多并没有以模型可以直接读取的形式写下来。

这就是为什么我们不相信那种每次都从零开始推理的纯智能体，也不相信那种一遇到现实复杂性就会崩溃的刚性工作流。相反，我们一直在构建智能体工作流。工作流带来可重复性、可审计性和成本控制；智能体处理变动性，并在理想路径中断时恢复流程；人类则在那些涉及判断和问责的地方保持在环。

第一天，这套系统自动化的是人工工作。但随着时间推移，每一次升级都会成为一个信号，每一个例外都是一次反馈，每一次人类修正都在告诉你原来的操作手册哪里不完整。久而久之，工作流不再只是一段脚本，而会变成保险公司的运营记忆。

这正是大模型实验室难以触达的部分。它们会继续发布更好的模型和更好的通用智能体，而且它们也应该这么做。但它们不会长期待在一家保险公司的生产工作流里，去学习为什么某个账户被升级，为什么某个风险被拒绝，或者为什么某个核保人推翻了风险偏好指南，而且事实证明他是对的。

这种理解，只能来自在生产环境中把同一套工作流运行成千上万次。你第一天交付的工作流并不是护城河。生产使用随着时间形成的循环，才是护城河。

对我们来说，这就是「离开黄砖路建设」的含义。

如何判断自己是在奥兹国其他地方，还是仍然走在黄砖路上？

工具与步骤测试

这项工作需要多少步骤？为了支持它，你需要构建的工具有多复杂？

拿一个横向 AI 在 Google Drive 中搜索作比较：它是针对一个工具的一步操作，结果容错率也很高。用户读完摘要，如果错了，再问一次就行。

再看一个基于律所过去三年先例进行多步骤法律红线修改的任务：它可能涉及几十个步骤、多个工具，输出必须通过合伙人审查，甚至可能需要在法庭上被论证。两者看起来都像是「一个智能体在做事」，但只有后者需要那种由专注团队花多年时间构建的深度软件。

系统测试

你是在构建一个客户用来运行工作的系统，还是在客户已有系统之上增加一个工具？

系统拥有端到端工作流：数据捕捉、治理、工作完成记录。客户在描述实际工作如何发生时，会指向这个系统。工具则只是给客户已经在运行的工作流增加一层智能。

工具型产品也可以产生真实收入，但大模型实验室更容易把它拿走，因为客户并不依赖你作为编排层。高 ACV 通常是系统型产品的信号，因为系统替代的是真实人力，也因此能获得相应付费。但这并不是绝对保证。你需要问自己：如果某个大模型实验室推出了一个看似与你直接竞争的产品，客户是否仍然需要你的工具？如果答案是需要，你在构建的是系统。如果答案是不需要，你就是一个工具——即使你的 ACV 很高。

对冲基金 / 损益表测试

大模型实验室的表现，是用基准测试来评判的；奥兹国其他地方公司的表现，则是用客户的损益表来评判的。

客户并不关心你的模型在 SWE-Bench 或 MMLU 上得了多少分。他们关心的是：你的智能体是否成交了订单，是否正确修改了合同红线，是否承保了正确的保单。如果客户关注的是特定工作流结果，而不是通用能力分数，你就在奥兹国的其他地方。如果客户付钱买的是通用能力，那你卖的就是他们可以通过 Claude 或 Codex 席位获得的东西。

最好的智能体公司需要像对冲基金一样执行：它们赢在 alpha，而 alpha 是在客户损益表中衡量的，不是在基准测试分数中衡量的。

两者都能赢，而且都会赢

我们将会在黄砖路上和黄砖路之外同时看到巨大的赢家。模型会继续获胜，因为它们拥有模型，也拥有为横向工具设计好的分发能力。

奥兹国的其他地方也能赢，前提是它们拥有工作的系统：也就是企业实际执行工作的界面，以及从中流动并被捕捉的数据。这些公司拥有数据捕捉、工作流行动系统和治理。随着某个垂直领域中的复杂工作流逐渐成熟，它们会复合成一种客户离不开的核心体验。随着既有玩家和新进入者不断发布新一代模型，这家公司会成为把这些模型整合并交付给客户的那一层。底层模型是可替换的，但工作的系统不是。

下一代企业软件，将会在黄砖路之外被建立起来。

原文链接

免责声明：本文章仅代表作者个人观点，不代表本平台的立场和观点。本文章仅供信息分享，不构成对任何人的任何投资建议。用户与作者之间的任何争议，与本平台无关。如网页中刊载的文章或图片涉及侵权，请提供相关的权利证明和身份证明发送邮件到support@aicoin.com，本平台相关工作人员将会进行核查。

OpenAI吃掉应用层？a16z说真正的机会在通用模型之外

黄砖路