原文标题:Avoiding Death on the Yellow Brick Road
原文作者:Joe Schmidt IV,a16z
原文作者编译:Peggy
编者按:随着大模型能力持续提升,AI 应用层正在面临一种普遍焦虑:如果 OpenAI、Anthropic 等模型公司既掌握底层模型,又拥有分发渠道和品牌优势,创业公司还能在应用层做什么?
这正是 a16z 合伙人 Joe Schmidt 在这篇文章中试图回答的问题。他借用《绿野仙踪》中的「黄砖路」作比喻,将 AI 应用机会分成两类:一类是大模型公司正在亲自进入的主路,比如代码生成、写作、图像生成、通用型 Agent 和横向办公助手;另一类则是「奥兹国的其他地方」,也就是那些深入行业流程、依赖复杂工作流、数据沉淀、合规治理和系统集成能力的垂直场景。
在他看来,创业公司真正的机会在后者。
从销售到保险,Joe Schmidt 反复强调同一个逻辑:企业真正愿意付费的,不是一个更聪明的聊天窗口,而是一个能对业务结果负责的系统。它需要理解客户数据的混乱状态,处理多人审批和边界案例,承担合规与审计责任,也要在模型不断升级时,替客户完成迁移、路由和成本优化。
这也是本文对下一代企业软件的核心判断:底层模型会越来越强,也会变得越来越可替换;但真正不可替代的,是围绕具体行业和具体工作流沉淀下来的数据、流程、治理能力与运营记忆。AI 应用公司的机会,不在于与模型公司争夺「黄砖路」,而在于走进那些更复杂、更脏、更慢,但也更接近真实商业价值的地方。
以下为原文:
最近,我不断从创始人和潜在员工那里听到同一个问题:AI 应用层还有什么可做的吗?还是说,OpenAI 和 Anthropic 最终会杀死一切?
这个问题背后有一种很典型的 AI 式焦虑。有人已经得出结论:如果不想沦为永久性的底层,唯一有长期价值的位置,要么是在大模型实验室内部,要么是在机器人、硬科技或类似前沿领域创业——理论上,也就是去做那些「实验室碰不到」的东西。因为如果每一类软件都将被吞噬,要么被 Codex 或 Claude 直接吸收掉对应工作,要么被未来某个模型变得不再必要,那最好的选择似乎就是:快跑!
我承认,自己几乎也是一个 AI 极大主义者,而且我认为他们说对了一半。大模型实验室确实正在进入应用层的大片区域。但「应用层」并不是一个同质化的机会集合。真正重要的判断标准是:你是在走「黄砖路」,还是在奥兹国的其他地方。
注:「黄砖路」 是《绿野仙踪》里通往奥兹国翡翠城核心地带、去见「魔法师」的主路。
所谓「黄砖路」,是我们用来形容大模型实验室正在走、并投入巨大资源的那条路径。代码生成、写作、图像创作这类问题之所以天然适合实验室来做,是因为它们会随着模型原始能力的提升而变得更好:每一美元投入到预训练和后训练中,都会直接改善产品质量。
但奥兹国的其他地方,存在着更复杂、通常也更垂直的问题。它们并不是简单地给一个企业用户提供一个横向工具,让它接入标准工具和电脑操作能力就能解决。这里的价值,更多来自模型周围的脚手架:这些脚手架让输出在特定行业中变得可信、合规,并能真正进入业务流程。底层模型的原始能力当然仍然重要,但已经不是全部。
我们正在实时看到这一点。OpenAI 和 Anthropic 实际上正在向市场承认:它们无法用一个通用的 AI 同事解决所有问题。它们已经宣布投入大规模的前线部署式合资项目,围绕为企业配置和定制模型来搭建完整公司。如果它们真的认为下一次模型发布就能解决这些问题,就不会向这类项目投入数十亿美元。
所以,如果你想靠做 AI 应用赚钱,就不要走黄砖路,而要去奥兹国的其他地方建设。以下是我们以及我们投资组合中的一些创始人,在实践中学到的经验。
黄砖路
如果你要创办一家公司,黄砖路是最显眼的一条路,但也是最危险的一条路。拿一个高性能模型,接上一些现成的连接器,比如 Google Drive、Slack、Salesforce、Notion、GitHub,然后在上面搭一个智能体编排层。看起来像魔法一样。
问题在于,这正是大模型实验室正在通过 Cowork 和 Codex 做的事。很显然,它们拥有模型,这意味着它们有更好的利润率、更强的控制力,也能对所有下游参与者施加定价权。但或许更重要的是,它们还掌握着决定产品适合解决什么问题的架构选择。到目前为止,它们一直非常有意地采用「模型 + 工具调用」的模式,而这恰恰是黄砖路上那些横向、低步骤数量工作所需要的模式。即便一家创业公司能以某种方式超越 Codex 或 Claude Code,大模型实验室仍然拥有庞大的分发能力,以及 AI 领域最强的品牌光环。
如果你是一家 AI 应用公司,采用的是同一套打法:接入相同的连接器,没有下层子智能体或配置,也没有分发渠道,那么你很可能是在走一条通向虚无的路。
奥兹国的其他地方
对创业公司来说,情况并不全是悲观的。在黄砖路之外,仍然存在巨大的机会。创业公司可以在这些地方拥有客户,并解决复杂问题。
这些公司正在构建智能体体验:模型被编织进复杂的工具、自动化和集成网络中——换句话说,就是软件。这也使得大多数这类创业公司天然是垂直化的。它们可以专注于多步骤、多参与方的工作流,针对不同角色和垂直场景设计子智能体,处理 Anthropic 和 OpenAI 的横向平台难以触达的问题:跨系统收集上下文,再把任务路由给多个需要在不同阶段审批的人。
这类工作通常会涉及一个或多个遗留系统,往往需要确定性结果,因为模糊性不可接受,而且有时还会直接绑定某个重要的商业结果。大模型实验室当然知道这些问题有多有价值:这就是为什么它们正在搭建自己的外包式配置团队,也是为什么整个面向大客户的强化学习服务公司群体正在出现。
为什么奥兹国的其他地方不会被「巫师」完全占据
对上面观点的一个反驳是:到目前为止,赌模型或实验室不会继续进步,一直是一笔很糟糕的交易。它们很可能会持续变强,并最终吃掉这些应用层公司所服务的市场。
大模型实验室当然会继续进步。但我认为,奥兹国其他地方的公司,长期来看仍然有几种防守方式。
数据与学习飞轮
很多你在业务中真正内化的东西,并不存在于任何训练集中:不成文的行业惯例、没有文档记录的标准、存在于从业者脑子里的部落知识。它们都不在公开互联网上。无论投入多少训练算力,都无法替代真正进入这些知识所在的工作流内部。
这里叠加了两个飞轮:一个是跨客户飞轮,也就是当你见过同一类问题的更多变体后,模式会不断复利;另一个是客户内部飞轮,也就是具体决策背后的原因、那些没有明说的例外、公司自身的经验法则,只有在用户与系统真实互动时才会浮现。
即便客户数据不能跨客户使用,应用公司仍然可以利用对不同客户问题类型的模式识别,并用它来指导未来问题的架构设计。一家公司如果已经让自己的智能体处理过一百次法律红线修改、一千轮保险核保周期,或一万次 SDR 销售开发活动,它对问题形态的理解,已经不是一个后来者第一次启动新智能体就能复制的。
理论上,一个横向智能体也可以建立同样的学习基础设施。但它没有这么做的原因,除了专注度不足以外,更重要的是用户体验。捕捉这种知识,完全取决于你给用户提供了什么样的工作流界面。垂直玩家可以围绕特定工作流真正需要暴露的信息来设计这些界面,横向工具做不到。评估集、标注输出、边界案例分类体系,都可以复合成一个垂直领域的数据飞轮,并进一步支持微调。后来者如果没有同等规模的生产环境暴露,就很难生成这种飞轮。它是否可行,取决于数据权利、积累的生产使用量以及客户合同结构,但模式识别本身仍然会不断积累。
管理模型波动性与复杂性
大模型实验室内部已经在做路由:针对不同请求调用不同类别的模型,在底层使用模型集成。但它们做不到的是跨供应商路由,也很难为了某个具体子任务评估竞争对手的模型,或在某个狭窄环节使用真正最合适的开源微调模型。
奥兹国其他地方的公司,会在整个模型市场中为每个子任务选择最合适的模型,而不仅仅使用某个母实验室发布的模型。它们也会承担那些没人愿意做的工作:每次新模型发布时重新跑评估、针对客户的边界案例重新校准提示词、在不破坏生产环境的情况下完成上线。大模型实验室不会替客户做这些事。它们把新模型卖给你,然后告诉你去迁移。奥兹国其他地方的公司则吸收了迁移成本。客户得到的是整个市场上最好的智能能力,以及每次升级过程中的连续性。
成本优化
把每个查询都丢给 Opus 4.7,是让毛利率转负的最快路径。最好的奥兹国公司会在不同层级的模型之间做路由:最难的任务交给前沿模型,大部分任务交给中等模型,在已经证明可行的地方使用更小的定制模型或微调模型。
其中一些公司现在已经在此基础上做自己的后训练,把模型优化到客户真正关心的那一小段工作上,并以远低于前沿 API 调用的成本提供服务。大模型实验室为「地板价」定价:花 X 美元能买到的最低智能水平。奥兹国公司卖的则是反过来的东西:在特定工作流真正需要的智能水平下,实现最低美元成本。只有当你非常清楚每个子任务到底需要什么级别的智能时,这才可能做到。而大模型实验室在结构上不可能了解每一个垂直行业里的每个任务。最终,这会直接转化为更低、更可控的结果定价。
治理
成为客户在某个垂直领域运行 AI 的控制平面,会产生相当大的价值。这个控制平面,是权限、审计、智能体被允许做什么、智能体实际做了什么汇聚在一起的地方。
这一控制平面建立在具体用例的护栏之上,而不同行业、不同岗位类型中的护栏完全不同。因为这些公司端到端拥有智能体接触的工具、工作流和数据,它们能够以横向工具难以实现的方式提供确定性结果。它们也会替最终买方吸收监管复杂性:法律领域的美国联邦民事诉讼规则和律师执业规则,医疗领域的 HIPAA,金融领域的 SEC 和 FINRA 规则,州级保险监管,等等。横向玩家如果不把自己变成一百个不同的垂直行业,就无法令人信服地做到这一点。CIO 需要的是一个能够在合同中明确承诺:它会为所提供的智能体承担合规处理责任的合作伙伴。
所有这些最终都回到同一件事:专注。
这种专注可以是一个垂直行业,比如保险、法律、会计;也可以是一个被做得足够深的职能,比如销售、客服、财务。无论哪一种,这项工作都需要一个团队长期扎在同一类客户群体中,理解它的工作流、边界案例和监管要求。大模型实验室并不是为此而建的。它们必须服务所有人、覆盖所有地方,这也是它们最初修建黄砖路的原因。同样的取舍,也会让它们难以进入奥兹国的其他地方:你可以同时无处不在,也可以在一件事上做到极致,但不能两者兼得。
以销售为例:来自 11x 技术型 CEO 的实操建议
在实践中,应该如何理解这件事?以下是 11x CEO Prabhav Jain 给出的一些实操建议。
聚焦结果
建立一家能够抵御大模型实验室冲击的公司,一个可行的战术路径,是从客户真正关心的具体结果出发。对我们来说,这个结果就是帮助企业产生更多销售线索和销售管道。
从这里开始,问题就会变得非常具体:哪些活动是我们想要端到端拥有、并且确实能推动销售管道增长的?把每项活动拆解成任务。哪些任务适合智能体,哪些不适合?哪些需要复杂的领域洞察,哪些不需要?大模型实验室也会推出工作流,但当一个工作流步骤很多、输入混乱、状态难以解释,或者存在现实世界约束时,仅仅有一个更好的模型并不能把事情做成。这时,工作又回到了传统的软件工程,而在这个层面上,大模型实验室相较一家专注的应用公司并没有优势。
举例来说,我们处理的一些任务包括:基于自定义信号进行潜在客户挖掘、潜在客户信息补全、深度账户研究、从 CRM 抓取上下文、针对不同渠道撰写信息、潜在客户资格判断智能体,以及邮件送达系统。其中有些是智能体任务,有些不是。这些任务不是一次提示就能完成的,而是需要深度工程能力。
奥兹国这个类比中的关键洞察是:任何真实工作流中,粗略来看有一半是非智能体任务,而这一半并不带来实验室优势。在模型层之下,它们编写确定性软件的能力并不比你强。而另一半智能体任务,也仍然要求你围绕真正想要的结果,对模型进行调优、训练和约束。
领域知识往往不在通用训练数据中。这些能力必须从垂直行业或具体职能中自下而上构建,并在工作流中合适的时刻喂给模型。当我们的智能体通过电话判断一个入站线索是否合格时,它必须被训练成理解:对特定行业、特定用户画像来说,什么才是一场好的销售对话。这是应用公司要做的工作,而且这种能力会复利。
更重要的是,这些能力会不断过时,因为企业本身也在演化。因此,你持续演化工作流和上下文的能力,本身就会成为竞争优势。比如,当我们刚开始做规模化邮件外联产品时,「AI 写的邮件」才刚刚开始出现。快进到今天,人们已经形成了一种敏锐感觉,能够分辨哪些邮件是 AI 写的、哪些更像人写的,而且关键在于,这种判断每隔几个月就会变化。我们的智能体必须随着市场动态不断调整,但护城河也正是在这里建立起来的。事实上,尽管存在这种动态变化,我们的积极回复率在过去几个月里提高了 4 倍,并为客户创造了数亿美元的销售管道。
做高复杂度问题
复杂问题才是真正释放商业价值的地方。否则,你很容易发现自己只是在做一个薄薄的包装层。
拆解任何足够复杂的商业问题,很快就会看到混乱出现。这里有一个来自 GTM 领域、听起来很简单的例子:如果某家公司已经是你的客户,你就不应该再去联系这家公司里的某个联系人。但这件事一点也不简单。
也许你的 CRM 中有这家公司对应的域名。那么,那些拥有几十家子公司的公司怎么办?如果 CRM 记录的是母公司的域名怎么办?如果 Salesforce 中一个过时的匹配字段,导致你向现有客户的首席营收官发出冷启动销售邮件怎么办?真实世界的数据就是混乱的。人类处理起来都会吃力,模型也不会神奇地越过这道门槛。要从这种混乱中建立秩序,需要围绕问题的具体形态设计专门的智能体,而不是把一个通用副驾驶指向 CRM 就结束了。事实上,基于我们掌握的数据,我们发现自己的数据质量和新鲜度已经高于客户自身,因此默认情况下,我们会以自己的数据为锚。
护栏不只是为了防止坏事发生。客户付钱买的正是这件事
护栏被严重低估了。即便在同一个产品内部,每个用例也都需要自己的护栏。对我们来说,一个受监管的金融服务潜在客户,与一个中型 SaaS 客户所要求的保证完全不同。而这些保证会层层传导到智能体如何书写、可以联系谁、可以接触哪些数据、可以在电话中说什么,以及每个决策如何被记录。
一套「一刀切」的系统会在这种差异面前崩溃。护栏必须按用例构建、按客户配置,并且持续审计,而这些工作完全落在应用公司身上。这也是为什么我们需要前线部署工程师和技术部署策略师,针对每个客户的要求进行调优。
举例来说,我们曾与一家财富 1000 强机构合作,通过语音对其庞大的 SMB 客户群进行经同意的外呼。最初几轮尝试中,接听率很低。我们必须快速迭代,学习如何在通话前 10 秒内让这类特定受众产生互动。SMB 企业主的行为方式,与大型 B2B 买家或消费者完全不同。现在,我们一天为他们创造的销售机会,已经超过其整个销售团队在该细分市场一个月所能创造的数量。
以保险为例:来自 FurtherAI CEO 的实操建议
销售只是一个例子。保险是另一个例子,它从不同角度说明了同一件事。以下是 FurtherAI CEO Aman Gour 对「离开黄砖路建设」的理解。
当我们开始把 AI 部署进真实的保险运营中时,反复听到一个假设:模型才是智能,工作流只是围绕模型搭建的脚手架。
但我们合作的保险公司越多,就越确信这件事正好相反。
在保险行业,很多智能本身就存在于工作流之中。两家保险公司可以让一份提交材料走过看起来相同的路径:提交、审核、报价、承保。路径本身是容易的。真正区分两家保险公司的,是路径内部的所有东西:哪些风险需要升级,哪些损失信号重要,当两条承保偏好规则冲突时哪一条优先,什么时候必须由人类签字确认,需要调取哪些外部数据,以及最终决策如何被记录。
这些逻辑并不存在于一个干净的规则引擎中。它们分散在标准操作流程、经理审核、核保哲学、保险公司特定的风险偏好,以及多年运营经验中。其中很多并没有以模型可以直接读取的形式写下来。
这就是为什么我们不相信那种每次都从零开始推理的纯智能体,也不相信那种一遇到现实复杂性就会崩溃的刚性工作流。相反,我们一直在构建智能体工作流。工作流带来可重复性、可审计性和成本控制;智能体处理变动性,并在理想路径中断时恢复流程;人类则在那些涉及判断和问责的地方保持在环。
第一天,这套系统自动化的是人工工作。但随着时间推移,每一次升级都会成为一个信号,每一个例外都是一次反馈,每一次人类修正都在告诉你原来的操作手册哪里不完整。久而久之,工作流不再只是一段脚本,而会变成保险公司的运营记忆。
这正是大模型实验室难以触达的部分。它们会继续发布更好的模型和更好的通用智能体,而且它们也应该这么做。但它们不会长期待在一家保险公司的生产工作流里,去学习为什么某个账户被升级,为什么某个风险被拒绝,或者为什么某个核保人推翻了风险偏好指南,而且事实证明他是对的。
这种理解,只能来自在生产环境中把同一套工作流运行成千上万次。你第一天交付的工作流并不是护城河。生产使用随着时间形成的循环,才是护城河。
对我们来说,这就是「离开黄砖路建设」的含义。
如何判断自己是在奥兹国其他地方,还是仍然走在黄砖路上?
工具与步骤测试
这项工作需要多少步骤?为了支持它,你需要构建的工具有多复杂?
拿一个横向 AI 在 Google Drive 中搜索作比较:它是针对一个工具的一步操作,结果容错率也很高。用户读完摘要,如果错了,再问一次就行。
再看一个基于律所过去三年先例进行多步骤法律红线修改的任务:它可能涉及几十个步骤、多个工具,输出必须通过合伙人审查,甚至可能需要在法庭上被论证。两者看起来都像是「一个智能体在做事」,但只有后者需要那种由专注团队花多年时间构建的深度软件。
系统测试
你是在构建一个客户用来运行工作的系统,还是在客户已有系统之上增加一个工具?
系统拥有端到端工作流:数据捕捉、治理、工作完成记录。客户在描述实际工作如何发生时,会指向这个系统。工具则只是给客户已经在运行的工作流增加一层智能。
工具型产品也可以产生真实收入,但大模型实验室更容易把它拿走,因为客户并不依赖你作为编排层。高 ACV 通常是系统型产品的信号,因为系统替代的是真实人力,也因此能获得相应付费。但这并不是绝对保证。你需要问自己:如果某个大模型实验室推出了一个看似与你直接竞争的产品,客户是否仍然需要你的工具?如果答案是需要,你在构建的是系统。如果答案是不需要,你就是一个工具——即使你的 ACV 很高。
对冲基金 / 损益表测试
大模型实验室的表现,是用基准测试来评判的;奥兹国其他地方公司的表现,则是用客户的损益表来评判的。
客户并不关心你的模型在 SWE-Bench 或 MMLU 上得了多少分。他们关心的是:你的智能体是否成交了订单,是否正确修改了合同红线,是否承保了正确的保单。如果客户关注的是特定工作流结果,而不是通用能力分数,你就在奥兹国的其他地方。如果客户付钱买的是通用能力,那你卖的就是他们可以通过 Claude 或 Codex 席位获得的东西。
最好的智能体公司需要像对冲基金一样执行:它们赢在 alpha,而 alpha 是在客户损益表中衡量的,不是在基准测试分数中衡量的。
两者都能赢,而且都会赢
我们将会在黄砖路上和黄砖路之外同时看到巨大的赢家。模型会继续获胜,因为它们拥有模型,也拥有为横向工具设计好的分发能力。
奥兹国的其他地方也能赢,前提是它们拥有工作的系统:也就是企业实际执行工作的界面,以及从中流动并被捕捉的数据。这些公司拥有数据捕捉、工作流行动系统和治理。随着某个垂直领域中的复杂工作流逐渐成熟,它们会复合成一种客户离不开的核心体验。随着既有玩家和新进入者不断发布新一代模型,这家公司会成为把这些模型整合并交付给客户的那一层。底层模型是可替换的,但工作的系统不是。
下一代企业软件,将会在黄砖路之外被建立起来。
免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。