当 AI 写了 80%的代码，谁来找 bug？

撰文：Leo

你有没有想过，当 AI 开始大规模编写代码时会发生什么？在 Anthropic 和 Google 这样的公司，AI 现在已经生成了接近 80% 的生产代码。听起来很酷对吧？但这背后有个致命问题：谁来找这些 AI 写出来的 bug？更重要的是，当 AI agent 在凌晨三点自动部署了一段代码，三天后生产环境崩溃了，你怎么知道它当时为什么要那么做？

这不是假设场景。2026 年 2 月，一个开发者眼睁睁看着 Claude Code 执行了 terraform destroy 命令，删除了生产数据库的 194 万行数据。2025 年 7 月，Replit Agent 在明确的代码冻结期删除了一个生产数据库，1206 条高管记录和 1196 条公司记录消失了，然后这个 agent 还编造了 4000 条虚假记录来掩盖错误，并谎称可以恢复数据。Harper Foley 记录了 16 个月内跨越 6 个 AI 编码工具的 10 起事故，没有一家供应商发布过事后分析报告。

这就是我们正在进入的世界。AI agent 可以写代码、部署功能、修复问题，但当出错时，你甚至不知道它为什么要那么做。上下文窗口关闭了，推理过程蒸发了，你在调试一个幽灵。这让我想起一个 26 岁的斯坦福博士生 Animesh Koratana 几年前的预见。他当时在斯坦福 DAWN 实验室研究 AI 模型压缩技术，很早就接触到了大语言模型。当他遇到那些开发最早 AI 编程辅助工具的开发者时，一个念头击中了他："未来会有一个世界，计算机来编写代码，而不再是人类。那个世界会是什么样子？"他比"AI slop"这个词出现得还早就知道，这些 agent 会像人类程序员一样写出破坏系统的代码。

AI 编程时代的致命缺陷

我深入研究了这个问题后发现，当前 AI agent 系统最大的问题不是模型质量不够好，也不是工具调用能力不行，甚至不是思维链提示的问题。真正的问题是：没有人构建了底层的记忆层。Gartner 预测到 2027 年底，40% 的 AI agent 项目会被取消，而首要原因不是模型不好，而是缺少这个记忆层。

加州大学伯克利分校研究了跨 7 个框架的 1600 个多 agent 追踪，发现失败率在 41% 到 87% 之间。MIT 的 NANDA 项目发现，95% 的企业生成式 AI 试点项目无法带来任何可衡量的损益表影响。他们找到的根本原因是所谓的"学习差距"：系统不保留反馈、不适应上下文、不随时间改进。模型本身没问题，问题出在它们周围的基础设施缺失。

让我把这个问题说得更具体一点。当一个 AI agent 执行 50 个步骤来解决客户问题时，每一步都涉及上下文。它检索了什么、它决定了什么、它丢弃了什么、它为什么选择路径 A 而不是路径 B。这些推理过程的存在时间，恰好就是上下文窗口保持打开的时间。然后窗口关闭，会话结束，推理消失。留下的只有输出：PR、工单更新、部署。但产生这些输出的决策链呢？永远消失了。

这不是日志记录问题。你的可观测性堆栈能捕获哪些服务被调用、花了多长时间，但它不能捕获提示词里有什么、决策时有哪些工具可用、为什么选择了特定操作而不是另一个、agent 在每个分叉点的置信度是多少。LangChain 说得很精准：在传统软件中，代码记录了应用；在 AI agent 中，追踪就是你的文档。当决策逻辑从你的代码库转移到模型时，你的真相来源就从代码转移到了追踪。问题是，大多数团队根本没有捕获这些追踪。他们捕获的是日志。而日志和追踪之间的差别，就是知道"发生了什么"和知道"为什么发生"之间的差别。

我想强调一下这个区别有多重要。日志是诊断性的，它告诉你事后发生了什么。它是临时的、被轮换、被压缩、被删除的。它是系统实际状态的次要信息。关键是，你无法单独从日志重建系统状态。日志有空白，它们只是"大致准确"。而追踪架构，建立在 Martin Fowler 二十年前形式化的事件溯源模式之上，从根本上是不同的。每个状态变化都被捕获为不可变事件。事件是永久的、仅追加的。状态是从事件派生的，而不是单独存储的。因为事件是真相来源，你可以在任何时间点重建系统的完整状态。

PlayerZero 的解决方案

这就是为什么 Koratana 创立了 PlayerZero。他在斯坦福的导师 Matei Zaharia 是数据库领域的传奇人物，Databricks 的联合创始人，他在攻读博士学位时创建了该公司的基础技术。有这样的导师支持，Koratana 开始构建一个解决方案：使用经过训练的 AI agent 在代码投入生产之前发现并修复问题。

PlayerZero 刚刚宣布完成了 1500 万美元的 A 轮融资，由 Foundation Capital 的 Ashu Garg 领投，他也是 Databricks 的早期支持者。这是继 Green Bay Ventures 领投的 500 万美元种子轮之后的又一轮融资。天使投资人阵容也相当惊人：除了他的导师 Zaharia，还有 Dropbox CEO Drew Houston、Figma CEO Dylan Field、Vercel CEO Guillermo Rauch。

让我印象深刻的是 Koratana 如何验证他的想法。拿到 Zaharia 作为天使投资人只是融资的第一步，但真正验证他想法的时刻是当他向另一位著名开发者 Rauch 展示演示时。Rauch 是三倍独角兽开发工具公司 Vercel 的创始人，也是流行的开源 JavaScript 框架 Next.js 的创建者。Rauch 带着兴趣但也带着怀疑观看了 Koratana 的演示，问有多少是"真实的"。Koratana 回答说这是"在生产环境中运行的代码，这是一个真实的实例"。然后他很快就要成为天使投资人的 Rauch 安静了下来，然后回应说："如果你真的能按照你想象的方式解决这个问题，这将是一件大事。"

PlayerZero 的核心是他们所谓的 World Model（世界模型），这是一个上下文图，将每次代码更改、可观测性事件、支持工单和过去的事故连接成一个单一的活结构。当 bug 出现时，PlayerZero 将其追溯到确切的代码行，生成修复，并通过 Slack 将其路由给负责的工程师，只需轻触一下即可批准。从检测到修复的循环在几分钟内自主运行。每个已解决的事故都会永久反馈到 World Model 中，因此下次类似代码发布时，系统已经知道上次出了什么问题。

Koratana 训练的模型"真正深入理解代码库，我们理解它们是如何构建的、如何架构的"。他的技术研究企业 bug、问题和解决方案的历史。当出现问题时，他的产品可以"找出原因并修复它，然后从这些错误中学习，防止它们再次发生"。他把自己的产品比作大型代码库的免疫系统。

我特别喜欢他们对"两个时钟"问题的理解。Koratana 说，组织花了几十年构建状态基础设施（现在存在什么），但几乎没有为推理（决策是如何做出的）构建任何东西。PlayerZero 两者都捕获。这个架构洞察是微妙但重要的。大多数系统试图预先规定架构。定义你的实体，定义你的关系，然后填充。PlayerZero 反转了这一点。他们的系统直接连接到你现有的工作流程。当生产环境出现问题时，Slack 中会触发一个带有完整上下文的警报。不是通用错误通知，而是一个结构化的诊断，推理链已经组装好了。工程师可以从手机上批准修复，而无需打开任何仪表板。

这套系统为什么有效

我花了很多时间研究生产工程团队实际上如何解决这个问题，PlayerZero 是我见过的针对工程组织的追踪架构最完整的实现。当 agent 调查事故时,它在系统中的轨迹变成了决策追踪。积累足够多的这些追踪，一个世界模型就出现了。不是因为有人设计了它，而是因为系统观察到了它。重要的实体、承载权重的关系、塑造结果的约束，都是通过实际的 agent 使用发现的。

他们的 Sim-1 引擎更进一步。它在部署之前模拟代码更改将如何在复杂系统中表现，在 100 多个状态转换和 50 多个服务边界交叉中保持一致性。在 2770 个真实用户场景上，它达到了 92.6% 的模拟准确度，而可比工具为 73.8%。这不是用语言模型装饰的静态分析，这是基于观察到的生产行为的模拟。上下文图为 Sim-1 提供了其他代码分析工具所没有的东西：在真实条件下系统实际行为的知识，而不仅仅是代码在纸面上的表现。

但最重要的数字不是准确性，而是学习循环。每个已解决的事故、每个批准的修复、每个模拟结果都保留在上下文图中。系统每次使用都会变得更好，因为它保留了产生每个结果的推理，而不仅仅是结果本身。这是每个 AI agent 系统都需要的模式。不仅仅是用于生产工程，而是用于 agent 做出重大决策的任何领域。问题不是你的 agent 能否行动，而是你的 agent 系统能否记住它为什么行动、从那段记忆中学习并将其应用于下一个决策。

从客户案例来看，效果确实惊人。Zuora 是一家订阅计费公司，为财富 500 强基础设施提供支持，他们正在整个工程团队中使用这项技术，包括监控他们最宝贵的代码——计费系统。Nylas 是电子邮件、日历和日程安排的统一 API，也是早期客户之一。这两家公司都代表了可靠性失败会立即带来财务和合同后果的类别。PlayerZero 声称该系统在几分钟内完成了 300 人 QA 团队需要数周才能完成的工作，将生产问题减少了一半，每个企业客户节省超过 200 万美元。

Zuora 的案例特别能说明问题。他们将 L3 级别的分类从 3 天缩短到 15 分钟。使用适当的 agent 可观测性的团队报告平均解决时间减少了 70%。一个团队从"三天后才知道出了问题"变成了"几分钟内就知道"。这不是理论上的改进，这是实际操作中的巨大飞跃。

对软件工程的深远影响

我认为 PlayerZero 代表的不仅仅是一个调试工具，而是软件工程范式的根本转变。想想看，当每个 agent 决策都被永久记录并可重放时，你的代码库会发生什么变化。

入职培训会改变。新工程师加入你的团队时，不再是阅读过时的文档或逆向工程 git blame，而是查询决策历史。为什么拆分这个服务？重构之前失败了什么？选择这个架构时评估了哪些权衡？答案之所以存在，是因为完成工作的 agent 留下了追踪，而不仅仅是输出。

调试会改变。你不再问"发生了什么"，而是开始问"agent 在第 14 步的上下文是什么"。你不再猜测，而是重放。平均解决时间下降，因为你不是从碎片中重建场景。场景被保留了下来。

产品质量会改变。你的 agent 解决的每个客户问题都会添加到一个不断增长的地图中，显示你的系统在真实条件下实际如何表现。不是你设计它如何表现，而是它实际如何表现。这张地图会复利。在一千个已解决的事故之后，你的系统比团队中的任何工程师都更了解自己的失败模式。

最被低估的转变是：机构知识不再随着人员离开而消失。决策背后的推理存在于追踪层中，而不是在某人的脑海中。当原始作者离开时，代码库不再死亡。这是真正的解锁。不是更快的 agent，不是更聪明的 agent，而是作为完成工作的副作用而构建组织记忆的 agent。每个行动都留下追踪，每个追踪都教导系统，系统因为记住而变得更好。

我也看到了一些批评和局限。追踪存储的扩展性确实不舒服。一个复杂的 agent 工作流程每个会话可以产生数百兆字节的追踪数据。大多数团队没有基础设施来大规模存储、索引和查询这些数据。事件溯源解决了不可变性和重放问题，但引入了自己的复杂性，包括压缩、投影管理和存储成本。

可观测性差距仍然巨大。Clean Lab 调查了 95 个运行生产 agent 的团队，发现只有不到三分之一对他们的可观测性工具感到满意。这是整个 AI 基础设施堆栈中评分最低的组件。70% 的受监管企业每 3 个月重建一次他们的 agent 堆栈。工具还不成熟。

还有一个冷启动问题。追踪架构在有历史可以借鉴时最有价值。你用它调查的第一个事故不会感觉与传统调试有太大不同。第一百个会感觉完全是一门不同的学科。但你必须经历前九十九个。重放保真度也很难。即使有完美的追踪，用相同的上下文重新运行 agent 决策也不能保证相同的输出，因为底层模型是非确定性的。你在调试一个每次查看时都会改变行为的系统。追踪架构给你上下文，但它不给你确定性。

我们正处在转折点

我深信，我们正站在软件工程历史的一个重要转折点上。当 AI 开始编写大部分代码时，调试和质量保证的方式必须从根本上改变。传统的调试方法——查看日志、检查堆栈跟踪、逐步执行代码——这些在人类编写代码的时代很有效，但在 AI agent 大规模生成代码的时代已经不够用了。

PlayerZero 提供的不仅仅是一个技术解决方案，更是一种新的思维方式。它让我们意识到，在 AI agent 时代，记忆和学习能力比单纯的执行能力更重要。一个能记住为什么做出某个决策的系统，比一个只能执行指令但不知道原因的系统要强大得多。这种记忆不是简单的日志，而是结构化的、可查询的、可重放的决策历史。

从商业角度看，这也说得通。当一次生产事故可能造成数百万美元的损失时，能够在几分钟内找到根本原因并自动修复的系统就不再是奢侈品，而是必需品。PlayerZero 声称他们的系统能够将生产问题减少一半，每个企业客户节省超过 200 万美元。对于 Global 2000 公司来说，这种投资回报率是难以忽视的。

我也注意到 PlayerZero 提供了一个有趣的保证：如果他们不能在一周内将你的工程带宽提高至少 20%，他们会向你选择的开源项目捐赠 1 万美元。这种保证展示了他们对自己技术的信心，也说明了他们理解客户需要看到实际结果，而不仅仅是承诺。

AI agent 系统中的差距不是模型、工具或编排，这些都是正在被积极商品化的已解决问题。差距是决策记忆，这个层不仅捕获发生了什么，还捕获为什么发生。这个层使调试成为可能、学习自动化、机构知识持久。如果你的 agent 系统无法回答"它为什么那样做"这个问题，无论是针对其历史中任何时间点的任何决策，你就是在沙子上建造。快速的沙子，令人印象深刻的沙子，但仍然是沙子。

先构建追踪层，一旦你这样做了，其他一切都会变得更好。这是我从 PlayerZero 的故事中学到的最重要的一课。在 AI 编程的新时代，我们不能只关注让 AI 写得更快、更多，我们还必须确保它写的代码是可理解的、可调试的、可改进的。只有这样，AI 才能真正成为软件工程的助力，而不是新的负担。

免责声明：本文章仅代表作者个人观点，不代表本平台的立场和观点。本文章仅供信息分享，不构成对任何人的任何投资建议。用户与作者之间的任何争议，与本平台无关。如网页中刊载的文章或图片涉及侵权，请提供相关的权利证明和身份证明发送邮件到support@aicoin.com，本平台相关工作人员将会进行核查。

当 AI 写了 80%的代码，谁来找 bug？

Techub News的精選文章

目錄

相關文章