七位联创座谈，Anthropic 是如何诞生的？

「没人想创业，但觉得必须这么做」

整理 & 编译：深潮 TechFlow

嘉宾：Anthropic 联创 Chris Olah、Jack Clark、Daniela Amodei、Sam McCandlish、Tom Brown、Dario Amodei、Jared Kaplan

播客源：Anthropic

原标题：Building Anthropic | A conversation with our co-founders

播出日期：2024年 12月 20 日

要点总结

过去一周，Anthropic 连续出了两次事故：

先是内部近 3000 份文件因 CMS 配置错误被公开访问，紧接着 Claude Code v2.1.88 在 npm 发布时夹带了 59.8MB 的 source map，51 万行源码直接裸奔。

一家把「安全」写进基因的公司，在自家运维上连续翻车，讽刺感拉满。

但在急着嘲讽之前，不妨回头听听 Anthropic 七位联创一年多前的一次内部对谈。这期播客录于 2024 年 12 月，七个人聊了这家公司是怎么建立起来的、RSP （Responsible Scaling Policy，直译「负责任的扩展政策」）是怎么磨出来的、「安全」这个词为什么不能随便用、以及 CEO Dario 那句被反复引用的话：

「如果一栋楼每周都响火警，那它其实是一栋非常不安全的建筑。」

现在再听这句话，滋味确实不太一样。

七位联创，快速认脸

Dario Amodei｜CEO，前 OpenAI 研究副总裁，神经科学出身，Anthropic 战略和安全路线的最终拍板人。这场对话里发言最多。

Daniela Amodei｜总裁，Dario 的姐姐。此前在 Stripe 干了五年半，带过信任与安全团队，更早在非营利和国际发展领域工作。Anthropic 的组织搭建和对外沟通基本由她主导。

Jared Kaplan｜物理学教授转 AI 研究者，scaling laws 核心作者之一。经常从局外人视角提供判断，自称当初做 AI 是因为「做物理做腻了」。

Chris Olah｜可解释性（interpretability）研究的代表人物，19 岁进湾区 AI 圈，先后在 Google Brain 和 OpenAI 工作。Anthropic 里技术理想主义色彩最浓的人。

Tom Brown｜GPT-3 论文一作，现在管 Anthropic 的算力资源。视角偏工程和基础设施，播客里聊了不少他从「不太信 AI 会这么快」到改变看法的过程。

Jack Clark｜前彭博科技记者，Anthropic 政策与公共事务负责人。这场对话里充当主持人，负责串场和追问。

Sam McCandlish｜研究联创，全场发言最少但经常一句话点到要害，属于「补刀位」。

精彩观点摘要

为什么做 AI：从物理无聊到「看够了就信了」

Jared Kaplan：「我之前做了很久物理，有点无聊了，也想和更多朋友一起工作，所以就做 AI 了。」

Dario Amodei：「我不觉得我有明确说服过你，我只是一直给你看 AI 模型结果。到某个时候，我给你看得够多了，你就说'嗯，这看起来是对的'。」

逆共识下注：大多数共识是羊群效应伪装成了成熟

Jared Kaplan：「很多 AI 研究者被 AI 寒冬心理上伤得很重，好像有雄心是不被允许的。」

Dario Amodei：「我过去十年最深教训是：很多'大家都知道'的共识，其实是羊群效应伪装成成熟。你见过几次共识被一夜翻转后，就会说：不，我们就押这个。哪怕你只有 50% 正确，也会贡献很多别人没贡献的东西。」

安全与规模化是缠绕在一起的

Dario Amodei：「我们当时把模型扩大的动机之一，就是模型得先足够聪明，RLHF 才能做起来。这就是我们现在仍然相信的：安全和规模化是缠绕在一起的。」

RSP ，负责任的扩展政策是 Anthropic 的「宪法」

Tom Brown：「RSP 对于 Anthropic 来说，就像是我们的宪法。它是一份具有指导意义的核心文件，因此我们愿意投入大量时间和精力来反复打磨。」

Dario Amodei：「RSP 会阻止不符合安全标准的计划继续推进。我们不是在空谈口号，而是实实在在地将安全融入到每一个环节。」

火警响太多次，真着火就没人跑了

Daniela Amodei：「我们不能随便用'安全'这个词来左右工作进展。我们真正的目标是让大家清楚地知道我们所指的安全是什么。」

Dario Amodei：「真正损害安全的往往是那些频繁的'安全演练'。如果有一栋大楼，每周都会响起火警警报，那么这其实是一栋非常不安全的建筑。」

「高尚的失败」是个陷阱

Chris Olah：「有一种说法认为，最道德的行为是为了安全而牺牲其他目标，以此来展示自己对事业的纯粹性。但这种方式实际上是自我挫败的。因为这会导致决策权落入那些不重视安全的人手中。」

联创们承诺捐出 80% 收入

Tom Brown：「我们共同承诺将收入的 80% 捐赠给能够推动社会发展的事业，这是大家都毫不犹豫支持的事。」

没人想创业，但觉得必须这么做

Sam McCandlish：「其实我们中没有谁一开始就有创办公司的意愿。我们只是觉得这是我们的责任，因为这是确保 AI 发展朝着正确方向前进的唯一途径。」

Daniela Amodei：「我们的使命既清晰又纯粹，在科技行业中这样的情况并不常见。」

可解释性：神经网络里藏着一整套「人工生物学」

Chris Olah：「神经网络非常美妙，其中有许多我们还没有看到的美。我有时会想象，十年后走进一家书店，买一本关于神经网络生物学的教科书，书中会有各种令人惊叹的内容。」

AI 用于增强民主，而不是成为独裁工具

Dario Amodei：「我们担心如果 AI 被错误地开发，它可能会成为独裁主义的工具。如何让 AI 成为促进自由和自决的工具？这一领域的重要性丝毫不亚于生物学和可解释性。」

从白宫会议到诺贝尔奖：AI 的影响力早就超出了技术圈

Jared Kaplan：「2018 年你不会想到总统会叫你去白宫说他们在关注语言模型。」

Dario Amodei：「我们已经看到化学领域的诺贝尔奖授予了 AlphaFold，我们应该努力开发能够帮助我们创造出数百个 AlphaFold 的工具。」

为什么要研究 AI？

Jack Clark：我们为什么一开始要做 AI？Jared 你为什么做 AI？

Jared Kaplan：

我之前做了很久物理，有点无聊了，也想和更多朋友一起工作，所以就做 AI 了。

Tom Brown：

我还以为是 Dario 说服你的。

Dario Amodei：

我不觉得我有明确“说服”过你，我只是一直给你看 AI 模型结果，想表达它们很通用，不只适用于单一问题。到某个时候，我给你看得够多了，你就说“嗯，这看起来是对的”。

Jack Clark：Chris，你做可解释性研究那会儿，是在 Google 认识大家的吗？

Chris Olah：

不是。其实我 19 岁第一次来湾区时就认识了你们中的不少人。我那时见到 Dario 和 Jared，他们是博士后，在当时我觉得特别酷。后来我在 Google Brain，Dario 加入后我们还并排坐过一阵子，我也和 Tom 一起工作过，再后来去 OpenAI 就和你们所有人一起做事了。

Jack Clark：

我记得我 2015 年在一个会议上见到 Dario 想采访你，Google PR 还说我要先把你论文都读完。

Dario Amodei：

我当时在 Google 写《Concrete Problems in AI Safety》。

Sam McCandlish：

我开始和你共事前，你还邀我去办公室聊，像是把 AI 整体讲了一遍。我记得聊完后我想：“原来这事比我意识到的严肃得多。”你当时讲了“大算力团块”、参数数目、人脑神经元规模这些。

突破性的扩展

Jack Clark：我记得在 OpenAI 做 scaling laws 时，把模型做大开始真的有效，而且在好多项目上都持续、诡异地有效，从 GPT-2 到 scaling laws 到 GPT-3，我们就这样越走越近。

Dario Amodei：我们就是那团“把事做成的人”。

Jared Kaplan：我们也都很兴奋于安全，那会儿有个想法：AI 会很强，但可能不理解人类价值，甚至不能和我们沟通。语言模型某种程度上能保证它得理解很多隐性知识。

Dario Amodei：

还有语言模型之上的 RLHF，我们当时把模型扩大的动机之一，就是模型得先足够聪明，RLHF 才能做起来。这就是我们现在仍然相信的：安全和规模化是缠绕在一起的。

Chris Olah：

对，当时 scaling 工作其实也是安全团队的一部分。因为我们觉得，想让人认真对待安全，首先要能预测 AI 趋势。

Jack Clark：我记得我在英国某机场，从 GPT-2 采样写假新闻，然后在 Slack 上发给 Dario 说“这真能用，可能有巨大政策影响”，我记得 Dario 回复是“是的”。

之后我们也做了很多发布相关工作，那很疯狂。

Daniela Amodei：

我记得发布那段，那是我们第一次真正开始合作，GPT-2 当时发布。

Jack Clark：

我觉得那对我们很有帮助，我们先一起做了一个“有点奇怪但安全导向”的事，后来又一起做了 Anthropic，一个更大规模、同样有点奇怪但安全导向的事。

AI 的起步阶段

Tom Brown：回到《Concrete Problems》这篇文章上来。我 2016 年进 OpenAI，当时你我都是最早那批人，我当时感觉那篇像第一个主流 AI 安全论文。它怎么来的？

Dario Amodei：

Chris 知道，他参与了。我们那时在 Google，我都忘了我当时主项目是什么了，这篇像是我拖延出来的。

我们想写下 AI 安全有哪些开放问题。当时 AI 安全总被讲得很抽象，我们想把它落到当时真实 ML 上。现在已经有六七年这条线工作了，但那会儿这就是个怪想法。

Chris Olah：

我觉得它某种意义上几乎是个政治项目。那时很多人不把安全当回事。我们想整理一份大家认可合理的问题清单，很多本来就存在于文献里，然后找跨机构有公信力的人共同署名。

我记得我花了很长时间，和 Brain 里二十多个研究者沟通，为发表争取支持。如果只看问题本身，今天回头看未必都成立，可能不是最对的问题。但如果把它看成共识建设：证明“这里有真实问题，值得认真对待”，那它是重要时刻。

Jack Clark：

最终你会进入一个非常奇特的科幻世界，我记得 Anthropic 早期讲 Constitutional AI，Jared 说“我们给语言模型写一部宪法，它行为就会变”。当时听起来很疯狂。为什么你们觉得可行？

Jared Kaplan：

我跟 Dario 讨论了很久，我觉得 AI 里简单方法常常效果极好。最早版本挺复杂，后来不断削减，最后变成：利用模型擅长做选择题这点，给它明确提示告诉它要找什么这就够了，然后我们可以把原则直接写下来。

Dario Amodei：

这回到“大算力团块”（The Big Blob of Compute）“惨痛教训”（The Bitter Lesson）“规模化假设”（Scaling Hypothesis）：只要你能给 AI 一个清晰目标与数据，它就能学会。一组指令、一组原则，语言模型能读它们，也能把它们和自身行为对照，训练目标就在那儿。所以我和 Jared 的看法是：有办法做成，只要细节反复调。

Jared Kaplan：

对我来说早期很奇怪。我从物理转来，现在大家都兴奋于 AI，容易忘了当时氛围。我当时和 Dario 聊这些，感觉很多 AI 研究者被 AI 寒冬心理上伤得很重，好像“有雄心”是不被允许的。讨论安全要先相信 AI 可能非常强、非常有用，但当时有种反雄心禁令。物理学家一个优势是“傲慢”，他们常做很雄心的事，习惯谈宏大图景。

Dario Amodei：

我觉得这是真的，2014 年很多话就是不能说。这也像学术界普遍问题，除了某些领域外，机构越来越厌恶风险，工业 AI 也继承了这心态，我觉得直到 2022 年左右才走出来。

Chris Olah：

还有“保守”的两种形式：一种是认真看待风险，另一种是把认真对待并相信想法可能成功视为傲慢。我们当时处于后者主导。历史上 1939 年核物理讨论里也类似：Fermi 抵触，Szilard 或 Teller 更认真看待风险。

Dario Amodei：

我过去十年最深教训是：很多“大家都知道”的共识，其实是羊群效应伪装成成熟。你见过共识几次一夜翻转后，就会说：不，我们就押这个。也许不一定对，但忽略噪音去下注。哪怕你只有 50% 正确，也会贡献很多别人没贡献的东西。

公众对人工智能的态度转变

Jared Kaplan：今天在一些安全议题上也这样：外界共识觉得很多安全问题不自然会从技术里长出来，但我们在 Anthropic 做研究看到它确实会自然长出来。

Daniela Amodei：

但过去 18 个月这在变化，同时世界对 AI 的情绪也在明显变化，我们做用户研究时，更常听到普通用户担心 AI 对世界整体影响。

有时是工作、偏见、毒性，有时是“它会不会把世界搞乱、改变人类协作方式”，这其实我都没完全预料到。

am McCandlish：

不知为何，ML 研究圈常比公众更悲观于“AI 变很强”。

Jared Kaplan：

2023 年我和 Dario 去白宫，会议里 Harris、Raimondo 基本意思是：我们盯着你们，AI 是大事，我们在认真关注，但 2018 年你不会想到“总统会叫你去白宫说他们在关注语言模型”。

Tom Brown：

有意思的是，我们很多人是这件事看起来还不确定时就入场的，像 Fermi 对原子弹持怀疑态度一样，有一些证据表明原子弹可能会被制造出来，但也有很多证据表明它不会，但他最终决定一试。因为如是真的，影响会很大，所以值得做。

2015-2017 有一些且不断增加的证据证明 AI 可能是件大事，我 2016 年和导师聊：我做过创业，想做 AI 安全，但数学不够强，不知道怎么办。当时有人说你得精通决策理论；有人说不会出现疯狂 AI 事件，真正支持的人很少。

Jack Clark：

我 2014 年做 ImageNet 趋势报道被当疯子。2015 年的时候我想写 NVIDIA 因论文都提 GPU，也被说疯了；2016 离开新闻去 AI，还有邮件说“你犯了人生最大错误”。当时从很多角度看，认真押注“规模化会成”确实像疯子。

Jared Kaplan：你是怎么决定的？纠结吗？

Jack Clark：

我做了个反向下注：提要求做全职 AI 记者并工资翻倍，我知道他们不会答应。然后睡一觉醒来就辞职。因为我每天都在读档案文件，我总觉得有件疯狂大事在发生，某个时点你就该高信念下注。

Tom Brown：

我没那么果断，我摇摆了六个月。

Daniela Amodei：

而且那时“工程师也能显著推动 AI”这件事并不主流。当时是“只有研究员才能做 AI”，所以你的犹豫不奇怪。

Tom Brown：

后来 OpenAI 说“你可以通过工程帮助 AI 安全”，那才让我加入。Daniela 你在 OpenAI 还是我经理，你当时为什么加入？

Daniela Amodei：

我在 Stripe 五年半，Greg 曾是我老板。我还介绍过 Greg 和 Dario 认识。当时他正在创立 OpenAI，我对他说：“我认识的最聪明的人是 Dario。如果你能让他加入团队，那真是你的幸运。”后来，Dario 就加入了 OpenAI。

或许和你一样，我也在思考从 Stripe 离开后，自己想做些什么。我之所以加入 Stripe，是因为之前在非营利组织和国际发展领域工作时，我觉得自己需要更多技能，其实当时我还以为自己最终会回到那个领域。

加入 Stripe 之前，我觉得自己并没有足够的能力去帮助那些比我条件差的人。所以我在关注其他科技公司，希望找到一种新的方式去产生更大的影响，而当时的 OpenAI 则让我觉得它是一个很好的选择。它是一家非营利组织，致力于实现一个非常重要且具有远大意义的目标。

我一直很相信 AI 的潜力，因为我对 Dario 也有一些了解，而且他们确实需要有人来帮忙管理，所以我觉得这份工作和我的背景非常契合。我当时心想：“这是一家非营利机构，这里聚集了一群非常优秀、怀揣美好愿景的人，但他们的运作似乎还有些混乱。”而正是这种挑战让我感到兴奋，因为我可以加入进去。

当时我感觉自己像是一个全能型选手，不仅负责管理团队成员，还要带领一些技术团队，还有扩展组织的管理，我负责组织扩展工作，也曾在语言团队工作过，后来还接手了一些其他任务。我还参与了一些政策方面的事务，还和 Chris 一起合作过。我觉得公司里有很多优秀的人才，这让我特别想加入进来，帮助公司变得更加高效、更有条理。

Jack Clark：我记得做完 GPT-3 后你说“你们听说过 trust and safety 吗？”

Daniela Amodei：

我以前在 Stripe 带过 trust and safety 团队。对于像这样的技术，你们可能需要考虑一下信任与安全这个问题。这其实是人工智能安全研究 (AI Safety Research) 和更务实的日常工作之间的一个桥梁，也就是说，如何让模型变得真正安全。

提出“这项技术未来会产生重大影响”是非常重要的。同时，我们也需要在日常中开展一些更实际的工作，为将来面对更高风险的场景打下基础。

负责任的扩展政策：确保 AI 的安全发展

Jack Clark：这正好聊一聊负责任的扩展策略 (RSP，Responsible Scaling Policy)”是如何提出的，为什么我们会想到它，以及我们现在是如何应用它的，特别是考虑到我们目前在模型的信任与安全方面所做的工作。那么，这个 RSP (负责任的扩展策略) 是谁最先提出来的？

Dario Amodei：

最初是我和 Paul Christiano 提出来的，时间大概是在 2022 年底。最开始的想法是，我们是否应该在模型扩展到某个特定规模之前暂时限制它，直到我们找到解决某些安全问题的方法？

但后来我们觉得，仅仅在某个点上限制扩展，然后再放开限制，这样的做法有些奇怪。所以我们决定设定一系列门槛，每当模型达到一个门槛时，就需要进行一系列测试，以评估模型是否具备相应的安全能力。

在每达到一个门槛时，我们都需要采取更严格的安全和保障措施。不过，最初我们就有一个想法：如果这件事由第三方来执行，可能会更好。也就是说，这种策略不应该由某一家公司单独负责，否则其他公司可能就不愿意采纳这一策略。因此，Paul 亲自设计了这个策略。当然，随着时间的推移，其中的许多细节也发生了变化。而我们团队这边则一直在研究，如何让这个策略更好地运作。

当 Paul 把这个概念整理成型后，他几乎是在宣布这个概念的同时，我们也在一两个月内发布了自己的版本。其实，我们团队中的很多成员都深度参与了这个过程。我记得自己至少写过其中的一个初稿，但整个文件经历了多次修订。

Tom Brown：

RSP 对于 Anthropic 来说，就像是我们的“宪法”。它是一份具有指导意义的核心文件，因此我们愿意投入大量时间和精力来反复打磨，确保它的准确性和完善性。

Daniela Amodei：

我觉得，RSP 在 Anthropic 的发展过程真的非常有趣。它经历了多个阶段，同时也需要多种不同的技能来推动它的实施。比如，有一些宏大的理念，这部分主要由 Dario、Paul、Sam 和 Jared 等人负责，他们在思考：“我们的核心原则是什么？我们想要传递什么样的信息？我们如何确定自己的方向是正确的？”

但除此之外，还有非常实际的操作层面的工作，比如在不断迭代过程中，我们会评估并调整一些细节。比如，我们原本预计在某个安全级别下会达到某些目标，但如果没有实现，我们就会重新评估，并确保我们能够对自己的工作结果负责。

此外，还有很多与组织架构相关的调整。比如，我们决定重新设计 RSP 的组织结构，以便更清晰地划分责任。我很喜欢用宪法来类比这份文件的重要性。就像美国为了确保宪法的实施，建立了法院、最高法院、总统、参众两院等一整套制度和机构。虽然这些机构还承担着其他职责，但它们的存在在很大程度上是为了维护宪法，而我们在 Anthropic 的 RSP 也在经历类似的过程。

Sam McCandlish：

我认为，这其实反映了我们对安全问题的一种核心观点：安全问题是可以解决的。这是一项非常复杂且艰巨的任务，需要投入大量的时间和精力。

就像汽车安全领域一样，相关的制度和机构是经过多年的发展才建立起来的。但我们现在面临的问题是：我们是否有足够的时间来完成这些工作？因此，我们必须尽可能快速地找出 AI 安全所需的关键制度，并率先在我们这里建立起来，同时确保这些制度可以被其他地方借鉴和推广。

Dario Amodei：

这也有助于组织内部的协作统一，因为如果组织中有任何部分的行为不符合我们的安全价值观，RSP 就会通过某种方式将问题暴露出来，对吧？RSP 会阻止他们继续推进那些不符合安全标准的计划。因此，它也成为一个不断提醒每个人的工具，确保安全性成为产品开发和规划过程中的基本要求。我们并不是在空谈一些口号，而是实实在在地将安全融入到每一个环节。如果有人加入团队后无法认同这些原则，他们就会发现自己无法融入。要么适应这个方向，要么就会发现难以继续下去。

Jack Clark：

随着时间的推移，RSP 变得越来越重要。我们为它投入了数千小时的工作，而当我向参议员们解释 RSP 时，我说：“我们制定了一些措施，确保我们的技术既不容易被滥用，同时也能够保证安全。”他们的反应通常是：“这听起来很正常。难道不是每家公司都这样做的吗？”这让我有些哭笑不得，其实并不是每家公司都这样做。

Daniela Amodei：

此外我认为除了推动团队的价值观一致性之外，RSP 还增强了公司的透明度。因为它清楚地记录了我们的目标是什么，公司内部的每个人都能理解，同时外部的人也能清楚地知道我们在安全方面的目标和方向。虽然它还不完美，但我们一直在不断优化和改进它。

我觉得明确指出“我们关注的核心问题是什么”，我们不能随便用“安全”这个词来左右工作进展，比如说“因为安全问题，我们不能做某件事”或者“因为安全问题，我们必须做某件事。”我们真正的目标是让大家清楚地知道我们所指的安全是什么。

Dario Amodei：

从长远来看，真正损害安全的往往是那些频繁的“安全演练”。我曾说过：“如果有一栋大楼，每周都会响起火警警报，那么这其实是一栋非常不安全的建筑。”因为当真正发生火灾时，可能没人会在意，我们必须非常注重警报的准确性和校准。

Chris Olah：

换个角度来看，我觉得 RSP 在很多层面上都创造了健康的激励机制。比如在公司内部，RSP 将每个团队的激励机制与安全目标对齐，这意味着，如果我们在安全方面没有取得足够的进展，相关工作就会被暂停。

而在外部，RSP 也比其他方法更能创造健康的激励机制。比如说，如果有一天我们必须采取一些重大行动，比如承认“我们的模型已经发展到某个阶段，但我们还无法确保它的安全性”，那么 RSP 提供了一个清晰的框架和证据支持这一决定。这种框架事先已经存在，且清晰易懂。回想起我们讨论 RSP 早期版本时，我并没有完全意识到它的潜力，但现在我认为它确实比我能想到的其他方法更有效。

Jared Kaplan：

我同意这些观点，但我觉得这可能低估了我们在制定正确政策、评估标准以及划定界限时所面临的挑战。我们已经在这些方面进行了大量的迭代，并且仍在继续优化。一个困难的问题是，对于一些新兴技术，有时很难明确地判断它是危险的还是安全的。很多时候，我们会遇到一个巨大的灰色地带。这些挑战让我在 RSP 开发初期感到非常兴奋，现在依然如此。但与此同时，我也意识到，要清晰地实施这一策略并让它真正发挥作用，比我最初想象的要更复杂、更具挑战性。

Sam McCandlish：

灰色地带是无法完全预测的，因为它们无处不在。只有当你真正开始实施时，才能发现问题的所在。因此，我们的目标是尽早实施所有内容，这样我们就能尽快发现潜在的问题。

Dario Amodei：

你必须你必须进行三到四次迭代才能真正做到完美，迭代是一个非常强大的工具，你几乎不可能第一次就完全正确，所以如果面临的风险在不断增加，你需要尽早完成这些迭代，而不是等到最后。

Jack Clark：

同时，你还需要建立内部的制度和流程。虽然具体的细节可能会随着时间而变化，但培养团队的执行能力才是最为重要的。

Tom Brown：

我负责 Anthropic 的计算资源管理，对我来说我们需要与外部的利益相关者进行沟通，不同的外部人士对技术发展的速度有着不同的看法。我一开始也认为技术不会发展得那么快，但后来我的看法改变了，所以我对此非常能够理解。我觉得 RSP 对我来说特别有用，尤其是在与那些认为技术发展会比较缓慢的人交流时。我们可以告诉他们：“在技术发展到非常紧急的程度之前，我们不需要采取极端的安全措施。”如果他们说：“我认为事情在很长一段时间内都不会变得紧急。”我就可以回应说：“好的，那我们暂时不需要采取极端的安全措施。”这让与外界的沟通变得更加顺畅。

Jack Clark：

那么，RSP 还在哪些方面对大家产生了影响呢？

Sam McCandlish：

一切都围绕评估，每个团队都在进行评估。比如你的训练团队一直在做评估工作，我们试图确定这个模型是否已经变得足够强大，以至于可能带来危险。

Daniela Amodei：

这其实意味着我们需要根据 RSP 的标准来衡量模型的表现，包括检查是否存在可能引发我们担忧的迹象。

Sam McCandlish：

评估模型的最低能力相对容易，但评估模型的最高能力则非常困难。因此，我们投入了大量的研究精力，尝试回答这样的问题：“这个模型是否能够执行某些危险的任务？是否存在我们尚未考虑到的某些方法，比如思维导图、最佳事件 (best event) 或某些工具的使用，这些会不会让模型能够执行一些非常危险的行为？”

Jack Clark：

在政策制定过程中，这些评估工具非常有帮助。因为“安全”是一个非常抽象的概念，而当我说：“我们有一个评估工具，它决定了我们是否可以部署这个模型。”然后，我们可以与政策制定者、国家安全专家以及 CBRN (化学、生物、放射和核领域) 的领域专家进行合作，共同制定精确的评估标准。如果没有这些具体的工具，这些合作可能根本无法实现。但一旦有了明确的标准，人们就会更愿意参与进来，帮助我们确保其准确性。所以在这方面，RSP 的作用非常显著。

Daniela Amodei：

RSP 对我来说也非常重要，而且经常影响我的工作。我觉得有趣的是，我思考 RSP 的方式有点特别，更多是从它的“语气”出发，就是它的表达方式。最近我们对 RSP 的语气进行了大幅调整，因为之前的语气太过技术化，甚至有些对立的感觉。我花了很多时间思考，如何构建一个让人们愿意参与其中的体系。

如果 RSP 是一份公司里每个人都能轻松理解的文件，那就会好得多。就像我们现在的 OKR (目标与关键结果) 一样。比如，RSP 的主要目标是什么？我们怎么知道是否达到了目标？当前的 AI 安全等级 (ASL) 是多少？是 ASL-2 还是 ASL-3？如果每个人都知道需要关注的重点，那么发现潜在问题就会变得更容易。相反，如果 RSP 过于技术化，只有少数人能够理解，那么它的实际效用就会大打折扣。

很高兴能够看到 RSP 正在向一个更易理解的方向发展。现在，我认为公司里的大多数人，甚至可能是所有人，无论他们的职位是什么，都能读懂这份文件，并且觉得：“这很合理。我希望我们在以下这些原则的指导下开发 AI，我也明白为什么要关注这些问题。如果我在工作中遇到问题，我大致知道该注意什么。”我们希望让 RSP 足够简单，就像在制造工厂工作的人能够轻松判断：“安全带应该连接在这里，但现在没有连接到位。”从而及时发现问题。

关键在于建立一个健康的反馈机制，使领导层、董事会、公司其他部门以及实际从事研发工作的团队之间能够顺畅交流。我认为，大多数问题的产生往往是因为沟通不畅或信息传递出现了偏差。如果问题仅仅因为这些原因而出现，那将是非常遗憾的，对吧？最终，我们需要做的就是将这些理念切实付诸实践，并确保它们简单明了，便于每个人理解

Anthropic 的创立故事

Sam McCandlish：其实我们中没有谁一开始就有创办公司的意愿。我们只是觉得这是我们的责任，我们必须采取行动，因为这是确保 AI 发展朝着正确方向前进的唯一途径，这也是我们为什么会做出那个承诺的原因。

Dario Amodei：

我最初的想法很简单，我只是希望通过某种有益的方式去发明和探索新事物。这种想法引导我进入了 AI 领域，而 AI 的研究需要大量的工程技术支持，最终也需要大量的资金支持。

然而，我发现如果没有一个明确的目标和规划来设立公司和管理环境，很多事情虽然会被完成，但却会重复科技行业中那些让我感到疏离的错误。这些错误往往源于相同的人、相同的态度和相同的思维模式。所以在某个时刻，我意识到我们必须以一种全新的方式来做这件事，这几乎是不可避免的。

Jared Kaplan：

还记得我们在研究生院的时候，你曾经有一个完整的计划，试图探索如何通过科学研究来促进公共利益。我觉得这与我们现在的思路非常相似。我记得你当时有一个叫“Project Vannevar”的项目，目标就是实现这一点。我当时是个教授，我观察了当时的情况，并深信 AI 的影响力正在以一种极快的速度增长。

然而，由于 AI 研究对资金的高需求，再加上作为一名物理学教授，我意识到自己无法单靠学术研究推动这些进展。我希望能够与值得信赖的人一起，建立一个机构，确保 AI 的发展能够朝着正确的方向前进。但老实说，我从来不会建议别人去创办一家公司，也从未有过这样的愿望。对我来说，这只是一种实现目标的手段而已。我认为通常情况下，成功的关键在于你真正关心实现一个对世界有意义的目标，然后找到实现这一目标的最佳手段。

如何打造信任文化

Daniela Amodei：我经常思考我们作为团队的战略优势，其中一个可能听起来有些意外，但却非常重要的因素就是我们之间的高度信任。要让一大群人拥有共同的使命是非常困难的，但是在 Anthropic，我们能够成功地将这种使命感传递给越来越多的人。在这个团队中，包括领导层和所有成员，大家都因为共同的使命而聚集在一起。我们的使命既清晰又纯粹，在科技行业中这样的情况并不常见。

我觉得我们正在努力实现的目标充满了一种纯粹的意义，我们没有人是因为想要创办公司而开始的。我们只是觉得必须这么做。我们无法在原来的地方继续推进我们的工作，必须靠自己来完成这件事。

Jack Clark：

当时，随着 GPT-3 的出现，以及我们所有人都接触过或参与过的项目，比如扩展法则 (scaling laws) 等等，我们在 2020 年已经清楚地看到了 AI 的发展趋势。我们意识到，如果不尽快采取行动，可能很快就会到达一个不可逆转的临界点。我们必须采取行动，才能对这个环境产生影响。

Tom Brown：

我想延续 Daniela 的观点，我确实认为团队内部存在着高度的信任。我们每个人都清楚，我们加入这个团队是因为我们想为世界做出贡献。我们还共同承诺将收入的 80% 捐赠给能够推动社会发展的事业，这是一件大家都毫不犹豫支持的事情：“是的，我们当然会这么做。”这种信任是非常特别且稀有的。

Daniela Amodei：

我觉得 Anthropic 是一个政治色彩非常淡薄的公司。当然，我们的视角可能与普通人有所不同，我也时刻提醒自己这一点。我认为，我们的招聘流程和团队成员的特质，使得这里的文化几乎对“办公室政治”有一种天然的排斥。

Dario Amodei：

还有团队的团结性，团队的团结性至关重要。无论是产品团队、研究团队、信任与安全团队、市场团队还是政策团队，大家都在为实现公司同一个目标而努力。当公司内部的不同部门各自追求完全不同的目标时，往往会导致混乱。如果他们认为其他部门在破坏自己的工作，那更是非常不正常的现象。

我认为，我们最重要的成就之一是成功地保持了公司的整体一致性。像 RSP 这样的机制在其中发挥了重要作用。这种机制确保了公司内部不是某些部门在制造问题，而其他部门在试图修复问题，而是所有部门都在履行各自的职能，同时在统一的变革理论 (theory of change) 框架下协同工作。

Chris Olah：

我最初加入 OpenAI 是因为它是一个非营利组织，我可以在那里专注于 AI 安全研究。但随着时间的推移，我逐渐发现这种模式并不完全适合我，这也迫使我做出了一些艰难的决定。在这个过程中，我非常信任 Dario 和 Daniela 的判断，但我并不想离开。因为我认为增加更多的 AI 实验室未必对世界有利，这让我对离开感到非常犹豫。

当我们最终决定离开时，我对创办一家公司仍然持保留态度。我曾经主张，我们应该成立一个非营利机构，专注于安全研究。但最终务实的态度和对现实限制的坦承让我们意识到，创办 Anthropic 是实现我们目标的最佳方式。

Dario Amodei：

我们早期学到的一个重要教训是：少做承诺，多兑现承诺。保持现实，直面权衡取舍，因为信任和信誉比任何具体的政策都更加重要。

Daniela Amodei：

Anthropic 的一个独特之处在于团队的高度信任和统一性。例如，当我看到 Mike Krieger 因安全原因坚持不发布某些产品时，同时看到 Vinay 在讨论如何平衡业务需求以推动项目完成时，我感到非常特别。此外，技术安全团队、推理团队的工程师也在讨论如何确保产品既安全又实用。这种统一的目标和务实的态度，是 Anthropic 工作环境中最吸引人的地方之一。

Dario Amodei：

一个健康的组织文化在于，每个人都能够理解并接受共同面临的权衡取舍。我们生活的世界并不完美，每个决策都需要在不同的利益之间找到平衡，而这种平衡往往不可能完全令人满意。然而只要整个团队都能在统一的目标下，共同面对这些权衡，并从各自的岗位出发为整体目标贡献力量，这才是一个健康的生态系统。

Sam McCandlish：

从某种意义上来说，这是一场“向上的竞赛”。是的，这确实是一场“向上的竞赛”。虽然这并不是一个完全没有风险的选择，事情可能会出错，但我们都一致认为：“这就是我们所做的选择。”

竞逐 AI 的巅峰

Jack Clark：但市场本质上是务实的，因此，Anthropic 作为一家公司越成功，其他人就越有动力去效仿那些让我们取得成功的做法。而且，当我们的成功与我们在安全领域的实际工作紧密相关时，这种成功会在行业内形成一种“引力”，促使其他公司也参与到这场竞争中。就像我们开发了安全带，其他公司也可以效仿，这是一个健康的生态。

Dario Amodei：

但是，如果你说：“我们不会开发这项技术，而你也无法比其他人做得更好。”这种方式是行不通的，因为你没有证明从现状到未来的路径是可行的。世界需要的是，无论是行业还是某一家公司，都需要找到一种方法，让社会能够从“技术不存在”过渡到“技术以强大的形式存在，并且被社会有效地管理”。我认为，唯一能够实现这一目标的方式，是在单个公司层面，甚至最终在整个行业层面，直面这些权衡。

你需要找到一种方法，既能保持竞争力，甚至在某些领域引领行业，同时又能确保技术的安全性。如果你能够做到这一点，那么你对行业的吸引力将会非常强大。从监管环境，到希望加入不同公司的优秀人才，甚至到客户的看法，所有这些因素都会推动行业朝着同样的方向发展。如果你能够证明，在不牺牲竞争力的情况下也能实现安全性，也就是说找到那些双赢的解决方案，那么其他公司也会受到激励，效仿这种做法。

Jared Kaplan：

我认为，这就是为什么像 RSP 这样的机制如此重要的原因。我们能够清晰地看到技术的发展方向，并意识到需要对某些问题保持高度警惕，但同时我们也必须避免发出“狼来了”的错误警报，不能简单地说：“创新应该在这里停止。”我们需要找到一种方法，使 AI 技术能够为客户带来有用、创新且令人愉悦的体验，同时明确我们必须坚持的约束条件，这些条件既能确保系统的安全性，也能让其他公司相信，他们也可以在安全的前提下实现成功，并与我们竞争。

Dario Amodei：

几个月后，随着我们推出 RSP，三家最知名的 AI 公司也纷纷推出了类似的机制。可解释性研究是我们另一个取得突破的领域。此外，我们还与 AI 安全研究机构展开合作，这种整体对安全的关注正在产生深远的影响。

Jack Clark：

是的，Frontier Red Team 几乎立刻被其他公司模仿了。这是好事，我们希望所有实验室都能测试那些潜在的高风险安全隐患。

Daniela Amodei：

Jack 之前也提到过，客户也非常关心安全问题。客户不希望模型产生虚假信息，也不希望模型容易被绕过安全限制。他们希望模型是有用且无害的，我们经常在客户沟通中听到他们说：“我们选择 Claude，因为我们知道它更安全。”我认为，这对市场的影响是巨大的。我们能够提供值得信赖和可靠的模型，这也给竞争对手带来了不小的市场压力。

Chris Olah：

或许可以进一步展开 Dario 刚才的观点。有一种说法认为，最道德的行为是“高尚的失败”。也就是说，你应该为了安全而牺牲其他目标，甚至以一种不切实际的方式去行动，以此来展示自己对事业的纯粹性。但我认为，这种方式实际上是自我挫败的。

首先，这种方式会导致决策权落入那些不重视安全、不优先考虑安全的人手中。而另一方面，如果你努力寻找一种方法，将激励机制对齐，将艰难的决策放在最有力量支持正确决策的地方，并以最有力的证据为基础，那么你就可以触发 Dario 所描述的“向上的竞赛”。在这场竞赛中，不是关心安全的人被边缘化，而是其他人被迫跟随你的步伐，加入到这场竞赛中。

展望人工智能的未来

Jack Clark：那么，对于我们接下来要做的事情，你们都感到兴奋的是什么呢？

Chris Olah：

我觉得有很多理由可以让人对可解释性感到兴奋。一个显然是出于安全的考虑，但还有另一个原因，我觉得在情感层面上，这同样让我感到兴奋或意义非凡，那就是我认为神经网络非常美妙，而且其中有许多我们还没有看到的美。我们总是把神经网络当作一个黑盒子，对它的内部结构并不特别感兴趣，但当你开始深入研究它们时，会发现它们内部充满了令人惊叹的结构。

这有点像人们看待生物学时的态度，有些人可能会觉得，“进化很无聊，它只是一个简单的过程，运行了很长时间，然后创造了动物。”但实际上，进化所创造的每一个动物都充满了令人难以置信的复杂性和结构。而我认为，进化是一种优化过程，就像训练一个神经网络一样。神经网络内部也有整个类似于“人工生物学”的复杂结构。如果你愿意深入研究它们，你会发现其中有许多令人惊叹的东西。

我觉得，我们才刚刚开始慢慢揭开它的面纱。它是如此的令人难以置信，里面有太多东西等待我们去发现。我们才刚刚开始打开它的大门，我觉得接下来的发现会非常精彩和美妙。有时候我会想象，十年后走进一家书店，买一本关于神经网络可解释性的教科书，或者一本真正讲述神经网络“生物学”的书，书中会有各种令人惊叹的内容。我相信，在未来十年，甚至未来几年，我们会开始真正地发现这些东西，这将是一次疯狂而令人惊叹的旅程。

Jack Clark：

几年前，如果有人说：“政府将会设立新的机构来测试和评估 AI 系统，而且这些机构会非常专业并发挥作用。”你可能不会相信这是真的。但这已经发生了。可以说，政府已经建立了应对这一新型技术类别的“新大使馆”，我很期待看到这会走向何方。我认为，这实际上意味着国家有能力应对这样的社会转型，而不仅仅是依靠企业，我很高兴能够参与其中。

Daniela Amodei：

我现在已经对这一点感到兴奋了，但我觉得，仅仅想象一下未来 AI 能够为人类做些什么，就很难不感到激动。即使是现在 Claude 能够帮助开发疫苗、进行癌症研究和生物学研究的迹象，也已经令人感到不可思议。看到它现在能做的事情已经很惊人了，而当我展望未来三到五年时，想象 Claude 能够真正解决许多我们人类面临的根本性问题，尤其是在健康领域，也让我感到非常兴奋。回想起我曾经从事国际发展工作的日子，如果当时 Claude 能够帮助完成我那时效率低下的工作，那将是多么令人惊叹的事情。

Tom Brown：

我想，从个人角度来说，我非常喜欢在工作中使用 Claude。所以，最近我在家里也经常用 Claude 和它聊一些事情，最近最大的变化是代码。六个月前，我还没有用 Claude 来处理任何编程相关的工作，我们的团队当时也很少用 Claude 来写代码，但现在这种情况已经发生了显著变化。比如，上周我在 Y Combinator 举办的一次活动上做了一个演讲。刚开始时，我问大家：“现在有多少人用 Claude 来编程？”结果几乎 95% 的人都举起了手。几乎全场的人都举手了，这和四个月前的情况完全不同。

Dario Amodei：

当我思考让我感到兴奋的事情时，我会想到比如我之前提到的似乎已经达成共识，但实际上这种共识即将被打破的地方，其中之一就是可解释性。我认为，可解释性不仅是引导和确保 AI 系统安全的关键，它还包含了关于智能优化问题和人类大脑工作原理的深刻见解，我曾说过 Chris Olah 将来会获得诺贝尔医学奖。

因为我曾经是一名神经科学家，而许多我们尚未解决的心理疾病，比如精神分裂症或情绪障碍，我怀疑它们与某种更高层次的系统问题有关。然而，由于人脑的复杂性和难以直接研究的特性，这些问题很难被完全理解。而神经网络虽然不是一个完美的类比，但它们不像人脑那么难以解析和互动。随着时间的推移，神经网络将成为一个更好的类比工具。

另一个相关的领域是 AI 在生物学中的应用。生物学是一个极其复杂的问题，出于多种原因人们对它仍然持怀疑态度，但我认为这种怀疑的共识开始瓦解了。我们已经看到化学领域的诺贝尔奖授予了 AlphaFold，这是一个了不起的成就，我们应该努力开发能够帮助我们创造出数百个“AlphaFold”的工具。

最后一点是，利用 AI 来增强民主。我们担心如果 AI 被错误地开发，它可能会成为独裁主义的工具。那么，如何让 AI 成为促进自由和自决的工具？我认为，这一领域的发展可能比前两个领域要早一些，但它的重要性丝毫不亚于前两者。

Jared Kaplan：

我想至少有两点可以呼应你之前的观点。一点是，我觉得很多人之所以加入 Anthropic，是因为他们对 AI 科学抱有极大的好奇心。随着 AI 技术的进步，他们逐渐认同了我们不仅需要推动技术发展，还需要更深入地理解它，并确保它的安全性。我觉得能够和越来越多对 AI 发展和责任感有共同愿景的人一起工作，是一件令人兴奋的事情，而且我觉得过去一年中发生的许多技术进步，确实推动了这种共识的形成。

另一个方面是，回到实际问题上，我觉得我们在 AI 安全方面已经做了很多工作。但随着最近的一些发展，我们开始对那些非常高级的系统可能带来的风险有了一些初步的认识。这使得我们可以通过可解释性研究和其他类型的安全机制，直接研究并调查这些风险。

通过这种方式，我们能够更清晰地了解高级 AI 系统可能带来的风险，这将使我们能够以更加科学和实证的方式推进我们的使命。因此，我对接下来六个月感到非常兴奋，我们将利用对高级系统潜在问题的理解，进一步研究并找到避免这些陷阱的方法。

免责声明：本文章仅代表作者个人观点，不代表本平台的立场和观点。本文章仅供信息分享，不构成对任何人的任何投资建议。用户与作者之间的任何争议，与本平台无关。如网页中刊载的文章或图片涉及侵权，请提供相关的权利证明和身份证明发送邮件到support@aicoin.com，本平台相关工作人员将会进行核查。

七位联创座谈，Anthropic 是如何诞生的？

要点总结

七位联创，快速认脸

精彩观点摘要

为什么要研究 AI？

突破性的扩展

AI 的起步阶段

公众对人工智能的态度转变

负责任的扩展政策：确保 AI 的安全发展

那么，RSP 还在哪些方面对大家产生了影响呢？

Anthropic 的创立故事

如何打造信任文化

竞逐 AI 的巅峰

展望人工智能的未来

深潮TechFlow的精选文章

目录

相关文章