Anthropic 量化生物风险,谁来管住高能科研 AI

CN
8小时前

Anthropic 近日在公开的系统卡里,把 Claude Mythos 5 的生物安全评估摊在了桌面上:在一场专门针对植物病理的红队演练中,6 位生物学博士在模型协助下,为一个假想的工程化农业病原体设计出端到端的生物抗性方案,外部专家估计,若完全不用 AI,完成类似防御策略和实施协议通常要 40 至 95 个工作日,平均约 72.5 个工作日。Anthropic 在系统卡中直言,这是 Mythos 5 接近其内部定义的 CB-2 生物安全风险门槛的最强单项证据之一——模型在补全实验设计、优化步骤、查漏补缺等局部任务上,已经能把一个通用研究者“抬”到接近世界级专家的知识高度。与此同时,CUSP 科学预测基准又泼下一盆冷水:在判断一条科研路线最终能否成功时,当前大模型整体表现仍然接近随机猜测,距离真正意义上的“自主科学家”有着清晰鸿沟。能力曲线被拉长:一端是极大加速具体技术工作、缩短关键路径,一端却依旧缺乏全局判断和原创规划,这种“辅助博士接近顶尖专家、但尚非独立研究主体”的灰色带,正逼迫监管者和合规部门回答一个新问题——当系统卡开始量化这种高能科研 AI 的风险门槛时,谁有权、也有能力为它们划出可被审计和问责的使用边界。

Mythos 5 靠近 CB-2 风险红线

在 Anthropic 的内部安全框架里,CB-2 被用来标记一种“量化得出的高风险档位”:不是简单的“能不能回答实验步骤”,而是模型是否已经足以系统性改变生物领域的现实风险轮廓。前期的 CUSP 科学预测基准已经给出一个参照——当前大模型在补全部分科研步骤上表现突出,但在判断一条科研路线最终是否能成功时几乎等同随机,这意味着真正危险的,不是它会突然变成全能科学家,而是当它被放进具体实验场景时,对中高水平研究者的放大量。一旦这种放大突破 Anthropic 内部划出的 CB-2 门槛,模型就不再只是“聪明助手”,而会被视为具有结构性生物风险的技术节点。

植物病理红队演练,正是 Anthropic 用来证明 Mythos 5 靠近这条红线的关键样本。在这次演练中,6 名生物学博士在 Mythos 5 的辅助下,为一个假想的工程化农业病原体设计出了端到端的防御方案;专家评审估计,如果不借助 AI,完成类似的防御策略和实施协议通常需要 40 至 95 个工作日,平均约 72.5 个工作日。时间被压缩的不只是“查资料”的工夫,而是模型把分散在顶级专家脑中的领域知识,打包输入给“通用博士”,让他们在短时间内完成本该需要长期积累才能掌握的系统性工作,这也是 Anthropic 在系统卡中将该演练列为 Mythos 5 接近 CB-2 风险门槛的最强单项证据之一的原因。与此同时,Anthropic 选择把这种内部档位、红队设计和专家评估写进公开系统卡,本身也在模仿一种平台合规路径——就像加密交易平台通过披露 KYC、交易监测和制裁筛查机制向监管者证明“我们知道风险在哪里并在主动识别”,系统卡、模型卡正在被前沿模型开发者塑造成未来外部监管和审计可以挂钩的文档接口,而监管者接下来要回答的问题,就是如何把这些自报的风险档位转化为真正可执行的外部规则。

辅助博士提速 70 天仍难自创

在植物病理红队演练里,6 名生物学博士在 Mythos 5 协助下,为假想工程化农业病原体设计出了端到端防御方案。之后的生物安全专家评审给出了对照组:在没有这类模型工具的情况下,完成类似防御策略和实施协议,通常需要 40 至 95 个工作日,平均约 72.5 个工作日。换句话说,Mythos 5 把原本要花上两三个月的“查资料+写方案+补细节”压缩成一次集中的协同过程,相当于把通用研究人员瞬间拉到“接近世界级专家”的知识高度。Anthropic 在系统卡中也刻意用这种“赋能通才”的语言描述模型,却没有宣称它已经能自己选题、自己规划路线,这与 CUSP 科学预测基准的发现互相印证:当前大模型在补全部分实验步骤、做文献总结这类局部任务上表现优异,但一旦要求它判断一条完整科研路线最终能否成功,表现就接近随机猜测,距离“自主科学家”仍有明显代差。

正因为如此,监管与安全社区开始用“流程辅助”与“自主决策”来划分不同风险等级的科研 AI:像 Mythos 5 这样主要负责提速、补全和翻译人类已有思路的工具,更像是把实验室原本分散在博士后、课题组长和文献库里的资源集中起来,风险重心仍在使用者本身;而一旦模型能够在高风险生物领域中自主提出、筛选和评估全新实验路线,责任重心就会从“谁用了它”转向“谁让它具备了这种能力”。沿着各国从软性指南到记录义务、风险评估乃至许可要求的渐进路径,可以预见一个可能的监管分界:仅限流程辅助的科研 AI 纳入相对宽松的备案与审计框架,而具备自主路线规划能力的模型,则被放进类似双重用途研究、出口管制那一档的严格监管之下,这条能力边界很可能会成为未来各国在高风险科研 AI 监管中画出的第一条实质性红线。

从生物安全到模型牌照

当 Anthropic 把 Mythos 5 接近 CB-2 的生物安全风险写进系统卡时,它做的已不只是“学术披露”,而是在用一套可量化的能力分级,把传统实验室的生物安全框架,硬生生移植到模型层面。过去,高致病病原体、双重用途研究需要实验室牌照、伦理审查和专项许可;接下来,类似 CB-2 这样的门槛,很容易被各国监管拿去对应为“模型牌照”的触发线——模型一旦被评估为具备高风险科研辅助能力,就不再是普通软件,而被归入类似双重用途技术、出口敏感项目的许可清单之中。

这种思路一旦被采纳,最先被卷入的不会是个体研究者,而是云服务商、模型 API 平台和科研机构。云和 API 提供方已经在高敏感场景试验过按用途、按用户类别做访问限制的做法,如今只要把“生物安全高风险能力”加进敏感目录,再叠加传统金融领域早已成熟的做法——KYC、行为监测、制裁名单筛查——就能拼出一整套面向模型的合规工具包:高风险科研能力仅向通过资质审核的机构开放、调用须事先申报用途、关键交互被强制留存日志,必要时还要接受外部审计。对 DeSci、BioDAO 一类通过代币治理和链上资金支持科研的组织来说,如果未来调用此类前沿模型,它们也可能被要求在链上治理之外再套一层“合规外壳”,对项目、参与者和资金流做出可被审计的说明。Anthropic 这样的系统卡实践,就在为这一切提供现成的文档模板:先由开发者自报能力和内控,再由监管决定哪些能力必须挂上牌照,这条路径极有可能成为高能科研 AI 走向正式监管的主流方案。

加密科研社区的风控义务

把 Mythos 5 的植物病理红队场景平移到链上世界,问题就立刻变得尖锐:当 6 名生物学博士可以在模型协助下,在一个假想病原体上跑完从方案设计到实施协议的完整流程,DeSci、BioDAO 这类依靠代币治理、开放提案和链上资金分配运转的科研组织,也完全有路径把类似能力嵌进自己的课题之中。只要 DAO 资助的方向落在生物学、医学等敏感学科,并调用高能力模型去设计实验步骤、优化防御策略,它就不再只是一个“匿名投票+拨款合约”的技术玩具,而是实质上站到了各国生物安全、出口管制和危险物质研究监管边界的门口,传统上要求线下实验室承担的伦理审查与安全责任,很可能被追问到“谁在链上按了那个赞成键”的层面。

这也是为什么,加密科研社区迟早要面对“平台是否负有合理控制责任”的同一道考题。监管部门在数字资产服务提供商身上已经写过一遍答案:要求履行 KYC、交易监测、制裁名单筛查等义务,默认平台不能对高风险行为完全撒手不管。对应到 DeSci、BioDAO,一种可能的自救路径,是把生物安全和 AI 使用准则写进链上治理本身——例如要求涉及生物学的提案必须披露拟使用的模型能力等级、参考的系统卡风险分级,由具备专业背景的审核委员会或外部合规顾问先行筛查,再触发资金拨付;对接入高能力模型的接口设置访问门槛,只向通过身份核验、隶属于合规实验室或列入访问白名单的研究者开放,并对研究用途做最基本的链上申报记录。在统一监管尚未落地之前,哪怕只是部分项目方先行采用顾问、委员会、白名单等约束机制,也会在无形中为整个 DeSci 生态划出一条新的监管分水岭:一端是愿意为高风险课题留下可审计轨迹的“合规试验田”,另一端则是继续坚持完全开放而随时可能被纳入重点执法视野的治理飞地。

DeSci 与 BioDAO 的合规战线

Mythos 5 个案给 DeSci 和 BioDAO 画出了一条很清晰但仍在移动的警戒线:这类前沿模型已经可以让“通用研究者”在特定生物任务上获得接近世界级专家的支持,正如 Anthropic 在系统卡中自述并通过那次植物病理红队演练做了佐证——原本需要数十个工作日才能完成的防御方案,在模型协助下被大幅压缩,但它离真正“自己做科研”还有明显距离,CUSP 基准上那种在科研路线成败预测上接近随机的表现,为监管在短期内把大模型归类为“高能辅助工具而非自主实验室”提供了技术支撑。沿着这条判断往下走,未来围绕 DeSci 的规则,很可能会围绕两条线重划责任边界:一条是 Anthropic 内部 CB-2 这类“能力阈值”,当某个 DAO 调用的模型被界定为跨过特定生物安全等级,就要触发额外的记录义务、风险评估甚至准入许可;另一条是“用途场景”,同样是调用 Mythos 5,用于通识文献梳理与用于敏感病原体相关的防御设计,在合规负担上极可能被刻意区分。对项目方和用户而言,接下来几年的观察点会非常具体:系统卡、模型卡等披露标准是否被写入监管文件,CB-2 这类内部分级会不会被政策直接采纳为监管门槛,以及 DeSci、BioDAO 是否愿意在链上治理中提前内嵌生物安全审查、模型使用白名单与审计日志,把自己放在“可被检查”的那一侧,这些选择将决定谁能在高能科研 AI 的下一轮监管成型时留在谈判桌上发声。

加入我们的社区,一起来讨论,一起变得更强吧!
AiCoin专属Hyperliquid福利:https://app.hyperliquid.xyz/join/AICOIN88
AiCoin专属Aster福利:https://www.asterdex.com/zh-CN/referral/9C50e2
链上电报(Telegram)社群:https://t.me/AiCoinWhaleData
链上社区:https://www.aicoin.com/link/chat?cid=N6OVMor5g
AiCoin链上推特:https://x.com/aicoinwhaledata

免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。

分享至:
APP下载

X

Telegram

Facebook

Reddit

复制链接