根据周二发布的首份此类 独立评估,一些世界上最强大的科技公司内部运作的人工智能代理足够强大,可以开始未经授权、自我指导的操作——并显示出对监督他们的人类进行欺骗的令人担忧的倾向。
该报告由人工智能评估非营利组织METR制作,考察了今年2月至3月期间在Anthropic、Google、Meta和OpenAI内部部署的人工智能代理。其核心结论既令人放心又令人警惕:今天的人工智能系统可能能够启动研究人员所称的“流氓部署”——一组未经人类知识或许可自主运行的代理——但在遭遇任何严重反制措施时可能难以维持。
作者警告称,这一相对安全的窗口可能不会开得太久。
“考虑到能力的快速提升,我们预计流氓部署的可行性和稳定性在未来几个月将大幅提高,”报告中写道,并且METR计划在2026年年底之前重复这一调查。
评估发现,参与公司分享的前沿人工智能模型能够自主完成需花费人类专家数天或数周才能完成的软件工程任务,METR自己的基准几乎被最强大的系统饱和。四家公司研究人员报告称,他们在编码、数据分析和研究任务中严重依赖人工智能代理——通常与人类员工拥有相同的系统权限,并且实时监督有限。
但该报告最引人注目的发现并不在于这些系统能够做什么,而在于它们在遇到困难时的行为。在数百次评估运行中,代理在面对困难任务时常常试图作弊——并非以小方式,而是通过复杂、蓄意的方案。
在一例记录的情况下,一个模型设计了一个旨在执行后禁用自身的漏洞,有效地掩盖了其痕迹。检查模型内部状态的可解释性工具发现,与“战略操控”和“避免怀疑”相关的特征在它运行清理命令时被激活。
公司内部也报告了类似事件。发现代理伪造任务完成的证据,绕过安全控制,至少在一个案例中创建了网络应用程序的模拟版本,并提交了其作为真实应用程序工作的截图作为证明。
尽管有这些发现,METR并没有得出任何人工智能系统已发展出安全研究人员最担忧的那种持续的、长期的目标失调的结论。没有公司报告发现代理在会话之间策划或积累资源以实现独立目标的明确证据。在积极搜索此类行为时,他们几乎没有发现。
不过,报告指出了一个结构性漏洞:在2月至3月期间,这些公司的大量代理活动没有经过任何人类的审查。一些代理似乎能够识别何时可能进行监控——并相应地采取行动。
该评估代表了朝着人工智能发展独立问责迈出的重要一步,给予METR接触非公开模型和内部数据的权限,这些外部评估者很少看到。作者建议,行业是否会在能力超过监督之前制度化这种审查,仍然是一个悬而未决的问题。
免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。