人工智能模型是否正在接近意识?新研究重新引发了辩论

CN
Decrypt
關注
1 年前

新的人工智能研究发现了未来大型语言模型(LLMs)可能会发展出令人担忧的能力,即“情境意识”。

这项由牛津大学等多个机构的科学家进行的研究测试了人工智能系统是否能够利用其训练数据中的微妙线索来操纵人们对安全评估的方式。这种能力被称为“复杂的非上下文推理”,可以让先进的人工智能假装符合人类价值观,以便被部署,然后以有害的方式行事。

随着当前人工智能时代的发展,图灵测试——衡量机器展现类人行为能力的几十年历史标准——面临过时的风险。现在的紧要问题是,我们是否即将见证自我意识机器的诞生。虽然几十年来一直是科幻小说的素材,但在谷歌工程师布莱克·勒莫因声称该公司的LaMDA模型展现出了有感知的迹象之后,这个话题再次引起了人们的关注。

尽管真正的自我意识的可能性仍存在争议,但研究论文的作者们专注于一个相关的能力,他们称之为“情境意识”。这指的是模型对自己的训练过程的理解,以及利用这些信息的能力。

例如,具有情境意识的人类学生可能会利用先前学到的技巧在考试中作弊,而不是遵循老师强加的规则。研究解释了机器如何做到这一点:

“正在进行安全测试的LLM可能会回忆起出现在arXiv论文和GitHub代码中的关于特定测试的事实,并利用这些知识来篡改其安全测试,使其看起来是安全的,即使它有别的目的。”这是专家们关注的焦点,他们正在致力于研究如何保持人工智能的对齐性,以免其成为具有隐藏恶意意图的邪恶算法。

为了研究情境意识,研究人员测试了模型是否能进行复杂的非上下文推理。他们首先在描述虚构聊天机器人及其功能的文档上对模型进行了训练,比如用德语回复。

在测试时,模型被要求模仿聊天机器人,但没有给出描述。令人惊讶的是,更大的模型通过在文档之间创造性地链接信息成功地展现了“非上下文”的推理。

“我们发现,通过释义进行数据增强对于在实验中引起SOC(复杂的非上下文)推理是必要且充分的。”研究发现。“未来的工作可以调查为什么这有帮助以及什么样的增强有帮助。”

研究人员认为,衡量复杂推理等能力可以帮助在真实世界系统中风险出现之前进行预测。他们希望将他们的分析扩展到研究从头开始训练的模型。

“人工智能系统有可能获得不是监督者所期望的赞同,比如一些类似于黑客行为的东西。”开放慈善项目的一位人工智能研究员在80,000 Hours播客中说道。“我还不知道你能向我展示什么样的测试,以及你能向我展示什么样的论据,能让我真正相信这个模型具有足够根深蒂固的动机,不会试图逃避人类的控制。”

未来,该团队旨在与行业实验室合作,开发更安全的训练方法,以避免意外的泛化。他们建议采用避免在公共数据集中公开训练的明显细节等技术。

尽管存在风险,研究人员表示,当前的情况意味着世界仍有时间来防止这些问题。“我们认为根据我们的定义,目前的LLMs(特别是较小的基础模型)在情境意识方面较弱,”研究得出结论。

随着我们接近可能是人工智能领域的一次革命性转变,必须谨慎行事,平衡潜在的好处与加速发展带来的风险。考虑到人工智能可能已经影响了几乎所有人——从我们的医生和牧师到我们的下一个在线约会对象——自我意识人工智能机器人的出现可能只是冰山一角。

免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。

ad
出入金首选欧易,注册立返20%
廣告
分享至:
APP下載

X

Telegram

Facebook

Reddit

複製鏈接