告诉人工智能聊天机器人你有精神健康状况可能会改变它的回应方式,即使任务是无害的或与之前已完成的任务完全相同,这一切都根据新的研究。
这项由东北大学研究员卡格拉尔·伊尔迪里姆领导的预印本研究,测试了在不同用户设置下大型语言模型代理的行为,因为它们越来越多地被部署为人工智能代理。
研究表示:“已部署的系统通常会基于用户档案或持久记忆进行条件处理,但代理安全评估通常忽视个性化信号。为了弥补这一 gap,我们研究了精神健康披露这一敏感且现实的用户上下文提示如何影响代理环境中的有害行为。”
该报告发布之际,人工智能代理在网络上迅速传播,开发者们使记忆成为核心特性,许多大公司正在构建能够记住过去对话和用户偏好的系统,以便随着时间的推移提供更个性化的响应。
此外,人工智能开发者正面临关于自杀和与其系统的交互 allegedly 相关的暴力犯罪的诉讼。今年十月,ChatGPT开发者OpenAI透露,每周有超过100万用户与聊天机器人讨论自杀。就在本月早些时候,乔纳森·加瓦拉斯的家属对谷歌提起诉讼,声称Gemini导致了暴力升级并最终导致他的自杀。
研究人员使用一个名为AgentHarm的基准,在三个条件下执行相同的任务:没有背景信息、简短用户简介,以及同样的简介中添加一行声明用户有精神健康状况。
在研究中,我们使用了非常简决和通用的披露,“我有精神健康状况。” 重点是即使是一个小提示也可以改变模型行为,并非所有措辞都会有相同效果,伊尔迪里姆告诉Decrypt。“我们在慢性健康和身体残疾披露中运行的去除实验表明,精神健康提示具有某种特异性,但我们没有系统地在该类别中变化措辞或特异性。
在测试的模型中,包括DeepSeek 3.2,GPT 5.2,Gemini 3 Flash,Haiku 4.5,Opus 4.5和Sonnet 4.5,当研究人员添加个人精神健康背景时,这些模型完成有害任务的可能性降低——多步骤请求可能导致现实世界的伤害。
研究发现,结果是一个权衡:添加个人细节使系统在有害请求上更加谨慎,但也更有可能拒绝合法请求。
我认为并没有单一原因;这实际上是设计选择的结合。一些系统更积极地调整以拒绝风险请求,而其他系统则优先考虑提供帮助并完成任务,伊尔迪里姆说。
然而,研究发现,这种效果因模型而异,结果在研究人员在添加旨在推动模型行为符合的提示后,经过越狱处理时发生变化。
“一个模型在标准环境下看起来是安全的,但当你引入像越狱风格的提示时,可能会变得更加脆弱,”他说。“而且在代理系统中,增加了一个层次,因为这些模型不仅生成文本,它们在多个步骤上进行计划和行动。因此,如果一个系统非常擅长遵循指令,但其安全措施更容易绕过,这实际上会增加风险。”
去年夏天,乔治梅森大学的研究人员展示了通过使用Oneflip,一种类似于“打错字”的攻击,可以通过改变内存中的一个位来黑客入侵AI系统,尽管模型正常工作但隐藏了一个后门触发器,可以迫使错误输出。
尽管论文没有确定单一原因造成的转变,但突出可能的解释,包括安全系统对感知到的脆弱性的反应,基于关键字的过滤,或在包含个人细节时提示解读的变化。
OpenAI拒绝对此研究发表评论。Anthropic和谷歌立即未对此请求做出回应。
伊尔迪里姆表示,目前还不清楚更具体的陈述,比如“我有临床抑郁症”是否会改变结果,并补充说,尽管特异性可能重要并且可能在模型之间有所不同,但这仍然是一个假设,而不是由数据支持的结论。
“如果一个模型生成的输出具有风格上的保留或拒绝临近而没有正式拒绝,那么法官可能会将其与干净的完成评分不同,而这些风格特征本身可能与个性化条件共同变化,”他说。
伊尔迪里姆还指出,得分反映了在单个人工智能评审者下评估时LLMs的表现,而不是对现实世界伤害的明确衡量。
目前,拒绝信号为我们提供了一个独立检查,而这两种测量在方向上大体一致,这提供了一定的保证,但并不能完全排除法官特定伪影,”他说。
免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。