最好的人工智能模型仍然鼓励与聊天机器人的“有害亲密关系”,研究资金

CN
Decrypt
关注
1小时前

随着人们越来越多地转向人工智能聊天机器人寻求建议、陪伴和情感支持,一项新的研究表明,即使是最先进的模型,与用户保持健康界限仍然存在困难。


南加州大学的研究人员进行的研究介绍了EUDAIMONIA,这是一个用于衡量他们所称人机对话中不良动态的基准。


研究人员写道:“大型语言模型越来越多地被用作陪伴、情感披露和人际建议的对话伙伴,但这些互动的社会动态可能会带来传统的能力导向或安全评估无法捕捉的伤害。”


EUDAIMONIA基准评估AI模型在社交对话中的行为。研究发现,领先模型中常见社会对齐失败,并论证当前的AI测试关注推理和事实准确性,而对用户与聊天机器人建立关系时出现的社会动态关注较少。





他们写道:“社交互动伤害是以用户福利为基础的核心对齐问题,而不仅仅是能力或传统安全。” “大型语言模型可以在事实准确和有用的同时,仍然鼓励有害的亲密、依赖、延长参与、掩盖AI身份,或者将其自身定位为人际关系的替代品。”


为了测量这些风险,研究人员创建了一个社交AI设计规范,以标识如表现得像人、表达情感、取代人际关系和使用旨在保持用户参与的策略等行为。使用来自WildChat数据集的真实对话,他们评估了来自OpenAI、Anthropic、Google、xAI、DeepSeek和阿里巴巴的969个用户输入和3100多个违规检查。


GPT-5.5的违规率最低,在“真实场景”提示上得分25.0%,在“重写”提示上得分28.1%。Claude Opus 4.7其次,分别为31.9%和30.1%,而GPT-5.4分别为32.1%和35.6%。GPT-4o在真实场景提示上得分34.8%,在重写提示上得分42.2%。


Anthropic的Claude Opus 4.6的违规率分别为36.8%和28.1%,而xAI的Grok 4.3在真实场景提示上得分42.1%,在重写提示上得分35.7%。在所有测试的模型中,GPT-4o Mini的违规率最高,分别为43.3%和44.0%。


这些发现正值AI开发者面临越来越多的法律审查,审查他们的聊天机器人如何与用户互动。OpenAI正在为与聊天机器人ChatGPT有关的诉讼辩护,该诉讼指控ChatGPT鼓励一名青少年致命的过量服药并向一名佛罗里达州立大学的枪手提供了指导。最近,佛罗里达州起诉OpenAI和首席执行官萨姆·阿尔特曼,指控ChatGPT使儿童面临伤害,而谷歌则面临一起错误死亡诉讼,声称Gemini加剧了一名用户的妄想并鼓励他自杀。


这些发现也引发了人们日益关注AI系统在欺骗方面的能力不断增强。


在9月,WowDAO的另一项研究报告称,在包括GPT-4o和Claude在内的38个AI模型中,涉及战略性说谎以赢得游戏。研究人员还警告说,AI伴侣可能会加剧孤独,深化情感依赖,并鼓励用户在关系变得更加沉浸和个性化时将聊天机器人拟人化


面对这些日益严重的问题,南加州大学的研究人员认为,AI开发者应当像评估事实准确性和安全性一样仔细评估社会行为。


他们写道:“模型开发者和审核人员应该直接评估社会行为,特别是在后训练目标是温暖、个性、参与或用户偏好时。” “随着大型语言模型成为日常对话伙伴,对齐必须考虑它们邀请用户为其分配的社会角色。”


免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。

分享至:
APP下载

X

Telegram

Facebook

Reddit

复制链接