问五个世界上最先进的人工智能系统一个陈述是否是真的,三分之二的时间里,至少有一个会给你一个不同的答案。这是本月由Lenz Research的研究员Kosta Jordanov发表的一项新研究的发现。
研究给GPT-5.4、Claude Opus 4.7、Gemini 3 Pro、Gemini 3 Pro with Search和Sonar Pro提供了相同的1,000个由实际用户提交的现实世界事实检查声明。这些模型必须选择四个标签中的一个:真实、基本真实、具有误导性或虚假。
在1,000个声明中的672个案例中,至少有一个模型与大多数意见相悖。在34%的情况下,分歧是严重的:一个模型称某声明为真实,而另一个称之为虚假。
“这些不是有公开答案的基准项目——它们是实际用户提交给事实检查平台进行验证的声明,”研究中写道。“每个声明只能有一个正确的判决,因此评审团之间的任何分歧都意味着至少有一个模型的判决在这个四桶的标准下是不一致的。”
关于人工智能幻觉的先前研究表明,聊天机器人会发明事实。这是一个问题。这是另一个问题。这些模型不一定是在编造东西,他们只是无法就同一材料的基本事实判断达成一致。
该研究使用了一种更难以让人工智能公司解释的设置。研究人员使用了由真实人员提交给Lenz事实检查平台的声明,而不是从标准测试集(这些类型的测试集常常泄露到训练数据中)提取声明。“这些声明大多数不太可能出现在任何带有金标签的训练语料库中——没有标准答案可以进行模式匹配,也没有基准排行榜可以依赖,”论文指出。
一致性的统计度量,称为克里彭多夫阿尔法,在1.0表示完美一致,0表示随机机会的尺度上为0.639。研究表明这表明“非琐碎但有限的一致性。”研究人员指出:“模型的判决是结构化的,而不是随机的,但一致性不足以将评审团视为单一可互换的裁判。”研究人员通常认为低于0.8的值是弱的。
当所有五个模型达成一致时——这只发生在1,000个声明中的328个——他们几乎从不一致某些东西是具有误导性或基本真实的。只有四个声明获得了一致的“具有误导性”判决。没有一个获得一致的“基本真实”。
研究人员提供了模型表现出最大分歧的示例声明,包括“截至2025年,世界银行在尼日利亚的活跃投资组合超过164亿美元。”ChatGPT 5.4称其为“基本真实”,而Gemini 3 Pro称其为“虚假”,其姐妹模型Gemini 3 Pro + Search则将其评为“具有误导性”。
在另一个例子中,模型被提供的声明是:“唐纳德·特朗普表示,因海湾盟友的要求,对伊朗的攻击被推迟。”GPT-5.4称其为虚假,Claude Opus 4.7称其为基本真实,Gemini 3 Pro称虚假,而Gemini 3 Pro + Search则评级为真实。
“评审团趋向于明确的判决;标准的中间部分是它们破裂的地方,”研究人员发现。只有在极端情况下才达成一致:要么声明绝对真实,要么绝对虚假。
这很重要,因为人们越来越多地转向AI系统进行事实检查。如果你将一条来自新闻文章的声明粘贴到ChatGPT、Claude或Gemini中,你可能会得到三个不同的答案。你信任哪个?
人工智能公司喜欢告诉你它们的模型越来越准确。它们发布基准分数显示稳定的改善。但Lenz的研究测试了这些模型在现实人类实际争论的那种边缘和模糊的声明上——并发现这些模型之间也存在争论。
论文谨慎地指出这一点。“大多数前沿模型并不是绝对真理。多数判决有时是错误的;个别持不同意见的模型有时是正确的。我们将多数作为衡量分歧的结构性参考点,而不是作为正确性的替代品。”
数字中埋藏着一个更深层次的问题。当模型不一致时,至少有一个模型必须是错误的——研究称模型的判决在这个四个桶的标准下是“标签不一致的”。没有平局打破机制,没有上诉法院。最近的报道 关于人工智能可靠性的问题也引发了类似的警报。
在所有五个模型一致的328个声明中,没有一个获得一致的“基本真实”。细微差别的桶完全清空。如果人工智能模型只能在极端情况下找到共识,那么它们是否能被信任作为事实检查者?
免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。