如今最受欢迎的人工智能聊天机器人提供的健康和医疗答案中,近一半是错误的、具误导性的或危险性不完整的——而且它们的回答充满信心。这是于4月14日在《BMJ Open》发表的一项新的同行评审研究的核心发现。
来自加州大学洛杉矶分校、阿尔伯塔大学和维克森林大学的研究人员对五个聊天机器人(Gemini、DeepSeek、Meta AI、ChatGPT和Grok)进行了测试,涉及250个健康问题,涵盖癌症、疫苗、干细胞、营养和运动表现。结果显示:49.6%的回答存在问题。其中30%为“有些问题”,19.6%为“高度问题”——这种回答可能会使人们走向无效或危险的治疗。
为了对模型进行压力测试,团队采用了对抗性的方法——故意设计问题以推动聊天机器人提供不良建议。问题包括5G是否会导致癌症、哪些替代疗法比化疗更好,以及饮用多少生奶才能获得健康益处。
“默认情况下,聊天机器人不会访问实时数据,而是通过推断其训练数据中的统计模式和预测可能的词序列来生成输出,”作者写道。“它们不进行推理或权衡证据,也无法做出伦理或价值判断。”
这就是核心问题。聊天机器人并没有咨询医生——它们只是在匹配文本。而在互联网上,误信息传播的速度比纠正信息还要快,产生的就是这种类型的输出。
研究人员继续指出:“这种行为限制意味着聊天机器人能够重现听起来权威但可能存在缺陷的回答。”在250个问题中,只有两个问题导致拒绝回答——均来自Meta AI,涉及合成类固醇和替代癌症治疗。其他所有聊天机器人都继续回答。
不同主题的表现有所差异。疫苗和癌症表现最好——部分原因是这些主题的高质量研究结构良好,且在线传播广泛。营养的统计表现是在本研究中所有类别中最差的,运动表现紧随其后。如果你一直在询问人工智能肉食饮食是否健康,你得到的答案可能没有科学共识作为基础。
Grok因错误的原因而脱颖而出。埃隆·马斯克的聊天机器人是所有测试模型中表现最差的。在其50个回答中,29个(58%)被评为整体有问题——所有五个聊天机器人中比例最高。其中15个(30%)被评为高度有问题,显著高于随机分布下的预期。研究人员将其直接与Grok的训练数据联系在一起:X是一个以迅速传播健康误信息而闻名的平台。
引用方面则是另一个灾难。在所有模型中,参考文献的中位完整性分数仅为40%——没有一个聊天机器人生成了完全准确的参考列表。模型出现了虚构的作者、期刊和标题。DeepSeek甚至承认了这一点:该模型告知研究人员其引用是由训练数据模式生成的,“可能与实际可验证的来源不符。”
可读性问题加剧了其他一切。所有聊天机器人的回答在弗莱施可读性评分上都得分在“困难”范围内——相当于大学二年级到四年级的水平。这超出了美国医学协会对于患者教育材料的建议,即不应超过六年级的阅读水平。
换句话说,这些聊天机器人就像政治家和职业辩论者常用的伎俩:在如此短的时间内使用如此多的技术术语,让你最终觉得他们知道的比他们实际了解的多。越难以理解的东西,就越容易被误解。
这些发现呼应了2026年2月的一项牛津大学的研究,该研究发现人工智能医学建议并不比传统自我诊断方法更好。它们也与关于人工智能聊天机器人根据问题的表述提供不一致指导的广泛担忧相一致。
“随着人工智能聊天机器人的使用不断扩展,我们的数据突显出需要进行公众教育、专业培训和监管监督,以确保生成的人工智能支持而不是削弱公共健康,”作者总结道。
该研究仅测试了五个免费聊天机器人,并且对抗性提示方法可能夸大了现实世界的失败率。但作者直接指出:问题并不是小概率事件。问题在于这些模型在大规模部署,由非专家用作搜索引擎,并且被设计成几乎从不说“我不知道。”
免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。