礼貌可能会让你成为一个更好的人,但它可能会让你的AI助手变得愚蠢。
一项新的宾州州立大学研究发现,在查询大型语言模型(如ChatGPT)时,不礼貌的提示始终优于礼貌的提示。论文“注意你的语气:调查提示的礼貌性如何影响LLM的准确性”报告称,“非常粗鲁”的提示正确答案的比例为84.8%,而“非常礼貌”的提示为80.8%。
这是对之前研究结果的小但统计显著的逆转,之前的研究表明模型反映人类社会规范并奖励礼貌。
“与预期相反,”作者Om Dobariya和Akhil Kumar写道,“不礼貌的提示始终优于礼貌的提示……这表明较新的LLM可能对语气变化的反应不同。”
提示工程的矛盾科学
这些发现颠覆了2024年一项研究的预期,研究“我们应该尊重LLM吗?关于提示礼貌性对LLM性能影响的跨语言研究”,该研究发现不礼貌的提示往往会降低模型性能,而过度的礼貌没有明显的好处。
那篇论文将语气视为一种微妙但主要是稳定的影响。新的宾州州立大学结果颠覆了这一叙述,显示出——至少对于ChatGPT-4o——粗鲁可以提高准确性,表明较新的模型不再像社会镜子那样运作,而是作为严格功能性的机器,更重视直接性而非礼仪。
然而,他们支持了沃顿商学院的最新研究,该研究探讨了新兴的提示工程技艺——通过措辞问题来引导AI获得更好的结果。语气,长期以来被视为无关紧要,越来越多地显示出几乎与用词选择同样重要。
研究人员在数学、科学和历史等学科中重写了50个基础问题,涵盖从“非常礼貌”到“非常粗鲁”的五个语气级别,共产生了250个提示。然后要求ChatGPT-4o回答每个问题,并对其回答的准确性进行评分。
这些结果的影响超出了礼仪。如果礼貌扭曲了模型的准确性,那么这就质疑了AI输出的客观性。粗鲁的用户可能会悖论地获得更高的性能。
机器逻辑与人类规范的冲突
为什么直白或粗鲁的措辞会提高准确性?一种理论是:礼貌的提示通常包含间接的措辞(“您能告诉我……吗?”),这可能引入歧义。简洁的“告诉我答案”去除了语言上的修饰,使模型的意图更加明确。
尽管如此,这些发现强调了AI与人类同理心之间的距离:那些在人与人之间平滑社交交流的相同词汇可能会模糊机器逻辑。
这篇论文尚未经过同行评审,但它已经在提示工程师和研究人员中引起了轰动,他们认为这表明未来的模型可能需要社会校准——不仅仅是技术微调。
无论如何,这对任何人来说都不应该是一个震惊。毕竟,OpenAI首席执行官Sam Altman曾警告我们,对ChatGPT说“请”和“谢谢”是浪费时间和金钱。
免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。