人工智能模型可能比你自己更能预测你会购买什么

CN
Decrypt
关注
6小时前

忘记焦点小组:一项新研究发现,大型语言模型能够以惊人的准确性预测你是否想购买某样东西,远远超过传统的营销工具。

曼海姆大学和苏黎世联邦理工学院的研究人员发现,大型语言模型能够通过将自由形式的文本转化为结构化的调查数据,复制人类的购买意图——这一“你购买这个的可能性有多大?”的指标深受营销人员喜爱。

在上周发表的一篇论文中,团队介绍了一种名为“语义相似性评分”的方法,该方法将模型的开放式回答转化为数值“李克特”评分,这是一种在传统消费者研究中使用的五点量表。

研究人员并没有要求模型在一到五之间选择一个数字,而是让它自然地回应——“我肯定会买这个”或“如果打折我可能会买”——然后测量这些陈述与“我肯定会买这个”或“我不会买这个”等标准答案在语义上的接近程度。

每个答案在嵌入空间中映射到最近的参考陈述,有效地将LLM文本转化为统计评分。“我们展示了,优化语义相似性而非数值标签可以产生与人类调查数据密切匹配的购买意图分布,”作者写道。“LLM生成的回答达到了重复人类调查的90%可靠性,同时保留了态度的自然变异。”

在对9300个关于个人护理产品的真实人类调查回应进行测试时,SSR方法生成的合成回应者的李克特分布几乎与原始数据相似。换句话说:当被要求“像消费者一样思考”时,模型做到了。

为什么这很重要

这一发现可能会重塑公司进行产品测试和市场研究的方式。消费者调查 notoriously 昂贵、缓慢且容易受到偏见的影响。如果合成回应者的行为像真实回应者,那么公司可以以极低的成本筛选成千上万的产品或信息。

这也验证了一个更深层的主张:LLM的语义空间的几何形状不仅编码了语言理解,还编码了态度推理。通过在嵌入空间中比较答案,而不是将其视为字面文本,这项研究表明模型语义可以以惊人的忠实度代替人类判断。

与此同时,这也引发了熟悉的伦理和方法论风险。研究人员只测试了一个产品类别,尚不清楚同样的方法是否适用于金融决策或政治敏感话题。而合成“消费者”很容易变成合成目标:相同的建模技术可以帮助优化政治劝说、广告或行为引导。

正如作者所说,“市场驱动的优化压力可能系统性地侵蚀对齐”——这一短语的意义远超营销领域。

一丝怀疑

作者承认,他们的测试领域——个人护理产品——较为狭窄,可能无法推广到高风险或情感充沛的购买中。SSR映射还依赖于精心选择的参考陈述:小的措辞变化可能会扭曲结果。此外,研究依赖于人类调查数据作为“真实依据”,尽管这些数据 notoriously 嘈杂且具有文化偏见。

批评者指出,基于嵌入的相似性假设语言向量能够整齐地映射到人类态度,这一假设在上下文或讽刺进入时可能会失效。论文自身的可靠性数字——人类测试重测一致性的90%——听起来令人印象深刻,但仍然留有显著漂移的空间。简而言之,这种方法在平均情况下有效,但尚不清楚这些平均值是否捕捉到了真实的人类多样性,或仅仅反映了模型的训练先验。

更大的图景

2025年,学术界对“合成消费者建模”的兴趣激增,因为公司正在尝试基于AI的焦点小组和预测性投票。麻省理工学院和剑桥大学的类似研究表明,LLM能够以适度的可靠性模拟人口统计和心理测量细分,但之前没有任何研究展示出与真实购买意图数据的紧密统计匹配。

目前,SSR方法仍然是一个研究原型,但它暗示了一个未来,在这个未来中,LLM可能不仅仅是回答问题——而是代表公众本身。

这是否是一个进步,还是一个正在形成的幻觉,仍然有待辩论。

免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。

分享至:
APP下载

X

Telegram

Facebook

Reddit

复制链接