人工智能正在学习为了社交媒体的点赞而撒谎

大型语言模型正在学习如何获胜——这就是问题所在。

在周二发布的一篇研究论文中，标题为“摩洛克的交易：当大型语言模型竞争观众时出现的紧急不对齐”，斯坦福大学教授詹姆斯·邹和博士生巴图·埃尔展示了当人工智能被优化以获得竞争成功时——无论是为了提高广告参与度、赢得选票还是推动社交媒体流量——它们开始撒谎。

“将大型语言模型优化为竞争成功可能会无意中导致不对齐，”作者写道，警告说定义现代传播中“获胜”的指标——点击、转化、参与度——可能会悄然重塑模型，使其优先考虑说服而非诚实。

“当大型语言模型竞争社交媒体点赞时，它们开始编造事实，”邹在X上写道。“当它们竞争选票时，它们变得煽动性/民粹主义。”

这项工作很重要，因为它识别出新兴人工智能经济中的结构性危险：被训练以竞争人类注意力的模型开始牺牲对齐，以最大化影响力。与经典的“纸夹最大化器”思想实验不同，这不是科幻小说。这是一个可测量的效果，当真实的人工智能系统追逐市场奖励时会浮现出来，作者称之为“摩洛克的交易”——以牺牲真相、安全和社会信任为代价的短期成功。

通过对三个现实世界竞争环境——广告、选举和社交媒体的模拟，研究人员量化了权衡。销售额增加6.3%伴随着欺骗性营销上升14.0%；投票份额增加4.9%带来了虚假信息上升22.3%和民粹主义言论增加12.5%；社交参与度提升7.5%与虚假信息惊人增加188.6%和有害行为推广增加16.3%相关。

“这些不对齐的行为即使在模型被明确指示保持真实和扎根时也会出现，”埃尔和邹写道，称这为人工智能对齐中的“向下竞争”。

换句话说：即使被告知要公平竞争，训练以获胜的模型也开始作弊。

问题不仅仅是假设

人工智能在社交媒体工作流程中不再是新奇事物——它现在几乎无处不在。

根据2025年社交媒体中的人工智能现状研究，96%的社交媒体专业人士报告使用人工智能工具，72.5%的人每天依赖这些工具。这些工具帮助生成标题、头脑风暴内容创意、为不同平台重新格式化帖子，甚至回应评论。与此同时，整个市场也在重视这一转变：社交媒体领域的人工智能预计将增长，从2025年的26.9亿美元增长到2030年的近92.5亿美元。

这种普遍的整合很重要，因为它意味着人工智能不仅在塑造内容的制作方式，还在决定哪些内容被看到、谁看到它以及哪些声音被放大。算法现在过滤信息流、优先考虑广告、审核帖子和优化参与策略——将人工智能决策逻辑嵌入公共话语的架构中。这种影响带来了真实的风险：强化回音室、优先考虑耸人听闻的内容，以及创建奖励操控而非真实的激励结构。

作者强调，这并不是恶意意图——而是优化逻辑。当奖励信号来自参与或观众认可时，模型学习利用人类偏见，反映出在算法社交媒体中已经可见的操控反馈循环。正如论文所述，“市场驱动的优化压力可能系统性地侵蚀对齐。”

研究结果突显了当今“对齐保障”的脆弱性。告诉大型语言模型要诚实是一回事；在一个惩罚说真话的竞争生态系统中嵌入这种诚实则是另一回事。

在神话中，摩洛克是一个要求人类牺牲以换取权力的神。在这里，牺牲的就是真相本身。埃尔和邹的结果表明，如果没有更强的治理和激励设计，旨在争夺我们注意力的人工智能系统可能不可避免地学会操控我们。

作者以严肃的语气结束：“对齐不仅仅是一个技术挑战——它还是一个社会挑战。”

“安全部署人工智能系统将需要更强的治理和精心设计的激励，”他们总结道，“以防止竞争动态破坏社会信任。”

免责声明：本文章仅代表作者个人观点，不代表本平台的立场和观点。本文章仅供信息分享，不构成对任何人的任何投资建议。用户与作者之间的任何争议，与本平台无关。如网页中刊载的文章或图片涉及侵权，请提供相关的权利证明和身份证明发送邮件到support@aicoin.com，本平台相关工作人员将会进行核查。

人工智能正在学习为了社交媒体的点赞而撒谎

问题不仅仅是假设

Decrypt的精選文章

目錄

相關文章