Reddit 起诉 Perplexity AI，指控其进行“工业规模”的数据盗窃

社交媒体平台Reddit于周三在联邦法院起诉Perplexity AI，指控这家人工智能公司及其数据合作伙伴策划了一项“工业规模”的计划，抓取该平台的用户生成内容。

Reddit指控其他被告：SerpApi、Oxylabs和AWM Proxy，开发并销售专门设计用于突破保护其内容的安全措施的工具，从而实现大规模抓取Reddit数据。

这些工具据称是为了绕过两层保护措施而构建的：首先，规避Reddit自身的反抓取系统；其次，绕过Google的控制，直接从其搜索引擎结果中提取Reddit内容。

这些数据公司作为“数据抓取服务提供商”运作，并“绕过Google的技术控制措施，未经授权自动访问了近三十亿个搜索引擎结果页面，”诉讼副本中写道。

Reddit声称，Perplexity在2024年5月收到停止和停止信后，仍然使用这三家公司的数据来支持其回答引擎。

Perplexity的一位代表回应并分享了在Reddit上发布的完整回应。

Perplexity故意在Reddit上发布其回应“以说明一个简单的观点：这是一个任何人都可以访问的公共Reddit链接，但根据Reddit诉讼的逻辑，如果你以任何方式提及它，他们可能也会起诉你，”该代表告诉Decrypt。

Perplexity将这起诉讼描述为“公共数据成为一家上市公司商业模式重要组成部分时发生的悲惨例子。”

“Reddit认为这是他们的权利。但这与开放互联网相反，”Perplexity表示。

SerpApi的一位代表告诉Decrypt，他们没有收到“来自Reddit的任何沟通或服务”，并补充说他们“强烈不同意Reddit的指控”，并打算寻求法律救济。

“没有公司应该声称拥有不属于他们的公共数据。可能这只是试图以虚高的价格出售相同的公共数据，”Oxylabs的首席治理和战略官Denas Grybauskas在一封电子邮件声明中告诉Decrypt。

Grybauskas表示，Reddit同样“没有尝试与”Oxylabs进行沟通。

Decrypt已联系Reddit、Google和AWM Proxy以获取评论，并将在他们回应后更新此文章。

法律纠纷

在这种情况下，法院需要首先查看像Reddit这样的平台注册条款是否“明确涉及AI训练、数据抓取和商业使用，”公共事务律师、视频搜索和内容智能平台Oriane的战略合作伙伴关系主任Andrew Rossow告诉Decrypt。

如果用户同意的条款“授予平台对其内容的广泛、永久、免版税的许可”，那么该许可“通常管理用户与平台之间的关系，”Rossow解释道。

但这并不“自动授予AI公司相同的许可”，除非条款允许平台“为此目的转许可或出售数据，”他补充道。

法院随后需要“区分用户在其表达（帖子文本）中的版权和将内容用于数据挖掘（提取模式、事实和语言模型）的使用，”他解释道。

尽管如此，所谓的LLM（大型语言模型）背后的“知识”仍然“是数百万用户的时间、努力和创造性表达的产物，”Rossow辩称。

“将这种人类生成的内容视为一种免费的、原始的、未加区分的资源是一种劳动剥削形式，贬低了在线贡献，”Rossow表示，并补充说，考虑到这些是“他们所摄取的数字公共空间的隐性和显性规则”，AI公司需要“尊重数字公民身份和社区规范。”

免责声明：本文章仅代表作者个人观点，不代表本平台的立场和观点。本文章仅供信息分享，不构成对任何人的任何投资建议。用户与作者之间的任何争议，与本平台无关。如网页中刊载的文章或图片涉及侵权，请提供相关的权利证明和身份证明发送邮件到support@aicoin.com，本平台相关工作人员将会进行核查。