领先的生成式人工智能初创公司Anthropic宣布,将不使用客户数据来训练其大型语言模型(LLM),并将会站出来为面临版权索赔的用户进行辩护。
Anthropic由来自OpenAI的前研究人员创立,更新了其商业服务条款以阐明其理想和意图。通过排除其客户的私人数据,Anthropic在很大程度上与OpenAI、亚马逊和Meta等竞争对手区分开来,后者利用用户内容来改进其系统。
根据更新后的条款,“Anthropic可能不会使用付费服务的客户内容来训练模型”,并补充道,“在双方之间,并在适用法律允许的范围内,Anthropic同意客户拥有所有输出,并放弃根据这些条款获得客户内容的任何权利。”
条款继续表示,“Anthropic不预期在这些条款下获得客户内容的任何权利”,并且“不会通过暗示或其他方式授予任何一方对另一方内容或知识产权的任何权利。”
更新后的法律文件显然为Anthropic的商业客户提供了保护和透明度。例如,公司拥有所有生成的人工智能输出,避免潜在的知识产权纠纷。Anthropic还承诺为客户辩护,以防止因Claude生成的侵权内容而引发的版权索赔。
该政策与Anthropic的使命一致,即人工智能应该是有益的、无害的和诚实的。随着公众对生成式人工智能伦理的怀疑日益加剧,公司致力于解决诸如数据隐私等问题的承诺可能使其具有竞争优势。
用户数据:LLM的重要数据来源
GPT-4、LlaMa或Anthropic的Claude等大型语言模型(LLM)是先进的人工智能系统,通过对大量文本数据进行训练来理解和生成人类语言。这些模型利用深度学习技术和神经网络来预测单词序列、理解上下文和把握语言的微妙之处。在训练过程中,它们不断完善其预测,增强其进行对话、撰写文本或提供相关信息的能力。LLM的有效性严重依赖于它们所接受的数据的多样性和数量,使它们能够从各种语言模式、风格和新信息中学习,从而变得更加准确和具有上下文意识。
这就是为什么用户数据在训练LLM时如此宝贵。首先,它确保模型与最新的语言趋势和用户偏好保持同步(例如,理解新的俚语)。其次,它允许个性化和更好的用户参与,通过适应个体用户的互动和风格。然而,这引发了伦理辩论,因为人工智能公司并不为这些关键信息支付用户,而这些信息被用来训练赚取数百万美元的模型。
根据Decrypt的报道,Meta 最近披露,它正在基于用户数据训练即将推出的LlaMA-3 LLM,而其新的EMU模型(从文本提示生成照片和视频)也是使用用户在社交媒体上上传的公开可用数据进行训练的。
此外,亚马逊也透露,其即将推出的LLM,将为升级版的Alexa提供动力,也正在基于用户的对话和互动进行训练,不过用户可以选择退出默认设置为假定用户同意共享此信息的训练数据。“[亚马逊]一直认为,用真实世界的请求训练Alexa对于提供准确、个性化且不断改进的客户体验至关重要,”亚马逊发言人在告诉 Decrypt时表示。“但与此同时,我们让客户控制他们的Alexa语音记录是否用于改进服务,我们在训练模型时始终尊重客户的偏好。”
在科技巨头争相推出最先进的人工智能服务的同时,负责任的数据实践对赢得公众信任至关重要。Anthropic旨在在这方面以身作则。在牺牲个人信息的代价换取更强大和便利的模型的伦理辩论,如今与几十年前社交媒体普及“用户成为产品”的概念一样普遍。
由Ryan Ozawa编辑。
免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。