影子“档案”称其几乎复制了Spotify的所有音乐

CN
Decrypt
关注
7小时前

安娜档案,这个以使盗版电子书和学术论文可搜索而闻名的影子图书馆,本周末宣布了可能是历史上最大的音乐盗版行动:“我们备份了Spotify。”

该组织声称从Spotify抓取了8600万音频文件,代表了平台上人们实际收听的99.6%的内容。总大小:不到300TB,通过大规模种子分发。

Spotify对此并不满意。一位发言人告诉公告牌:“第三方抓取了公共元数据,并使用非法手段绕过DRM以访问平台的一些音频文件。”请注意这里的措辞:“一些”音频文件。安娜档案称为8600万。Spotify并未确认这一规模。该公司还称该组织为"反版权极端分子",他们之前曾从YouTube盗版内容。

那么,除了盗取Spotify——以及录音艺术家的收入,主要来自版税支付——他们究竟得到了什么?

数字

安娜档案声称拥有Spotify 2.56亿曲目的99%的元数据,包括8600万首实际重要的歌曲的音频文件——人们播放的那些。仅元数据库就包含1.86亿个独特的ISRC(国际标准录音代码)。作为比较,MusicBrainz是最大的合法开放音乐数据库,约有500万条。安娜档案刚刚构建了一个大37倍的东西。

热门曲目以其原始OGG Vorbis格式以每秒160千比特的速度保存——没有重新编码,没有质量损失。较不受欢迎的内容被压缩为OGG Opus格式,速度为75 kbps以节省空间。该组织使用Spotify自己的流行度指标来优先选择抓取的内容,专注于流行度得分高于零的曲目。

超过70%的Spotify 2.56亿曲目流行度得分恰好为零。没有人听这些曲目。前10,000首歌曲的流行度得分在70到100之间。只有大约210,000首歌曲——大约0.1%的目录——流行度得分为50或更高。这0.1%占据了绝大多数的所有收听活动。

目前Spotify上排名前三的歌曲?Lady Gaga和Bruno Mars的《Die With A Smile》(30.7亿次播放)、Billie Eilish的《BIRDS OF A FEATHER》(31.3亿次)和Bad Bunny的《DtMF》(11.2亿次)。这三首曲目的总播放量超过了底部2000万到1亿首歌曲的总和。

换句话说,Spotify大多数是没人会听到的歌曲的墓地。该组织决定不归档这个墓地(完整目录)——这将需要额外的700TB存储空间来存储仅占0.04%收听活动的内容。反正其中很多都是AI生成的垃圾。

数据中的奇怪内容

安娜档案发布了他们发现的广泛分析。其中一些是可预测的,有些则很奇怪。

曲目时长在2:00、3:00和4:00分钟处 sharply 集中。该组织表示他们不知道原因。自2015年以来,专辑发布数量呈指数级增长,仅2023年就有超过1000万张专辑——这可能是由AI生成和自动上传推动的。


来源:安娜档案

电子/舞曲是按艺术家数量计算的最大流派类别(520,075),其次是摇滚(370,179)和世界/传统(202,529)。

此外,信不信由你,歌剧、合唱和室内乐在特定子流派中拥有最多的艺术家。


来源:安娜档案

音频特征数据表明,响度与能量强烈相关(这并不意外),BPM聚集在120左右,呈正态分布,大多数曲目的“语言性”和“器乐性”得分较低——这意味着人声占主导地位。C大调和G大调是最常见的调性。大约13.5%的Spotify曲目被标记为含有露骨内容。

为什么要这样做?

安娜档案将其框架视为保存,而非盗版。“我们看到我们在这里有一个角色,主要是为了保存而建立一个音乐档案,”博客文章写道。该组织认为,现有的音乐归档工作过于集中于流行艺术家和高保真格式(无损FLAC),使得冷门音乐在平台政策变化或关闭时容易消失。

这其中有一定的道理。Spotify控制着2.56亿首曲目,可以删除内容、改变许可条款或完全消失。去中心化的种子分发创造了冗余,无法被任何单一实体关闭。数据已经分散在全球数千个种子节点上。

但让我们现实一点。这也是盗版。Spotify每次播放支付给艺术家的费用在$0.003到$0.005之间。根据Dittomusic的Spotify收入计算器,100万次播放将为艺术家带来4370.00美元的版税。通过种子进行的免费分发甚至消除了这种最低补偿。

这两件事同时成立。

法律风暴即将来临

安娜档案已经面临越来越大的法律压力。比利时在2025年7月发布了封锁令,罚款高达50万欧元。英国在2024年12月获得了高等法院的封锁。德国的主要互联网服务提供商在2025年10月封锁了该网站的主要域名。根据其自身的透明度报告,谷歌已经从搜索结果中删除了7.49亿个安娜档案的URL——这占搜索引擎自2012年以来收到的所有DMCA删除请求的5%。

互联网档案馆——一个合法的非营利组织——在出版商寻求6.21亿美元的赔偿后,解决了关于其伟大的78项目的诉讼,该项目旨在数字化过时的78转每分钟唱片。安娜档案刚刚归档了31,000倍更多的曲目,所有都是当前的,所有都是需求量大的。音乐行业的法律反应将使互联网档案馆的案件显得微不足道。

黑客新闻上,评论者们讨论了考虑到Spotify的便利性,档案是否对消费者真正有用。有人指出,安娜档案已经为其书籍档案提供“企业级”访问,费用高达数万美元——本质上是向AI公司出售批量数据访问以进行训练。

目前,只有元数据已完全发布。音频文件正在通过大规模种子逐步推出,从最受欢迎的曲目开始。安娜档案请求用户帮助播种种子,并提到如果有足够的兴趣,他们可能会添加单个文件下载。

诉讼可能即将到来。唯一的问题是档案是否能在诉讼中存活——而此时,这可能并不重要。数据已经存在,分布在数千个无法集中关闭的节点上。这就是种子的全部意义。

免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。

分享至:
APP下载

X

Telegram

Facebook

Reddit

复制链接