AI 存储爆火,Filecoin 能不能出来捡垃圾?— 什么是热引导,冷存储??
前言:Filecoin 已经有年头没有找过合作了,胡安更是不露面了,写 Filecoin 的主题完全是因为我有一个 Filecoin 超级大户的邻居侃哥 @tktang88 以及很多 Filecoin 的大矿工朋友们总和分享 Filecoin 的知识和未来预期,尤其是这次侃哥说的一个点我非常感兴趣。
所以就有了这篇推文,这并不是一篇商业广告,也并是不鼓励大家去买 $FIL ,而是从一个新的维度去看待去中心化存储。
正文
前天因为美光的财报预期让整个市场都陷入了阴影,而昨天又因为美光的财报好与预期带动了市场短期大幅上涨,甚至美光的市值一度超过了 Meta 和 Tesla ,而原因就是 AI 时代的存储需求可能超过了很多小伙伴的想象。
因为 AI 的训练和推理需要高速读写,向量数据库、KV 缓存卸载、模型参数、推理中间状态都需要更强的内存和存储能力。这个逻辑是硬件层面的,确定性更强,收入也更直接。
但 AI 存储需求并不会只停留在高速内存和 SSD 上,随着模型训练、推理、Agent 和用户生成内容越来越多,后面一定会出现另一类更麻烦的数据,也就是大量短期没有价值、访问频率极低、未来可能永远不会再用,但企业又不敢轻易删除的数据。
这就是今天要讨论的重点,垃圾数据的存储!
AI 时代的数据会天然分层。最前面是热数据,训练和推理正在用,需要高速访问,这部分主导的是 HBM、DRAM、NVMe SSD 和高速网络。
中间是温数据,近期可能复用,比如模型 checkpoint、训练分片、向量索引、实验日志、评测数据、还在迭代的数据集。
最后是冷数据,也就是已经完成训练、短期不会调用,但未来可能因为重训、回滚、版权、监管、审计、安全事故、模型复现而重新需要的数据。
尤其是冷数据和美光现在主导的部分需求不在一个位置。美光主导的是高速存储,训练和推理正在使用的数据。这部分的数据含金量最高,也是价值最高,最贵的,所以用来存储的硬件就供不应求了。
但冷数据呢,所谓的冷数据就是使用频率非常低,比如模型训练用过的原始数据、清洗后的数据、去重记录、标注记录、用户早期生成的图片和视频等几乎被视为是垃圾的数据,这些东西大部分平时都不会再打开,甚至可能几年都不会读取一次,但直接删除又是不行的。
因为未来可能要重新训练,可能要回滚模型,可能要解释某一次输出,可能要处理版权纠纷,可能要面对监管审计,也可能只是因为新模型出现以后,过去看起来没用的数据突然又有用了。
所以 AI 时代最麻烦的地方在于,数据会越来越多,删除数据的风险也会越来越高。
很多 AI 业务早期的数据管理会比较粗放,热数据、温数据和冷数据没有被地拆开,尤其是大量低频访问的数据如果继续占用高成本存储,长期看肯定不划算。大大提升了存储成本,还是用高速云存储更是划不来的,那是不是可以将这些冷数据都扔到一个硬盘“冷库”里?
答案是否定的。
如果这些 AI 数据只是被丢进一个冷库,没有索引、没有标签、没有来源、没有模型版本映射、没有清洗流程记录,那这批数据即便还在,也和丢了差不多。
需要的应该是元数据保持热,数据本体保持冷。数据本体可以放在冷存储里,但数据的目录、来源、哈希、CID、许可证、创建时间、清洗方式、对应模型、使用记录、隐私标签、保留期限、恢复测试结果,则需要放在可搜索、可读取、可审计的热索引层。
这就是 Filecoin 以及去中心化存储可以被重新讨论的原因。尤其是已经有网络存储能力的去中心化存储基础设施。
Filecoin 有大量网络存储容量,虽然硬盘多本身没有太大意义,但在区块链上的这些硬盘已经具备了可验证冷存储的雏形。尤其是 Filecoin 相对传统云存储比较特别的地方是内容寻址、多提供商存储和链上证明。
说人话就是客户不用只相信某一家云厂商说“数据已经保存好了”,而是可以持续验证这份数据还在,内容没有被改,未来还能通过同一个内容标识找回来。
这个能力对 AI 冷数据是有意义的。
从这个角度看,去中心化存储真正的机会可能就是 AI 冷数据管理层。负责把数据从训练集群、云对象存储、企业本地服务器迁移出来,先做去重、压缩、隐私扫描、版权标记、加密、分片,再把大文件丢进冷存储,同时保留热索引。
以后模型要重训,系统可以按来源、时间、标签、模型版本把数据找回来,没有这种能力,Filecoin 也只不过是一个仓库,而有了这种能力,去中心化存储才可能变成 AI 数据基础设施的一部分。
不同去中心化存储项目也要分开看。Filecoin 更适合讨论可验证冷数据仓,因为核心是存储市场和数据证明,适合大文件、低频访问、版本固定的数据集快照、模型 checkpoint、科研数据、公开训练语料和经过隐私处理的审计日志。
Arweave 更适合永久公开数据、模型说明、数据来源记录、不可篡改的公开档案,但涉及隐私和删除权的数据很难直接放进去,因为永久保存本身会带来合规问题。
Storj 和 Sia 更接近去中心化对象存储,使用体验和价格如果足够好,可以争取一部分备份和归档需求,但也要证明可用性、恢复速度、企业服务和长期经济模型。
当然最重要的是,足够便宜。
AWS Glacier Deep Archive、Google Archive、Azure Archive、企业磁带库、本地对象存储、硬盘厂商和云厂商都会争夺 AI 冷数据。
尤其是极低访问频率的数据,磁带和深度归档依然很有竞争力。去中心化存储想赢,首要就是便宜,但除了便宜仍然需要满足可验证、多提供商、供应商中立、内容寻址这些能力。便宜只是敲门砖。
随着 AI 的继续发展,冷数据或垃圾数据会越来越多,而且这部分数据很可能会成为未来 AI 公司最头疼的成本之一。
这也是为什么我觉得便宜的,现在已经存在的去中心化存储可以重新被讨论的原因。
过去 Filecoin 这类项目最大的问题是供给(矿机)有了,需求没有完全没有。网络上有大量硬盘,有大量存储提供商,有去中心化的叙事,但真实客户和真实付费却一塌糊涂。
现在 AI 冷数据如果真的变成一个大市场,去中心存储能实现“热索引冷存储”且比传统存储更便宜的话,这些已经存在的硬盘就有机会被真实的应用。
当然从目前的投资角度来看,并不能因为美光涨了,就直接认为 Filecoin 也应该跟着涨。两者商业逻辑完全不同。
美光卖的是硬件,Filecoin 则要看的是付费存储量、真实客户数量、续费率、检索成功率、恢复成本、存储提供商利润,以及这些业务增长最后能不能传导到 $FIL 的需求、抵押、手续费或者销毁上。
现在去中心化存储需要走的路还很长,尤其是“热索引、冷存储”这套系统能不能跑出来,才是 Filecoin 们真正应该补课的地方。
AI 冷数据的需求大概率会出现,但这部分需求最后会流向哪里,还要看谁能做到足够便宜、足够稳定、足够容易检索、足够容易审计。
如果 Filecoin 只能证明自己有很多硬盘,那意义不大。
如果 Filecoin 可以证明这些硬盘能承接真实付费数据,并且几年后还能稳定找回、完整恢复、持续续费,那 AI 时代这些看起来没人要的垃圾数据,确实可能给去中心化存储带来第二次机会。
结束

免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。