AI 存储爆火

AI 存储爆火，Filecoin 能不能出来捡垃圾？— 什么是热引导，冷存储？？

前言：Filecoin 已经有年头没有找过合作了，胡安更是不露面了，写 Filecoin 的主题完全是因为我有一个 Filecoin 超级大户的邻居侃哥 @tktang88 以及很多 Filecoin 的大矿工朋友们总和分享 Filecoin 的知识和未来预期，尤其是这次侃哥说的一个点我非常感兴趣。

所以就有了这篇推文，这并不是一篇商业广告，也并是不鼓励大家去买 $FIL ，而是从一个新的维度去看待去中心化存储。

正文

前天因为美光的财报预期让整个市场都陷入了阴影，而昨天又因为美光的财报好与预期带动了市场短期大幅上涨，甚至美光的市值一度超过了 Meta 和 Tesla ，而原因就是 AI 时代的存储需求可能超过了很多小伙伴的想象。

因为 AI 的训练和推理需要高速读写，向量数据库、KV 缓存卸载、模型参数、推理中间状态都需要更强的内存和存储能力。这个逻辑是硬件层面的，确定性更强，收入也更直接。

但 AI 存储需求并不会只停留在高速内存和 SSD 上，随着模型训练、推理、Agent 和用户生成内容越来越多，后面一定会出现另一类更麻烦的数据，也就是大量短期没有价值、访问频率极低、未来可能永远不会再用，但企业又不敢轻易删除的数据。

这就是今天要讨论的重点，垃圾数据的存储！

AI 时代的数据会天然分层。最前面是热数据，训练和推理正在用，需要高速访问，这部分主导的是 HBM、DRAM、NVMe SSD 和高速网络。

中间是温数据，近期可能复用，比如模型 checkpoint、训练分片、向量索引、实验日志、评测数据、还在迭代的数据集。

最后是冷数据，也就是已经完成训练、短期不会调用，但未来可能因为重训、回滚、版权、监管、审计、安全事故、模型复现而重新需要的数据。

尤其是冷数据和美光现在主导的部分需求不在一个位置。美光主导的是高速存储，训练和推理正在使用的数据。这部分的数据含金量最高，也是价值最高，最贵的，所以用来存储的硬件就供不应求了。

但冷数据呢，所谓的冷数据就是使用频率非常低，比如模型训练用过的原始数据、清洗后的数据、去重记录、标注记录、用户早期生成的图片和视频等几乎被视为是垃圾的数据，这些东西大部分平时都不会再打开，甚至可能几年都不会读取一次，但直接删除又是不行的。

因为未来可能要重新训练，可能要回滚模型，可能要解释某一次输出，可能要处理版权纠纷，可能要面对监管审计，也可能只是因为新模型出现以后，过去看起来没用的数据突然又有用了。

所以 AI 时代最麻烦的地方在于，数据会越来越多，删除数据的风险也会越来越高。

很多 AI 业务早期的数据管理会比较粗放，热数据、温数据和冷数据没有被地拆开，尤其是大量低频访问的数据如果继续占用高成本存储，长期看肯定不划算。大大提升了存储成本，还是用高速云存储更是划不来的，那是不是可以将这些冷数据都扔到一个硬盘“冷库”里？

答案是否定的。

如果这些 AI 数据只是被丢进一个冷库，没有索引、没有标签、没有来源、没有模型版本映射、没有清洗流程记录，那这批数据即便还在，也和丢了差不多。

需要的应该是元数据保持热，数据本体保持冷。数据本体可以放在冷存储里，但数据的目录、来源、哈希、CID、许可证、创建时间、清洗方式、对应模型、使用记录、隐私标签、保留期限、恢复测试结果，则需要放在可搜索、可读取、可审计的热索引层。

这就是 Filecoin 以及去中心化存储可以被重新讨论的原因。尤其是已经有网络存储能力的去中心化存储基础设施。

Filecoin 有大量网络存储容量，虽然硬盘多本身没有太大意义，但在区块链上的这些硬盘已经具备了可验证冷存储的雏形。尤其是 Filecoin 相对传统云存储比较特别的地方是内容寻址、多提供商存储和链上证明。

说人话就是客户不用只相信某一家云厂商说“数据已经保存好了”，而是可以持续验证这份数据还在，内容没有被改，未来还能通过同一个内容标识找回来。

这个能力对 AI 冷数据是有意义的。

从这个角度看，去中心化存储真正的机会可能就是 AI 冷数据管理层。负责把数据从训练集群、云对象存储、企业本地服务器迁移出来，先做去重、压缩、隐私扫描、版权标记、加密、分片，再把大文件丢进冷存储，同时保留热索引。

以后模型要重训，系统可以按来源、时间、标签、模型版本把数据找回来，没有这种能力，Filecoin 也只不过是一个仓库，而有了这种能力，去中心化存储才可能变成 AI 数据基础设施的一部分。

不同去中心化存储项目也要分开看。Filecoin 更适合讨论可验证冷数据仓，因为核心是存储市场和数据证明，适合大文件、低频访问、版本固定的数据集快照、模型 checkpoint、科研数据、公开训练语料和经过隐私处理的审计日志。

Arweave 更适合永久公开数据、模型说明、数据来源记录、不可篡改的公开档案，但涉及隐私和删除权的数据很难直接放进去，因为永久保存本身会带来合规问题。

Storj 和 Sia 更接近去中心化对象存储，使用体验和价格如果足够好，可以争取一部分备份和归档需求，但也要证明可用性、恢复速度、企业服务和长期经济模型。

当然最重要的是，足够便宜。

AWS Glacier Deep Archive、Google Archive、Azure Archive、企业磁带库、本地对象存储、硬盘厂商和云厂商都会争夺 AI 冷数据。

尤其是极低访问频率的数据，磁带和深度归档依然很有竞争力。去中心化存储想赢，首要就是便宜，但除了便宜仍然需要满足可验证、多提供商、供应商中立、内容寻址这些能力。便宜只是敲门砖。

随着 AI 的继续发展，冷数据或垃圾数据会越来越多，而且这部分数据很可能会成为未来 AI 公司最头疼的成本之一。

这也是为什么我觉得便宜的，现在已经存在的去中心化存储可以重新被讨论的原因。

过去 Filecoin 这类项目最大的问题是供给（矿机）有了，需求没有完全没有。网络上有大量硬盘，有大量存储提供商，有去中心化的叙事，但真实客户和真实付费却一塌糊涂。

现在 AI 冷数据如果真的变成一个大市场，去中心存储能实现“热索引冷存储”且比传统存储更便宜的话，这些已经存在的硬盘就有机会被真实的应用。

当然从目前的投资角度来看，并不能因为美光涨了，就直接认为 Filecoin 也应该跟着涨。两者商业逻辑完全不同。

美光卖的是硬件，Filecoin 则要看的是付费存储量、真实客户数量、续费率、检索成功率、恢复成本、存储提供商利润，以及这些业务增长最后能不能传导到 $FIL 的需求、抵押、手续费或者销毁上。

现在去中心化存储需要走的路还很长，尤其是“热索引、冷存储”这套系统能不能跑出来，才是 Filecoin 们真正应该补课的地方。

AI 冷数据的需求大概率会出现，但这部分需求最后会流向哪里，还要看谁能做到足够便宜、足够稳定、足够容易检索、足够容易审计。

如果 Filecoin 只能证明自己有很多硬盘，那意义不大。

如果 Filecoin 可以证明这些硬盘能承接真实付费数据，并且几年后还能稳定找回、完整恢复、持续续费，那 AI 时代这些看起来没人要的垃圾数据，确实可能给去中心化存储带来第二次机会。

结束

免责声明：本文章仅代表作者个人观点，不代表本平台的立场和观点。本文章仅供信息分享，不构成对任何人的任何投资建议。用户与作者之间的任何争议，与本平台无关。如网页中刊载的文章或图片涉及侵权，请提供相关的权利证明和身份证明发送邮件到support@aicoin.com，本平台相关工作人员将会进行核查。

AI 存储爆火

Phyrex的精选文章

目录

相关文章