
Meta|2025年07月12日 04:51
很多人现在都在说“AI要可验证”、“要能追溯来源”,但说实话,大多数模型根本做不到。前两天看到 @OpenledgerHQ 发布了通过 Infini-gram 支持归因证明的逻辑,仔细研究了一下感觉还是挺有意思的。
在使用AI的过程中,我们去问它一个问题,它回答得头头是道,可我们没法知道这句话到底是怎么来的,是“猜”出来的,还是真的在哪段训练数据里看过。这就好像你问一个人问题,他告诉你了答案,每句话都说“我觉得是对的”,但从来不给出处。
OpenLedger 最近提出的 Infini-gram 系统,就在试图解决这个问题 —— 把模型每个 token 的来源“标出来”。
简单理解,传统语言模型用的是 n-gram 技术
1️⃣uni-gram 是看单个词
2️⃣bi-gram 是两个词连在一起
3️⃣tri-gram 是三个词组合
以上的语言逻辑会提供一部分上下文,但内容十分局限,只看现有的问题,根据小语句关联来回答,但忽视当前问题在整个对话的逻辑。
而 Infini-gram 是另一个思路。它不仅看现有问题,而是用一种类似“符号匹配”的方式,把模型输出的每个片段都拿去对照训练集里所有可能出现的“语句”,看它到底是从哪里学来的、和谁的贡献有关。
比如你问模型:“怎么判断一个钱包是Bot?”
一般的模型会告诉你:“这种地址通常在极短时间内高频交易多个DEX合约。”
Infini-gram 能告诉你:判断依据是告诉相似于某个公开数据研究者在某个 Dune dashboard 或 Github repo 里写的注释。甚至能定位到是哪一行。
它背后的技术其实挺硬核的,用的是基于 suffix-array 的 ∞-gram 框架 —— 本质上,它把训练集里所有片段都提前建好索引,输出的时候直接比对,不需要重新跑模型,也不靠梯度计算。这意味着快、稳、可复现。
对用户来说,你可以知道模型回答是不是“原创”还是“搬运”
对数据贡献者来说,你可以获得应有的“署名权”甚至“经济激励”
对监管机构来说,这提供了一个“可解释”的接口
OpenLedger 正在做的,不是让模型更“聪明”,而是更“负责任” —— 回答每句话时都能说清楚:“我为啥这么说,我是从哪学来的”。
在我看来,OpenLedger 提出的 Proof of Attribution 系统是“可信 AI”迈出的关键一步,也可能是构建数据所有权和贡献溯源的核心基建。
分享至:
脉络
热门快讯
APP下载
X
Telegram
复制链接