X算法时隔三年再次开源,这里总结了5条“流量密码”

CN
PANews
关注
5小时前

作者:Tina、冬梅,InfoQ

1、时隔近三年,马斯克再次开源 X 推荐算法

刚刚,X 工程团队在 X 上发帖宣布,正式开源 X 推荐算法,据介绍,这个开源库包含为 X 上的“为你推荐”信息流提供支持的核心推荐系统,它将网络内内容(来自用户关注的帐户)与网络外内容(通过基于机器学习的检索发现)相结合,并使用基于 Grok 的 Transformer 模型对所有内容进行排名,也就是说,该算法采用了与 Grok 相同的 Transformer 架构。

开源地址:https://x.com/XEng/status/2013471689087086804

图片

X 的推荐算法负责生成用户在主界面看到的“为你推荐”(For You Feed)内容。它从两个主要来源获取候选帖子:

  1. 你关注的账号(In-Network / Thunder)

  2. 平台上发现的其他帖子(Out-of-Network / Phoenix)

这些候选内容随后被统一处理、过滤然后按相关性排序。

那么,算法核心架构与运行逻辑是怎样的?

算法先从两类来源抓取候选内容:

  • 关注内的内容:来自你主动关注的账号发布的帖子。

  • 非关注内容:由系统在整个内容库中检索出的、可能你感兴趣的帖子。

这一阶段的目标是“把可能相关的帖子找出来。

系统自动去除低质量、重复、违规或不合适的内容。例如:

  • 已屏蔽账号的内容

  • 与用户明确不感兴趣的主题

  • 非法、过时或无效帖子

这样确保最终排序时只处理有价值的候选内容。

此次开源的算法的核心是系统使用一个 Grok-based Transformer 模型(类似大型语言模型 / 深度学习网络)对每条候选帖子进行评分。Transformer 模型根据用户的历史行为(点赞、回复、转发、点击等)预测每种行为的概率。最后,将这些行为概率加权组合成一个综合得分,得分越高的帖子越有可能被推荐给用户。

这一设计把传统手工提取特征的做法基本废除,改用端到端的学习方式预测用户兴趣。

图片

这不是马斯克第一次开源 X 推荐算法。

早在 2023 年 3 月 31 日,正如马斯克收购 Twitter 时承诺的那样,他已将 Twitter 部分源代码正式开源,其中包括在用户时间线中推荐推文的算法。开源当天,该项目在 GitHub 已收获 10k+ 颗 Star。

当时,马斯克在 Twitter 上表示此次发布的是“大部分推荐算法”,其余的算法也将陆续开放。他还提到,希望“独立的第三方能够以合理的准确性确定 Twitter 可能向用户展示的内容”。

在关于算法发布的 Space 讨论中,他说此次开源计划是想让 Twitter 成为“互联网上最透明的系统”,并让它像最知名也最成功的开源项目 Linux 一样健壮。“总体目标,就是让继续支持 Twitter 的用户们最大程度享受这里。”

图片

如今距离马斯克初次开源 X 算法,过去了近三年的时间。而作为技术圈的超级 KOL,马斯克早已为此次开源做足了的宣传。

1 月 11 日,马斯克在 X 上发帖称,将于 7 天内将新的 X 算法(包括用于确定向用户推荐哪些自然搜索内容和广告内容的所有代码)开源。

此流程将每 4 周重复一次,并附有详细的开发者说明,以帮助用户了解发生了哪些变化。

今天,他的承诺再次兑现了。

图片

2、 马斯克为什么要开源?

当埃隆·马斯克再次提到“开源”时,外界的第一反应并非技术理想主义,而是现实压力。

过去一年里,X 因其内容分发机制屡次陷入争议。该平台被广泛批评在算法层面偏袒和助长右翼观点,这种倾向并非零星个案,而被认为具有系统性特征。去年发布的一份研究报告就指出,X 的推荐系统在政治内容传播上出现了明显的新偏见。

与此同时,一些极端案例进一步放大了外界的质疑。去年,一段涉及美国右翼活动人士查理·柯克遇刺的未经审查视频在 X 平台迅速传播,引发舆论震动。批评者认为,这不仅暴露了平台审核机制的失效,也再次凸显了算法在“放大什么、不放大什么”上的 隐性权力。

在这样的背景下,马斯克突然强调算法透明性,很难被简单解读为一次纯粹的技术决策。

图片

3、 网友怎么看?

X 推荐算法开源后,在 X 平台,有用户对推荐算法机制做了以下 5 点总结:

  • 回复你的评论。算法对“回复 + 作者回应”的权重是点赞的 75 倍。不回复评论会严重影响曝光率。
  • 链接会降低曝光率。应该把链接放在个人简介或置顶帖里,千万不要放在帖子正文中。
  • 观看时长至关重要。如果他们滑动屏幕略过,你就不会吸引他们。视频 / 帖子之所以能获得高关注,是因为它们能让用户停下来。
  • 坚守你的领域。“模拟集群”是真实存在的。如果你偏离了你的细分领域(加密货币、科技等),你将无法获得任何分销渠道。
  • 屏蔽 / 默不作声会大幅降低你的分数。要有争议性,但不要令人讨厌。

简而言之:与你的受众沟通,建立关系,让用户留在应用内。其实很简单。

图片

也有网友发现,虽然架构是开源的,但还有些内容仍未开源。该网友表示,此次发布本质上是一个框架,没有引擎。具体少了啥?

  • 缺少权重参数 - 代码确认“积极行为加分”和“消极行为扣分”,但与 2023 年版本不同的是,具体的数值被删除了。

  • 隐藏模型权重 - 不包含模型本身的内部参数和计算。

  • 未公开的训练数据 - 对于训练模型的数据、用户行为的采样方式,以及如何构建“好”样本与“坏”样本,我们一无所知。

对于普通 X 用户而言,X 的算法开源并不会造成太大影响。但更高的透明度可以解释为什么有些帖子能获得曝光而另一些则无人问津,并使研究人员能够研究平台如何对内容进行排名。

4、 为什么推荐系统是必争之地?

在大多数技术讨论中,推荐系统往往被视为后台工程的一部分,低调、复杂,却很少站在聚光灯下。但如果真正拆解互联网巨头的商业运转方式,会发现推荐系统并不是边缘模块,而是支撑整个商业模式的“基础设施级存在”。正因如此,它可以被称为互联网行业的“沉默巨兽”。

公开数据已经反复印证了这一点。亚马逊曾披露,其平台约 35% 的购买行为直接来自推荐系统;Netflix 更为激进,约 80% 的观看时长由推荐算法驱动;YouTube 的情况同样类似,大约 70% 的观看来自推荐系统,尤其是信息流(feed)。至于 Meta,虽然从未给出明确比例,但其技术团队曾提到,公司内部计算集群中约 80% 的算力周期都用于服务推荐相关任务。

这些数字意味着什么?如果将推荐系统从这些产品中移除,几乎等同于抽掉地基。就拿 Meta 来说,广告投放、用户停留时长、商业转化,几乎都建立在推荐系统之上。推荐系统不仅决定用户“看什么”,更直接决定平台“如何赚钱”。

然而,正是这样一个决定生死的系统,长期面临着工程复杂度极高的问题。

在传统推荐系统架构中,很难用一个统一模型覆盖所有场景。现实中的生产系统往往高度碎片化。以 Meta、LinkedIn、Netflix 这类公司为例,一个完整的推荐链路背后,通常同时运行着 30 个甚至更多专用模型:召回模型、粗排模型、精排模型、重排模型,各自针对不同目标函数和业务指标进行优化。每个模型背后,往往对应一个甚至多个团队,负责特征工程、训练、调参、上线与持续迭代。

这种模式的代价是显而易见的:工程复杂、维护成本高、跨任务协同困难。一旦有人提出“是否可以用一个模型解决多个推荐问题”,对整个系统而言,意味着复杂度的数量级下降。这正是行业长期渴望却难以实现的目标。

大型语言模型的出现,给推荐系统提供了一条新的可能路径。

LLM 已经在实践中证明,它可以成为极其强大的通用模型:在不同任务之间迁移能力强,随着数据规模和算力的扩展,性能还能持续提升。相比之下,传统推荐模型往往是“任务定制型”的,很难在多个场景之间共享能力。

更重要的是,单一大模型带来的不仅是工程简化,还包括“交叉学习”的潜力。当同一个模型同时处理多个推荐任务时,不同任务之间的信号可以相互补充,随着数据规模增长,模型更容易整体进化。这正是推荐系统长期渴望、却很难通过传统方式实现的特性。

LLM 改变了什么?其实是改变了从特征工程到理解能力。

从方法论层面看,LLM 对推荐系统最大的改变,发生在“特征工程”这一核心环节。

在传统推荐系统中,工程师需要先人为构造大量信号:用户点击历史、停留时长、相似用户偏好、内容标签等,然后明确告诉模型“请基于这些特征做判断”。模型本身并不理解这些信号的语义,只是在数值空间中学习映射关系。

而引入语言模型后,这一流程被高度抽象。你不再需要逐条指定“看这个信号、忽略那个信号”,而是可以直接向模型描述问题本身:这是一个用户,这是一个内容;这个用户过去喜欢过类似内容,其他用户也对这个内容有正反馈——现在请判断,这条内容是否应该推荐给这个用户。

语言模型本身已经具备理解能力,它可以自行判断哪些信息是重要信号,如何综合这些信号做出决策。在某种意义上,它不只是执行推荐规则,而是在“理解推荐这件事”。

这种能力的来源,在于 LLM 在训练阶段接触过海量、多样化的数据,使其更容易捕捉细微但重要的模式。相比之下,传统推荐系统必须依赖工程师显式枚举这些模式,一旦遗漏,模型就无法感知。

从后端视角看,这种变化并不陌生。就像你向 GPT 提问,它会基于上下文信息生成回答;同样地,当你问它“我是否会对这条内容感兴趣”,它也可以基于已有信息做出判断。某种程度上,语言模型本身已经天然具备“推荐”的能力。

免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。

分享至:
APP下载

X

Telegram

Facebook

Reddit

复制链接