twitter刚刚开源了算法

CN
2小时前

twitter刚刚开源了算法,我仔细了研究了一下,并且总结了一些获得阅读量和发帖的关键要点

第一部分 算法的核心

x推荐推文会分为三个步骤

第一步,从亿条推文中进行筛选

对于用户,会根据下面几个原则中

a 关注者:首先是从你关注的人中的推文

b 协同过滤(Collaborative Filtering):比如跟你有类似行为的用户点赞,简单来说,就是跟你臭味相投的人的中推荐

c 二度人脉的人:就是跟你二度人脉的人关注或者喜欢的帖子

d 语义向量搜索:** 算法将“用户”和“帖子”都转化为高维空间中的向量。如果你的兴趣向量和某条帖子的内容向量在空间上非常接近,它就会被选中。

这一步会筛选出1000~5000条推文,这里可以看出,推特根据兴趣,以及相似行为的进行推荐。而关注者的推文只占其中的4分之一。这也就解释了为何很多十几万的大V,有时候推文的阅读量并不高。

*第二步:排序阶段(Ranking)

在这一步,系统会 Phoenix这样的大型深度学习模型,对每一条帖子进行精密打分,。而指标是多维度的,基本上涵盖了我们所见的内容了,一共有15个正向:

1. **Favorite** (点赞)

2. **Reply** (回复)

3. **Retweet** (转推)

4. **Quote** (引用/转发并评论)

5. **Photo Expand** (点击查看大图)

6. **Click** (点击链接/卡片)

7. **Profile Click** (点击头像进主页)

8. **VQV** (Video Quality View - 有效视频播放)

9. **Share** (分享)

10. **Share via DM** (通过私信分享)

11. **Share via Copy Link** (复制链接分享)

12. **Dwell** (停留/驻足,指在这个推文上停下来)

13. **Dwell Time** (停留时长,这是连续变量,停得越久分越高)

14. **Quoted Click** (点击了引用推文中的原推文)

15. **Follow Author** (看完推文后关注了作者)

但是,github上面并没有公布权重。所以我们没办法猜测哪些维度更加重要。或者说,推特可能动态的调整这些维度的权重。

第三步:过滤与重排

这是对上一步排列的帖子做最后的过滤。一般都是合规类的,安全合规:自动剔除仇恨言论、色情、暴力或已删除的内容。去重:过滤掉你已经看过,或者内容高度重复的推文。

需要注意的是:如果排名靠前的都是同一个作者,算法会强制压低后续相同作者的分数,让你看到更丰富的内容。

第二部分:几个要点总结

1 出爆款要跨过一个门槛。

在代码中,直接写明了Prioritize in-network candidates over out-of-network candidates。也就是在推荐系统中,路人的系数是要打一个折扣的,虽然这个折扣的系数并没有公布。但是代码中明确指出,推荐给路人要比粉丝要难。那么这就意味着,要让路人看到,就需要积累一定的数据

2 Blue Check(蓝标认证)权重加成。

在 IneligibleSubscriptionFilter 中,系统会检查订阅状态。虽然具体的加权数值(Weight)隐藏在 params 里,但将“是否订阅”作为一个独立特征(Feature)输入给模型,本身就说明了它对打分有直接影响。

而且马斯克公开表示过,为了对抗 Bot,未认证用户的推文在“For You”中的可见性会被通过算法大幅压制。

3 发文频率有时候很重要

发推频率是一个比较容易踩坑的地方。代码里有一个叫 `AuthorDiversityScorer`(作者多样性打分器)的家伙。 它的逻辑非常“铁面无私”:如果你在短时间内连发好几条,系统就会认为你在刷屏,第 2 条以后的分数会直接被**乘上一个衰减系数**。

也就是说,如果你发帖太过频繁,而且是坏事

4 在你粉丝活跃的时间发帖

这条不是玄学,而是可以确定的事实了。虽然不在直接的算法代码中。但是可以从逻辑中推理出这条重要的规则。具体来说。

twitter推荐的算法中,包含了评论、点赞等一系列的指标。如果发文章的时候,粉丝都在睡觉,那么这些数据就很小。而当粉丝刷推特的时候,这篇文章将跟其他的数据来的一起排序,那么最后肯定被排在很后面。

5 把握“黄金一小时”:启动速度决定上限

算法会先将你的帖子推送给一小部分活跃粉丝,观察他们的 **Engagement Velocity(互动速率)**。并且结合第四点,所以建议把握黄金一小时 在你的**粉丝最活跃的时间点**发布内容。如果前 30-60 分钟互动数据惨淡,算法会判定该帖质量一般,停止向 Out-of-Network 扩散。

可以考虑发布后,立即在其他社交频道(如 Telegram/Discord)引导核心粉丝来互动,人为制造一个初始的脉冲信号。

6 重视:回复、评论、用户停留时间

虽然代码中没有公布各个指标的权重。但是埃隆·马斯克(Elon Musk)的公开解释:他在 X 上多次公开解释过这套算法的逻辑,明确说过“回复的权重是非常高的”。并且按照推荐系统的通用工业标准,稀疏行为(如回复)的权重必然远大于稠密行为(如点赞),否则模型无法收敛。


免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。

分享至:
APP下载

X

Telegram

Facebook

Reddit

复制链接