我觉得如何应对spam可以很明显的展示出一个公司的实力。原因有两个:

  • 如何通过技术手段来做主动的自动化运营,而不是通过人工手段去被动地应对每一个突发事件,很考验一个公司的技术能力。
  • 除非是应对「重大突发Spam事件」,否则解决Spam对公司短期的KPI没有正面作用(有时可能还是负面的)。因此为什么要解决Spam,怎么Spam,解决到什么程度,都可以体现公司的产品价值观。

接下来就说说Facebook这个超大型UCG平台是怎么解决这两个问题的。

1. 技术化运营
Facebook有一套专门Anti-spam的基于机器学习的系统,叫Sigma。

  • 对于每一个用户在Facebook网站上的每一个动作,比如发帖/点赞/评论/私信/好友申请,Sigma都会实时预测其行为的「可疑」程度。
  • 这个「可疑」程度具体又分为多个子维度,包括假帐号,被盗号,刷榜刷赞,发钓鱼帖等。
  • 针对每个维度,Sigma都会基于机器学习生成一个可疑值,数值高的就会自动触发对应的规则系统:删号,删帖,发邮件或短信来要求用户确认帐号等。

相比起用于精准广告,智能排序,个性化推荐一类的机器学习系统,Sigma最大的不同就是响应速度要快,在各个层面都要快:

  • 模型的训练必须是online的,用实时的数据。否则新出现的Spam没有第一时间体现在数据里,再好的系统也没用。
  • 「学习率」必须要快。相对的,「准确率」就没有那么重要。一个2%失误率的算法在当天就控制住了spam,让它只影响了1000个用户,远好于一个失误率只有1%,但到了第二天才学会正确识别spam,以至于让它影响了10万个用户的算法。
  • 模型和规则的部署要快。新的模型出来了,或者万不得已手动加一个新规则,你如何把新的模型和规则部署到服务器上去?在这十万火急争分夺秒的时刻,你总不能让机器们轮流着重启一遍吧。

在上述的这些独特的技术问题之外,还有更重要的一点值得再次强调一下:Sigma不是一个独立的模块。它在每个用户的每个行为都会被触发,因此它与整个Facebook技术系统的结合要极为紧密,涉及各个环节。这对规模不大的产品来说不是什么难事,但如果接触过类似FB这种一个网站包含各种复杂功能的系统,应该能理解工程上的挑战吧。对应的,如果能把这件事做好,体现的也就不仅仅是anti-spam什么的,而是公司整体的技术工程能力了。

2. 产品的价值观
为什么要anti-spam?那些引诱用户去钓鱼网站的自然要解决,但那些买僵尸粉来给自己刷赞的呢?把他们做掉了,短期内产品的数据反而会降,那要不要做呢?如果做的话,目的又是什么呢?

是为了维护社区的质量,无论这会怎样影响短期数据。

想明白这些,对「spam」的定义就会宽泛很多。对应的,也就不能仅依靠anti-spam一个团队来做工作,而是要求公司内的每一个产品团队都要保持对质量的关注

举个例子,我在Facebook时做的是Newsfeed排序,离开公司前的最后一个项目,就是和广义上的spam有关:抓出标题党

很多公众号/营销号/蓝V号爱做标题党,这事在Facebook上也不例外。然而,在FB这侧,通过对比一个分享的点击率和平均阅读时长,很容易找出那些典型的标题党。在新鲜事排序上对这些标题党做降权处理,减少他们在新鲜事上的曝光量,从而控制了低质量内容在社区内的传播。

同理,我们还会做掉骗赞的和骗转发的。

可以看出来,做这些工作对社区绝对是好的,但对宏观数据完全没帮助,反而可能不利于公司与公众号运营者们的关系。某种程度上,anti-spam天然地与KPI文化相违背。因此,anti-spam最终做得好不好,取决于公司自上向下的产品价值观:

到底是冲数据,还是做正确的事?

————
附:
[1]: 关于Sigma的paper: http://research.microsoft.com/en-us/projects/ldg/a10-stein.pdf

来源:知乎 www.zhihu.com

作者:宋一松

【知乎日报】千万用户的选择,做朋友圈里的新鲜事分享大牛。
点击下载

此问题还有 11 个回答,查看全部。
延伸阅读:
为什么论坛老是有色情广告帖?怎么根治「XX地方哪里有找小姐上门服务」这类 spam 现象?
发布邮件地址时用「#」「at」等替代「@」有助于反垃圾邮件吗?

毒镜头:老镜头、摄影器材资料库、老镜头样片、摄影