Reuters
上海,一名男子用iPhone访问新浪微博。

国社交媒体的审查人员从来都不睡觉,不过在夜深人静的时候,他们的工作效率也会打些折扣。

这是一份新研究报告的若干发现之一,报告作者为独立研究员祝涛(音)和几位研究中国人气颇高的新浪微博审查方式的美国学者。

通过对2012年7月至9月期间那些曾违反审查规定的用户在微博上发布的238万个帖子进行分析研究,报告列出了很可能为新浪“编辑”团队采用的审查方式。这个团队是全球监控社交媒体最大规模行动的核心力量。

虽然背审查黑锅的一般来说都是中国宣传部门,但实际上,真正对网络内容“下手”的是中国国内互联网公司本身,而中国政府只是在它认为这些公司没有做好这一工作时才采取行动。

作为中国社交媒体网站中最活跃、政治气氛最浓厚的平台,新浪微博在源源不断地输出敏感帖子。让很多正在研究中国政府审查实践的学者印象深刻的是,新浪审查团队管控这些帖子时速度和效率都高得惊人。

报告说:在我们的数据集中,有5%的帖子在出来后的8分钟内被删除,近30%的帖子在30分钟内被删除,考虑到微博处理的数据集规模之大,这个速度实在太快了,特别是在5到10分钟的高峰时段,特别是考虑到这项工作无法以全自动的方式来完成。

报告说,微博上平均每分钟有7万条帖子发布,这种情况下,审查人员很可能会使用含有敏感词的不同列表,同时关注那些很可能会说出敏感词语的用户,这样就能助过滤系统一臂之力。审查人员发现他们认为应该被过滤的词后,他们首先会删除原帖,然后搜索所有转发帖,将其一网打尽,通常五分钟内就能完成工作。

被新浪审查团队盯上而删除的帖子中,82%是转发帖。

研究人员发现,有10%的被删帖是在发布24小之后被删除的。其中大多数帖子使用了新词或逃避自动关键词过滤的暗语。例如,重庆市前市委书记薄熙来去年倒台丑闻爆出的时候,微博用户为绕开对薄的屏蔽,用“西红柿”指代他,其中“西”与他名字中的“熙”字同音。

最终这些暗语会被发现且屏蔽,从而导致新暗语的产生,然后再度被屏蔽,如此循环往复。

报告作者说,由于审查人员不断发现新暗语,他们会使用关键搜索词来回溯,然后很快删除相关帖子。例如,他们发现有44条不同的微博中使用了新发现的敏感性暗语,然后在区区五分钟内就将其全部删除。

若有用户一再公然发布敏感内容,新浪有时会直接将其销户。在报告研究的3.5万个账户中,有300个账户有如此遭遇。

不过,尽管新浪审查人员警惕性很高,但他们似乎也是要休息的。研究发现,审查工作虽然一天24小时不停歇,但凌晨那几个小时会有一段“风平浪静”的时光。报告说,上午的删帖高峰时段表明,审查人员的进度有所落后,他们一边要翻看前晚的帖子,一边还要处理上午发的新贴,然后到接近中午或午后不久他们就赶上进度了。

对微博用户来说,他们发的帖子越敏感,审查人员上午的压力就越大,或许这一点能令他们感到欣慰。但据去年11月发布的另一份报告统计,大多数时候,审查人员是最终的赢家。这份报告与上述报告出自同样一群作者之手。

较早的那份报告说,审查一开始,某话题的讨论频率会明显降低。报告作者将审查人员比作是白血球。

报告说,生物免疫系统的工作重点不是尽快达到零感染的水平,而是阻止传染物扩散并干扰到生物体的健康;微博的审查重点似乎同样务实,只要敏感话题没有大规模传播,一些敏感帖子在某段时间内是可以被容忍的。

Paul Mozur

(本文版权归道琼斯公司所有,未经许可不得翻译或转载。)
 本文涉及股票或公司
新浪公司
英文名称:Sina Co.
总部地点:香港
上市地点:纳斯达克
股票代码:SINA
Facebook Inc.
总部地点:美国
上市地点:纳斯达克
股票代码:FB