NouBan

检测豆瓣敏感词

词库版本:21.10.15(1028)

敏感词:


帮助与说明

一条豆瓣广播/日记/评论发出后,会进入到敏感词匹配机制中。在这之前,会先正则匹配,去除所有非中英文、非数字、非假名的符号。带标号的拉丁字母、希腊字母、西里尔字母等其他字母、空格、分行也会被去除。大小写字母和繁简中文会被统一。在此之后,提取的内容再进行关键字匹配,若匹配上,则该动态将仅自己可见,并进入人工审核队列。
目前,豆瓣的敏感词分为两类:一类是单词,如“独裁”、“极左”;另一类是组合词,如“疫情+失业”、“孕妇+上前线”。目前已发现两个、三个词构成的组合词。这几个词无论隔多远,只要在同一条中出现,就会被判定触发审核。
豆瓣没有分词功能。
与某人相关的谐音词,例如“锡金”、“金苹”,粗略估计数量超过一千二百个,仅有少部分常用词如“仅凭”、“精品”被除外。
很容易忽略的一点是,审查的范围不仅仅限于用户的广播、评论、日记;从站外分享的网页、转发的小组讨论、转发豆瓣的书影音条目,只要标题中包含敏感词,就会触发审核。

当然,目前都是人工发现的。最快捷的方法是二分法:将含有敏感词的一段话不断二分,并缩小敏感词所在的范围,最终得到敏感词。然而,如果包含了组合词,二分法就不太适用了。此时只能逐行/逐段/逐句删除,并测试是否仍然包含敏感词。

众所周知,在广播或评论中发出的网址会被缩成豆瓣的短网址。这就给了豆瓣更高的权力:他可以选择不解析该短网址,点开会显示not found。
被加入黑名单的网址,不能再被发出来(显示含有被禁止的内容)。
因此,如果你想发一些敏感的链接,请尽量不要直接发出网址来,可以用句号代替点,或者把你的网址先通过三方短网址缩短一遍,再发到豆瓣上。

请在下方评论(Disqus的评论功能需要翻墙才能显示,点击姓名后下方有个匿名评论,可以不用注册或登录。)

相关链接

已收录敏感词列表   |   GitHub页面


本页面访问量 8502