DOITAPP
DOIT数据智能产业媒体与服务平台
立即打开
DOITAPP
DOIT数据智能产业媒体与服务平台
立即打开

海量信息霍刚:网站每天垃圾信息量最高占90%

腾讯科技讯 8月24日消息,2011互联网大会于8月23日至25日在北京召开,腾讯科技作为本届互联网大会的官方战略合作门户和官方指定合作新闻中心,在现场进行全方位的视频和图文直播。并特设立3个现场专访间,力邀业界专家与企业代表共同探讨产业现状,指点未来趋势。

作为大会官方微博合作伙伴,腾讯微博( http://t.qq.com/)上发起了#向CEO提问#的活动,所有网友都可以提前向您关注的互联网行业CEO提问。其中部分问题将被选中,在互联网大会现场提出,并得到嘉宾的正面解答。

今日进行的是电子邮件行业发展论坛暨2011反垃圾邮件(信息)年会,会上,海量信息产品总监陈凯表示,垃圾信息本身符合了互联网信息传播的特点,免费传播大量的垃圾信息都是通过系统和工具快速传播,传播范围也非常快,目前一些垃圾泛滥的网站每天要删除的垃圾信息量占90%以上。

以下是海量信息产品总监陈凯演讲实录:

主持人:感谢张总,这几年来随着新兴交流方式的出现,网络参与也越来越丰富,当然了这里面我们也有一些混杂的广告,甚至垃圾信息等,针对这些方面的垃圾信息大多数的做法我们可能采取人工删除的方式多一些,这样会化费的时间长,成本很高,有没有一种智能化的方式来解决呢下面我们有请陈凯先生,海量信息保10洁技术总监。

陈凯:先简单介绍一下海量,海量被业内同行所羡慕,互联网的时代我们处于一个含量的时代。一直专注于中文智能计算的研究,在这个过程中我们也研发了很多信息的技术,并且在针对网站的互动内容的垃圾信息识别上有一些心得。现在我们网站互动垃圾信息的现状,这里有一个具体的例子给大家讲述一下,我们搜索一些明显是违纪违规的垃圾信息,非常简单一个关键词,加上一个QQ就是联系方式,其实这种词在搜索引擎中的信息来是千万的。据我了解现在一些垃圾泛滥的网站每天要删除的垃圾信息量占90%以上。

垃圾信息本身也符合了互联网信息传播的特点,免费传播大量的垃圾信息都是通过系统和工具快速传播,传播范围也非常快,同一发布信息的人在每个网站上都有他的踪迹。

每天我们在互联网上这些互动信息里面有90%是需要清楚的,垃圾信息的具体分类,第一种也是各大门户网站头疼的广告信息,违纪违规的广告,还有普通的商业广告,这些广告由于发布者是利益驱使的,24小时在线,还有灌水的信息重复发布刷屏的,在短时间内造成网站的下降。这些发布者大家也了,广告信息是背后有商业目的的驱使,他们的这种发布一方面是利用工具,范围大传播快,不断地在利用种种手段和社区的运营人员做对抗,灌水是情绪的发泄,造成的结果是社区首页无法浏览了。

发布特点长时间长,量大。我们发布一个违法广告的信息,在去年的时候12月份就已经追查到他了,加入了黑名单的库里面,今年还发现这个人还在发,因为有了这种监控之后第一时间可以将他堵截。同样是违法信息的手机号码,到搜索引擎上一搜有八万多条。另外这种刷屏也是经常会看到我们的一些人工网站会遇到前几页不停的翻都是同一条信息,严重影响了用户的体验,至于这种体验对于网站来讲这种影响更大于成本的收成。

变形电子邮件也会遇到,一个词汇的变形可以多达几百种,这些变形不仅需要技术,还需要有人持续应对这种变形才可以,不能简单通过一套系统和技术来实现。也是由于这些垃圾邮件的发布者不断更换IP,使邮件堵截的难度特别大,通过更换用户名的方式不断重复发布垃圾信息。这是一些现状,对于网站社区的内容审核人员来讲,这一类的角色是网络中流动最高的一些决策,一般持续半年以上的都很少,因为每年都是应对这些大量的垃圾信息,需要我们通过智能的手段来提升我们的工作效率,传统的网站监管模式是非常的简单,很难满足这种需求,大部分的网站都是这样用户发布信息提交之后,进入我的过滤库,真正想发信息的人,变形每年都在发生,一些大的商业网站敏感词表库的规模可能是几十万个词每天还在增加,这些词的添加有弊端,少会露多了会误判。

海量是提供的是一个多纬度的,它的识别是一个多纬度的识别,首先语意上进行识别,需要完整地理解语意可以,行为,单独发布一条如果重复发布或者换IP一定是灌水的行为,还有板式多种变形也是需要我们去识别的,从弓形和个性的角度国家已经有47份的法律法规,怎么去维护这样一套机制,我们也是通过了语音服务的方式来维护这样的特征。

识别速度一定要非常的快,如果没问题要马上能够发出来,要跟踪用户的行为,如果不断持续地发布垃圾信息把他以往的数据都能够找出来。具体到我们几个纬度的例子,语意纬度,既是要求识别违法的动作,通过联系方式的归纳总结,动作等等,通过这一系列的规则我们可以有效地来控制绝大部分广告信息的全自动的识别。

行为的纬度,通过我们跟踪IP、ID的行为通过一定时间之内对他以往发送的信息进行批量处理。板式是一种更新兴的变形手段,来正确理解他的含义,识别是否是垃圾信息。整个互联网的垃圾信息特点也是实际上这些发垃圾信息的人就是那么一些人,通过工具和其他手段发布到各个网站。这就是我们保10洁云计算的中心,包装成了一个产品的品牌,专门面向网站互动,这种信息也是可以广泛应用于其他的领域的。这是我们云查杀的含义,通过这种联系方式的识别,其他网站只要标识过了,可以直接屏蔽掉。

最后介绍一下正在应用的,包括像搜狐、太平洋、酷六等等,对互联网信息进行海量采集处理的新浪、腾讯等等。今天把海量的产品给大家做一个展示,如果大家有更多垃圾信息处理的想法和需求可以和我们分享。

未经允许不得转载:DOIT » 海量信息霍刚:网站每天垃圾信息量最高占90%