简美网络科技有限公司

舆情监控监测软件是如何运作的

时间: 2011/4/27 18:12:00 来源: 作者: 陈炯

舆情监测软件的运作原理非常简单,实际上类似google和百度,采用计算机对互联网上的网站进行访问,抓取数据,然后在根据实现设定好的关键词进行比对,如果吻合的则设置为可以的舆情内容。

舆论监控的软件运作原理虽然不复杂,可是当中却有非常多的细节,直接决定了软件的性能和效率。

1. 抓取的对象的设定,也就是抓取范围,抓取的网站

互联网是一个浩瀚的信息海洋,每天都有新的网站在诞生和消亡。有巨大的信息门户,也有几乎没有更新的企业网站。即使是google和百度都无法对整个互联网上的所有信息进行抓取,只能尽可能地收录互联网上的资讯。在这种情况下,抓取的对象和范围就是有限的。需要进行选择和设定。

当然,选择的对象就是舆情容易发生的信息门户。我们一般采用这样的一个标准:媒体和网民主要发布信息的渠道,以及信息容易产生影响的网站。在这样的一个基础上,再根据互联网动态的变化不断地丰富和补充完整监控范围的网站网址数量。

2. 抓取的机制和效率

要抓取大量的信息,就需要一套非常有效的抓取机制,尽可能实现抓取的高效。比如说对网站进行权重和更新程度的划分,重点网站抓取频率高,次要网站抓取频率底等等。

与google和百度不同的是,舆情监控的时效性要求非常高,也就是一旦舆情出现,应该是最短的时间进行发现。越早发现越能够掌握处理的主动权。所以,我们通常要求对舆情信息要在一小时内,系统就能够抓取发觉,3-4小时内人工可以发觉。往往在12个小时内进行预警,基本上都能够排除险情。

而google和百度基本上都是要1天以上的时间才会对信息进行收录,甚至需要更长的时间。

3. 抓取的能力

有的网站需要登陆才能进行浏览,例如新浪微博;还有的网站采用动态JS输入数据。这些都是传统抓取方式说不能获取数据的。搜索引擎可能会放弃这些网站,可监控软件是不允许遗漏这方面的内容的。所以,监控软件要具备抓取这些数据的能力。

而我们则采用了模拟一个真实的访问者来对网站进行登陆和访问,从而能够抓取到数据。这需要比较高的互联网技术开发能力。

4. 运作机制

软件的抓取实际上并不能做到百分百的准确,所以必须介入人工的审查工作。所以,监控运作的机制应该是软件加人工的方式。软件对信息进行第一步的梳理筛选,再由人工进行审查和对舆情进行分类定级。

所以,软件的设置必须考虑人工使用的便利性友好性。目前大部分软件公司开发的舆情监控软件都是缺乏实际应用,结果软件在使用上会非常的不方便。这将会导致系统使用效率低甚至是不使用,最终遗漏重要的舆情信息。

5. 抓取网址的管理

抓取的网站可能会设计几百上千,目标网址会有几千条,媒体收录达到几十万条数据。对于这个庞大的数据,需要一套科学的管理机制。随着互联网信息的扩张,监测抓取的范围也是需要不断扩大的。所以,对于网址库的管理是一门有难度的工作。一方面要熟悉每个网站信息发布和存放的规则,第二要熟悉各种信息展示的方式和代码格式。同时还要对当前的抓取状态做实时的监控,了解抓取的成功率,即使排除一些网址变化导致的坏链接。

也正是这个原因,很多企业虽然花重金购买了监测软件,但是会感觉到随着使用时间的推移,会有越来越多的信息被遗漏。那就是缺乏网址管理的缘故。
 

用户评论

昵称:


<内容请勿超出200个字.快捷键:Ctrl+Enter>