如何做好网络舆情监测?

时间: 2013-3-11 阅读次数:2701

如何做好网络舆情监测,有以下几个必要步骤:

第一步:监测范围的设定

互联网是浩瀚的信息海洋,百度和谷歌也无法做到所有信息的完整抓取,所以监控软件必须设定好监控的范围。首先,网络舆情的信息的特点往往是对现实生 活中的事件进行评价,所以它发布的途径主要是以下四种:新闻报道、博客微博、论坛和视频。所以,监控的范围设置就是在这几个领域。

其次任何一条信息要达到舆情的效应,必须有足够的关注度。那么信息发布的网站就要有一定的人气。在这种情况下,就可以把范围进一步地缩小到那些有人 气的网站。而几乎没有多少访问者的小网站,则可以不必监控。即使信息发布在小网站,如果其要形成影响力,必然会被转发到大网站。

目前我们简美监控范围的设定是:
中央媒体网站:30个;广东媒体:85个;地方媒体:25个;门户网站:8个;视频网站:15个;公众论坛:22个;专业论坛:22个;地区论坛:99个;社区论坛:21个。数量还在每日不断地更新和添加中。

同时我们允许客户自行添加他们需要的监控网站和网址,并不做任何限制。

第二步:监控抓取信息的运作

每一秒钟,互联网上都在发布新的信息。所以,监控软件必须不断地对监控范围内的网站进行扫描,查找可疑的信息。由于监控范围的庞大,所以每扫描一次 都需要花不少的时间。比较强的监控软件可以每小时扫描一次。有的则需要几个小时或者一天扫描一次。扫描的周期直接决定了是否能够及时发现可疑的信息,做到 尽早的发现和处理。

我们简美网络的机制是把网站监控当中的每一个网址进行分级,如果这个网址内容更新速度快,我们抓取去的就勤快,更新速度慢抓取间隔的时间就长。部分的网站是每10分钟扫描一次,大部分是在30分钟扫描一次,很少更新的网址是3个小时扫描一次。

在这样的机制下,重点网站扫描的频率非常高,几乎可以做到信息一被发出,几分钟之内就会被监测到。

第三步:关键词的设置

关键词是用来和抓取的数据进行匹配吻合,从而实现对可疑信息的发现。那么关键词设置的准确,直接决定了监控效果的准确性。可是,互联网信息五花八 门,语言的组合形式多样,所以要充分考虑各种关键词出现的可能性。如果关键词设置的比较精准,那么监控的结果准确度高,可是很可能会遗漏信息。如果设置的 比较模糊,那么监控结果吻合的数量就比较大。大量的信息可能都不是监控目标,准确率比较低。但是这样能够确保不会遗漏任何关键信息。

所以,对于监控结果,我们往往采取的是模糊的关键词进行匹配,得出较多的结果后采用人工筛选的方式,确保结果的准确性和完整性。

另外,我们简美网络采用的是双重关键词吻合的机制。首先在标题层面做模糊关键词匹配。这样即使吻合,也不会有太多的信息,人工只是对标题筛选,不用 花费太多时间。另外,我们还对信息做全文关键词匹配。这个环节则采用精准匹配。那么匹配的结果较少,直接抓取文章中的吻合关键词。双重匹配下,我们可以做 到效率和准确性的兼顾。

第四步:监控的维护

监测软件的运作是一个高速、不间断的过程。所以,它对服务器和平时的维护工作要求很高。稍有不慎,可能软件就会停止运作,那么监测就会中断。如果期间发生任何舆论事件,则无法得到及时的监测。所以,软件的运作要有专人每天进行检测。

同时,软件需要设置停止运作的报警机制。如果软件停止运作了,是否能够自动通知技术人员进行恢复。我们简美网络的做法就是有另外一台服务器作为备份 服务器,在主服务器有问题的时候可以立即切换到备用服务器。同时如果备用服务器每几分钟对主服务器做一个自动检测,如果发现主服务器异常,会自动发短信通 知技术人员以及其它负责人。

更重要的维护工作是对监控范围网址的维护。因为互联网每日都在变化,被监控的网站随时可能会有些变更,url变化或者栏目变化等等。同时,还会有新的网站值得被添加入监控的范围。那么就需要每日对监控的范围做维护更新。检查每个网址监控的状态,排除错误的网址等等。

在简美网络,设置了一个专人每日对监控网址做维护管理。

以上是我们根据自身的实战经验给出的一些建议,欢迎大家指正和讨论。我们非常乐意分享我们在舆情监测上的案例和经验,如果希望获取更多的资讯和经验,欢迎来电与我们沟通,020-87554998,江先生。