丁杰;徐俊刚
【摘 要】描述一个网络舆情监控系统IPSMS(Internet public sentiment monitoring system).该系统试图将网络新闻及论坛、BBS上的帖子依关键词搜索,并依\"事件\"聚类,让管理者通过阅读事件可以了解正在发生或已经发生的事件,并提供自动持续追踪事件发展的功能,以协助管理者快速完整且全面地了解事件全貌.系统由网页抓取器、网页解析器及跟踪检测系统三部分组成.由于网络舆情的特点是数据量巨大,为了提高效率,系统采用了网页清理技术,并且在话题跟踪过程中使用了k-d tree方法.最后,对系统的未来工作进行了展望. 【期刊名称】《计算机应用与软件》 【年(卷),期】2010(027)004 【总页数】3页(P188-190)
【关键词】网络舆情;话题跟踪;话题检测;网页清理;k-d tree 【作 者】丁杰;徐俊刚
【作者单位】中国科学院研究生院信息科学与工程学院,北京,100049;中国科学院研究生院信息科学与工程学院,北京,100049 【正文语种】中 文 0 引言
舆情是指在一定的社会空间内,围绕中介性社会事件的发生、发展和变化,民众对
社会管理者产生和持有的社会政治态度[1]。
网络舆情的特点有三。第一,网络舆情形成迅速,对社会影响巨大。第二,对于热门话题相关新闻及评论数量很大。第三,相同事件经由不同的记者或网民描述,由于其立场差异、切入点不同及个人素质良莠不齐,异致其描述的同一话题与实情有所出入,使管理者很难从中理出头绪。
基于以上三点,监控舆情有多种要求。首先要及时、迅速发现新的舆情。其次要跟踪舆情的发展变化。再次,要将舆情的历史和现况以不同的形式展现出来,方便管理者用以分析研判。而这些要求在技术上不易实现,首先迅速获取大量相关网页不易;其次,现有技术还不能十分精确地判定两段文字的相关度;再次,由于网页数量巨大,处理速度成为瓶颈,难以对舆情变化作出迅速响应。
在公安业务应用中,情报信息综合应用对公安部门业务开展具有极大的支撑作用。传统公安部门情报都依赖于人工处理,大量消耗人力,处理信息速度有限,研判目标和结果范围相对狭小,展现形式单一,响应速度慢,容易错失情报间关联。 为此,本文提出一种可以帮助管理者更便捷监视网络舆情的机制,并设计了相应的系统。该系统将相似事件的网页聚集,并将后续的文件自动归类到适当的群集,主动检测新事件的发生,跟踪以往的焦点事件。 1 研究现状
话题跟踪检测TDT(Topic Detection and Tracking)的概念最早产生于1996年,当时美国国防高级研究计划署DARPA(Defence Advanced Research Projects Agency)根据自己的需求,提出要开发一种新技术,能在没有人工干预的情况下自动判断新闻数据流的主题。“在线事件跟踪检测”是其中的课题之一。事件定义为:“在一些特定的时间及地点所发生的事情[2]”。
CMU(Carnegie Mellon University)和Umass(University of Massachusetts)都曾进行类似研究,曾获正面评价[2-4]。
1.1 事件检测
事件检测可定义为“发现包含在连续新闻串流中有关新的或先前未发现的事件[5]”,分为“回顾检测”和“在线检测”。 1.2 事件跟踪
事件追踪的目的在于将后续的文本资料归类到先前的事件中[2],是一种文件分类的应用。CMU采用了 kNN分类法(k-Nearest Neighbor Classification),并针对TDT评估的需要(每个事件都要能独立追踪,而事件中不含其他事件的分类知识)将一般M-way的kNN法修改为2-way kNN法[3]。 2 系统设计
本研究试图结合并改良已有事件跟踪检测技术,并提供事件聚类,以便监控者浏览。 2.1 网页抓取器
我们采用网络蜘蛛进行网页抓取。考虑到网络监控的特殊性,利用网络蜘蛛进行网页获取时,我们将种子布在几大搜索引擎和几大BBS中,并设置按敏感词或关键词获取网页。 2.2 网页解析器
当网页获取工作结束后,随即由网页解析器开始网页清理。网页解析器的主要作用是去除掉网页中的“噪音”,保留网页链接、title、时间、正文及标题、一级标题。 本文采用了DOM(Document Object Model)Tree方法[6]来获取网页的链接、title、一二级标题及正文,结合了文献[7]中提出的最大扇出数的方法。本文采用html parser来构建DOM Tree,将文件中具有最大扇出数所形成的子树当作主要文字区域,并依深度优先搜索做分行段落的断行搜索,将追踪到的文字内容逐项写入文档。当到达叶子节点时,若节点为null,则不写入;若为控制字“\\n”,则写入空白,表示与前面文字相关。当搜索到文字节点下的文字内容时,此文字节点至下一节点间视为分段标记。遇到一级标题时,分别在前后标注数目不等的*号
作为标识,并重新写入到标题之下。文字区的追踪与分行如图1所示。 图1 文字区的追踪与分行 2.3 跟踪检测系统 2.3.1 关键词表
我们根据舆情系统专家提供的敏感词,构造了敏感词表根据舆情系统专家提供的经验,将敏感词表中的词汇按影响力(重要性、敏感程度)分级。并以其中一些作为特征。
2.3.2 文本向量模型
本研究用词频率指数—逆文本频率指数TF-IDF(term frequency-inverse document frequency)方法将文本转化为向量。计算公式如下:
其中wij表示词i在文件j中的权重。tfij表示词i在文件j中的词频。idfi表示词i的文件频率的倒数。
为凸显文章不同位置关键词的重要性将出现在标题、title及一二级标题中的关键字赋予更高的权重。 2.3.3 文本聚类
我们主要采用了CMU提出的方法来进行文本聚类[2]。把每个事件都以向量表示,首先要计算的是每两个文本之间的相似度。本研究中的相似度计算采用了cosine相似度公式:
其中sim(x,c)表示新进文件x对于某事件聚类集的相似度,wjx为词j在簇c的权重,M为文件集中词的总数。
我们采取了 k-means[6-8]方法进行聚类。 2.3.4 事件检测
我们把每个簇(聚类集)当作一个事件,并计算出该簇中所有文件的平均权重,并以此衡量新文件与各聚类群的相似度。首先计算新的网页所形成的文件资料与现有簇的相似度。
考虑到事件的重要性随时间的流失而衰减,或者说同样的关键字在相隔很长时间后,很可能代表着不同的含义,因此我们加上了时间区间的计算。如新文件在时间区内经计算后,相似值越小的,我们认为它是新事件的评分就越高。计算公式如下:
其中x表示新文件,ci为时间区间中的第i个簇聚类,i表示时间区间中所含的文件数,k为簇ci中最新的一篇文件收录时间至新进文件x到达的时间之间所增加的文件数目。倘若score大于设定的阈值,则认为新文件是新话题。 2.3.5 事件追踪
当新文件所代表向量与现有簇的相似度在阈值之内(或者说新文件向量与现有簇平均向量点积在阈值之内),则认为它是老话题的组成部分(或者是老事件的新发展)。 这是一个分类过程,本文采取了 k-d tree[9,10]方法进行分类。这一方法的优势在于时间复杂度较knn方法为优。 3 本系统设计的特色
(1)在网页获取中,使用关键词搜索,可以进行面向事件的搜索,有助于减轻后续工作的压力。
(2)采取了网页清理这一步骤,统一了编码格式,从文本中提出了链接、title、时间、标题、一级标题及正文。不但可以有效提高文字处理速度和准确率,还可以有选择地对提取出来的特征加以不同权重,这样有利于反映文章真正的特征,使聚类分类的品质都上了一个台阶。
(3)在分类中使用了k-d tree算法取代了传统的knn算法,在局部效率上有了提升。 4 系统展示及评估
4.1 评价标准
本研究依据TDT评测标准,采用漏报率、误报率以及归一化检测开销
(CDet)Norm来评价话题检测系统的性能,话题i(i=1,2,…,tn;tn为话题个数)的漏报率(Missi)和误报率(FAi)定义为:
其中CMiss和CFa分别是漏报和误报的开销;Ptarget是目标话题的先验概率,P-target=1 - Ptarget。其中 CMiss、CFa和 Ptarget都是预设值,在不同的评测中取值也不同,本文中它们分别取值1.0,0.1,0.02。 4.2 实验设置及结果分析
系统的平均漏报率PMiss、平均误报率PFA和归一化检测开销(CDei)Norm如下: 本研究采用搜狗语料库的数据,包含13560个中文报道,报道时间从2007年10月1日到2008年3月30日。实验中我们将语料中前1000个报道及相应的报道和话题标记组成训练语料,剩余的12560个报道及相应的报道和话题标记组成评测语料,其中标记了20个话题。 4.3 结果演示 (1)查看抓取网页过程 图2 查看网页抓取 (2)查看网页去噪后的文件 图3 查看网页去噪结果
输出结果包括链接、Title、一级标题以及正文。 (3)向量化显示 图4 向量化
(4)事件聚类后的显示
图5 查看聚类结果 5 结论及未来工作
利用事件跟踪检测技术,本文提出了一种便于管理者监控网络舆情的机制,并设计了相应系统。此方法应用了网页清洗及k-d tree分类方法,在系统开销满足一定条件的前提下,有效提升了系统效率。研究结果显示本系统确实可有效帮助管理者了解热点情况的变化发展过程。
本研究中的实现方法仅仅是根据空间向量模型的简单应用,并辅以时间因素来提升最终效果。这一方法忽略了特征本身携带的语言信息,也遗漏了短语、句子、篇章级的结构与层次。对于时序的考虑也仅仅是从时间先后的层面上进行的。未来系统中应当融入语言模型及时序特征,以加强系统的效果。 参考文献
[1]王来华,刘毅.中国2004年舆情研究综述[J].新华文摘,2005(18):133-134.
[2 ]Allan J,Papka R,Lavrenko V.On-line new event detection and tracking[C]//Proc.of SIGIR Conference on Research and Development in Information Retrieval,1998.
[3]Yang Y,Carnonell J G,Brown R,et al.Learning approaches for detecting and tracking news events[J].IEEE Intelligent System,1999,14(3):32-43.
[4 ]Allan J,Carbonell J,Doddington G,et al.Topic detection and tracking pilot study:Final report[C]//Proceedings of the DARPA Broadcast News Transcription and Understanding Workshop,1998. [5 ]Allan J,Carbonell J,Doddington G,et al.Topic detection and tracking pilot study:Final report[C]//Proceedings of the DARPA
Broadcast News Transcription and Understanding Workshop,1998. [6]Proceedings of the 5th Berkeley Symposium on Mathematical Statistics and Probability.Berkeley:University of California Press,1967:281 -297.
[7 ]Hua-Jun Zeng,et al.Learning to Cluster Web Search Results[C]//SIGIR’04,2004.
[8 ]Hua-Jun Zeng,Qi-Cai,et al.Learning to Cluster Web Search Results[C]//SIGIR,2005.
[9]Piotr Indyk.Nearest neighbors in high-dimensional spaces[M].Jacob E.Handbook of Discrete and Computational Geometry,chapter 39.2nd ed.Goodman and Joseph O′Rourke,CRC Press,2004. [10]Bentley J L.K-d Trees for Semidynamic Point Sets[C]//SCG'90:Proc.6th Annual Symposium on Computational Geometry,1990:187 -197.
[11]Zhang K,Li J,Wu G.New Event Detection Based on Indexing-tree and Named Entity[C]//Proc.of ACM SIGIR’07,2007:215 -222.
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- efsc.cn 版权所有 赣ICP备2024042792号-1
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务