摘 要:互联网媒体的快速发展使网民每日接收着海量的新闻。发现热点新闻并对其演化趋势进行挖掘可有利于媒体把握新闻风向和读者喜好,并帮助用户低成本、全方位地了解新闻事件的来龙去脉。媒体网站可通过实时获取新闻并进行文本处理,运用聚类分析、时序主题挖掘等算法跟踪了解热点新闻事件的演化趋势。本文结合相关挖掘技术,提供了一种基于主题模型的热点新闻演化趋势挖掘的流程设计,并结合具体的新闻事件进行分析。
关键词:热点新闻,聚类,主题模型,文本挖掘,新闻演化
1、研究背景
随着互联网的发展,在线新闻已成为媒体发表新闻、用户阅读新闻的主要渠道。在Web2.0时代,网络中的信息传递愈加迅速便捷,网民可自主发表个人意见,助推了各类热点新闻的诞生。网络中的热点新闻是指反映社会反响比较大,网民比较关注的新闻内容,具有传播快、影响力大、关注度高的特点。网络中的热点新闻一般会经历话题产生、变化和消亡三个阶段,不同阶段的新闻有不同的热度和话题。人们在阅读互联网上海量新闻时,往往重点关注某些领域的热门新闻,并且希望了解热门的新闻的来龙去脉等泛化信息。
对网络热点新闻事件的挖掘可以满足互联网用户新闻阅读诉求。将网络中各个信息源相同和相似的新闻事件聚集在一起。最后将聚集在一起的新闻事件按照时间先后顺序进行排列和统计,这样就能够得出新闻事件的起因、发展以及结果等一系列过程,并通过统计信息的数量得到事件关注度变化曲线。挖掘结果能使用户更方便快捷的去了解网络中整个信息演化趋势和状况,同时也引导用户去关注社会和生活中的一些焦点新闻。
从用户角度看,对热点新闻演化趋势的挖掘分析给用户提供了更为方便快捷的服务,它能够使用户用最小的代价获取最多最全面的内容,它能够帮助用户更准确、更迅速的了解一个事件的来龙去脉、整个发展过程以及各方各面对该事件的理解和看法。对媒体和网站管理者而言,从对互联网中热门事件的研究,可以有效的得出互联网中热点新闻的迁移,互联网用户行为习惯变化以及互联网的舆论导向[1],便于媒体根据读者喜好和热点风向发布新闻报道,引导和控制新闻发展。
2、热点新闻挖掘技术与研究框架
2.1 热点新闻挖掘相关技术现状
在对热点新闻的演化状况进行挖掘时,主要会使用到有监督性学习、无监督性学习以及复杂网络分析等方面的相关技术。
(1)新闻聚类技术
传统的新闻主题聚类任务一般采用向量空间模型来表示一个新闻文档,然后通过相似度公式来计算文档之间的距离,而对于新主题的识别主要采用增量聚类的算法来实现;通过主题抽取与聚类工作,可以不停地生成、总结形成新的新闻主题[2]。基于以上路径,诞生了多种新闻聚类方法。如Ron Papka[3]等学者则提出了一种混合式的主题聚类算法,他将多种聚类算法进行混合搭配,根据不同聚类算法之间的特点,采取融合逻辑来进行新闻主题聚类。Sayyadi[4]等研究人员将新闻主题与社交网络结合起来,提出了一种基于关键词图的新闻主题聚类算法,充分地利用了网络新闻系统中的消费者社交网络信息,取得了不错的效果。
(2)新闻分类技术
新闻网站对于新闻进行分类使得读者可以更准确地找到自己感兴趣的分类并有利于关联阅读的进行, 例如目前新闻页面下方的新闻推荐, 可以使读者便捷地阅读到与当前阅读新闻相关的其他新闻页面。目前,机器学习和神经网络技术的发展使得新闻分类逐渐成熟,如支持向量机(SVM)、决策树、KNN等分类算法在新闻分类任务上均有不错的表现。
(3)主题挖掘技术
非监督性学习中的主题模型,可以用于追踪和检测新闻热点话题。通过主题模型将自由文本中的主题 提取出来再进行分析。主题模型也是近年来文本挖掘 领域的热点。主题模型起源于Deerwester[5]等1990年提出的隐性语义索引。M. Blei等2003年[6]提出的LDA模型,扩展了隐性语义索引,得到一个更为完全的概率生成模型。近年来,与特定的应用场景相结合,出现了越来越多的基于LDA的概率模型。
(4)新闻演化挖掘技术
新闻话题演化脉络挖掘[7],是在与某个特定话题的相关报道已被跟踪的前提下,根据新闻之间的逻辑关系,自动组织成符合逻辑的事件发展轨迹。国内外研究的一个重点集中于两新闻之间相似性度量(关联强度)方面,有研究发现新闻发展轨迹是自上而下的,具有时间近邻、事件要素共现特性,利用事件的内容关联强度、时间关系可以构造出新闻话题演化故事链[8]。
2.2 热点新闻演化趋势挖掘框架
针对网络中的热点新闻演化趋势分析主要分为三个模块:新闻获取模块;热点新闻识别模块和热点新闻演化分析模块。其中新闻获取模块主要完成数据的即时性获取任务;热点新闻识别模块主要对新闻文本信息进行预处理,运用聚类技术对新闻进行聚簇,挖掘新闻热度及事件标签;热点新闻演化分析模块主要对簇内新闻在时间序列上进行主题挖掘,对挖掘出的主题演化情况可视化展示。
3、新闻获取
在获取新闻阶段,主要目的是实时性得获取新闻网站的海量新闻数据,满足对新闻演化趋势分析的数据要求。在该阶段,一般的流程为:网页抓取,网页解析,信息提取,信息存储。
(1)网页抓取
新闻网页的抓取是获取数据的基础。面对新闻挖掘抓取相关网页要满足两个特点:定时和定向。定时抓取,是指为了保证新闻的时效性,需要定时(每天、每周或每小时)抓取新闻站点的新闻页面。由于新闻网站上每天都有大量新闻产生,及时抓取当日新闻才能满足对新闻演化趋势的挖掘。定向抓取,是为了防止抓取的新闻分布过于分散,可从新闻网站的专题页或主题页进行抓取。以人民网为例,可从滚动新闻模块出发每日0点抓取新闻,保证抓取的即时性和抓取内容的丰富性。
(2)网页解析与信息提取
网页的解析,能够得到网页中比较单一和固定的元素,例如网页标题、副标题、链接信息、文本信息等,python与java语言环境下有成熟的工具包可以使用。SST(Site Style Tree)算法提供了一种根据Web网页DOM树节点信息熵提取有效信息的方法,可以过滤网页中的冗余的无意义信息,提高提取信息的有效性。
(3)信息存储
为便于按照时间线对新闻进行分析,要记录存储网页的时间、新闻标题、新闻内容等信息。存储网页新闻信息数据系统可使用SQL-Server数据库或Oracle数据库存储,满足大量数据多线程并发查询的需求。网页新闻存储表的字段设计如表3-1所示,字段需要包括原始网页中的新闻信息和处理后的关键信息,为提升查询速度,可对部分字段添加索引。
4、热点新闻识别
获取到大量的新闻数据之后,需对文本进行中文分词、去停用词与低价值词、文本特征表示等预处理操作,以满足后续的分析要求。在新闻热度识别模块,主要运用聚类算法,对文本进行聚类,挖掘相似文本集合的数量和主题,生成热点新闻话题集群。??
(1)文本分词与处理
对于原始新闻文本,难以进行使用聚类算法进行分析。中文文本分词是必不可少的环节。目前,已有Jieba、THULAC、ICTCLAS等较为成熟的中文分词工具,可实现对中文语料进行分词、词性标注、新词识别等操作。为降低文本噪音,分词后可对分词结果进行去停用词操作。
(2)文本特征表示
分词后的词语集合可以使用基于代数论的向量空间或基于概率统计的文本模型进行表示。向量空间模型主要是把文本抽象成一个向量,, 是词库中唯一存在的词,其取值确定了该词语代表文档能力的强弱,即体现了词语在文档中的重要。通常,可以使用TF-IDF(词频-逆向文档频率)值表示词语特征项的权重,在此,不再对TF-IDF算法做具体介绍。概率统计模型考虑了词语中的内在联系,相较于向量空间模型,其更符合文档生成的客观规律;但运算、统计先验概率都较为复杂,需要做出合理的优化。常见的概率统计模型有n-gram模型和最大熵马尔科夫模型等。
在实际操作中,由于新闻集合包含的词语数目多,产生的特征向量空间的维数广,计算规模较大。为了提升聚类效率,可以对文本特征向量空间进行压缩。在计算文本特征距离时,只存储和使用两个文档所包含词语得权重,减少特征向量的维数。
(5)聚类标签表示
聚类后某类集合下的新闻数量可以表示该组新闻的热度。根据聚类集合下的新闻数量很容易发现哪个集群下的新闻报道数量最高。报道数量越高,该结合下新闻代表的事件就越热门。但还需使用一个代表性标签来反映该类别下新闻的话题,表示这类新闻集合到底在讲什么事件。由于聚类结果存在噪声,不便直接选取聚类中心的词向量作为聚类标签。为了能自动挖掘新闻集合的话题,可以在用自然语言处理的方法来对文本内容进行归纳总结。但面对大量新闻文本的挖掘操作过于庞大,这里提出一种使用新闻标题集合产生标签的聚类方法。通过将新闻标题集合进行切分、词频统计和词性标注,选择词频数目靠前的名词和动词作为聚类标签。比如:在聚类后得到了一个关于台风的新闻的集合,将该集合下的新闻标题进行词频统计,取动词和名词中词频排名前两位的词语组成词语集合{山竹,台风,停课,登陆},该词语集合已足够反应该类新闻的主题。
5、热点新闻主题演化分析
经过对大量新闻文本的聚类后,已经获得每组的新闻集合和简要的集合标签特征,接下来可以对同一组内新闻集合进行主题抽取及演化分析。
5.1 DTM主题模型
关于文本的主题挖掘模型有很多,最长使用的是基于LDA的主题挖掘模型。LDA模型是一种基于潜在狄利克雷分布的主题生成模型。在这个主题模型中, 一系列主题以服从多项式分布的形式生成每个文本, 再从这些主题中同样以服从多项式分布的方式抽样出每个单词, 由此构成该模型。但传统的LDA模型忽略了文本之间逻辑或时序上的某种关联,面对具有演化时间标签的热点新闻集合,必须考虑新闻话题在时序上的变化情况。
DTM模型是由Blei于2006年[6]提出的模型,它在LDA的基础上加上时序相关信息,训练出时序相关的模型,从而分析主题在时序上的变化。传统的LDA主题模型在生成文档时,认为文档中的每个单词对应的主题是可以交换地从一系列的主题中采样得到的,但是现实世界中,文档的时间顺序影响了主题的集合里的主题。DTM假设文本可以按照时间顺序分为多个集合,比如按年,那么时间片t的主题是从时间片t-1的主题演化得到的。时间片t-1的模型参数对时间片t的模型参数有所影响。图5-1展示了有三个时间片的DTM模型,其中图模型的参数含义如表5-1所示。
5.2 新闻主题挖掘
在这里的实验中,省略新闻聚类的环节,人民网上直接抓取了3月份以来带有事件序列的关于“滴滴顺风车”相关的新闻,使用主题模型进行新闻主题挖掘。根据挖掘结果,可以获得新闻集合的六个话题,清洗掉话题之间的重复词语后,每个话题有5个单词构成。经过主题模型的挖掘,已经能够发掘部分主题的大致含义。比如:topic3是指“乐清女性乘坐滴滴顺风车遇难”这一事件,topic6是指“滴滴关闭夜店打车服务”的事件后续反应。
5.3 新闻时序演化分析
新闻话题演化脉络挖掘需要从一个话题出现、发展、高潮、平淡、到最后结束的连续跟踪。一个复杂的新闻话题往往包含多个子事件,而事件之间也存在着一些逻辑或时序上的关联,通过这些事件之间的关系,可以得到新闻话题下的事件演化脉络,辅助用户理解新闻的来龙去脉。
继续使用“滴滴顺风车”事件的新闻实例,在识别出新闻话题后,将各个话题的新闻数量变化趋势在时间序列轴上表示出来,可以发现各个话题随时间的演化情况和不同事件对“滴滴顺风车”事件报道的侧重点,如图5-2所示。可视化后的新闻演化趋势图可以清晰的展示某话题及其子话题出现、发展、高潮、平淡的发展趋势。
通过图5-2可以看出,Topic4主题乐清-女性-乘客-遇害-悬赏”的报道数量,在2018年8月26号左右爆发并达到顶峰,这符合该事件实际报道的演化情况;Topic3主题“夜间-专车-停运-投诉-交通”的报道数量,在2018年9月11号先上升后下降,这与滴滴在该时间段内决定夜间停运专车业务一周相吻合;Topic0主题“美团-市场-补贴-上线-高德”的新闻在2018年4月份开始出现并增多,表明该时期下媒体关于滴滴打车的竞争对手美团打车上线的新闻较多,这也与事实相符。
在以上主题挖掘的基础上,选取部分主题词,将每个高频主题词的存在情况表示在时间序列上,如图5-3所示,整个事件的发展和演化趋势一目了然。
6、研究局限与展望
(1)聚类带来的新闻事件分离
聚类尽管可以将不同大类或不同事件下的新闻事件聚簇,但若聚类粒度选择不当,很容易将热点新闻的子事件分离,为后续的新闻演化分析带来不便。如何优化文本相似度的计算方法、聚类数目、算法目标函数仍是一个问题。
(2)时序话题间的词语重复
应用时序主题模型挖掘出的不同话题下的主题词存在交集。虽然允许不同话题拥有相似的主题词,但在相同聚类集群下,更主要的是获得不同的主题词语以彰显热点新闻事件的动态发展与转折。在主题挖掘之后,可将不同主题词集合间对词语进行二次筛选。
(3)时序话题的逻辑关系暂未识别
经过时序主题挖掘后的主题词集合较为独立,未能形成完整的新闻事件演化故事链,不利于用户理解阅读。可尝试构建新闻事件间的层次结构,结合聚类集群标签集和和主题词集合,生成新闻事件发展链或故事链。
(责编:尹峥、赵光霞)