事情发展趋势预测,简单来讲,就是对正在发生的事件,根据它现已产生的数据(即历史数据)来预测它接下来可能会产生的数据(即未来发展趋势)。在互联网科技高速发展的今天,社交网络上的热门话题可在短时间内大范围扩散,甚至形成重大的舆情事件,需政府部门或相关责任人及时应对解决。因此尽早预测社交网络舆情事件的发展趋势具有很重要的现实意义。

我们对此研究的主要内容包括:

1)与应用系统(鹰击、鹰眼、鹰领)相结合

2)预测模型研究:ARIMA模型、ceemdan+lstm模型

3)上线效果测试

4)下一步计划

1. 问题与系统结合

       社交网络中事件的传播热度影响因素众多,很难预测其最终的传播热度。然而,通过分析研究者发现社交网络事件的历史热度和未来热度存在很强的相关性。

        一段时间内事件的热度:对于鹰眼系统,热度为该段时间内各个媒体关于该事件的网页的总数,如图1.1;对于鹰击系统,热度为该段时间内关于该事件的博文的原创、转发和评论数的总数,如图1.2.

图1.1 鹰眼系统 事件热度趋势数据
图1.2 鹰击系统 事件热度趋势数据

2.预测模型研究

2.1前期准备工作

1.系统需求:

输入:某事件的若干历史时间点的热度

输出:未来若干时间点的热度

其中,历史时间点:预测时间点 = 80% :20%

图2.1系统发展趋势图

2.2 ARIMA模型

       舆情事件发展趋势实际就是一个时间序列趋势。对于时间序列的研究,一般情况下,拿到一个观察值序列之后,首先要对它的平稳性和纯随机性进行检验。根据检验的结果可以将序列分为不同的类型,对不同类型的序列我们会采用不同的分析方法。

图2.2 时间序列分类

平稳序列:基本上不存在趋势的序列,序列中的各观察值基本上在某个固定的水平上波动,在不同时间段波动程度不同,但不存在某种规律,随机波动。

非平稳序列:是包含趋势、季节性或周期性的序列,只含有其中一种成分,也可能是几种成分的组合。

图2.3 时间序列图

通用的时间序列模型解析法,如下:

       四种分析方法的共同特点:跳出成分分解的角度,从时间序列本身出发,力求得出前期数据与后期数据的量化关系,从而建立前期数据为自变量,后期数据为因变量的模型,达到预测的目的。

ARMA 模型

       ARMA(p,q) :综合AR和MA的优势,自回归过程负责量化当前数据与前期数据之间的关系,移动平均过程负责解决随机变动项的求解问题。

        注意:AR/MA/ARMA模型适用于平稳时间序列的分析,当时间序列存在上升或下降趋势时,这些模型的分析效果就大打折扣,这时ARIAM模型也就应运而生。

ARIAM模型

        ARIMA(p,d,q):在ARMA(p,q)的基础上,增加了差分处理,将数据转为平稳序列。差分可将非平稳时间序列转化为平稳时间序列,故差分可多阶,直到序列平稳。使用当前数据减去前一期数据即为一阶差分,在一阶差分的基础上,使用当前数据减去前一期数据即为二阶差分,依次类推,即可得到多阶差分。

例如:(1,2,3,4,5,6,7,8)通过一阶差分转化为(1,1,1,1,1,1,1),可消除序列趋势.

图2.4一阶和二阶差分

2.2.1 ARIMA模型实验

1.数据准备:取时间间隔相同的时间点对应的热度值,即图1.1和图1.2。

2.描绘事件发展趋势图:

图2.5发展趋势图

3.平稳化处理:如一阶差分

图2.6序列平稳转换图

4. AIC/BIC/HQIC定价(参数p,q)

       在建模过程中,会有一些备选解释变量,选择不同的变量组合会得到不同的模型,而信息准则就是刻画这些模型相对于“ 真实模型 ”的信息损失。

       常用的信息准则有:AIC、 BIC、HQIC 等,是衡量统计模型拟合优良性的一种标准,可以权衡所估计模型的复杂度和此模型拟合数据的优良性。

       在应用中,我们选择AIC值作为选择模型的标准来估算p,q值。其中,AIC越小,则模型对数据的拟合越好。

5.模型构建

图2.7 ARIMA模型预测图
图2.8 ARIMA模型预测图

2.3 CEEMDAN_LSTM

2.3.1 CEEMDAN原理

         EMD具有良好的时频分析能力,对非线性、非平稳信号处理具备自适应性与正交性,然而它无法解决模态混叠的问题,针对这一问题,Huang等人提出添加高斯白噪声的总体经验模态分解(Ensemble Empirical Mode Decomposition,EEMD)它利用高斯白噪声具有频谱均分的统计特性,使信号在加入不同白噪声时呈现出不同尺度上的连续性。但它不具完备性并增加了计算量。为解决EEMD存在的问题,Torres等提出完备总体经验模态分解(Complete Ensemble Empirical Mode Decomposition, CEEMD),它是在分解后每个尺度剩余分量添加特定高斯白噪声,通过求取唯一残差得出IMF。该方法降低了计算量并进一步消除模态混叠和虛假分量。近年来,CEEMDAN被提出,通过对EEMD分解后的各分量自适应地添加白噪声进行叠加和抵消,这样由于添噪产生的重构误差就会在分解迭代中消除。不但保证了分解精度,还大大减轻了模态混叠。

        通过上述步骤,大大降低了因添加白噪声后每阶层模态分解后的残差信号所产生误差,可见CEEMDAN分解结果更加精确。

        简单来说CEEMDAN可实现对信号的分解处理,对非线性、非平稳信号处理具备自适应性与正交性。它可以将时间序列数据按频域分解,将一个序列分解成多个平稳序列,剩余的构成一个单调的残差序列。

图2.9 ceemdan分解序列图

2.3.2 CEEMDAN-LSTM模型原理

简单的可以使用一张图来表示,

图2.10 CEEMDAN-LSTM模型结构

        即原始序列通过ceemdan处理成多个平稳序列和一个单调残差序列,各自送入lstm模型中训练,得到不同的lstm模型,然后加和即可。

只使用lstm和加入CEEMDAN的效果对比

图2.11 模型对比图

3上线效果测试

1.时间间隔设置

事件的热度是一个动态的过程,关于时间间隔的间隔,也应动态地随着变化。

2. 事件发生时间

(1)5分钟= < time <= 1天,时间间隔为5分钟, 数据量:[1,288]

(2)1天 < time < =7天,时间间隔为30分钟,数据量:[48,336]

(3)7天< time < =30天,时间间隔为1个小时,数据量:[168,720]

(4)time  > 30天,时间间隔为1天,数据量:>30

3.测试解决问题:

问题1:

图3.1 数据比例分析图

从图可看出,在训练数据和预测数据的比例为4:1时,预测效果较好。

问题2:预测值为直线的问题

图3.2情感分析趋势图

原因在于:数据量少,参数p,q范围设置过小

图3.3 参数调整图

经调整,可得:

图3.4系统趋势图

问题3:情感预测问题:负面情感总数为负值

图3.5 情感分析图

解决方法:将负值设置为0。

问题4:每次刷新,预测曲线都会变化

解决方法:设置固定种子

4.下一步计划

1.在对历史数据统计时,也将对事件热度等级进行划分

图4.1事件等级特征图

2.量化外部因素:考虑博主影响力,用户习惯(如作息等)等等。

图4.2博主影响力特征

5.总结

        舆情事件趋势预测,我们主要使用常用模型ARIMA模型和深度模型LSTM进行研究,由于我们只使用单变量来考虑事件发展趋势,这太过于片面化,故后续将考虑多个相关性强的变量来继续研究事件发展趋势。