舆情分析

综合评价理论与方法研究

综合评价工作在社会各领域应用普遍,是科学合理做出管理决策的重要依据。随着各界研究领域的不断扩大,面对的评价目标及其对象日趋复杂,当针对某一评价目标围绕某些对象进行评价时,如果仅从单一指标出发进行考量,会显得不是很全面也不科学。比如企业员工评级,除了岗位绩效,也要综合员工品行、个人技能、工作主动性、与同事之间的协调合作能力等等因素。因此,通常情况下,对象/问题评价往往需要设计多个维度、多个层次的指标,进行多指标综合评价,从而得到更加全面科学的结论,以辅助管理决策。 目前,围绕评价目的、指标体系的构建、指标权重的确定、数据来源与处理、评价信息的集成和结果的分析应用等方面,国内外已经形成了较为系统成熟的理论和方法体系,本文特对有关综合评价的基础理论和方法进行如下梳理总结,以供相关研究参考。1.简述 关于综合评价(

  • GuiYing
    GuiYing
36 min read
机器学习

十一、隐马尔可夫模型

隐马尔可夫模型(HMM)是可用于标注问题的统计学习模型,描述由隐藏的马尔可夫链随机生成观测序列的过程,属于生成模型[1]。它的状态不能直接观察到,但能通过观测向量序列观察到,每个观察向量都是通过某些概率密度分布表现为各种状态,每一个观测向量是由一个具有相应概率密度分布的状态序列产生。故隐马尔可夫模型是一个双重随机过程-------具有一定状态数的隐马尔可夫链和显示随机函数集。0隐马尔可夫模型的主要学习内容1)隐马尔可夫模型的定义2)隐马尔可夫模型的3个基本问题:概率计算问题,学习问题,预测问题3)概率计算算法:前向算法,后向算法4)学习算法:监督学习,非监督学习(的Baum-韦尔奇算法)5)预测算法:近似算法,维特比算法什么问题需要用HMM模型解决呢?使用HMM模型我们的问题一般有这两个特征:1)问题是基于序列的,比如一句话,时间序列或者状态序列。

  • GuiYing
    GuiYing
12 min read
机器学习

十、逻辑斯谛回归

逻辑斯谛回归是统计学习中非常经典的分类方法。是属于对数线性模型。虽然它的名字中带有回归,但事实上它并不是一种回归算法,而是一种分类算法。处理的因变量为分类变量,常见的是二分类或二项分布问题,也可以处理多分类问题。0 逻辑斯谛回归主要学习内容1)逻辑斯谛分布2)二项逻辑斯谛回归模型3)模型参数估计4)多项逻辑斯谛回归1 逻辑斯谛分布       我们知道线性回归模型是输入特征x与输出特征y存在线性关系,即满足        此时模型中的Y是连续的,所以是回归模型。如果我们想要Y是离散的,则可对Y再做一次变换,变为g(Y)。如果g(Y)的值在某个实数区间则为类别A,在另一个实数区间的时候是类别B,以此类推,就得到了一个分类模型。逻辑斯谛回归就是由此而来的。其定义[1]如下:

  • GuiYing
    GuiYing
6 min read
机器学习

九、线性回归

前面我们介绍了多种机器学习算法,但它们都是用来分类的,今天我们讲一下另一种类型,回归。回归是基于已有数据建立回归模型,对新的数据进行预测。今天要讲的是线性回归模型。0线性回归模型主要学习内容1)一元线性回归模型2)多元线性回归模型3)损失函数4)正则化1 一元线性回归一元线性方程反映一个因变量与一个自变量之间的线性关系。即:那一元线性回归模型呢?则为:为了便于理解,下面举例说明:例:有一个公司,十个月的广告费用和销售额,如下表所示:我们都知道广告费与销售额存在相关性,但具体是怎么的呢?       先将广告费和销售额画在二维坐标内,得到一个散点图,发现两者成直线上升的趋势,可利用一元线性回归来拟合这一条直线:那具体怎么拟合的呢?如何确定拟合直线的效果好呢?1.1线性回归的损失函数:平方误差

  • GuiYing
    GuiYing
6 min read
机器学习

八 Adaboost算法

boosting算法是常用的集成方法之一,它通过改变训练样本的权重,学习多个分类器,并将这些分类器进行线性组合,提高分类的性能。其代表算法为我们本文所要介绍的Adaboost。0 Adaboost算法的主要学习内容1)集成学习思想2)boosting算法原理3)Adaboost算法原理4)损失函数1集成学习思想[1]         集成学习思想,训练若干个弱学习器,然后通过一定的策略将其结合起来成为一个强学习器。详细可见第二章随机森林的第一小节集成学习。集成学习可看作有两个分支,在随机森林中,我们介绍了集成学习的一个分支bagging,下面就来介绍另一个分支boosting。2 boosting[2]        我们先观察这个boosting的原理图.图2.1 boosting的原理图       从图中可以看出,boosting算法的工作机制是首先从训练集用初始权重训练出一个弱学习器1,根据弱学习器的学习误差率表现来更新训练样本的权重,使得之前弱学习器1学习误差率高的训练样本点的权重变大,让它们在弱学习器2中得到重视,

  • GuiYing
    GuiYing
5 min read
机器学习

七、神经网络

神经网络(DNN)是一种人脑的抽象计算模型,是通过类似生物神经元的处理单元,以及处理单元之间的有机连接,解决现实世界的模式识别、联想记忆、优化计算等复杂问题。常使用神经网络处理数据分类问题。0神经网络的主要学习内容1)神经网络的结构2)激活函数3)前向传播算法4)反向传播算法1神经网络的基础:感知机       在前面第三章感知机,我们有学到感知机的模型结构,它是一个可有多个输入,但只有一个输出的模型,如图所示:图1.1 感知机 输入到输出之间学习到了一个线性关系,得到中间结果输出为:从而得到我们想要的输出结果1或者-1。        这个模型只能用于二元分类,并且无法学习比较复杂的非线性模型,因此在许多方面无法使用。        神经网络在感知机上做了扩展,主要体现在:        1)隐藏层,

  • GuiYing
    GuiYing
6 min read
机器学习

六、朴素贝叶斯算法

朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。在机器学习中,朴素贝叶斯和其他大多数的分类算法都不同,比如决策树、KNN、支持向量机等,他们都是判别方法,直接学习出特征输出Y和特征输出X之间的关系,Y=f(X)或者P(Y|X)。但朴素贝叶斯是生成方法,是直接找出特征输出Y和特征X的联合分布P(X,Y),然后用P(Y|X)=P(X,Y)/P(X)得出。0 朴素贝叶斯算法的主要学习内容1)朴素贝叶斯法的学习与分类2)朴素贝叶斯法的参数估计1朴素贝叶斯算法学习的前期准备1.1后验概率最大化的含义[1]

  • GuiYing
    GuiYing
5 min read
机器学习

五、k近邻算法

K近邻法(KNN)是一种基本的分类方法,它的输入为实例的特征向量,对应于特征空间中的点,输出为实例的类别,可以取多类。实际上是利用训练数据集对特征向量空间进行划分,并作为其分类的模型。0  k近邻算法的主要学习内容1)k近邻算法2)k值的选择3)距离度量4)分类决策规则1  k近邻算法        k=1时,这个算法称为最近邻算法,对于输入的实例点(特征向量)x,最近邻法将训练数据集中与x最近邻点的类作为x的类。k近邻法没有显式的学习过程。2  k近邻模型2.1 距离度量[1]        特征空间中两个实例点的距离是两个实例点相似程度的反映,k近邻模型的特征空间一般是n维实数向量空间Rn,使用的距离是欧式距离,但也可以是其他距离。

  • GuiYing
    GuiYing
7 min read
机器学习

四、支持向量机

支持向量机(SVM)是一种二分类模型,是在统计学习理论基础上发展起来的一种数据挖掘方法,1992年提出。它的基本模型是定义在特征空间上的间隔最大的线性分类器,间隔最大使它有别于感知机。在解决小样本、非线性、高维度的分类问题上有很大的优势[1]。        支持向量机还包含核技巧,这使它成为实质上的非线性分类器,支持向量机的学习策略是间隔最大化,可形式化为一个求解凸二次规划的问题,也等价于正则化的合页损失函数的最小化问题。简单说,支持向量机的学习算法是求解凸二次规划的最优化算法[2]。0 支持向量机主要学习内容(1) 线性可分支持向量机与硬间隔最大化:当训练数据完全线性可分时可用硬间隔支持向量机;间隔的不同表示法;如何找到最大间隔分离超平面。(2) 学习对偶算法(3) 支持向量:区别线性可分时(硬间隔)和线性不完全可分时(

  • GuiYing
    GuiYing
14 min read
机器学习

三、感知机

感知机是可进行二分类的线性分类模型,其输入为实例的特征向量,输出为实例的类别(+1,-1)。感知机学习旨在求出将训练样本进行线性分类的分离超平面,也就是说求模型的参数w,b,并能对新的输入实例预测其对应的输出类别。        注:超平面是指在空间Rd上的一个子空间Rd-1,在二维空间中的超平面就是一条直线,三维空间的超平面是平面。超平面是平面中直线、空间中平面的推广。0感知机主要学习内容1)感知机模型2)感知机学习策略:损失函数3)感知机学习算法:随机梯度下降法1 感知机模型1.1感知机定义[1]1.2感知机的几何解释感知机可看作是一个线性方程:2.2 感知机学习策略        感知机的学习目标是求得一个能够将训练集正确分类的超平面,也就是要确定感知机模型的参数w,b。故需要确定一个学习策略,

  • GuiYing
    GuiYing
6 min read
机器学习

二、随机森林

随机森林,指的是利用多棵树(即决策树)对样本进行训练并预测的一种多分类器。它是一种集成学习方法,是bagging算法的特化进阶版算法。故本文会先介绍集成学习以及其一个分支:bagging算法,再引出随机森林算法的基本思想。0 随机森林主要学习内容1) 集成学习思想:训练若干个弱学习器,然后通过一定的策略将其结合起来成为一个强学习器2) Bagging算法:弱学习器之间没有依赖关系,可以并行生成,采用有放回的随机采样获取每个弱学习器的训练集。3) 决策树算法:详细内容可见第一章决策树的讲解。4) 随机森林算法:重点区分随机森林中的决策树与普通决策树的不同1 集成学习       在介绍随机森林之前,我们需要先了解一下集成学习,因为随机森林就是集成学习思想下的产物,将许多棵决策树整合成森林,并合起来用来预测最终结果。1.1 集成学习概述[

  • GuiYing
    GuiYing
10 min read
机器学习

一、决策树

决策树是一种基本的分类与回归方法。         在分类问题中,表示基于特征对实例进行分类的过程,可以认为是if-then规则的集合,也可以认为是定义在特征空间与类空间上的条件概率分布[1]。        在回归问题中,回归树总体流程类似于分类树,分枝时穷举每一个特征的每一个阈值,来寻找最优切分特征j和最优切分点s,衡量的方法是平方误差最小化。分枝直到达到预设的终止条件(如叶子个数上限)就停止。0、决策树主要学习内容1. 决策树模型:掌握决策树模型:根结点,子结点,叶结点。2. 特征选择:如何从特征空间中选择最优特征作为结点,常用方法信息熵,信息增益,信息增益比,基尼指数。3. 不同特征选择对应不同算法:ID3(基于信息增益作为特征选择的度量)                                                        C4.

  • GuiYing
    GuiYing
11 min read
湘ICP备14008278号-9