机器学习

十六 关联规则

关联规则是一种基于规则的机器学习算法,利用一些度量指标来分辨数据中存在的强规则,也就是说,关联规则挖掘是用于知识发现而非预测,所以是属于无监督学习。0 关联规则的主要学习内容1)关联规则的基本思想2)关联规则的度量指标3)关联规则的应用场景1关联规则定义         “啤酒与尿布”的例子相信很多人都听说过吧,故事是这样的:在一家超市中,人们发现了一个特别有趣的现象,尿布与啤酒这两种风马牛不相及的东西居然摆在一起,但这一奇怪的举措居然使尿布和啤酒的销量大幅增加,为什么有这么奇怪现象呢?看了资料后发现是因为美国丈夫回家前买尿布时顺手买了自己喜欢的啤酒,所以发生了这么有趣的事情。这就存在一种关联性,而我们今天就来分析数据集间的有趣的关联。下面我们根据表来解释关于关联分析中的一些定义:1. 事务:每一条交易称为一个事务,如表,有十个交易号,代表有10条交易,即十条事务。2. 项:交易的每一个物品称为一个项,

  • yuting
9 min read
机器学习

十五、主成分分析

主成分分析(PCA)是利用降维的思想,在损失很小信息的前提下,把多个指标转化为几个综合指标的多元统计方法。通常把转化生成的综合指标称为主成分,其中每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,使得主成分比原始变量具有某些更优越的性能,也提高了分析的效率。0主成分分析的主要学习内容1)主成分分析的基本思想2)主成分分析的基本理论3)主成分分析步骤4)主成分分析的应用场景1主成分分析的基本思想        在对某一事物进行实证研究时,为了更全面、准确地反映事物的特征及其发展规律,人们往往要考虑与其有关系的多个指标,这些指标在多元统计中也称为变量,这也就产生了下面这些问题:(1)为了避免遗漏重要的信息而考虑尽可能多的指标;(2)指标太多增加问题的复杂性,同时由于各指标均是对同一个事物的反映,不可避免地造成信息的大量重叠,这种信息的重叠有时甚至会抹杀事物的真正特征与内在规律。        基于上述问题,人们就希望在定量研究中涉及的变量较少,而得到的信息量又较多。由于研究某个问题涉及的众多变量之间有一定的相关性,就必然存在着起支配作用的共同因素,

  • yuting
7 min read
机器学习

十四、EM算法

EM算法是一种迭代算法,用于含有隐变量的概率模型参数的极大似然估计,或极大后验概率估计。EM算法的每次迭代由两步组成:E步,求期望;M步,求极大,所以这一算法称为期望极大算法,简称EM算法。0 EM算法主要学习内容1) EM算法的作用2) EM算法理论3) EM算法应用1 EM算法的作用         在概率模型中,若都是观察变量,也就是给定数据,可以直接用极大似然估计方法,或贝叶斯估计模型参数。但当模型含有隐变量呢?这些方法还适用吗?这时是不能简单地使用这些估计方法了,而EM算法就是我们今天要讲的解决含有隐变量的概率模型参数的极大似然估计法。例子[1]:     这个问题不能直接求解,只能通过迭代的方法求解,而EM算法就是可以用于求解这个问题的一种迭代算法,下面针对以上问题给出EM算法[1]。2

  • yuting
4 min read
机器学习

十三、K均值聚类

k均值聚类算法,是一种无监督算法,该算法的主要作用是将相似的样本自动归到一个类别中。所谓的无监督算法,就是输入样本没有对应的输出或标签,而聚类试图将数据集中的样本划分为若干个通常是不相交的子集,每个子集称为一个簇。k均值聚类简单易懂而且非常有效,但是确定合理的k值和k个初始类簇中心点对于聚类效果的好坏有很大的影响。0 k均值聚类算法的主要学习内容1)基本原理2)k的选择及初始质心3)k均值的优缺点1  k均值聚类的基本原理1.1  k均值聚类算法描述        k均值聚类算法中的一种,其中k表示类别数,是一种通过均值对数据点进行聚类的算法。适用于大样本,但需要事先指定分为k个类。     原理:从n个数据对象任意选择k个对象作为初始聚类中心,对剩余的其他对象,则根据它们与k个聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;再计算每个所获的新的聚类中心(该聚类中所有对象的均值);不断重复这一过程,

  • yuting
9 min read
机器学习

十二、条件随机场

条件随机场(CRF)是给定一组输入随机变量条件下,另一组输出随机变量的条件概率分布概率,其特点是假设输出随机变量构成马尔可夫随机场。条件随机场可以用于不同的预测问题。在这里,我们研究的是线性链条件随机场在标注问题的应用。0条件随机场的主要学习内容1)概率无向图模型2)条件随机场的定义与形式3)条件随机场的概率计算问题4)条件随机场的学习算法5)条件随机场的预测算法1前期准备工作        首先,我们来看看什么是随机场。随机场是由若干个位置组成的整体,当给每一个位置中按照某种分布随机赋予一个值之后,其全体就叫做随机场。举例说明一下:假如我们有一句话,共十个词需要进行词性标注,这十个词每个词的词性我们可以在已知的词性集合(名词,动词,...)中去选择。当我们为每个词选好词性后,这就形成了一个随机场。        马尔可夫随机场:简单的说,就是假设随机场中某个位置的赋值仅仅与和它相邻的位置的赋值有关,和与其不相邻的位置的赋值不相关。比如第三个词的词性除与自己本身的位置有关外,

  • yuting
11 min read
机器学习

十一、隐马尔可夫模型

隐马尔可夫模型(HMM)是可用于标注问题的统计学习模型,描述由隐藏的马尔可夫链随机生成观测序列的过程,属于生成模型[1]。它的状态不能直接观察到,但能通过观测向量序列观察到,每个观察向量都是通过某些概率密度分布表现为各种状态,每一个观测向量是由一个具有相应概率密度分布的状态序列产生。故隐马尔可夫模型是一个双重随机过程-------具有一定状态数的隐马尔可夫链和显示随机函数集。0隐马尔可夫模型的主要学习内容1)隐马尔可夫模型的定义2)隐马尔可夫模型的3个基本问题:概率计算问题,学习问题,预测问题3)概率计算算法:前向算法,后向算法4)学习算法:监督学习,非监督学习(的Baum-韦尔奇算法)5)预测算法:近似算法,维特比算法什么问题需要用HMM模型解决呢?使用HMM模型我们的问题一般有这两个特征:1)问题是基于序列的,比如一句话,时间序列或者状态序列。

  • GuiYing
    GuiYing
12 min read
机器学习

十、逻辑斯谛回归

逻辑斯谛回归是统计学习中非常经典的分类方法。是属于对数线性模型。虽然它的名字中带有回归,但事实上它并不是一种回归算法,而是一种分类算法。处理的因变量为分类变量,常见的是二分类或二项分布问题,也可以处理多分类问题。0 逻辑斯谛回归主要学习内容1)逻辑斯谛分布2)二项逻辑斯谛回归模型3)模型参数估计4)多项逻辑斯谛回归1 逻辑斯谛分布       我们知道线性回归模型是输入特征x与输出特征y存在线性关系,即满足        此时模型中的Y是连续的,所以是回归模型。如果我们想要Y是离散的,则可对Y再做一次变换,变为g(Y)。如果g(Y)的值在某个实数区间则为类别A,在另一个实数区间的时候是类别B,以此类推,就得到了一个分类模型。逻辑斯谛回归就是由此而来的。其定义[1]如下:

  • GuiYing
    GuiYing
6 min read
机器学习

九、线性回归

前面我们介绍了多种机器学习算法,但它们都是用来分类的,今天我们讲一下另一种类型,回归。回归是基于已有数据建立回归模型,对新的数据进行预测。今天要讲的是线性回归模型。0线性回归模型主要学习内容1)一元线性回归模型2)多元线性回归模型3)损失函数4)正则化1 一元线性回归一元线性方程反映一个因变量与一个自变量之间的线性关系。即:那一元线性回归模型呢?则为:为了便于理解,下面举例说明:例:有一个公司,十个月的广告费用和销售额,如下表所示:我们都知道广告费与销售额存在相关性,但具体是怎么的呢?       先将广告费和销售额画在二维坐标内,得到一个散点图,发现两者成直线上升的趋势,可利用一元线性回归来拟合这一条直线:那具体怎么拟合的呢?如何确定拟合直线的效果好呢?1.1线性回归的损失函数:平方误差

  • GuiYing
    GuiYing
6 min read
机器学习

八 Adaboost算法

boosting算法是常用的集成方法之一,它通过改变训练样本的权重,学习多个分类器,并将这些分类器进行线性组合,提高分类的性能。其代表算法为我们本文所要介绍的Adaboost。0 Adaboost算法的主要学习内容1)集成学习思想2)boosting算法原理3)Adaboost算法原理4)损失函数1集成学习思想[1]         集成学习思想,训练若干个弱学习器,然后通过一定的策略将其结合起来成为一个强学习器。详细可见第二章随机森林的第一小节集成学习。集成学习可看作有两个分支,在随机森林中,我们介绍了集成学习的一个分支bagging,下面就来介绍另一个分支boosting。2 boosting[2]        我们先观察这个boosting的原理图.图2.1 boosting的原理图       从图中可以看出,boosting算法的工作机制是首先从训练集用初始权重训练出一个弱学习器1,根据弱学习器的学习误差率表现来更新训练样本的权重,使得之前弱学习器1学习误差率高的训练样本点的权重变大,让它们在弱学习器2中得到重视,

  • GuiYing
    GuiYing
5 min read
机器学习

七、神经网络

神经网络(DNN)是一种人脑的抽象计算模型,是通过类似生物神经元的处理单元,以及处理单元之间的有机连接,解决现实世界的模式识别、联想记忆、优化计算等复杂问题。常使用神经网络处理数据分类问题。0神经网络的主要学习内容1)神经网络的结构2)激活函数3)前向传播算法4)反向传播算法1神经网络的基础:感知机       在前面第三章感知机,我们有学到感知机的模型结构,它是一个可有多个输入,但只有一个输出的模型,如图所示:图1.1 感知机 输入到输出之间学习到了一个线性关系,得到中间结果输出为:从而得到我们想要的输出结果1或者-1。        这个模型只能用于二元分类,并且无法学习比较复杂的非线性模型,因此在许多方面无法使用。        神经网络在感知机上做了扩展,主要体现在:        1)隐藏层,

  • GuiYing
    GuiYing
6 min read
机器学习

六、朴素贝叶斯算法

朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。在机器学习中,朴素贝叶斯和其他大多数的分类算法都不同,比如决策树、KNN、支持向量机等,他们都是判别方法,直接学习出特征输出Y和特征输出X之间的关系,Y=f(X)或者P(Y|X)。但朴素贝叶斯是生成方法,是直接找出特征输出Y和特征X的联合分布P(X,Y),然后用P(Y|X)=P(X,Y)/P(X)得出。0 朴素贝叶斯算法的主要学习内容1)朴素贝叶斯法的学习与分类2)朴素贝叶斯法的参数估计1朴素贝叶斯算法学习的前期准备1.1后验概率最大化的含义[1]

  • GuiYing
    GuiYing
5 min read
机器学习

五、k近邻算法

K近邻法(KNN)是一种基本的分类方法,它的输入为实例的特征向量,对应于特征空间中的点,输出为实例的类别,可以取多类。实际上是利用训练数据集对特征向量空间进行划分,并作为其分类的模型。0  k近邻算法的主要学习内容1)k近邻算法2)k值的选择3)距离度量4)分类决策规则1  k近邻算法        k=1时,这个算法称为最近邻算法,对于输入的实例点(特征向量)x,最近邻法将训练数据集中与x最近邻点的类作为x的类。k近邻法没有显式的学习过程。2  k近邻模型2.1 距离度量[1]        特征空间中两个实例点的距离是两个实例点相似程度的反映,k近邻模型的特征空间一般是n维实数向量空间Rn,使用的距离是欧式距离,但也可以是其他距离。

  • GuiYing
    GuiYing
7 min read
机器学习

四、支持向量机

支持向量机(SVM)是一种二分类模型,是在统计学习理论基础上发展起来的一种数据挖掘方法,1992年提出。它的基本模型是定义在特征空间上的间隔最大的线性分类器,间隔最大使它有别于感知机。在解决小样本、非线性、高维度的分类问题上有很大的优势[1]。        支持向量机还包含核技巧,这使它成为实质上的非线性分类器,支持向量机的学习策略是间隔最大化,可形式化为一个求解凸二次规划的问题,也等价于正则化的合页损失函数的最小化问题。简单说,支持向量机的学习算法是求解凸二次规划的最优化算法[2]。0 支持向量机主要学习内容(1) 线性可分支持向量机与硬间隔最大化:当训练数据完全线性可分时可用硬间隔支持向量机;间隔的不同表示法;如何找到最大间隔分离超平面。(2) 学习对偶算法(3) 支持向量:区别线性可分时(硬间隔)和线性不完全可分时(

  • GuiYing
    GuiYing
14 min read
机器学习

三、感知机

感知机是可进行二分类的线性分类模型,其输入为实例的特征向量,输出为实例的类别(+1,-1)。感知机学习旨在求出将训练样本进行线性分类的分离超平面,也就是说求模型的参数w,b,并能对新的输入实例预测其对应的输出类别。        注:超平面是指在空间Rd上的一个子空间Rd-1,在二维空间中的超平面就是一条直线,三维空间的超平面是平面。超平面是平面中直线、空间中平面的推广。0感知机主要学习内容1)感知机模型2)感知机学习策略:损失函数3)感知机学习算法:随机梯度下降法1 感知机模型1.1感知机定义[1]1.2感知机的几何解释感知机可看作是一个线性方程:2.2 感知机学习策略        感知机的学习目标是求得一个能够将训练集正确分类的超平面,也就是要确定感知机模型的参数w,b。故需要确定一个学习策略,

  • GuiYing
    GuiYing
6 min read
机器学习

二、随机森林

随机森林,指的是利用多棵树(即决策树)对样本进行训练并预测的一种多分类器。它是一种集成学习方法,是bagging算法的特化进阶版算法。故本文会先介绍集成学习以及其一个分支:bagging算法,再引出随机森林算法的基本思想。0 随机森林主要学习内容1) 集成学习思想:训练若干个弱学习器,然后通过一定的策略将其结合起来成为一个强学习器2) Bagging算法:弱学习器之间没有依赖关系,可以并行生成,采用有放回的随机采样获取每个弱学习器的训练集。3) 决策树算法:详细内容可见第一章决策树的讲解。4) 随机森林算法:重点区分随机森林中的决策树与普通决策树的不同1 集成学习       在介绍随机森林之前,我们需要先了解一下集成学习,因为随机森林就是集成学习思想下的产物,将许多棵决策树整合成森林,并合起来用来预测最终结果。1.1 集成学习概述[

  • GuiYing
    GuiYing
10 min read
机器学习

一、决策树

决策树是一种基本的分类与回归方法。         在分类问题中,表示基于特征对实例进行分类的过程,可以认为是if-then规则的集合,也可以认为是定义在特征空间与类空间上的条件概率分布[1]。        在回归问题中,回归树总体流程类似于分类树,分枝时穷举每一个特征的每一个阈值,来寻找最优切分特征j和最优切分点s,衡量的方法是平方误差最小化。分枝直到达到预设的终止条件(如叶子个数上限)就停止。0、决策树主要学习内容1. 决策树模型:掌握决策树模型:根结点,子结点,叶结点。2. 特征选择:如何从特征空间中选择最优特征作为结点,常用方法信息熵,信息增益,信息增益比,基尼指数。3. 不同特征选择对应不同算法:ID3(基于信息增益作为特征选择的度量)                                                        C4.

  • GuiYing
    GuiYing
11 min read
湘ICP备14008278号-9