主成分分析(PCA)是利用降维的思想,在损失很小信息的前提下,把多个指标转化为几个综合指标的多元统计方法。通常把转化生成的综合指标称为主成分,其中每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,使得主成分比原始变量具有某些更优越的性能,也提高了分析的效率。

0主成分分析的主要学习内容

1)主成分分析的基本思想

2)主成分分析的基本理论

3)主成分分析步骤

4)主成分分析的应用场景

1主成分分析的基本思想

       在对某一事物进行实证研究时,为了更全面、准确地反映事物的特征及其发展规律,人们往往要考虑与其有关系的多个指标,这些指标在多元统计中也称为变量,这也就产生了下面这些问题:

(1)为了避免遗漏重要的信息而考虑尽可能多的指标;

(2)指标太多增加问题的复杂性,同时由于各指标均是对同一个事物的反映,不可避免地造成信息的大量重叠,这种信息的重叠有时甚至会抹杀事物的真正特征与内在规律。

       基于上述问题,人们就希望在定量研究中涉及的变量较少,而得到的信息量又较多。由于研究某个问题涉及的众多变量之间有一定的相关性,就必然存在着起支配作用的共同因素,根据这一点,通过对原始变量相关矩阵或协方差矩阵内部结构关系的研究,利用原始变量的线性组合形成几个综合指标(主成分)。

它们之间的关系如下:

1. 每一个主成分都是各原始变量的线性组合;

2. 主成分的数目大大少于原始变量的数目;

3. 主成分保留了原始变量的绝大多数信息;

4. 各主成分之间互不相关。

       在保留原始变量主要信息的前提下起到降维与简化问题的作用,使得在研究复杂问题时更加容易抓住主要信息。

2主成分分析的基本理论

       协方差矩阵或相关矩阵正是对各变量离散程度与变量之间相关程度的信息的反映,而相关矩阵不过是将原始变量标准化后的协方差矩阵。我们所说的保留接近原始变量方差的总和。因此在实际求解主成分的时候,总是从原始变量的协方差矩阵或相关矩阵的结构分析入手。一般来说从原始变量的协方差矩阵出发求得的主成分与原始变量的相关矩阵出发求得的主成分是不同的。

主成分分析步骤:

1. 根据研究问题选取初始分析变量

2. 根据初始变量特性判断由协方差阵还是相关矩阵来求主成分

3. 求协方差阵或相关阵的特征值与相应标准特征向量

4. 判断是否存在明显的多重共线性,若存在,则返回第1步

5. 得到主成分的表达式并确定主成分个数,选取主成分

6. 结合主成分对研究问题进行分析并深入研究

2.1从协方差矩阵出发求解主成分

下面我们举例来说明

2.2从相关矩阵出发求解主成分

     然后根据相关矩阵R求解特征值和特征向量,然后求解主成分与累积贡献率。与上一个例题求解步骤相同。

关于由协方差矩阵或相关矩阵出发求解主成分的选取问题

       一般而言,对于度量单位不同指标或取值范围彼此差异非常大的指标,不直接由其协方差矩阵出发进行主成分分析,而应该考虑将数据标准化。

       对于取值范围相差不大或度量相同的指标进行标准化处理后,其主成分分析的结果与由协方差出发求得的结果有较大区别。其原因是由于对数据进行标准化的过程实际上也就是抹杀原始变量离散程度差异的过程,标准化后的各变量方差相等,均为1,而实际上方差也是对数据信息的重要概括,也就是说,对原始数据进行标准化后抹杀了一部分重要信息,因此才使得标准化后变量在对主成分构成中的作用趋于相等。由此看来,对同度量或取值范围在同量级的数据,还是直接从协方差矩阵求解主成分为宜。

       在实际工作中,总体协方差阵和相关阵是未知的,需通过样本数据来估计,研究中,可从不同角度出发求解主成分并分析其结果的差别,看看是否发生明显差异且这种差异产生的原因在何处,以确定用哪种结果更为可信。

3主成分分析的总结

3.1主成分分析的优点

1)利用降维技术用少数综合变量来代替原始多个变量,综合了原始变量大量有用信息。

2)通过计算综合主成分函数得分,对客观经济现象进行科学评价,再次它在应用上侧重于信息贡献影响力综合评价。

3)主成分分析不要求数据来源于正态分布

3.2主成分分析的缺点

1)当主成分的因子负荷的符号有正有负时,综合评价函数意义就不明确。命名清晰性低。

4主成分分析的应用场景

1)在遥感影像数据中的应用

2)鸢尾花数据集

3)数据降维

4)淘宝顾客偏好分析

参考文献

1)https://my.oschina.net/u/3888421/blog/2249132

2)https://www.doc88.com/p-998318379695.html

3)https://www.cnblogs.com/jerrylead/archive/2011/04/18/2020209.html

4)http://blog.sina.com.cn/s/blog_67fcf49e0101g1lt.html

5)https://www.jianshu.com/p/b2260bba5e0e

注:部分文字、图片来自网络,如涉及侵权,请及时与我们联系,我们会在第一时间删除或处理侵权内容,电话:4006770986。