期望、方差、协方差及相关系数

=Start=

缘由:

简单整理一下期望、均值、方差、标准差、协方差的概念,方便在忘了的时候快速参考。

正文:

参考解答:
一维数据分析:
期望(Expectation)

概率论中描述一个随机事件中的随机变量的平均值的大小可以使用“数学期望”这个概念。数学期望的定义是实验中每次可能的结果的概率乘以其结果的总和。这又分为离散型和连续型随机变量的期望:

  • 离散型
  • 连续型

根据根据“大数定律”的描述,数学期望这个数字的意义是指随着重复次数接近无穷大时,数值的算术平均值几乎肯定收敛于数学期望值,也就是说数学期望值可以用于预测一个随机事件的平均预期情况。

均值(Mean)

均值的定义: 给定一个包含n个样本的集合 X={X1, …Xn},均值就是这个集合中所有元素和的平均值。

方差(Variance)

方差是在概率论和统计方差衡量随机变量或一组数据的离散程度的度量,换句话说如果想知道一组数据之间的分散程度的话就可以使用“方差”来表示了。

标准差(Standard Deviation)

标准差又叫均方差,是”方差”的算术平方根,用 σ (sigma)表示。标准差能反映一个数据集的离散程度。平均数相同的两组数据,标准差未必相同。

标准差和方差一样都是用于衡量样本的离散程度的量,那么为什么要有标准差呢?因为方差和样本的“量纲”不一样,而标准差在量纲上与样本集合保持同步。这就是“标准”的意义了。

二维数据分析:
协方差(Covariance)

前面的方差/标准差描述的是一维数据集合的离散程度,但世界上的现象普遍是多维度数据描述的。那么很自然就会想知道现象和数据的相关程度,以及各维度数据间的相关程度。而协方差就是这样一种用来度量两个随机变量关系的统计量。

协方差的公式——期望值分别为 E(X) 和 E(Y) 的两个变量X和Y的协方差为:Cov(X,Y)=E[(X−E(X))(Y−E(Y))] 。

协方差可以通俗的理解为:两个变量在变化过程中是同方向变化?还是反方向变化?同向或反向程度如何?

  • 你变大,同时我也变大,说明两个变量是同向变化的,这时协方差就是正的。
  • 你变大,同时我变小,说明两个变量是反向变化的,这时协方差就是负的。
  • 从数值来看,协方差的数值越大,两个变量同向程度也就越大。反之亦然。
相关系数(Correlation Coefficient)

对于相关系数,我们从它的公式入手。一般情况下,相关系数的公式为:

翻译一下:就是用X、Y的协方差除以X的标准差和Y的标准差。所以,相关系数也可以看成协方差:一种剔除了两个变量量纲影响、标准化后的特殊协方差。

既然是一种特殊的协方差,那它:

  1. 也可以反映两个变量变化时是同向还是反向,如果同向变化就为正,反向变化就为负。
  2. 由于它是标准化后的协方差,因此更重要的特性来了:它消除了两个变量变化幅度的影响,而只是单纯反应两个变量每单位变化时的相似程度。
参考链接:

=END=

声明: 除非注明,ixyzero.com文章均为原创,转载请以链接形式标明本文地址,谢谢!
https://ixyzero.com/blog/archives/4555.html

发表评论

电子邮件地址不会被公开。 必填项已用*标注