前言
昨晚看文章的时候突然想到了利用数据相关性进行数据分析预测的手段,所以在这里简单聊聊这个话题。
相关性分析一般分为三个阶段:
初级阶段:快速发现数据之间的关联,正相关、负相关、不相关。
中级阶段:对数据间的强弱关系度量。各项数值的相关度等等。
高级阶段:将各项数据和相关度转化为数据模型,并对可能的未来进行预测。
我们来讲讲这5种分析方式
折线图、散点图等
优点: 图表在数据种类较少时是发现相关度的最快的方案,在下方的折线图中可以很直接的看到顾强哥投放量和费用成本是完全正相关。
缺点:无法表现相关度成分,无法作为数据分析的判断依据。
折线图分析相关性
而在散点图中我们去掉了时间轴的影响,以广告曝光量作为纵轴,费用成本为横轴时,可以直接看到二者是线性关系的。
散点图分析相关性
协方差及协方差矩阵
图表方式在大量数据的依赖人工观察的方式是非常低效的,所以我们需要用其他方式进行辅助计算,比如说一个神器——协方差公式 。
优点: 计算两个变量间协方差的来分析变量间的总体误差。当两个变量的确实一致则协方差就是正值,繁殖为负。如果协方差为 0 则说明而这没有联系。
缺点: 协方差公式只能解决快速获取正负相关,无法获取相关性的密切程度。
协方差公式如下图:
还记得标题中提到神器 Excel 了么,在实际的运用中我们并不需要去实际计算协方差,该项计算在 Excel 中已经内置了,使用COVAR() 函数可以得到两组数据的协方差值。
协方差只能对两组数据进行计算,在实际计算中往往要计算的数据会有很多,所以这个时候就需要使用协方差矩阵。如下图三组数据的协方差矩阵的计算公式则为:
需要提醒的是协方差矩阵以及协方差的计算请使用2010及之后的版本,在此之前的是样本协方差,具体见慎用Excel求协方差,协方差矩阵的计算方式这里就不过多表述了,请善用搜索引擎google,百度。
相关系数
在确认了数据之间的 正负零相关 后,我们需要了解到数据之间的关系密切程度。这就是 相关系数 相关系数取值范围为 -1~1 。1 表示数据完全线性相关, -1 表示完全负相关,0 表示完全不相关。所以正常计算的过程中我们只需要使用相关系数进行计算就可以了。以下是相关系数的计算公式:
其中rxy 表示样本的相关系数 ,Sxy 表示样本协方差, Sx 表示 x 样本标准差,Sy 表示 y 样本标准差。三个公式暂且不表可以自行查阅。
下面是计算相关系数的过程,表中一共计算了 x,y 变量的协方差以及各自的标准差,并计算出相关系数为 0.93 。0.93 大于 0 说明两个数据正相关,接近 1 说明两个数据变量高度相关(接近线性相关)。
在实际生活中我们不需要自己去计算,可以使用 Excel 中的数据分析模块选择 相关系数 功能直接计算。在下图可以看到广告曝光量和相关系数结果与手动计算一致。
注意: 相关系数的优点是可以度量变量之间的关系,且带有方向性 。缺点是无法利用这种关系对数据进行预测。 简单说就是没有变量间的关系进行提炼和固化。多个相关系数之间无法进行对比,获取权重系数。
数据点分布形状和对应的相关系数
对相关系数与相关性研究有兴趣的见最后链接
一元回归以及多元回归
为了解决相关系数无法预测的问题,就需要使用回归分析。回归分析是确定两组或两组以上变量之间关系的统计方法。回归分析按照变量的数量分为一元回归和多元回归。两个变量使用一元回归,两个以上的变量使用多元回归。
进行回归分析时需要做两件事:确定变量的数量、确定自变量和因变量。当前使用的数据中只有两个变量因此使用一元回归。根据经验来说广告曝光量是随着费用成本变化而改变,所以费用成本设置为自变量 x ,广告曝光量设置为因变量 y 。
以下是一元回归方程,其中y表示广告曝光量,x表示费用成本。 b0 为方程的截距, b1 为斜率,同时也表示了两个变量间的关系。我们的目标就是 b0 和 b1 的值,知道了这两个值也就知道了变量间的关系。并且可以通过这个关系在已知成本费用的情况下预测广告曝光量。
这是b1的计算公式,我们通过已知的费用成本x和广告曝光量y来计算b1的值。
以下是通过最小二乘法计算 b1 值的具体计算过程和结果,经计算,b1 的值为 5.84 。同时我们也获得了自变量和因变量的均值。通过这三个值可以计算出 b0 的值。
以下是b0的计算公式,在已知 b1 和自变量与因变量均值的情况下,b0的值很容易计算。
将自变量和因变量的均值以及斜率 b1 代入到公式中,求出一元回归方程截距b0的值为374。这里b1我们保留两位小数,取值 5.84 。
在实际生活中,我们仍然可以使用 Excel 自动完成分析。使用 Excel 数据分析中的回归功能,输入自变量和因变量范围后可以自动获得 b0 和 b1 。但是这里 Excel 与实际计算的值有所偏差,因为之前便于手动计算 b1 只保留了两位小数。
这里还要单独说明下 R Square 的值 0.87 。这个值叫做判定系数,用来度量回归方程的拟合优度。这个值越大,说明回归方程越有意义,自变量对因变量的解释度越高。
将截距 b0 和斜率 b1 代入到一元回归方程中就获得了自变量与因变量的关系。费用成本每增加1元,广告曝光量会增加 379.84 次。通过这个关系我们可以根据成本预测广告曝光量数据。也可以根据转化所需的广告曝光量来反推投入的费用成本。获得这个方程还有一个更简单的方法,就是在 Excel 中对自变量和因变量生成散点图,然后选择添加趋势线,在添加趋势线的菜单中选中显示公式和显示 R 平方值即可。
以上介绍的是两个变量的一元回归方法,如果有两个以上的变量使用Excel中的回归分析,选中相应的自变量和因变量范围即可。下面是多元回归方程。
信息熵及互信息
最后一种相关分析方法是信息熵与互信息。前面我们一直在围绕消费成本和广告曝光量两组数据展开分析。实际工作中影响最终效果的因素可能有很多,并且不一定都是数值形式。比如我们站在更高的维度来看之前的数据。广告曝光量只是一个过程指标,最终要分析和关注的是用户是否购买的状态。而影响这个结果的因素也不仅仅是消费成本或其他数值化指标。可能是一些特征值。例如用户所在的城市,用户的性别,年龄区间分布,以及是否第一次到访网站等等。这些都不能通过数字进行度量。
度量这些文本特征值之间相关关系的方法就是互信息。通过这种方法我们可以发现哪一类特征与最终的结果关系密切。下面是我们模拟的一些用户特征和数据。在这些数据中我们忽略之前的消费成本和广告曝光量数据,只关注特征与状态的关系。
对于信息熵和互信息具体的计算过程请参考决策树分类和预测算法的原理及实现 ,这里直接给出每个特征的互信息值以及排名结果。经过计算城市与购买状态的相关性最高,所在城市为北京的用户购买率较高。
到此为止 5 种相关分析方法都已介绍完,每种方法各有特点。其中图表方法最为直观,相关系数方法可以看到变量间两两的相关性,回归方程可以对相关关系进行提炼,并生成模型用于预测,互信息可以对文本类特征间的相关关系进行度量。
建议阅读文章: 罗思义:特朗普外交手腕背后 原来是为了别国的钱袋子 该文章通过相关性分析揭示了美国未来政策走向。这篇文章给我最大的收获是如何从数据分析中找到相关性数据,并且从相关性数据中分析出本质,再基于现实对未来进行预测。
附录
后面的5种方法相关内容转自: 5 种常用的相关分析方法-蓝鲸网站分析博客
相关系数延伸阅读: 实验数据相关系数与相关性
Excel 分析数据库:Excel 使用分析工具库执行复杂数据分析
When you are old