本文转载自公众号量化研究方法(phdthink)
“万物皆有联”,是大数据一个最重要的核心思维。
世界上的所有事物,都会受到其它事物的影响:
HR经常会问:影响员工离职的关键原因是什么?是工资还是发展空间?
销售人员会问:哪些要素会促使客户购买某产品?是价格还是质量?
营销人员会问:影响客户流失的关键因素有哪些?是竞争还是服务等?
产品设计人员:影响汽车产品受欢迎的关键功能有哪些?价格、还是动力等?
所以,在不引起混淆的情况下,我们也会用影响因素分析。
可视化的优点是:直观,但其缺点是:无法准确度量。比如腰围和脂肪比重,对体重的影响程度到底有多大?或者说,这两个因素中哪个因素对体重的影响会更大?散点图是无法给出答案的(所以,我们接下来要引入更强大的方法)。
显著性检验的步骤如下:
构建新的统计量t,如下所示
7显著性检验
构建新的统计量t,如下所示:
在变量X和Y服从正态分布时,该t统计量服从自由度为n-2的t分布。
计算统计量t,并查询t分布对应的概率P值。
最后判断(α表示显著性水平,一般取0.05):
第1步:绘制散点图
在SPSS中,绘制散点图非常简单。操作步骤如下:
点击【图形-图表】构建程序。
在库中选择散点图,双击简单散点图。
第2步:选择系数公式
在SPSS中,判断两变量是否服从正态分布操作步骤如下:
点击【分析-描述统计-探索】,进入探索界面。
将待判断的变量选入因变量列表。
注:当样本量大于50时用K-S检验结果,样本量小于50时用Shapiro-Wilk检验结果。
第4步:显著性检验
第5步:进行业务判断
然后,再从业务上对分析结果进行解读,并给出相应的业务策略或建议:
业务解读:腰围对体重的影响很大,脂肪比重对体重的影响较大。
业务建议:要减轻体重,最好先减小腰围,少吃脂肪类食物。
不明分布类型的定距数据;
两个数据序列的数据一一对应,等间距等比例。数据序列通常来自对同一组样本的多次测量或不同视角的测量。
结论分析
假设有两个数据序列A和B的秩分序列分别是{2,4,3,5,1},{3,4,1,5,2},即相对应的秩对为(2,3)(4,4)(3,1)(5,5)(1,2)。在按照A的秩分排序后,得到新的秩对(1,2)(2,3)(3,1)(4,4)(5,5),此时B的秩分序列变成了{2,3,1,4,5}。在这种情况下,针对第一个B值2,后面有3,4,5比它大,有1比它小,所以一致对为3,非一致对为1;第二个数字3,有4,5比它大,有1比它小,所以一致对为2,非一致对为1;依次类推,总共有8个一致对,2个非一致对。即Nc=8,Nd=2。
数据要求
适用于不明分布的定序数据;
案例分析
解题步骤
利用【分析】-【非参数检验】-【旧对话框】-【1样本K-S】命令对语文、数学、英语、历史和地理成绩进行正态分布检验。
结果解读
例一:想长寿吗?来吸烟吧!(……)
那我们再来回头看看还能从数据中找出来点儿什么。可能有朋友已经想到了,数据有缺失信息(比缺失值更甚),没错,年龄。在这随机抽取的1314个人里面,我们统计了一下,吸烟者中65岁以上的老年人只占8.4%,而不吸烟者中的老年人却占到了26.4%。这种年龄不均衡性就可以解释上述的现象了:不吸烟组他们的死亡率高是没错,但可不是因为人家不吸烟啊,而是因为本来这组老年人的比例就高,那20年以后自然死亡或者是患某种致命的疾病的几率本来就大啊!
例二:犯罪率和教育
如果说今天报纸的头条是这样写的:“美国高等教育现状令人堪忧:高学历更易引发犯罪”,你会有什么反应?是不是迫切地想知道为什么会造成这样的社会现象:是读书读多了压力过大容易变态吗?还是高学历社会认同感不够导致了容易仇视社会?还是美国高等教育真的有问题?然后又联想到几例最近听到的美国高校枪杀案呢,还有各种高科技犯罪的新闻,马上把这篇报道转到票圈,呼吁亲朋好友不要再到美国去留学了。
以上两个例子都属于辛普森悖论的范畴。有些看似的新发现啊、新言论啊,其实只是因为少考虑了一些潜在变量。
这类问题的常见种类总结如下:
上面的吸烟使人长寿的例子大家都知道是在忽悠,那么“吸烟可能导致肺癌”却是一个被普遍认可的观点。但是其实呢,从20世纪初直到现在,这种因果关系都受到科学界的各种质疑或者说怀疑。比如说也许肺癌与吸烟习惯的背后有一种共同的遗传因素只是人们还没有找到?现代统计学之父R.A.Fisher大家都认识吧?至少可能学统计的同学会认识他。他当时甚至认为,不排除“由肺癌导致吸烟”的这样一种可能性——也许在即将患上肺癌时,人们开始感觉不舒服或者感到烦躁,这时候比平常更容易吸上一支香烟来应对。这种论调呢,现在看来可能有点荒唐,但是的确给我们打开了一扇不走寻常路的这种逻辑门,避免我们落入定式思维的圈套。