IBMSPSSStatistic操作入门,了解SPSS的基本操作方法。
案例导读
客户开发了一种针对女性的新保健产品,希望通过调研对该类保健品市场进行细分,然后根据公司的营销能力选择1-2个细分市场。整个研究计划采用三个步骤:市场细分/市场机会评估è目标人群确定è产品/品牌定位,来确定产品的市场定位,以确保产品的上市成功。
本案例涉及到的是第二阶段的研究,根据研究目的和问卷结构,确定采用因子分析来进行内在购买驱动因素的提取,最终确认了五项主要的驱动因素,并且就不同人群的驱动因素偏好进行了分析,为第三阶段的研究指明了大致的产品市场定位方向。
分析方法
案例中用到的分析过程
表:设定表;
统计图:散点图;
比较均值:独立样本t检验;
降维:因子分析。
学习后建议阅读
第十二章88年汉城奥运会男子十项全能成绩分析,继续深入学习因子分析。
学习前建议
IBMSPSSStatistic操作入门,了解SPSS的基本操作方法;
酸奶饮料新产品口味测试研究案例,了解方差分析模型的基本操作。
在某个消化内科的科研项目中,研究者希望考察在控制了其他因素的作用之后,激素水平是否的确在对照组和实验组之间存在差异,以根据分析结果继续进行下一步的研究。
在统计描述中,研究者发现作为因变量的激素水平呈正偏态分布,因此在数据理解阶段用Bootstrap抽样方法和秩和检验方法进行了变量间关联情况的探索,随后分别采用变量变换、秩变换分析、Cox回归三种方法进行了数据处理,得到了所需的分析结果。
Bootstrap抽样、秩和检验、秩变换方法、Cox回归。
转换:计算变量、个案排秩;
统计图:直方图、散点图;
比较均值:均值;
描述统计:描述、P-P图;
非参数检验:独立样本;
生存函数:Cox回归。
第十章INTAGE中国消费者信心指数影响因素分析,了解方差分析模型的衍生模型及应用。
学习前建议阅读
某车企汽车年销量预测案例,了解线性回归模型的基本结构和结果阅读方式。
研究者收集了脑外伤急救病例共201例,希望能够从中分析出导致急救后迟发性颅脑损伤的主要影响因素。
分析中首先利用标准的Logistic回归模型进行了影响因素筛选,然后利用分类树探索了子变量中是否可能存在交互作用,最后利用广义线性模型过程拟合了带交互项的Logistic回归模型。
卡方检验、Logistic回归、树模型(分类树)、广义线性模型。
转换:计算变量;
统计图:堆积直方图、箱图;
描述统计:描述、交叉表;
回归:二元Logistic;
分类:树模型;
广义线性模型:广义线性模型。
INTAGE中国消费者信心指数影响因素分析,思考最优尺度回归方法在本案例中应用的可能性。
学习前
数据分析方法论简介,了解三种数据分析方法论的异同;
数据分析方法体系简介,对统计方法体系做一基本了解。
在本案例中,随着竞争的日益激烈,淘宝大卖家张三希望能够从头建立会员数据库,并利用这些数据改善其店铺经营状况。初期张三希望能够对会员促销的效果进行提升,并进一步深入分析存在重购行为的买家具有怎样的基本特征。
利用IBMSPSSStatistics的直销模块,分析师利用RFM模型进行了历史数据的分析,筛选出了应当优先考虑的促销名单;随后又进一步对存在重购行为的买家的基本特征进行了定位,该结果将被用于随后进一步改善营销活动的效果。
RFM模型;
分类树(作为直销模块的后台方法被调用)。
转换:计算变量、重新编码;
数据:选择个案、排序个案、标识重复个案、分类汇总、合并文件;
描述统计:交叉表;
直销:RFM分析、生成对产品作出响应的我的联系人的概要文件。
第十六章超市产品购买关联分析,体验数据挖掘方法体系在营销分析中的应用。
探讨消费者购买保健品的动机,了解因子分析的基本操作。
本案例需要从88年汉城奥运会十项全能的真实竞赛成绩出发,分析出决定男性运动员十项全能总成绩的主要运动能力,以便有针对性的更快、更好的进行运动员的选拔和培养。
根据分析目的和数据特征,分析中先采用因子分析提取了公因子,随后利用公因子进行了回归建模(主成分回归),最后将回归模型还原至原始变量,从而对十项全能运动所考察的内在运动能力构成,以及外在的成绩驱动指标等都有了清晰的了解。
描述统计:描述;
回归:线性;
打败SARS,了解多维偏好分析、对应分析等基于因子分析衍生而来的信息浓缩方法。
酸奶饮料新产品口味测试研究案例,了解方差分析模型的基本操作;
研究者希望对受访者的背景资料对消费者信心指数的影响状况加以研究,并进一步考察其内部的详细作用方式。
方差分析模型、多元方差分析模型、最优尺度回归、多水平模型。
统计图:直方图图组、线图、条图、散点图;
一般线性模型:单变量、多变量;
混合模型:线性;
回归:最佳尺度(CATREG)。
无。
表:多响应集;
降维:因子分析;
降维:最优尺度;
降维:对应分析。
INTAGE中国消费者信心指数影响因素分析,了解线性模型框架下各种衍生模型的基本知识,了解Logistic回归模型和树模型的优缺点比较;
研究者希望通过对医院监测网络所采集到的病案数据进行分析,了解住院病人的费用结构分类、住院费用的主要影响因素,以确定是否可能建立全国范围的住院费用标准,并就中医、西医、中西医疗法的疗效、费用进行比较,从中寻找各类病种最佳的治疗方案。
根据分析目的和数据特征,本案例主要采用数据挖掘方法体系进行了分析,在利用聚类分析了解了费用结构分类之后,利用BP神经网络建立了住院费用、住院天数和疗效的预测模型,逐一回答了研究问题,最终结论为我国医疗体系的市场化运作不佳,同样类型的疾病在不同的医院间所需费用相差极大,因此制定全国统一的住院费用控制标准的时机尚不成熟。
因子分析、层次聚类、BP神经网络。
转换:计算变量、可视离散化;
数据:选择个案;
描述统计:频率、描述;
分类:系统聚类;
神经网络:多层感知器。
电信业客户流失分析,体验CRISP-DM方法论在真正的数据挖掘业务分析中的应用。
数据分析方法论简介,对数据挖掘方法论做一基本了解;
案例1:找出10个购买金额最大的客户。了解Modeler的数据整理功能;
案例2:发现客户购买产品组合的规律。了解Modeler的探索性数据分析功能;
案例3:直邮营销目标客户确定。了解数据挖掘模型的建立、检验和应用;
案例4:药物选择决策支持。了解CRISP-DM在解决具体业务问题过程中的应用、理解如何结合业务来评估数据挖掘的效果、了解数据挖掘结果的几种发布形式。
案例中用到的数据挖掘模型
决策树C5.0;
神经网络;
Logistic回归。
第四部分各章节。
数据分析方法论简介,了解CRISP-DM数据挖掘方法论;
数据分析方法体系简介,了解各种常用的数据挖掘方法;
IBMSPSSModeler操作入门,了解IBMSPSSModeler的基本操作。
本案例对电信业的流失问题遵循CRISP-DM方法论的流程使用数据挖掘方法,以三种思路建立了数据挖掘模型,对模型的效果进行了评估,并对模型的应用和如何进行营销预演进行了探讨。
案例中用到的数据挖掘方法
决策树模型;
神经网络模型;
目标变量为标志型离散变量的模型评估方法。
信用风险评分方法。
第一部分各章,以了解CRISP-DM数据挖掘方法论、数据分析方法及IBMSPSSModeler的基本操作。
Benford定律;
聚类分析;
关联规则。
建议学习完本章后重新回到第十八章:信用风险评分方法,对这两章做比较阅读,以体会建立欺诈模型在建模思路上和信用评分模型的区别。
IBMSPSSModeler操作入门,了解IBMSPSSModeler的基本操作;
电信业客户流失分析,从数据分析角度,第十七章与本章属于一个类型的问题,即离散变量预测问题,读者通过对两章的比较阅读可以体会两章使用方法和结果呈现方式的不同。
本案例使用信用评分卡(Scorecards)的方法对银行贷款的风险水平进行评估,得到了易于被非统计专业背景的业务人员所理解的模型形式,同时还介绍了评分卡的建立步骤与注意事项。
连续变量分箱方法;
Logistic回归;
评分卡方法。
建议学习完本章后重新回到第十七章:电信业客户流失分析,对这两章做比较阅读;
医疗保险业欺诈发现。
电信业客户流失分析,了解目标变量为二分离散变量的预测模型与模型的评价方法。