作为产品方向的把控者,产品经理每做出一次决策的时候,都应该避免“我觉得”这类的主观拍脑袋的决策方式,而是以数据作为论据,因此数据分析的准确性与专业度,往往决定了一个产品发展。
下面简单来说下数据分析的方法论:
一、数据分析的思路
1.基于用户路径
基于用户路径的思路是分析用户的操作行为,主要根据每位用户在App或网站中的点击行为日志,分析用户在App或网站中各个模块的流转规律与特点,挖掘用户的访问或点击模式,进而实现一些特定的业务用途。如App核心模块的到达率提升、特定用户群体的主流路径提取与浏览特征刻画,App产品设计的优化与改版等。通过分析用户的路径行为,我们可以得出的典型路径,从而对典型路径进行针对性的优化。
2.基于产品节点
基于产品节点的思路是通过某一个关键节点的转化率或数据占比的分析,比如说对于一个电商app,加入购物车到下单成功的数据转化率分析,优惠券的使用率分析,基于关键节点的数据分析可通过增加辅助功能进行优化分析,例如支付转化率的提高可以加入倒计时/有xx人同时在抢等等,促使尽快完成支付。
数据分析步骤
针对数据分析的问题,再对数据指标进行确定以及拆分,比如订单用户的转化率的定义为订单用户/全体用户,那么订单用户转化率的指标就拆分为订单用户及全体用户,如果订单用户的转化率定义为订单用户/访问用户,这个时候订单用户转化率的指标就拆分为订单用户及访问用户。
数据指标的分析都是为了让产品或业务更好的发展服务的,我们了解到某个数据指标的变化趋势之后,对产品的实际意义是什么。在做数据分析之前就应该要想明白,再基于这个目的,确定我们的分析范围。只有把范围确定清楚了,数据分析的结果才会更精准指导产品的改进和解决我们的实际问题。
1.收集
数据的收集方式一般有以下几种:
问卷调查,一般用于前期的用户调研或用户使用情况的主观感受的获取,但精度较差,样本少;客户端数据,一般用于对用户浏览路径的记录,可通过用户行为及页面停留时长等指标分析app的易用型、页面到达率等指标;服务端数据及历史日志,服务器端所输出的数据更为准确深入,对于一些精确度要求较高的数据,建议使用服务端日志作为原始数据;业务数据库,主要用户业务数据的统计,如销售额、订单数量等业务指标。数据收集后,还需要对收集的数据进行预处理,对一些不符合标准的数据进行剔除。
2.分析
数据的收集只是前期工作,如果对数据进行分析,采用什么方法进行分析,才是数据分析的核心技术体现。
下面列举几种数据分析的方法:
(1)AHP层次分析法
但AHP层次分析法会受人的主观判断影响,不同的人的权重分配不同时,可能得到的结果会相差较大,该分析方法存在一定的不客观性。
(2)杜邦分析法
杜邦分析法的核心思路是把问题一层层分解,直到反映出最根本的问题为止。
以电商行业为例,GMV(网站成交金额)是考核业绩最直观的指标,当GMV同比或环比出现下滑时候,需要找到影响GMV的因素并逐一拆解。GMV下降如果是因下单用户减少所造成的,那么是访客数(流量)减少了,还是转化率下降了呢?如果是访客数减少了,那是因为自然流量减少了,还是因为营销流量不足?
用杜邦分析法会使我们清晰的找到影响结果的原因,特别对一些多个因素都会影响到的数据,是非常有效的分析方法。
(3)漏斗分析
以电商的购买行为为例,从用户浏览商品到完成交易可以分为以下5个步骤:
3.改进&跟踪
基于数据找到问题,并找到最优的解决方案,是数据分析的目的,再通过后期的效果跟进及前后数据对比,验证方案的效果。
三、结语
数据分析是产品经理工作的重要组成部分,依据数据变化来调整产品是有效的工作方式。如何进行数据分析,分析哪些数据,根据数据制定改进方案是每一个产品经理都要熟练掌控的技能,因为几乎所有的问题,我们都能在数据中找到答案。
本文由@why原创发布于人人都是产品经理。
那么什么是数据分析方法论?要引入数据分析方法论这个概念,首先我们弄清楚数据分析方法论和数据分析方法的区别:
数据分析方法论:它是从宏观角度指导我们如何进行数据分析,它更像一个规划图,告诉我们项目的整体框架、从哪几个方面进行数据分析、各方面又包含什么内容和指标,先分析什么后分析什么,它会给我们更加科学合理的分析思路,不断指导我们后期数据分析工作的开展。
数据分析步骤一般分为:
在日常学习或者工作中,初学者接触的所谓的"数据分析"大概率的是数据分析方法,比如如何使用分析工具(python、R、excel、SQL、hadoop、spark等分析工具)对数据进行收集处理,然后利用分析方法(统计学、概率论、机器学习、深度学习等方法)对数据进行分析建模,最后利用可视化工具(PPT、Tableau、PowerBI)对分析结果进行可视化展示以及报告的撰写。在数据分析的过程中,我们常常会遇到以下各种问题:
像我这样的初学者经常遇到上述情况,出现这种情况无非这两个原因:一、分析者对业务了解不够;二、没有科学合理的方法指导。这两者都非常重要,只有当实际业务在科学的方法论的指导下,分析的结果才更加科学更加具有说服力。
在数据分析流程中,明确分析目的和思路是数据分析的第一步,也是最重要的一步。一般来说,数据分析的目的越明确,分析的结果就越有价值。明确目的后,需要梳理思路,搭建分析框架,把分析的目的拆解成若干个不同的分析要点,然后针对每个分析要点确定分析方法和具体的分析指标,最终我们确保我们的分析框架体系化,使分析结果更加具有说服力。而数据分析方法论可以保证分析框架体系化,这也是我们要学习数据分析方法论的原因。
那么有哪些数据分析方法论数据分析方法论主要分为营销方面理论模型和管理方面理论模型:
一、4P营销理论
4P营销理论,对应英文为TheMarketingTheoryof4Ps),该理论产生于20世纪60年代的美国,随着营销组合理论的提出而出现的。
1967年,菲利普·科特勒在其畅销书《营销管理:分析、规划与控制》第一版进一步确认了以4Ps为核心的营销组合方法,即:
产品(Product):注重开发的功能,要求产品有独特的卖点,把产品的功能诉求放在第一位。
价格(Price):根据不同的市场定位,制定不同的价格策略,产品的定价依据是企业的品牌战略,注重品牌的含金量。
渠道(Place):企业并不直接面对消费者,而是注重经销商的培育和销售网络的建立,企业与消费者的联系是通过分销商来进行的。
宣传(Promotion):比如打折、买一送一等。
例如,以福特汽车为例来说明经典的4P营销理论,如下图所示。
二、用户行为理论
用户使用行为是指用户为获取、使用物品或服务所采取的各种行动。用户对产品首先需要有一个认知、熟悉的过程,然后试用,再决定是否继续消费使用,最后成为忠诚用户,这个过程如下图所示。
例如,某网站的用户行为分析如下图所示。
三、STP理论(用于目标市场定位分析)
市场细分(Segmentation)、选择适当的市场目标(Targeting)和市场定位(Positioning),是战略营销的核心内容。STP理论是指企业在一定的市场细分的基础上,确定自己的目标市场,最后把产品或服务定位在目标市场中的确定位置上。
这个我们平时公司的数据分析不太接触得到,有兴趣的可以自行了解。
四、SWOT分析法(用于企业战略分析)
新产品或者服务上线的时候可以结合SWOT分析法进行战略性分析和规划。
如表1的小额信贷公司的SWOT分析:
五、PEST分析法
PEST分别是四个单词的首字母,其中:
P:Political,政治环境。E:Economic,经济环境。S:Social,社会环境。T:Technological,技术环境。可以用一个四象限的图来概括PEST分析法。
PEST分析法主要用于对宏观环境的分析,虽然不同行业和企业有其自身特点和经营要素,分析的具体内容会有差异,但一般都应对PEST这四个方面进行分析。
例如,用PEST分析生鲜行业,如下图所示。
六、5W2H分析法
5W2H分析法是以5个W开头的英文单词和两个H开头的单词进行提问,从回答问题中发现解决问题的线索。
5W:
Why:为何?What:何事?Who:何人?When:何时?Where:何地?2H:
How:如何做?Howmuch:什么价?这种分析方法有利于抓住重点,理清逻辑,易于理解和使用。
例如,用5W2H分析法分析一款产品。
七、逻辑树
逻辑树能保证解决问题的过程的完整性,它能将工作细分为便于操作的任务,确定各部分的优先顺序,明确地把责任落实到个人。
例如,用逻辑树分析公司的利润增长缓慢这个问题,如下图所示。
八、SMART
九、画像分群
画像分群是聚合符合某中特定行为的用户,进行特定的优化和分析。
比如在考虑注册转化率的时候,需要区分移动端和Web端,以及美国用户和中国用户等不同场景。这样可以在渠道策略和运营策略上,有针对性地进行优化。
十、趋势
建立趋势图表可以迅速了解市场,用户或产品特征的基本表现,便于进行迅速迭代;还可以把指标根据不同维度进行切分,定位优化点,有助于决策的实时性;
十一、RFM模型
RFM分析是客户关系分析中一种简单实用客户分析方法,他将最近一次消费、消费频率、消费金额这三个要素构成了数据分析最好的指标,衡量客户价值和客户创利能力。
RFM分析也就是通过这个三个指标对客户进行观察和分类,针对不同的特征的客户进行相应的营销策略。
在这三个制约条件下,我们把M值大,也就是贡献金额最大的客户作为“重要客户”,其余则为“一般客户"和”流失客户“,基于此,我们产生了8种不同的客户类型:
十二、波士顿模型
运用在客户分析中,也就是利用销售额和利润这两个重要指标分为四个象限,对我们的客户进行分组。我们将这两个维度作为横纵坐标轴分为四个象限,将产品或者服务分为下面四种类型:
我们如此分类的目的正是要根据波士顿矩阵,将一些没有发展前景和市场潜力的产品尽快淘汰掉,保证明星产品和现金牛产品的份额,从而搭配好产品或者业务的整个市场布局。
FineBI制作的波士顿模型实际使用:
如图所示,每个销售大区与每个销售年份下的客户分布,通过筛选数据,我们得到我们想要的客户信息。而波士顿矩阵则是一个非常有力的工具,可以帮助我们将杂乱无序的东西组块整理,在使用矩阵的的时候,尽量选取纵向和横向毫无关联要素来分析,这样才能发挥矩阵分块整理的作用。
十三、CLV用户生命模型
我们知道并不是所有的顾客都具备相同的价值,如果企业能够专注于那些可以带来最大未来利益的客户,就可以实现更好的运营。所以企业必须识别出这些客户,CLV是对客户未来利润的有效预测,它还有另外一个名字,叫做LTV(lifetimevalue)。
这里需要特别说明的是,CLV考虑了完整的客户生命周期,包含客户获取和客户流失,也就是它计算的不只是眼前顾客已经产生的价值,还预测了未来价值。
CLV的计算公式有非常多,有的会非常复杂,主要在流失率这个环节和影响因素就相当多,也有会加上投入成本,价值变化率和利率变化等等。
比较实用简单的是这种:
注意此公式对群体有效,对个体精准度较低,因为个体流失率影响因素太多,而群体流失率却是可以统计的。
那对于CLV的应用,可以从以下两个模型来看,将企业的最优客户与不值得投入的客户区分出来:
十四、帕累托模型(二八法则)
帕累托原则,又称二八原则,是关于效率与分配的判断方法。帕累托法则是指在任何大系统中,约80%的结果是由该系统中约20%的变量产生的。应用在企业中,就是80%的利润来自于20%的项目或重要客户。
模型的解释:当一个企业80%利润来自于20%的客户总数时,这个企业客户群体是健康且趋于稳固的。当一个企业80%利润来自大于20%的客户总数时,企业需要增加大客户的数量。当一个企业80%利润来自小于20%的客户群时,企业的基础客户群需要拓展与增加。
模型的实际使用:如下图我用FineBI制作的某商场品牌商的销售额。
一共10家客户,5家客户(50%)提供了80%的销售额,这就说明需要增加大品牌客户数量。
带来大量销售额的客户必须认真对待和维护,如果客户数量大,尤其需要列出重点客户重点跟进,把有限的精力放在创造利润大的客户上。
十五、AARRR模型
AARRR模型是所有运营人员都要了解的一个数据分析模型,从整个用户生命周期入手,包括获取(Acquisition)、激活(Activition)、留存(Retention)、变现(Revenue)和传播(Refer)。
每个环节分别对应生命周期的5个重要过程,即从获取用户,到提升活跃度,提升留存率,并获取收入,直至最后形成病毒式传播。
例如,基于AARRR模型,分析猪八戒网的用户生命周期。
十六、杜邦分析法
杜邦分析法目前主要用于财务领域,通过财务比率的关系来分析财务状况,其核心要点是将一个大的问题拆分为更小粒度的指标,以此了解问题出在了哪儿,从而对症下药。
以电商行业为例,GMV(网站成交金额)是考核业绩最直观的指标,当GMV同比或环比出现下滑时候,需要找到影响GMV的因素并逐一拆解。
GMV下降如果是因下单用户减少所造成的,那么是访客数(流量)减少了,还是转化率下降了呢?如果是访客数减少了,那是因为自然流量减少了,还是因为营销流量不足?
如果是自然流量下降的话,可能需要在用户运营和产品运营端发力,如果是营销流量不足,那么可以通过营销活动或者站外引流的形式增加曝光量。
最后,如果是因为客单价不高,那么需要进行定价及促销的方案优化,比如识别具有GMV提升潜力的商品进行定价优化,评估当前促销的ROI,针对选品、力度和促销形式进行优化。同时通过关联商品的推荐或商品套装促销的形式,激发用户购买多件商品,也可以有效提高客单价。
十七、BCG矩阵
BCG矩阵大家都非常熟悉了,以市场占有率和增长率为轴,将坐标系划分为四个象限,用于判断各项业务所处的位置。
这里想讲的并非传统的BCG矩阵,而是BCG矩阵的变阵,或者叫类BCG矩阵。根据不同的业务场景和业务需求,我们可以将任意两个指标作为坐标轴,从而把各类业务或者用户划分为不同的类型。
比如可以以品牌GMV增长率和占有率构建坐标系,来分析各品牌的状况,从而帮助业务方了解到哪些品牌是未来的明星品牌,可以重点发力,哪些品牌处于弱势且增长匮乏,需要优化品牌内的产品布局。
除此之外,我们还可以根据以下场景构建类BCG矩阵:
1)分析商品引流能力和转化率:流量份额-转化率
2)分析商品对毛利/GMV的贡献:毛利率-销售额
3)基于RFM分析用户的价值:访问频率-消费金额
按照上述方法,大家可以根据需求大开脑洞,按照一定标准对研究对象进行分类分析。
十八、TGI指数
在分析用户时,通常的做法是将目标用户进行分类,然后对比各类用户与总体之间的差异性,TGI指数提供了一个很好的方法,来反映各类用户群体在特定研究范围(如地理区域、人口统计、媒体偏好等)内的强势或弱势。
TGI指数=用户分类中具有某一特征的群体所占比例/总体中具有相同特征的群体所占比例*100。
比如在分析用户的年龄段时,可以通过TGI指数对比各用户分类与总体在各年龄段的差异,设用户分类1中16-25岁的用户占比为4%,而总体中16-25岁的用户占比为8.3%,那么用户分类1在16-25岁用户中的TGI指数为4%/8.3%*100=48。依照这一方法,我们可以对各类用户在各年龄段的TGI指数进行对比。
如上图所示,各类目标用户在16-25岁这个年龄段的占比都比总体小(TGI指数<100),其中分类1的用户年龄偏大,因为该类用户在36岁以上各个年龄段的TGI指数都明显高于100,且同时高于其他三类用户。
当前在互联网领域,除了用户实名数据以外,其他用户的画像维度一般都通过建立模型进行判断,因此无法完全保证准确性,但不同于小样本调研,大数据分析是能容忍一定数据误差的,不过,这一切都要建立在对比的基础上。
所以,在分析用户画像时,需要根据场景进行用户分类,并对比各类用户与总体间的差异,这样才能保证分析结果的可信性和适用性,而TGI指数就是很好的对比指标。
十九、LRFMC模型
LRFMC模型提供了一个更完整的视角,能更全面地了解一个用户的特征,LRFMC各个维度的释义如下:
以去哪儿的业务为例,通过LRFMC模型可以综合分析用户的习惯偏好和当前状态,从而指导精准营销方案的实施。
L(lifetime):用户来多久了?
F(Frequency):用户出行的频率如何,如果是固定周期出行,是否应该进行复购提醒?
M(Monetary):用户的消费金额是多少,是单价高(购买头等舱),还是频次高?
C(CostRatio):用户对折扣的偏好如何,是为用户增加权益还是降价促销?
二十、产品运营类
产品运营是一个长期的过程,需要定期对产品的使用数据进行监控,以便发现问题,从而确定运营的方向,同时也可以用于评估运营的效果。
产品运营的常用指标如下:
1)使用广度:总用户数,月活
2)使用深度:每人每天平均浏览次数,平均访问时长
3)使用粘性:人均使用天数
4)综合指标:月访问时长=月活*人均使用天数*每人每天平均浏览次数*平均访问时长
对于不同的产品也需根据产品的性质来确定核心指标,比如,对于社交类产品,使用广度和使用粘性至关重要,而对于一些中台分析类产品,提升使用深度和使用粘性更有意义。
一、统计分析方法论:
(1)数据的频数分析:在数据的预处理部分,我们曾经提到利用频数分析和交叉频数分析来检验异常值。此外,频数分析也可以发现一些统计规律。比如说,收入低的被调查者用户满意度比收入高的被调查者高,或者女性的用户满意度比男性低等。不过这些规律只是表面的特征,在后面的分析中还要经过检验。
(2)数据的集中趋势分析:数据的集中趋势分析是用来反映数据的一般水平,常用的指标有平均值、中位数和众数等。各指标的具体意义如下:
平均值:是衡量数据的中心位置的重要指标,反映了一些数据必然性的特点,包括算术平均值、加权算术平均值、调和平均值和几何平均值。
中位数:是另外一种反映数据的中心位置的指标,其确定方法是将所有数据以由小到大的顺序排列,位于中央的数据值就是中位数。
众数:是指在数据中发生频率最高的数据值。
如果各个数据之间的差异程度较小,用平均值就有较好的代表性;而如果数据之间的差异程度较大,特别是有个别的极端值的情况,用中位数或众数有较好的代表性。
(3)数据的离散程度分析:数据的离散程度分析主要是用来反映数据之间的差异程度,常用的指标有方差和标准差。方差是标准差的平方,根据不同的数据类型有不同的计算方法。
(4)数据的分布:在统计分析中,通常要假设样本的分布属于正态分布,数据的正态性离群值检验,已知标准差Nair检验,未知标准差时,有Grubbs检验,Dixon检验,偏度-峰度法等。其中常用偏度-峰度法需要用偏度和峰度两个指标来检查样本是否符合正态分布。偏度衡量的是样本分布的偏斜方向和程度;而峰度衡量的是样本分布曲线的尖峰程度。一般情况下,如果样本的偏度接近于0,而峰度接近于3,就可以判断总体的分布接近于正态分布。
(5)绘制统计图:用图形的形式来表达数据,比用文字表达更清晰、更简明。在SPSS软件里,可以很容易的绘制各个变量的统计图形,包括条形图、饼图和折线图等。
2.假设检验:是数理统计学中根据一定假设条件由样本推断总体的一种方法。具体作法是:根据问题的需要对所研究的总体作某种假设,记作H0;选取合适的统计量,这个统计量的选取要使得在假设H0成立时,其分布为已知;由实测的样本,计算出统计量的值,并根据预先给定的显著性水平进行检验,作出拒绝或接受假设H0的判断。常用的假设检验方法有u—检验法、t检验法、χ2检验法(卡方检验)、F—检验法,秩和检验等。
4.方差分析(AnalysisofVariance,简称ANOVA):又称“变异数分析”或“F检验”,是R.A.Fisher发明的,用于两个及两个以上样本均数差别的显著性检验。由于各种因素的影响,研究所得的数据呈现波动状。造成波动的原因可分成两类,一是不可控的随机因素,另一是研究中施加的对结果形成影响的可控因素。
方差分析是从观测变量的方差入手,研究诸多控制变量中哪些变量是对观测变量有显著影响的变量。
5.回归分析:回归主要的种类有:线性回归,曲线回归,二元logistic回归,多元logistic回归。回归分析的应用是非常广泛的,统计软件包使各种回归方法计算十分方便。
一般来说,回归分析是通过规定因变量和自变量来确定变量之间的因果关系,建立回归模型,并根据实测数据来求解模型的各个参数,然后评价回归模型是否能够很好的拟合实测数据;如果能够很好的拟合,则可以根据自变量作进一步预测。
6.聚类分析:聚类主要解决的是在“物以类聚、人以群分”,比如以收入分群,高富帅VS矮丑穷;比如按职场分群,职场精英VS职场小白等等。
聚类的方法层出不穷,基于用户间彼此距离的长短来对用户进行聚类划分的方法依然是当前最流行的方法。大致的思路是这样的:首先确定选择哪些指标对用户进行聚类;然后在选择的指标上计算用户彼此间的距离,距离的计算公式很多,最常用的就是直线距离(把选择的指标当作维度、用户在每个指标下都有相应的取值,可以看作多维空间中的一个点,用户彼此间的距离就可理解为两者之间的直线距离。);最后聚类方法把彼此距离比较短的用户聚为一类,类与类之间的距离相对比较长。
常用的算法k-means、分层、FCM等。
7.判别分析:从已知的各种分类情况中总结规律(训练出判别函数),当新样品进入时,判断其与判别函数之间的相似程度(概率最大,距离最近,离差最小等判别准则)。
常用判别方法:最大似然法,距离判别法,Fisher判别法,Bayes判别法,逐步判别法等。
注意事项:
a.判别分析的基本条件:分组类型在两组以上,解释变量必须是可测的;
b.每个解释变量不能是其它解释变量的线性组合(比如出现多重共线性情况时,判别权重会出现问题);
c.各解释变量之间服从多元正态分布(不符合时,可使用Logistic回归替代),且各组解释变量的协方差矩阵相等(各组协方方差矩阵有显著差异时,判别函数不相同)。
相对而言,即使判别函数违反上述适用条件,也很稳健,对结果影响不大。
应用领域:对客户进行信用预测,寻找潜在客户(是否为消费者,公司是否成功,学生是否被录用等等),临床上用于鉴别诊断。
10.决策树(DecisionTree):是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干,故称决策树。在机器学习中,决策树是一个预测模型,他代表的是对象属性与对象值之间的一种映射关系。Entropy=系统的凌乱程度,使用算法ID3,C4.5和C5.0生成树算法使用熵。这一度量是基于信息学理论中熵的概念。