根据中国互联网络信息中心发布第36次《中国互联网络发展状况统计报告》显示,截至2015年6月,我国网民规模达6.68亿,互联网普及率为48.8%。我国互联网的高速发展普及为互联网企业带来了巨大的发展机遇。
相对于传统的工业领域,互联网领域的入门门槛较低,这一特点有利于更多的企业加入互联网浪潮,以便为人民生活提供更好的服务,但也正是互联网企业的服务模式易于拷贝的原因,导致了同质化竞争激烈的互联网企业发展格局。
为了解决这一问题,通过对网站用户行为进行数据分析,有利于互联网企业准确把握网站发展的实际情况以及网站用户心理需求和心理习惯,从而更有效地利用企业资源,以便在激烈的同质化竞争中找到属于自己的服务特点,获得比较优势,最终赢得竞争。
各知识点介绍如下:
第4个知识点是对论坛数据进行一些描述性分析,在tiezi.sas7bdat基础之上寻找到最火的帖子。
第5个知识点是对论坛数据进行一些描述性分析,是在member.sas7bdat基础之上对论坛用户的男女比例进行描述性分析。
在逻辑库下选择forum数据库,界面如下图所示;
单击工具栏中的“Tools”选项,执行“Import”,“ImportWizard”命令,如图4.21,弹出数据导入向导窗口,如下图所示,点击Next。
导入数据
点击“Next”,如下图,继续进行;
点击“AddFile”,选择文件所在位置添加文件,如下图;
选择“Comma”(即以逗号为分隔符),选择“Columnnamesashead”(即将原文件中的第一行作为列名)及Emptyfilesaren(即将缺失的数据也插入新表中),点击“Next”继续进行,如下图;
图导入数据
图数据导入结果汇总
点击OK,在ViewerTableforum.member窗口下点击Data选项,数据如下图,可以看到中文字符也完全显示出来。
图数据导入成功
createtableforum.member
(
genderint(11),
birthyearmint(11),
constellationvarchar(255),
zodiacvarchar(255),
resideprovincevarchar(255),
field6varchar(255),
field7varchar(255),
lingyuvarchar(255),
zhuanchangvarchar(255),
readadint(11),
viptypeint(11),
memberidint(20),
countint(11),
PRIMARYKEY(memberid)
)engine=innodbcharset=utf8;
重复上述操作步骤同样可以将bankuai.txt和tiezi.txt导入至数据库。
打开论坛的数据库forum1,打开tables,可以看到有三个表分别是member、tiezi、bankuai。Member中记录的是用户的id和个人信息。tiezi里面记录的是会员浏览帖子的记录。Bankuai里面记录的是会员浏览板块的记录。
打开其中的一个表。比如member,然后在右侧数据浏览窗口中点击“export”,选择导出的形式,我们选择“导出所有记录”,然后选择“txt文件”,点击“Next”,选择保存路径,然后点击“Next”,点击“Next”,然后勾选“includecolumntitles”,继续点击“Next”,然后点击“start”。等进度条完成之后,数据就成功导出了。点击“close”即可。我们依据同样的方法把三个表都导出为txt格式,分别为member.txt、tiezi.txt、bankuai.txt。
将上面导出的数据存为member.txt、tiezi.txt、bankuai.txt,以备后续使用。
通常从数据库中导出数据可以保存为好几种文本文件和excel文件,你可以根据需要进行选择,如果数据量较大的话建议保存为txt文件。
打开excel文件,查看数据是否符合SAS要求的格式;
启动saseg
点击“工具”,“分配项目逻辑库”,可以新建一个逻辑库,逻辑库命名为test,注意指定合适的文件夹路径作为逻辑库放数据的地方。
执行“文件”,“导入数据”,找到member.txt文件,点击“打开”按钮,指定test逻辑库,打开窗口左下角的服务器列表——本地——逻辑库可以看到逻辑库test已经生成。如果没有发现这个逻辑库就刷新一下便可以看到了。导入数据时指定文本编码为默认编码,即GB2312。导入完成之后在逻辑库test及保存路径下便生成bankuai.sas7bdat,tiezi.sas7bdat及member.sas7dbat三个数据文件。若在逻辑库下没有显示所导入的数据,刷新一下即可。
我们看一下tiezi数据集里面的数据,结果见下图。
图tiezi数据窗口
将上面生成的sas数据文件保存在文件夹中存为bankuai.sas7bdat,tiezi.sas7bdat及member.sas7dbat,以备后续使用。
想把txt格式数据导入到saseg中,先要将txt数据格式整理成比较标准的格式才不容易出错,如果txt文件是从数据库中导出的通常格式比较正常。
新建项目逻辑库。执行“工具”—“分配项目逻辑库”—输入8个字符以内的英文名称(比如test),点击“下一步”按钮;
注意指定合适的文件夹路径(和上面一节的文件路径保持一致)作为逻辑库放数据的地方。
把左侧下方的逻辑库test下面的tiezi数据集拖入右侧的大窗口中。即可看到帖子数据集作为一个对象出现在右侧窗口中。如果想查看这个数据集里面的内容,双击过程流中TIEZI数据集的图标,即可查看里面的数据。
在tiezi窗口,点击查询生成器。把t1下面的tid变量拉入右侧数据框,见下图。
图查询生成器窗口
点击”添加新的计算列”,进入“1/4选择类型”页界面,勾选”汇总列”,点击下一步进入“2/4选择列”页面;在“2/4选择列”页面,选择“选择数据列”下面的tid变量。点击下一步,进入“3/4修改其他选项”页面;在“3/4修改其他选项”页面,将“标识符”和“列名”均改为total_number,“汇总”项选择count,其他项保持默认。点击下一步进入“4/4属性汇总”页面;在“4/4属性汇总”页面点击“完成”回到“选择数据”选项卡页面,见下图。
点击“对数据进行排序”进入“对数据进行排序”选项卡页面。将左侧“计算列”下面的total_number变量拉入数据框,排序方向选择降序,见下图。
然后点击运行,见下图。
图查询生成结果
该知识点可以不用对数据集进行保存。
如果你是论坛工作人员,根据这个帖子代码,你就能知道对应的帖子链接。原来这个帖子是关于增加论坛币方法的介绍,难怪有这么多人都要看。
把左侧下方的逻辑库test下面的member数据集拖入右侧的大窗口中。可以看到数据集作为一个对象出现在右侧窗口中。如果想查看这个数据集里面的内容,双击过程流中member数据集的图标,即可查看里面的数据。
执行“描述”“单因子频数”。在“数据”选项下,把“gender”拖入“分析变量”,在“统计量”选项下,缺失值的“显示频数”和“包含在计算中”前面打勾。点击“运行”按钮,输出结果见下图。
图单因子频数结果
结果分析:可以看到绝大多数人并没有对性别进行填写,填写性别的人当中男生占了大多数,大概是女生的3倍。由于没有填写信息的人对分析没有意义,故需要计算填写性别的人当中男女的比例,然后绘制饼形图。
回到member数据集窗口,执行选择“图形”,“饼图”,双击“简单饼图”即可得到结果,点开“数据”选项卡,将gender拉入右侧要绘图的列。然后点击运行。
图性别分布饼图
操作结果:
对于分类变量,可以通过单因子频数的方式对其进行描述,也可以通过饼形图对其进行描述。
知识点素材(包括数据):tiezi.sas7bdatmember.sas7bdat
启动SASEG,在SASEG中执行“文件”,“新建项目”。点击“工具”,“分配项目逻辑库”,可以新建一个逻辑库,逻辑库命名为test,注意指定合适的文件夹路径(和上面一节的文件路径保持一致)作为逻辑库放数据的地方。
点击”添加新的计算列”,进入“1/4选择类型”页界面,勾选”汇总列”,点击下一步进入“2/4选择列”页面;在“2/4选择列”页面,选择“选择数据列”下面的memberid变量。点击下一步,进入“3/4修改其他选项”页面;在“3/4修改其他选项”页面,将“标识符”和“列名”均改为tiezishu,“汇总”项选择count,其他项保持默认。点击下一步进入“4/4属性汇总”页面;在“4/4属性汇总”页面点击“完成”回到“选择数据”选项卡页面。
在“选择数据”选项卡页面。勾选“仅选择非重复行”,汇总组选项下取消自动选择组的勾选,设定组为t1.memberid。见下图。
点击“对数据进行排序”选项卡。把tiezishu拉入右侧窗口,排序方向选择降序。
点击运行按钮。输出结果见下图。
把member数据集拉入右侧的过程流里面。双击Member数据集将其打开,点击“查询生成器“,点击“添加表”,选择tiezishu数据集,点击“打开”。
点击“连接表”,可以看到两个表有共同的Memberid可以连接起来,然后点击“关闭”。将tiezishu数据集里面的memberid、tiezishu选入“选择数据框”,把member数据集里面的birthyear数据选入“选择数据框”。
将查询名称改为“将年龄和帖子数放在一个表中”,输出名称为test.q1。点击选项,将输出数据集的标签改为q1。
计算年龄:点击”添加新的计算列”,进入“1/4选择类型”页界面,勾选”高级表达式”,点击下一步进入“2/4生成高级表达式”页面;在“2/4生成高级表达式”页面,在输入表达式框中写入公式:2015-t1.birthyear,点击下一步,进入“3/4修改其他选项”页面;在“3/4修改其他选项”页面,将“标识符”和“列名”均改为age,“汇总”项选择None,其他项保持默认。点击下一步进入“4/4属性汇总”页面;在“4/4属性汇总”页面点击“完成”回到“选择数据”选项卡页面。见下图。
点击“过滤数据”,进入“过滤数据”选项卡页面。由于birthyear变量大量缺失,以0表示的,因此在分析数据之前要对这部分数据进行过滤,将birthyear拉入过滤数据里面,单击“过滤”,运算符选择不等于,值写0,点击“确定”按钮。见下图。
然后点击“运行”。查询结果就出来了,我们在这个查询结果中可以进行分析,来分析浏览帖子数和年龄的关系。查询结果见下图。
我们回到过程流页面,双击打开数据q1对象,点击“查询生成器”。将查询名称改为对年龄和帖子数进行再过滤,输出名称改为test.q2。点击选项,将输出数据集的标签改为q2。在选择数据选项卡下面,将tiezishu和age拉入数据框。见下图。
点击过滤数据选项卡。点击“新建过滤器”,选择基本过滤器,点击“下一步”按钮,选择tiezishu,点击“下一步”,运算符选择介于,起始值写200,结束值写6000,点击“下一步”,点击“完成”。点击“新建过滤器”,选择“基本过滤器”,点击“下一步”,选择age,点击“下一步”按钮,运算符选择“介于”,不要误选为在范围内,起始值写16,结束值写80,点击“下一步”。点击完成。见下图。
点击“运行”按钮。输出结果见下图。
为了避免每次重新打开sasEG后,都要把建立逻辑库,打开数据等操作重新做一遍,我们可以把关电脑前在sasEG中进行的操作保存,保存为一个项目:点击“文件”—“保存项目”,为帖子浏览数与年龄关系分析命名,比如项目12.4,点击“保存”即可。这样在你的电脑上就会生成一个文件项目帖子浏览数与年龄关系分析.egp。为了避免死机,最好经常执行一些保存操作,“文件”—“保存项目帖子浏览数与年龄关系分析”。下次用到该项目时重新打开即可。
该项目的整体过程流图见下图。
把该知识点的操作产生新的数据集q1.sas7dbat,q2.sas7bdat,tiezishu.sas7bdat保存到路径下,以备后续使用。
RFM模型是BultandWansbeek于1995年提出来的,认为客户行为三要素Recency(R)、Frequency(F)与Monetary(M)构成了客户购买潜力价值的核心组成部分。该模型经常应用于CRM框架下的客户行为分析。
在电脑中选择一个文件夹,将其路径作为逻辑库的路径(保证该路径下面有tiezi.sas7bdat这个文件),单击“下一步”按钮;
把左侧下方的逻辑库test下面的tiezi数据集拖入右侧的大窗口中。即可看到帖子数据集作为一个对象出现在右侧窗口中。打开tiezi数据集,点击“查询生成器”。
在tiezi中计算一列日期变量date,该变量是从time变量里面提取,格式为年月日。打开tiezi数据集,生成查询器aa1,生成变量date,这个变量等于datepart(time)。计算每个人登陆论坛当天浏览的帖子量生成size变量。具体步骤如下:将查询名称改为aa1,将输出名称改为“test.aa1”(即将输出的数据保存在逻辑库test中),把左边的t1表里面的memberid变量拉入右边。如下图所示。
点击“添加新的计算列”,“高级表达式”,点击“下一步”。在“输入表达式框”中输入表达式datepart(t1.time)。点击下一步。设定列名和标识符均为date,更改变量格式为DATE7.。点击下一步。点击完成回到选择数据选项卡页面。见下图。
点击“计算列”,“新建”,“汇总列”,点击“下一步”,随意选择一个变量,比如time,然后点击“下一步”,变量名为size,汇总部分选择“count”,点击“下一步”,点击“完成”。点击完成回到选择数据选项卡页面。勾选“仅选择非重复行”,汇总组选项下取消自动选择组的勾选,设定组为memberiddate。见下图。
生成一个过滤器,将date等于3653的行去掉,因为此观测值属于异常值。见下图。
打开“对数据排序”选项卡,把memberid和date选入,两个均为升序。见下图。
然后点击“运行”按钮。输出结果见下图。
这样数据集aa1中每个人每天就只有一条记录了。
u计算y1
新建一个程序文件,程序文件的名字定为“生成y1”。内容如下:
生成新变量。根据第一个关键词分组,生成变量x1,组内取值为1,2,3….。需要建立一个程序运行下面的语句。输出数据集aa2到逻辑库test里面。
图程序
程序中by的意思是对数据根据memberiid和date两个变量进行升序排序。
输出结果如下图所示
图数据集aa2输出结果1
输出结果如下图所示:
图数据集aa2输出结果2
u计算y2
新建一个程序文件,程序文件的名字定为“生成y2”。内容如下:
图数据集aa3窗口
u计算y3
新建一个程序文件,程序文件的名字定为“生成y3”。内容如下:计算会员浏览帖子时论坛的累积浏览帖子数y3,就是变量size的累计值。
图数据集aa4窗口
u数据进一步过滤
点开数据集aa4,点击“查询生成器”,查询生成器名字为aa5,输出的数据集名字为aa5。将数据集aa4里面的变量全部拉入数据框。
点击“生成新列”maxdate,选择“汇总列”,选择“最大值”,点击“完成”,回到主界面设定分组变量为Memberid。见下图。
建立过滤器,设定过滤器为maxdate=date。这个目的是每个用户仅留最新的浏览日期,这样做是为了利于提升聚类的效果。不适合将一个人的多天浏览放在一起聚
数据分析咨询请扫描二维码
寻找数据分析工作的关键经验在数据分析领域寻找工作是一项充满挑战和机遇的任务。无论您是刚入行还是想要在该领域迈出更大的步...
在当今信息爆炸的时代,数据成为企业决策的关键。成为一名优秀的数据分析师需要综合考虑学历、技能、经验和证书等多方面因素。让...
在当今信息爆炸的时代,数据被认为是新时代的石油。成为一名数据分析师不仅是一个有前景的职业选择,也是对不断进化的技术世界的...
准备数据分析面试的关键要素数据分析领域的竞争激烈,为了在面试中脱颖而出,综合准备至关重要。除了技术基础外,项目经验、业...
数据分析是一个令人着迷且充满挑战的领域,尤其对于初学者而言。这篇入门指南将帮助你从零开始掌握数据分析的基本技能和方法。让...
数据分析领域呈现广阔前景,持续增长需求。探索数据分析行业的未来发展方向,揭示职业路径、技能需求以及薪酬前景,助您规划成功...
数据分析领域近年来经历了显著的转变,受到技术进步和数据量激增的推动。随着大数据、人工智能和机器学习等技术的蓬勃发展,数据...
掌握基础知识统计学和数学基础:掌握概率论、描述性统计、推论性统计等基本概念是数据分析的基石。这些理论知识为我们在处理...
解析数据分析培训价格范围在学习数据分析的旅程中,了解培训课程的价格范围至关重要。数据分析培训的学费会受到诸多因素的影响...
在当今信息爆炸的时代,数据分析已成为洞察力和决策制定的关键工具。对于那些希望掌握这一领域技能的人来说,入门视频教程是一个...
就业前景展望数据分析师领域近年来蓬勃发展,毕业生就业率与市场需求呈现强劲增长趋势。这一行业的繁荣与各方面因素密不可分。...
市场趋势与机遇随着大数据和智能科技的迅猛发展,企业对数据分析师的需求不断攀升。无论是金融、医疗、零售还是科技等领域,数...
在数据分析的世界中,数据清洗是一个至关重要的环节。数据分析师通过一系列方法和步骤来确保数据质量和一致性,从而为深入的数据...
在当今数据驱动的世界中,数据分析师的角色变得至关重要。掌握适当的编程语言是他们成功完成任务的关键。本文将探讨数据分析师常...
为什么统计学是数据分析的核心?作为数据分析师,精通统计学基础是事关事业成功的关键一环。从描述性统计到概率论与随机变量,...
数据分析领域的蓬勃发展为数据分析师们开辟了广阔的职业道路。随着大数据时代的来临,他们的角色变得愈发关键,为企业决策提供重...
了解数据的本质:描述性统计描述性统计是数据分析中的基石,通过各种统计量揭示数据的基本特征。从均值、中位数到标准差和四分...
在当今数字化时代,数据被认为是企业最宝贵的资产之一。然而,有效管理和利用数据并非易事,需要综合的战略规划、治理机制以及技...
在当今信息爆炸的时代,提升数据分析能力变得至关重要。幸运的是,网络上提供了丰富多样的学习资源,涵盖了从基础到高级的学习路...
在当今数字化时代,数据成为了企业决策和发展的关键驱动力。成为一名优秀的数据分析师不仅意味着掌握技术工具,更需要培养出色的...