根据中国互联网络信息中心发布第36次《中国互联网络发展状况统计报告》显示,截至2015年6月,我国网民规模达6.68亿,互联网普及率为48.8%。我国互联网的高速发展普及为互联网企业带来了巨大的发展机遇。
相对于传统的工业领域,互联网领域的入门门槛较低,这一特点有利于更多的企业加入互联网浪潮,以便为人民生活提供更好的服务,但也正是互联网企业的服务模式易于拷贝的原因,导致了同质化竞争激烈的互联网企业发展格局。
为了解决这一问题,通过对网站用户行为进行数据分析,有利于互联网企业准确把握网站发展的实际情况以及网站用户心理需求和心理习惯,从而更有效地利用企业资源,以便在激烈的同质化竞争中找到属于自己的服务特点,获得比较优势,最终赢得竞争。
各知识点介绍如下:
第4个知识点是对论坛数据进行一些描述性分析,在tiezi.sas7bdat基础之上寻找到最火的帖子。
第5个知识点是对论坛数据进行一些描述性分析,是在member.sas7bdat基础之上对论坛用户的男女比例进行描述性分析。
在逻辑库下选择forum数据库,界面如下图所示;
单击工具栏中的“Tools”选项,执行“Import”,“ImportWizard”命令,如图4.21,弹出数据导入向导窗口,如下图所示,点击Next。
导入数据
点击“Next”,如下图,继续进行;
点击“AddFile”,选择文件所在位置添加文件,如下图;
选择“Comma”(即以逗号为分隔符),选择“Columnnamesashead”(即将原文件中的第一行作为列名)及Emptyfilesaren(即将缺失的数据也插入新表中),点击“Next”继续进行,如下图;
图导入数据
图数据导入结果汇总
点击OK,在ViewerTableforum.member窗口下点击Data选项,数据如下图,可以看到中文字符也完全显示出来。
图数据导入成功
createtableforum.member
(
genderint(11),
birthyearmint(11),
constellationvarchar(255),
zodiacvarchar(255),
resideprovincevarchar(255),
field6varchar(255),
field7varchar(255),
lingyuvarchar(255),
zhuanchangvarchar(255),
readadint(11),
viptypeint(11),
memberidint(20),
countint(11),
PRIMARYKEY(memberid)
)engine=innodbcharset=utf8;
重复上述操作步骤同样可以将bankuai.txt和tiezi.txt导入至数据库。
打开论坛的数据库forum1,打开tables,可以看到有三个表分别是member、tiezi、bankuai。Member中记录的是用户的id和个人信息。tiezi里面记录的是会员浏览帖子的记录。Bankuai里面记录的是会员浏览板块的记录。
打开其中的一个表。比如member,然后在右侧数据浏览窗口中点击“export”,选择导出的形式,我们选择“导出所有记录”,然后选择“txt文件”,点击“Next”,选择保存路径,然后点击“Next”,点击“Next”,然后勾选“includecolumntitles”,继续点击“Next”,然后点击“start”。等进度条完成之后,数据就成功导出了。点击“close”即可。我们依据同样的方法把三个表都导出为txt格式,分别为member.txt、tiezi.txt、bankuai.txt。
将上面导出的数据存为member.txt、tiezi.txt、bankuai.txt,以备后续使用。
通常从数据库中导出数据可以保存为好几种文本文件和excel文件,你可以根据需要进行选择,如果数据量较大的话建议保存为txt文件。
打开excel文件,查看数据是否符合SAS要求的格式;
启动saseg
点击“工具”,“分配项目逻辑库”,可以新建一个逻辑库,逻辑库命名为test,注意指定合适的文件夹路径作为逻辑库放数据的地方。
执行“文件”,“导入数据”,找到member.txt文件,点击“打开”按钮,指定test逻辑库,打开窗口左下角的服务器列表——本地——逻辑库可以看到逻辑库test已经生成。如果没有发现这个逻辑库就刷新一下便可以看到了。导入数据时指定文本编码为默认编码,即GB2312。导入完成之后在逻辑库test及保存路径下便生成bankuai.sas7bdat,tiezi.sas7bdat及member.sas7dbat三个数据文件。若在逻辑库下没有显示所导入的数据,刷新一下即可。
我们看一下tiezi数据集里面的数据,结果见下图。
图tiezi数据窗口
将上面生成的sas数据文件保存在文件夹中存为bankuai.sas7bdat,tiezi.sas7bdat及member.sas7dbat,以备后续使用。
想把txt格式数据导入到saseg中,先要将txt数据格式整理成比较标准的格式才不容易出错,如果txt文件是从数据库中导出的通常格式比较正常。
新建项目逻辑库。执行“工具”—“分配项目逻辑库”—输入8个字符以内的英文名称(比如test),点击“下一步”按钮;
注意指定合适的文件夹路径(和上面一节的文件路径保持一致)作为逻辑库放数据的地方。
把左侧下方的逻辑库test下面的tiezi数据集拖入右侧的大窗口中。即可看到帖子数据集作为一个对象出现在右侧窗口中。如果想查看这个数据集里面的内容,双击过程流中TIEZI数据集的图标,即可查看里面的数据。
在tiezi窗口,点击查询生成器。把t1下面的tid变量拉入右侧数据框,见下图。
图查询生成器窗口
点击”添加新的计算列”,进入“1/4选择类型”页界面,勾选”汇总列”,点击下一步进入“2/4选择列”页面;在“2/4选择列”页面,选择“选择数据列”下面的tid变量。点击下一步,进入“3/4修改其他选项”页面;在“3/4修改其他选项”页面,将“标识符”和“列名”均改为total_number,“汇总”项选择count,其他项保持默认。点击下一步进入“4/4属性汇总”页面;在“4/4属性汇总”页面点击“完成”回到“选择数据”选项卡页面,见下图。
点击“对数据进行排序”进入“对数据进行排序”选项卡页面。将左侧“计算列”下面的total_number变量拉入数据框,排序方向选择降序,见下图。
然后点击运行,见下图。
图查询生成结果
该知识点可以不用对数据集进行保存。
如果你是论坛工作人员,根据这个帖子代码,你就能知道对应的帖子链接。原来这个帖子是关于增加论坛币方法的介绍,难怪有这么多人都要看。
把左侧下方的逻辑库test下面的member数据集拖入右侧的大窗口中。可以看到数据集作为一个对象出现在右侧窗口中。如果想查看这个数据集里面的内容,双击过程流中member数据集的图标,即可查看里面的数据。
执行“描述”“单因子频数”。在“数据”选项下,把“gender”拖入“分析变量”,在“统计量”选项下,缺失值的“显示频数”和“包含在计算中”前面打勾。点击“运行”按钮,输出结果见下图。
图单因子频数结果
结果分析:可以看到绝大多数人并没有对性别进行填写,填写性别的人当中男生占了大多数,大概是女生的3倍。由于没有填写信息的人对分析没有意义,故需要计算填写性别的人当中男女的比例,然后绘制饼形图。
回到member数据集窗口,执行选择“图形”,“饼图”,双击“简单饼图”即可得到结果,点开“数据”选项卡,将gender拉入右侧要绘图的列。然后点击运行。
图性别分布饼图
操作结果:
对于分类变量,可以通过单因子频数的方式对其进行描述,也可以通过饼形图对其进行描述。
知识点素材(包括数据):tiezi.sas7bdatmember.sas7bdat
启动SASEG,在SASEG中执行“文件”,“新建项目”。点击“工具”,“分配项目逻辑库”,可以新建一个逻辑库,逻辑库命名为test,注意指定合适的文件夹路径(和上面一节的文件路径保持一致)作为逻辑库放数据的地方。
点击”添加新的计算列”,进入“1/4选择类型”页界面,勾选”汇总列”,点击下一步进入“2/4选择列”页面;在“2/4选择列”页面,选择“选择数据列”下面的memberid变量。点击下一步,进入“3/4修改其他选项”页面;在“3/4修改其他选项”页面,将“标识符”和“列名”均改为tiezishu,“汇总”项选择count,其他项保持默认。点击下一步进入“4/4属性汇总”页面;在“4/4属性汇总”页面点击“完成”回到“选择数据”选项卡页面。
在“选择数据”选项卡页面。勾选“仅选择非重复行”,汇总组选项下取消自动选择组的勾选,设定组为t1.memberid。见下图。
点击“对数据进行排序”选项卡。把tiezishu拉入右侧窗口,排序方向选择降序。
点击运行按钮。输出结果见下图。
把member数据集拉入右侧的过程流里面。双击Member数据集将其打开,点击“查询生成器“,点击“添加表”,选择tiezishu数据集,点击“打开”。
点击“连接表”,可以看到两个表有共同的Memberid可以连接起来,然后点击“关闭”。将tiezishu数据集里面的memberid、tiezishu选入“选择数据框”,把member数据集里面的birthyear数据选入“选择数据框”。
将查询名称改为“将年龄和帖子数放在一个表中”,输出名称为test.q1。点击选项,将输出数据集的标签改为q1。
计算年龄:点击”添加新的计算列”,进入“1/4选择类型”页界面,勾选”高级表达式”,点击下一步进入“2/4生成高级表达式”页面;在“2/4生成高级表达式”页面,在输入表达式框中写入公式:2015-t1.birthyear,点击下一步,进入“3/4修改其他选项”页面;在“3/4修改其他选项”页面,将“标识符”和“列名”均改为age,“汇总”项选择None,其他项保持默认。点击下一步进入“4/4属性汇总”页面;在“4/4属性汇总”页面点击“完成”回到“选择数据”选项卡页面。见下图。
点击“过滤数据”,进入“过滤数据”选项卡页面。由于birthyear变量大量缺失,以0表示的,因此在分析数据之前要对这部分数据进行过滤,将birthyear拉入过滤数据里面,单击“过滤”,运算符选择不等于,值写0,点击“确定”按钮。见下图。
然后点击“运行”。查询结果就出来了,我们在这个查询结果中可以进行分析,来分析浏览帖子数和年龄的关系。查询结果见下图。
我们回到过程流页面,双击打开数据q1对象,点击“查询生成器”。将查询名称改为对年龄和帖子数进行再过滤,输出名称改为test.q2。点击选项,将输出数据集的标签改为q2。在选择数据选项卡下面,将tiezishu和age拉入数据框。见下图。
点击过滤数据选项卡。点击“新建过滤器”,选择基本过滤器,点击“下一步”按钮,选择tiezishu,点击“下一步”,运算符选择介于,起始值写200,结束值写6000,点击“下一步”,点击“完成”。点击“新建过滤器”,选择“基本过滤器”,点击“下一步”,选择age,点击“下一步”按钮,运算符选择“介于”,不要误选为在范围内,起始值写16,结束值写80,点击“下一步”。点击完成。见下图。
点击“运行”按钮。输出结果见下图。
为了避免每次重新打开sasEG后,都要把建立逻辑库,打开数据等操作重新做一遍,我们可以把关电脑前在sasEG中进行的操作保存,保存为一个项目:点击“文件”—“保存项目”,为帖子浏览数与年龄关系分析命名,比如项目12.4,点击“保存”即可。这样在你的电脑上就会生成一个文件项目帖子浏览数与年龄关系分析.egp。为了避免死机,最好经常执行一些保存操作,“文件”—“保存项目帖子浏览数与年龄关系分析”。下次用到该项目时重新打开即可。
该项目的整体过程流图见下图。
把该知识点的操作产生新的数据集q1.sas7dbat,q2.sas7bdat,tiezishu.sas7bdat保存到路径下,以备后续使用。
RFM模型是BultandWansbeek于1995年提出来的,认为客户行为三要素Recency(R)、Frequency(F)与Monetary(M)构成了客户购买潜力价值的核心组成部分。该模型经常应用于CRM框架下的客户行为分析。
在电脑中选择一个文件夹,将其路径作为逻辑库的路径(保证该路径下面有tiezi.sas7bdat这个文件),单击“下一步”按钮;
把左侧下方的逻辑库test下面的tiezi数据集拖入右侧的大窗口中。即可看到帖子数据集作为一个对象出现在右侧窗口中。打开tiezi数据集,点击“查询生成器”。
在tiezi中计算一列日期变量date,该变量是从time变量里面提取,格式为年月日。打开tiezi数据集,生成查询器aa1,生成变量date,这个变量等于datepart(time)。计算每个人登陆论坛当天浏览的帖子量生成size变量。具体步骤如下:将查询名称改为aa1,将输出名称改为“test.aa1”(即将输出的数据保存在逻辑库test中),把左边的t1表里面的memberid变量拉入右边。如下图所示。
点击“添加新的计算列”,“高级表达式”,点击“下一步”。在“输入表达式框”中输入表达式datepart(t1.time)。点击下一步。设定列名和标识符均为date,更改变量格式为DATE7.。点击下一步。点击完成回到选择数据选项卡页面。见下图。
点击“计算列”,“新建”,“汇总列”,点击“下一步”,随意选择一个变量,比如time,然后点击“下一步”,变量名为size,汇总部分选择“count”,点击“下一步”,点击“完成”。点击完成回到选择数据选项卡页面。勾选“仅选择非重复行”,汇总组选项下取消自动选择组的勾选,设定组为memberiddate。见下图。
生成一个过滤器,将date等于3653的行去掉,因为此观测值属于异常值。见下图。
打开“对数据排序”选项卡,把memberid和date选入,两个均为升序。见下图。
然后点击“运行”按钮。输出结果见下图。
这样数据集aa1中每个人每天就只有一条记录了。
u计算y1
新建一个程序文件,程序文件的名字定为“生成y1”。内容如下:
生成新变量。根据第一个关键词分组,生成变量x1,组内取值为1,2,3….。需要建立一个程序运行下面的语句。输出数据集aa2到逻辑库test里面。
图程序
程序中by的意思是对数据根据memberiid和date两个变量进行升序排序。
输出结果如下图所示
图数据集aa2输出结果1
输出结果如下图所示:
图数据集aa2输出结果2
u计算y2
新建一个程序文件,程序文件的名字定为“生成y2”。内容如下:
图数据集aa3窗口
u计算y3
新建一个程序文件,程序文件的名字定为“生成y3”。内容如下:计算会员浏览帖子时论坛的累积浏览帖子数y3,就是变量size的累计值。
图数据集aa4窗口
u数据进一步过滤
点开数据集aa4,点击“查询生成器”,查询生成器名字为aa5,输出的数据集名字为aa5。将数据集aa4里面的变量全部拉入数据框。
点击“生成新列”maxdate,选择“汇总列”,选择“最大值”,点击“完成”,回到主界面设定分组变量为Memberid。见下图。
建立过滤器,设定过滤器为maxdate=date。这个目的是每个用户仅留最新的浏览日期,这样做是为了利于提升聚类的效果。不适合将一个人的多天浏览放在一起聚
数据分析咨询请扫描二维码
技术技能-编程能力:数据分析师需要掌握至少一门编程语言,如Python、R或SQL。这些语言对于数据处理、建模和分析至关重要。例...
数据分析领域涵盖多样性岗位,根据工作职责和技能需求划分。这些角色在企业中扮演关键角色,帮助组织制定战略、优化流程并实现商...
数据分析是一种通过收集、处理、解释和展示数据,以获得见解和决策支持的过程。这个领域涉及使用统计学、计算机科学和商业智能等...
数据分析领域正日益成为当今商业世界中不可或缺的一环。随着数据量的爆炸式增长,企业越来越需要能够从这些海量信息中提炼出宝贵...
数据分析师需要学习的课程内容非常广泛,涵盖了从基础理论到实际应用的多个方面。在追求这一职业道路上,合适的教育和培训至关重...
数据分析师作为当今信息时代中关键的职业之一,扮演着解释、预测和推动决策的重要角色。他们需要多方位技能来处理各种复杂的数据...
数据分析师在今天的商业环境中扮演着至关重要的角色。他们需要应对各种复杂的数据分析任务和业务需求,这要求他们具备广泛的技能...
在当今快速变化的技术和市场环境中,数字化转型是企业利用数字技术全面重新设计和改造业务的重要过程。这一转型旨在通过整合云计...
数字化转型:是企业在现代技术和市场环境不断变化的背景下,利用数字技术对其业务进行全面的重新设计和改造的过程。其核心目标是...
理论基础与高级学习数学专业理论基础:学生首先需要掌握数学的基础理论,包括数学分析、高等代数、几何学、常微分方程、实变函...
数字化转型:现代企业蜕变的引擎数字化转型已然成为当今企业持续发展的关键支柱。这一过程并非简单的技术升级,更是涉及企业文...
#数据科学与大数据技术专业学什么?就业前景与行业需求**数字化转型:引领企业进步的关键**数字化转型是现代企业发展的必经...
理论部分-基础数学理论:-学生首先需要掌握数学的基础理论,包括数学分析、高等代数、几何学、常微分方程等。-这些课程...
在选择数据科学和大数据技术专业时,了解不同领域的职责和技能需求至关重要。数据治理工程师是这一领域中不可或缺的角色之一,承...
基础课程统计学基础-统计学是数据分析的基石,包括概率、假设检验、回归分析等基本知识,有助于理解数据背后的意义。-...
数据分析是一门综合性学科,涉及多个领域的知识和技能。要全面掌握数据分析,需要学习以下内容:基础课程统计学基础:统计学...
数据治理工程师在当今信息时代扮演着至关重要的角色,负责确保组织内数据的质量、安全性和可用性。他们需要具备一系列技能和才能...
在当今数字化时代,数据被誉为新的石油,是企业最有价值的资产之一。因此,建立有效的数据战略规划对于企业的成功至关重要。数据...