某著名电商平台双十一美妆销售数据分析。由于是真实的商业数据,所以做了脱敏处理,数据集中对店名的引用被处理为产品的品牌名以保护店家隐私。。
通过对该平台双十一美妆销售数据的品牌、销量、热度等特征的分析(平台视角和用户视角),尝试探索以下问题:
项目流程说明如下:
注:本项目使用了分词处理技术以抽取商品分类属性。
本项目适合以下人员学习使用:
本项目使用Hive作业数据仓库,使用SparkSQL开发数据处理管道,包括ETL、数据清洗和数据预处理,并使用SparkSQL作为OLAP引擎。大数据分析结果写出到MySQL数据库中,最后使用SpringMVC和ApacheECharts开发Web应用程序,对分析结果进行可视化展示。整体项目实施过程如下:
使用SparkSQL开发ETL作业,将某电商平台双十一美妆销售数据抽取并加载到Hive数据仓库的ODS层。
使用Spark对大数据进行清洗,包括去重、错误数据处理、空值处理、属性转换、属性提取等数据预处理任务。其中比较难处理的(难点及亮点)是对美妆商品抽取主类别和子类别属性。这里我们在Spark平台上使用了结巴分词工具包来抽取这两个属性。
使用SparkSQL从多个维度对整理后的销售数据集进行分析。在项目实施过程中,我们先使用ZeppelinNoteBook执行交互式探索和分析,然后将实现过程使用IntellIJIDEA进行项目重构。
项目使用Maven打jar包,使用Azkaban进行作业编排(当然是可选的,也可省略作业编排,手工依次执行),并部署到Spark集群上执行。最终分析结果写出到MySQL数据库中。
使用IntellIJIDEA开发SpringMVC项目,使用ECharts作为可视化组件,展示分析结果。
如果您是会员,并申请了终身会员权限,可下载本项目所有源码和测试数据。