考试题型:客观题(单选+多选)+上机建模题
考试内容:第一阶段,90分钟,客观题(单选+多选),上机答题;第二阶段120分钟,案例操作,自行携带电脑操作,案例数据将统一提供CSV文件。
针对不同知识,掌握程度的要求分为【领会】、【熟知】、【应用】三个级别,考生应按照不同知识要求进行学习。
1.领会:考生能够领会了解规定的知识点,并能够了解规定知识点的内涵与外延,了解其内容要点和它们之间的区别与联系,并能做出正确的阐述、解释和说明。
a.大数据分析基础(1%)
b.Python基础(5%)
c.Linux&Ubuntu操作系统基础(2%)
a.Hadoop安装配置及运行机制解析(2%)
b.HDFS分布式文件系统(2%)
c.MapReduce理论及实战(2%)
d.Hadoop生态其他常用组件(6%)
a.数据库导论(2%)
b.MySQL理论及实战(3%)
c.HBase安装及使用(3%)
d.Hive安装及使用(5%)
e.Sqoop安装及使用(3%)
a.数据挖掘的基本思想(2%)
b.数据挖掘基本方法介绍(2%)
c.有监督学习算法(4%)
d.无监督学习算法(2%)
a.Spark基础理论(2%)
b.SparkRDD基本概念及常用操作(3%)
c.Spark流式计算框架SparkStreaming、StructuredStreaming(5%)
d.Spark交互式数据查询框架SparkSQL(5%)
e.Spark机器学习算法库SparkMLlib基本使用方法(15%)
f.Spark图计算框架GraphX(5%)
a.数据可视化入门基础(1%)
b.Python数据可视化入门(2%)
c.Python高级数据可视化方法(1%)
a.利用HDFSShell操作HDFS文件系统(1%)
b.利用HiveSQL进行数据清洗(2%)
c.利用Sqoop进行数据传输(1%)
d.利用SparkSQL进行数据读取(2%)
e.利用SparkMLlib进行机器学习建模(8%)
f.利用Python进行建模结果数据可视化(1%)
Hive中的数据库概念、修改数据库
创建表、管理表、外部表、分区表、删除表
Hive中的命令语句是类SQL语句
SELECT…FROM语句
使用列值进行计算、算术运算符、使用函数、列别名、嵌套SELECT语句、WHERE语句、groupby语句、集合运算、多表连接、内连接、外连接、笛卡尔积连接、orderby语句、抽样查询、视图。
Sqoop是一个数据转储工具,它能够将HadoopHDFS中的数据转储到关系型数据库中,也能将关系型数据库中的数据转储到HDFS中。
Sqoop链接数据库需要JDBC的支持
Sqoop的安装方法从HadoopHDFS向MySQL导入数据从MySQL向HadoopHDFS导入数据
说明:推荐学习书目中考生可根据自身需求选择性学习。参考书目不需全部学完,根据考纲知识点进行针对性学习即可。