CDALEVELⅡ?数据分析师考试?纲

考试题型:客观题(单选+多选)+上机建模题

考试内容:第一阶段,90分钟,客观题(单选+多选),上机答题;第二阶段120分钟,案例操作,自行携带电脑操作,案例数据将统一提供CSV文件。

针对不同知识,掌握程度的要求分为【领会】、【熟知】、【应用】三个级别,考生应按照不同知识要求进行学习。

1.领会:考生能够领会了解规定的知识点,并能够了解规定知识点的内涵与外延,了解其内容要点和它们之间的区别与联系,并能做出正确的阐述、解释和说明。

a.大数据分析基础(1%)

b.Python基础(5%)

c.Linux&Ubuntu操作系统基础(2%)

a.Hadoop安装配置及运行机制解析(2%)

b.HDFS分布式文件系统(2%)

c.MapReduce理论及实战(2%)

d.Hadoop生态其他常用组件(6%)

a.数据库导论(2%)

b.MySQL理论及实战(3%)

c.HBase安装及使用(3%)

d.Hive安装及使用(5%)

e.Sqoop安装及使用(3%)

a.数据挖掘的基本思想(2%)

b.数据挖掘基本方法介绍(2%)

c.有监督学习算法(4%)

d.无监督学习算法(2%)

a.Spark基础理论(2%)

b.SparkRDD基本概念及常用操作(3%)

c.Spark流式计算框架SparkStreaming、StructuredStreaming(5%)

d.Spark交互式数据查询框架SparkSQL(5%)

e.Spark机器学习算法库SparkMLlib基本使用方法(15%)

f.Spark图计算框架GraphX(5%)

a.数据可视化入门基础(1%)

b.Python数据可视化入门(2%)

c.Python高级数据可视化方法(1%)

a.利用HDFSShell操作HDFS文件系统(1%)

b.利用HiveSQL进行数据清洗(2%)

c.利用Sqoop进行数据传输(1%)

d.利用SparkSQL进行数据读取(2%)

e.利用SparkMLlib进行机器学习建模(8%)

f.利用Python进行建模结果数据可视化(1%)

Hive中的数据库概念、修改数据库

创建表、管理表、外部表、分区表、删除表

Hive中的命令语句是类SQL语句

SELECT…FROM语句

使用列值进行计算、算术运算符、使用函数、列别名、嵌套SELECT语句、WHERE语句、groupby语句、集合运算、多表连接、内连接、外连接、笛卡尔积连接、orderby语句、抽样查询、视图。

Sqoop是一个数据转储工具,它能够将HadoopHDFS中的数据转储到关系型数据库中,也能将关系型数据库中的数据转储到HDFS中。

Sqoop链接数据库需要JDBC的支持

Sqoop的安装方法从HadoopHDFS向MySQL导入数据从MySQL向HadoopHDFS导入数据

说明:推荐学习书目中考生可根据自身需求选择性学习。参考书目不需全部学完,根据考纲知识点进行针对性学习即可。

THE END
1.2020级五年制人才培养方案目标描述:本课程在教育引导学生加强法律观念和法律意识,加强自身道德修养和提高思想道德素质,培养学生爱岗、敬业、诚信等职业道德素质上发挥重要作用。 内容: 1.进行以为人民服务为核心、以集体主义为基本原则的思想教育,帮助学生养成“诚实守信、爱岗敬业、办事公道、服务群众、奉献社会”的社会主义道德品质; ...http://www.jxxdjsxy.com/jiaowuzaixian/zhuanyeshezhi/2022-06-19/8135.html
2.ch7.md·ethan/DDIA事务是应用程序将多个读写操作组合成一个逻辑单元的一种方式。从概念上讲,事务中的所有读写操作被视作单个操作来执行:整个事务要么成功提交(commit),要么失败中止(abort)或回滚(rollback)。如果失败,应用程序可以安全地重试。对于事务来说,应用程序的错误处理变得简单多了,因为它不用再担心部分失败的情况了,即某些...https://gitee.com/chenyus66/ddia/blob/master/ch7.md
3.数据库(5)MySQLSQL语言查询本章,我们将会重点探讨SQL语言基础,学习用SQL进行数据库的基本数据查询操作。另外请注意本章的SQL语法基于MySQL数据库的SQL语法。PL/SQL: Procedural Language SQL 过程化语言 SQLSQL定义SQL,Structured Query Language,结构化查询语言。SQL 是用于访问和处理数据库的标准的计算机语言。https://www.jianshu.com/p/495269f815ef?utm_campaign=maleskine&utm_content=note&utm_medium=seo_notes&utm_source=recommendation
1.数据库视图1.视图可以解决检索数据时一个表中得不到一个实体所有信息的问题 2.视图是虚拟表,是一个依赖于别的表上的寄生表,其本身不存储数据,对视图的操作最终都会转化为对基本表的操作。所以说视图不能是从其他视图导出的 3.若基表的数据发生变化,则变化也会自动反映到视图中 ...https://blog.csdn.net/vvhaleCH/article/details/144177109
2.视图视图类型 除了基本用户定义视图的标准角色以外,SQL Server 还提供了下列类型的视图,这些视图在数据库中起着特殊的作用。 索引视图 索引视图是具体化视图。 这意味着已经对视图定义进行了计算并且生成的数据像表一样存储。 可以为视图创建索引,即对视图创建一个唯一的聚集索引。 索引视图可以显著提高某些类型查询的性能...https://docs.microsoft.com/zh-CN/sql/relational-databases/views/views?view=sql-server-2017
3.java使用视图mob64ca14005461的技术博客6.可更新的连接视图 连接视图是指在一个视图的定义查询的from字句中引用了多个表或视图。而可更新的连接视图是指能够执行 UPDATE,INSERT,和 DELETE 操作的连接视图。为了保证视图是可更新的,其定义中不能包含以下语法结构: 集合操作符 DISTINCT 操作符 https://blog.51cto.com/u_16213616/12674038
4.数据库原理期末重要概念总结7、视图的作用 1、简化用户操作 2、使用户能以多种角度看待同一数据 3、对重构数据库提供了一定的逻辑独立性 4、能对机密数据提供安全保护 8、登记日志文件时必须遵从的原则 两条:1、登记的次序严格按照并发事务执行的时间顺序 2、必须先写日志文件,后写数据库。 https://www.ewbang.com/community/article/details/1000107757.html
5.软件工程导论作业2.3 面向对象程序设计中的概念主要包括哪些?分别阐述其主要思想。 答:对象:封装了数据和操作这些数据的代码的逻辑实体。 类:具有相同类型的对象的抽象。 封装:保证软件部分具有优良的模块性的基础。 继承:让某个类型对象获得另一个类型的对象特征。 多态:使不同内部结构的对象可以共享相同的外部接口,减少代码复杂度。https://www.unjs.com/zuixinxiaoxi/ziliao/20170805000008_1416273.html
6.加工中心操作工国家职业标准加工中心操作工。 1.2职业定义 操作加工中心机床,进行工件多工序组合切削加工的人员。 1.3职业等级 本职业共设四个等级,分别为中级(国家职业资格四级)、高级(国家职业资格三级)、技师(国家职业资格二级)、高级技师(国家职业资格一级)。 1.4职业环境 室内、常温。 http://www.xtzy.com/html/42281.html
7.MySQL数据库12——视图(VIEW)视图由一个预定义的查询(SELECT语句)组成,可以像基本表一样用于SELECT语句中。如果视图满足一定条件,还可以用在INSERT、UPDATE和DELETE语句中,对视图所调用的基本表进行插入、更新和删除数据操作。视图案例使用一个例题引入视图概念,并让读者初步了解视图的作用、定义视图的方法和使用视图的方法。https://www.ctyun.cn/zhishi/p-402187
8.Java基础篇Java视图与包装器详解腾讯云开发者社区在Java中,视图和包装器是两个重要的概念,用于对数据进行组织和操作。视图提供了一种逻辑上的分组和展示方式,而包装器则用于封装和转换数据。本文将介绍 Java 视图和包装器的概念、使用方法和常见技巧,并提供一些示例代码。 一、视图的概念 视图是对数据的逻辑上的组织和展示方式。它提供了一种虚拟的表结构,该结构...https://cloud.tencent.com/developer/article/2338740
9.吉林大学继续教育学院(培训学院)(1 )了解计算机多媒体技术的概念以及在网络教育中的作用; (2 )了解多媒体计算机系统的基本构成和多媒体设备的种类。 (二)多媒体基本应用工具与常用数码设备 1. 考试内容 多媒体基本应用工具和常用数码设备的分类与用途。 2. 考试要求 (1 )了解Windows 画图工具的基本操作; ...http://dec.jlu.edu.cn/cms/tkfdwtkzcksdg/804.htm
10.智能制造的核心技术之数字孪生(5)记录各种属性及其随时间和不同的视图的变化; (6)记录作用于系统以及由系统完成的过程或动作; (7)记录使能系统的用途和属性; (8)记录与系统及其使能系统相关的文档和信息。 数字线程必须在全生命周期中使用某种“共同语言”,才能交互。例如,在概念设计阶段,就有必要由产品工程师与制造工程师共同创建能够共享的...https://www.clii.com.cn/lhrh/hyxx/202204/t20220406_3953500.html