CDALEVELⅡ?数据分析师考试?纲

考试题型:客观题(单选+多选)+上机建模题

考试内容:第一阶段,90分钟,客观题(单选+多选),上机答题;第二阶段120分钟,案例操作,自行携带电脑操作,案例数据将统一提供CSV文件。

针对不同知识,掌握程度的要求分为【领会】、【熟知】、【应用】三个级别,考生应按照不同知识要求进行学习。

1.领会:考生能够领会了解规定的知识点,并能够了解规定知识点的内涵与外延,了解其内容要点和它们之间的区别与联系,并能做出正确的阐述、解释和说明。

a.大数据分析基础(1%)

b.Python基础(5%)

c.Linux&Ubuntu操作系统基础(2%)

a.Hadoop安装配置及运行机制解析(2%)

b.HDFS分布式文件系统(2%)

c.MapReduce理论及实战(2%)

d.Hadoop生态其他常用组件(6%)

a.数据库导论(2%)

b.MySQL理论及实战(3%)

c.HBase安装及使用(3%)

d.Hive安装及使用(5%)

e.Sqoop安装及使用(3%)

a.数据挖掘的基本思想(2%)

b.数据挖掘基本方法介绍(2%)

c.有监督学习算法(4%)

d.无监督学习算法(2%)

a.Spark基础理论(2%)

b.SparkRDD基本概念及常用操作(3%)

c.Spark流式计算框架SparkStreaming、StructuredStreaming(5%)

d.Spark交互式数据查询框架SparkSQL(5%)

e.Spark机器学习算法库SparkMLlib基本使用方法(15%)

f.Spark图计算框架GraphX(5%)

a.数据可视化入门基础(1%)

b.Python数据可视化入门(2%)

c.Python高级数据可视化方法(1%)

a.利用HDFSShell操作HDFS文件系统(1%)

b.利用HiveSQL进行数据清洗(2%)

c.利用Sqoop进行数据传输(1%)

d.利用SparkSQL进行数据读取(2%)

e.利用SparkMLlib进行机器学习建模(8%)

f.利用Python进行建模结果数据可视化(1%)

Hive中的数据库概念、修改数据库

创建表、管理表、外部表、分区表、删除表

Hive中的命令语句是类SQL语句

SELECT…FROM语句

使用列值进行计算、算术运算符、使用函数、列别名、嵌套SELECT语句、WHERE语句、groupby语句、集合运算、多表连接、内连接、外连接、笛卡尔积连接、orderby语句、抽样查询、视图。

Sqoop是一个数据转储工具,它能够将HadoopHDFS中的数据转储到关系型数据库中,也能将关系型数据库中的数据转储到HDFS中。

Sqoop链接数据库需要JDBC的支持

Sqoop的安装方法从HadoopHDFS向MySQL导入数据从MySQL向HadoopHDFS导入数据

说明:推荐学习书目中考生可根据自身需求选择性学习。参考书目不需全部学完,根据考纲知识点进行针对性学习即可。

THE END
1.协同过滤——推荐系统算法原理在探讨推荐算法原理之前,先说一个概念:协同过滤(Collaborative Filtering)。 协同过滤一般是在海量的用户中发掘出一小部分和你品位比较类似的,在协同过滤中,这些用户成为邻居,然后根据他们喜欢的其他东西组织成一个排序的目录作为推荐给你。 为了方便了解,举个简单的例子。最近新上映了10部电影,你不知道看哪一部,问你...https://www.jianshu.com/p/de1ae0e88b27
2.通过社交网络关系的图卷积协同过滤实现的产品推荐方法基于用户的协同过滤算法原理是利用其相似用户对该物品的所有评分的加权平均值,以此来 预测用户对某项物品的未知评分,而基于物品的协同过滤算法是预测用户对某项物品的评分是基 于用户对相似物品的平均评分。基于邻域的cf方法的关键问题是计算相似度和如何加权汇总评 分。 https://www.xjishu.com/zhuanli/55/202111235556.html
3.人工智能基础与应用宋楚平课后习题答案(30页)A.提高数据处理速度 B.节省存储空间 C.方便算法计算 D.形成商品交易矩阵 二、亮一亮 1.协同过滤推荐与关联规则推荐的区别是什么?他们各自适用在哪些场合?参考答案:协同过滤 (Collaborative filtering),是指通过收集群体用户的偏好信息,自动化预测(过滤)个体用户可能感兴趣的内容。协同过滤基于如下基本假设:如果一个人...https://max.book118.com/html/2021/0824/8011073132003137.shtm
1.协同过滤算法原理51CTO博客已为您找到关于协同过滤算法原理的相关内容,包含IT学习相关文档代码介绍、相关教程视频课程,以及协同过滤算法原理问答内容。更多协同过滤算法原理相关解答可以来51CTO博客参与分享和学习,帮助广大IT技术人实现成长和进步。https://blog.51cto.com/topic/780fa7612181653.html
2.协同过滤算法原理介绍基于用户的协同过滤协同过滤算法原理介绍 协同过滤推荐算法是诞生最早,并且较为著名的推荐算法。主要的功能是预测和推荐。算法通过对用户历史行为数据的挖掘发现用户的偏好,基于不同的偏好对用户进行群组划分并推荐品味相似的商品。协同过滤推荐算法分为两类,分别是基于用户的协同过滤算法(user-based collaboratIve filtering),和基于物品的...https://blog.csdn.net/shenxiaoming77/article/details/51217289
3.Python利用遗传算法探索迷宫出路实例深究python使用遗传算法解决迷宫问题涉及将上述原理应用到迷宫的搜索过程中。基于迷宫的二维数组表示,个体编码将是代表路径的序列。适应度函数将评估路径的有效性和质量,即路径是否能成功走出迷宫。选择、交叉和变异操作将在不断迭代中产生出下一代更优秀的路径,最终找到出路。 结合遗传算法的基本原理和迷宫问题的特点,可以设计一个...https://www.jb51.net/python/310407cm8.htm
4.平台算法的概述与原理.pptx算法优化原理03平台算法分类与比较03依据算法原理平台算法还可以根据其算法原理进行分类,例如基于内容的推荐算法、协同过滤推荐算法等。01依据算法功能平台算法可以根据其功能进行分类,例如推荐算法、排序算法、匹配算法等。02依据应用场景平台算法也可以根据其应用场景进行分类,例如电商平台的推荐算法、社交平台的匹配算法等。https://m.renrendoc.com/paper/302579979.html
5.王沛然从控制走向训导:通用人工智能的“直觉”与治理路径不管是梯度下降算法、反向传播算法,还是协同过滤算法,其实都是一套清晰的规则,“算法=逻辑+控制”。由此梳理算法、模型、参数等概念及其关系。算法是一组方法或步骤,用于实现某种特定的任务或解决某个问题。模型是在算法使用数据进行训练后输出的文件,通常是具有特定流程和结构的计算机程序。参数是模型中需要训练和优化...https://www.thepaper.cn/newsDetail_forward_25330840?commTag=true
6.推荐算法理论(一):协同过滤腾讯云开发者社区所以这篇文章主要是详细介绍这两种方法,从基本思想到原理,最后再进行一个编程的例子实战。 主要内容如下: 基于用户的协同协同过滤 基于物品的协同过滤算法 应用场景及存在问题分析 1. 基于用户的协同过滤 基于用户的协同过滤(UserCF)可以追溯到1993年, 可以说是非常早的一种算法了, 这种算法的思想其实比较简单,当一...https://cloud.tencent.com/developer/article/1981069