丰富的线上&线下活动,深入探索云世界
做任务,得社区积分和周边
最真实的开发者用云体验
让每位学生受益于普惠算力
让创作激发创新
资深技术专家手把手带教
遇见技术追梦人
技术交流,直击现场
海量开发者使用工具、手册,免费下载
极速、全面、稳定、安全的开源镜像
开发手册、白皮书、案例集等实战精华
为开发者定制的Chrome浏览器插件
解析:MaxCompute创建项目成功后,除了项目所有者(ProjectOwner)外还内置了两个默认的管理角色Super_Administrator和Admin,Admin角色不具有设定项目空间的安全配置的权限,Admin角色不能修改项目空间的鉴权模型,不能Admin权限指派给其他用户。
2.(多选)MaxCompute中支持多种表连接(join)的方式,包括哪些(CD)。A:semiouterjoinB:antiouterjoinC:fullouterjoinD:mapjoin
解析:semiouter和antiouter支持leftjoin。fullouterjoin和mapjoin是dataworks支持的join方式。
3.(多选)Google在大数据发展的过程中做出了非常大的贡献,其中有三篇非常具有影响力的论文,论述了文件系统、非关系型数据库、并行计算框架,分别为(ABC)。A:GFSB:BigTableC:MapReduceD:HDFSE:HbaseF:Spark
解析:google分别在2003年、2004年以及2006年发布了大数据发展影响重大的三篇论文:1、TheGoogleFileSystem,简称GFS;2、MapReduce;3、Bigtable。分别论述文件系统、非关系型数据库、并行计算框架。
4.阿里云机器学习PAI支持多种常见的算法,以下属于分类算法的有(AB)。A:KNNB:RandomForestC:K-MeansD:DBSCAN
解析:KNN是近邻分类算法,是通过测量不同特征值之间的距离进行分类的算法;RandomForest算法是随机森林算法,可以用作分类算法;K-Means算法是k均值聚类算法,用作聚类分析算法;DBSCAN算法是密度聚类算法,用作聚类分析。
5.采用分布式的方式存储数据时,要考虑数据复制时一致性的问题,关于一致性如何保证可以采取多种基本原则和设计理念,不包括哪项。(A)A:LRUB:CAPC:ACIDD:BASE
解析:数据复制与一致性基本原则和设计理念包括:CAP、ACID、BASE等,不包括LRU。
6.大数据计算服务MaxCompute是阿里巴巴自主研发的海量数据处理平台,主要服务于批量结构化数据的存储和计算。以下不适合使用大数据计算服务实现的场景是(A)A:订单办理B:数据仓库C:社交网络分析D:用户画像
解析:MaxCompute是阿里云大数据离线计算服务组件,适合批量数据开发调度,订单办理属于实时业务,不适合有maxcompute完成。同时maxcompute适用于日志分析,用户画像,数据化运营,数据仓库和BI分析、网站的日志分析、电子商务网站的交易分析、用户特征和兴趣挖掘
7.使用odpscmd连接到MaxCompute中的某个project后,执行什么命令可以查看表table_b占用空间的大小。(A)A:desctable_b;B:sizetable_b;C:selectsizefromtable_b;D:showtabletable_b;
解析:desc是查看表或者视图信息
8.MaxCompute项目空间A设置了项目空间保护:setProjectProtection=true;并且将项目空间B设置为可信空间:addtrustedprojectB;无其他任何设置。以下说法中正确的是哪项?(A)A:项目空间A中的数据可以流至项目空间BB:项目空间B中的数据可以流至项目空间AC:项目空间A和项目空间B中的数据可双向流动D:项目空间B中的数据只可以流至项目空间A
解析:如果当前项目空间处于受保护状态,如果将数据流出的目标空间设置为当前空间的TrustedProject,那么目标项目空间的数据流向将不会被视为触犯ProjectProtection规则。如果多个项目空间之间两两互相设置为TrustedProject,那么这些项目空间就形成了一个TrustedProjectGroup,数据可以在这个ProjectGroup内流动,但禁止流出到ProjectGroup之外。
解析:MaxCompute并不具备数据库的常见特性,如事务、回滚等。
12.(多选题)MaxCompute是用于数据分析场景的企业级SaaS模式的云数据仓库,以下选项中哪些连接工具能连接MaxCompute(ABD)A:MaxCompute控制台的查询编辑器B:使用客户端(Odpscmd)连接C:DbeaverD:MaxComputeStudio
13.ApacheSpark核心组件包含:SparkStreaming、SparkSQL、SparkCore、GraphX、MLlib,下列哪个选项是对MLib组件的描述?(D)A:提供流计算组件B:是一个用来处理结构化数据的Spark组件C:基于内存多语言执行的核心引擎D:Spark机器学习库
14.在MapReduce处理过程中,每次计算都要从磁盘读取数据完成计算后又写入磁盘。这体现了MapReduce的哪个缺点?(B)A:不擅长实时计算B:磁盘IO开销大C:延迟高D:中间结果多
解析:MapReduce的缺点:1、无法在毫秒或秒级内返回结果;2、输入数据集是动态的,不能动态变化;3、每次作业后输出结果都会写入磁盘、会造成大量磁盘IO,导致性能低下。
解析:根据新输入父母的身高来分析其孩子的身高,不属于分类算法
16.下列数据库属于图数据库的是(B)。A:RedisB:GraphDBC:MongoDBD:Cassandra
17.存储数据的结构可以分为:结构化、非结构化、半结构化。下列选项中,属于非结构化数据的是(D)。A:JSON文档B:XML文档C:日志文件D:图片
解析:非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片,HTML、各类报表、图像和音频/视频信息等等。
18.在《大数据时代》一书中,维克托·迈尔-舍恩伯格和肯尼斯可耶提出大数据的“4V特征。“4V特征包含(ACDE)。A:Volume规模性B:Vitality动态性C:Velocity高速性D:Variety多样性E:Value价值性
解析:大数据的特征,由维克托迈尔-舍恩伯格和肯尼斯克耶编写的《大数据时代》中提出,大数据的4V特征:规模性(Volume)、高速性(Velocity)、多样性(Variety)、价值性(Value)。
19.随着大数据时代的发展,Hadoop生态圈组件越来越丰富。关于Hadoop组件HDFS是(C)。A:工作流引擎B:资源管理系统C:分布式文件系统D:列式数据库
解析:Hadoop分布式文件系统(HadoopDistributedFileSystem)
20.随着大数据时代的发展,Hadoop生态圈组件越来这丰富。关于Hadoop生态圈组件Ambari是(D)。A:日志收集B:数据挖掘库C:分布式文件系统D:安装、部署、配置、管理工具
解析:Ambari(安装、部署、配置和管理工具)
21.Hadoop的主要功能中,能完成对海量数据分布式运算的是哪个组件(D)A:HDFSB:DFSC:RDDD:MapReduce
解析:MAPREDUCE(分布式运算编程框架)
22.以下选项中不属于MaxCompute特点的是(D)A:支持多种多种经典的分布式计算模型B:海量数据存储与计算C:保障数据安全、降低企业成本D:处理离线数据不能处理实时数据
23.智能分析套件QuickBl是一个专为云上用户是身打造的新—代智能BI服务平台。以下选项属于QuickBl数据可视化分析平台的优势的是(ABC)A:强大的Quick数据引擎B:快速搭建数据门户C:智能数据分析和交互D:安全管控不能设置权限
解析:安全管控设置权限
24.系统日志数据一般是由业务系统在运行过程中产生的,用于记录对数据源的操作,这些操作的记录以(B)的形式进行存储?A:数据库B:文本C:视频D:弹幕信息
解析:日志数据一般以文本方式存储,以.log结尾的文本文件
25.关系型数据库中,表中的数据是以行和列的形式来存储的,以下选项中关于行与列的特点描述正确的是?(A)A:同一列数据项具有相同数据类型B:每一行的列是不固定的C:行数据的顺序不能任意D:可以有同名的字段名
解析:任何一列遵循范式,数据项不可再分,同一列数据具有相同的数据类型。每列字段的数据格式是固定的
26.随着大数据时代的发展,Hadoop生态圈组件越来越丰富。关于Hadoop生态圈组件Flume是(A)的框架。A:日志收集B:数据挖掘库C:分布式文件系统D:ETL工具
解析:日志收集工具
27.Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。它包含哪些核心模块(BCE)A:Hadoopcommon公共包B:Hadoop分布式文件系统(HDFS)C:HadoopYARND:Hadoop的分布式消息统E:HadoopMapReduce
解析:Hadoop的核心组件为:HDFS、MapReduce和Yarn。
28.在SparkStreaming工作机制中,集群管理器是哪个组件?(D)A:ReceiverB:ExecutorC:SparkContextD:ClusterManager
解析:集群管理器(clustermanager)包括HadoopYARN,ApacheMesos,以及Spark自带的一个简易调度器,叫做独立调度器。
29.随着大数据时代的发展,Hadoop生态圈组件越来越丰富。关于Hadoop生态圈组件MapReduce,描述正确的是(C)A:工作流引擎B:数据仓库C:分布式计算框架D:列式数据库
解析:分布式计算框架:MapReduce
30.数据总线DataHub服务基于阿里云自研的飞天平台,具有高稳定,低成本,(B),高吞吐的特点。A:高精度B:高可扩展C:高集成性D:高契合
31.Hadoop底层会维护多个数据副本,当某个节点出现故障后,也不会造成损失。上述文字体现了Hadoop的哪个特点?(C)A:高效率B:低成本C:高可靠D:高扩展
解析:“当某个节点出现故障后,也不会造成损失”体现了高可靠的特点
32.HBase的服务体系与Hoodoop类似也遵从的是主从结构,以下选项中那个是HBase的主节点(B)A:HRegionServerB:HMasterC:HregionD:MemStore
解析:主节点Hmaster
33.大数据的特征,由维克托迈尔-舍恩伯格和肯尼斯克耶编写的《大数据时代》中提出,下哪一个描述大数据的4V特征是错误的?"(C)A:Volume规模性B:Velocity数据变化快C:Value单位数据价值密度高D:Variety数据类型多
解析:大数据的4v特征主要包含规模性(Volume)、多样性(Variety)、高速性(Velocity)、价值性(Value)Value(价值密度低)
34.在NoSQL类型的数据库中,最适合用于批量处理和即时查询的是什么数据库?(D)A:关系型数据库B:文档型数据库C:图形型数据库D:列族数据库
解析:列存储:主要适合与批量数据处理和即时查询
35.数据清洗是指检测和纠正错误数据,它清洗的内容包含(ABC)A:缺失值处理B:异常值处理C:数据类型转换D:精确度检验
解析:数据清洗的内容包括:缺失值处理、数据类型转换、异常值处理以及数据排序
36.智能健康手环数据收集,体现了(D)的数据采集技术的应用。A:USB数据传输B:网络数据C:API接口D:传感器设备
解析:“智能健康手环”体现了传感器设备的应用
37.Hive的SQL执行流程中PhysicalPlanGenerator的作用是什么?(C)A:生成查询语句B:编译SQL语句C:将逻辑查询计划转化为物理计划D:分析查询条件
解析:将逻辑查询计划转成物理计划(physicalplangenerator)
38.在MaxCompute架构中,关于计算引擎说法正确的是(A)A:MaxCompute能处理离线数据与实时数据是一个流批一体的计算框架B:MaxCompute计算引擎是依赖Hadoop平台C:MaxCompute不支持SparkD:MaxComputeSQL支持事务、索引
40.传感器数据源有哪些应用场景?(AC)A:手机支付宝运动监测运动步数B:优酷网播放的视频C:智能穿戴记录睡眠情况D:ERP系统的存储数据
解析:传感器数据源以OpenTelemetry为核心,支持各类数据形态、设备/端、数据格式的采集,覆盖面足够“广”。
41.Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。体现了Hadoop的(C)特点A:高可用B:高扩展C:高效率D:高容错E:低成本
解析:高效性,Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。
42.NOSQL指的是非关系型的数据库,以下选项中属于NOSQL数据库分类的有(D)A:关系对象型B:层次数据库C:网状数据库D:列族数据库
解析:一般将NoSQL数据库分为四大类:键值(Key-Value)存储数据库、列存储数据库、文档型数据库和图形(Graph)数据库。
43.某超市分析销售数据时,发现一个奇怪的规律,尿布与啤酒两件毫无联系的商品却经常出现在同一个购物篮,后来经过调查,发现年轻的父亲在购买尿布的时候,顺便为自己买一瓶啤酒。这体现了哪种数据挖掘算法?(C)A:回归分析B:聚类C:关联规则D:分类
解析:关联规则挖掘:一种发现大量数据中事物(特征)之间有趣的关联的技术。典型应用是购物篮分析:找出顾客购买行为模式、发现交易数据库中不同商品(项)之间的联系
44.使用阿里云DataWorks产品进行数据开发,以下说法正确的是(ABC)。A:提供SQL格式化B:智能补齐C:关键字高亮D:不提供错误提示
解析:DataWorks的数据开发提供SQL格式化、智能补齐、关键字高亮、错误提示、SQL内部结构等人性化功能。
45.案例:政务数据中台汇聚了自然人、法人组织、城市资产、城市感知、行为事件、地理空间、宏观经济、自然资源、公共服务、电子证照十大主题政务数据,开展模型治理和数据清洗加工,事前以标准事项库为最佳实践优化地方事项库,事中提供统一的标准数据服务,事后对办件库分析得出优化点反过来丰富标准事项库,形成事前事中事后的闭环。政务数据中台基于政务行业数据模型及智能算法,助力各地政府快速构建数据智能应用,提升各地区各部门网上政务服务水平。该案例体现了大数据在(D)领域的应用。A:电商B:人工智能C:金融风险管控D:政府决策
解析:“提升各地区各部门网上政务服务水平”体现了大数据在政府决策领域的应用
46.传统的文件系统存储文件的方式已无法满足大数据时代海量数据的存储需求,分布式文件系统的出现可以让海量数据的存储更为高效、安全,以下选项中关于分布式文件系统描述正确的是?(A)A:把文件分布存储到多个计算机节点上,成干上万的计算机节点构成计算机存储集群B:把文件存储在一台电脑的不同硬盘里面,实现多副本备份C:一种高吞吐的分布式发布订阅系统D:分布式文件系统可以把文件存储到一台计算机上
解析:Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统Kafka是一种高吞吐量的分布式发布订阅消息系统分布式文件系统把文件分布存储到多个计算机节点上,成千上万的计算机节点构成集群
47.伴随互联网技术的发展,数据呈现出爆炸性增长。数据的存储单位从过去的GB到TB,甚至达到PB.EB。体现出大数据的(A)特征。A:Volume规模性B:Veracity准确性C:Velocity高速性D:Variety多样性E:Value价值性
解析:数据的存储单位变化,体现了规模性的特征
48.物联网可以利用射频识别、二维码、智能传感器等感知设备感知获取物体的各类信息。体现了物联网的(A)特点A:整体感知B:智能处理C:可靠传输D:挖掘分析
解析:整体感知—可以利用射频识别、二维码、智能传感器等感知设备感知获取物体的各类信息。
49.HDFS是开源分布式文件系统,用于(A)。是整个Hadoop生态中的重要组件之一。A:文件的存储与管理B:完成计算功能C:资源调度D:实时数据处理
解析:HDFS是Hadoop分布式文件系统,它是Hadoop生态系统中的核心项目之一,是分布式计算中数据存储管理基础
50.QuickBI可以提供海量数据实时在线分析服务,支持(A)和丰富的可视化效果,帮助用户轻松自如地完成数据分析、业务数据探查、报表制作等工作。A:拖拽式操作B:点击式操作C:后台调用操作D:语音式操作
解析:QuickBI可以提供海量数据实时在线分析服务,支持拖拽式操作和丰富的可视化效果,帮助您轻松自如地完成数据分析、业务数据探查、报表制作等工作。
51.数据采集的目的需要明确,带着问题去搜集信息,使得信息采集更(A)、更有针对性。A:高效B:简单C:复杂D:一致
解析:明确采集目的,带着问题搜集信息,使信息采集更高效、更有针对性
52.年会将至,小丽需要对公司整年的运营数据做可视化汇总展示,为使可视化效果更真更美,小丽需要考虑哪些(ABDEF)因素。A:遵循美学原则,构图美,布局美,色彩美B:合理地构建空间感与元素的精致感C:避免使用动画效果,影响可视化的直观感D:数据到可视化的直观映射E:恰当的可视化交互F:合理的信息密度筛选
54.阿里云检索分析服务Elasticsearch是100%兼容开源的分布式检索、分析套件,提供Elasticsearch、Kibana、Logstash、Beats等开源全托管的产品服务能力,那么下列哪项(D)不属于Elastisearch特性。A:读写分离、存算分离B:弹性伸缩C:智能化运维D:收费的X-Pack高级商业特性
解析:阿里云检索分析服务Elasticsearch是100%兼容开源的分布式检索、分析套件。提供Elasticsearch、Kibana、Logstash、Beats等开源全托管的产品服务能力。为结构化/非结构化数据提供低成本、高性能及可靠性的检索、分析平台级产品服务。具备读写分离、存算分离、弹性伸缩、智能化运维、免费的X-Pack高级商业特性等产品特性。
55.使用Flume采集系统日志数据时,当节点出现故障后,Flume能够日志传送到其他节点上而不会丢失。这体现了Flume的哪个特点(A)A:可靠性B:可扩展性C:可管理性D:社区活跃
解析:可靠性好:当节点出现故障时,日志能够被传送到其他节点上而不会丢失
解析:企业业务数据、网络数据、系统日志数据、传感器数据
57.关于Kafka的使用场景描述正确的是(C)。A:Kafka是消息订阅系统,只能做消息转发B:日志采集场景只能使用Flume工具采集C:用户活动跟踪场景适合使用kafka框架来解决D:Kafka是消息订阅系统,不能用于数据采集
解析:ApacheKafka是一个分布式的发布-订阅消息系统,能够支撑海量数据的数据传递。Kafka通常用于运行监控数据。
解析:大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。
60.云计算和大数据有哪些区别?(B)A:大数据是一种互联网的虚拟资源存贮,云计算总的来说是一种信息资产B:云计算的价值则是能帮助企业等压缩其成本,起到节约效果。在庞大的数据中挖掘其中有效、有价值的信息这就是大数据的价值C:大数据的出现在于用户服务需求的增长,及企业处理业务能力的提高,云计算的出现在于用户和社会各行各业所产生大的数据呈现几何倍数的增长D:大数据处理的对象是互联网资源和应用,云计算处理的对象是数据
解析:大数据和云计算的区别:1、首先云计算面对的是互联网资源和应用等,而大数据面对的是数据。2、云计算则是一种互联网的虚拟资源存贮,而大数据总的来说是一种信息资产。3、云计算的出现在于用户服务需求的增长,及企业处理业务能力的提高,大数据的出现在于用户和社会各行各业所产生大的数据呈现几何倍数的增长。4、云计算注重资源分配,可以大量节约成本,是硬件资源的虚拟化,而大数据在于发掘数据的有效信息,海量数据的高效处理。
61.网络爬虫又称为网络机器人、网络蜘蛛,也可以称它是一种(A)工具A:从互联网自动提取网页中数据的工具B:一种病毒软件C:沉迷于网络有网瘾的人的代称D:以上都不对
解析:网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
62.下面哪一个是属于Spark的分布式图处理框架?(A)A:GraphXB:DremelC:ImpalaD:DStream
64.数据挖掘中的一种算法类型为聚类,数据挖掘中()是最常用的聚类算法。(C)A:RNN算法B:CNN算法C:K-Means算法D:FP-Growth算法
解析:K-means算法是一种最基本的基于距离的划分的聚类算法,为十大数据挖掘算法之一。RNN和CNN算法则主要用于深度学习领域,而FP-Growth算法则主要用于频繁项集挖掘和关联规则挖掘
65.阿里的“淘宝小贷,通过对贷款客户、供应商、经营信用等全方位的评估,就可以在没有见面情况下给客户放款,这需要在海量的数据中判断客户的信用。在大数据应用中有效客户量或数据量,并不是数据越大这个值越高,而是反比。体现了大数据的(E)特征。A:Volume规模性B:Veracity的准确性C:velocity高速性D:Variety多样性E:Value价值性
解析:在大数据应用中有效客户量或数据量,并不是数据越大这个值越高,而是反比,体现了价值性
66.开源大数据开发平台E-MapReduce(简称EMR),是运行在阿里云平台上的一种(C)的系统解决方案。A:大数据集成B:大数据采集C:大数据处理D:大数据挖掘
67.数据采集全面性是指在根据某一需求分析数据时,需要采集的数据(C)、数据(D),才能准确进行分析。A:简单精确B:类型相同C:量足够多D:面涉及广
解析:采集的全面性:采集的数据量足够大具有分析价值、数据面足够支撑分析需求。
68.Hive的SQL执行流程依次为Parser、SemanticAnalyzer、LogicalPlanGenerator、LogicalOptimizer、PhysicalPlanGenerator、PhysicalPlanOptimizer。其中步骤Parser的作用是?(A)A:将SQL转换成抽象语法树B:将抽象语法树转换成查询块C:将查询块转换成逻辑查询计划D:重新逻辑查询计划
解析:Parser:将SQL解析为AST(抽象语法树)
69.在数据可视化的设计步骤中,数据核对及处理,属于数据可视化设计的哪一个步骤(A)A:数据准备B:主题确认C:图表选择D:数据可视化
解析:数据核对及处理,属于数据准备阶段
70.在大数据开发的流程中,以下哪个选项符合数据挖掘的概念(B)A:数据分析就是数据挖掘,只是说法不一样,两者在广义与狭义中,表达的都是同一个意思B:从大量的数据中通过算法搜索隐藏于其中信息的过程C:将异构数据的数据汇集在一起D:从大量的数据中别除含噪声的数据
解析:数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。
71.Hive的SQL执行流程依次为Parser、SemanticAnalyzer、LogicalPlanGenerator、LogicalOptimizer、PhysicalPlanGenerator、PhysicalPlanOptimizer。其中步骤Parser的作用是?(A)A:将SQL转换成抽象语法树B:将抽象语法树转换成查询块C:将查询块转换成逻辑查询计划D:重新逻辑查询计划
解析:Parser:将SQL解析为AST(抽象语法树)。
72.数据采集(DAQ)别名是什么?(B)A:数据存储B:数据获取C:数据分析D:数据库数据
解析:数据采集(DAQ),又称数据获取。
73.在大数据开发的流程中,数据分析主要是发现隐藏在数据中的价值。下列关于数据分析的概念,描述正确的是?(C)A:常用的数据分析方法不包括传统的分析算法B:数据分析主要使用的是机器学习算法C:数据分析是根据分析目的,用适当的统计分析方法及工具,对收集来的数据进行处理与分析,提取有价值的信息,发挥数据的作用D:数据分析就是数据挖掘,只是说法不一样,两者在广义与狭义中,表达的都是同一个意思
解析:数据分析是指根据分析目的,用适当的统计分析方法及工具,对收集来的数据进行处理与分析,提取有价值的信息,发挥数据的作用。
74.数据采集中,采集的数据分为离线数据和实时数据,其中属于实时数据的有(C)A:数据库数据T+1采集B:业务数据每小时采集并分析C:传感器设备数据通过datahub传输D:网络数据定时爬取
解析:对采集来说实时数据和采集方式有关,和业务系统生产方式有关;数据库数据如果是通过binlog等方式实时拉取业务数据通过实时采集方式入湖也属于实时采集,但是定时或T+1是非实时采集传感器数据通过实时采集手段实时入湖为实时采集数据爬取可以是实时也可以定时。
75.随看大数据时代的发展,Hadoop生态圈组件越来越丰富。关于Hadoop生态组件ZooKeeper,描述正确(A)A:用于分布式应用的高性能协调服务B:是一种支持ApacheHadoop集昨的安装、部署、配置和管理的工具C:是一种用于在HDFS和RDMS之问传输数据的工具D:是一个基于工作流引整的开源框架,提供对Hadoop、MapReduce和PigJobs的任务调度与协调E:是大数据集日志收集的框架
解析:ZooKeeper是一个用于分布式应用的高性能协调服务。
76.在数据可视化的设计步骤中,明确业务需求属于数据可视化设计的哪一个步骤?(B)A:数据准备B:主题确认C:图表选择D:数据可视化
解析:确定数据可视化的主题:根据实际业务需求来确定可视化的目的,做可视化之前要先知道为什么要做。
77.数据可视化指使用点、线、图表、统计图或信息图表等工具对数据进行编码,在视觉上传达定量信息。以下哪一选项是数据可视化的设计步骤(B)A:数据准备一主题确认一图表选择一数据可视化B:主题确认一数据准备一图表选择一数据可视化C:主题确认一图表选择一数据准备一数据可视化D:数据准备一图表选择一主题确认一数据可视化
解析:确定数据可视化的主题;提炼可视化主题的数据;根据数据关系确定图表;进行可视化布局及设计;
78.使用Datav进行数据可视化开发的过程中,需要了解Datav的操作流程,下面那一项属于DataV正确的操作流程(A)A:准备工作一创建可视化应用一添加并配置可视化组件一调整组件图层位置一预览并发布可视化应用B:准备工作一创建可视化应用一调整组件图层位置一添加并配置可视化组件一预览并发布可视化应用C:添加并配置可视化组件一准备工作一调整组件图层位置一预并发布可视化应用D:准备工作一调整组件图层位置一创建可视化应用一添加井配置可视化组件一预览并发布可视化应用
80.HBase框架是Hadoop生态的一个重要组成部分,主完成海量数据的存储与线上业务的实时查询,HBase框架数据存储依赖以下哪个组件(B)A:NTFSB:HDFSC:GFSD:Memory
解析:HBase数据存储依赖于HDFS。81.阿里云大数据体系中,下列哪个服务是属于数据加工和可视化分析工具?(B)A:大数据计算服务MaxComputeB:QuickBI数据可视化分析平台C:实时计算Flink版D:云原生数据仓库(分析型数据库)AnalyticDB
82.阿里云的云计算提供了多种服务模式,其中平台层使用的是(B)A:SaasB:PaasC:laasD:全部本地布署
解析:PAAS平台即(Platform-as-a-Service:平台即服务)
83.Hive的SQL执行流程依次为Parser、SemanticAnalyzer、LogicalPlanGenerator、LogicalOptimizer。PhysicalPlanGenerator、PhysicalPlanOptimizer。其中步骤LogicalPlanGenerator的作用是(C)A:将SQL转换成抽象语法树B:将抽象语法树转换成查询块C:将查询块转换成逻辑查询计划D:重新逻辑查询计划
解析:LogicalPlanGenerator:将查询块转换成逻辑查询计划
解析:DataV支持多屏拼接,针对拼接大屏端的展示做了分辨率优化,能够适配非常规拼接情况下的分辨率优化
86.聚类算法与分类算法是数据挖掘算法中极其容易混淆的两种算法,两者之间,存在一定的相似性,同时也存在明显的差异性。下面关于聚类和分类的说法正确的是?(D)A:聚类有标签,分类无标签B:聚类有目标,分类无目标C:聚类有标签,分类有标签D:聚类无标签,分类有标签
解析:聚类无标签是无监督学习,分类有标签是监督学习,聚类的目标是将数据分组,而分类的目标是将数据分类。
87.以下哪个选项符合属于分布式文件系统,且适合运行在通用硬件上?(B)A:NFSB:HDFSC:GlusterFSD:Ceph
解析:HDFS(HadoopDistributedFileSystem)Hadoop分布式文件系统,适合运行在通用硬件上做分布式存储和计算
88.云计算和大数据的关系密不可分,关于云计算和大数据的区别,描述正确的是?(D)A:大数据处理的对象是互联网资源和应用,云计算处理的对象是数据B:大数据是一种互联网的虚拟资源存贮,云计算总的来说是一种信息资产C:大数据的出现在于用户服务需求的增长,及企业处理业务能力的提高,云计算的出现在于用户和社会各行各业所产生大的数据呈现几何倍数的增长D:云计算的价值则是能帮助企业等压缩其成本,起到节约效果。在庞大的数据中挖掘其中有效、有价值的信息这就是大数据的价值
89.关系数据库(RelationalDatabase)是数据按关系模型来组织数据的数据库。主要用于存储(A)。A:结构化数据B:半结构化数据C:非结构化数据D:结构化数据和非结构化数据
解析:关系型数据库存储的是结构化数据
90.数据可视化可以通过图表显示多维展示,它能体现出(D)优势?A:图形表现B:分析视角C:数据清晰D:多维展示
解析:"通过图表更容易对数据进行分类、排序显示"体现了多维展示的特点
91.根据颜色的不同来反映不同区域的降水量,这是数据可视化在什么学科上的应用?(C)A:区域地理学B:可视性分析学C:空间可视化D:信息学
解析:“根据颜色不同来反映不同区域的降水量”体现了空间可视化
92.下列关于HDFS的描述,正确的有?(A)A:Hadoop分布式文件系统(HadoopDistributedFileSystem,HDFS)分布式文件系统,完成数据分布式存储,具有高容错性和可扩展性的特点B:是一种通过网络实现文件在多台主机上进行存储的文件系统,但数据安全性不能得到保证C:分布式文件系统都是采用“客户机/服务器"一主多从D:谷歌开发了分布式文件系统HDFS
解析:HDFS(HadoopDistributedFileSystem)Hadoop分布式文件系统,适合运行在通用硬件上做分布式存储和计算Hadoop是ApacheLucene创始人DougCutting开发的使用广泛的文本搜索库。它起源于ApacheNutch,后者是一个开源的网络搜索引擎,本身也是Luene项目的一部分。AapcheHadoop架构是MapReduce算法的一种开源应用,是Google开创其帝国的重要基石。GFS(GoogleFileSystem):Google公司为满足公司需求而开发的基于Linux的可扩展的分布式文件系统
93.下列选项中符合数据挖掘概念的是(D)?A:将异构数据源的数据汇集在一起B:从大量的数据中剔除含噪声的数据C:数据分析就是数据挖掘,只是说法不一样,两者在广义与狭义中,表达的都是同一个意思D:从大量的数据中通过算法搜索隐藏于其中信息的过程
解析:数据分析和数据挖掘本质上来说其实并不冲突,两者可以说的上是相辅相成的。数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。
94.Sqoop是Hadoop生态圈组件中的什么?(C)A:数据分析工具B:数据库引擎C:ETL工具D:BI工具
解析:Sqoop是一款apache旗下的“hadoop和关系型数据库数据传输”工具。
95.HBase是一个分布式的、面向列的开源数据库,源于(A)的一篇论文《BigTable:一个结构化数据的分布式存储系统》A:GoogleB:OracleC:ApacheD:Microsoft
解析:HBase是一个分布式的、面向列的开源数据库,源于google的一篇论文《bigtable:一个结构化数据的分布式存储系统》
96.关于网络爬虫爬取网页的步骤,包含如下哪些选项(ABC)A:获报网页B:提取信息C:保存数据D:手动提取
解析:获取网页、解析网页以及存储数据
98.在Spark架构中,负责SQL解析的组件是(A)A:SQLParserB:CacheMgrC:catalystD:Execution
解析:SparkSqlParser:SparkSQL的sqlParser,将SQL解析为LogicalPlan
99.网络爬虫是一种通过既定规则,自动抓取网页信息的程序,它的常见分类有(ABCD)。A:通用网络爬虫B:聚集网络爬虫C:增量式网络爬虫D:深层网络爬虫E:随机型爬虫
解析:网络爬虫按照系统结构和实现技术,大致可以分为以下几种类型:通用网络爬虫(GeneralPurposeWebCrawler)、聚焦网络爬虫(FocusedWebCrawler)、增量式网络爬虫(IncrementalWebCrawler)、深层网络爬虫(DeepWebCrawler)。实际的网络爬虫系统通常是几种爬虫技术相结合实现的。
100.阿里云实时数仓Hologres属于阿里云大数据产品体系中的哪一类产品(A)A:大数据计算与分析B:大数据工具与服务C:大数据分析与可视化D:智能搜索与推荐
101.阿里云DataWorks是数据上云下云的枢纽,致力于提供复杂网络环境下、丰富的(B)之间高速稳定的数据移动及同步能力。A:关系型数据库B:异构数据源C:NosQLD:非结构化存储
102.Logstash是一款开源的数据收集引擎,具有实时管道处理能力。Logslash数据处理流程由几部分组成。(ABC)A:InputB:FilterC:OutputD:Kibana
解析:logstash数据处理过程包括三个部分:input、filter、output
103.阿里云的云计算提供了多种服务模式,其中基础设施使用的是(C)A:SaaSB:PaasC:laasD:全部本地布署
解析:IaaS:Infrastructure-as-a-Service(基础设施即服务)
104.进行数据清洗时,针对于不同的情况和场景需要选择不同的方法,以下关于清洗内容的描述正确的是(ABC)A:缺失值处理是由于调查、编码和录入的误差,数据中可能存在一些缺失值,需要给予适当的处理B:异常值处理是指根据每个变量的合理取值范围和相互关系,检查数据是否合乎要求,发现超出正常范围、逻辑上不合理或者相互矛盾的数据C:数据类型转换是指数据类型不一致,影响到后续的数据处理分析环节,因此,需要明确每个字段的数据类型,并做统一处理D:数据中可能存在重复记录或重复字段(列),对于这些重复项目(行和列),只需要删除所有重复行
解析:缺失值处理是指由于调查、编码和录入误差,数据中可能存在一些无效值和缺失值,需要给予适当的处理;异常值处理是指根据每个变量的合理取值范围和相互关系,检查数据是否合乎要求,发现超出正常范围、逻辑上不合理或者相互矛盾的数据;数据类型转换是指数据类型往往会影响到后续的数据处理分析环节,因此,需要明确每个字段的数据类型,在数据清洗的时候就需要对二者的数据类型进行统一处理。重复值处理是指重复值的存在会影响数据分析和挖掘结果的准确性,所以,在数据分析和建模之前需要进行数据重复性检验,如果存在重复值,还需要进行重复值的删除。
105.在大数据生态体系的数据处理中,有两种计算引擎MapReduce与Spark,两种计算引擎在数据处理的流程中有着本质区别,下面选项中关于这两种引擎说法正确的是?(BD)A:MapReduce做数据计算时,首先会从文件系统读取文件,后续为了提升计算效率,会将第一次读取的数据存入内存中,方便后续计算从内存中读取B:Spark做数据计算时,首先会从文件系统读取文件,后续为了提升计算效率,会将第一次读取的数据存入内存中,方便后续计算从内存中读取C:MapReduce跟Spark相比,处理速度更快D:MapReduce做数据迭代计算时,必须从文件系统中,不停的读取写入,以完成计算
解析:MapReduce计算框架是基于磁盘的,做数据迭代计算时,必须从文件系统中,不停的读取写入,以完成计算,IO开销大,效率低,但适用于大数据量Spark计算框架是基于内存的,首先会从文件系统读取文件,后续为了提升计算效率,会将第一次读取的数据存入内存中,方便后续计算从内存中读取,基于内存计算IO开销小,内存消耗大,适用于相对小数据量,计算效率要求较高的场景
106.Mahout是ApacheSoftwareFoundation(ASF)旗下的一个开源项目,提供一些可扩展的(B)领域经典算法的实现,旨在帮助开发人员更加方便快捷的实现算法,创建只能应用程序。A:人工智能B:机器学习C:云计算D:数据分析
解析:Mahout是ApacheSoftwareFoundation(ASF)旗下的一个开源项目,提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。
107.临近年终,小明在制作年终总结PPT时,发现表格列属性由月份、行属性计划销售额和实际销售额组成不够美观,更不够直观,如果你是小明,你会怎么做(A)。A:插入柱状图B:插入散点图C:插入直方图D:插入瀑布图
解析:数据可视化常用图表,更直观的体现数据属性,柱状图是的主要作用是将多个或者2个以上的在同一条件下,进行数据值的比较以此来判断多个数据值哪些数据值相对比较大或相对比较小
108.阿里云QuickBI数据可视化分析平台提供了8种主要组件,比较、趋势、表格、指标、时序、空间、关系和(D)A:画布B:媒体C:素材D:分布
解析:阿里云QuickBI数据可视化分析平台提供了8种主要组件,比较、趋势、表格、指标、时序、空间、关系和分布,每个组件都有自己的适用场景和独特优势
109.下列哪一项(D)不是机器学习深度学习领域常用的框架。A:tensorflowB:torchC:sklearnD:jupyter
解析:jupyter不是框架,是交互式python环境
110.MaxCompute的存储和计算独立扩展,支持企业将全部数据资产在一个平台上进行联动分析,消除数据孤岛;实时根据业务峰谷变化来分配资源。上述文字体现了MaxCompute在大数据处理与分析中的(A)作用?A:弹性能力与扩展型B:集成AI能力C:支持流式采集和近实时分析D:数据存储能力
111.HBase依赖(A)提供消息通信机制,在Master和RegionServers之间协调、通信和共享状态。A:ZookeeperB:SocketC:TCP/IPD:ActiveMQ
解析:在HBase中,ZooKeeper在Masters和RegionServers之间协调、通信和共享状态。
112.使用阿里云DataWorks进行实时数据同步时,在单表增量实时数据同步配置的步骤是(A)。A:创建单表实时同步节点一配置资源组一配置单表实时同步任务一提交并发布实时同步任务B:创建单表实时同步节点一配置单表实时同步任务一配置资源组一提交并发布实时同步任务C:创建单表实时同步节点一配置资源组一提交并发布实时同步任务一配置单表实时同步任务D:创建单表实时同步节点一提交并发布实时同步任务一配置资源组一配置单表实时同步任务
113.Flume是一个分布式、高可靠、高可用的服务,它是用于分布式的什么框架?(B)A:网络数据收集B:日志收集C:企业业务数据收集D:传感器数据收集
解析:Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。
114.K-Means是典型的基于划分的聚类算法,下列描述基于划分的概念正确的是?(C)A:一种基于网格的具有多分辨率的聚类方法B:通过稀疏区域来刻分高密度区域以发现明显的聚类和孤立点,主要用于空间型数据的聚类C:通过构造一个迭代过程来优化目标函数,当优化到目标函数的最小值或极小值时,可以得到数据集的一些不相交的子集,通常认为此时得到的每个子集就是一个聚类D:使用一个距离矩阵作为输入,经过聚类后得到一个反映该数据集分布状况的聚类层次结构图
解析:基于划分的聚类算法通过构造一个迭代过程来优化目标函数,当优化到目标函数的最小值或极小值时,可以得到数据集的一些不相交的子集,通常认为此时得到的每个子集就是一个聚类。
115.下列关于Hadoop生态组件Flume的概念,说法正确的是?(A)A:是Apache下的一个项目,支持在日志系统中定制各类数据发送方,用于收集数据B:是一种支持ApacheHadoop集群的安装、部署、配置和管理的工具C:是一种基于Web的工具,支持ApacheHadoop集群的安装、部署、配置和管理D:是一个用于在Hadoop和关系数据库之间传输数据的工具
解析:ZooKeeper是一个用于分布式应用的高性能协调服务ApacheAmbari是一种基于Web的工具,支持ApacheHadoop集群的安装、部署、配置和管理Sqoop是一个用于在Hadoop和关系数据库之间传输数据的工具Flume最早是Cloudera提供的日志收集系统,是Apache下的一个孵化项目,Flume支持在日志系统中定制各类数据发送方,用于收集数据。
116.(C)指对本地资源库中,已下载的网页数据进行增量式更新,运行过程中只爬行新产生页面或内容发生变化的网页,需要对网页的重要性进行排序。A:通用网络爬虫B:聚集网络爬虫C:增量式网络爬虫D:深层网络爬虫
解析:增量式网终爬虫(IncrementalWebCrawler)是指对已下载的网页采取增量式更新,只抓取新产生或者已经发生变化的网页的网络爬虫。
117.Kafka是一种高吞吐量的分布式发布订阅消息系统,一般对日志数据和实时数据进行处理,它的优点是(D)。A:支持一个生产者B:支持一个消费者C:不支持分布式D:支持broker的横向扩展
解析:Kafka优点:支持多个生产者和消费者;支持broker的横向拓展;
118.在Hadoop中,HDFS组件的DataNode节点有什么作用?(B)A:支配其它节点B:保存数据的作用C:管理其它节点D:降低数据丢失的风险
解析:文件的各个block的具体存储管理由datanode节点承担。
119.下列关于回归分析的用法,描述不正确的是?(D)A:在大数据分析中,回归分析常用于预测分析,主要研究自变量与因变量的关系B:回归分析指的是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法C:回归分析就是通过一定变量或一些变量的变化解释另一变量的变化D:按因变量的多少,回归分析都只有简单回归分析
解析:按照因变量的多少,可分为简单回归分析和多重回归分析。
120.为大数据提供了技术基础,大数据为其提供用武之地。上述是哪项技术?(C)A:内存计算机B:网络计算机C:云计算D:并行计算
解析:云计算为大数据提供了技术基础,大数据为云计算提供了用武之地。
122.Flink在大数据处理与分析中的作用不包含(B)?A:实时推荐B:实时存储C:实时反作弊D:实时IOT数据分析
解析:Flink的功能有:实时数仓、实时ETL、实时反作弊、实时监测、实施推荐、实时IoT数据分析,Flink是实时处理引擎,不进行数据存储
123.数据采集是指使用技术手段进行(A)?A:数据收集B:数据存储C:数据分析D:数据挖掘
解析:数据采集是指对目标领域、场景的特定原始数据进行采集的过程。
124.Hadoop在底层维护多个数据副本,使应用运行稳定运作。这是Hadoop的(C)特点。A:安全性B:易扩展C:高可靠D:高效率
解析:“使应用运行稳定运作”体现了高可靠的特点
125.以下属于分布式文件系统的是哪个文件系统?(B)A:FAT32B:GFSC:NTFSD:EXT6
解析:GFS(GoogleFileSystem)是Google公司专为满足公司需求而开发的基于Linux的可扩展的分布式文件系统,用于大型的、分布式的、对大数据进行访问和应用,成本低,应用于廉价的普通硬件上。
126.大数据的5V特征及其与《大数据时代》一书中提出的“4V”特征的区别(D)A:Volume规模性B:Velocity高速性C:Variety多样性D:Veracity准确性E:Value价值性
解析:大数据的5v特征包括容量(Volume)、速率(Velocity)、多样性(Variety)和真实性(Veracity)以及价值(Value),区别于4V(容量,速率,多样性,价值),多了一项(Veracity)准确性。
127.HDFS主要采用主从结构模型,主节点负责数据请求与元数据的保存,以下选项中哪个节点负责数据存储?(C)A:NameNodeB:JobtrackerC:DataNodeD:SecondaryNameNode
解析:DataNode负责存储数据的,提供真实文件数据的存储服务。
128.下列选项中属于阿里云数据可视化产品是?(AB)A:QuickBIB:DataVC:DataXD:DataIntegration
解析:数据可视化DataV是阿里云一款数据可视化应用搭建工具;QuickBI通过智能的数据分析和可视化能力帮助企业构建数据分析系统数据集成(DataIntegration)DataX是异构数据源离线同步的工具
129.数据采集的技术有许多种,下列选项中不是采集技术的是(D)A:Sqoop采集技术B:Flume采集技术C:网络爬虫技术D:MapReduce处理技术
解析:大数据的并行处理利器——MapReduce
130.随着时代的发展,业务中需要保存的数据量成倍增长,传统的文件系统已不能满足业务发展的需要,而分布式文件系统的出现可以解决以下哪个向题(A)A:存储扩展B:数据压缩C:文件查找D:文件命名
解析:存储扩展
131.案例:当用户在国外某地进行一笔5万块的线上交易,从风控模型库中读取相应的风控模型集合中对用户的额度和交易地点进行判断,从风控数据库中拿到的用户征信信息中,用户的额度为10万,但是上次交易发生在1个小时前,且地点为国内,那么额度判断PASS,交易地点判断FAIL,那么此次交易有盗刷或者欺诈嫌疑,系统则判定此次交易失败。该案例体现了大数据在(C)领域的应用。A:电商B:人工智能C:金融风险管控D:政府决策
解析:体现了在金融风险管控的应用
132.在数据预处理过程中,数据集成的方法有三种,以下正确的是(ACD)A:联邦数据库B:数据删除C:中介者D:数据仓库
解析:数据集成的一般方法可以概括为联邦式、中间件式、数据仓库模式等。
133.关于HDFS的特性,下列说法错误的是(D)A:数据分布式存储B:强大的跨平台兼容性C:兼客廉价的硬件设备D:多次写入、多次读取
解析:HDFS的模式是一次写入多次读取
134.数据分析与数据挖掘的概念是容易被混淆。下列选项中,正确描述数据分析与数据挖掘之间的关系的是?(ABC)A:数据分析强调结果,数据挖掘强调过程B:数据分析目标明确,根据目标做出假设,得出结论。数据挖掘是寻找数据末知的模式与规律C:数据分析常采用数学分析的方法,如对比分析、回归分析、交叉分析等。数据挖掘主要采用统计学、机器学习等常用方法挖掘数据D:数据分析是输出模型或规则,根据模型应用。数据挖掘是得到己知的指标预测值,根据预测值跟业务结合,发挥数据价值
解析:数据分析一般都是得到一个指标统计量结果,如总和、平均值等,这些指标数据都需要与业务结合进行解读,才能发挥出数据的价值与作用。数据挖掘输出模型或规则,并且可相应得到模型得分或标签数据分析目标明确,根据目标做出假设,得出结论。数据挖掘是寻找数据未知的模式与规律数据分析常采用数学分析的方法,如对比分析、回归分析、交叉分析等。数据挖掘主要采用统计学、机器学习等常用方法挖掘数据
135.网络爬虫由控制节点、爬虫结点、资源库构成,以下关于网络爬虫特性的描述正确的有(ABD)。A:网络爬虫中可以有多个控制节点B:每个控制节点下可以有多个爬虫节点C:多个控制节点间不允许相互通信D:多个爬虫节点间可以进行互相通信
解析:网络爬虫中可以有多个控制节点;每个控制节点下可以有多个爬虫节点,控制节点之间可以互相通信;控制节点和其下的各爬虫节点之间也可以进行互相通信,属于同一个控制节点下的各爬虫节点间,亦可以互相通信。
136.MapReduce是一个分布式运算程序的编程框架,下面对MapReduce描述正确的是(ABD)。A:MapReduce的核心为Map函数和Reduce函数B:MapReduce用于大规模数据集的并行运算C:MapReduce不需要应用开发者编写程序来实现功能D:MapReduce设计理念就是“计算向数据靠拢”
解析:MapReduce主要是依靠开发者通过编程来实现功能的
137.使用QuickBl进行数据可视化开发的过程中,需要了解QuickBl的操作流程,下面哪一项属于QuickBl正确的操作流程(C)A:准备工作-数据建模一连接数据源一数据可视化分析一发布共享B:准备工作一连接数据源一数据可视化分析一数据建模一发布共享C:准备工作一连接数据源-数据建模一数据可视化分析一发布共享D:准备工作一数据可视化分析-连接数据源-数据建模一发布共享
138.在进行数据预处理时,经常会遇到异常值,下列选项中处理异常值的方法有(ABC)A:删除含有异常值的记录B:将异常值视为缺失值,交给缺失值处理方法类处理如插补的方法C:用平均值来修正D:所有异常值不能删除
解析:异常值的的处理有删除含有异常值的观测(直接删除,当样本少时直接删除会造成样本量不足,改变变量的分布)、当作缺失值(利用现有的信息,对其当缺失值填补)、平均值修正(用前后两个观测值的均值修正该异常值)、不处理。
139.图比文本或电子表格更容易理解,人脑对视觉信息的处理速度要比书面信息快很多。这体现了数据可视化的哪个优势(B)A:传播速度快B:数据更直观C:多维展示D:容易记忆
解析:数据更直观:图比文本或表格更加直观呈现
140.在进行数据清洗时,每个步骤有对应的注意事项。以下选项中,步骤和注意事项匹配的有(ABCE)。A:数据清洗时先处理缺失值、异常值和数据类型转换,最后进行重复值的处理B:对缺失值和异常值处理时,一般根据业务需求进行填充,进行统计值填充、前/后值填充、零值填充C:在数据清洗之前,要明确表的结构和发现需要处理的值,方便数据清洗的更彻底D:数据量大且异常数据量也较大时,可直接删除异常数据:数据量小,则每个数据都可能影响分析结果,需要认真去对异常数据进行处理E:确保数据表的每列都进行清洗
解析:如果总数据量较大,而异常的数据(包括缺失值和异常值)的量较少时可以选择直接删除处理,因为这并不太会影响到最终的分析结果;但是如果总数据量较小,则每个数据都可能影响这分析的结果,这时候就需要费心思去对数据进行处理(可能需要通过其他的关联表去找到想过数据进行填充)
141.Databricks数据洞察(简称DDI)是基于ApacheSpark的全托管大数据分析平台。下列选项中,属于Databricks数据洞察特点的是?(ABC)A:高效稳定B:批流一体C:协同分析D:数据隔离
142.阿里云机器学习PAI平台致力于让公司内部开发者更高效、简洁、标准地使用人工智能AI(ArtificialIntelligence)技术,下列关于PAI平台描述不正确的是(B)。A:PAI底层支持多种计算框架,如流式计算框架Flink,深度学习框架TensorFlowB:PAI平台服务不支持组合使用C:PAI平台提供可视化建模和分布式训练PAI-Designer服务D:PAI平台可以对接DataWorks,支持SQL、UDF、UDAF、MR等多种数据处理方式,灵活性高
解析:支持一站式机器学习,只要准备好训练数据(存放到OSS或MaxCompute中),所有建模工作(包括数据上传、数据预处理、特征工程、模型训练、模型评估和模型发布至离线或在线环境)都可以通过PAI实现
143."手淘"已经成为淘宝网最大的流量入,每天服务数亿用户,成交量仅次于搜索,成为了淘宝网成交量第二大入口。上述案例体现了大数据在什么领域的应用。(A)A:电商B:人工智能C:金融风股管控D:政府决策
解析:手淘已经成为淘宝网最大的流量入口,每天服务数亿用户,成交量仅次于搜索,成为了淘宝网成交量第二大入口,该案例体现了大数据在电商领域的应用。
144.聚类将一组数据根据数据的相似性和(B)分成几个类别,同一类别的数据相似性很大,不同类之间的数据关联性很低。A:连续性B:差异性C:间断性D:类推性
解析:聚类将一组数据根据数据的相似性和差异性分成几个类别,同一类别的数据相似性很大,不同类之间的数据关联性很低。
145.在大数据分析处理中,批处理计算是最常使用的一种方式,其解决了大批量数据的批量计算问题,其代表的产品(A)已经被广泛用于大数据应用中。A:MapReduceB:StormC:PregelD:Hive
解析:批处理计算:批处理计算是最常见的一类数据处理方式,主要用于对大规模数据进行批量的处理,其代表产品有MapReduce和Spark等
146.流处理系统与传统数据处理系统有什么区别?(D)A:传统数据处理系统,处理的是存储在硬盘上的静态数据B:流处理系统需要自主查询C:传统数据处理系统是自主推送数据D:流处理系统处理实时数据
解析:流处理系统和传统的数据处理系统的区别:1、流处理系统处理的是实时的数据,而传统的数据处理系统处理的是预先存储好的静态数据。2、用户通过流处理系统获取的一般是实时结果,而传统的数据处理方式获取的都是过去某一个历史时刻的快照。3、流处理系统不需要用户主动发出查询,它会实时地把生成的查询结果不断的推动给用户。
解析:MapReduce的缺点:1、无法在毫秒或秒级内返回结果;2、输入数据集是动态的,不能动态变化;3、每次作业后输出结果都会写入磁盘、会造成大量磁盘IO,导致性能低下
解析:“能够快速获取信息”说明了数据更直观。
149.下列属于NoSQL数据库的分类有(C)?A:层次数据库B:关系对象型C:列族数据库D:网状数据库
解析:一般将NoSQL数据库分为四大类:键值(Key-Value)存储数据库、列存储数据库、文档型数据库和图形(Graph)数据库。
150.下列选项中,哪个是NoSQL分类中常见的列族式数据库?(C)A:MongoDBB:ElasticsearchC:HBaseD:Memcached
解析:常见的列族型数据库有Cassandra、HBase、Hypertable等。
151.以下选项中不属于关系型数据库的有(D)A:RDSMySQLB:SysBaseC:DB2D:MongoDB
152.下列对Hadoop生态组件Mahout,描述正确的是(C)A:可扩展的分布式数据,支持大表的结构化数据存储B:数据仓库基础架构,提供数据汇总和命令行即席查询功能C:可扩展的机器学习和数据挖掘库D:用于并行计算的高级数据流语言和执行框架
解析:Mahout:可扩展的机器学习和数据挖掘库。HBase:一个可扩展的分布式数据库,支持大表的结构化数据存储。Pig:一个支持并行计算的高级的数据流语言和执行框架。Hive:一个建立在Hadoop上的数据仓库基础构架。
153.数据视化分析平台的四大优势中,提供对话式智能机器人,满足智能数据洞察和数据预警需求,符合下列哪种优势?(C)A:强大的Quick数据引擎B:快速搭建数据门户C:智能数据分析和交互D:安全管控数据权限
解析:智能数据分析和交互:提供对话式智能机器人,满足智能数据洞察和数据预警需求
154.关于大数据平台中海量数据的存储,以下说法正确的是?(C)A:Hadoop的分布式存储技术是GFS组件完成B:分布式存储要求底层有多台高性能存储服务器C:分布式存储通过数据冗余存储,提高了数据的安全性D:分布式存储方式无法存储传统的结构化数据
解析:Hadoop的分布式存储技术是HDFS;
155.Hadoop有三个核心组件(HDFS、YARN、MapReduce),其中HDFS的全称是(B)A:分布式存储系统B:Hadoop分布式文件系统C:密集分布式D:结构化存储
解析:Hadoop分布式文件系统(HDFS)
156.HBase是面向列、可伸缩的分布式数据库,主要处理什么类型的数据(A)A:非结构化与半结构化B:文档数据C:视频数据D:所有数据
解析:HBase是一个高可靠、高性能、面向列、可伸缩的分布式数据库,是谷歌BigTable的开源实现,主要用来存储非结构化和半结构化的松散数据
157.Apachespark是专为大规模数据处理而设计的快速通用的计算引擎,下列选项中,哪些是Spark的优势(ABC)A:开发比较简单,支持多语言开发B:提供了多个高层次、简洁的APIC:可以通过RDD弹性分布式数据集方式编程,具备容错特征,能在并行计算中高效的进行数据共享,提升计算性能D:统一采用DAG无向有环图处理模式
解析:Spark提供了多种高层次、简洁的API有向无环图(DirectedAcyclicGraph,DAG)RDD即弹性分布式数据集(ResilientDistributedDataSet),它具备像MR等数据流模型的容错性,能在并行计算中高效地进行数据共享进而提升计算性能。
158.数据集成(DataIntegration)是阿里云对外提供的安全、低成本、稳定高效、弹性伸缩的数据同步平台,关于数据集成(DataIntegration)的描述,说法错误的是?(C)A:数据集成的目的是提高分析效率B:数据集成时可能会出现实体识别、冗余属性识别、元组重复等问题C:格式相同的数据才能执行数据集成操作D:数据集成对多个数据源的数据合并,形成一致的数据存储
159.ApacheSpark核心组件有:SparkStreaming、SparksQL、SparkCore、GraphX、MLlib,下列哪个选项是对SparkSQL组件的描述(B)A:提供流计算组件B:是一个用来处理结构化数据的Spark组件C:基于内存多语言执行的核心引擎D:是一个分布式图处理框架E:Spark机器学习库
解析:SparkSQL处理结构化数据
160.ApacheSpark是一款常用于大数据工作负载的开源分布式处理系统,关于Spark核心组件的作用,描述错误的是(A)A:sparkstreaming提供离线计算组件B:sparkSQL是一个用来处理结构化数据的Spark组件C:SparkCore基于内存多语言执行的核心引擎D:Graphx是一个分布式图处理框架
解析:SparkStreaming对实时数据流进行处理和控制
161.使用DataWorks数据集成同步数据流程包含下列(ABCD)选项?A:配置数据源B:创建同步任务C:运行同步任务D:查看结果E:数据加工F:数据运维
解析:DataWorks数据集成同步数据流程:配置数据源-创建同步任务-运行同步任务-查看结果
162.默认情况下HDFS中一个数据块会保存(C)份副本?A:1份B:2份C:3份D:4份
解析:HDFS中的文件是以数据块的形式划分与存储的,并以副本机制来保证数据存储的安全性,默认情况下HDFS中一个数据块会保存3份副本。
163.MaxCompute与机器学习平台PAI无缝集成,提供强大的机器学习处理能力;用户也可使用熟悉的Spark-ML开展智能分析。使用Python机器学习三方库。上述文字这体现了MaxCompute在大数据处理与分析中的(A)作用?A:集成AI能力B:支持流式采集和近实时分析C:数据存储能力D:弹性能力与扩展型
164.随着大数据时代的发展,Hadoop生态圈组件越来越丰富。关于Hadoop生态圈组件HBase是(D)A:工作流引擎B:资源管理系统C:分布式文件系统D:列式数据库
解析:hbase是一个针对结构化数据的可伸缩,高可靠,高性能,分布式和面向列的动态模式数据库。
165.进行数据清洗时,针对于不同的情况和场景需要选择不同的方法,以下对数据进行清洗的手段正确的是(ACD)A:缺失值填充B:集成不同的数据库C:重复值处理D:异常值和数据类型转换
解析:数据清洗的内容包括:缺失值处理、异常值处理、数据类型转换、重复值处理
167.Sqoop是一款开源的工具,主要用于在Hadoop与传统的关系型数据库之间进行的操作是?(D)A:数据清洗B:数据存储C:处理日志数据D:传输数据
168.聚类算法与分类算法有哪些区别?(D)A:聚类有标签,分类无标签B:聚类无标签,分类无标签C:聚类有标签,分类有标签D:聚类无标签,分类有标签
解析:聚类无标签是无监督学习,无标签,分类有标签是监督学习,需要标签
169.Hadoop可以自动保存数据的多个副本,并且可以自动将失败的任务重新分配。上述文本体现了Hadoop的(A)特点。A:高容错B:高效率C:高扩展D:高可靠
解析:“自动将失败的任务重新分配”体现了高容错的特点
170.HDFS读写数据工作流程中,用于存储Block数据的节点是(A)。A:DataNodeB:HDFSClientC:DistributedFileSystemD:NameNode
解析:1、Client:就是客户端。文件切分。文件上传HDFS的时候,Client将文件切分成一个一个的Block,然后进行存储。与NameNode交互,获取文件的位置信息。与DataNode交互,读取或者写入数据。Client提供一些命令来管理HDFS,比如启动或者关闭HDFS。Client可以通过一些命令来访问HDFS。2、NameNode:就是master,它是一个主管、管理者。管理HDFS的名称空间管理数据块(Block)映射信息配置副本策略处理客户端读写请求。3、DataNode:就是Slave。NameNode下达命令,DataNode执行实际的操作。存储实际的数据块。执行数据块的读/写操作。4、SecondaryNameNode:并非NameNode的热备。当NameNode挂掉的时候,它并不能马上替换NameNode并提供服务。辅助NameNode,分担其工作量。定期合并fsimage和fsedits,并推送给NameNode。在紧急情况下,可辅助恢复NameNode。
171.下列哪项属于数据仓库的功能?(C)A:根据存储的实时数据,生成新的有应用价值的数据B:永久存储数据,做数据查询C:是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合D:历史数据存储备份使用
解析:数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。数据仓库数据当然可以永久存储,但意义不大,一般都具备数据的生命周期数据仓库主要解决的是离线数据存储数据仓库具备备份功能,但并不是存储历史数据并进行备份的
172.随着大数据时代的发展,Hadoop生态圈组件越来越丰富。关于Hadoop组件YARN是(B)A:工作流引擎B:资源管理系统C:分布式计算框架D:列式数据库
173.数据预处理是将原始数据转换为可理解的格式的过程,数据预处理的步骤不包含的选项是?(C)A:数据集成B:数据清洗C:数据脱敏D:数据归约E:数据变换
解析:数据预处理的四个步骤分别是数据清洗、数据集成、数据变换和数据归约。
174.Hadoop是一个由Apache基金会所开发的(B)。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力实现高速运算和存储。A:分布式存储架构B:分布式系统基础架构C:分布式流式架构D:分布式消息订阅分发的框架
解析:Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。
176.在关系型数据库中数据主要以行与列的形式存储在关系表中,以下关于关系表描述正确的是?(B)A:关系表数据是线性存储的B:关系表可以看成一张二维表格C:关系表是按Key—Value进行存储的D:以上都不对
解析:关系表可以看成一张二维表格
177.海量的数据存储是大数据应用中面临的重要问题,下面哪项技术或产品能解决海量数据存储问题(D)A:阿里云的RDSMysQL数据库B:单机Redis数据库C:本地MysQL数据库D:分布式文件系统
解析:分布式文件存储
178.阿里云大数据体系中,能提供离线和流式数据的接入,完成计算服务的是(C)。A:QuickBI数据可视化分析平台B:云原生数据仓库(分析型数据库)AnalyticDBC:大数据计算服务MaxComputeD:数据工场DataWorks
179.Hive是基于Hadoop的一个(B)的工具,用于查询和管理在分布式存储系统中的大型数据集。A:关系型数据库B:数据仓库C:非关系型数据库D:数据库
解析:hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。
180.机器学习流程的顺序是:1.特征提取2.模型训练3.模型测试4.数据清洗(C)A:1234B:2341C:4123D:4321
解析:4123是正确的流程
181.PAI-DSW是一款云端机器学习开发IDE,为用户提供交互式编程环境,且DSW提供非持久化的本地存储,那么如何(D)实现持久化存储DSW数据。A:创建PAI-DSW实例B:编写持久化本地存储脚本C:选择File>ExportNotebookAs...>目标格式D:创建NAS或OSS类型数据集,并将数据集挂载到DSW指定的路径
解析:DSW提供非持久化的本地存储,如果需要持久化存储DSW数据,需要创建NAS或OSS类型数据集,并将数据集挂载到DSW指定的路径
182.下列关于阿里云Flink版框架的描述正确的是?(B)A:阿里云Flink版框架主要处理离线数据,ApacheFlink则主要处理实时数据B:阿里云FIik版是实时计算的一个流式计算引擎C:Flink可以处理离线数据与实时数据D:Flink主要实现将企业数据库的业务数据导入到其它在线存储平台上
183.下列关于ApacheSpark的MLlib组件的描述正确是?(D)A:基于内存多语言执行的核心引擎B:提供流计算组件C:是一个用来处理结构化数据的Spark组件D:Spark机器学习库
解析:对于一个流计算系统来说,它应达到如下需求:(1)高性能。处理大数据的基本要求,如每秒处理几十万条数据。(2)海量式。支持TB级甚至是PB级的数据规模。(3)实时性。必须保证一个较低的时延,达到秒级,甚至是毫秒级别。(4)分布式。支持大数据的基本架构,必须能够平滑扩展。(5)易用性。能够快速进行开发和部署。(6)可靠性。能可靠地处理流数据。
185.HDFS主要采用主从结构模型,分别负责数据请求与数据存储的功能,其中主(master)节点进程名是?(B)A:DataNodeB:NameNodeC:ResourceManagerD:NodeManager
解析:HDFS的主节点称为NameNode
186.HDFS主要采用主从结构模型,分别负责数据请求与数据存储的功能,以下选项中关于这种结构描述正确的是?(AC)A:HDFS采用了Master/Slave结构模型B:一个HDFS集群包含一个DataNode和若干个NameNodeC:NameNode为中心服务器,负责管理文件系统的命名空间及客户端对文件的访问D:副本默认为1份,副本数可以通过配置文件修改
解析:HDFS采用了主从(Master/Slave)结构模型;一个HDFS集群包括一个NameNode和若干个DataNode;Namenode是一个中心服务器,负责管理文件系统的名字空间(namespace)以及客户端对文件的访问;可以通过修改hdfs的配置文件自定义块大小,默认每个块的副本数是3,可以通过修改hdfs的配置文件自定义副本数;
187.MaxCompute支持流式数据实时写入并在数据仓库中开展分析。高性能秒级弹性并发查询,满足近实时分析场景需求。体现了MaxCompute在大数据处理与分析中的什么作用?(C)A:弹性能力与扩展型B:集成AI能力C:支持流式采集和近实时分析D:数据存储能力
188.云原生大数据计算服务(MaxCompute)是一种快速、完全托管的TB/PB级解决方案。(A)A:数据仓库B:非关系型数据库C:网络服务D:数据库建模
189.QuickBI中,能无缝对接各类数据源,10亿+数据聚合亚秒级响应,体现了其哪种优势?(D)A:智能数据分析和交互B:快速搭建数据门户C:安全管控数据权限D:强大的Quick数据引擎
190.使用Flume采集系统日志数据时,Flume的正确流程是?(A)A:Web数据源-Source一Channel一Sink一HDFSB:Web数据源-Sink一Channel一Source-HDFSC:Web数据源一Channel一Source一Sink一HDFSD:Web数据源一Source一Sink一Channel一HDFS
191.K-Means是典型的基于划分的聚类算法,下列描述基于划分的概念正确的是?(C)A:一种基于网格的具有多分辨率的聚类方法B:通过稀疏区域来刻分高密度区域以发现明显的聚类和孤立点,主要用于空间型数据的聚类C:通过构造一个迭代过程来优化目标函数,当优化到目标函数的最小值或极小值时,可以得到数据集的一些不相交的子集,通常认为此时得到的每个子集就是一个聚类D:使用一个距离矩阵作为输入,经过聚类后得到一个反映该数据集分布状况的聚类层次结构图
解析:PPT-134页。基于划分的聚类算法通过构造一个迭代过程来优化目标函数,当优化到目标函数的最小值或极小值时,可以得到数据集的一些不相交的子集,通常认为此时得到的每个子集就是一个聚类。
192.在大数据分析处理中,批处理计算是最常使用的一种方式,其解决了大批量数据的批量计算问题,其代表的产品()已经被广泛用于大数据应用中。(A)A:MapReduceB:StormC:PregelD:Hive
解析:批处理计算:批处理计算是最常见的一类数据处理方式,主要用于对大规模数据进行批量的处理,其代表产品有MapReduce和Spark等。
194.大数据的5V特征及其与《大数据时代》一书中提出的“4V”特征的区别(D)A:Volume规模性B:Velocity高速性C:Variety多样性D:Veracity准确性E:Value价值性
解析:大数据4V的特征:Volume规模性、Variety多样性、Velocity高速性、Value价值型。大数据5V的特征:Volume规模性、Variety多样性、Velocity高速性、Value价值型、Veracity准确性。
195.Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。关于Hadoop的基本模块,描述正确的是?(B)A:Common支持其他模块的通用程序包B:HDFS是一个分布式文件系统,能够以高吞吐量访问应用中的数据C:MapReduce是一个作业调度和资源管理框架D:YARN是一个基于MapReduce的大数据并行处理程序
解析:HadoopCommon:支持其他Hadoop模块的通用程序;Hadoop分布式文件系统(HDFS):一种分布式文件系统,可提供对应用程序数据的高吞吐量访问;HadoopMapReduce:基于YARN的系统,用于并行处理大型数据集;HadoopYARN:作业调度和集群资源管理的框架。
196.NOSQL指的是非关系型的数据库,以下选项中属于NOSQL数据库分类的有(D)A:关系对象型B:层次数据库C:网状数据库D:列族数据库
197.0penSearch是阿里巴巴自主研发,采用分布式搜索引擎搭建的开发平台,关于OpenSearch的描述,正确的是(ABC)A:用于开发人员进行搜索业务开发B:它内置了很多行业的术语,作为用户搜索的关键字,内置的算法可以对查洵结果进行排序C:提供了标准的API,可以将专业搜索技术的开发简单化,用户对接服务即可D:不可以在控制台进行搜索,由于分词器分词阿里通过算法进行了优化,提高了搜索的准确性
198.存储数据的结构可以分为:结构化、非结构化、半结构化。下列选项中,属于半结构化数据的是(A)A:JSON文档B:视频C:文本D:图片
解析:半结构化数据有以下5种:1.日志文件;2.XML文档;3.JSON文档;4.Email;5.HTML文档。
199.在《大数据时代》一书中,维克托·迈尔-舍恩伯格和肯尼斯可耶提出大数据的“4V特征。“4V特征包含(ACDE)。A:Volume规模性B:Vitality动态性C:Velocity高速性D:Variety多样性E:Value价值性
解析:大数据4V的特征:Volume规模性、Variety多样性、Velocity高速性、Value价值型。
200.随着大数据时代的发展,Hadoop生态圈组件越来越丰富。关于Hadoop生态组件HBase的功能,描述正确的是?(A)A:可扩展的分布式数据库,支持大表的结构化数据存储B:数据仓库基础架构,提供数据汇总和命令行即席查询功能C:可扩展的机器学习和数据挖掘库D:用于并行计算的高级数据流语言和执行框架
解析:HDFS一个提供高可用的获取应用数据的分布式文件系统。2)MapReduce一个并行处理大数据集的编程模型。3)HBase一个可扩展的分布式数据库,支持大表的结构化数据存储。是一个建立在HDFS之上的,面向列的NoSQL数据库,用于快速读/写大量数据。4)Hive一个建立在Hadoop上的数据仓库基础构架。
201.阿里云MaxCompute连接工具包含查询编辑器MaxCompute控制台、使用客户端(odpscmd)连接、DataWorks和MaxComputeStudio四种。其中哪一种需要手动安装且使用命令行客户端,适用于任何场景?(B)A:查询编辑器MaxCompute控制台B:使用客户端(odpscmd)连接C:DataWorks连接D:MaxComputeStudio
202.为角色或用户授予某类客体的某种操作权限,下列语法正确的是(AC)?A:grantCreateTableonProjectprj1touserALIYUN$test_user@aliyun.com;
B:grantCreateTableonTableprj1touserALIYUN$test_user@aliyun.com;
C:grantselectonTabletable1touserALIYUN$test_user@aliyun.com;
D:grantselecttouserALIYUN$test_user@aliyun.comonTabletable1;
image.png
203.DataWorks中ODPSSQL节点开发过程不包含下列(D)选项?A:选择或新建业务流程B:新建或选择已有的ODPSSQL节点C:编写符合语法的SQL代码D:设置数据过滤条件
解析:DataWorks中ODPSSQL节点开发过程选择或新建业务流程-新建或选择已有的ODPSSQL节点-编写符合语法的SQL代码-当前界面测试运行-配置节点调度信息-保存提交节点任务-发布到生产
204.数据可视化主要指的是技术上较为高级的技术方法,而这些技术方法允许利用图形图像处理、计算机视觉及用户界面,通过表达、建模,以及对立体、表面、属性及动画的显示,对数据加以可视化解释,由此可以得出下述解释不正确的是(D)。A:狭义上讲,数据可视化指的是将数据利用统计图表方式呈现B:数据可视化包含了数字和非数字C:可视化就是数据、信息以及科学等等多个领域图示化技术的统称D:数据可视化重点突出可视化
解析:狭义上的数据可视化指的是将数据用统计图表方式呈现,而信息图形(信息可视化)则是将非数字的信息进行可视化。前者用于传递信息,后者用于表现抽象或复杂的概念、技术和信息。广义上数据可视化是信息可视化其中一类,因为信息是包含了:数字和非数字的。从原词的解释来讲:数据可视化重点突出的是”可视化”,而信息可视化则重点是”图示化”。整体而言:可视化就是数据、信息以及科学等等多个领域图示化技术的统称。
205.默认情况下HDFS中一个数据块会保存(C)份副本?A:1份B:2份C:3份D:4份
206.Sqoop是一款Apache社区的开源软件,它可以在(B)到Hadoop之间进行高效的批量数据传输?A:文本文件B:关系数据库C:NoSQL数据库D:图形数据库
207.HBase是Hadoop生态的重要组成部分,它依赖哪种技术提供强大的计算能力?(B)A:HDFSB:MapReduceC:MaxdomputeD:Spark
解析:HBase是Hadoop生态重要组成部分,它依赖MapReduce提供强大的计算能力。
208.Mapreduce是一个分布式运算程序的编程框架,关于MapReduce的特点,描述正确的是?(ABC)A:通过配置Map节点数与增加机器数来扩展计算能力B:当分配了计算任务的节点失效时,能自动切换到其它节点运行该任务C:提供了分布式编程接口,易于开发D:随机处理数据、避免顺序访问数据
解析:由于磁盘的顺序访问要远比随机访问快得多,因此MapReduce主要设计为面向顺序式大规模数据的磁盘访问处理。
209.下列选项中,关于数据可视化图表类型,不属于局部整体型的是?(C)A:沃洛诺伊图B:百分比堆积面积图C:散点直线图D:马赛克图
210.下列对公有云、私有云、混合云的概念及作用描述正确的是?(ABC)A:公有云是由云服务提供商控制,用于云服务用户和资源的云部署模式B:私有云是由云服务客户控制,用于单一云服务用户和资源专用的云部署模式。部署在企业内部,由企业内部管理,保证了网络的安全C:混合云是由云服务提供商提供的多种本地资源的组合,但也可以包含多种不带有本地组件的云平台和云服务D:公有云采用服务租用模式,私有云必须由用户一次性投入
解析:公有云是由云服务提供商控制,用于云服务用户和资源的云部署模式混合云是由云服务提供商提供的多种本地资源的组合,但也可以包含多种不带有本地组件的云平台和云服务私有云是由云服务客户控制,用于单一云服务用户和资源专用的云部署模式。部署在企业内部,由企业内部管理,保证了网络的安全
211.“数据可视化"是由(A)、信息可视化和可视分析学三个学科构成。A:科学可视化B:文本可视化C:网络可视化D:空间可视化
解析:科学可视化;信息可视化;可视分析学。
212.在阿里云大数据采集与预处理中,使用DataWorks数据集成时,支持的方式有(ABC)。A:离线同步B:实时同步C:离线全增量同步D:不支持实时全增量的
213.数据可视化DataV是阿里云一款数据可视化应用搭建工具。DataV数据可视化产品的使用场景包含(ABCD)A:政务系统B:零售客户分析C:交通运输D:能源动力E:以上都未应用
使用场景偏向商业分析:零售客户分析、互联网运营分析和企业经营分析等全行业应用:政务系统、交通运输、能源动力、公安消防、制造物流、零售批发、货币金融等
214.数据可视化可以通过图表更容易对数据进行分类、排序显示,这说明数据可视化有(A)优势?A:多维展示B:容易记忆C:传播速度快D:数据更直观
215.使用各种智能技术,对感知和传送到的数据、信息进行分析处理,实现监测与控制的智能化,体现了物联网的(B)特点。A:可靠传输B:智能处理C:整体感知D:挖掘分析
解析:智能处理—使用各种智能技术,对感知和传送到的数据、信息进行分析处理,实现监测与控制的智能化。
216.用选择替代的、较小的数据表示形式以达到减少数据量的目的。它可以分为有参方法和无参方法。上述文字体现了数据预处理中的(A)策略?A:数据归约B:离散化和概念分层生产C:数据压缩D:数据立方体
解析:数据规约指通过选择替代的、较小的数据来减少数据量,包括有参数方法和无参数方法两类。有参数方法是使用一个模型来评估数据,只需存放参数,而不需要存放实际数据,例如回归(线性回归和多回归)和对数线性模型。无参数方法就需要存放实际数据,例如直方图、聚类、抽样。
217.企业A使用MapReduce时发现计算任务异常停止,经检测发现是计算资源不足,于是通过增加服务器来解决,请问这体现了MapReduce的(B)特性?A:可靠性B:良好的扩展性C:高效性D:可扩展性
解析:良好的扩展性当计算资源不能得到满足的时候,可以通过简单的增加机器来扩展它的计算能力。
218.下列Ambari的功能描述不正确的是?(A)A:提供了一个仪表板来监控Hadoop集群的健康和状态。可以进行指标收集,不能实现对节点故障、剩余磁盘空间不足等做出系统警报B:使用AmbariRESTAPI可以将Hadoop配置、管理和监控功能轻松集成到他们自己的应用程序中C:Ambari为在整个集群中启动、停止和重新配置Hadoop服务提供集中管理D:Ambari提供了一个分步向导,用于在任意数量的主机上安装Hadoop服务
解析:提供了一个仪表板来监控Hadoop集群的健康和状态。利用Ambari完成指标收集。利用AmbariAlertFramework进行系统警报。
219.下列选项中,哪个是NoSQL分类中常见的列族式数据库?(C)A:MongoDBB:ElasticsearchC:HBaseD:Memcached
220.在阿里云云计算中,应用层使用的是什么服务模式(A)A:SaaSB:IaaSC:PaaSD:LaaS
解析:SaaS:Software-as-a-Service(软件即服务):应用层
221.Hadoop有三个核心组件(HDFS、YARN、MapReduce),其中HDFS的全称是(B)A:分布式存储系统B:Hadoop分布式文件系统C:密集分布式D:结构化存储
222.我们在选择观看电影时,往往因为电影种类繁多,不知道如何选择。此时,在大部分的情况下,我们会询问周围的朋友,倾听他们的推荐意见,选择需要观看的电影。这体现了哪种数据挖掘算法(D)A:回归分析B:聚类C:关联规则D:协同过滤
解析:协同过滤的思路是通过群体的行为来找到某种相似性(用户之间的相似性或者标的物之间的相似性),通过该相似性来为用户做决策和推荐。
224.阿里云实时数仓Hologres属于阿里云大数据产品体系中的哪一类产品(A)A:大数据计算与分析B:大数据工具与服务C:大数据分析与可视化D:智能搜索与推荐
225.阿里大数据产品分为五类,大数据计算与分析,智能搜索与推荐,数据开发和治理、大数据工具与服务、大数据分析与可视化,下列选项中属于数据开发和治理类产品的是?(AC)A:Dataphin智能数据建设与治理B:OpenSearch智能开放搜索C:DataWorks大数据开发治理平台D:DataHub数据总线
解析:大数据开发治理平台DataWorks基于MaxCompute/EMR/MC-Hologres等大数据计算引擎,为客户提供专业高效、安全可靠的一站式大数据开发与治理平台,自带阿里巴巴数据中台与数据治理最佳实践,赋能各行业数字化转型。每天阿里巴巴集团内部有数万名数据/算法工程师正在使用DataWorks,承担集团99%数据业务构建。
226.数据可视化指使用(ABDE)等工具对数据进行编码,在视觉上传达定量信息A:点B:线C:二维数据库表D:统计图或信息图表E:图表
解析:数据可视化指使用点、线、图表、统计图或信息图表等工具对数据进行编码,在视觉上传达定量信息。
227.HBase是一个能完成海量数据的存储支持线上业务的实时查询的框架,以下选项中正确描述了HBase的特性的是(ABD)A:高可靠性B:高性能C:面向对象D:可伸缩性
解析:HBase–HadoopDatabase,是一个高可靠性、高性能、面向列、可伸缩、实时读写的分布式数据库
228.ApacheSpark核心组件包含:SparkStreaming、SparkSQL、SparkCore、GraphX、MLlib,下列哪个选项是对MLib组件的描述?(D)A:提供流计算组件B:是一个用来处理结构化数据的Spark组件C:基于内存多语言执行的核心引擎D:Spark机器学习库
229.Hive的SQL执行流程依次为Parser,SemanticAnalyzer、LogicalPlanGenerator、LogicalOptimzer.PhysicalPlanGenerator,PhysicalPlanOptimizer.其中步骤SemanticAnalyzer作用是(B)A:将SQL转换成抽象语法树B:将抽象语法树转换成查询块C:将查询块转换成逻辑查询计划D:重新逻辑查询计划
解析:SemanticAnalyzer:将抽象语法树转换成查询块
230.销量预测的流程是确定目标->整理数据->选择方法->建立模型->编写报告。以下说法中错误的是(C)。A:确定预测目标一般包括了解项目的背景,明确要解决的问题、需要分析的范围、误差或准确度的要求B:分析整理原始数据时,需要明确数据字段的含义,做数据探查以了解其分布特点,有没有重复、空缺和异常值等C:选择预测方法时,因为定性分析方法没有定量分析方法准确和科学,所以一般不会选择定性方法D:编写预测报告时,不管面向的对象是主管还是客户,都要做到简洁明了、有理有据、逻辑链完整,避免含糊不清,思维跳跃或者过于冗长。
解析:企业中往往会结合定性和定量使用,才能更准确
231.在DataWorks中,(C)是指使用系统或计算资源的客户,即公司。A:DataWorks项目B:MaxCompute项目空间C:组织D:个人账号
解析:在DataWorks中,组织是指使用系统或计算资源的客户,即公司
233.下列关于MaxCompute描述不正确的是(A)。A:MaxCompute只提供离线数据的接入B:MaxCompute适用于大型互联网企业的数据仓库和BI分析、网站的日志分析、电子商务网站的交易分析、用户特征和兴趣挖掘等C:MaxCompute适用于100GB以上规模的存储及计算需求,最大可达EB级别D:MaxCompute深度融合了阿里云Dataworks、QuickBI、机器学习PAI等产品
解析:MaxCompute提供离线和流式数据的接入,支持大规模数据计算及查询加速能力
234.MaxCompute具有存储、计算引擎、计算模型数据通道、用户接口四层结构,每层的任务职责也不同,那么如果执行“desc[partition()];”,最终由(A)处理该命令语句并返回结果A:计算层B:存储层C:客户端(用户接口)D:计算模型数据通道
解析:DESC查看表或视图信息。
235.对下列报错FAILED:ODPS-0123031:Partitionexception-invaliddynamicpartitionvalue:province=上海描述正确的是(D)?A:SQL语法报错B:超过2000个动态分区C:动态生成的分区值为NULLD:非法的动态分区
解析:使用了非法的动态分区。动态分区是根据指定字段进行分区,不支持特殊字符和中文动态分区字段。
解析:开通DataWorks服务流程注册账号-购买MaxCompute资源-创建工作空间-添加项目组成员。
237.阿里云机器学习PAI平台是中国云端机器学习平台之一,下列哪个()选项不属于PAI的业务架构。(B)A:智能标注(iTAG)B:容器镜像服务ACRC:可视化建模PAI-Designer、交互式编程建模PAI-DSWD:云原生在线推理服务平台PAI-EAS
解析:PAI支持的硬件设施包括CPU、GPU、FPGA、NPU、容器服务ACK及ECS。
238.MaxCompute与机器学习平台PAI无缝集成,提供强大的机器学习处理能力;用户也可使用熟悉的Spark-ML开展智能分析。使用Python机器学习三方库。上述文字这体现了MaxCompute在大数据处理与分析中的(A)作用?A:集成AI能力B:支持流式采集和近实时分析C:数据存储能力D:弹性能力与扩展型
239.数据可视化指使用点、线、图表、统计图或信息图表等工具对数据进行编码,在视觉上传达定量信息。下列选项中属于数据可视化优势的是?(ABC)A:传播速度快B:数据更直观C:多维展示D:动态效果
解析:传播速度快、数据更直观、多维展示、容易记忆、定制显示。
240.Kafka是分布式发布消息订阅系统。下面关于Kafka描述正确的是?(C)A:Kafka是安全高效的,不会出现消息丢失的情况B:Kafka的功能十分强大,信息消费的稳定性极高,不会出现重复消费的情况C:Kafka的优异性能体现之一就是高吞吐D:Kafka能满足任何场景的数据
解析:Kafka的缺点:1、由于是批量发送,所以数据达不到真正的实时2、对于mqtt协议不支持3、不支持物联网传感数据直接接入4、只能支持统一分区内消息有序,无法实现全局消息有序5、监控不完善,需要安装插件6、需要配合zookeeper进行元数据管理7、会丢失数据,并且不支持事务8、可能会重复消费数据,消息会乱序
解析:实时计算是通过Source到process再到Sink的过程,数据端可以通过定义实现自动数据推送功能
243.在HDFS写入数据的工作过程中,用于存储元数据的节点是(C)?A:HDFSClientB:DataNodeC:NameNodeD:DistributedFileSystem
解析:Namenode是元数据存放的节点,为主要管理节点
244.以下内容属于哪种数据类型?(B)
Amy
18A:结构化B:半结构化C:非结构化D:网状数据
解析:结构化数据:简单来说是数据库可以进行二维存储;半结构化数据:比如Xml、json等数据;非结构化数据:如图片、视频等;网状结构:用有向图表示实体和实体之间的联系的数据结构模型称为网状数据。
245.HDFS读取文件步骤正确的是(D)。A:客户端与DataNode建立连接一客户端请求NameNode的元数据信息一客户端与所有的目标DataNode建立连接并读取文件一NameNode反馈目标文件Block和DataNode节点的对应关系B:客户端与DataNode建立连接一客户端请求DataNode的元数据信息一客户端与所有的目标DataNode建立连接井读取文件C:客户端与DataNode建立连接一客户端请求DataNodef的元数据信息一客户端与所有的目标DataNode建立连接井读取文件一读写完毕后,客户端给NameNode发生读取信息D:客户端与NameNode建立连接一客户端请求NameNode的元数据信息一NameNode反馈目标文件Block和DataNode节点的对应关系一客户端与所有的目标DataNode建立连接并读取文件
解析:HDFS读取,NameNode负责数据的管理,DataNode负责数据的存储,客户端请求会先有NameNode交互,获取到请求数据的DataNode位置返回给客户端,客户端再指定读取datanode数据
解析:数据多维性指的是描述数据的角度多、从不同的方面来描述数据。数据维度指的是描述数据的业务角度
247.在大数据生态体系的数据处理中,有两种计算引擎MapReduce与Spark,两种计算引擎在数据处理的流程中有着本质区别,下面选项中关于这两种引擎的说法正确的是(AC)。A:Spark做数据计算时,首先会从文件系统读取文件,后续为了提升计算效率,会将第一次读取的数据存入内存中,方便后续计算从内存中读取B:MapReduce做数据计算时,首先会从文件系统读取文件,后续为了提升计算效率,会将第一次读取的数据存入内存中,方便后续计算从内存中读取C:MapReduce做数据迭代计算时,必须从文件系统中,不停的读取写入,以完成计算D:MapReduce跟Spark相比,处理速度更快
248.在Hadoop的体系中,哪一个组件解决数据存储的问题?(A)A:HDFSB:RedisC:MongoDBD:MySQL
解析:HDFS(HadoopDistributedFileSystem)是Hadoop项目的核心子项目,主要负责集群数据的存储与读取
249.数据预处理是将原始数据转换为可理解的格式的过程,数据预处理的步骤不包含的选项是?(C)A:数据集成B:数据清洗C:数据脱敏D:数据归约E:数据变换
250.ApacheSpark是专为大规模数据处理而设计的快速通用的计算引擎,关于Spark的特点描述,正确的是?(ABC)A:可以使用Python、SQL、scala、Java或R语言,统一离线计算和实时计算开发方式B:通用的SQL分析,快速构建分析报表,运行速度快于大多数数仓计算引擎C:大规模科学计算,支持对PB级数据执行探索性分析D:可以在桌面电脑上训练机器学习算法,但不能使用相同的代码扩展到包合数千台机器的集群上,需要修改代码
解析:Batch/Streamingdata:统一化离线计算和实时计算开发方式,支持多种开发语言,Python、SQL、Scala、Java、RSQLanalytics:通用的SQL分析快速构建分析报表,运行速度快于大多数数仓计算引擎Datascienceatscale:大规模的数据科学引擎,支持PB级别的数据进行探索性数据分析,不需要使用采样Machinelearning:可以支持在笔记本电脑上训练机器学习算法,并使用相同的代码扩展到数千台机器的集群上
251.在传统的大数据批处理系统中,以下哪些选项是MapReduce的优点(ABC)A:易于编程B:良好扩展性C:高容错性D:高精度性
解析:优点:1、易于编程。用户只关心业务逻辑,实现框架的接口。2、良好的扩展性。可以动态增加服务器,解决计算资源资源不足问题。3、高容错性。任何一台机器挂掉,可以将任务转移到其他节点。4、适合海量数据计算(TB/PB),几千台服务器共同计算。
252.关于MapReduce的局限性,描述正确的是(D)A:代码简洁B:支持实时计算C:执行效率高D:适合选代多次、交互式和流式处理
解析:MapReduce的执行速度慢。MapReduce过于底层。实时计算性、不能进行流式计算
253.下列选项中,哪一项描述的是Sqoop的应用场景(A)A:使用Sqoop将MySQL数据导入HDFS中B:使用Sqoop将MySQL数据导入Oracle中C:使用sqoop将Oracle数据导入阿里云的RDSMySQL中D:使用sqoop将redis数据导入阿里云的RDSMySQL中
解析:使用Sqoop将MySQL数据导入HDFS中
254.使用Datav进行数据可视化开发的过程中,需要了解Datav的操作流程,下面那一项属于DataV正确的操作流程(A)A:准备工作一创建可视化应用一添加并配置可视化组件一调整组件图层位置一预览并发布可视化应用B:准备工作一创建可视化应用一调整组件图层位置一添加并配置可视化组件一预览并发布可视化应用C:添加并配置可视化组件一准备工作一调整组件图层位置一预并发布可视化应用D:准备工作一调整组件图层位置一创建可视化应用一添加井配置可视化组件一预览并发布可视化应用
255.Flume是Hadoop生态圈的组件之一,关于Flume的组件功能,描述正确的是(C)A:source负责接收日志数据,不支持不同类型和不同式的日志,所以需要对日志数据处理类型和格式B:Source将日志教据的写入到Sink中并负责处理操作C:sink负责从channel中的获取数据,写入到接收方D:Sink可以获取接收方的数据
解析:Sink主要是从Channel中拉取数据、拉取日志信息,然后最后存放到了接收方Source负责接收events或通过特殊机制产生events,并将events批量放到一个或多个Channels。有驱动和轮询2种类型的Source。
256.网络爬虫是一种通过既定规则,自动抓取网页信息的程序,它的常见分类有(ABCD)。A:通用网络爬虫B:聚集网络爬虫C:增量式网络爬虫D:深层网络爬虫E:随机型爬虫
257.下列关于MaxCompute与Hologres的关系,描述正确的是(ABC)A:在计算引擎方面,MoxCompute甚于Stage和File设计的,持久化的,可扩展SQLEngine而Hologros甚于内存的,超快速响应的SQLEngine,计算不落盘B:在集群方面,MdaxCompute共享大集群,而Hologres独享集群C:在扩展性方面,MaxCompute几乎不受限制,而Hologres复杂查询尽量避免跨多节点数据shuffleD:在接口标准方面,MaxCompute支持PostgreSQL,而Hologres支持MCSQL
258.阿里云的云计算提供了多种服务模式,其中基础设施使用的是(C)A:SaaSB:PaasC:laasD:全部本地布署
259.阿里云的机器学习平台提供了大量实用的算法,包括数据预处理方法,常用的“归一化”处理主要是(C)A:把指定数据设置为1B:把指定数据设置为平均值C:对数据的线性变换,使结果值映射到[0-1]之间D:对>1的数据设置为1
解析:归一化是将数据归纳到0-1之间,保证不同纲量的特征数据对结果的影响是一样的
260.k-means如何选择聚类中心的个数(A)。A:肘部法B:依据过往其他项目经验,设置合适k值C:如果数据量较大,设置为10D:如果数据量小,设置为3
解析:不同问题,有不同的合适值,要通过肘部法来确定
261.关于阿里云PAI产品-模型在线服务(EAS)模块描述正确的是(A)。A:支持大规模复杂模型的一键部署功能,实时弹性扩缩容,提供完整的运维监控体系B:面向AI开发者的云端机器学习交互式开发IDE,包含Jupyterlab,VScode及TerminalC:基于PAI平台能力孵化的垂直领域解决方案集合D:提供包括数据集、模型、代码配置、实验对照组等核心AI资产的管理能力
解析:AI资产管理提供包括数据集、模型、代码配置、实验对照组等核心AI资产的管理能力。交互式建模(DSW)面向AI开发者的云端机器学习交互式开发IDE,包含Jupyterlab,VScode及Terminal。AI行业插件基于PAI平台能力孵化的垂直领域解决方案集合,方便直接应用。
262.QuickBI数据可视化分析平台的优势有?(ACE)A:快速搭建数据门户B:拖拽式数据建模和可视化分析C:智能数据分析和交互D:专为云上用户量身打造的新一代智能BI服务平台E:强大的Quick数据引擎
解析:QuickBI的优势是:1、强大的Quick数据引擎2、快速搭建数据门户3、智能数据分析和交互4、安全管控数据权限
263.HBase是一个分布式的、面向列的开源数据库,关于HBase的特点,描述正确的是?(ABD)A:高可靠B:高性能C:高精度D:可伸缩
264.下列关于Hadoop生态组件Sqoop的概述,正确描述是什么?(BC)A:用于分布式应用的高性能协调服务B:是一款用于在Hadoop和关系数据库服务器之间传输数据的工具C:是一种用于在HDFS和RDMS之间传输数据的工具D:是一种支持ApacheHadoop集群的安装、部署、配置和管理的工具E:是大数据集日志收集的框架
解析:Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递;Sqoop是一个用于在Hadoop和关系数据库服务器之间传输数据的工具。它用于从关系数据库(如MySQL,Oracle)导入数据到HadoopHDFS,并从Hadoop文件系统导出到关系数据库。Oozie功能框架:基于工作流引擎的开源框架,是由Cloudera公司贡献给Apache的,它能提供对HadoopMapReduce和PigJobs的任务调度与协调。
265.Pig是Hadoop生态圈的组件之一,关于Pig,描述错误的是?(D)A:Pig是一个基于Hadoop的大规模数据分析平台B:Pig是一个用于并行计算的高级数据流语言和执行框架C:Pig有一套和SQL类似的执行语句,处理的对象是HDFS上的文件D:Pig的数据处理语言采取分布式消息订阅发布方式
解析:Pig的数据处理语言是数据流方式的,一步一步的进行处理;数据处理语言采取分布式消息订阅发布方式描述的是Kafka消息队列的功能
266.Zookeeper组件主要负责HMaster、RegionServer、Region的地址信息,以下选项中关于Zookeeper组件说法正确的是(D)A:日志B:管理者C:客户端D:协调服务
解析:ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。
267.需要开通阿里云DataWorks服务的正确步骤是(A)。A:注册账号一购买MaxCompute资源一创建工作空间一创建子账号分配权限(可选)一添加项目组成员B:注册账号一购买MaxCompute资源一创建子账号分配权限(可选)一创建工作空间一添加项目组成员C:注册账号一添加项目组成员一购买MaxCompute资源一创建工作空间一创建子账号分配权限(可选)D:注册账号一购买MaxCompute资源一添加项目组成员一创建工作空间一创建子账号分配权限(可选)
268.下列选项中,NoSQL分类中常见的键值数据库有哪些(D)。A:MongoDBB:MySQLC:CassandraD:Redis
解析:流行的键值数据库包括Riak、Redis(由于可以存储集合、列表等,也称为数据结构服务器)、Memcached等。
269.Sqoop可以将数据从Hadoop导出到哪些数据库中?(D)A:OracleB:MemcacheC:MongoDBD:MySQL
解析:使用Sqoop可以将数据从关系型数据库管理系统(如MySQL)中导出到Hadoop系统(如HDFS、Hive、HBase)中。反之亦可。
270.Databricks数据洞察的特点有哪些?(ABC)A:高效稳定B:批流一体C:协同分析D:数据隔离
271.DataIntegration属于阿里云大数据产品体系的(B)产品?A:数据开发和治理B:大数据工具与服务C:智能搜索与推荐D:大数据分析与可视化
解析:DataIntegration指的是数据集成工具,数据集成工具的主要作用是数据采集,属于大数据工具服务
272.以下属于数据可视化的图表中类别比较型图表的是?(BC)A:散点图B:柱形图C:条状图D:矩形树状图
解析:柱状、条状以及其衍生图表属于类别比较型图表
273.下列选项中,关于阿里云实时数仓Hologres的操作流程,描述正确的是(D)A:准备阿里云账号一购买Hologres实例一连接开发工具一创建数据库一导入数据并查询B:准备阿里云账号一购买Hologres实例一创建数据库一导入数据并查询一连接开发工具C:准备阿里云账号一连接开发工具一购买Hologres实例一创建数据库一导入数据并查询D:准备阿里云账号一购买Hologres实例一创建数据库一连接开发工具一导入数据并查询
274.在聚类算法中,STING是典型基于网格的聚类算法,对基于网格的概念,描述正确的是(D)A:通过构造一个达代过程来优化目标函数,当优化到目标函数的最小值或极小值时,可以得到数据集的一些不相交的子集,通常认为此时得到的每个子集就是一个聚类B:使用一个距离矩阵作为输入,经过聚类后得到一个反映该数据集分布状况的聚类层次结构置C:通过稀疏区域来划分高安度区域以发现明显的聚类和立点,主要用于空间型数据的聚类D:是一种具有多分辨率的聚类方法,其中空间区域被划分为矩形单元(使用维度和经度),并采用分层结构
解析:STING是一个基于网格的多分辨聚类技术,其中空间区域被划分为矩形单元(使用维度和经度),并采用分层结构。
276.数据清洗中的异常值处理是指根椐每个变量的(A),检查数据是否合乎要求,发现超出正常范围、逻辑上不合理或者相互矛盾的数据。A:合理取值范围和相互关系B:合理程度和真实性C:差异程度和相互关系D:合理取值范围和真实性
解析:根据每个变量的合理取值范围和相互关系,检查数据是否规范,是否超出正常范围,逻辑上不符或相互矛盾的数据。
278.通过文件系统可以实现对存储设备上的文件进行操作与管理,实现这种管理的最主要的方式是什么(B)A:实现对文件的按内容存取B:实现对文件的按名存取C:实现文件的高速输出和输入D:实现虚拟存储
解析:实现对文件的按名存取
279.大数据处理技术主要目标是(B)A:海量数据存储B:海量数据分析C:发现数据价值D:数据的共享
解析:数据处理是对纷繁复杂的海量数据价值的提炼,而其中最有价值的地方在于预测性分析。
280.阿里云大数据产品可以更快速地解决海量数据计算问题,有效降低企业成本,并保障数据安全。阿里云大数据产品主要分类有(ABCD)、智能搜索与推荐产品。A:计算与分析产品B:开发与治理产品C:工具与服务产品D:分折与可视化产品E:弹性伸缩与ECS产品
解析:阿里大数据产品分为五类,大数据计算与分析,智能搜索与推荐,数据开发和治理、大数据工具与服务、大数据分析与可视化。
281.关于阿里云大数据产品实时数仓Hologres的描述,正确的是(ABC)A:支持PB级数据多维分析(OLAP)与即席分析(AdHoc)B:支持高并发低延迟的离线数据服务(Serving)C:数据实时写入、实时更新,写入即可见,与Flink原生集成,支持高吞吐、低延时、有模型的实时数仓开发,满足业务洞察实时性需求D:标准SQL协议,无缝对接主流BI和SQL开发框架,无需应用重写。支持数据湖场景,支持JSON等半结构化数据,OSS、DLF简易入仓
282.Hadoop是一个分布式计算平台,用户可以轻松地在Hadoop上开发、运行与处理海量数据的应用程序,它主要特点有(ACDE)A:高可靠B:高精度C:高扩展D:高效率E:高容错
解析:高可靠、高扩展、高效率、高容错、低成本。
283.网络爬虫又称为网络机器人、网络蜘蛛,是一种通过既定规则,能够自动提取网页信息的工具。它是由(ABC)组成。A:爬虫节点B:控制节点C:资源库D:数据库存储
解析:网络爬虫由控制节点、爬虫结点、资源库组成。
284.以下图表中,属于饼图变种的有哪些?(CD)(正确2个)A:仪表盘B:漏斗图C:3D饼图D:环图E:雷达图
解析:环形图是由两个及两个以上大小不一的饼图叠在一起,可显示多个样本各部分所占的相应比例,有利于构成的比较研究3D饼状图是饼图的一种以三维格式显示每一数值相对于总数值的大小
285.大数据4V特征之一是“Value",表明大数据本身具有价值,其提供的核心价值是(A)。A:洞察与预测B:存储与计算C:资源优化配置D:传统企业转型
286.根据学习样本数据不同,对问题有不同的建模方式,以下哪个是对监督学习的描述(A)A:学习样本中有结果标记B:学习样本中无结果标记C:学习样本中部分记录有结果标记D:学习样本中自动学习结果的标记
解析:监督学习是有对有特征和结果的数据进行训练的方式。
287.DataWorks是阿里云重要的PaaS平台产品,为您提供数据集成、数据开发、数据地图服务等全方位的产品服务,以下属于DataWorks使用场景的是(B)A:存储海量的数据,进行数据的清洗B:使用DataWorks,对数据进行传输、转换和集成等操作,从不同的数据存储引入数据,并进行转化和开发C:对数据进行离线计算D:直接把计算的结果显示出来
288.大数据处理流程一般分为5个步骤:数据采集、数据预处理、(A)、数据分析与挖掘、数据可视化。A:数据存储B:数据计算C:数据集成D:数据归约
解析:大数据处理流程包括:数据采集、数据预处理、数据存储、数据分析与挖掘、数据可视化。
290.(B)平台提供包括操作系统和围绕特定应用的必需的服务,供应商提供各种开发和分发应用的解决方案,比如虚拟服务器、操作系统和SDK、点外卖回家吃披萨,自供桌子碗筷等。A:SaaSB:PaaSC:laaSD:DaaS
解析:PaaS类似于IaaS,但是它包括操作系统和围绕特定应用的必需的服务。
291.下列选项中(A)可以处理离线数据也可以处理实时数据的计算框架?A:SparkB:StromC:HiveD:Pig
292.Flink在大数据处理与分析中的作用不包含(B)?A:实时推荐B:实时存储C:实时反作弊D:实时IOT数据分析
293.DataWorks同步过程支持哪几种数据?(AB)A:结构化数据B:实时业务数据C:非结构化数据D:半结构化数据
解析:DataWorks同步过程支持的数据:仅支持结构化的数据;支持单地域内及部分跨地域的相互同步、交换;完成数据同步,数据同步都是将业务系统中产生的业务数据定期导入到工作区,通过工作流任务的加工处理后,再将计算结果定期导入到指定的数据源中,供进一步展示或者使用。
294.在数据清洗的过程中,遇到字符串“2021年10月20日”或“2021—10—20”这样的数据与表中要求的“2021/10/20”的格式不对应,如何进行清洗?(C)A:异常值处理B:缺失值处理C:数据类型转换D:重复值处理
解析:数据转换:数据转换或统一成适合于挖掘的形式
295.MaxCompute支持后付费的模式,即用户可以先使用,然后根据使用的资源状况后付费。计费项中不包括因为(A)而产生的费用A:数据上传阶段B:数据下载阶段C:计算处理过程中D:存储
296.下列选项中,关于Hadoop生态组件Oozie,描述正确的是(D)A:用于分布式应用的高性能协调服务B:是一种支持ApacheHadoop集群的安装、部署,配置和管理的工具C:是一种用于在HDFS和RDMS之间传输数据的工具D:是一个基于工作流引擎的开源框架,提供对Hadoop、MapReduce和PigJobs的任务调度与协调
解析:Oozie是一个基于工作流引擎的开源框架,提供对HadoopMapReduce、PigJobs的任务调度与协调。
297.在Hive的架构中,能执行驱动效果的组件是哪一个(B)A:HWIB:DriverC:CLID:Metastore
解析:能执行驱动效果的组件是Driver
298.DataWorks,是阿里云重要的PaaS平台产品,为您提供数据集成、数据开发、数据同步、数据质量和数据服务等全方位的产品服务,以下属于DataWorks使用场景的是?(B)A:海量数据的存储、数据的清洗B:使用DataWorks,对数据进行传输、转换和集成等操作,从不同的数据源引入数据,并进行转化和开发C:对数据进行离线计算D:直接把计算的结果显示出来
解析:可以使用DataWorks,对数据进行传输、转换和集成等操作,从不同的数据存储引入数据,并进行转化和开发,最后将处理好的数据同步至其它数据系统。
299.QuickBI数据可视化分析平台提供了丰富的组件,以下哪些选项属于QuickBI数据可视化分析平台指标组件的优势(ABC)A:计算能力:一键配置高级计算同环比、进度完成率B:可视化效果:显示图标logo、自定义背景、字体大小、颜色等C:备注能力:可自定义文字/指标等备注信息,可自定义跳转外链路径,实现数据与其他系统之间的交互D:交互操作:维度/指标筛选。表格内筛选等
300.以下哪些选项不属于阿里云大数据产品实时数仓Hologres的作用(B)A:支持实时写入B:支持秒级交互式查询服务C:支持实时分析D:支持标准SQL
301.在MaxComputeSQL中可以通过CREATETABLE语句创建一个新表,创建表时可以指定IFNOTEXISTS,以下选项中说法正确的有(A)A:在创建表时不指定IFNOTEXISTS,如果不存在同名的表,则新表创建成功B:在创建表时不指定IFNOTEXISTS,并且存在表结构不一数的同名表,此同名表将会改动表结构C:在创建表时指定IFNOTEXISTS,并且存在同名表,则表将会被覆盖D:在创建表时指定IFNOTEXISTS,并且存在同名表,则表将会被覆盖
解析:在创建表时,如果不存在同名表且语义正确,表创建都会返回成功。创建表时,如果不指定ifnotexists选项而存在同名表,则返回出错。若指定此选项,则无论是否存在同名表,即使原表结构与要创建的目标表结构不一致,均返回成功。已存在的同名表的元信息不会被改动。
302.在MaxCompute架构中,关于数据存储方面,以下选项中说明正确的是(C)A:Maxcompute的数据存储在文件中B:在MaxCompute中来用了行压缩技术C:表是Maxcompute的数据存储单元D:优化行存默认采用AliORC压缩格式
303.Hive是基于Hadoop的一个(B)的工具,用于查询和管理在分布式存储系统中的大型数据集。A:关系型数据库B:数据仓库C:非关系型数据库D:数据库
304.阿里云的云计算提供了多种服务模式,其中平台层使用的是(B)A:SaasB:PaasC:laasD:全部本地布署
305.阿里云MaxCompute连接工具包含查询编辑器MaxCompute控制台、使用客户端(odpscmd)连接、DataWorks和MaxComputeStudio四种。其中哪一种连接工具由阿里云官方推荐且不需要手动安装?(C)A:查询编辑器MaxCompute控制台B:使用客户端(odpscmd)连接C:DataWorks连接D:MaxComputeStudio
306.阿里云MaxCompute连接工具包含查询编辑器MaxCompute控制台、使用客户端(odpscmd)连接、DataWorks和MaxComputeStudio四种。其中哪一种需要手动安装,适用于熟悉IntelliJIDEA工具的用户?(D)A:查询编辑器MaxCompute控制台B:使用客户端(odpscmd)连接C:DataWorks连接D:MaxComputeStudio
307.Hive的SQL执行流程依次为Parser、SemanticAnalyzer、LogicalPlanGenerator、LogicalOptimizer、PhysicalPlanGenerator、PhysicalPlanOptimizer。其中步骤Parser的作用是?(A)A:将SQL转换成抽象语法树B:将抽象语法树转换成查询块C:将查询块转换成逻辑查询计划D:重新逻辑查询计划
308.MaxCompute是阿里自研的一种快速、完全托管的EB级数据仓库解决方案,以下哪个是MaxCompute的基本计算单元,并且SQL和MR都是通过其来执行的(B)A:实例B:任务C:表格D:资源
解析:任务(Task)是MaxCompute的基本计算单元,SQL及MapReduce功能都是通过任务完成的
309.大数据面临着一些技术性难题,其中一个是海量数据的存储,目前主流的处理方式是通过(B)来解决。A:共享存储系统B:分布式存储系统C:网络文件系统D:本地文件系统
解析:大数据存储通过分布式技术,多副本存储实现海量数据稳定存储
310.DataWorks的数据集成是稳定高效、弹性伸缩的数据同步平台,致力于提供复杂网络环境下、丰富的异构数据源之间高速稳定的数据移动及同步能力。不支持下列哪一种类型的数据同步到MaxCompute(D)A:RDS中的数据B:半结构化C:结构化数据D:OSS中存放的非结构化数据
解析:Maxcompute需要结构化和半结构化数据,非结构化数据无法同步至Maxcompute
311.小明在一家IT教育公司做运营工作,经常听到同学聊到MaxCompute核心概念,但又不知其意,下列哪些选项(ABCDE)能帮助小明更好的了解MaxCompute。A:Project(项目)项目是MaxCompute的基本组织单元,类似于传统数据库的Database或Schema的概念,是进行多用户隔离和访问控制的主要边界B:Partition(分区)分区Partition是指一张表下,根据分区字段(一个或多个字段的组合)对数据存储进行划分C:View(视图)视图是在表之上建立的虚拟表,它的结构和内容都来自表。一个视图可以对应一个表或多个表D:Role(角色)角色是MaxCompute安全功能中的概念,可以理解为拥有相同权限的用户的集合。多个用户可以同时存在于一个角色下,一个用户也可以隶属于多个角色E:Resource(资源)资源是MaxCompute中特有的概念。当使用MaxCompute的自定义函数(UDF)或MapReduce功能时,需要依赖资源来完成。F:odpscmd-MaxCompute的命令行客户端,适用于任意场景,用户可以专注于编写命令完成数据处理。
解析:MaxCompute具有层次结构,核心包含Project(项目),Table(表),Partition(分区),View(视图),User(用户),Role(角色),Resource(资源),Function(函数),Instance(实例),Quota(配额),Quota(配额),Schema。
312.Dataworks数据管理通过数据地图功能实现对数据的统一管理和血缘跟踪,数据地图以数据搜索为基础,提供表使用说明,那么下列对于表的管理操作描述不正确的选项是(D)?A:查找表:通过类目、项目名称、模糊查询搜索表B:可以查看表的详情,即元数据信息C:可以进行收藏表、申请权限、生成API等操作D:数据管理模块中的表存储信息是实时同步的
解析:表存储信息是离线计算的、默认是一天同步一次信息
313.K-NN中可以用来做距离度量的指标是(ABC)。A:欧氏距离B:曼哈顿距离C:余弦距离D:交叉熵
解析:选项欧氏距离、曼哈顿距离、余弦距离是可用的距离参数
314.选项中关于Hadoop生态组件Pig功能的描述正确的是?(D)A:可扩展的分布式数据库,支持大表的结构化数据存储B:数据仓库基础架构,提供数据汇总和命令行即席查询功能C:可扩展的机器学习和数据挖掘库D:用于并行计算的高级数据流语言和执行框架
解析:HBase:可扩展的分布式数据库,支持大表的结构化数据存储。Hive:数据仓库基础架构,提供数据汇总和命令行即席查询功能。Mahout:可扩展的机器学习和数据挖掘库。Pig:用于并行计算的高级数据流语言和执行框架。
315.在数据可视化的图表选择中,下列选项中不属于局部整体型图表的是?(D)A:百分比堆积面积图B:旭日图C:沃洛诺伊图D:散点图E:南丁格尔玫瑰图
解析:饼图、圆环图、半圆环图、扇形图、马赛克图、南丁格尔玫瑰图、沃洛诺伊图、百分比堆积面积图、旭日图
316.进行数据清洗时,针对于不同的情况和场景需要选择不同的方法,以下对数据进行清洗的手段正确的是(ACD)A:缺失值填充B:集成不同的数据库C:重复值处理D:异常值和数据类型转换
317.大数据的四种计算模式解决了大数据中不同类型的数据处理问题,下列关于大数据处理分析计算模式,描述正确的是?(ABD)A:图计算(GraphProcessing)是将数据按照图的方式建模可以获得以往用扁平化的视角很难得到的结果B:查询分析计算是针对超大规模的数据的存储管理与查询分析,需要提供实时或者准时的响应,以满足企业管理的需求C:流计算是实时获取来自相同数据源的海量数据,经过实时分析处理,获得有价值的信息D:批处理计算就是对某对象进行批量的处理,也称为批处理脚本,它是一种简化的脚本语言,主要是针对大规模数据的批量处理
解析:流计算:实时获取来自不同数据源的海量数据经过实时分析处理,获取有价值的信息。
318.QuickBI数据可视化分析平台提供了丰富的组件,以下选项中哪些属于QuickBI的组件?(ACDE)A:指标B:存储C:趋势D:比较E:表格
319.下列选项中,分布式数据库系统特点不包括(D)A:独立透明性B:集中节点结合C:易于扩展性D:半透明性
解析:分布式数据库系统的特点:1、独立透明性;2、集中节点结合;3、复制透明性;4、易于扩展性。
320.平滑处理有哪些处理方式?(ABC)A:分箱B:回归C:聚类D:分类
解析:平滑处理旨在帮助去掉数据中的噪声,常用的方法包括分箱、回归和聚类等321.HBase是一个适合海量数据存储能支持线上业务实时查询的框架,以下不属于其特点的是(D)?A:高可靠性B:高性能C:面向列D:基于内存
解析:HBase–HadoopDatabase,是一个高可靠性、高性能、面向列、可伸缩、实时读写的分布式数据库。
322.关于Hadoop生态圈组件Sqoop是(C)。A:工作流引擎B:资源管理系统C:ETL工具D:分布式文件系统
323.大数据处理分析过程中的计算模式主要有哪些?(ABCD)A:批处理计算B:流计算C:查询分析计算D:图计算
解析:批处理计算、流计算、查询分析计算、图计算
324.随着大数据时代的发展,Hadoop生态圈组件越来越丰富。关于Hadoop生态组件Hive的功能,描述正确的是?(B)A:可扩展的分布式数据库,支持大表的结构化数据存储B:数据仓库基础架构,提供数据汇总和命令行即席查询功能C:可扩展的机器学习和数据挖掘库D:用于并行计算的高级数据流语言和执行框架
325.某系统需要统计员工订单数据以此考核员工业绩,通过DataWorks将本地订单数据同步到MaxCompute,通过分析得到客户对员工的好评率。实验步骤是(D)A:在DataWorks上传CSV数据-将本地MySQL数据导出CSV文件一编写SQL查询-数据分析B:将本地MySQL数据导出CSV文件-编写SQL查询-在DataWorks上传CSV数据-数据分析C:将本地MySQL数据导出CSV文件-在DataWorks上传CSV数据-数据分析-编写SQL查询D:将本地MySQL数据导出CSV文件-在DataWorks上传CSV数据-编写SQL查询-数据分析
解析:该场景下,业务数据存储在业务数据库Mysql中,上传Dataworks过程应如下:1、首先从Mysql导出业务数据库,存储CSV;2、将CSV文件导入Dataworks;3、按需编写SQL查询出指标数据;4、数据分析。
326.根据颜色的不同来反映不同区域的降水量,这是数据可视化在什么学科上的应用?(B)A:区域地理学B:可视性分析学C:空间可视化D:信息学
解析:“根据颜色不同来反映不同区域的降水量”体现了可视分析学
327.关于GMM基于模型的聚类,下列选项中哪些是正确的?(A)A:借助于一些统计模型来获得数据集的聚类分布信息B:采用图聚类方法进行聚类分折时,首先是建立与具体问题相适应的图C:利用模型来预测数据集合中未知样本的分类D:通过稀疏区域来划分高密度区域以发现明显的聚类和孤立点,主要用于空间型数据的聚类
解析:基于模型的聚类算法借助于一些统计模型来获得数据集的聚类分布信息。该方法假定数据集是由有限个概率分布模型共同作用生成的。
328.阿里云MaxCompute连接工具中,适用于初次体验者、数据分析师、安全管理员且不需要手动安装的是哪种工具?(A)A:查询编辑器MaxCompute控制台B:odpscmdC:DataWorks连接D:MaxComputeStudio
329.以下哪些场景属于数据采集(ABC)A:用户画像B:企业业务数据收集C:实时推荐D:客户社会关系挖掘
解析:用户画像、企业业务数据收集、实时推荐
330.阿里云大数据产品中属于大数据分析与可视化类产品的有哪些?(ACD)A:DataV数据可视化B:智能开放搜索OpenSearchC:QuickAudience智能用户增长D:QuickBI数据可视化分析
解析:DataV数据可视化是使用可视化应用的方式来分析并展示庞杂数据的阿里云产品;智能开放搜索OpenSearch是基于阿里巴巴自主研发的大规模分布式搜索引擎搭建的一站式智能搜索业务开发平台;QuickAudience集数据资产构建、用户分析、精准营销投放、跨端社交互动和全域会员管理为一体的全域消费者运营平台;数据可视化分析工具(中国唯一入选GartnerABI魔力象限的BI产品),无缝对接各类云上数据库和自建数据库,大幅提升数据分析和报表开发效率
331.阿里云大数据产品中属于大数据分析与可视化类产品的有哪些?(ACD)A:DataV数据可视化B:智能开放搜索OpenSearchC:QuickAudience智能用户增长D:QuickBI数据可视化分析
332.LogicalOptimizer在Hive的SQL语句执行过程中的作用是什么?(A)A:重新逻辑查询计划B:解析查询SQLC:生成逻辑查询计划D:优化物理查询计划
解析:重写查询计划(logicaloptimizer)
333.ApacheSpark是专为大规模数据处理而设计的快速通用的计算引擎,下列选项中,哪些是Spark的核心组件?(ABC)。A:SparkStreamingB:SparkSQLC:SparkGraphxD:SparkIO
解析:Spark的核心组件:SparkSQL、SparkStreaming、GraphX、SparkMLlib、SparkCore
334.在数据可视化的图表选择中,下列选项中属于局部整体型图表的是?(ABC)A:饼图B:百分比堆积面积图C:百分比堆积柱形图D:散点图
解析:局部整体型图表,包括饼图、圆环图、散点复合饼图系列、马赛克图、百分比堆积柱形图、百分比堆积面积图等约20张图表
335.人们常使用阿里云DataWorks进行数据集成,该产品提供复杂网络环境下、丰富的异构数据源之间高速稳定的数据移动及同步能力。以下关于DataWorks数据集成说法中正确的是(BCD)。A:离线同步场景下,不支持设置离线同步任务的调度周期B:支持数据库、数仓、NoSQL数据库、文件存储、消息队列多种不同异构数据源之间的数据同步C:支持在各类复杂网络环境下,连通数据源的网络解决方案,无论数据源在公网、IDC还是VPC内,均可使用DataWorks数据集成实现网络连通D:支持安全控制与运维监控,保障数据同步的安全、可控
336.SparkStreaming是Spark核心API的扩展,可以实现高吞吐量的,具备容错机制的实时流数据处理框架。在SparkStreaming工作机制中,哪个组件是负责接收DStream输入流?(A)A:ReceiverB:ExecutorC:ClusterManagerD:SparkContext
解析:输入流接收器(Receiver)负责接入数据,是接入数据流的接口规范。
337.下列对Hadoop生态组件Mahout,描述正确的是(C)A:可扩展的分布式数据,支持大表的结构化数据存储B:数据仓库基础架构,提供数据汇总和命令行即席查询功能C:可扩展的机器学习和数据挖掘库D:用于并行计算的高级数据流语言和执行框架
338.Hologres采用可扩展的MPP架构全并行计算,向量化算子发挥CPU极致算力,ORC格式列存优化索引,SSD存储优化io,支持PB级数据(D)。A:联机事务处理(OLTP)B:联邦查询,外表加速(Federation)C:高性能主健点查(Serving)D:亚秒级交互式分析(OLAP)
339.关于开源大数据开发平台E-MapReduce(简称EMR)的特点,描述正确的是(ABDE)A:稳定可靠的开源组件B:易用性C:高成本D:弹性E:深度整合
解析:企业业务数据指业务系统在运行过程产生的数据直接记录在数据库中
341.Mapreduce是一个分布式运算程序的编程框架,关于Mapreduce,描述正确的是(A)。A:适合海量静态数据(批数据)计算B:磁盘IO开销不大C:易编程,适合实时计算D:是分布式计算框架,当一台机器失败后,可以手动切换至其他节点运行该任务
解析:MapReduce的优点:1、易于编程。用户只关心业务逻辑,实现框架的接口。2、良好的扩展性。可以动态增加服务器,解决计算资源资源不足问题。3、高容错性。任何一台机器挂掉,可以将任务转移到其他节点。4、适合海量数据计算(TB/PB),几千台服务器共同计算。缺点:不擅长实时计算
342.在数据预处理的中,数据转化策略常见有五种,以下选项中数据转化策略与解释对应的有(ABC)。A:数据泛化处理指数据对象抽象化。把相对低层的值用较高层概念替换来汇总数据B:属性构造处理根据已有属性集构造新的属性,并加入到现有的属性集合中,后续数据处理直接使用C:规范化处理,将属性性值按比例缩放至特定的区间D:分类处理指对数据进行分类汇总操作
解析:数据泛化处理就是用更抽象(更高层次)的概念来取代低层次或数据层的数据对象。
343.ApacheSpark是一款常用于大数据工作负载的开源分布式处理系统,关于Spark核心组件的作用,描述错误的是(A)A:sparkstreaming提供离线计算组件B:sparkSQL是一个用来处理结构化数据的Spark组件C:SparkCore基于内存多语言执行的核心引擎D:Graphx是一个分布式图处理框架
解析:SparkStreaming提供流计算组件。
344.随着大数据时代的发展,Hadoop生态圈组件越来越丰富。关于Hadoop生态圈组件Hive,描述正确的是(B)A:工作流引擎B:数据仓库C:分布式计算框架D:列式数据库
解析:数据仓库工具。
345.数据采集中,采集的数据分为离线数据和实时数据,其中属于离线数据的是(AC)。A:业务数据B:日志数据C:网络数据D:传感器设备数据
解析:离线数据包含业务数据、网络数据。
346.文件系统(FileSystem)用于存储()类型的数据。(A)A:半结构化数和非结构化数据B:结构化数据和非结构化数据C:半结构化数据和结构化数据D:非结构化数据
解析:文件系统(FileSystem)用于存储半结构化数据和非结构化数据。
347.以下选项中,关于Hive的描述正确的是(ACD)A:Hive是构建在Hadoop上的数据仓库框架B:Hive本质操作是依赖Hadoop执行Hive自己的计算任务。Hive是一个计算引擎C:某种程度上可以看作是用户编程接口,本身不存储D:依赖分布式文件系统HDFS存储数据
解析:Hive是一个构建于Hadoop顶层的数据仓库工具,主要用于对存储在Hadoop文件中的数据集进行数据整理、特殊查询和分析处理。Hive在某种程度上可以看作是用户编程接口,本身不存储和处理数据,依赖HDFS存储数据,依赖MapReduce处理数据。
348.SparkStreaming是Spark核心组件,可以实现高吞吐量的,具备容错机制的实时流数据处理框架,在SparkStreaming工作机制中,哪个组件是流处理系统中所有功能的主要入口点(D)A:RecelverB:ExecutorC:clusterManagerD:Sparkcontext
解析:StreamingContext是所有流功能的主要入口点
349.机器学习PAI(PlatformofArtificiallnteligence)是阿里云人工智能平台。采用机器学习PAI平台可视化,构建算法模型步骤,正确的是(C)。A:新建工作空间一创建模型一关联资源一操作工作流一效果预览及发布B:新建工作空间一关联资源一操作工作流一创建模型一效果预览及发布C:新建工作空间一关联资源一创建模型一操作工作流一效果预览及发布D:新建工作空间一创建模型一操作工作流一关联资源一效果预览及发布
解析:新建工作空间一关联资源一创建模型一操作工作流一效果预览及发布。
350.Mahout是ApacheSoftwareFoundation(ASF)旗下的一个开源项目,提供一些可扩展的(B)领域经典算法的实现,旨在帮助开发人员更加方便快捷的实现算法,创建只能应用程序。A:人工智能B:机器学习C:云计算D:数据分析
解析:数据源支持Oracel、mysql等多种数据库或数据仓库;DataWorks支持MySQL、HBase、Kafka等类型的数据源;Dataworks同时支持OTS、OSS、FTP等文件数据库和非关系型数据库;DataX可以实现数据源相互转换
352.回归属于有监督学习算法,以下哪个不属于回归算法应用的场景(B)A:根据新输入父亲的身高来分析其孩子的身高B:分析用户是否会购买电脑C:根据现有房价信息,预测未来的房价D:根据历史的天气数据,预测未来的天气
353.监督学习利用一组已知类别的样本来训练模型,这些输入的数据又被称为什么(B)A:测试数据B:训练数据C:验证数据D:结果数据
解析:训练集用来训练模型,测试集用来选择最优模型,验证集用来验证模型复杂度
354.按照学习方式不同进行分类,以下哪个不属于机器学习的分类(D)A:监督学习B:无监督学习C:半监督学习D:全监督学习
解析:目前机器学习主流分为:监督学习,无监督学习,强化学习,半监督学习无全监督学习概念
355.MaxCompute的存储和计算独立扩展,支持企业将全部数据资产在一个平台上进行联动分析,消除数据孤岛;实时根据业务峰谷变化来分配资源。上述文字体现了MaxCompute在大数据处理与分析中的(A)作用?A:弹性能力与扩展型B:集成AI能力C:支持流式采集和近实时分析D:数据存储能力
356.Hologres基于行存表的主键索引和查询引擎的短路径优化,支持每秒数十万QPS高性能服务型点查,支持高吞吐更新,相比开源系统性能提升10倍以上。体现了Hologres在大数据处理与分析中的什么作用?(C)A:亚秒级交互式分析(OLAP)B:联邦查询,外表加速(Federation)C:高性能主键点查(Serving)D:联机事务处理(OLTP)
357.(C)平台将基础设施(计算资源和存储)作为服务出租。如阿里云的各种云资源、自己购买原材料制作披萨。A:SaaSB:PaaSC:laaSD:Daas
解析:IaaS将基础设施(计算资源和存储)作为服务出租
359.下列关于Hadoop的生态组件Sqoop概念的描述,哪些说法是正确的?(B)A:是一个基于工作流引擎的开源框架,提供对Hadoop。MapReduce和PigJobs的任务调度与协调B:是一种用于在HDFS和RDMS之间传输数据的工具C:是一种支持ApacheHadoop集群的安装、部署、配置和管理的工具D:是大数据集日志收集的框架
解析:是一种用于在HDFS和RDMS之间传输数据的工具
360.在SparkSQL架构中,哪个组件负责将物理执行任务解析成Spark能运行的任务?(D)A:MetastoreB:CacheManagerC:PhysicalPlanD:Execution
解析:Spark要想很好地支持SQL,就需要完成解析(Parser)、优化(Optimizer)、执行(Execution)三大过程。Catalyst优化器在执行计划生成和优化的工作时候,它离不开自己内部的五大组件,具体如下所示。Parse组件:该组件根据一定的语义规则(即第三方类库ANTLR)将SparkSql字符串解析为一个抽象语法树/AST。Analyze组件:该组件会遍历整个AST,并对AST上的每个节点进行数据类型的绑定以及函数绑定,然后根据元数据信息Catalog对数据表中的字段进行解析。Optimizer组件:该组件是Catalyst的核心,主要分为RBO和CBO两种优化策略,其中RBO是基于规则优化,CBO是基于代价优化。SparkPlanner组件:优化后的逻辑执行计划OptimizedLogicalPlan依然是逻辑的,并不能被Spark系统理解,此时需要将OptimizedLogicalPlan转换成physicalplan(物理计划)。CostModel组件:主要根据过去的性能统计数据,选择最佳的物理执行计划。
362.(C)是淘宝开源的一套高性能文件存储系统。为淘宝提供海量小文件存储,通常文件大小不超过1M,满足了淘宝对小文件存储的需求。A:MogileFSB:GFSC:TFSD:FastDFS
解析:TaobaoFileSystem(TFS)是淘宝内部使用的分布式文件系统。
363.随着大数据时代的发展,Hadoop生态圈组件越来越丰富。关于Hadoop生态组件ZooKeeper,描述正确(A)A:用于分布式应用的高性能协调服务B:是一种支持ApacheHadoop集昨的安装、部署、配置和管理的工具C:是一种用于在HDFS和RDMS之问传输数据的工具D:是一个基于工作流引整的开源框架,提供对Hadoop、MapReduce和PigJobs的任务调度与协调E:是大数据集日志收集的框架
364.关于阿里云大数据产品实时数仓Hologres的描述,正确的是(ACD)A:支持PB级数据多维分析(OLAP)与即席分析(AdHoc)B:支持高并发低延迟的离线数据服务(Serving)C:数据实时写入、实时更新,写入即可见,与Flink原生集成,支持高吞吐、低延时、有模型的实时数仓开发,满足业务洞察实时性需求D:标准SQL协议,无缝对接主流BI和SQL开发框架,无需应用重写。支持数据湖场景,支持JSON等半结构化数据,OSS、DLF简易入仓
365.Pig是Hadoop生志圈的组件之一,Pig的数据处理语言采取()方式,一步一步地进行处理。(A)A:数据流B:并行计算C:分布式计算D:分布式协调服务
解析:Pig的数据处理语言是数据流方式的,一步一步的进行处理
解析:大数据4V的特征:Volume规模性、Variety多样性、Velocity高速性、Value价值型
解析:-dfp指定DATETIME类型数据格式,默认格式为yyyy-MM-ddHH:mm:ss。-fd指定本地数据文件的列分割符,默认值为英文逗号(,J12+8的数据上传,可以通过命令行指定用户数据日期格式的formatpattern。如:yyyyMMddHHmmss:数据格式20140209101000yyyy-MM-ddHH:mm:ss(默认):数据格式2014-02-0910:10:00yyyy年MM月dd日:数据格式2014年09月01日
368.下列关于MaxCompute项目空间保护理解错误的是(D)?A:项目空间的数据保护,是否允许数据流出项目空间,默认值为falseB:一旦项目空间开启项目空间数据保护后,所有的数据只能在项目空间内流动。C:当需要将一个项目空间A的数据流转到项目空间B时,可以通过为A项目空间设置可信项目空间B达到需求。D:项目空间用户角色有操作权限
解析:开启项目空间的数据保护机制。项目空间Owner或授予Super_Administrator角色的用户有操作权限,项目空间Owner或授予Super_Administrator角色的用户有操作权限
369.DataWorks通过智能数据建模、全域数据集成、高效数据生产、主动数据治理、全面数据安全、数据分析服务六大全链路数据治理的能力,帮助企业治理内部不断上涨的“数据悬河”,释放企业的数据生产力,那么下列哪个(B)选项不属于六大链路内容A:ER建模B:数据存储C:任务统一调度D:数据库迁移
解析:DataWorks是一款工具,不会存储数据,需要添加存储计算引擎
370.基于阿里云QuickBI产品功能,以下描述错误的选项是(C)A:支持线上、本地、云端等多种环境的数据源接入B:支持跨源、异构的数据关联及查询C:OLTP事务和查询处理D:在PC端配置完成后,能在移动端和大屏终端自动适配
解析:OLAP灵活智能分析能力,自由上卷下钻、联动跳转,智能机器人预警预测分析
371.下列哪个(C)选项不属于在PAI-Studio上传自定义算法。A:通过PAI平台AI资产管理中的算法管理创建自定义算法B:在算法管理页面选择添加版本C:在PAI-Studio页面进行算法发布D:在PAI-Studio页面,通过拖拉拽的方式选择合适控件至中间页面参数设置区域
解析:在算法管理页面选择发布,可以发布到PAI-Studio
372.Hologres无缝对接MaxCompute,无需数据移动,支持外表透明加速BI访问,支持冷热数据关联分析,支持百万级每秒数据高速同步,支持OSS外表读写,简化数据入湖入仓。上述文字中体现了Hologres在大数据处理与分析中的(D)作用?A:亚秒级交互式分析(OLAP)B:高性能主键点查(Serving)C:联机事务处理(OLTP)D:联邦查询,外表加速(Federation)
373.在数据可视化的图表选择中,哪些属于数据关系型图表?(BCD)A:统计直方图B:散点图C:雷达图D:曲线图
解析:数据关系型图表包括散点图和雷达图、曲线图
374.大数据处理流程一般分为哪几个步骤?(ABDE)A:数据采集B:数据预处理C:数据计算D:数据分析E:数据展现
375.HDFS中的文件是以数据块的形式划分与存储的,Hadoop3:x的HDFS中默认BlockSize的大小是?(C)A:32MBB:64MBC:128MBD:256MB
解析:从2.7.3版本开始,官方关于DataBlocks的说明中,blocksize由64MB变成了128MB的。
376.云计算和大数据的关系密不可分,下列关于云计算和大数据的关系,描述正确的是(CD)A:大数据为云计算提供了技术基础B:云计算为大数据提供用武之地C:云计算解决大数据应用中存在的存储、计算等问题,所以云计算是大数据的一种技术展现形式D:大数据是以海量数据为基础,为各种计算服务技术提供数据支撑,保证技术应用(云计算、物联网等)的可靠性
解析:云计算为大数据提供技术基础、大数据为云计算提供了用武之地。
377.批处理计算模式已被广泛的用于大数据应用开发中,用户只需要提交计算任务,计算机根据任务切划分批量的数据操作执行计算,此过程期间,用户无需再与计算机进行交互。由此可以知道批处理计算的特点有(AC)A:脱机B:联机C:成批处理D:独立处理
解析:批处理操作系统的主要特点是:脱机、多道和成批处理。
378.与关系型数据库相比,以下选项中是对NoSQL特点描述正确的是?(D)A:支持事务处理B:支持SQL标准C:支持Join操作D:不需要固定的架构
解析:nosql特点:1、灵活的可扩展性;2、灵活的数据模型;3、NoSQL可以凭借自身良好的横向扩展能力,充分自由利用云计算基础设施,很好地融入到云计算环境中。4、nosql有着非常高的读写性能,特别是在大数据量之下。5、高可用。
379.以下哪些选项是数据挖掘算法?(ABCDE)A:分类B:聚类C:协同过滤D:回归分析E:关联规则F:遗传算法
解析:分类、聚类、回归分析、关联规则、协同过滤
380.阿里云大数据产品MaxCompute的特点有哪些?(ABCD)A:简单易用B:匹配业务发展的弹性扩展C:支持多种分析场景D:开源的平台
381.DataWorks数据集成支持哪些方式?(ABC)A:离线同步B:实时同步C:离线全增量同步D:不支持实时全增量
382.为了处理流式数据,满足流数据的应用价值,流计算系统应该具备的要求有(ACD)A:高性能B:精确性C:实时性D:分布式
解析:流计算系统要求:高性能、海量、实时性、分布式、易用性、可靠性
383.我们购买电影票前,常常会打开支付宝的“电影演出”小程序,看看电影口碑评分,影评的真实性会影响消费者的购买行为。收集的数据有真有假,那么会对大数据分析的结果有影响。体现了大数据的(E)特征。A:Volume规模性B:Veracity准确性C:Velocity高速性D:Variety多样性E:Value价值性
解析:大数据的4v特征分别是Volume(大量性)、Velocity(高速性)、Variety(多样性)、Value(价值性)。根据“看看电影口碑评分,影评的真实性会影响消费者的购买行为。收集的数据有真有假,那么会对大数据分析的结果有影响。“;体现了大量的数据并没有体现大量的价值。即价值密度低,符合Value价值性
384.下列关于HDFS读写说法正确的有?(A)A:一次写入,多次读B:一次写入,一次读C:多次写入,多次读D:多次写入,一次读
解析:一次写入多次读取:HDFS的模式是一次写入多次读取,没有随机修改编辑的操作,只能对既有的数据进行追加。
385.下列关于Azkaban概念的描述错误的?(A)A:Azkaban是由Linkedin公司推出的任务调试器,它的配置是通过简单的update方式对数据表进行修改实现B:Azkaban使用job文件建立任务之间的依赖关系,并提供一个易用的Web界面供用户管理和调度工作流C:Azkaban开箱即用,可以通过Shell执行JobD:Azkaban主要用于在一个工作流内以一个特定的顺序运行一组工作和流程
解析:Azkaban是由Linkedin公司推出的一个批量工作流任务调度器,主要用于在一个工作流内以一个特定的顺序运行一组工作和流程,它的配置是通过简单的key:value对的方式,通过配置中的dependencies来设置依赖关系。
386.ApacheSpark是一种用于大规模数据处理的统一(C)引擎。A:抽象B:集成C:分析D:存储
解析:ApacheSpark是用于大规模数据处理的统一分析引擎
387.Hadoop可以自动保存数据的多个副本,并且可以自动将失败的任务重新分配。上述文本体现了Hadoop的(A)特点。A:高容错B:高效率C:高扩展D:高可靠
解析:高容错:自动将失败的任务重新分配
388.SparkStreaming的执行流程中包含哪些步骤?(ACDE)A:InputdatastreamB:ShowProcessedDataC:SparkEngineD:BatchesofProcessedDataE:Batchesofinputdata
解析:SparkStreaming的执行步骤为:inputdatastream->sparkstreaming->batchesofinputdata->sparkengine->batchesofprocesseddata
389.数据可视化指使用点、线、图表、统计图或信息图表等工具对数据进行编码,在视觉上传达定量信息。下列选项中,属于数据可视化产品有(ABD)A:EchartsB:PowerBIC:TXTD:Tableau
解析:数据可视化软件有:echarts、FineBI、PowerBI、Tableau。
390.SparkSQL向用户提供标准的编程接口组件是?(B)A:MetastoreB:JDBC/ODBCC:CacheManagerD:PhysicalPlan
解析:Spark提供了一个基于海量数据的机器学习库,它提供了常用机器学习算法的分布式实现
392.Hadoop集群支持热插拔,在增加或删除节点时无需重新启动集群,极大提高了集群服务性能。体现了hadoop的(B)特点A:高可靠B:高扩展C:高效率D:高容错E:低成本
解析:高扩展性:增添或者删除DataNode(支持热插拔,即无需重新启动集群),都会通知NameNode及时更新metadata;
393.在Hive的架构中,哪个组件提供了元数据存储模块,用于保存表模式与其他系统元教据(D)A:HWIB:DriverC:JDBCD:Metastore
解析:Metastore用于保存表模式与其他系统元教据
394.数据可视化可以帮助非专业的工程师通过图形化的界面轻松搭建专业水准的可视化应用,满足您会议展览、业务监控、风险预警、地理信息分析等多种业务的展示需求。使用BI商业智能软件的主要目标用户是(A)A:应用开发人员B:业务分析师C:开发人员D:运维人员
解析:应用开发人员
395.使用网络爬虫对微博信息进行采集时,会使用到选项中哪些爬虫技术(AC)A:通用网络爬虫B:横向网络爬虫C:聚集网络爬虫D:增量网络爬虫
396.“网络数据采集"是指利用互联网搜索引擎技术实现有针对性、行业性、精准性的数据抓取,并按照一定规则和筛选标准进行数据归类,并形成数据库文件的一个过程,下列选项中,对网络数据采集描述正确的是(ABD)A:网络数据采集可以通过爬虫技术实现采集B:网络数据采集可以通过网站对外公开的接口实现获取数据C:网络数据采集只能获取片、音频和视频,不能获取其它信息D:网络数据采集主要作用就是将网页中非结构化的数据抽取出来,存储在本地数据文件中,经过简单处理以结构化的形式存储
解析:网络数据采集是指通过网络爬虫或网站公开API等方式从网站上获取数据信息。该方法可以将非结构化数据从网页中抽取出来,将其存储为统一的本地数据文件,并以结构化的方式存储。它支持图片、音频、视频等文件或附件的采集,附件与正文可以自动关联。
397.阿里云智能数据建设与治理Dataphin属于大数据产品体系中哪一类产品?(B)A:智能搜索与推荐B:数据开发和治理C:大数据计算与分析D:大数据工具与服务
398.阿里云数据集成DataIntegration属于阿里云大数据产品体系中的哪一类产品(C)A:数据开发和治理B:智能搜索与推荐C:大数据工具与服务D:大数据分析与可视化
解析:属于大数据工具与服务。
399.下列选项中关于MapReduce描述正确的是(C)。A:支持离线数据与实时数据的处理B:在对数据处理过程中除了支持Map与Reduce方法外还可以自定义方法来完成数据的处理C:使用在分布式计算框架,所以当一台机器失败后,会导致计算任务重启D:过多的磁盘操作缺乏对分布式内存的支持,不能高效的支持迭代式计算
400.阿里云大数据体系由多个大数据组件组成,下列技术中,哪一个属于阿里云大数据体系(D)A:YarnB:ZooKeeperC:PigD:DataWorks
解析:Yarn是开源hadoop体系中的资源调度框架;Zookeeper是开源hadoop体系中的协调服务;pig是开源数据库;DataWorks是阿里云数据工场
403.关于数据可视化分析平台QuickBI的价值,描述正确的是?(ABD)A:帮助企业构建自上而下的决策分析体系B:实现业务流程和数据分析直接协同C:帮助非专业的工程师通过图形化的界面轻松搭建专业水准的可视化应用D:形成数据消费和价值洞察的企业文化
404.在进行数据预处理时,经常会遇到有缺失值的情况,解决此问题的方法有很多,下列选项中处理缺失值的方法有(ABD)A:剔除含有缺失值的样本B:变量的缺失值很多且无价值,可删除C:转换和分箱D:用一个特殊码代表缺失值
解析:缺失值处理方法:直接删除法、LOCF法、虚拟变量法、均值填补法、回归填补发
406.DataV数据可视化应用的主要目标用户是?(D)A:业务分析师B:开发人员C:运维人员D:应用开发人员
解析:DataV旨在通过图形化的界面帮助不同专业背景的用户轻松搭建专业水准的可视化应用,满足会议展览、业务监控、风险预警、地理信息分析等多种业务的展示需求。
407.大数据处理分析过程中,根据数据的类型不同,如存储在数据库的静态历史数据,实时的热点数据或者图形数据,从而衍生出了不同的计算模式。关于大数据处理分析的计算模式,主要分为(ABCE)A:批处理计算B:流计算C:查询分析计算D:数据存储计算E:图计算
408.下列选项中,关于数据可视化图表类型,不属于类别比较型的是?(D)A:条状图B:瀑布图C:坡度图D:气泡图
解析:类别比较型图表,包括柱形图、条形图、不等宽柱形图、克利夫兰点图、桑基图、坡度图、南丁格尔玫瑰图、雷达图和词云图等
409.Pig是Hadoop生态圈的组件之一,关于Pig,描述错误的是?(D)A:Pig是一个基于Hadoop的大规模数据分析平台B:Pig是一个用于并行计算的高级数据流语言和执行框架C:Pig有一套和SQL类似的执行语句,处理的对象是HDFS上的文件D:Pig的数据处理语言采取分布式消息订阅发布方式
解析:Pig是一个基于Hadoop的大规模数据分析平台。Pig的数据处理语言是数据流方式的,一步一步的进行处理;数据处理语言采取分布式消息订阅发布方式描述的是Kafka消息队列的功能
410.如果要使用阿里云MaxCompute,请按照什么步骤准备项目?(D)A:准备阿里云账号一准备RAM用户一开通MaxCompute一添加工作空间成员并设置角色一创建MaxCompute项目一进入工作空间进行开发任务B:准备阿里云账号一准备RAM用户一添加工作空间成员并设置角色一开通MaxCompute一创建MaxCompute项目一进入工作空间进行开发任务C:准备阿里云账号一开通MaxCompute一准备RAM用户一创建MaxCompute项目一添加工作空间成员并设置角色一进入工作空间进行开发任务D:准备阿里云账号一准备RAM用户一开通MaxCompute一创建MaxCompute项目一添加工作空间成员并设置角色一进入工作空间进行开发任务
411.下列哪几个组件属于SparkSQL架构(ACD)A:SQLParserB:CompilerC:OptimizerD:Execution
解析:Spark的三大过程:解析(Parser)、优化(optimizer)、执行(execution)。
412.关于阿里云实时数仓Hologres的特点,描述不正确的是(B)A:高性能B:高吞吐C:高可靠D:低成本
413.聚类是数据挖掘中常用的算法,在不同的应用场景下,需要应用不同的聚类算法。因此,聚类算法可以按照不同的类型进行分类,下面分类标准正确的是(ABC)A:基于划分B:基于层次C:基于密度D:基于精度
解析:基于划分的聚类方法:基于划分、基于层次、基于密度、基于网格、基于模型、基于图的方法
414.使用MaxComputeSQL更新数据时,以下选项中说法中不正确的是(D)A:一条SQL语句只能操作一张表B:只能将源分区或表数据导入到新分区成表(新分区或表可以与避分区成表相同)C:对于非分区列,只支持重命名和新建列,不支持对列的删除D:对于非分区列,只支持新建列,支持对列的删除
415.在QuickBI数据可视化分析平台的四大优势中,可以拖拽式数据建模和可视化分析,符合哪种优势?(B)A:强大的Quick数据引擎B:快速搭建数据门户C:智能数据分析和交互D:安全管控不能设置权限
解析:快速搭建数据门户:拖拽式数据建模和可视化分析,帮助您快速搭建数据门户
416.Sqoop是用于在Hadoop与传统的数据库之间进行数据的传输的工具,Sqoop可以(C)A:Sqoop可以把数据导入到Excel中B:Sqoop可以自动把数据存储在硬盘里C:Sqoop可以将关系型数据库中的数据导入到HBaseD:Sqoop可以将Hadoop中的数据导出到Hive中
解析:Sqoop是一个用于在Hadoop与传统关系型数据库之间进行数据传输的开源工具。借助Sqoop,可以将关系型数据库中的数据导入到Hadoop生态系统(如HDFS、HBase)中进行分析处理,也可以将Hadoop中的数据导出到关系型数据库中进行后续处理或持久化存储。Sqoop本身并不支持将数据直接导入到HBase,但我们可以通过将数据先导入到HDFS中,然后利用HBase提供的BulkLoad功能将数据加载到HBase中
417.关于线图,说法错误的是?(B)A:线图又叫折线图B:线图可以显示多个维度,但是只能显示一个度量C:线图可以展现较大的数据集D:当通过线图展现趋势时,必须包含一个有序因变量
解析:线图展示的是两个维度间的趋势关系
解析:机器学习除了优秀的模型还需合格的数据做支撑,实际生产中不是理想话的环境可能遇到很多问题达不到预期效果
419.实现精准营销服务必需知道客户需求,根据需求设计产品提供服务,下面的的说法哪个是不准确的(B)。A:居委会过年前去走访“低保户"明确困难,制定各自的解决方案,是一种精准服务的体现。B:企业生产不同规格的产品就是精准营销C:精准营销服务的关键之一是如何区分客户,如何定位客户D:精准营销的极致就是千人千面式的服务,但实现成本会很高
解析:精准营销一定要涉及到客户需求,不同规格的产品没有涉及到具体客户,不能算精准营销
420.聚类算法得到的客户分群结果可以通过一系列的原则进行评估,判断最终结果的优劣,这些原则不包括(D)。A:群间特征差异性明显B:群内特征是否相似C:分群的个数及各群人数是否分布相对合理D:分群数目较少,便于进行策略制定和实施
解析:分群数目应根据实际业务情况判断得出,而不是越少越有利
解析:数据质量是数据分析的前提;数据加密为了数据安全;数据质量的重要性,直接影响系统能否成功;数据质量问题不能忽略
422.在某个客户管理系统中,客户年龄(具体年龄取值)在客户信息表和客户分群信息表(记录了年龄层次)中信息有差异,此种数据主要体现了哪种类型的数质量问题?(D)A:缺失值B:重复值C:数据完整性D:数据不一致
解析:信息有差异,代表数据一致性不足
423.分析师小王为公司预测某种产品销量,目标是将下个周期的预测误差控制在10%以内,并洞察价格和促销方法对该产品销量的影响。小王使用了公司中一直在使用的预测模型后,发现预测非常不准,原来是因为该产品的促销周期跟其他大多数产品不一样。正确的销售预测流程是确定目标>整理数据>选择方法>建立模型>编写报告。对于小王的疏忽,最准确的描述是(C)A:小王没有问清楚该项目的目标B:小王没有分析和整理好原始数据C:小王选择了错误的预测方法D:小王的建模调参水平不行
解析:目标是将下个周期的预测误差控制在10%以内,并洞察价格和促销方法对该产品销量的影响。目标明确;小王使用了公司中一直在使用的预测模型后,发现预测非常不准,原来是因为该产品的促销周期跟其他大多数产品不一样,以上说明公司产品特殊不应该使用和其他产品一样的预测模型
424.在进行数据分析之前,需要对数据进行处理,下列哪项不是数据预处理操作?(D)A:数据清洗,去噪声和无关数据B:数据集成,将多个数据源中的数据结合起来存放在一个一致的数据存储中C:数据变换,把原始数据转换成为适合数据挖掘的形式D:选择合适的算法模型进行数据建模
解析:数据预处理:数据清洗、数据集成、数据变换、数据规约
425.DataWorks的任务运维工作在运维中心模块进行,模块的主要功能不包含下列哪个选项内容?(D)A:运维概览B:任务列表C:智能监控/智能诊断D:任务调度
解析:运维中心的主要功能包含运维概览、任务列表、智能监控/智能诊断、任务运维
426.小明想要使用DataV为公司设计一个实时监控型可视化大屏,以下哪个(D)数据源可以配合DataV实现大屏制作。A:HbaseB:HiveC:MaxComputeD:RDSforMySql
解析:DataV产品支持的数据源包括:AnalyticDBforMySQL、RDSforMySQL、兼容MySQL数据库、RDSforPostgreSQL、RDSforSQLServer、CSV文件、DataV数据代理服务、API、静态JSON、OpenAPI、对象存储OSS、简单日志服务SLS、TableStore、Oracle、阿里云API网关、业务实时监控、交互式分析Hologres、ElasticSearch、区块链服务、宜搭数据源、PolarDBforMySQL、PolarDBforPostgreSQL、PolarDBforOracle、OceanBaseforMySQL和数据集等。
427.遇到样本不均衡时,如何处理。比如正样本包含95700条数据,负样本包含5000条数据,合适的处理方法是(ABC)?A:从正样本中抽样5000条数据B:将负样本重复20次,并打乱顺序C:提升负样本的权重D:为了让模型自主学习数据规律,将全部数据用于训练
解析:常用的处理样本不均衡的操作包括:上采样、下采样和提升权重
428.关于PAI-DSW读写数据大文件(大于300M)下载描述正确的是(AD)。A:如果数据在DSW提供的默认空间里,先将数据拷贝到挂载的NAS中再下载B:使用DSW前端下载工具下载C:可以直接下载D:通过服务器FTP方式下载,只支持用户自己挂载的NAS下载
解析:如果文件不超过300M,建议直接使用DSW前端下载工具下载,直接在DSW中右键文件,点击download如果文件大于300M,建议通过服务器FTP方式下载,目前这种下载方式只支持用户自己挂载的NAS下载,如果数据在DSW提供的默认5GB存储空间中,可先将数据拷贝到自己挂载的NAS中再下载。
429.Sqoop是用于在Hadoop与传统的数据库之间进行数据的传输的工具,其特点有(ABC)A:高性能B:自动类型转换C:自动传播元信息D:弹性伸缩
解析:Sqoop的特点:性能高、自动类型转换、自动转换元信息
430.HBase是一个能完成海量数据的存储的工具,支持线上业务的实时查询,基于列族的数据库,以下选项中,关于HBase描述正确的?(AD)A:是一种NoSQL数据库B:不是开源的C:是面向对象的D:高可用的
解析:HBase是一种面向列的开源NoSQL数据库。HBase是一个高可靠性、高性能、列存储、可伸缩、实时读写的分布式数据库系统,基于列的存储模式适合于存储非结构化数据。
解析:大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)
432.以下哪些是关系型数据库?(B)A:MongoDBB:DB2C:RedisD:NoSQL
解析:DB2是美国IBM公司开发的一套关系型数据库管理系统。
433.数据仓库可以存储多个数据源的数据,对数据加工后产生的信息,最终用于企业的决策,以下选项中可以说明数据仓库作用的是?(ABC)A:数据分析B:数据挖掘C:数据存储D:数据应用
435.下列选项中,关于数据可视化图表类型,不属于地理空间型的是?(D)A:简化示意图B:分级统计地图C:点描法地图D:坡度图
解析:地理空间型图表:分级统计地图、点描法地图、带柱形地图、简单示意图
436.ApacheSpark是专为大规模数据处理而设计的,下列选项中,哪些项不属于Spark的特点(D)A:批处理/流式数据B:SQL分析C:大规模数据存储D:大规模科学计算E:机器学习
解析:大规模科学计算不属于
437.Fume是基于流式的架构,它是一个高可用的,高可靠的数据采集工具,以下对其描述正确的是(BC)A:Flume采集主要针对业务系统产生的日志数据进行收集B:Flume支持日志数据采集功能C:Flume是分布式的海量日志采集、聚合和传输的系统D:Flume支持数据库数据采集功能
解析:Flume由Cloudera公司开发,是一个分布式、高可靠、高可用的海量日志采集、聚合、传输的系统。
438.阿里云QuickAudience智能用户增长属于阿里云大数据产品体系中的哪一类产品(A)A:大数据分析与可视化B:大数据计算与分析C:数据开发和治理D:大数据工具与服务
439.在DataWorks中,需要为每个项目指定一个计算引擎,即该项目中的数据存储和处理将使用该指定的计算引擎。关于计算引擎的说法中最准确的是(D)。A:支持HadoopMapReduce作为计算引擎B:只能使用已创建项目的MaxCompute作为计算引擎C:只能使用包年包月形式的MaxCompute作为计算引擎D:支持MaxCompute、E-MapReduce、机器学习PAI等多种引擎
解析:不支持开源的MapReduce,支持E-MapReduce计算引擎可以使用E-MR引擎可以使用包年包月、按量付费等dataworks为您提供数据集成、数据开发、数据地图、数据质量和数据服务等全方位的产品服务,一站式开发管理的界面,帮助企业专注于数据价值的挖掘和探索。DataWorks支持多种计算和存储引擎服务,包括离线计算MaxCompute、开源大数据引擎E-MapReduce、实时计算(基于Flink)、机器学习PAI、图计算服务GraphCompute和交互式分析服务等,并且支持用户自定义接入计算和存储服务。
440.DataWorks项目空间的管理员角色拥有项目空间的各种管理权限,以下操作中(D)必须由拥有项目管理员角色的成员来完成。A:创建DataWorks项目空间B:把组织成员添加为项目成员并分配合理的角色C:添加调度资源组D:添加数据源
解析:项目管理员完成添加数据源,创建DataWorks项目空间,把组织成员添加为项目成员并分配合理的角色,添加调度资源组,由组织管理员完成
解析:大数据的处理思路:减治:将问题化简成一个更简单的能处理的问题分治:将问题拆分成多个可以简单求解的小问题
443.通过QuickBI连接外部数据源,进行数据分析和报表搭建时,主要分为以下哪几个(ACEF)步骤。A:连接数据源B:数据加工C:数据建模D:配置监控告警E:数据可视化分析F:发布共享
444.以下关于阿里云Flink版框架的描述,描述正确的是?(D)A:Flink版运行在阿里云容器服务和ECS等SaaS系统上B:Flink版与ApacheFlink功能相同,但相互不兼容C:Flink是一个流批一体的计算框架D:将各种不同的实时数据源中的数据进行实时订阅、处理与分析。
解析:Flink主要的应用场景就是将各种不同的实时数据源中的数据进行实时的订阅、处理、分析,并把得到的结果写入到其他的在线存储之中,让您直接生产使用。
445.在传统的大数据批处理系统中,关于Mapreduce缺点,下列说法正确的是(ABCD)?A:中间结果多B:不擅长实时计算C:延迟高D:磁盘IO开销大
解析:MapReduce的缺点:1、无法在毫秒或秒级内返回结果;2、输入数据集是动态的,不能动态变化;3、每次作业后输出结果都会写入磁盘、会造成大量磁盘IO,导致性能低下;4、Mapreduce因分布式计算并行能力强。
446.下列(B)属于某开源分布式文件系统,且适合以文件为载体提供在线服务?A:OSSB:FastDFSC:HDFSD:S3
解析:FastDFS是一个开源的分布式文件系统,它对文件进行管理,功能包括:文件存储、文件同步、文件访问(文件上传、文件下载)等,解决了大容量存储和负载均衡的问题。特别适合以文件为载体的在线服务,如相册网站,视频网站等等。
447.在SparkSQL架构中,(A)组件负责执行计划生成和优化?A:CatalystB:ExecutionC:SQLParserD:PhysicalPlan
解析:SparkSQL执行计划生成和优化都由Catalyst(函数式关系查询优化框架)负责。
448.MapReduce的优点有哪些?(AB)A:实现简单接口,即可完成分布式程序B:使用在分布式计算框架,所以当一台机器失败后,可以自动切换至其他节点运行该任务C:只适合少量的数据处理D:可以通过配置Map任务数来扩展计算能力
解析:MapReduce的优点:1、易于编程。用户只关心业务逻辑,实现框架的接口。2、良好的扩展性。可以动态增加服务器,解决计算资源资源不足问题。3、高容错性。任何一台机器挂掉,可以将任务转移到其他节点。4、适合海量数据计算(TB/PB),几千台服务器共同计算。
449.MaxCompute集成AI能力体现在(ABC)?A:与PAI的无缝集成B:与Spark-Mllib结合C:使用Python的第三方机器学习库D:与Mahout框架的集成
450.数据分析有两大要素,一为理论,二为技术,理论与技术的结合,才真正的构成了数据分析。那么关于数据分析的理论与技术,下面说法正确的是?(BD)A:数据分析理论包含统计学、机器学习、数据挖掘算法、数据存储B:数据分析技术包含单机分析工具、单机编程语言(如Python等)、大数据处理技术(如MapReduce、Spark、Hive等)C:大数据时代前以少量数据分析为主,编写单机程序,计算分析结果D:大数据时代后借助分布式计算框架,处理海量数据,完成数据分析
解析:数据分析技术包含单机分析工具、单机编程语言(如Python等)、大数据处理技术(如MapReduce、Spark、Hive等)
451.某超市通过分析顾客的购买记录后发现,购买纸尿裤的人由较大的概率也会购买啤酒,这个案例数据大数据分析的哪种类型的问题(D)A:聚类B:时序分析C:分类D:关联分析
解析:典型的数据挖掘中的关联分析案例
453.机器学习PAI(PlatformofArtificialItelligence)是阿里云人工智能平台,提供一站式的机器学习解决方案。以下哪个不属于机器学习平台PAI的基础设施(C)A:CPU集群B:GPU集群C:自建集群D:FPGA集群
解析:PAI的基础硬件包括CPU/GPU/NPU/FPGA
454.大数据存储一般采用的是分布式存储技术,以下关于分布式存储说法正确的是(C)A:Hadoop的分布式存储技术是GFSB:分布式存储要求底层有多台高性能存储服务器C:分布式存储实现数据冗余,提高了数据的安全性D:分布式存储方式无法存储传统的结构化数据
解析:Hadoop的分布式存储技术是HDFS;分布式存储不要求底层服务器高性能,多台服务器同时提供服务;冗余存储,副本技术,保障数据安全;分布式存储Hive即为结构化存储
455.DataWorks基于(ABCDF)等大数据引擎,为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台。A:MaxCompute、B:HologresC:AnalyticDBD:EMRE:HadoopF:CDP
解析:DataWorks基于MaxCompute、Hologres、EMR、AnalyticDB、CDP等大数据引擎,为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台。从2009年起,DataWorks不断沉淀阿里巴巴大数据建设方法论,支撑数据中台建设,同时与数万名政务、央国企、金融、零售、互联网、能源、制造、工业等行业的客户携手,不断提升数据应用效率,助力产业数字化升级。
解析:饼状图广泛用于各个领域,以表示不同类别的比例,并通过弧线比较各种类别。饼形图不适用于多个数据系列,因为随着数据系列的增加,每个切片将变得更小,最后大小区别也不明显。饼图也可以制成多层饼图,显示不同类别数据的比例,同时也反映层次关系。主要应用场景序列比率,序列大小比较(玫瑰图)
457.文件系统是计算机中管理文件的程序,以下哪些选项是文件系统的功能?(ABD)A:新建文件B:存储文件C:存储结构化的数据D:提供文件的检索
解析:文件保护与检索、实现文件按名存取、管理存储介质、划分分区。
458.Hive是构建在Hadoop上的数据仓库框架,关于Hive的描述正确的是?(C)A:Hive的本质是将MapReduce转化成HQL程序,然后进一步提交给Hadoop框架执行B:不依赖分布式并行计算模型MapReduce处理数据C:定义了简单的类SQL查询语言HiveQL,用户可以通过编写的HiveQL语句运行MapReduce任务D:不依赖分布式文件系统HDFS存储数据
解析:Hive的本质是将HQL转换成MapReduce程序,然后提交给Hadoop框架执行;Hive依赖分布式并行计算模型MapReduce处理数据;Hive定义了简单的类似SQL的查询语言HiveQL。用户可以通过编写的HiveQL语句运行MapReduce任务;Hive依赖分布式文件系统HDFS存储数据;
459.在天气预报中的降雨量地图中,根据颜色不同来反映不同区域的降水量。这是数据可视化在(C)学科上的应用?A:科学可视化B:信息可视化C:可视化分析学D:空间可视化
解析:“根据颜色不同来反映不同区域的降水量”可视化分析学
460.数据挖掘中常见的分类算法有哪几种?(ABC)A:决策树B:朴素贝叶斯C:支持向量机D:循环神经网络
解析:数据挖掘中常见的分类算法有决策树算法、贝叶斯分类算法、支持向量机。
解析:MogileFS:是一套高效的文件自动备份组件GlusterFS:主要应用在集群系统中,具有很好的可扩展性。软件的结构设计良好,易于扩展和配置,通过各个模块的灵活搭配以得到针对性的解决方案。GoogleFS:性能十分好,可扩展性强,可靠性强。用于大型的、分布式的、对大数据进行访问的应用。运用在廉价的硬件上。FastDFS:一个开源的轻量级分布式文件系统,它对文件进行管理,功能包括:文件存储、文件同步、文件访问(文件上传、文件下载)等,解决了大容量存储和负载均衡的问题。TFS:TFS(TaobaoFileSystem)是一个高可扩展、高可用、高性能、面向互联网服务的分布式文件系统,主要针对海量的非结构化数据,它构筑在普通的Linux机器集群上,可为外部提供高可靠和高并发的存储访问。Ceph是一种为优秀的性能、可靠性和可扩展性而设计的统一的、分布式文件系统。
462.Oozie是Hadoop生态圈的组件之一,关于Oozie,描述正确的是(ACD)A:Oozie是一个用来管理Hadoop生态job的工作流调度系统B:Oozie由Apache公司贡献给clouderaC:Oozie是运行于Javaservlet容器上的一个JavaWeb应用D:Oozie的目的是按照DAG(有向无环图)调度一系列的MapReduce或者Hive等任务。
463.下列选项中,属于SparkSQL架构的组件是(ABDE)。A:SQLParserB:PhysicalPlanC:ThriftServerD:CatalystE:Execution
解析:SQLParser、PhysicalPlan、Catalyst、ExecutionSparkThriftServer是一个JDBC接口。
464.数据可视化可以帮助非专业的工程师通过图形化的界面轻松搭建专业水准的可视化应用,满足您会议展览、业务监控、风险预警、地理信息分析等多种业务的展示需求。BI商业智能软件的使用场景有(D)A:政务系统B:互联网运营分析C:公安消防D:货币金融
解析:货币金融
465.在数据分析的过程中,涉及到数据处理的概念。关于数据分析和数据处理,描述正确的是?(ACD)A:数据处理是对数据的采集、存储、检索、加工、变换和传输B:在数据处理中,数据分析体现在大量数据计算中C:数据分析通常与数据处理一起使用,两者之间密不可分,互相融合D:数据分析是根据分析目的,用适当的统计分析方法及工具,对收集来的数据进行处理与分析,提取有价值的信息,发挥数据的作用
解析:数据处理是对数据的采集、存储、检索、加工、变换和传输数据分析是根据分析目的,用适当的统计分析方法及工具,对收集来的数据进行处理与分析,提取有价值的信息,发挥数据的作用数据分析是指用适当的统计分析方法对收集来的大量数据进行分析;
466.Flume是基于流式的架构,用于海量日志采集的技术,关于它的三大核心组件Source、Channel、Sink,以下描述正确的是(AD)A:source负责接收不同类型、不同格式的日志教据B:channel保存source的写入的数据和Sink会到channel中取对应的数据发送目标地C:source负责接收、读取和写入数据D:sink负责从Channel中的获取数据,写入到接收方。
解析:source负责接收不同类型、不同格式的日志教据。sink负责从Channel中的获取数据,写入到接收方。channel完成数据缓存的功能。
467.在某个分析系统中,某个实体表保存了客户的月消费信息,发现有一个客户前三个月分别消费了320元、280元、330元,而本月消费2600元,此种数据主要体现了哪种类型的数质量问题(B)A:数据完整性B:异常值C:缺失值D:数据不一致
解析:差别过于大,体现了异常性
468.DataV数据可视化是使用可视化应用的方式来分析并展示庞杂数据的产品,以下哪个应用场景不是使用DataV可以实现的(D)A:开发天猫双11、阿里云城市大脑同款数据可视化应用B:开发工业级的数据可视化项目C:搭建专业级地理信息可视化应用D:搭建企业级数据分析平台
解析:DataV可以实现:1、开发天猫双11、阿里云城市大脑同款数据可视化应用。DataV提供了满足各类场景和人群需求的可视化应用工具,开箱即用,效果惊艳。;2、开发工业级的数据可视化项目。DataV新推出的专业版,面向软件开发商和开发者,提供更灵活的项目权限管理方案、自定义组件开发工具和强大的交互配置能力。;3、使用高性能的三维渲染引擎。DataV将游戏级三维渲染的能力引入地理场景,借助GPU计算能力实现海量数据渲染,提供低成本、可复用的三维数据可视化方案,适用于智慧城市、智慧交通、安全监控、商业智能等场景。;4、使用海量的炫酷图表组件。DataV支持绘制各类基础图表,接入ECharts、AntV-G2等第三方图表库,即便没有设计师,也可搭建出高水准的可视化应用。;5、搭建专业级地理信息可视化应用。DataV支持绘制地理轨迹、地理飞线、热力分布、地域区块、3D地球等效果,支持地理数据多层叠加。;6、使用行业模板创建可视化应用。DataV定制了数十种行业数据模板,用户简单修改即可使用,业务全景一目了然。企业级数据分析平台使用quickBI实现
469.在QuickBI中,可以使用不同的图表来显示不同的数据形式,以下哪个图表适合应用在显示数据值的趋势(C)A:雷达图B:漏斗图C:线图D:矩阵树图
470.数据分析是基于商业目的,有目的的进行收集、整理、加工和分析数据,提炼有价值信息的过程,以下哪些属于数据分析的流程(BCE)A:数据备份B:数据收集C:数据处理D:数据加密E:数据展现
解析:数据备份是出于数据安全考虑,进行数据灾备,可以进行数据恢复;数据加密同样是出于数据安全考虑,进行数据脱敏;数据分析的步骤为:收集数据、处理数据、分析数据、展现数据
解析:以RAM用户身份开通MaxCompute,需要获取RAM用户账号并已授予AliyunBSSOrderAccess和AliyunDataWorksFullAccess权限
473.阿里云DataV的基本操作流程包含下列哪些(BCDEF)选项。A:开通并本地部署DataVB:准备工作C:创建可视化应用D:添加并配置可视化组件E:调整组件图层位置F:预览并发布可视化应用
解析:阿里云DataV暂时不支持本地部署
474.关于机器学习常见的算法分类描述正确的是(ABD)。A:常见的机器学习算法可分为有监督学习和无监督学习及增强学习B:分类属于有监督学习C:回归属于无监督学习D:聚类和关联规则均属于无监督学习
解析:回归属于有监督学习算法
475.大数据应用中用到了哪些云计算技术?(AB)A:海量数据存储技术B:海量数据管理技术C:分布式计算D:数据清洗和数据挖掘
解析:大数据用到的海量数据存储技术、海量数据管理技术、MapReduce等并行处理技术都是云计算的关键技术
476.大数据时代传统数据架构或典型数据库软件工具在处理海量数据时存在哪些方面的问题?(ABCE)A:海量数据收集B:海量数据存储C:海量数据管理D:海量数据的分析E:数据的共享访问
解析:大数据技术主要问题有:第一,成本高。传统存储设备通用性较差,随着业务需求的增长,未来的设备投资加上后期的维护、升级扩容的成本将会非常高。第二,性能低。单节点的I/O性能瓶颈无法逾越,容量和性能都不容易进行扩展,难以支撑海量数据的高并发、低延时的场景。第三,安全隐患多。数据传输过程中存在泄露、篡改、被数据流攻击等风险隐患。基于此数据在采集、存储、管理、共享中都存在突出问题
477.某商品在推荐给特定用户之前,需要对用户的基本信息如:年龄、性别、所在地区、购买行为(购买过的商品类别、店铺)、浏览时长、购买收藏等进行全方位的收集、分析、得出结论。最终展示给用户的是“用户想看的商品“;。这体现了数据采集的哪一特点?(B)A:多维性B:全面性C:高效性D:灵活性
解析:根据题目“进行全方位的收集、分析、得出结论“;,全方位等关键信息,体现了数据的全面性
478.阿里云图计算服务GraphCompute的特点有哪些?(ABC)A:高性能B:高可用C:百万级TPSD:高成本E:半托管
479.在数据预处理中,常用的规范化处理方法包括(ABD)A:最大最小(Min-Max)规范化B:z-score标准化C:曲面规范化D:小数定标标准化
解析:常用方法有min-max规范化、Z-score规范化、按小数定标规范化等
480.在原材料日购进&日消耗数据的可视化展示中,需要核对数据的完整性,对缺失的日数据进行补充和分组统计;最后将统计数据保存到数据仓库中。上述的这些操作属于数据可视化设计的哪一个步骤(A)A:数据准备B:主题确认C:图表选择D:数据可视化
解析:核对数据的完整性,对缺失的日数据进行补充和分组统计,属于数据可视化
481.阿里云Elasticsearch是基于开源Elasticsearch构建的全托管Elasticsearch云服务。关于它的应用场景描述正确的是?(ACE)A:应用于信息检索B:应用于数据库检索C:日志运维全观测D:数据检索加速E:分析等场景服务
482.大数据技术处理的数据类型包括哪几项(A,B,C)A:结构化数据B:半结构化数据C:非结构化数据D:时空数据
解析:结构化、非结构化、半结构化
483.阿里云日志服务SLS是云原生观测与分析平台,为Log、Mletric、Trace等数据提供大规模、低成本、实时的平台化服务。下列选项中,属于日志服务SLS的特点的有(BD)A:高效分析能力B:可视化展示C:集成单一化D:支持实时消费
484.图比文本或电子表格更容易理解,人脑对视觉信息的处理速度要比书面信息快很多。这体现了数据可视化的哪个优势(B)A:传播速度快B:数据更直观C:多维展示D:容易记忆
485.MaxCompute的分区表指的是在创建表时指定某几个字段作为分区列,从而实现将表的数据分成多个分区。关于分区的说法中,正确的是(ACD)。A:MaxCompute将分区列的每个不同取值作为一个分区B:分区列对字段类型没有要求C:用户可以指定多级分区D:在使用数据时如果指定了需要访问的分区名称,则只会读取相应的分区,避免全表扫描。
解析:阿里云MaxCompute将分区列的每个值作为一个分区(目录),您可以指定多级分区,即将表的多个字段作为表的分区,分区之间类似多级目录的关系。使用数据时,如果指定需要访问的分区名称,则只会读取相应的分区。分区列对字段类型是有要求的,不支持全部字段。
解析:本质上讲,云计算强调的是计算能力;而大数据强调的是处理、计算的对象。二者并不是孤立存在的,而是相互关联的。”云计算中的重要组成部分既是基础设施还是存储设备;大数据提供给用户的服务需要对数据进行处理,主要落脚在对数据的加工上。因此,云计算与大数据两者密不可分。
487.在创建分析型数据库时,ECU型号选择有哪四种(ABCD)A:c1类型B:c8类型C:s1n类型D:s2n类型E:z2类型
解析:ECU(弹性计算单元),是分析型数据库中存储和计算资源的分配单位,数据库公共云提供的ECU规格:c1、c8、s1n、s2n
488.ABC电商公司非常关心用户从浏览到下单到支付的转化率,他们想分析不同性别的人在该流程中的转化率的差异,可以通过什么很好的实现该需求?(C)A:漏斗图B:饼图C:旋风漏斗D:树图
解析:旋风漏斗图可被看做是旋风图和漏斗图的结合体。旋风图可以用来比对两类事物在不同指标下的数据情况,比如,对比题目不同性别。漏斗图可以用来展示各步骤的转化率,适用于业务流程多的流程分析,比如通过漏斗图,可以清楚地展示用户从进入网站到实现购买的最终转化率
489.实现精准营销的动因不包括(A)。A:提高产品良品率B:提高企业竞争力C:提高服务质量D:提升企业效益
解析:良品率是质量问题,是营销的上一环节
490.DataWorks中对已编写完成任务,进行周期性调度配置,一个当日23:00前配置的按日为周期的调度任务,何时可通过调度正常调度运行?(C)A:当时B:当日C:第二日D:第三日
491.运维中心是日常运维的主要工具,可对已提交的工作流及其节点任务进行管理与维护,同时也可针对节点来添加监控报警,如下关于运维告警内容,描述正确的是(B)A:运维告警配置后无法修改B:运维告警可配置短信告警C:运维告警只可配置给程序责任人D:运维告警只能对出错的调度进行告警
解析:如果需要对每月的销量预测,取L=12,而每四周的销量预测应该取L值为13
493.交互式实时数据可视化应用来帮助业务人员发现并诊断业务问题,越来越成为大数据解决方案中不可或缺的一环。为了实现这些新的需求,可以使用以下哪个阿里云服务(D)A:大数据计算服务MaxComputeB:数据工场DataWorksC:云原生数据仓库(分析型数据库)AnalyticDBD:DataV数据可视化
解析:1、大数据计算服务提供计算引擎2、开发套件,有调度开发等功能3、分析型数据库,一般提供数据服务4、DataV数据可视化是实时大屏,实现实时可视化
494.阿里云大数据体系中,提供离线计算服务的是(C)A:QuickBl数据可视化分析平台B:云原生数据仓库(分析型数据库)AnalyticDBC:大数据计算服务MaxComputeD:数据工场DataWorks
解析:quickBI是数据分析可视化;AnalyticDB是分析性数据库,提供交互式查询功能等;Maxcompute是大数据计算服务,提供离线计算功能;Dataworks是开发套件
495.机器学习按照学习方式不同可以分为多种分类,以下哪些是机器学习的分类(ABE)A:监督学习B:无监督学习C:自动学习D:迁移学习E:半监督学习
解析:“长期趋势(Trend)是受价格因素作用而形成的,比如长期的打折一般会引起销量持续向上的长期趋势”中是受某种根本性因素作用,而不是价格因素“循环变动(Cycle)是受各种因素影响而形成的上下起伏不定的波动,有固定的周期”中循环变动是没有固定的周期
497.MaxCompute中的表t_dml中仅包含一个字段ID,类型为string,以下SQL中肯定会报错的是(A)A:Insertintotablet_dmlvalues('2')B:insertoverwritetablet_dmlselect3.14fromdual;C:createtablet_dml_bakliket_dmlD:createtablet_dml_bakasselect*fromt_dml
解析:maxcompte不支持insertvalues的语法
498.下列关于MaxComputeSQL说法正确的有(ABCD)A:不支持事务(不支持Commit和Rollback)B:不支持索引和主键约束。C:不支持自增字段。D:单表最多支持6万个分区。超过6万个分区会报错E:不支持窗口函数
解析:MaxComputeSQL与标准SQL的基本区别:不支持事务(不支持Commit和Rollback,不推荐使用INSERTINTO)。不支持索引和主键约束。部分字段不支持默认值或默认函数。不支持自增字段。单表最多支持6万个分区。超过6万个分区会报错。一次查询输入的分区不能超过1万个,否则会报错。如果是2级分区且查询时只根据2级分区进行过滤,总的分区数大于1万也可能导致报错。等等。
499.关于删除MaxCompute表或分区中的数据,以下语法正确的是(AC)?A:insertoverwritetableTableAselecta,b,c....fromTableAwhere1=2;B:deletefromtesttablewhere1=1;C:altertabletesttabledropifexistspartition(ds='20170520');D:insertoverwritetableTableAselecta,b,c....fromTableAwhere1=1;
解析:对于非分区表:truncatetabletesttable;insertoverwritetableTableAselecta,b,c....fromTableAwhere1=2;对于分区表:insertoverwritetableTableApartition(ds=20221231)selecta,b,c....fromTableAwhere1=2;altertabletesttabledropifexistspartition(ds='20170520');
500.关于Maxcompute的set操作使用正确的是(D)。A:set==<256>设置每个MapWorker的内存大小为256MB:set:<256>设置每个ReduceWorker的内存大小256MC:set设置每个MapWorker的内存大小为256MD:setodps.stage.mapper.split.size=256;调整每个Mapper读取数据的大小为256MB。
解析:Maxcopmte的set命令格式为set=示例:--调整每个Mapper读取数据的大小为256MB。setodps.stage.mapper.split.size=256;
501.数据预处理中的缺失值处理是指由于调查、编码和录入的误差,导致数据中可能存在缺失值,需要给予适当的处理。常用的缺失值处理方法有(ABD)A:样本的均值、中位数如或众数代替缺失值B:关联分析或逻辑推论进行估计C:转换类型D:变量的缺失值很多且无价值,可删除。
502.物联网的特点有哪些(BCD)A:智能控制B:整体感知C:可靠传输D:智能处理
解析:物联网数据特征是整体感知、可靠传输和智能处理。
503.机器学习PAl(PlatformofArtificialIntelligence)是阿里云人工智能平台,提供一站式的机器学习解决方案。PAI平台在大数据处理与分析中的作用主要体现在(ABC)A:模型部署B:模型开发C:模型训练D:模型创建
解析:PAI分别提供了模型准备、模型开发和训练及模型部署阶段的产品
504.HBase中的单表可以有数十亿行、百万列,如此大容量数据在定位数据时没有使用到以下哪个概念?(B)A:RowKeyB:TableC:ColumnQualifierD:ColumnFamily
505.在大数据大规模应用阶段,大数据的特征已经发展到了8V。下列选项中属于8V新特性的是(ACDE)。A:Veracity准确性B:Virtual虚拟性C:Visualization可视性D:Validity合法性E:Vitality动态性
解析:大数据新特征:Veracity准确性、Vitality动态性、Visualization可视性、Validity合法性。
506.随着大数据时代的发展,Hadoop生态圈组件越来越丰富,关于Hadoop生态圈组件Pig,描述正确的是(A)。A:大型数据集计算与分析平台B:数据仓库C:分布式计算框架D:列式数据库
解析:大规模数据分析平台
507.以下内容是应用程序运行过程中产生的日志信息,它属于(A)类型的数据1997-07-01,101998-04-01,261997-05-01,-51989-06-01,251925-05-01,45A:结构化B:半结构化C:非结构化D:网状结构
解析:结构化
508.Mapreduce是一个分布式运算程序的编程框架,下列选项中,属于MapReduce的缺点是(B)A:并行计算能力有限B:磁盘IO开销大C:延迟低D:中间结果在内存中
解析:MapReduce框架的设计初衷是通过分布式计算和并行处理来加速大规模数据集的处理。然而,由于其特性和设计原则,MapReduce也存在一些缺点。磁盘IO开销大是MapReduce的一项明显的缺点。在MapReduce中,数据被划分成多个块,这些块通常存储在分布式文件系统中,如Hadoop的HDFS。在Map阶段和Reduce阶段之间,需要将数据从磁盘读入内存,进行处理,并将结果写回磁盘。这种频繁的磁盘IO会增加系统的开销和延迟,影响整体性能。
509.在MaxCompute中,可以通过Tunnel命令行来完成数据的上传下载。如果要下载test_project项目空间下的一个带分区的表test_tablep的内容到log.txt文件中,使用命令tunneldownloadtestproject.testtableplog.txt;结果报错,其中出错的部分为(C)。A:tunnelB:downloadC:test_project.test_table_PD:log.txt
解析:在MaxCompute中,上传文件到表带分区的话需要在表后面以斜杠区分需要的分区,题干中的表名test_project.test_table_P不带分区故无法实现
510.在大数据开发套件DatalDE中,(C)是指使用系统或计算资源的客户,即公司。A:DatalDE项目B:MaxCompute项目空间C:组织D:个人账号
解析:组织是阿里云特有概念,一个公司开通大数据平台服务就创建一个组织,一个组织内创建多个项目空间。组织之间相互隔离,一个账号只能所属一个组织,元数据按组织隔离,只能查看本组织下的表元数据
511.关于数据分析的步骤,以下(D)是在进行数据分析时首先要做的事情。A:数据收集B:数据处理C:数据展现D:明确目的
解析:数据分析流程首先确定目的,按照选项的顺序应该是明确目的、数据收集、数据处理、数据展现
解析:树图是一种利用包含关系表达层次化数据的可视化方法。矩形树图适合展现具有层级关系的数据,能够直观体现同级之间的比较。
514.DataWorks数据同步支持的数据类型有(AB)。A:结构化数据B:实时业务数据C:非结构化数据D:半结构化数据
解析:DataWorks同步过程支持的数据:仅支持结构化的数据;支持单地域内及部分跨地域的相互同步、交换完成数据同步,数据同步都是将业务系统中产生的业务数据定期导入到工作区,通过工作流任务的加工处理后,再将计算结果定期导入到指定的数据源中,供进一步展示或者使用。
515.Hive的SQL执行流程中,步骤PhysicalPlanOptimizer有什么作用?(B)A:将逻辑查询计划转成物理计划B:选择最佳的优化查询策略C:将SQL转换成抽象语法树D:将查询块转换成逻辑查询计划
解析:物理计划优化器:选择最佳的join策略(physicaloptimizer)
516.Spark最早是源于加州大学伯克利分校的MateiZaharia等人发表的一篇论文。论文提出了一种(C)的概念。A:分布式并行计算B:分布式文件系统C:分布式弹性数据集(RDD)D:分布式微服务
解析:Spark最早源于一篇论文ResilientDistributedDatasets:AFault-TolerantAbstractionforIn-MemoryClusterComputing,该论文是由加州大学柏克莱分校的MateiZaharia等人发表的。论文中提出了一种弹性分布式数据集(即RDD)的概念。
517.下面属于查询分析计算技术的是?(C)A:SparkB:StormC:HiveD:Pregel
解析:查询分析计算技术:Hive、Impala
518.关于云计算在许多领域有诸多应用,如政务、教育、各种产业、医疗等有明显的表现,描述正确的是(AD)A:政务云,部署公共安全管理、容灾备份、城市管理、应急管理、智能交通、社会保障等应用,通过集约化建设、管理和运行,可以实现信息资源整合和政务资源共享,推动政务管理创新,加快向服务型政府转型B:医疗云,实现远程医疗,电子病历,专家会诊等C:企业以低廉的成本建立财务、供应链、客户关系等管理应用系统,大大降低企业信息化门槛,加速提升企业信息化水平,对企业市场竞争力没有明显增加D:教育云,整合教育资源,实现教育资源共享
解析:医疗云可以推动医院与医院、医院与社区、医院与急救中心、医院与家庭之间的服务共享,并形成一套全新的医疗健康服务系统,从而有效地提高医疗保健的质量。
解析:根据题意,数据集有三个变量。气泡图是可用于展示三个变量之间的关系;树图适合展示层次结构,不是展示数量关系;饼图适合展示各部分占比情况,不适合展示形象之间的数量关系;雷达图适合展示3个以上数字类型的指标,主要展示综合分布情况,而题中“地区”不是数量指标
520.QuickBI中的是通过菜单形式组织的仪表板的集合,可以制作复杂的带导航菜单的专题类分析。(B)A:仪表板B:数据门户C:IFrameD:工作表
解析:数据门户也叫数据产品,可以通过菜单形式将仪表板组织成复杂的带导航菜单,常用于专题类分析。
521.有关Maxconpute的DDL-alter语法正确的有(BCD)?A:altertablesale_detaildropcolumns(customer_nameSTRING,educationBIGINT);B:altertablesale_detailaddifnotexistspartition(sale_date='201312',region='hangzhou');C:altertablesale_detaildropifexistspartition(sale_date='201312',region='hangzhou'),partition(sale_date='201312',region='shanghai');D:altertablesale_detailaddcolumns(customer_nameSTRING,educationBIGINT);
522.阿里云大数据产品中属于大数据工具与服务类的有(BC)。A:MaxCompute云原生大数据计算服务B:DataHub数据总线C:DataIntegration数据集成D:OpenSearch智能开放搜索
解析:OpenSearch智能开放搜索:智能搜索与推荐、MaxCompute云原生大数据计算服务:大数据计算与分析。
523.在创建智能应用程序时,Mahout包含许多算法实现,具体包含(ABDE)A:聚类B:分类C:线性回归D:推荐过滤E:频繁子项挖掘
解析:Mahout包含许多实现,包括聚类、分类、推荐过滤、频繁挖掘算法。
524.关于数据可视化设计步骤的数据准备阶段,对准备步骤描述错误的是?(A)A:数据准备阶段要确认业务需求和主题风格B:数据准备首先根据业务需求核对数据仓库中的数据,对于缺失的数据及时进行补充C:数据准备需要对确定好的数据与业务指标进行核对、分析和重组D:数据准备会将重组后的数据保存到单独的表单中,供后续可视化使用
解析:主题确认阶段要确认业务需求和主题风格
525.大数据集群中的硬件资源可能是数以万计的,如何管理协调、充分利用硬件资源成为一个很重要的问题,各种流行的大数据技术都有自己核心的资源管理和调度模块。以下选项中(A)不是负责类似功能的。A:盘古B:YARNC:伏教D:Mesos
解析:盘古是阿里云飞天分布式存储系统,不属于资源调度模块
解析:根据学生需求按需营销;精准营销,智能推荐;打折不针对某个人,不是精准营销;根据客户实际情况提供优惠政策数据精准营销
531.QuickBl是阿里云提供的数据可视化服务,以下哪个不是QuickBl在大数据方案中可以承担的角色(A)A:离线数仓B:数据展示C:即席查询D:报表分析
解析:quickbI是做数据展示报表分析的,支持即席查询,离线数仓是通过maxcompute实现的
533.某商城周末促销,运用去年会员客户的商城消费记录,结合会员的注册信息,构建客户画像,客户画像过程中,采用K-Means对客户分群,K-Means算法的优点有(AB)。(正确2个)A:原理简单,容易实现B:聚类结果容易解释理解C:采用的迭代算法可以保证在循环次数足够的情况下,每次都能达到全局最优D:k值的指定对结果无影响,只要循环的次数足够多,每次聚类都会收敛到相同的k值
解析:每次都能全局最优表述绝对;k值对结果是有影响的
534.下列选项中,关于数据可视化图表类型,属于数据分布型的是?(ACDE)A:点状条带图B:散点直线图C:条带编码图D:带误差线柱形图E:金字塔图
解析:数据分布图标包括:统计直方图、核密度曲线图、蜂巢图、点阵图、点状条带图、条带编码图、带误差线的柱形图、带误差线的散点图、带误差线的曲线图、箱形图、瓶状图、小提琴图、豆状图、复合图、二维统计直方图、二维核密度估计图、二位核密度曲面图、三维统计直方图、金字塔图、扇形预测图、带置信区间图
535.阿里云大数据产品的主要类别有智能搜索、推荐产品、__?(ABCD)A:计算与分析产品B:开发与治理产品C:工具与服务产品D:弹性伸缩ECS产品E:开发模型产品
解析:阿里云大数据产品可以更快速地解决海量数据计算问题,主要有Dataworks,maxcompute、quickbi、datav、Hologres等等;其中Dataworks开发与治理产品、工具与服务产品maxcompute、Hologre计算与分析产品quickbi、datav分析与可视化产品弹性伸缩ECS产品是基础服务,硬件设施实时计算不属于产品的概念
536.在进行数据采集时需要注意,数据量足够并具有分析价值、数据面足够支撑分析需求,采集更高效、更有针对性。以上说的是数据采集的哪些要点(AC)A:全面性B:多维性C:高效性D:扩展性
解析:数据采集的三大要点:全面性:数据量足够具有分析价值、数据面足够支撑分析需求。多维性:数据更重要的是能满足分析需求。高效性:包含技术执行的高效性、团队内部成员协同的高效性以及数据分析需求和目标实现的高效性。
537.云计算能作为一种商品,可以在互联网上流通,就像水、电、煤气一样,可以方便地取用,体现了云计算的特点是(C)A:通用性B:动态扩展C:按需服务D:虚拟化
解析:云计算能作为一种商品,可以在互联网上流通,就像水、电、煤气一样,可以方便地取用,体现了云计算的按需服务
538.在数据可视化的图表选择中,哪些属于数据关系型图表?(BD)A:统计直方图B:散点图C:雷达图D:曲线图
解析:数据关系型图表包括散点图和曲线图
539.Divisive聚类算法中,基于层次的概念说法正确的是?(B)A:通过稀疏区域来刻分高密度区域以发现明显的聚类和孤立点,主要用于空间型数据的聚类B:使用一个距离矩阵作为输入,经过聚类后得到一个反映该数据集分布状况的聚类层次结构图C:通过构造一个迭代过程来优化目标函数,当优化到目标函数的最小值或极小值时,可以得到数据集的一些不相交的子集,通常认为此时得到的每个子集就是一个聚类D:一种基于网格的具有多分辨率的聚类方法
解析:层次聚类方法使用一个距离矩阵作为输入,经过聚类后得到一个反映该数据集分布状况的聚类层次结构图
540.下列哪种图表属于地理空间型图表(AB)A:点状地图B:简化示意图C:坡度图D:三维柱形地图
解析:地理空间型图表主要展示数据中的精确位置和地理分布规律,包括等值区间地图、带气泡的地图、带散点的地图等。
541.数据可视化DataV是阿里云一款数据可视化应用搭建工具,旨让更多的人看到数据可视化的魅力。下面选项关于数据可视化DataV,描述正确的是?(ABC)A:使用可视化应用的方式来分析并展示庞杂数据的产品B:帮助非专业的工程师通过图形化界面搭建专业水准可视化应用C:自动适配大屏显示D:DataV提供海量数据实时在线分析服务,支持拖拽式操作、提供了丰富的可视化效果,可以帮助您轻松自如地完成数据分析、业务数据探查、报表制作等工作
解析:使用可视化应用的方式来分析并展示庞杂数据的产品。帮助非专业的工程师通过图形化界面搭建专业水准可视化应用。自动适配大屏显示。
543.DataWorks中,运维中心的“任务管理视图”以(B)的方式显示调度任务之间的依赖关系和运行约束。A:平衡树B:DAG图C:双向列表D:二叉树
解析:运维中心的“任务管理视图”以DAG图(有向无环图)的方式显示调度任务之间的依赖关系和运行约束。
545.在分析型数据库中,下面关于多值列描述正确的是(ABC)A:可以存入String类型的多个值,分隔符默认为半角逗号,也可以建表时进行配置B:可使用in,contains条件对该列的单个值进行查询C:枚举查询后该列的每个值可像一个普通列一样进行各类操作,但是不允许在没有进行枚举查询时对该列直接select或在groupby中使用该列D:多值列在使用的时候没有任何约束
解析:多值列的GROUPBY一定要带WHERE条件,否则引擎底层需要遍历所有的value(默认只遍历1024个value)
546.DataWorks中,一个任务可以依赖于另外的任务。即在被依赖任务(前置任务)未完成前,此任务不能运行。对于任务依赖,说法正确的是(A)。A:最少依赖一个B:最多依赖一个任务C:最多依赖六个任务D:没有限制
解析:dataworks任务最少一个依赖,即无任何实际依赖时,需要使用空间父节点作为依赖,否则无法提交上线
解析:MaxCompute致力于批量处理结构化数据的存储和计算,应用于离线计算场景,对分布式处理能力的实时性并无较高的要求。
548.有时候出于分析的需要,分析师会对预测模型中的某个字段进行归一化,待需要预测时再将模型预测出的归一化的字段进行还原。以下哪个公式可以实现逆归一化(A)。(X为还原后的数据,Y为归一化的数据)A:X=Y(Max-Min)+MinB:X=Y(Max-Min)-MinC:X=Y(Max-Min)+MaxD:X=Y(Max-Min)-Max
解析:如果max和min分别表示某区间的最大、小值,那么该式的意思就是:x与最小值之间的距离占区间长度的几分之几(即y),这是归一化的原理,此选项为公式变形,归一化公式为(X-MIN)/(MAX-MIN)=Y
549.MaxCompute作为大数据存储、计算的服务,被广泛应用到了企业场景中。以下适合使用MaxCompute的有(ABC)。A:搜集、分析用户行为数据,为用户细分建模B:构建企业级的数据仓库,对企业历史数据进行加工处理C:保存、处理海量日志数据,并结合机器学习PAI对日志进行建模分析D:处理企业历史数据,并生成分析结果,提供终端用户进行即席查询E:作为业务办理系统的后台数据存储工具,响应高并发的用户请求
解析:MaxCompute作为大数据存储、计算的服务支持历史数据搜集汇聚以及建模分析;支持结合机器学习实现分析;适合企业级数仓搭建;Maxcompute不支持即席查询功能,也不是高并发响应的载体