ClouderaHadoop-企业级大数据平台设计
作者:尹正杰
一.浅谈企业级大数据平台的重要性
1>.缺乏统一大数据平台的问题
二.RAID技术及JBOD技术概述
1>.什么是磁盘阵列
磁盘阵列其样式有三种,一是外接式磁盘阵列柜、二是内接式磁盘阵列卡,三是利用软件来仿真。外接式磁盘阵列柜最常被使用大型服务器上,具可热交换(HotSwap)的特性,不过这类产品的价格都很贵。内接式磁盘阵列卡,因为价格便宜,但需要较高的安装技术,适合技术人员使用操作。硬件阵列能够提供在线扩容、动态修改阵列级别、自动数据恢复、驱动器漫游、超高速缓冲等功能。它能提供性能、数据保护、可靠性、可用性和可管理性的解决方案。阵列卡专用的处理单元来进行操作。利用软件仿真的方式,是指通过网络操作系统自身提供的磁盘管理功能将连接的普通SCSI卡上的多块硬盘配置成逻辑盘,组成阵列。软件阵列可以提供数据冗余功能,但是磁盘子系统的性能会有所降低,有的降低幅度还比较大,达30%左右。因此会拖累机器的速度,不适合大数据流量的服务器。3>.RAID常见级别简介
以三个硬盘组成的Spans数据存储方式为例:Span是在逻辑上把几个物理磁盘一个接一个串联到一起,从而提供一个大的逻辑磁盘。Span上的数据简单的从第一个磁盘开始存储,当第一个磁盘的存储空间用完后,再依次从后面的磁盘开始存储数据。Span存取性能完全等同于对单一磁盘的存取操作。Span也不提供数据安全保障。它只是简单的提供一种利用磁盘空间的方法,Span的存储容量等于组成Span的所有磁盘的容量的总和。我们知道RAID0是在读写文件的时候采用异步并行的方式同时操作多快数据盘,而JBOD在读写文件时,它只是操作一块磁盘,读写效率想必大家也心知肚明了。7>.JBOD与RAID比较
8>.没有阵列卡的服务器是否能识别磁盘?
答案是肯定的,没配置阵列卡的服务器一定可以识别到硬盘。相反,独立的阵列卡的服务器正常情况下不用做阵列都能识别到硬盘的。配置了阵列卡的服务器,无论是独立的还是主板自带的都有可能不做阵列识别不了硬盘,而主板自带阵列卡的服务器很多时候都要做阵列才可以识别硬盘的,因为服务器是这样设计的,硬盘接阵列卡再进主板,所以必须做阵列。
三.企业应用磁盘阵列设计方案
机器层面来说,我们要保证系统盘正常运行和数据盘的高效实用。1>.系统盘
2>.数据盘
四.节点服务器数据存储方式的推荐
五.企业集群规划与资源配置方案
1>.操作系统选择
[root@node101.yinzhengjie.org.cn~]#cat/etc/redhat-releaseCentOSLinuxrelease7.6.1810(Core)[root@node101.yinzhengjie.org.cn~]#[root@node101.yinzhengjie.org.cn~]#uname-r3.10.0-957.el7.x86_64[root@node101.yinzhengjie.org.cn~]#[root@node101.yinzhengjie.org.cn~]#uname-mx86_64[root@node101.yinzhengjie.org.cn~]#2>.集群主机名命名规范(尽量每个节点的后缀都相同,显得比较专业)
[root@node101.yinzhengjie.org.cn~]#cat/etc/hosts172.30.1.101node101.yinzhengjie.org.cn172.30.1.102node102.yinzhengjie.org.cn172.30.1.103node103.yinzhengjie.org.cn172.30.1.104node104.yinzhengjie.org.cn172.30.1.105node105.yinzhengjie.org.cn172.30.1.106node106.yinzhengjie.org.cn#Mysqlmaster节点,Kerberosmaster节点172.30.1.107node107.yinzhengjie.org.cn#MysqlSlave节点,Kerberosslave节点172.30.1.108node108.yinzhengjie.org.cn#备用服务器,用作节点的扩容时使用,暂不开机[root@node101.yinzhengjie.org.cn~]#3>.生产环境软硬件选择
机器数量:5~10台硬盘大小:4TB内存:24GB~32GBCPU:6核网卡:万兆