大数据时代悄然来临,带来了信息技术发展的巨大变革,并深刻影响着社会生产和人民生活的方方面面。全球范围内,世界各国政府均高度重视大数据技术的研究和产业发展,纷纷把大数据上升为国家战略加以重点推进。企业和学术机构纷纷加大技术、资金和人员投入力度,加强对大数据关键技术的研发与应用,以期在“第三次信息化浪潮”中占得先机、引领市场。大数据已经不是“镜中花、水中月”,它的影响力和作用力正迅速触及社会的每个角落,所到之处,或是颠覆,或是提升,都让人们深切感受到了大数据实实在在的威力。
对于一个国家而言,能否紧紧抓住大数据发展机遇,快速形成核心技术和应用参与新一轮的全球化竞争,将直接决定未来若干年世界范围内各国科技力量博弈的格局。大数据专业人才的培养是新一轮科技较量的基础,高等院校承担着大数据人才培养的重任,因此,各高等院校非常重视大数据课程的开设,大数据课程已经成为计算机科学与技术专业的重要核心课程。
本章首先介绍了大数据的发展历程、基本概念、主要影响、应用领域、关键技术、计算模式和产业发展,并阐述了云计算、物联网的概念及其与大数据之间的紧密关系。
根据IBM前首席执行官郭士纳的观点,IT领域每隔15年就会迎来一次重大变革(见表1-1)。1980年前后,个人计算机(PC)开始普及,使得计算机走入企业和千家万户,大大提高了社会生产力,也使人类迎来了第一次信息化浪潮,Intel、IBM、苹果、微软、联想等企业是这个时期的标志。随后,在1995年前后,人类开始全面进入互联网时代,互联网的普及把世界变成“地球村”,每个人都可以自由徜徉于信息的海洋,由此,人类迎来了第二次信息化浪潮,这个时期也缔造了雅虎、谷歌、阿里巴巴、百度等互联网巨头。时隔15年,在2010年前后,云计算、大数据、物联网的快速发展,拉开了第三次信息化浪潮的大幕,大数据时代已经到来,也必将涌现出一批新的市场标杆企业。
表1-1三次信息化浪潮
信息化浪潮
标志
解决的问题
代表企业
第一次浪潮
1980年前后
个人计算机
信息处理
Intel、AMD、IBM、苹果、微软、联想、戴尔、惠普等
第二次浪潮
1995年前后
互联网
信息传输
雅虎、谷歌、阿里巴巴、百度、腾讯等
第三次浪潮
2010年前后
物联网、云计算和大数据
信息爆炸
将涌现出一批新的市场标杆企业
信息科技需要解决信息存储、信息传输和信息处理3个核心问题,人类社会在信息科技领域的不断进步,为大数据时代的到来提供了技术支撑。
数据被存储在磁盘、磁带、光盘、闪存等各种类型的存储介质中,随着科学技术的不断进步,存储设备制造工艺不断升级,容量大幅增加,速度不断提升,价格却在不断下降(见图1-1)。
早期的存储设备容量小、价格高、体积大,例如,IBM在1956年生产的一个早期的商业硬盘,容量只有5MB,不仅价格昂贵,而且体积有一个冰箱那么大(见图1-2)。相反,今天容量为1TB的硬盘,大小只有3.5英寸(约8.89厘米),读写速度达到200MB/s,价格仅为400元左右。廉价、高性能的硬盘存储设备,不仅提供了海量的存储空间,同时大大降低了数据存储成本。
图1-2IBM在1956年生产的一个早期的商业硬盘
与此同时,以闪存为代表的新型存储介质也开始得到大规模的普及和应用。闪存是一种新兴的半导体存储器,从1989年诞生第一款闪存产品开始,闪存技术不断获得新的突破,并逐渐在计算机存储产品市场中确立了自己的重要地位。闪存是一种非易失性存储器,即使发生断电也不会丢失数据,因此,可以作为永久性存储设备,它具有体积小、质量轻、能耗低、抗震性好等优良特性。
闪存芯片可以被封装制作成SD卡、U盘和固态盘等各种存储产品,SD卡和U盘主要用于个人数据存储,固态盘则越来越多地应用于企业级数据存储。一个32GB的SD卡,体积只有24mm×32mm×2.1mm,质量只有0.5克。以前7200r/min的硬盘,一秒钟只有100个IOPS(Input/OutputOperationsPerSecond),速率只有50MB/s,而现在的基于闪存的固态盘,每秒钟有几万甚至更高的IOPS,访问延迟只有几十微秒,允许我们以更快的速度读写数据。
总体而言,数据量和存储设备容量二者之间是相辅相成、互相促进的。一方面,随着数据的不断产生,需要存储的数据量不断增加,对存储设备的容量提出了更高的要求,促使存储设备生产商制造更大容量的产品满足市场需求;另一方面,更大容量的存储设备,进一步加快了数据量增长的速度,在存储设备价格高企的年代,由于考虑到成本问题,一些不必要或当前不能明显体现价值的数据往往会被丢弃,但是,随着单位存储空间价格的不断降低,人们开始倾向于把更多的数据保存起来,以期在未来某个时刻可以用更先进的数据分析工具从中挖掘价值。
CPU处理速度的不断提升也是促使数据量不断增加的重要因素。性能不断提升的CPU,大大提高了处理数据的能力,使得我们可以更快地处理不断累积的海量数据。从20世纪80年代至今,CPU的制造工艺不断提升,晶体管数量不断增加(见图1-3),运行频率不断提高,核心(Core)数量逐渐增多,而同等价格所能获得的CPU处理能力也呈几何级数上升。在30多年里,CPU的处理速度已经从10MHz提高到3.6GHz,在2013年之前的很长一段时期,CPU处理速度的增加一直遵循“摩尔定律”,性能每隔18个月提高一倍,价格下降一半。
1977年,世界上第一条光纤通信系统在美国芝加哥市投入商用,数据传输速率为45Mbit/s,从此,人类社会的信息传输速度不断被刷新。进入21世纪,世界各国更是纷纷加大宽带网络建设力度,不断扩大网络覆盖范围和传输速度(见图1-4)。以我国为例,截至2012年6月,92.6%的固定宽带用户接入速率达到或超过2Mbit/s,国际互联网出口带宽达到1.48Tbit/s,是2005年的11.4倍。与此同时,移动通信宽带网络迅速发展,3G网络基本普及,4G网络覆盖范围不断加大,各种终端设备可以随时随地传输数据。大数据时代,信息传输不再遭遇网络发展初期的瓶颈和制约。
数据产生方式的变革,是促成大数据时代来临的重要因素。总体而言,人类社会的数据产生方式大致经历了三个阶段:运营式系统阶段、用户原创内容阶段和感知式系统阶段(见图1-5)。
图1-5数据产生方式的变革
从大数据的发展历程来看,总体上可以划分为3个重要阶段:萌芽期、成熟期和大规模应用期(见表1-2)。
表1-2大数据发展的3个阶段
阶段
内容
第一阶段:萌芽期
20世纪90年代至21世纪初
随着数据挖掘理论和数据库技术的逐步成熟,一批商业智能工具和知识管理技术开始被应用,如数据仓库、专家系统、知识管理系统等
第二阶段:成熟期
21世纪前十年
Web2.0应用迅猛发展,非结构化数据大量产生,传统处理方法难以应对,带动了大数据技术的快速突破,大数据解决方案逐渐走向成熟,形成了并行计算与分布式系统两大核心技术,谷歌的GFS和MapReduce等大数据技术受到追捧,Hadoop平台开始大行其道
第三阶段:大规模应用期
2010年以后
大数据应用渗透各行各业,数据驱动决策,信息社会智能化程度大幅提高
这里简要回顾一下大数据的发展历程。
1980年,著名未来学家阿尔文·托夫勒在《第三次浪潮》一书中,将大数据热情地赞颂为“第三次浪潮的华彩乐章”。
1999年10月,在美国电气和电子工程师协会(IEEE)关于可视化的年会上,设置了名为“自动化或者交互:什么更适合大数据?”的专题讨论小组,探讨大数据问题。
2001年2月,梅塔集团分析师道格·莱尼发布题为《3D数据管理:控制数据容量、处理速度及数据种类》的研究报告。10年后,“3V”(Volume、Variety和Velocity)作为定义大数据的三个维度而被广泛接受。
2005年9月,蒂姆·奥莱利发表了《什么是Web2.0》一文,并在文中指出“数据将是下一项技术核心”。
2008年,《自然》杂志推出大数据专刊;计算社区联盟(ComputingCommunityConsortium)发表了报告《大数据计算:在商业、科学和社会领域的革命性突破》,阐述了大数据技术及其面临的一些挑战。
2010年2月,肯尼斯·库克尔在《经济学人》上发表了一份关于管理信息的特别报告《数据,无所不在的数据》。
2011年2月,《科学》杂志推出专刊《处理数据》,讨论了科学研究中的大数据问题。
2011年,维克托·迈尔·舍恩伯格出版著作《大数据时代:生活、工作与思维的大变革》,引起轰动。
2011年5月,麦肯锡全球研究院发布《大数据:下一个具有创新力、竞争力与生产力的前沿领域》,提出“大数据”时代到来。
2012年3月,美国奥巴马政府发布了《大数据研究和发展倡议》,正式启动“大数据发展计划”,大数据上升为美国国家发展战略,被视为美国政府继信息高速公路计划之后在信息科学领域的又一重大举措。
2013年12月,中国计算机学会发布《中国大数据技术与产业发展白皮书》,系统总结了大数据的核心科学与技术问题,推动了中国大数据学科的建设与发展,并为政府部门提供了战略性的意见与建议。
2014年5月,美国政府发布2014年全球“大数据”白皮书《大数据:抓住机遇、守护价值》,报告鼓励使用数据来推动社会进步。
随着大数据时代的到来,“大数据”已经成为互联网信息技术行业的流行词汇。关于“什么是大数据”这个问题,大家比较认可关于大数据的“4V”说法。大数据的4个“V”,或者说是大数据的四个特点,包含四个层面:数据量大(Volume)、数据类型繁多(Variety)、处理速度快(Velocity)和价值密度低(Value)。
综上所述,人类社会正经历第二次“数据爆炸”(如果把印刷在纸上的文字和图形也看作数据的话,那么,人类历史上第一次数据爆炸发生在造纸术和印刷术发明的时期)。各种数据产生速度之快,产生数量之大,已经远远超出人类可以控制的范围,“数据爆炸”成为大数据时代的鲜明特征。根据著名咨询机构IDC(InternetDataCenter)做出的估测,人类社会产生的数据一直都在以每年50%的速度增长,也就是说,每两年就增加一倍,这被称为“大数据摩尔定律”。这意味着,人类在最近两年产生的数据量相当于之前产生的全部数据量之和。预计到2020年,全球将总共拥有35ZB(见表1-3)的数据量,与2010年相比,数据量将增长到近30倍。
表1-3数据存储单位之间的换算关系
单位
换算关系
Byte(字节)
1Byte=8bit
KB(Kilobyte,千字节)
1KB=1024Byte
MB(Megabyte,兆字节)
1MB=1024KB
GB(Gigabyte,吉字节)
1GB=1024MB
TB(Trillionbyte,太字节)
1TB=1024GB
PB(Petabyte,拍字节)
1PB=1024TB
EB(Exabyte,艾字节)
1EB=1024PB
ZB(Zettabyte,泽字节)
1ZB=1024EB
如此类型繁多的异构数据,对数据处理和分析技术提出了新的挑战,也带来了新的机遇。传统数据主要存储在关系数据库中,但是,在类似Web2.0等应用领域中,越来越多的数据开始被存储在NoSQL数据库中,这就必然要求在集成的过程中进行数据转换,而这种转换的过程是非常复杂和难以管理的。传统的OLAP(On-LineAnalyticalProcessing)分析和商务智能工具大都面向结构化数据,而在大数据时代,用户友好的、支持非结构化数据分析的商业软件也将迎来广阔的市场空间。
大数据时代的数据产生速度非常迅速。在Web2.0应用领域,在1分钟内,新浪可以产生2万条微博,Twitter可以产生10万条推文,苹果可以下载4.7万次应用,淘宝可以卖出6万件商品,人人网可以发生30万次访问,百度可以产生90万次搜索查询,Facebook可以产生600万次浏览量。大名鼎鼎的大型强子对撞机(LHC),大约每秒产生6亿次的碰撞,每秒生成约700MB的数据,有成千上万台计算机分析这些碰撞。
大数据时代的很多应用,都需要基于快速生成的数据给出实时分析结果,用于指导生产和生活实践,因此,数据处理和分析的速度通常要达到秒级响应,这一点和传统的数据挖掘技术有着本质的不同,后者通常不要求给出实时分析结果。
为了实现快速分析海量数据的目的,新兴的大数据分析技术通常采用集群处理和独特的内部设计。以谷歌公司的Dremel为例,它是一种可扩展的、交互式的实时查询系统,用于只读嵌套数据的分析,通过结合多级树状执行过程和列式数据结构,它能做到几秒内完成对万亿张表的聚合查询,系统可以扩展到成千上万的CPU上,满足谷歌上万用户操作PB级数据的需求,并且可以在2~3秒内完成PB级别数据的查询。
大数据虽然看起来很美,但是,价值密度却远远低于传统关系数据库中已经有的那些数据。在大数据时代,很多有价值的信息都是分散在海量数据中的。以小区监控视频为例,如果没有意外事件发生,连续不断产生的数据都是没有任何价值的,当发生偷盗等意外情况时,也只有记录了事件过程的那一小段视频是有价值的。但是,为了能够获得发生偷盗等意外情况时的那一段宝贵的视频,我们不得不投入大量资金购买监控设备、网络设备、存储设备,耗费大量的电能和存储空间,来保存摄像头连续不断传来的监控数据。
如果这个实例还不够典型的话,那么我们可以想象另一个更大的场景。假设一个电子商务网站希望通过微博数据进行有针对性营销,为了实现这个目的,就必须构建一个能存储和分析新浪微博数据的大数据平台,使之能够根据用户微博内容进行有针对性的商品需求趋势预测。愿景很美好,但是,现实代价很大,可能需要耗费几百万元构建整个大数据团队和平台,而最终带来的企业销售利润增加额可能会比投入低许多,从这点来说,大数据的价值密度是较低的。
图灵奖获得者、著名数据库专家吉姆·格雷(JimGray)博士观察并总结认为,人类自古以来在科学研究上先后历经了实验、理论、计算和数据四种范式(见图1-6),具体如下。
(1)第一种范式:实验
在最初的科学研究阶段,人类采用实验来解决一些科学问题,著名的比萨斜塔实验就是一个典型实例。1590年,伽利略在比萨斜塔上做了“两个铁球同时落地”的实验,得出了重量不同的两个铁球同时下落的结论,从此推翻了亚里士多德“物体下落速度和重量成比例”的学说,纠正了这个持续了1900年之久的错误结论。
图1-6科学研究的4种范式
(2)第二种范式:理论
随着科学的进步,人类开始采用各种数学、几何、物理等理论,构建问题模型和解决方案。比如牛顿第一定律、牛顿第二定律、牛顿第三定律构成了牛顿力学的完整体系,奠定了经典力学的概念基础,它的广泛传播和运用对人们的生活和思想产生了重大影响,在很大程度上推动了人类社会的发展与进步。
(3)第三种范式:计算
随着1946年人类历史上第一台计算机ENIAC的诞生,人类社会开始步入计算机时代,科学研究也进入了一个以“计算”为中心的全新时期。通过设计算法并编写相应程序输入计算机运行,人类可以借助于计算机的高速运算能力去解决各种问题。计算机具有存储容量大、运算速度快、精度高、可重复执行等特点,是科学研究的利器,推动了人类社会的飞速发展。
(4)第四种范式:数据
随着数据的不断累积,其宝贵价值日益得到体现,物联网和云计算的出现,更是促成了事物发展从量变到质变的转变,使人类社会开启了全新的大数据时代。在大数据环境下,一切将以数据为中心,从数据中发现问题、解决问题,真正体现数据的价值。大数据将成为科学工作者的宝藏,从数据中可以挖掘未知模式和有价值的信息,服务于生产和生活,推动科技创新和社会进步。
大数据将会对社会发展产生深远的影响,具体表现在以下几个方面:大数据决策成为一种新的决策方式;大数据应用促进信息技术与各行业的深度融合;大数据开发推动新技术和新应用的不断涌现。
互联网企业和零售、金融类企业都在积极争夺大数据人才,数据科学家成为大数据时代最紧缺的人才。据麦肯锡预测,在未来几年内,仅美国本土就可能缺少14万~19万具备数据深入分析能力的专业人才,能够通过分析大数据支撑企业做出有效决策的数据管理人员和分析师,也大概存在150万人的缺口。
根据中桥调研咨询2013年7月针对中国市场的一次调研结果显示,中国用户目前还主要局限在结构化数据分析方面,尚未进入通过对半结构化和非结构化数据进行分析、捕捉新的市场空间的阶段。但是,大数据中包含了大量的非结构化数据,未来将会产生大量针对非结构化数据分析的市场需求,因此,未来中国市场对掌握大数据分析专业技能的数据科学家的需求会逐年递增。
尽管有少数人认为,未来有更多的数据会采用自动化处理,会逐步降低对数据科学家的需求,但是,仍然有更多的人认为,随着数据科学家给企业所带来的商业价值的日益体现,市场对数据科学家的需求会越发旺盛。
在未来5~10年,市场对数据科学家的需求会日益增加,不仅互联网企业需要数据科学家,类似金融、电信这样的传统企业在大数据项目中也需要数据科学家。由于高校目前尚未具备大量培养数据科学家的基础和能力,传统企业很可能会从互联网行业“挖墙角”,来满足企业发展对数据分析人才的需求,继而造成用人成本高企,制约企业的成长壮大。因此,高校应该秉承“培养人才、服务社会”的理念,充分发挥科研和教学综合优势,培养一大批具备数据分析基础能力的数据科学家,有效缓解数据科学家的市场缺口,为促进经济社会发展做出更大贡献。
在课程体系的设计上,高校应该打破学科界限,设置跨院系跨学科的“组合课程”,由来自计算机、数学、统计等不同院系的教师构建联合教学师资力量,多方合作,共同培养具备大数据分析基础能力的数据科学家,使其全面掌握包括数学、统计学、数据分析、商业分析和自然语言处理等在内的系统知识,具有独立获取知识的能力,并具有较强的实践能力和创新意识。
大数据无处不在,包括金融、汽车、零售、餐饮、电信、能源、政务、医疗、体育、娱乐等在内的社会各行各业都已经融入了大数据的印迹,表1-4是大数据在各个领域的应用情况。本书在第11~13章将会详细介绍大数据在互联网、生物医学、物流等领域的具体应用。
表1-4大数据在各个领域的应用一览
领域
大数据的应用
金融行业
大数据在高频交易、社交情绪分析和信贷风险分析三大金融创新领域发挥重要作用
汽车行业
利用大数据和物联网技术的无人驾驶汽车,在不远的未来将走入我们的日常生活
互联网行业
餐饮行业
利用大数据实现餐饮O2O模式,彻底改变传统餐饮经营方式
电信行业
利用大数据技术实现客户离网分析,及时掌握客户离网倾向,出台客户挽留措施
能源行业
随着智能电网的发展,电力公司可以掌握海量的用户用电信息,利用大数据技术分析用户用电模式,可以改进电网运行,合理地设计电力需求响应系统,确保电网运行安全
物流行业
利用大数据优化物流网络,提高物流效率,降低物流成本
城市管理
可以利用大数据实现智能交通、环保监测、城市规划和智能安防
生物医学
大数据可以帮助我们实现流行病预测、智慧医疗、健康管理,同时还可以帮助我们解读DNA,了解更多的生命奥秘
体育和娱乐
大数据可以帮助我们训练球队,决定投拍哪种题材的影视作品,以及预测比赛结果
安全领域
政府可以利用大数据技术构建起强大的国家安全保障体系,企业可以利用大数据抵御网络攻击,警察可以借助大数据来预防犯罪
个人生活
从数据分析全流程的角度,大数据技术主要包括数据采集、数据存储和管理、数据处理与分析、数据安全和隐私保护等几个层面的内容,具体如表1-5所示。
表1-5大数据技术的不同层面及其功能
技术层面
功能
数据采集
利用ETL工具将分布的、异构数据源中的数据,如关系数据、平面数据文件等,抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础;也可以把实时采集的数据作为流计算系统的输入,进行实时处理分析
数据存储和管理
利用分布式文件系统、数据仓库、关系数据库、NoSQL数据库、云数据库等,实现对结构化、半结构化和非结构化海量数据的存储和管理
数据处理与分析
利用分布式并行编程模型和计算框架,结合机器学习和数据挖掘算法,实现对海量数据的处理和分析;对分析结果进行可视化呈现,帮助人们更好地理解数据、分析数据
数据安全和隐私保护
在从大数据中挖掘潜在的巨大商业价值和学术价值的同时,构建隐私数据保护体系和数据安全体系,有效保护个人隐私和数据安全
需要指出的是,大数据技术是许多技术的一个集合体,这些技术也并非全部都是新生事务,诸如关系数据库、数据仓库、ETL、OLAP、数据挖掘、数据隐私和安全、数据可视化等已经发展多年的技术,在大数据时代得到不断补充、完善、提高后又有了新的升华,也可以视为大数据技术的一个组成部分。对于这些技术,除了数据可视化技术以外,我们将不做介绍,本书重点阐述近些年新发展起来的大数据核心技术,包括分布式并行编程、分布式文件系统、分布式数据库、NoSQL数据库、云数据库、流计算、图计算等。
MapReduce是被大家所熟悉的大数据处理技术,当人们提到大数据时就会很自然地想到MapReduce,可见其影响力之广。实际上,大数据处理的问题复杂多样,单一的计算模式是无法满足不同类型的计算需求的,MapReduce其实只是大数据计算模式中的一种,它代表了针对大规模数据的批量处理技术,除此以外,还有查询分析计算、图计算、流计算等多种大数据计算模式(见表1-6)。本书后面内容将会介绍批处理计算(第7章)、流计算(第8章)和图计算(第9章)。
表1-6大数据计算模式及其代表产品
大数据计算模式
解决问题
代表产品
批处理计算
针对大规模数据的批量处理
MapReduce、Spark等
流计算
针对流数据的实时计算
Storm、S4、Flume、Streams、Puma、DStream、SuperMario、银河流数据处理平台等
图计算
针对大规模图结构数据的处理
Pregel、GraphX、Giraph、PowerGraph、Hama、GoldenOrb等
查询分析计算
大规模数据的存储管理和查询分析
Dremel、Hive、Cassandra、Impala等
批处理计算主要解决针对大规模数据的批量处理,也是我们日常数据分析工作中非常常见的一类数据处理需求。MapReduce是最具有代表性和影响力的大数据批处理技术,可以并行执行大规模数据处理任务,用于大规模数据集(大于1TB)的并行运算。MapReduce极大地方便了分布式编程工作,它将复杂的、运行于大规模集群上的并行计算过程高度地抽象到了两个函数——Map和Reduce,编程人员在不会分布式并行编程的情况下,也可以很容易将自己的程序运行在分布式系统上,完成海量数据集的计算。
针对超大规模数据的存储管理和查询分析,需要提供实时或准实时的响应,才能很好地满足企业经营管理需求。谷歌公司开发的Dremel,是一种可扩展的、交互式的实时查询系统,用于只读嵌套数据的分析。通过结合多级树状执行过程和列式数据结构,它能做到几秒内完成对万亿张表的聚合查询。系统可以扩展到成千上万的CPU上,满足谷歌上万用户操作PB级的数据,并且可以在2~3秒内完成PB级别数据的查询。此外,Cloudera公司参考Dremel系统开发了实时查询引擎Impala,它提供SQL语义,能快速查询存储在Hadoop的HDFS和HBase中的PB级大数据。
表1-7大数据产业链的各个环节
产业链环节
包含内容
IT基础设施层
包括提供硬件、软件、网络等基础设施以及提供咨询、规划和系统集成服务的企业,比如,提供数据中心解决方案的IBM、惠普和戴尔等,提供存储解决方案的EMC,提供虚拟化管理软件的微软、思杰、SUN、Redhat等
数据源层
数据管理层
包括数据抽取、转换、存储和管理等服务的各类企业或产品,如分布式文件系统(如Hadoop的HDFS和谷歌的GFS)、ETL工具(Informatica、Datastage、Kettle等)、数据库和数据仓库(Oracle、MySQL、SQLServer、HBase、GreenPlum等)
数据分析层
包括提供分布式计算、数据挖掘、统计分析等服务的各类企业或产品,如分布式计算框架MapReduce、统计分析软件SPSS和SAS、数据挖掘工具Weka、数据可视化工具Tableau、BI工具(MicroStrategy、Cognos、BO)等
数据平台层
数据应用层
提供智能交通、智慧医疗、智能物流、智能电网等行业应用的企业、机构或政府部门,如交通主管部门、各大医疗机构、菜鸟网络、国家电网等
近些年,我国一些地方政府也在积极尝试以“大数据产业园”为依托,加快发展本地的大数据产业。大数据产业园是大数据产业的聚集区或大数据技术的产业化项目孵化区,是大数据企业的孵化平台以及大数据企业走向产业化道路的集中区域。陕西西咸新区沣西新城已在信息产业园中规划了国内首家以大数据处理与服务为特色的产业园区;重庆市政府出台的《重庆市大数据行动计划》中明确提出,到2017年,重庆市将打造2至3个大数据产业示范园区,培育10家核心龙头企业、500家大数据应用和服务企业,引进和培养1000名大数据产业高端人才,形成500亿元大数据产业规模,建成国内重要的大数据产业基地;天津市在2013年11月初公布了《滨海新区大数据行动方案(2013—2015)》,方案中明确提出,到2017年,把天津建设成为具有国际竞争力的大数据产业基地和数据资源聚集服务区。
云计算、大数据和物联网代表了IT领域最新的技术发展趋势,三者相辅相成,既有联系又有区别。为了更好地理解三者之间的紧密关系,下面将首先简要介绍云计算和物联网的概念,再分析云计算、大数据和物联网的区别与联系。
云计算实现了通过网络提供可伸缩的、廉价的分布式计算能力,用户只需要在具备网络接入条件的地方,就可以随时随地获得所需的各种IT资源。云计算代表了以虚拟化技术为核心、以低成本为目标的、动态可扩展的网络应用基础设施,是近年来最有代表性的网络计算技术与模式。
云计算包括3种典型的服务模式(见图1-7),即IaaS(基础设施即服务)、PaaS(平台即服务)和SaaS(软件即服务)。IaaS将基础设施(计算资源和存储)作为服务出租,PaaS把平台作为服务出租,SaaS把软件作为服务出租。
图1-7云计算的服务模式和类型
云计算包括公有云、私有云和混合云3种类型(见图1-7)。公有云面向所有用户提供服务,只要是注册付费的用户都可以使用;私有云只为特定用户提供服务;混合云综合了公有云和私有云的特点。
云计算的关键技术包括虚拟化、分布式存储、分布式计算、多租户等。
(1)虚拟化
虚拟化技术是云计算基础架构的基石,是指将一台计算机虚拟为多台逻辑计算机,在一台计算机上同时运行多个逻辑计算机,每个逻辑计算机可运行不同的操作系统,并且应用程序都可以在相互独立的空间内运行而互不影响,从而显著提高计算机的工作效率。
虚拟化的资源可以是硬件(如服务器、磁盘和网络),也可以是软件。以服务器虚拟化为例,它将服务器物理资源抽象成逻辑资源,让一台服务器变成几台甚至上百台相互隔离的虚拟服务器,不再受限于物理上的界限,而是让CPU、内存、磁盘、I/O等硬件变成可以动态管理的“资源池”,从而提高资源的利用率,简化系统管理,实现服务器整合,让IT对业务的变化更具适应力。
Hyper-V、VMware、KVM、Virtualbox、Xen、Qemu等都是非常典型的虚拟化技术。Hyper-V是微软的一款虚拟化产品,旨在为用户提供成本效益更高的虚拟化基础设施软件,从而为用户降低运作成本,提高硬件利用率,优化基础设施,提高服务器的可用性。Vmware(威睿)是全球桌面到数据中心虚拟化解决方案的领导厂商。
(2)分布式存储
面对数据爆炸的时代,集中式存储已经无法满足海量数据的存储需求,分布式存储应运而生。GFS(GoogleFileSystem)是谷歌公司推出的一款分布式文件系统,可以满足大型、分布式、对大量数据进行访问的应用的需求。GFS具有很好的硬件容错性,可以把数据存储到成百上千台服务器上面,并在硬件出错的情况下尽量保证数据的完整性。GFS还支持GB或者TB级别超大文件的存储,一个大文件会被分成许多块,分散存储在由数百台机器组成的集群里。HDFS(HadoopDistributedFileSystem)是对GFS的开源实现,它采用了更加简单的“一次写入、多次读取”文件模型,文件一旦创建、写入并关闭了,之后就只能对它执行读取操作,而不能执行任何修改操作;同时,HDFS是基于Java实现的,具有强大的跨平台兼容性,只要是JDK支持的平台都可以兼容。
谷歌公司后来又以GFS为基础开发了分布式数据管理系统BigTable,它是一个稀疏、分布、持续多维度的排序映射数组,适合于非结构化数据存储的数据库,具有高可靠性、高性能、可伸缩等特点,可在廉价PC服务器上搭建起大规模存储集群。HBase是针对BigTable的开源实现。
(3)分布式计算
(4)多租户
多租户技术目的在于使大量用户能够共享同一堆栈的软硬件资源,每个用户按需使用资源,能够对软件服务进行客户化配置,而不影响其他用户的使用。多租户技术的核心包括数据隔离、客户化配置、架构扩展和性能定制。
云计算数据中心是一整套复杂的设施,包括刀片服务器、宽带网络连接、环境控制设备、监控设备以及各种安全装置等。数据中心是云计算的重要载体,为云计算提供计算、存储、带宽等各种硬件资源,为各种平台和应用提供运行支撑环境。
谷歌、微软、IBM、惠普、戴尔等国际IT巨头,纷纷投入巨资在全球范围内大量修建数据中心,旨在掌握云计算发展的主导权。我国政府和企业也都在加大力度建设云计算数据中心。内蒙古提出了“西数东输”发展战略,即把本地的数据中心通过网络提供给其他省份用户使用。福建省泉州市安溪县的中国国际信息技术(福建)产业园的数据中心,是福建省重点建设的两大数据中心之一,由惠普公司承建,拥有5000台刀片服务器,是亚洲规模最大的云渲染平台。阿里巴巴集团公司在中国甘肃玉门建设的数据中心,是中国第一个绿色环保的数据中心,电力全部来自于风力发电,用祁连山融化的雪水冷却数据中心产生的热量。
云计算在电子政务、医疗、卫生、教育、企业等领域的应用不断深化,对提高政府服务水平、促进产业转型升级和培育发展新兴产业等都起到了关键的作用。政务云上可以部署公共安全管理、容灾备份、城市管理、应急管理、智能交通、社会保障等应用,通过集约化建设、管理和运行,可以实现信息资源整合和政务资源共享,推动政务管理创新,加快向服务型政府转型。教育云可以有效整合幼儿教育、中小学教育、高等教育以及继续教育等优质教育资源,逐步实现教育信息共享、教育资源共享及教育资源深度挖掘等目标。中小企业云能够让企业以低廉的成本建立财务、供应链、客户关系等管理应用系统,大大降低企业信息化门槛,迅速提升企业信息化水平,增强企业市场竞争力。医疗云可以推动医院与医院、医院与社区、医院与急救中心、医院与家庭之间的服务共享,并形成一套全新的医疗健康服务系统,从而有效地提高医疗保健的质量。
云计算产业作为战略性新兴产业,近些年得到了迅速发展,形成了成熟的产业链结构(见图1-8),产业涵盖硬件与设备制造、基础设施运营、软件与解决方案供应商、基础设施即服务(IaaS)、平台即服务(PaaS)、软件即服务(SaaS)、终端设备、云安全、云计算交付/咨询/认证等环节。
图1-8云计算产业链
硬件与设备制造环节包括了绝大部分传统硬件制造商,这些厂商都已经在某种形式上支持虚拟化和云计算,主要包括Intel、AMD、Cisco、SUN等。基础设施运营环节包括数据中心运营商、网络运营商、移动通信运营商等。软件与解决方案供应商主要以虚拟化管理软件为主,包括IBM、微软、思杰、SUN、Redhat等。IaaS将基础设施(计算和存储等资源)作为服务出租,向客户出售服务器、存储和网络设备、带宽等基础设施资源,厂商主要包括Amazon、Rackspace、Gogrid、Gridplayer等。PaaS把平台(包括应用设计、应用开发、应用测试、应用托管等)作为服务出租,厂商主要包括谷歌、微软、新浪、阿里巴巴等。SaaS则把软件作为服务出租,向用户提供各种应用,厂商主要包括Salesforce、谷歌等。云安全旨在为各类云用户提供高可信的安全保障,厂商主要包括IBM、OpenStack等。云计算交付/咨询/认证环节包括了三大交付以及咨询认证服务商,这些服务商已经支持绝大多数形式的云计算咨询及认证服务,主要包括IBM、微软、Oracle、思杰等。
物联网是物物相连的互联网,是互联网的延伸,它利用局部网络或互联网等通信技术把传感器、控制器、机器、人员和物等通过新的方式连在一起,形成人与物、物与物相连,实现信息化和远程管理控制。
从技术架构上来看,物联网可分为四层(见图1-9):感知层、网络层、处理层和应用层。每层的具体功能如表1-8所示。
图1-9物联网体系架构
表1-8物联网各个层次的功能
层次
感知层
如果把物联网系统比喻为一个人体,那么,感知层就好比人体的神经末梢,用来感知物理世界,采集来自物理世界的各种信息。这个层包含了大量的传感器,如温度传感器、湿度传感器、应力传感器、加速度传感器、重力传感器、气体浓度传感器、土壤盐分传感器、二维码标签、RFID(RadioFrequencyIdentification)标签和读写器、摄像头、GPS设备等
网络层
相当于人体的神经中枢,起到信息传输的作用。网络层包含各种类型的网络,如互联网、移动通信网络、卫星通信网络等
处理层
相当于人体的大脑,起到存储和处理的作用,包括数据存储、管理和分析平台
应用层
直接面向用户,满足各种应用需求,如智能交通、智慧农业、智慧医疗、智能工业等
物联网是物与物相连的网络,通过为物体加装二维码、RFID标签、传感器等,就可以实现物体身份唯一标识和各种信息的采集,再结合各种类型网络连接,就可以实现人和物、物和物之间的信息交换。因此,物联网中的关键技术包括识别和感知技术(二维码、RFID、传感器等)、网络与通信技术、数据挖掘与融合技术等。
(1)识别和感知技术
二维码是物联网中一种很重要的自动识别技术,是在一维条码基础上扩展出来的条码技术。二维码包括堆叠式/行排式二维码和矩阵式二维码,后者较为常见。如图1-10所示,矩阵式二维码在一个矩形空间中通过黑、白像素在矩阵中的不同分布进行编码。在矩阵相应元素位置上,用点(方点、圆点或其他形状)的出现表示二进制“1”,点的不出现表示二进制的“0”,点的排列组合确定了矩阵式二维条码所代表的意义。二维码具有信息容量大、编码范围广、容错能力强、译码可靠性高、成本低易制作等良好特性,已经得到了广泛的应用。
图1-10矩阵式二维码
RFID(RadioFrequencyIdentification)技术用于静止或移动物体的无接触自动识别,具有全天候、无接触、可同时实现多个物体自动识别等特点。RFID技术在生产和生活中得到了广泛的应用,大大推动了物联网的发展,我们平时使用的公交卡、门禁卡、校园卡等都嵌入了RFID芯片,可以实现迅速、便捷的数据交换。从结构上讲,RFID是一种简单的无线通信系统,由RFID读写器和RFID标签两个部分组成。RFID标签是由天线、耦合元件、芯片组成的,是一个能够传输信息、回复信息的电子模块。RFID读写器是由天线、耦合元件、芯片组成的,用来读取(或者有时也可以写入)RFID标签中的信息。RFID使用RFID读写器及可附着于目标物的RFID标签,利用频率信号将信息由RFID标签传送至RFID读写器。以公交卡为例,市民持有的公交卡就是一个RFID标签(见图1-11),公交车上安装的刷卡设备就是RFID读写器,当我们执行刷卡动作时,就完成了一次RFID标签和RFID读写器之间的非接触式通信和数据交换。
图1-11采用RFID芯片的公交卡
传感器是一种能感受规定的被测量件并按照一定的规律(数学函数法则)转换成可用信号的器件或装置,具有微型化、数字化、智能化、网络化等特点。人类需要借助于耳朵、鼻子、眼睛等感觉器官感受外部物理世界,类似地,物联网也需要借助于传感器实现对物理世界的感知。物联网中常见的传感器类型有光敏传感器、声敏传感器、气敏传感器、化学传感器、压敏传感器、温敏传感器、流体传感器等(见图1-12),可以用来模仿人类的视觉、听觉、嗅觉、味觉和触觉。
图1-12不同类型的传感器
(2)网络与通信技术
物联网中的网络与通信技术包括短距离无线通信技术和远程通信技术。短距离无线通信技术包括Zigbee、NFC、蓝牙、Wi-Fi、RFID等。远程通信技术包括互联网、2G/3G/4G移动通信网络、卫星通信网络等。
(3)数据挖掘与融合技术
物联网已经广泛应用于智能交通、智慧医疗、智能家居、环保监测、智能安防、智能物流、智能电网、智慧农业、智能工业等领域,对国民经济与社会发展起到了重要的推动作用,具体如下。
智能交通。利用RFID、摄像头、线圈、导航设备等物联网技术构建的智能交通系统,可以让人们随时随地通过智能手机、大屏幕、电子站牌等方式,了解城市各条道路的交通状况、所有停车场的车位情况、每辆公交车的当前到达位置等信息,合理安排行程,提高出行效率。
智慧医疗。医生利用平板电脑、智能手机等手持设备,通过无线网络,可以随时连接访问各种诊疗仪器,实时掌握每个病人的各项生理指标数据,科学、合理地制定诊疗方案,甚至可以支持远程诊疗。
智能安防。采用红外线、监控摄像头、RFID等物联网设备,实现小区出入口智能识别和控制、意外情况自动识别和报警、安保巡逻智能化管理等功能。
智能物流。利用集成智能化技术,使物流系统能模仿人的智能,具有思维、感知、学习、推理判断和自行解决物流中某些问题的能力(如选择最佳行车路线,选择最佳包裹装车方案),从而实现物流资源优化调度和有效配置,提升物流系统效率。
智能电网。通过智能电表,不仅可以免去抄表工的大量工作,还可以实时获得用户用电信息,提前预测用电高峰和低谷,为合理设计电力需求响应系统提供依据。
智慧农业。利用温度传感器、湿度传感器和光线传感器,实时获得种植大棚内的农作物生长环境信息,远程控制大棚遮光板、通风口、喷水口的开启和关闭,让农作物始终处于最优生长环境,提高农作物产量和品质。
智能工业。将具有环境感知能力的各类终端、基于泛在技术的计算模式、移动通信技术等不断融入工业生产的各个环节,大幅提高制造效率,改善产品质量,降低产品成本和资源消耗,将传统工业提升到智能化的新阶段。
完整的物联网产业链主要包括核心感应器件提供商、感知层末端设备提供商、网络提供商、软件与行业解决方案提供商、系统集成商、运营及服务提供商等环节(见图1-13),具体如下。
图1-13物联网产业链
核心感应器件提供商。提供二维码、RFID及读写机具、传感器、智能仪器仪表等物联网核心感应器件。
感知层末端设备提供商。提供射频识别设备、传感系统及设备、智能控制系统及设备、GPS设备、末端网络产品等。
网络提供商。包括电信网络运营商、广电网络运营商、互联网运营商、卫星网络运营商和其他网络运营商等。
软件与行业解决方案提供商。提供微操作系统、中间件、解决方案等。
系统集成商。提供行业应用集成服务。
运营及服务提供商。开展行业物联网运营及服务。
云计算、大数据和物联网代表了IT领域最新的技术发展趋势,三者既有区别又有联系。云计算最初主要包含了两类含义:一类是以谷歌的GFS和MapReduce为代表的大规模分布式并行计算技术;另一类是以亚马逊的虚拟机和对象存储为代表的“按需租用”的商业模式。但是,随着大数据概念的提出,云计算中的分布式计算技术开始更多地被列入大数据技术,而人们提到云计算时,更多指的是底层基础IT资源的整合优化以及以服务的方式提供IT资源的商业模式(如IaaS、PaaS、SaaS)。从云计算和大数据概念的诞生到现在,二者之间的关系非常微妙,既密不可分,又千差万别。因此,我们不能把云计算和大数据割裂开来作为截然不同的两类技术来看待。此外,物联网也是和云计算、大数据相伴相生的技术。下面总结一下三者的联系与区别(见图1-14)。
图1-14大数据、云计算和物联网三者之间的关系
第一,大数据、云计算和物联网的区别。大数据侧重于对海量数据的存储、处理与分析,从海量数据中发现价值,服务于生产和生活;云计算本质上旨在整合和优化各种IT资源并通过网络以服务的方式,廉价地提供给用户;物联网的发展目标是实现物物相连,应用创新是物联网发展的核心。
可以说,云计算、大数据和物联网三者已经彼此渗透、相互融合,在很多应用场合都可以同时看到三者的身影。在未来,三者会继续相互促进、相互影响,更好地服务于社会生产和生活的各个领域。
本章介绍了大数据技术的发展历程,并指出信息科技的不断进步为大数据时代提供了技术支撑,数据产生方式的变革促成了大数据时代的来临。
大数据具有数据量大、数据类型繁多、处理速度快、价值密度低等特点,统称“4V”。大数据对科学研究、思维方式、社会发展、就业市场和人才培养等方面,都产生了重要的影响,深刻理解大数据的这些影响,有助于我们更好把握学习和应用大数据的方向。
大数据在金融、汽车、零售、餐饮、电信、能源、政务、医疗、体育、娱乐等在内的社会各行各业都得到了日益广泛的应用,深刻地改变着我们的社会生产和日常生活。
大数据并非单一的数据或技术,而是数据和大数据技术的综合体。大数据技术主要包括数据采集、数据存储和管理、数据处理与分析、数据安全和隐私保护等几个层面的内容。
大数据产业包括IT基础设施层、数据源层、数据管理层、数据分析层、数据平台层和数据应用层,在不同层面,都已经形成了一批引领市场的技术和企业。
本章最后介绍了云计算和物联网的概念和关键技术,并阐述了大数据、云计算和物联网三者之间的区别与联系。
1.试述信息技术发展史上的3次信息化浪潮及其具体内容。
2.试述数据产生方式经历的几个阶段。
3.试述大数据的4个基本特征。
4.试述大数据时代的“数据爆炸”特性。
5.科学研究经历了哪4个阶段?
6.试述大数据对思维方式的重要影响。
7.大数据决策与传统的基于数据仓库的决策有什么区别?
8.举例说明大数据的具体应用。
9.举例说明大数据的关键技术。
10.大数据产业包含哪些层面?
11.定义并解释以下术语:云计算、物联网。
12.详细阐述大数据、云计算和物联网三者之间的区别与联系。
本文仅用于学习和交流目的,不代表人邮教育社区观点。非商业转载请注明作译者、出处,并保留本文的原始链接。
本书作为JavaWeb程序设计的大学教程,对JavaEE编程技术进行了系统全面的介绍。全书共分14章。首先...
本书以C++语言为环境,重点讲授程序设计的思想和方法,包括过程化的程序设计和面向对象的程序设计,且本书非常强调...
本书依据教育部高等学校计算机基础课程教学指导委员会提出的《关于进一步加强高校计算机基础教学的意见》中有关“网页...
本书共分10章,主要包括第1章绪论,第2章线性表,第3章栈和队列,第4章串,第5章数组和广义表,第6章树和二...
本书全面系统地介绍了多媒体技术的基础知识与应用软件的使用。全书共5章。第1章多媒体技术概论讲述了多媒体技术的基...
本书是根据教育部考试中心制定的《全国计算机等级考试二级MSOffice高级应用考试大纲》(2013年版)编写...
数据结构与算法设计是高等院校理工科各专业计算机应用能力提高的重要技术基础。本书将数据结构和算法分析与设计的...
2007-2024人邮教育社区·人民邮电出版社有限公司·Allrightsreserved