大数据定义有着如下的基本前提和含义。
②多种类型数据积累:新的数据存储和数据采集的技术发展使巨量数据的采集、收集、存储成为可能。网络技术、移动设备、数字传感器、数码摄影/摄像、监控影像、卫星定位系统、遥感技术、气候和环境监测技术等等,每时每刻都在各种形式、各种类型的大量数据。
③计算技术的进步与发展:现代计算技术、网络技术、多媒体技术和数据库处理技术等可以处理各种形式的海量数据,产生出大量的高附加值的数据、结果、状态和知识。
④数据处理能力成为战略能力:数据量的激增、数据类型的多样、技术平台对数据的综合处理,造成了知识边界扩展、知识价值提升、知识衍生能力加快,它极大地影响到了企业、个人、社会和政府的决策,极大地促进了社会生产力的发展,使掌握大数据技术者获得了竞争优势和难于模仿的核心竞争力。因此,大数据技术也成为了国家的核心战略资源。
1.2大数据对数据库技术的影响
大数据的宗旨是处理数据,数据库技术自然占据核心地位。而大数据环境下的数据库技术也具有明显的特殊性。
1.2.1大数据环境下数据处理技术面临的新特点
数据量宏大。对数据库技术影响最大、最直接的方面莫过于数据的爆炸性增长。即使先不考虑数据类型的变化,需要处理的数据从MB扩展到GB,现在再扩展到TB,不远的将来数据库将经常面对PB量级的数据,这必然对数据库的硬件架构、数据库系统结构和数据库应用产生重大的影响。
数据形式多样。另外一个对数据库技术产生重要影响的因子是数据的多样化,传统数字、图像、照片、影像、声音等多种数据资源需要进行处理,并且和传统关系式数据不同的,许多数据格式中的有价值数据并不多,例如多张图片定对象的变化,连续视频影像中对特殊对象的跟踪等等,其数据抽取方式、过滤方法和存储、计算方式均有别于传统数据库。
单机或小型局域网的数据库处理无法满足。当前,数据量爆炸式增长,数据类型日趋多样,传统关系数据库的处理能力已难于满足,需要新的数据库处理技术。
传统的并行数据库的灵活性具有局限性。并行数据库系统取得了辉煌的成绩,但是它的灵活性不佳,弹性受限,系统规模的收缩或扩展成本非常高。这样的系统适合于“相对固定结构”的计算结构,例如机银行业务管理系统或城市交通管理系统等。
结构化、半结构化与非结构化形式并存。让数据库有能力处理这些半结构化和非结构化(有时不作区分)数据变成了新型数据库技术的一项迫切要求。
对结果要求的模糊化。在大数据的时代,计算技术不仅限于回答“是/非”问题,而是需要更多的模糊化结果。例如,流感有很可能在一周后流行、近期可能发生5级左右地震、近一周国际往返机票将上涨……这些答案并不精确,但足以指导人们的活动。非结构化数据的处理结果常常是给出模糊化的答案。
1.2.2新型数据库技术的特点
与传统数据库技术相比较,新型数据库技术具有一些明显的特点,具体如下:
可处理的数据总量和数据类型增加。不再为数据结构化或数据代表性而人为地选取部分数据或进行数据抽样;不再靠样本规模的大小来控制结果的置信区间和置信度。新的数据库处理技术试图利用“全部数据”,完成对结果的计算和推断。
使用更多的非结构化数据,而不是片面地强调全部使用结构化数据。在非结构化的高复杂度、高数据量、多种数据类型的情况下,允许结论和结果的“不精确”,允许追求“次优解”。体现大数据技术“以概率说话”的特点。
不再试图避免或降低数据的混杂性,而是把“使用全部数据”作为追求“次优解”的途径。即在复杂、混乱、无结构化与确定、规整、结构化数据之间做出平衡。
在遇到“使用全部数据,得出模糊化结果”与“实用部分数据,得出准确结论”的选择时,新型数据库技术一般会选择前者,从一个更全面的角度利用更多的数据资源去寻找答案。
不同的数据库开发理念,不同的应用目标,不同的技术方案,早就了新型数据库丰富多彩、特点各异的局面。
1.3从传统关系数据库到非关系数据
在计算机系统结构刚刚趋于稳定的1970年,IBM公司的EdgarCodd(科德)首先提出了关系数据库的概念和规则,这是数据库技术的一个重要的里程碑。科德定义的关系数据库具有结构化程度高、数据冗余量低、数据关系明确、一致性好的优点。关系数据库模型把数据库操作抽象成选择、映射、连接、集合的并差交除操作、数据的增删改查操作等。而1976年Boyce和Chamberlin提出的SQL结构化查询语言则把关系数据库及其操作模式完整地固定下来,其理论和做法延续至今,被作为数据库技术的重要基石。关系数据库中定义的关系模型的实质是二维表格模型,关系数据库就是通过关系连接的多个二维表格之间的数据集合。当前流行的数据库软件Oracal、DB2、SQLServer、MySQL和Access等均属于关系数据库。
到二十世纪八十年代后期,IBM的研究员提出了数据仓库(DataWarehouse)的概念,4年后BillInmon给出了被大家广泛接受的数据仓库定义:“数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理中的决策制定。”数据仓库的进步在于,它把决策支持定为数据库中数据组织和管理的目标,从而把智能性和决策能力融入到数据库中。Inmon之后,RalphKimball建立了更加方便、实用的“自底向上”数据仓库架构并称之为“数据集市”(DataMart),这种技术受到企业及厂家的欢迎并采纳实施。虽然数据集市被归并为数据仓库,但是它的出现诱发了商务智能和联机分析技术的流行。
一、分布集群数据库在大数据中的应用
二、在线规则更新系统的应用
三、大规模并行处理技术的应用
中图分类号:TP311.13
1大数据概念与特征
当前,较为统一的认识是大数据有四个基本特征:数据规模大(Volume),数据种类多(Variety),数据要求处理速度快(Velocity),数据价值密度低(Value),即所谓的四V特性。这些特性使得大数据区别于传统的数据概念。【3】
2大数据可用性的面临的技术与问题
大数据并不仅仅指其数据量之大,更代表着其潜在的数据价值之大。有研究证明,有效地管理、使用大数据能够给企业提供更多增强企业生产能力和竞争能力的机会,能够给企业带来巨大的潜在商业价值。【4】但不可否认的是,大数据目前也面临很多负面影响。低质量低密度的数据也可能对决策造成致命性的错误。如何把大数据从理论研究到企业应用的转变,还面临很多问题与挑战。
(1)可用性理论体系的建立。大数据的可用性需要完整的理论做支撑,才能解决诸如如何形式化的表示数据可用性、如何评估数据可用性、数据错误自动发现和修复依据什么理论、如何管理数据和数据融合、数据安全性采取何种策略和理论等一系列问题。因此,要建立完整可用性理论体系,构建统一的模型,为大数据的进一步应用提供坚实的理论基础。
大数据是对事物最原始的全貌记录,数据量规模很大,但是其中有用的信息非常少,因此,对于处理数据来说,数据并不是越多越好。如何提高数据中的有效数据是非常关键的。大量的数据中如果仅仅包含了少量的错误数据,对分析结果可能不会造成很大的影响。但是如果对错误数据没有有效控制的话,大量错误数据的涌入很可能会得到完全错误的结果。
因此,获取高质量数据的能力是大数据能否进行实用的关键因素,否则只会在浪费人力物力后获得完全无效甚至错误的结果。但是目前还缺乏系统的研究,对于出现的问题还没有很好的解决方案,在获取数据方面的工作任重而道远。
目前,业界已经从对大数据重要性的认识阶段,发展到实践大数据必要性的战略实施阶段。中国市场在大数据概念产生的初期便已经步入大数据认知和探索阶段,并逐步成为全球市场最具行动力的市场之一。据IDC预测,2013年中国大数据市场将达到1.8亿美元。而赛迪顾问数据显示,到2016年,中国有望成为世界最大的大数据市场,市场份额达到8.03亿美元(约50亿人民币)。
数据改变世界
在感知化、物联化和智能化的交会下,世界的面貌即将改变。
2013年7月11日,IBM2013技术峰会(IBMTechSummit2013)在京举行。牛津大学教授、大数据权威专家、《大数据时代》作者维克托·迈尔-舍恩伯格博士在会上表示:“大数据开启了一次重大的时代转型,正在变革我们的生活、工作和思维。中国是世界上最复杂的大数据国家,面临着充满变化的局面和无限的可能性,但是她同时也拥有最大的发展机会。因为在大数据环境下,充分的数据样本能够帮助企业揭示规律,更好的洞察和预测未来;另外,中国人凭借在数学和统计方面的优势,成为全球瞩目的大数据人才据点。我很高兴看到,在IBM和牛津大学年初的大数据调研中,中国市场有四分之一的企业已经步入大数据实践阶段。这表明中国不仅快速把握了创新的趋势,更有可能成为全球大数据领域的先驱。”
IBM软件集团大中华区战略及市场总监吴立东认为:在大数据时代,企业既可以基于数据更好地做到以客户为中心,也可以利用大数据帮助企业整合后端业务,从而更好地为客户服务。
同时,IBM在全球的大数据实践已经深入到包括中国在内的全球市场的各个行业。包括电信、金融、医疗、零售、制造等全球30000家客户已在IBM大数据平台及大数据分析等技术和理念支持下获得收益。
前不久,IBM更是推出了大数据方面的多款产品和技术,大力提升了其分析产品的加速性能,简化了开发和运营,并推出了企业级别的开源Hadoop系统,同时推出了企业移动业务解决方案MessageSight,以及升级DB210.5等系列产品。在认知计算领域,更推出第一款面向消费者的Waston应用。其中,业内首创的分析加速技术BLUAcceleration,延续了传统的内存管理系统功能,能够帮助用户更快速地抓取关键信息,并将数据分析速度提高25倍。全新的“大数据专家”PureDataforHadoop系统能够大幅提升企业部署Hadoop的速度,同时降低部署难度。新版本企业级Hadoop产品InfoSphereBigInsights可以利用现有的SQL技术,更便捷地开发应用组件。
技术维新助力再现代化
随着IT技术的进一步发展,技术正在彰显着前所未有的特殊作用,人们对技术的追求也越来越迫切。
IBM全球副总裁兼大中华区软件集团总经理胡世忠表示:“最新的IBM全球CEO调研显示全球企业领导者将技术列为最重要的外部力量,而‘科技是第一生产力’一直被广大中国的企业家和技术人们奉为至理名言。IBM认为,在由新一代技术组成的智慧计算时代,中国的企业家们需要更为战略地思考信息科技的定位,将其运用到自身的变革转型之中。作为智慧地球的推进者,IBM正在引领商业和科技的创新,通过业务前线化实现以客户为中心的业务转型,通过企业内部全面整合大幅优化流程和运营,充分发挥最新的科技能力,携手合作伙伴帮助中国企业、组织和政府共同打造‘再现代化’发展的全新方式。”
显然,这三大经典的技术信条在大数据时代面临动摇,
技术信徒的思维模式也即将发生颠覆。
那么,大数据对技术信徒意味着什么?
他们又将如何面对这一颠覆性的变革?
“技术汇成一条大河,一波推动另外一波。”IBM中国开发中心首席技术官兼新技术研发中心总经理毛新生带着对技术的满腔痴迷这样形容道。
一波未平一波又起,移动、社交商务、云计算、大数据等先后涌现的新趋势正在融合成一股巨大的潮流,将所有的行业IT化,进而推动商业和社会的演进。这也就意味着“科技是第一生产力”在当下有了更深层次的涵义——“IBM认为,在由新一代技术组成的智慧运算时代,中国的企业家们需要更为战略地思考信息科技的定位,将其运用到自身的变革转型之中。”IBM全球副总裁兼大中华区软件集团总经理胡世忠为企业新发展出谋献策。
《大数据时代》作者、牛津大学网络学院互联网治理与监管专业教授维克托·迈尔-舍恩伯格的出现着实让场内数以万计的技术信徒激动了一把。作为深刻洞察大数据给人类生活、工作和思维带来的大变革的第一人,维克托以价格预测网站的例子作为开场白,论证了大数据已经悄然在大众的身边出现并给他们的生活带来改变。
如何在大数据时代生存?维克托指出了两个关键点:一是意识到技术或者规模并不是成功的充分条件。遗忘规模经济,因为它的效益会逐渐淡化。20年前,一个公司只有拥有上十万台的服务器才能提供搜索服务,但在大数据时代,由于云计算的便利性,不拥有实体服务器的公司,如前文提到的,它只有30个员工,但它有能力为其上10亿的用户提供数据分析。二是为了在大数据时代获得胜利,大数据的思维模式不可或缺,工具的力量不容小视,分析能力是必要的。蓝色被谷歌选为搜索窗口的色彩,但蓝色实际上有51种,而且这51种蓝色人依靠裸眼无法明确区分,却能在心理层面给人带来不同的感受。经过大数据分析,谷歌发现原本由人工选出来的蓝色会导致谷歌损失200亿~300亿美元的收入,因为这一种蓝色并不最具备诱惑力,无法激起人们点击的欲望。
大数据的力量需要具备大数据的思维模式,并有效利用大数据的工具去发掘。IBM杰出工程师、InfoSphereStream高级开发经理JamesRGiles阐述了IBM对大数据的看法:“我们正一步步走到了一个新纪元——大数据时代。如同对待自然资源一样,我们需要开掘、转变、销售、保护大数据资源;不同的是,大数据资源是无穷无尽的,我们不能任由大数据淹没自己,而应该在获得洞察需求的驱使下获得价值。”
大数据的类型广义而言有移动数据和静态数据,还有结构性数据和非结构性数据,这对应着不同的处理方式。“技术人员的责任是,能够去管理这些数据,能够理解这些从不同的数据源而来、不同类型的数据,能够分析这些数据,得出结论,让其提供决策支持,为企业拥抱新的大数据时代提供技术支撑,以保证管理、安全、商业的持续性。”JamesRGiles号召技术人员积极行动,以大数据的思维模式展现技术的价值和魅力。
找到内在联系
技术的趋势总是融合,也只有有机融合才能形成合力,发挥更大的威力,而实现这一合力的前提是明确各个趋势之间的内在联系。
“实际上,社交商务、移动、大数据、云计算是一体化的。”毛新生建议技术人员用一个全面的、融合的范式来沉着看待和应对纷繁的热点技术,理解这些热点会如何影响整个IT的走向,进而明晰IT如何可以很好地支持各行各业的业务转型和创新,“让每个行业都可以从新的技术转型当中获得足够的原动力”。
移动的设备无处不在。人、汽车,甚至建筑物、道路、桥梁,它们无时无刻不在提供数据,这就是新的数据源,是它们引领我们来到维克托所描述的更为广阔的大数据世界。
移动和社交商务的便捷性使得企业的整个业务流程变得非常自动化,用户可以享受自助服务,对应到企业端就意味着业务流程对前端的需求要反应得更为迅速,也意味着各个业务系统之间无缝连接,否则没有办法支撑以最终用户为中心的服务体验,但跨部门和跨应用的整合实属不易。进一步延伸开来,对用户体验的追求是无止境的,合作伙伴的API和服务可以作为补充,这即是“跨企业边界”的行为。这种行为必然导致大规模的用户访问。这些整合和外部拓展都需要云计算提供灵活有效的基础。没有云计算,移动前端的体验、大数据分析的效果都会大打折扣。“云的基础设施使大规模互动、大规模数据处理、大规模应用可以更好地服务我们。”毛新生指出。
环境变化加速,竞争更加激烈,要求企业的反应速度越来越快,应用以及端到端解决方案快速改变。毛新生饶有兴致地介绍道:“这个改变有多快呢?我们有的客户尝试以天为周期去改变,这意味着应用和业务流程的设计、开发、部署、测试、维护的整个过程要大大加快,也就是所谓的DevOps。只有把敏捷的开发和运维结合起来,生命周期变得以天为周期,才能响应新的商业环境。”
“移动、云计算、大数据、社交商务之间的紧密联系让我们应该以整体的眼光来审视它们。”胡世忠坚信,它们的组合可以创造可持续的竞争优势,可以迸发变革的力量。
至于一个企业应该从哪里下手来实现这一幅宏伟蓝图?毛新生给出的答案是:“每一个企业,因为它所处的行业或者特定的情况而拥有不同的切入点,有一些企业需要从移动开始,有一些企业需要从云计算开始,有一些企业需要从大数据开始,但是它们是不可分割的整体,只有综合地运用它们,找到适合自己的切入点,一步一步脚踏实地,才能掌握先机,打造竞争力。在这个过程中,要拥有正确的思维,改变既有思维,理解趋势,制定策略。”
例如,银行、保险、零售业这一类和最终消费者打交道的服务业在很大概率上需要先从移动、社交商务入手,从而使其有机会改善和用户交互的过程。而以数据为生的行业会琢磨如何将自己的内容和资源数据增值,而传统的运营基础设施的重资产企业,会追求将资产数字化,得到数据并进行分析,以优化资产的生命周期管理来预防性地降低维护成本,这些企业是以大数据作为切入点的。还有一些企业希望跨行业整合进行业务创新,背后牵扯到它们自身现有的业务模式和新业务模式的整合,这种情况下需要以云的方式构建新的应用、服务、商业流程。
毛新生认为切入点不同只是表象,每一种场景到最后都是综合性的运用,要把这几个技术综合运用起来。从前端开始,首先是利用移动,并借助社交渠道交流,很快这些渠道会得到新的数据,这些新的数据和原有的交易数据和积累的数据结合起来做进一步的数据分析,这就是大数据分析。大数据分析以后可以做社交推荐、关联推荐了。随后,能不能跨界再实现更广泛的销售?跟别的价值链上的合作伙伴合作,那么引入云是解决之道。数据量增大,用户数增多,云的基础设施可以让成本更合理。“所以说,到最后都是综合性的应用,尽管起点不一样”,毛新生说。
对技术人员而言,IT就是交付业务流程的基础,是信息化的工具。它的目标无非是优化业务流程或者创新业务流程。创新到达一定程度后,业务流程的量变会导致质变。“这就解释了为何全球越来越多的CEO将技术视为驱动企业发展的首要因素。”IBM软件集团大中华区中间件集团总经理李红焰强调,技术人员有能力,也有责任将“看不见的技术转变为看得见的享受”。
移动开发的转变
在大数据的带领下我们进入移动时代,企业有了新机遇,技术人员却有了新挑战。为什么移动开发和之前不一样呢?有什么不一样呢?这成为了萦绕在技术人员脑子里最主要的两个问题。
IBM杰出工程师及IBM移动平台首席架构师GregTruty解答了这两个疑问。他认为,很多企业现在所做的事情与在移动的状态下做的事情是不一样的,移动状态下的任务和规划更具有战略性。移动应用是在不稳定的网络上运行的,所占用的资源更少。用户在移动设备上和非移动设备上的体验是完全不一样的,他们会希望在不稳定的网络上仍然能够获得良好的体验。企业现在需要思考的是,怎么样把大量数据、大量体验变成一些有意义的体验。同时,移动管理的需求也不一样了,开发的特性也不一样了。比如对一个企业来说,移动开发周期更短,有更多设备需要支持,有更多开发方法可供选择,也有更多的工具和库可供选择,这时候企业就需要仔细斟酌,哪些开发方法和工具是自己需要的。
自然而然,对于设备的管理也有了变化,因为应用变化了。“一直以来,客户端服务器的应用架构是企业在使用的。你需要协调在服务器端的服务以及在客户端的服务,挑战非常大。你不可能强迫客户运行你的应用,而必须能协调和兼容原有的系统。这是非常关键的一点。”GregTruty强调了设备管理的重要性。
1.1什么是大数据
大数据概念可以从四个维度去解,即三个V和一个C。三个V分别指的是数据量大(Volume)、数据种类多(Variety)和数据增长速度快(Velocity),最后一个C指的是处理、升级或利用大数据的分析手段比处理结构化数据要复杂的多(Complexity)。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像Map-Reduce一样的并行计算框架将复杂的计算任务分配到“云”中成百上千的节点。
1.2大数据与云计算
大数据本身就是一个问题集,云计算技术是目前解决大数据问题集最重要最有效的手段。云计算提供了基础的架构平台,大数据应用在这个平台上运行。目前公认为分析大数据集最有效手段的分布式处理技术,也是云计算思想的一种具体体现。
云计算是分布式处理、并行处理和网格计算的发展,或者说是这些计算机科学概念的商业实现。云计算将网络上分布的计算、存储、服务构件、网络软件等资源集中起来,基于资源虚拟化的方式,为用户提供方便快捷的服务,实现了资源和计算的分布式共享和并行处理,能够很好地应对当前互联网数据量高速增长的势头。
1.3大数据与Hadoop
Hadoop是一个Apache的开源项目,主要面向存储和处理成百上千TB直至PB级别的结构化、半结构化或非结构化的大数据。Hadoop提供的Map-Reduce能将大数据问题分解成多个子问题,并将它们分配到成百上千个处理节点之上,再将结果汇集到一个小数据集当中,从而更容易分析得出最后的结果。
Hadoop项目包括三部分,分别是HadoopDistributedFileSystem(HDFS)、MapReduce编程模型,以及HadoopCommon。Hadoop具备低廉的硬件成本、开源的软件体系、较强的灵活性、允许用户自己修改代码等特点,同时能支持海量数据的存储和计算任务。这些特点让Hadoop被公认为是新一代的大数据处理平台。Hadoop同样具备出色的大数据集处理能力,在获取、存储、管理和分析数据方面远远超越传统的数据库软件工具。Hadoop经常在构建大数据解决方案时被用作基础构架软件。
二、大数据技术综述
大数据处理不仅仅是Hadoop,许多特定的数据应用场景是需要实时分析和互动反馈的,这时候就需要利用包括内存检索、流处理和实时计算等其他技术。而云计算的分布式存储和计算架构开启了大数据技术研究的大门,打造健全的大数据生态环境,所有这些技术结合在一起,才是一个完整的大数据处理系统。
2.1分布式计算框架
MapReduce是Google开发的一种简化的分布式编程模型和高效的任务调度模型,用于大规模数据集(大于1TB)的并行运算,使云计算环境下的编程变得十分简单。
MapReduce将数据处理任务抽象为一系列的Map(映射)和Reduce(化简)操作对。Map主要完成数据的分解操作,Reduce主要完成数据的聚集操作.输入输出数据均以〈key,value〉格式存储.用户在使用该编程模型时,只需按照自己熟悉的语言实现Map函数和Reduce函数即可,MapReduce算法框架会自动对任务进行划分以做到并行执行。
2.2分布式文件系统
为保证高可用、高可靠和经济性,基于云计算的大数据处理系统采用分布式存储的方式来保存数据,用冗余存储的方式保证数据的可靠性。目前广泛使用的分布式文件系统是Google的GFS和Hadoop团队开发的GFS的开源实现HDFS。
GFS即Google文件系统,是一个可扩展的分布式文件系统,用于大型的、分布式的、对大量数据进行访问的应用。GFS的设计思想不同于传统的文件系统,是针对大规模数据处理和Google应用特性而设计的,运行成本低廉,并提供容错功能。
HDFS即Hadoop分布式文件系统,受到GFS很大启发,具有高容错性,并且可以被部署在低价的硬件设备之上。HDFS很适合那些有大数据集的应用,并且提供了数据读写的高吞吐率。HDFS是一个master/slave的结构,在master上只运行一个Namenode,而在每一个slave上运行一个Datanode。HDFS支持传统的层次文件组织结构,对文件系统的操作(如建立、删除文件和文件夹)都是通过Namenode来控制,Datanode用来存放数据块。
2.3大数据管理技术
互联网数据已超出关系型数据库的管理范畴,电子邮件、超文本、博客、标签(Tag)以及图片、音视频等各种非结构化数据逐渐成为大数据的重要组成部分,而面向结构化数据存储的关系型数据库已经不能满足数据快速访问、大规模数据分析的需求,随之而来,一系列新型的大数据管理技术和工具应运而生。
2.3.1非关系型数据库
NoSQL,也有人理解为NotOnlySQL,它是一类非关系型数据库的统称。其特点是:没有固定的数据表模式、可以分布式和水平扩展。NoSQL并不是单纯的反对关系型数据库,而是针对其缺点的一种补充和扩展。典型的NoSQL数据存储模型有文档存储、键-值存储、图存储、对象数据、列存储等。而比较流行的,不得不提到Google的Bigtable,它把所有数据都作为对象来处理,形成一个巨大的表格,用来分布存储大规模结构化数据,数据量可达PB级。而HBase是Hadoop团队基于Bigtable的开源实现,使用HDFS作为其文件存储系统。同时,Cassandra(K/V型数据库)、MongoDB(文档数据库)和Redis等一系列优秀的非关系型数据库产品如雨后春笋般问世。
2.3.2数据查询工具
Hive是Facebook提出的基于Hadoop的大型数据仓库,其目标是简化Hadoop上的数据聚集、即席查询及大数据集的分析等操作,以减轻程序员的负担.它借鉴关系数据库的模式管理、SQL接口等技术,把结构化的数据文件映射为数据库表,提供类似于SQL的描述性语言HiveQL供程序员使用,可自动将HiveQL语句解析成一优化的MapReduce任务执行序列.此外,它也支持用户自定义的MapReduce函数。
PigLatin是Yahoo!提出的类似于Hive的大数据集分析平台.两者的区别主要在于语言接口.Hive提供了类似SQL的接口,PigLatin提供的是一种基于操作符的数据流式的接口.可以说Pig利用操作符来对Hadoop进行封装,Hive利用SQL进行封装。
GoogleDremel是个可扩展的、交互式的即时查询系统,用于完成大规模查询结构化数据集(如日志和事件文件)。它支持类SQL语法,区别在于它只能查询,不支持修改或者创建功能,也没有表索引。数据被列式存储,这样有助于提升查询的速度。Google将Dremel作为MapReduce的一种补充,被用于分析MapReduce的结果或者是作为大规模计算的测试。
2.4实时流处理技术
伴随着互联网业务发展的步调,以及业务流程的复杂化,企业的注意力越来越集中在“数据流”而非“数据集”上面,他们需要的是能够处理随时发生的数据流的架构,现有的分布式计算架构并不适合数据流处理。流计算强调的是数据流的形式和实时性。MapReduce系统主要解决的是对静态数据的批量处理,当MapReduce任务启动时,一般数据已经到位了(比如保存到了分布式文件系统上),而流式计算系统在启动时,一般数据并没有完全到位,而是经由外部数据源源不断地流入,重视的是对数据处理的低延迟,希望进入的数据越快处理越好。数据越快被处理,结果就越有价值,这也是实时处理的价值所在。
三、思考与展望
21世纪是信息化的时代,也是数据时代,随着世界范围内数据挖掘技术的不断深入研究,大数据时代的到来给数据挖掘技术带来了机遇的同时,也带来了挑战。面对浩瀚的数据库海洋,如何在茫茫海洋中寻找针对特点人群有用的数据是数据挖掘技术在大数据时代背景下的意义。通过数据挖掘技术的充分应用分类技术,挖掘大数据时代中的数据删选,同时通过大数据时代背景下数据挖掘技术的应用技术探讨了数据挖掘技术在大数据时代背景下的应用。
1大数据时代背景下数据挖掘的意义
在信息时代的背景下,数字化技术和信息化技术在各行各业的应用,随着互联网技术、信息技术、物联网技术、云计算技术等数字信息技术的高速发展,结合当前高速发展的移动互联网技术以及数字地球技术的发展与应用,全世界范围内数据呈爆炸式增长,据统计2012年世界范围内产生的数据总量约1.86万亿GB。国际互联网数据统计中心根据近十年来来的数据增长速度计算,2020年全球范围内数据总量预计达到100万亿GB。信息化技术的发展给企业带来的冲击是巨大的,信息化技术彻底改变了传统的社会信息传输方式,带来全新的信息传播途径。对于社会来说,信息化是社会未来发展方向。信息化要求社会重视信息的形成、信息运用,社会用信息化的工具整合业务、共享信息构建企业“信息化网络体系”才能使企业在当今信息爆炸,高效率的社会背景下,是企业高效运转,才能综合企业的人力、物力、财力和管理能力是企业的各种资源通过信息化网络凝聚在一起,共同为企业的高效发展和全球化的进程的目标凝聚力量。企业信息化作为国民经济发展的重要组成部分,同时也是我国社会迈向信息化进程的重要前提。
企业信息化要求企业将大量的信息资源进行整合和电子化处理,从而提高信息的交互与传输效率,并希望藉此提高企业的生产经营管理方式和管理效率,从而达到利用现代信息技术提高企业生产力、提高企业生产效率和利润的根本目的。云计算作为现代信息化产业发展的新技术,给社会的信息化建设带来了巨大的改变,降低了社会在信息化建设中的投入,随着近年来云计算技术的不断成熟,云计算构建的信息化平台使社会的信息化、生产与办公效率前所未有地提高毫无疑问,当前的信息时代的发展已经达到了大数据时代的阶段,大数据时代的来临意味着人们在应用和利用数字信息技术时不得不花费更多的人力、物力、财力去筛选、存储和利用庞大的数据库。例如对于一个银行系统来说,每天数以万计的银行和ATM终端都发生庞大的交易和数据交换,这些庞大的数据交换信息构成了庞大的数据,如何在庞大的数据中筛选、分类和提取有价值的数据是数据挖掘技术在当前大数据时代存在的意义。
2大数据时代背景下数据挖掘技术的分类应用
数据挖掘技术在当代数据爆炸的现代社会的重要性越来越强,随着社会信息化程度的不断提升,数据挖掘技术也逐渐发展成为一门独立的学科,数据挖掘技术为了满足用户在庞大的数据库中筛选有用的数据的需要,通过分类技术对数据进行分类挖掘,是当前大数据时代背景下大数据技术应用最为广泛的手段之一。
3大数据时代背景下数据挖掘的应用技术
4结论
总之,在大数据时代背景下,数据挖掘技术是人们面对浩瀚的数据库所必备的技能,也是提高数据利用的有效方式数据挖掘技术在大数据时代背景下面临着挑战也面临着机遇。
参考文献
[1]刘华婷,郭仁祥,姜浩.关联规则挖掘Apriori算法的研究与改进[J].计算机应用与软件,2009(1):146-149.
[2]丁守哲.基于云计算的建筑设计行业信息系统开发模式与实现技术研究[D].合肥:合肥工业大学,2012:16-17.
[3]陈明奇,姜禾,张娟等.大数据时代的美国信息网络安全新战略分析[J].信息网络安全,2012,(08):32-35.
[4]王珊,王会举,覃雄派等.架构大数据:挑战、现状与展望[J].计算机学报,2011,34(10):1741-1752.
作者简介
1.大数据技术现状
当前许多企业都已基本实现了信息化建设,企业积累了海量数据。同时企业间的竞争日益加剧,企业为了生存及发展需要保证自身能够更加准确、快速和个性化地为客户提品及服务。而大数据技术能够从海量的数据中获取传统数据分析手段无法获知的价值和模式,帮助企业更加迅速、科学、准确地进行决策和预测。
1.1大数据技术现状
广大企业的迫切需求反之也促进了大数据技术的飞速发展,涌现出了诸如Hadoop、Spark等实用的架构平台。其中,目前最主流的就是Hadoop。Hadoop的分布式处理架构支持大规模的集群,允许使用简单的编程模型进行跨计算机集群的分布式大数据处理。通过使用专门为分布式计算设计的文件系统HDFS,计算的时候只需要将计算代码推送到存储节点上,即可在存储节点上完成数据本地化计算。因此,Hadoop实现了高可靠性、高可拓展性、高容错性和高效性,可以轻松应对PB级别的数据处理。
1.2大数据技术对烟草数据中心建设的影响
当前,烟草企业基于多年的信息化建设已经积累了海量数据,同时每天还不断有新的各种数据产生。在高并发、大体量的情况下,需要在数据采集、存储和运算方面采用与以往完全不同的计算存储模式,这就不可避免地需要采用大数据技术。同时,除了购进单、卷烟交易数据、货源投放数据等结构化数据外,还产生越来越多的非结构化数据,利用大数据技术,对非结构化数据进行预处理,可为人工判断和机器学缩减范围。对海量数据以及非结构化的信息进行分析统计,仅仅依靠传统的技术手段很难实现,只有引入大数据技术才能充分的将所有的数据资源利用起来,成为企业决策的助力。
2.江苏烟草数据中心应用现状
2.1江苏烟草数据中心体系架构
2.2大数据技术的应用场景分析
随着江苏数据中心的不断运行,一些基于传统技术架构的功能逐渐暴露出种种问题。其中较为突出的问题有:一是使用者对于大数据量数据的查询需求。基于传统技术架构的查询功能响应较慢;二是分析支持灵活性的不足。传统统计分析应用的数据结构大多是预先定义好的,面对灵活的非传统的统计查询需求难以支撑,需要进行额外的加工处理。江苏烟草数据中心结合互联网大数据技术特性,引入Hadoop平台以及Impala等工具,搭建基于大数据的自定义数据查询平台,以补充基于传统技术架构的功能不足,并为未来进一步发展建设基于大数据技术和云环境的数据中心做好准备。
3.基于大数据的自定义数据查询平台实现
3.1设计思路及架构
基于大数据的自定义数据查询平台是在现有数据中心的建设成果之上,以数据中心的数据存储为基础,以Hadoop、Hive、Impala等大数据技术工具为手段,以简单灵活、快速高效的查询展现为目标,建立的数据查询分析支持平台。
3.2技术方案
3.3系统实现效果
利用大数据技术,自定义数据查询平台较好地解决了目前数据中心所面对的问题,满足了使用人员对于大数据量以及分析灵活性的需求。面对使用人员层出不穷的查询需求,自定义数据查询平台通过预先梳理、分类定义各种维度以及统计指标。使用者可以自由的根据实际需求选择分析所需的维度及统计指标,同时还可以基于这些基础的内容更进一步自定义过滤条件以及计算公式,并指定其展现形式。在大数据量查询效率方面,自定义查询平台相比传统架构的查询功能有了较大提升。
4.结束语
大数据技术的发展方兴未艾,应用前景无比广阔,对各行各业的巨大作用正在逐步展现。江苏烟草数据中心的建设既要看到大数据技术未来的前景,更需要明确地认识到大数据平台的建设并非一朝一夕,需要有明确而长远的规划,不断完善数据环境建设、云计算环境的构建以及数据服务的扩展。
[1]陈鹏.大数据时代下的信息安全问题研究[J].电子制,2015,18:48
一、大数据
1.大数据产生的背景
互联网络从上世纪90年代开始,发展迅速,加快了信息传播和共享的速度,尤其是一些社交网站的兴起,数据量更是以前所未有的速度暴增,文字资料、声音、视频、图像等多媒体数据铺天盖地。据资料显示,上世纪90年代,互联网资源不是很丰富的时代,网民月平均流量1MB左右,之后则快速增长,2000年后,逐渐发展为每月10MB、100MB、1GB,据估计2014年可能会达到10GB。淘宝网每日几千万笔交易,单日数据量达几十TB,数据存储量几十PB,百度公司目前数据总量接近1000PB,存储网页数量接近1万亿页,每天大约要处理60亿次搜索请求,几十PB数据。
随着技术发展,大数据广泛存在,如企业数据、统计数据、科学数据、医疗数据、互联网数据、移动数据、物联网数据等等。总之,大数据存在于各行各业,一个大数据的时代已经到来。
2.大数据时代的挑战
大数据特点是容量在增长、种类在增长、速度也在增长,面临如此庞大的数据量,数据的存储和检索面临着巨大挑战。比如2007年时,Facebook使用数据仓库存储15个TB的数据,但到了2010年,每天压缩过的数据比过去总和还多,那时商业并行数据库很少有超过100个节点以上的,而现在雅虎的Hadoop集群超过4000个节点,Facebook仓库节点超过2700个。大量的数据现在已经开始影响我们整个的工作、生活、甚至经济,如何存储和高效利用这些数据是需要我们解决的。
二、关系数据库
1.关系数据库概述
关系型数据库是支持关系模型的数据库系统,他是目前各类数据库中最重要,也是使用最广泛的数据库系统。关系型数据库从上世纪70年代诞生到现在经过几十年的发展,已经非常成熟,目前市场上主流的数据库都为关系型数据库,比较知名的有Oracle数据库、DB2、Sybase、SQLServer等等。
2.关系数据库优势
关系数据库相比其他模型的数据库而言,有着以下优点:
模型容易理解:关系模型中的二维表结构非常贴近逻辑世界,相对于网状、层次等其他模型来说更容易理解。
使用方便:通用的SQL语言使得操作关系型数据库非常方便,只需使用SQL语言在逻辑层面操作数据库,而完全不必理解其底层实现。
易于维护:丰富的完整性大大降低了数据冗余和数据不一致的概率。
3.关系数据库存在问题
传统的关系数据库具有不错的性能,稳定性高,历经多年发展已日臻成熟,而且使用简单,功能强大,也积累了大量的成功案例。上世纪90年代的互联网领域,网站基本都是静态网页,主要以文字为主,访问量也不大,当时用单个数据库完全可以应对。可近几年,动态网站随处可见,各种论坛、博克、微博异常火爆,在大幅度提升交流方式的同时,用户数据量迅速增长,处理事务性的数据关系数据库得心应手,可面对互联网的高并发、大数据量关系数据库显得力不从心,暴露了很多难以克服的问题:
数据库高并发读写:高并发的动态网站数据库并发负载非常高,往往要达到每秒上万次甚至百万次、千万次的读写请求。关系数据库应付上万次SQL查询没问题,但是应付上百万、千万次SQL数据请求,硬盘IO就已经无法承受了。
海量数据的高效率访问:一般大型数据库在百万级的数据库表中检索数据可达到秒级,但面对数亿条记录的数据库表,检索速度效率是极其低下,难以忍受的。
数据库可扩展性和高可用性:基于web的架构当中,数据库无法通过添加更多的硬件和服务节点来扩展性能和负载能力,对于很多需要提供24小时不间断服务的网站来说,数据库系统升级和扩展却只能通过停机来实现,这无疑是一个艰难的决定。
三、NOSQL数据库
1.NOSQL数据库理论基础
NOSQL作为新兴数据库系统概念,由于其具备处理海量数据的能力,近年来受到各大IT公司的追捧。Amazon、Google等大型网商已纷纷斥资进行研究并开发了适用的产品。谈及NOSQL数据库,首先应该了解支持NOSQL的理论:CAP理论、BASE思想和最终一致性。
(1)CAP理论
CAP理论由EricBrewer在ACMPODC会议上的主题报告中提出,这个理论是NOSQL数据管理系统构建的基础,CAP解释为一致性(Consistency)、可用性(Availability)以及分区容忍性(PartitionTolerance)。具体描述如下:
强一致性(Consistency):系统在执行过某项操作后仍然处于一致的状态。在分布式数据库系统中,数据变更后所有的用户都应该读取到最新的值,这样的系统被认为具有强一致性。
分区容错性(PartitionTolerance):分区容错性可以理解为系统在存在网络分区的情况下仍然可以接受请求。
CAP是在分布式环境中设计和部署系统时所要考虑的三个重要的系统需求。根据CAP理论,数据共享系统只能满足这三个特性中的两个,不能同时满足三个条件。因此系统设计者必须在这三个特性之间做出权衡。例如Amazon的Dynamo具有高可用性和分区容错性但不支持强一致性,也就是说用户不能立即看到其他用户更新的内容。
(2)BASE思想
BASE(BasicallyAvailble),基本可用,强调数据库的最终一致(Eventuallyconsistent最终一致,最终数据一致就可以,而不是时时高一致),不同于传统关系数据库基于的ACID模型。
ACID特性与高性能是不兼容的。比如,在网店买东西,每个客户买东西时都会通过锁来同步数据操作,操作完成每个客户都可以看到一致的数据。也就是说,不允许多个客户同时买的情况。很明显对于大多数网上商城,尤其是大型网商来说,这个方法并不适用。
(3)最终一致性
数据一致性可分别从使用者和提供者角度看:从使用者的角度,如何观察数据更新;从提供者的角度,也就是服务器端,更新如何在系统中实现。
一致性可分为强一致性和弱一致性两种:强一致性要求更新过的数据能被后续的访问都看到,根据CAP理论,强一致性无法和可用性、分区容忍性同时实现;弱一致性,指读取操作能够见到变化的数据,但不是所有变化的数据。
最终一致性属于弱一致性的一种,即存储系统保证如果没有新的更新提交,最终所有的访问都将获得最后的更新。如果没有故障发生,不一致性取决于通信时延、系统负载以及复制策略中涉及的副本数。
2.NOSQL数据库产品
NOSQL(NotOnlySQL)数据库是指那些非关系型的数据库。NOSQL数据库分为Key-Value、Key-Document和Key-Column这3类。典型的NOSQL产品有Google的BigTable、基于HadoopHDFS的HBase、Amazon的Dynamo、CouchDB、MongoDB、Redis等。
NOSQL数据库遵循CAP理论和BASE原则,大部分Key-Value数据库系统都会根据自己的设计目的进行相应的选择,如Cassandra、Dynamo满足AP,BigTable、MongoDB满足CP。
四、结束语
本文首先介绍了大数据概念,分析了关系数据库在存储大数据量方面的不足,并介绍了当前NOSQL数据库的基本理论和当前产品分类。大数据时代的来临,我们忙于如何存储和处理这些数据,但随着计算机互联网、移动互联网、物联网等网络的快速发展,数据量会持续大幅增长,如何长期保存这些数据以及如何处理更大级别的数据量,都需要我们思考并解决。
[1]王珊,王会举,覃雄派等.架构大数据:挑战、现状与展望[J].计算机学报,2011(34).
[2]黄贤立.NOSQL非关系型数据库的发展及应用初探[J].福建电脑,2010(7):30.
1.图书馆的大数据应用特征
社会进步和信息技术不断改变着图书馆的服务内容与模式,网络环境下要求将这些信息资源组合成整体并延伸至更大的范围。随着数字图书馆的兴起,图书馆数字化文献信息、数据库的数量种类不断增加,各地市级图书馆都已具有海量信息规模,比如上海图书馆提供的数据库已多达400余个。这些数据包括类型多样的文本、图片、音频与视频各类非结构化数据,满足大数据的基本特征。然而,这些数据资源价值远未得到有效体现与利用。一个重要的原因是缺乏有效的数据挖掘技术方法。通过人工从大量结构繁杂的数据中发现价值,是难以实现的。随着大数据技术的发展与应用,必然要求图书馆重点利用数据挖掘技术从大量的信息中发掘数据价值,以此推出知识化产品化的服务应用。同时,通过大数据处理分析对信息资源进行深度、动态、广泛的知识挖掘,便于揭示信息内容中各个要素及其相互之间的联系,促进信息交流,实现信息资源共享,提高文献信息的利用效率,从而实现图书馆信息增值服务并提高信息服务的竞争力。因此,探索数据挖掘方法技术提高图书馆的服务水平是亟须思考和解决的问题。
2.大数据时代图书馆数据挖掘面临的挑战
大数据时代的到来,极大地促进了数据科学的兴起。数据科学包括用科学的方法研究数据与用数据的方法研究科学,后者主要的实现方式就是数据挖掘方法与技术。数据挖掘是指从数据源中发现知识的过程。实现数据价值的关键环节在于数据的挖掘方法技术。所以,如何充分有效地利用数据挖掘方法对图书馆大数据进行开发处理,是开展图书馆知识服务的重要研究方向,也是服务创新的关键途径与支撑服务技术。大数据时代图书馆的数据数量大、类型多,对数据挖掘提出新的需求与挑战,主要有以下方面。
2.1大规模数据量
2.2数据的高维特征
图书馆数据的多样性能够提供更多维度的客观对象描述属性。数据从过去的一维、多维逐渐发展为巨量维度。虽然能够建立丰富的多维数据模型与方法,但在构建的大数据特征空间中,往往会超出传统方法的处理能力。可以考虑引入维度规约技术,比如主成分分析、奇异值分解来降低数据维度。同时,数据属性可能过于稀疏,也会极大影响数据模型的有效性。
2.3数据关系广泛
图书馆服务应用过程中的信息、用户对象之间存在多种行为与内容关联,从而组成多关系网络。大数据的多源性、多样性正是构建这种复杂关系的基础。比如,用户的查询词、借阅记录、浏览记录、图书馆文献信息内容之间形成的多关系网络。特别是社交网络数据的应用,更使其趋于多元化。许多图书馆实践中,比如基于用户的信息推荐就是利用这种关系作为分析依据。过多关系的简单链接应用,反而会削弱关键特征的作用和导致语义缺失。如何广泛利用大数据提供的各类数据类型与数据关系,成为实际应用中的一个重点。实际中,需要重视运用关系选择、组合及判断函数,提高分析的正确性有效性。
2.4数据保护要求不断增长
数据是图书馆信息服务的核心和基础,数据的安全性就显得尤为重要。用户在享受精准个性化推荐带来的便捷的同时,也在深深担心个人隐私安全问题。一些敏感信息以明文存储也会有安全风险。这些会导致数据挖掘方或者任何可以接近数据集的人,能够辨别特定的用户个体或内容信息,存在利益侵犯的可能性。数据挖掘在发现数据价值的同时,也对隐私安全和数据安全带来了威胁。这就需利用数据修改、数据模糊、数据加密、加密检索等隐私保护技术提高数据的安全性和可控性。
2.5自然语言理解程度较低
当前,在信息检索、自动摘要等常见的数据挖掘任务中,仍无法有效识别同义词、近义词以及词语间的语义关联,特别是一些短文本处理中,无法有效识别词语语义,造成处理效果不理想。虽然一些图书馆建设了知识库,但仅限于研究层面,距离实用在规模上有相当差距,在应用方法上也没有大的突破。同时,图书馆存在大量图片、音频、视频数据,这些数据的加工处理也没有引入有效的自动图像、音频识别技术,图书馆难以基于数据挖掘提供全方位的信息服务。
3.大数据时代图书馆数据挖掘的关键技术方法
3.1数据存储
图书馆数据类型众多,需要引入非结构化数据存储技术。比如典型的HDFS,NoSOL(NotOnlySOL),已广泛用于非结构化数据的分布式存储。传统关系型数据库适合结构化数据存储。需要注意的是,要区分结构化与非结构化数据,针对数据特点使用相应的存储技术。在实际中,难以使用一种数据存储方式存储管理所有的数据,即使谷歌也是将结构化数据存储在关系型数据库中。同时,需要运用高效存储技术,比如数据压缩、自动精简配置、自动分层存储、存储虚拟化等解决或缓解数据量过大、存储利用率、存储效率低等难题。