序论:在您撰写大数据处理论文时,参考他人的优秀作品可以开阔视野,小编为您整理的1篇范文,希望这些建议能够激发您的创作热情,引导您走向新的创作高度。
【摘要】
分析了D2D通信中大数据的特征,重点阐述了数据筛选、预处理、建模等大数据处理的关键技术,并对提高大数据无线传输的稳定性、可靠性和高效性进行了探讨和展望。
【关键词】
5G大数据D2D
1引言
在当前移动通信系统中,数据要经过基站、基站控制器、网关和交换机。随着大数据背景下网络流量迅猛增长,基站将不堪重荷。终端直通(D2D,Device-to-Device)通信作为第五代移动通信系统(5G)中的关键技术之一[1-2],可实现数据不经过基站直接传输(如图1所示),借助提高空间利用率来进一步提高无线频谱利用率,可使移动通信在众多场景下变得更加直接和高效[1-3]。
但面对爆炸式的业务量,仅仅依靠D2D通信技术是远远不够的。提升如何从各种各样的数据(包括结构化、半结构化、非结构化数据等)中快速获取有价值的信息的能力对于大数据分析与处理来说十分关键。业界对大数据的特征进行归纳,主要包括4个“V”[4],即数据体量巨大(Volumn)、数据类型繁多(Variety)、数据价值密度低(Value)、有很多实时数据要求快速处理(Velocity)。因此,传统的数据表示方法不能适用于大数据的表示。如何对体量巨大、结构繁多的数据进行有效表示?如何通过结合D2D通信的特点,最大程度地压缩数据的冗余度,挖掘出隐藏在数据背后的规律,从而使数据发挥出最大的价值?是D2D通信中大数据处理技术的核心目标。
本文首先从分析D2D通信系统中大数据的典型特征出发,分析大数据处理过程中所面临的挑战;然后具体分析了D2D通信系统中大数据的表示和处理方法;最后对未来研究方向做了展望。
2D2D通信系统中大数据的典型特征
(1)数据量大
(2)数据的维度高
由于D2D通信中终端的异构性以及用户需求的异构性,高维和超高维的数据不断涌现。很显然,数据维数越高(属性越多),就可以更加全面地刻画所描述的对象以及更好地分辨对象。然而,过高的维数不可避免地对数据的表示与处理提出了严峻的挑战。研究表明,对于大部分观测或采集到的高维数据而言,其主要信息存在于一个低维空间中。换句话说,该低维空间包含了高维数据中的全部或绝大部分的有用信息。因此,如何在低维空间中有效地刻画高维数据的有用信息,也是D2D通信中大数据处理领域一个不容忽视并且极具挑战性的问题。目前已经有一些隐空间模型和方法,如主成分分析、因子分析、独立成分分析等可以用于完成此项任务,找到这样的低维空间并将数据进行高效表示[7]。
(4)算法的实时性和可扩展性
在D2D通信系统的大数据处理中,都需要对其中的大数据进行实时性表示与处理,即当新数据到来以及新类型出现时,算法能够根据实际情况进行自适应的调节,以适应数据的变化。而传统的学习算法偏重于离线算法,因此需要设计一些在线学习算法,对描述或表示数据的模型进行在线学习。其中,贝叶斯技术可以很方便地用于在线学习[8]。此外,在设计模型及其学习算法时,也需要考虑其多媒体应用的可扩展性。
3D2D通信系统中大数据处理方法
基于D2D通信中大数据处理的具体特征,本文拟从用户的感受出发,设计如下方案来高效地表示和处理D2D通信系统中的大数据,提取其中的有效信息,具体如下:
其次,设计合理的算法,对大数据进行预处理,并且依据用户体验提取特征属性。如前文所述,D2D通信中所采集到的大数据的维度(属性)较大,因此对于大数据有效特征属性的提取十分重要。此处可采用贝叶斯因子混合分析方法,通过该方法,可以找到一个数据有效信息相对集中的低维空间,从而可以将高维数据投影到低维空间中,最大程度地降低数据的冗余,完成数据的降维过程,从而可以在低维空间中完成后续的操作(如图2所示)[9]。此外,该方法的另一个优点在于,由于得到了高维数据的低维有效表示,从而可以在某些条件下实现数据的可视化。
图2数据冗余度降低过程
最后,设计合适的模型来精确地描述提取出的大数据属性,从而进一步用高效、简约的形式来表示大数据。在现有的工作中,在用模型对大数据进行表示和处理方面已经开展了一些研究,取得了一些研究成果。具体地,选用混合模型来描述建模大数据的分布已成为主流,主要原因有两点:
(1)D2D通信中业务种类多、网络数据的分布较为复杂,而混合模型在理论上可以建模和描述任意复杂的数据分布。
(2)混合模型及其学习算法属于生成方式的学习范畴,只要获得准确的模型,则可以用该模型作为大数据的紧凑表示形式,因此,其比判别方式的学习具有更小的存储、更低的传输和处理复杂度,并且有利于在线操作[10]。
4研究展望
对于未来D2D通信中大数据处理技术的研究可以从几个方向开展:
(2)利用半监督学习、迁移学习、集成学习等理论和技术,最大程度地挖掘大数据间的内在关联信息。
(3)在现有模型和方法的基础上,开发设计在线学习算法,实时完成大数据的处理任务。
(4)设计分布式学习以及大数据处理算法,进一步提高网络节点之间协同处理和通信的能力,进一步降低网络节点之前传输的数据量。
(5)针对具体应用,设计结构更加灵活,更具有普适性、鲁棒性的模型,并且开发设计快速、高效的模型参数及结构估计方法,从而获得更简洁的大数据表示形式。
5结束语
D2D技术被广泛认为是5G的关键技术和解决无线大数据传输的有力工具。本文从D2D通信中大数据特征入手,分析面临的挑战,提出应对策略,展望研究方向,综合探讨了如何提高D2D大数据无线传输的稳定性、可靠性和高效性的问题。
[关键词]大数据时代;电力自动化;数据处理
引言
一、电力自动化系统的类型分类
二、电力自动化系统中的数据统一性
数据一致性即数据的唯一性。电力自动化系统在运行过程中,会产生大量的数据信息,这些数据信息大部分都是其子系统中特有的信息,还有一部分是部分子系统中共有的数据信息,也就是各子系统之间的数据信息交叉现象。每个子系统中的数据均存储在其数据库系统中,会对整个系统的数据存储造成大量的数据冗余,使得电力系统中数据系统处理数据信息的效率不高,数据信息更新缓慢,甚至会造成数据信息的混乱,很大程度上降低了电力系统中数据系统的使用效率和可信度。在实际电力自动化系统运行过程中,通过对整个系统的数据库系统进行统一管理,能够在很大程度上保证数据信息的一致性。对于部分离线数据库系统来说,其数据信息的唯一性主要是通过利用离线数据库在数据库系统的服务器上,对数据库系统的服务器进行统一维护。对实时数据库而言,主要是通过电力自动化系统在运行过程中,由实时数据库系统中的管理系统进行统一、实时的管理,确保数据信息的一致性。
三、电力自动化系统中的数据容灾
能够及时的将大量的数据信息进行恢复。
四、电力自动化系统数据收集过程
电力自动化系统运行过程中的数据,主要是通过数据信息的采集、集中、整理和转发来实现的。根据数据类型的不同,采用不同的传输介质进行传输。数据信息的通信方式主要有两种:①有线传输,如,光纤、电缆等多种介质,具有数据信息传输的实时性和可靠性等优点;②无线传输,如,微波、无线扩频等通信模式,具有无需铺设通信通道、工作量少等优点。在实际的电力自动化系统运行过程中,其涉及面十分广、系统种类多,根据不同的部门需求的多个系统组成,能够满足每个部门在数据系统中获取数据信息。电力自动化系统中的设施设备的采购,可以适当的将一些先进的技术和经济性能的指标进行考虑,再在操作技术上进行优化处理,以最大程度的实现电力单位的经济效益和社会效益。
五、智能电网
1.智能电网中的网络拓扑结构
智能电网中的网络拓扑结构具有坚强、灵活的特点,能够有效的解决电力系统中能源和生产力分布不均匀的问题,满足电力企业大规模生产运输过程中产生大规模数据的处理功能,实现资源的优化配置,减少电能损耗。同时,智能电网中的网络拓扑结构能够有效的应对一些自然灾害,如雨、雪等。
2.开放、标准、集成的通信系统
六、结语
[摘要]在当前新时期环境下,智能电网大数据处理技术在获得飞速发展的同时也面临着新的挑战,本文首先对智能电网大数据的特点进行了分析,并且探讨了智能电网大数据处理技术的发展现状,重点分析其在当今新时期环境中面临的挑战。
[关键词]智能电网大数据处理技术现状挑战
1.智能电网大数据的应用特征
2.智能电网大数据处理技术发展现状分析
2.1并行数据库
关系数据库主要负责对结构化数据进行存储,从而提供严格依据规则快速处理事务的能力、边界的数据查询与分析能力、数据安全性保障以及多用户并发访问能力。应用强大的数据分析能力以及SQL查询语言以及独特的程序优势获得了广泛的应用。[2]经管随着智能电网建设的不断加快,数据超出了关系型数据库的管理范畴,地理信息图片与音频、图片以及视频等非结构化的数据逐渐成为需要处理与存储的信息的一项重要组成部分。
2.2云计算技术
随着云计算平台的出现及完善,大数据技术的需求也相继出现,云计算的关键是数据并行处理与海量数据存储技术。而在智能电网中,电力设备状态监测设备的数据量应当是最为庞大的,而状态监测数据不但包含了在线数据,还应当包括缺陷记录、实验记录以及基本信息等,由于数据量极大,其对于实时性要求比企业的数据管理更高。当前,云计算技术在电力行业的发展依然处于初级的阶段,现行的云计算平台能够充分满足职能电网监控软件运行的可扩展性与可靠性要求,但在数据隐私、安全性、一致性以及实时性方面存在缺陷,依然需要进一步优化与完善。
3.智能电网大数据处理技术面临的挑战分析
3.1大数据传输与储存技术
随着智能化的不断发展,电力系统在运行过程中的电力设备监测数据与其他数据都会被记录下来,数据量不断增加,这对于电网运行监控以及数据的传输、存储造成巨大的压力,同时在一定程度上影响了电网智能化的发展。在智能电网大数据存储方面,通过分布式文件保存的形式可以进行大数据存储,然而可能对电力系统在数据实时处理方面产生影响。[3]因此,需要对电网大数据进行分门别类后再存储。而重点是将其中非结构化的数据转化为结构化数据,对于智能大数据处理技术来说依然较为困难。
3.2数据处理时效性技术
3.3异构多数据源处理技术
结语
我国智能电网系统的应用广度与深度在不断加强,大数据处理技术逐渐成为维护电网智能安全运行的一项重要手段。然而随着电网智能运行的不断发展,其在大数据处理一致性、隐私性、实时性等方面也面临着相应的挑战,未来智能电网的主要依托依然是大数据处理分析技术,所以必须寻找出妥善应对挑战的策略,最终推动我国电力事业的长久稳定发展。
【摘要】通过大数据的研究处理将获得的有用信息服务于企业或机构,使其在竞争中取得优势,来为企业提供更好的处理大数据的方法,帮助企业更深刻的理解客户对其的需求和体验,以利于业务的发展,用户也可以更好地体验移动互联网各种资源。本文首先对移动互联网大数据做了概述,然后分析了移动互联网大数据处理中存在的问题,最后详细阐述了移动互联网的大数据处理关键技术。
【关键词】移动互联网;大数据;处理;排重;整合
一、移动互联网大数据概述
二、移动互联网大数据处理中存在的问题
(一)多源数据采集问题
大数据时代的数据存在如下几个特点:多源异构、分布广泛、动态增长、先有数据后有模式。举例来说,一个用户的一条位置信息的价值是很小的,但是很多这样的低价值数据可以完整刻画出用户的运动轨迹,获得本质上的价值提升。然而,在已有的数据采集系统中,数据收集不全面是一个普遍的问题,如何处理来自多源的数据是移动互联网大数据时代面临的新挑战。其中,迫切需要解决如下几个问题:
1.无线移动网络结构复杂,需要在网络中高效地采集数据。
2.多源数据集成和多类型数据集成的技术。
3.兼顾用户的隐私和数据的所有权和使用权等。
(二)移动互联网海量异构数据管理问题
(三)移动互联网大数据实时数据挖掘问题
传统意义上的数据分析(Analysis)主要针对结构化数据展开,且已经形成了一整套行之有效的分析体系。首先,利用数据库来存储结构化数据,在此基础上构建数据仓库,根据需要构建数据立方体进行联机分析处理(OLAP,OnlineAnalyticalProcessing),可以进行多个维度的下钻(Drill-down)或上卷(Roll-up)操作。对于从数据中提炼更深层次的知识的需求促使了数据挖掘技术的产生,并发明了聚类、关联分析等一系列在实践中行之有效的方法。这一整套处理流程在处理相对较少的结构化数据时极为高效。但是,对于移动互联网来说,涉及更多的是多模态数据挖掘,这些数据包括手机上的传感器,包括加速度计、陀螺仪、指南针、GPS、麦克风、摄像头、以及各种无线信号(如GSM、WiFi)和蓝牙等。这些原始数据在不同维度上刻画被感知的对象,需要经过不同层次的加工和提炼才能形成从数据到信息再到知识的飞跃。移动互联网半结构化和非结构化数据量的迅猛增长,给传统的分析技术带来了巨大的冲击和挑战。
三、移动互联网的大数据处理关键技术
(一)数据处理的整体框架
数据处理的整个过程如图1所示,主要包括四个模块:分词(WordsAnalyze)、排重(ContentDeduplicate)、整合(Integrate)和数据。
这四个模块的主要功能如下。
分词:对抓取到的网页内容进行切词处理。
排重:对众多的网页内容进行排重。
数据:包含两方面的数据,SpiderData(爬虫从网页中抽取出来的数据)和DpData(在整个数据处理过程中产生的的数据)。
(二)数据处理的基本流程
整个数据处理过程的基本步骤如下:
1.对抓取来的网页内容进行分词。
2.将分词处理的结果写入数据库。
3.对抓取来的网页内容进行排重。
4.将排重处理后的数据写入数据库。
5.根据之前的处理结果,对数据进行整合。
6.将整合后的结果写入数据库。
(三)数据处理的关键技术
1.排重。
排重就是排除掉与主题相重复项的过程,网页排重就是通过两个网页之间的相似度来排除重复项。Simhash算法是一种高效的海量文本排重算法,相比于余弦角、欧式距离、Jaccard相似系数等算法,Simhash避免了对文本两两进行相似度比较的复杂方式,从而大大提高了效率。
采用Simhash算法来进行抓取网页内容的排重,可以容纳更大的数据量,提供更快的数据处理速度,实现大数据的快速处理。
Simhash算法的基本思想描述如下:输入为一个N维向量V,比如文本的特征向量,每个特征具有一定权重。输出是一个C位的二进制签名S。
(1)初始化一个C维向量Q为0,C位的二进制签名S为0。
(2)对向量V中的每一个特征,使用传统的Hash算法计算出一个C位的散列值H。对1
(3)如果Q的第i个元素大于0,则S的第i位为1;否则为0。
(4)返回签名S。
对每篇文档根据SimHash算出签名后,再计算两个签名的海明距离(两个二进制异或后1的个数)即可。根据经验值,对64位的SimHash,海明距离在3以内的可以认为相似度比较高。
2.整合。
整合就是把抓取来的网页内容与各个公司之间建立对应关系。对于每一个公司来说,可以用一组关键词来对该公司进行描述,同样的,经过dp处理之后的网页内容,也可以用一组关键词来进行描述。因此,整合就变成了两组关键词(公司关键词,内容关键词)之间的匹配。
对于网页内容的分词结果来说,存在着两个特点:(1)分词结果的数量很大;(2)大多数的分词对描述该网页内容来说是没有贡献的。因此,对网页的分词结果进行一下简化,使用词频最高的若干个词汇来描述该网页内容。
3.流处理系统。
四、结语
摘要:随着大数据时代的到来,各行各业都受到不同程度的冲击,管理会计也面临着前所未有的挑战,尤其在数据处理方面发生了巨大的变革。这些变革包括管理会计大数据的思维模式,数据的收集、存储、加工、分析等数据处理方面的变革。
关键词:管理会计大数据时代云计算
随着互联网时代的开启,大数据概念开始在全球蔓延,我国也于2014年将“大数据战略”上升为国家战略,基于互联网的大数据逐渐正改变着各行各业的传统模式,作为会计重要分支的管理会计工作也遇到了前所未有的挑战。
一、大数据时代的到来
(一)大数据时代的特点
(二)大数据拉启了管理会计新发展的序幕
1、海量数据为管理会计提供了重要的经营管理资源
管理会计职能的有效发挥必须建立在对数据的准确分析上,大数据时代数据呈现出样本数据向全数据转变的趋势,使得管理会计的处理对象更加完整。对于任何企业来说,数据都是商业皇冠上最为耀眼夺目的宝石,在未来的商业竞争中,谁能够占有更及时、更丰富的数据,谁才有可能在瞬息多变的市场中站稳脚跟。管理会计工作者要应势而动,建立数据仓库,做好数据资源的收集、存储、挖掘及整理分析和共享的工作。
2、传统的结构化数据已无法满足管理会计的决策需求
一直以来,结构化数字数据作为管理会计的主要处理对象在企业决策中发挥了重要的作用,但随着数据的爆炸式发展,企业自身信息系统中产生的标准化、结构化数据在企业所能获得的数据中所占的比重越来越小,甚至不足15%,显而易见,结构化数据在企业决策中所发挥的作用已非常有限。据统计资料显示,企业的数据资源中85%属于广泛存在于社交网络、物联网等之中的非结构化或半结构化数据,这些数据被用来优化生产流程,增强客户体验。因此,企业管理者必须重视数据资源的全面性,特别是半结构化数据和非结构化数据的收集,为管理决策提供完整、准确的依据。
3、实时更新的动态数据促进企业数据处理能力的提高
大数据时代下,企业每天需要处理的数据以惊人的速度不断增长,传统的关系型数据库已成为管理会计发展过程中的主要瓶颈,以沃尔玛为例,通过建立数据仓库,其每小时可以处理的交易记录高达一百万次,存储数据规模多达2500TB,这是传统的关系型数据库绝对做不到的。鉴于人脑对数据处理能力的有限性,处理完的数据也需要以可视化的界面呈现出来,这也对管理会计提出了新的要求。
4、数据的价值取决于其及时性和预测性
大数据分析最重要的一点是保证数据的及时性,其次是预测性。以很多企业投入使用的脸谱识别系统为例,从进门的那一刻,人脸就被快速抓拍,通过技术分析可以明确地知道这个人是谁,他将要去哪里,这些曾经看似天方夜谭的事情已经实实在在的发生了,这个世界正在发生改变。数据的及时性和预测性对管理会计提出了更高的要求,构建数据仓库、应用数据挖掘技术已是势在必行。
二、大数据时代引发管理会计数据处理模式的重大变革
(一)管理会计数据搜集方式与内容的变革
(二)管理会计数据存储方式与内容的变革
(三)管理会计数据加工分析方式的变革
(四)管理会计信息共享模式的变革
数据挖掘技术得以有效使用的前提是“信息孤岛”现象的消失。传统的数据库模式下,不同业务部门之间都有自己独享的数据中心,局部意识严重阻碍了信息共享观念的普及,这种封闭的“信息孤岛”管理模式在大数据时代下逐渐瓦解,在企业价值链甚至企业间价值链上正在逐步实现信息共享。如生产部门可以直接查询库存管理部门原材料的存储情况,并根据生产需要及时通知采购部门,甚至在企业与供应商及客户之间都可以实现信息共享,增强彼此间合作的亲密度,形成稳固的伙伴关系以共同应对瞬息万变的市场竞争,实现共赢的战略合作局面。
三、积极应对大数据时代管理会计面临的挑战
(一)正确认识大数据时代对管理会计造成的冲击
统计资料显示,目前我国企业中约有50%的管理者并未对大数据战略及互联网时代对企业的影响引起重视,而且有38%的被调查者并不清楚大数据的概念,25%的被调查者对于大数据的理解存在偏差,甚至有些管理者认为大数据时代对其所在的企业不会产生任何影响。而对于中小企业来说,大数据战略更是遥不可及,单是人才的培养就需要一笔不菲的投资,完全不符合成本效益原则。因此,大数据时代虽然已大踏步来到,并对很多传统行业造成了巨大的冲击,却并未引起管理者的足够重视,或者因为各种条件的限制而选择了视而不见,这势必会影响到大数据在管理会计中的应用。
(二)构建基于云计算的管理信息系统
大数据时代信息的存储量相当可观,据统计,百度每天新增的数据就有10TB,系统每天需要处理的数据则超过1PB,而完全颠覆传统销售模式的淘宝商城每天需要处理的数据高达50TB。随着物联网、互联网、移动互联网的广泛使用,不同形式的数据铺天盖地,同样需要巨大的存储空间,而现有的数据库几乎无法存储TB级别的数据,分析整理更无从谈起。因此,能否对现有数据存储系统更新换代,建立巨大的TB级的数据仓库,将直接决定企业能否实现对数据的及时、完整的收集、存储、分析、整理,最终决定企业的成败与否。云计算模式应运而生,借助互联网这一平台提供快速、动态、虚拟、规模化的信息资源,满足用户结构化、半结构化乃至非结构化信息的多种分析需求。
(三)完善信息安全技术制度
如何保障信息安全是大数据时代及互联网广泛应用过程中必须要重视的一个问题。企业收集的数据中常常包含着其他企业、组织或者个人的隐私,这些信息一旦泄露,会给当事人、客户、供应商等造成难以挽回的损失。在拉斯维加斯每年夏天举办的全球性的“黑客大会”上,让人眼花缭乱的黑客技术轮番上演,这也为各大企业、组织、政府部门等敲响了警钟,信息安全技术的发展和维护任重而道远,如何保证信息安全成为了摆在每一个人面前的重大课题。
(四)注重适应大数据时代要求的管理人才的培养
目前,世界各国的大数据专业人才都面临巨大的缺口。一项预测显示,在未来六年内,仅美国一国就可能面临14万至19万拥有扎实分析技能的人才缺口,面临的懂得使用相应工具分析大数据、作出合理决策的管理和分析人员的人才缺口更是高达150万。人才的短缺势必会阻碍企业开发、利用管理会计信息工作的进程。因此,能否及时培养掌握此类分析所需知识与技术的管理会计人才,对企业的发展至关重要。
大数据是人们认知世界的一种新的渠道和新的方法。大数据的应用可以看做是知识在计算机网络上的新呈现,本文详尽阐述了智能电网中大数据的特点,智能电网中大数据处理技术现状和智能电网大数据处理技术面临的挑战等方面进行了深入的探讨。
【关键词】智能电网大数据云计算并行数据库应用现状
随着智能电网建设的不断深入和推进,电网运行和设备检、监测产生的数据量呈指数级增长,使电力企业进入了大数据时代,对目前的数据存储和处理技术提出了更高的要求。同时也对智能电网大数据的处理效率提出了更加严苛的要求,本文以现阶段智能电网大数据处理的技术应用为出发点,基于大数据处理目前的技术水平,分别从传输性、存储性、时效性、集成性和可视性等方面探讨新技术背景下智能电网大数据处理面临的机遇与挑战。
1智能电网中大数据的特点
智能电网业务中的基本数据按内容可以划分成三大类。
(1)运行数据、设备检测数据、设备实时状态参数数据。
(2)电力企业营销数据(用电客户、电量报价等)。
(3)电力企业管理数据。
在上述类目可以再次细化为结构化数据和非结构化数据两大类。但无论基于何种分类方式,大数据在智能电网中体现出来的特点是不变的,简单概括为体量大、类型多,具体如下:
(1)数据体量大:即数据的数量和体积较为庞大。在智能时代的推动下,电网在数据吞吐量的级别已经从以往的TB级飙升为PB级。
(2)数据类型繁杂:由于电力企业自身存在的特殊性,加之其地理分布情况在区域上的差异性,电网企业涉及到的数据有着极为复杂的类别划分,细分后的子类和子项同样在数量上非常庞大,也正是由于这一特点,不同的数据类别对服务器端硬件设备及用户端的系统平台均有不同程度的配置、性能及处理需求,从而更是增加了电网企业内网及外设双重建设项目的难度。
(3)数据价值密度低:异常数据出现的频率低,同时也是对电网软、硬件设备维修和检测最有价值的。
2智能电网中大数据处理技术现状
关系数据库常用于结构化数据的存储、整合及维护,可以实现的具体功能如下:
(1)可实现数据查询及逻辑分析的快捷化、灵活性操作。
(2)可提供高标准规则强制下业务事项的高效处理。
(3)可承载一定数量的用户同时发起数据访问的系统压力。
(4)可执行高级别安全机制。
得益于SQL严谨的数据查询语言、高效率的数据分析层级以及脱离对程序依赖的高效率独立化协同运行等绝对优势,关系数据库得到了业界的一致认可和推广。但是智能电网的开发和组建已经今非昔比,其进展的速度早已将关系型数据库的能力范围甩在了身后,仅在非结构化数据存储这一点能力上的局限,就使得目前多种主流数据类型如地理信息、高像素图片以及各种音、视频等格式文件无法满足电力企业在数据存储方面提出的全新的、更高标准的需求。
云计算平台的诞生使得大数据技术尤为必要,能够存储海量数据并具备数据并行处理功能等核心技术,因此为电力设备实时状态数据提供了强大的技术支持。实时状态数据不仅类目众多,数据量庞大,可靠性和实时性的标准高,使基于云计算技术的海量数据研究仍处在起步阶段,即便能够确保监控程序的延展性和可靠性,但更高标准的性能如安全和数据隐私等并未实现,仍需不断探索。
3智能电网大数据处理技术面临的挑战
3.1大数据传输及存储技术
智能时代数据量的日渐增多极大程度影响了电网智能化的发展,并在存储系统、电网运行监控设备以及数据传输方面形成了诸多负担。因此要进行分类存储和分析系统中现有的大数据性能。非结构化数据在智能电网中存有的百分比较大,将此类非结构化数据演变成结构化数据,是当前智能大数据在存储方面处理技术上存在的难题。
3.2数据处理的时效性技术
未来智能电网能够将贯通发电、调度以及变电、输电、配电等几项环节得以满足,能够将信息的全面采集、高效处理、流畅传输以及业务流、信息流和支撑电力流实现高度的一体化。因此,其主要功能是能够整合出规模较大的多源异构信息,可以由资源集约化配置的数据中心提供给智能电网。目前海量异构数据需首要处理的问题在于,怎样构建出一个能够规范表达的模型,同时何以才能以该模型为基础将数据融合以及查询存储同时高效进行。
3.4大数据可视化化分析技术
针对难以量化的智能电网数据,在屏幕空间自身局限的显示情况下,面向用户提供一种更为简便直观的方式,是跨越性较大、难度较高的一项工作。在实践中,可视化方法能够分析规模较大的数据,将数据绘制为分辨率和精度较高的图片,同时辅以交互工具,结合人的视觉系统,对算法参数和实时处理做出决定,并通过数据展开定量、定性的分析和观察。
4结语
智能电网系统在我国的应用日渐广泛,大数据处理技术已然是智能电网安全运行的有利武器。但在电网智能化的发展进程中,实时、隐私等方面的性能需求对大数据技术本身提出了更严峻的挑战,为了向全景实时电网时期迈进,我们必须制定有针对性的解决方案,为电力事业得以持续稳定发展贡献出力量;推动我国社会主义现代化建设的步伐更快的向前迈进。
信息爆炸时代,大数据超大体量、离散性和非(半)结构化的特点已经远远超出了传统数据管理方式所能够承载的范畴。大数据要求全面革新原有的数据处理架构和有关技术,实现超大体量和复杂数据的存储、高效传输和有用信息提取。围绕大数据,云计算技术营运而生。云计算的出现为大数据的存储和处理提供了可能,也为数据处理系统的功能扩展提供了重要保障。本文主要分析了大数据和云计算之间的关系,以及云计算环境下大数据处理技术。
【关键词】云计算技术大数据数据处理
随着物联网、网络、移动通信等的快速发展,特别是互联网的普及使得信息传播的规模和速度呈现几何增长,人们获取信息的途径和方式开始变得异常丰富,人们事实上已经进入了“信息大爆炸”时代。与此同时信息传播的大容量、高效性和准确性也对现有的数据处理体系提出了更高要求。根据大数据摩尔定律,人类世界的数据产生量将按照每两年一倍的速率增长,预计2020年世界数据量将超过35亿GB,“大数据”时代迫在眉睫。“大数据”具有离散型、随机性、发散性、爆发性等特点。近年来,随着云技术的兴起全面革新了传统的数据技术,大容量、多样化、快速处理、信息价值性和准确性为了云技术背景下大数据处理的五大主要特征。如何利用云计算技术对大数据进行高效处理已经成为了信息技术发展亟待解决的关键问题。
1大数据和云计算的关系
云计算技术是指利用集中式远程计算资源池,通过按需分配的方式,为终端用户提供强大而廉价的计算服务技术。云计算技术作为一种数据处理方式,其技术特点包括:一是资源池在物理上是对终端用户完全透明的;二是能够为任何行业提供规模化计算服务,其服务能力可看做是“无限”的;三是其应用部署快速便捷,服务能力和方式是可以完全按照终端客户要求定制的,具有极强的弹性伸缩能力;四是云端数据获取方便,能够资源共享,用户使用成本低廉。
云计算技术是目前最强大的数据存储、传输和处理平台,它是大数据处理的最优选择。云计算能够为大数据提供几乎“无限”的存储空间和处理能力,满足其超大容量存储和超级复杂的处理需求,也是传统存储方式无法实现的。云计算侧重数据的计算处理,而大数据需要强大数据处理能力,因而它是云计算的处理对象。此外大数据所产生的业务需求也为云计算的实现提供了更多的形式。
2基于云计算的大数据处理技术
2.1大数据的采集技术
目前数据采集方式主要分为集中式和分布式两大类。其中分布式的灵活性较强,而集中式的全局性较好。实际上大数据采集的对象通常包括组织内部和相互独立组织间的各类数据,而云计算恰好具有并行处理的优势,因而可采取混合式采集方式能够更加有效地完成数据采集任务。即在各个组织内部采用集中式数据采集方式,通过在组织内配置中心服务器,作为集中式数据注册机构,用于存储和共享内部的数据。在相互独立组织间,采用云计算的集群技术、虚拟化技术等在各独立组织中心服务器间采用分布式采集方式实现数据采集、组织间对接和共享。大数据结构类型包括结构化、半结构和非结构化数据,因而在应用云计算技术进行分布式采集时,可依托其超强的扩展性和容错力,将数据池内数据进行同构化,从而实现数据进行分类存储。
2.2大数据的存储技术
2.3大数据的挖掘技术
联机分析能够完成数据的复杂处理,得到直观结果,实现决策性分析。云计算并行模式下联机分析能够基于数据全局,建立多维分析模型对数据进行多维度分析,从而尽可能获得全面的分析结构。由此可见多维度分析是联机分析的重要特征,而云计算技术下数据仓库正好是通过多维数据组织的。
2.4大数据的可视化技术
3结语
在数据爆炸时代,云计算的出现为大数据的存储和处理提供了可能,也为数据处理系统的功能扩展提供了重要保障。以往的数据管理将收集和存储作为重点,而在云计算模式下,大数据管理将更多地侧重数据分析、挖掘及管理模式的创新。目前数据采集和统计技术已经较为成熟,利用云计算进一步丰富大数据的存储和处理方式,实现更高层次的数据挖掘和可视化将是今后需要解决的问题之一。
摘要
大数据主要包括结构化数据、非结构化数据两部分,目前已具备应用价值大、数据量大、速度快等特点,这些特点对今后投资统计数据处理技术将带来颠覆性变化,为此,本人结合从事多年统计数据处理经验,重点阐述投资统计大数据在数据采集、存储和分析涉及的主要关键技术。
【关键词】投资统计大数据处理关键技术
本人从事多年统计工作,对投资统计大数据有着天然的亲近感,投资统计就是搜集、整理、分析、应用数据。目前投资统计改革正在有序开展,我们要抓住改革契机,充分利用投资统计大数据具有海量、实时、多元处理特点,深刻解读数据,创新研究思路,提高投资统计数据处理能力,提供投资统计分析具有数据全、分析深、研究透、成果新、有理有据的可行建议,成为党政府、部门决策的重要参谋。
1概述
1.1大数据
投资系统中数据有三种类型分别是项目投资管理数据、联网直报房地产投资数据、规下投资抽样数据。根据投资数据内在结构,可以分为两类,一类是结构化数据,统计系统的企业原始数据可以通过二维表形式反映的数据;另一类是非结构化数据,不能以二维表的形式来反映的数据,如文本、图片、音频、视频等产生的数据。
1.2特点
2关键技术
2.1采集技术
大数据的采集指利用很多个数据库同时接收,从客户端的传输来的数据,一般用户可以通过这些数据库,在客户端能够达到一般查询和处理过程。但是在大数据的采集过程中,最大的难点数据并发高,很有可能会同时成千上万的用户来进行访问和操作,采用在采集端部署大量数据库作为支持,能够有效、科学地在投资数据库之间进行负载均衡和分片,是数据采集技术的关键环节。
各类大数据分部不同的部门或项目,给数据的收集带来一定难度,采用关系数据管理模型,运用Google文件系统GFS技术,具有纵向扩展功能,应对数据采集并发数高,也是确保实现高效获取大数据的核心。
2.2传输、存储技术
投资统计系统采用联网直报平台,运行时会实时产生各式各样的原始数据,特别定期用投资遥感监测中数据也会产生更多的数据,经过日月积累海量的数据,会给投资监控设备及数据传输、存储系统造成沉重的负担,并对投资统计系统发展造成很大的影响。
目前投资统计系统数据的传输,为了减轻数据传输量,大部分采用数据压缩的方式,可以应用到投资统计数据传输,大大提速整个系统数据的传输,从而有效降低数据储存的空间。若没有建立有效批处理模型,在压缩、解压过程中仍然占用系统资源较大,浪费也很大,因此更急需建立有效的批处理模型是重要的。现在普遍采用MapReduce批处理模型,能够在平常配置的计算机上实现并行化处理,且能够分割输入数据,在计算机组成的集群上统一调度,确保计算机的集群之间顺畅的通信。
投资统计大数据存储一般采用分布式保存方式,具有性能可靠性,可以解决海量数据的存储问题,可有局限性,如投资统计系统运行时,随时产生实时性数据,处理过程中还是不能够全面应对,最好要根据不同类型的大数据性能先分析,然后再进行实时分类存储。特别是投资遥感监测系统中非结构化数据占大数据比重非常大,需要解决大量非结构化数据转变为结构化数据处理能力,是投资统计系统在大数据处理技术解决的关键问题。采用GFS的分布式文件系统主要对海量大文件而设计,而海量小文件可以用Haystack系统,可以用多个逻辑文件共同使用一个文件,解决小文件存储的问题。
2.3实时处理技术
大数据产生的过程比较复杂,对有投资统计数据(结构化数据、半结构化数据和非结构化数据)进行基于各种统计算法的计算,必然存在数据的内涵不一致、记录重复、或者感兴趣拟处理的属性指标不完整、或者含有噪声(数据中存在错误和异常值)等各种问题,必须实时进行清洗和预处理,去掉噪声和无关数据,便于后续的分析、分析处理。使用Sector广域网的分布式系统,利用Sphere基本数据处理模型,针对不同的数据,能够统一输入数据流方式,进行实时大规模并行计算,在对数据进行分割,分割后数据转交给SPE(具有处理引擎功能),能够起到负载平衡。
2.4分析技术
投资大数据分析主要通过分布式数据库或者分布式计算集群,对现有已存储的大量数据库,分步骤能够简单的分类汇总、统计分析等,能够实现普遍常见的分析需求,但是对于一些需要批处理基于半结构化或非结构化数据,利用可视化分析技术、高度集成技术,对图像和投资原始数据及专业的大数据分析工具,进行与部门数据之间统计分析或比对。统计与分析这环节的主要特点涉及的面广、量大,运行系统资源占用也非常高,特别是输入输出资源占用率高。随着大数据的发展,用Bigtable分布式、按列存储、多维表结构的实时分布式数据库,可以对大数据结构化、半结构化和非结构化数据读写操作,使用SQL语言进行大量数据的统计、查询和分析操作,解决了可视化分析技术的扩展性,能够有效提取重要数据、显示合成图像。用LOD技术采用策略处理大数据量的实时传输与可视化,实现按等级组织分块,平常称为“金字塔”结构。
3结束语
摘要:随着信息化技术的不断发展,大数据处理技术给人们的生活和工作带来了很多改变,要充分发挥大数据处理技术的作用,就要求深入、全面研究大数据处理技术,摸索出大数据处理技术的改进与完善对策。基于此,本文首先分析大数据的特征,然后探讨大数据处理技术的Hadoop架构和Storm架构,并对比分析两种架构的优缺点。
关键词:大数据处理技术Hadoop架构Storm架构
大数据时代的超大数据体量以及占据一定比重的半结构化和非结构化数据的存在,就决定了传统数据库管理难以满足需求。大数据技术将会成为IT领域的新一代技术和架构,会帮助人们存储并管理好大数据,从复杂、庞大的数据里筛选出有价值的数据,加之各种技术以及产品的出现,很可能促使IT行业步入新的黄金时代。因此,分析研究大数据处理技术极具现实意义。
1大数据特征
2大数据处理技术
2.1Hadoop架构
Hadoop架构的核心构成部分是HDFS,即Hadoop分布式文件系统,全称HadoopDistributedFileSytstem,以及MapReduce分布式计算架构。其中HDFS以Master/Slave体系结构为基础,在集群里任命一个主节点担任NameNode,主要负责管理文件系统元数据,其余子节点担任Datanode,主要负责保存具体的数据块[1]。
2.2Storm架构
和Hadoop主从架构相同,Storm架构也是以Master/Slave体系结构为基础,通过Nimbus与Supervisor两种服务进程实现分布式计算机,其中Nimbus进程在集群主节点运行,主要负责分派与分发任务,Supervisor进程在集群从节点运行,主要负责任务的具体执行。Storm架构利用Spout/Bolt编程模型通过流式方式处理消息。消息流是Storm架构里对数据的基本抽象,一个消息流对应一条输入数据封装,不断输进的消息流通过分布式方式得到处理。Spout组件是消息的生产者,在Storm架构里属于数据输入源头,能从多种异构数据源里获得数据,同时发射消息流。Bolt组件主要负责对Spout组件发射的信息流进行接收,同时完成相应的处理逻辑。如果业务逻辑比较复杂,就可串联多个Bolt组件,并且在每个组件里都编写相应的功能,进而呈现出整体的处理逻辑。
2.3架构对比
就总体结构而言,Hadoop和Storm是相似的,具体构成部分对比如表1所示。
通过对比,Storm架构具有以下优点:在Storm架构实际运行时,系统不用每次都初始化,数据处理效率较高,在处理较小数据时这一优势更加显著;Storm架构的信息处理模式能确保数据的高效处理,更好地满足人们对UI数据的需求;spout组件能读取不同形式数据里的消息流,并把读取的消息流传递给bolt组件进行处理;结合处理业务量的大小以及业务难度的高低,Storm架构能串联多个bolt组件实现消息流的有效处理,进而实现数据处理的高效性与快速性。
在互联网发展迅速的今天,新业务对数据处理的要求不断提升,当传统离线处理架构不能满足需求时,就可以使用大数据处理技术架构。但信息社会的最大特点就是瞬息万变,因此,对大数据处理技术我们也要不断变革与创新,使大数据处理技术得到更好地完善,这样才能更好地服务于社会、服务于人们。
摘要:本文主要针对大数据的概念与特点、交通行业大数据发展现状以及大数据在交通行业发展的浅见进行简要分析。
关键词:智能电网;交通运输;大数据处理技术
一、大数据的概念与特点
顾名思义,大数据即一个体量特别大的数据集,大到无法使用传统的数据处理工具、技术对其进行分析、加工、操作。而大数据技术,就是对大数据的处理技术的集合。可以说,大数据兴起并非科技的突变,而是随着人类社会结构化、半结构化、非结构化数据的急速增长应对而生的技术进步。大数据的特色之一是体量成级数增长。由于互联网技术逐渐渗透人类生活的方方面面、以“物联网”为方向的信息采集技术的逐渐普及以及包括“4G”在内的网络传输技术的迅猛发展,在全社会,包括交通运输行业,人类所拥有的数据量及其增速已经远远超过传统信息技术预设的处理极限。限于科技发展的规律与速度,或者是人类智能体量的局限,信息技术专家们提出以“云计算”概念为核心的的一系列数据分布式处理技术作为阶段性替代方案,以适应现阶段的信息爆炸。
大数据技术与传统信息处理技术有如下不同:使用分布式技术实现海量数据的处理。现代社会,“人类存储信息量的增长速度比世界经济的增长速度快4倍”,“大约每三年就能增长一倍”。为了解决这一问题,分布式技术成为信息处理的必然选择。早期的信息处理技术通过固定的数据存储设备、运算服务器实现信息化;随着数据量以及运算需求的增加,发展出部署集中的集群的信息存储与处理方式,一定程度上扩展了使用范围;当数据量进一步增长,受益于网络通信技术的升级换代和互联网的飞速发展,“云计算”技术相应而生,通过将分散于各地的存储、处理设备,实现可与巨型计算机媲美的海量数据处理能力。
如同哲学上的量变引起质变,大数据技术正是随着信息化数据的不断增长而产生并从根本上改变人对于数据存储、应用的理解与认识。同时随着数年的演进,大数据技术也正在逐步走向成熟。
2012年7月,美国知名IT咨询顾问公司Gartner《2012年大数据技术成熟度曲线》,对大数据涉及的46种技术进行逐一分析。根据当时报告内容,对比当前发展现状,我们可以看到大数据技术的成熟度已经达到一定的高度。2012年报告中提到的,将在2年内实现主流应用的列式存储数据库、预测分析、社交媒体监测等技术,已经成为近些年IT行业普遍实用的技术;报告中预测的2~5年内成为主流的云计算、内存数据库、社交分析、文本分析等技术,当前在google、百度、facebook、阿里巴巴、新浪微博等处于IT技术前沿的互联网公司,已经分别得到广泛应用;而报高中认为5~10年才会得到普及的内容分析、混合云计算、社交网络分析、地理信息系统等技术,以及认为10年以上才会普遍应用的物联网技术也已经在不同程度上得到应用和推广。
二、交通行业大数据发展现状
基于互联网的公众出行服务数据,如大运输联网、网上售票、城市公交刷卡、公众在线交通路线查询、网购物流数据等。
基于行业运营企业生产监管数据,如货运源头称重数据,货运、危险品运输电子运单数据,客运进出站报班及例检数据,营运车辆维修检测数据,邮政包裹数据等。
如国家邮政局的数据显示,2013年中国快递业务量完成92亿件,居世界第二,仅次于美国。业务量同比增长60%,最高日处理量已突破6500万件。
车辆位置信息采集仅举一市为例,2013年10月,杭州市符合交通运输部“两客一危”定义且经营范围、营运状态、营运证有效期等状态正常的车辆上线数为6329辆。车辆位置信息假设每5s传输一次,则每日位置信息接近1.1亿条。北京市6.67万辆的出租车GPS数据实时接入,日均数据量可以达到6G。
车流量监控数据,笔者曾参与河南省新乡市动态称重系统建设项目,仅一个信息采集点,2013年11月平均每天采集14000辆车左右,包括结构化数据与照片信息,每天产生的数据量是1791MB。
三、大数据实时处理技术
随着大数据时代的来临,各种应对大数据处理的解决方案应时代而生,7年前,雅虎创建了一个用于管理、存储和分析大量数据的分布式计算平台Hadoop,它作为一个批处理系统具有吞吐量大、自动容错等优点,目前在海量数据处理方面已得到了广泛应用。但是,Hadoop本身存在的缺点是不能有效适应实时数据处理需求,为了克服该局限,一些实时处理平台如S4,Storm等随之产生了,他们在处理不间断的流式数据方面有较大的优势,下面将介绍和分析目前比较流行的大数据处理平台。
1、Hadoop
Hadoop是一个由Apache基金会开发的分布式系统基础架构[10],允许用户在不了解分布式底层细节的情况下,开发分布式应用程序。Hadoop主要由分布式文件系统(HadoopDistributedFileSystem,HDFS)和MapReduce计算框架两部分组成。
HDFS结构如图1所示,三类节点Namenode,Datanode,Client之间的通信都是建立在TCP/IP的基础之上的。Client执行读或写操作时首先在本机临时文件夹中缓存数据,当缓冲数据块达到设定的Block值(默认64M),Client通知Namenode,Namenode响应Client的RPC请求,将新文件名插入到分布式文件系统结构层次中,并在Datanode中找到存放该数据的Block,同时将该Datanode及对应的数据块信息告诉Client,Client便将数据块写入指定的数据节点。HDFS有着高容错性的特点,可以部署在低廉的(low-cost)硬件上,并且能提供高传输率(highthroughput)来访问应用程序的数据。
图1HDFS结构图
MapReduce是一种并行处理模型,主要有两个处理步骤:map和reduce。
Map端处理流程如下:计算框架先将要处理的数据进行分片,方便map任务处理。分片完毕后,多台机器就可以同时进行map工作。map对每条记录的处理结果以的形式输出中间结果,map输出的结果会暂且放在一个环形内存缓冲区中,当该缓冲区快要溢出时,会在本地文件系统中创建一个溢出文件,将该缓冲区中的数据写入这个文件。写入磁盘之前,线程根据reduce任务个数生成相同数量的分区。当map任务输出记录时,会产生溢出文件,这时需将这些文件合并。文件不断排序归并后,最后生成一个已分区且有序的数据文件。最后将相应分区中的数据拷贝给相应的reduce任务。
Reduce端处理流程如下:Reduce会接收到不同map任务传来的数据,如果reduce端接受的数据量相当小,则直接存储在内存中,如果数据量超过了该缓冲区大小的一定比例,则对数据合并后溢写到磁盘中。随着溢写文件的增多,后台线程会将它们合并成一个更大的有序的文件,然后交给reduce函数处理,reduce函数安装用户定义的业务逻辑对数据进行处理并输出结果。
Hadoop在本质上是一个批处理系统。数据被引入Hadoop文件系统(HDFS)并分发到各个节点进行处理。最后将处理结果汇总,生成的结果文件存放在HDFS上。
2、Storm
Storm是Twitter开源的分布式实时计算系统[8],Storm具有高容错性,水平扩展性好,快速,可靠处理消息的优点。Storm的核心概念是“流(stream)”,流是一个无限的元组序列。Strom为流转换提供两个基本组件:“Spouts”和“Bolts”。Spout是一个输入流组件,Spout将数据传递给另一个组件(Bolt)。Bolt执行任务并创建新的流作为下一个Bolt的输入流。整个过程就是一个“topology”。
Strom集群有主要有两类节点:主节点和工作节点。主节点上运行一个叫做“Nimbus”的守护进程,它负责在集群分发代码、分配任务和故障监测。而每个工作节点运行一个叫做“Supervisor”的守护进程。Supervisor监听分配给它任务的机器,根据Nimbus的委派在必要时启动和关闭工作进程,每个工作进程执行topology的一个子集,一个topology由很多运行在机器上的工作进程组成。
Nimbus和Supervisors之间所有的协调工作是通过一个Zookeeper集群,Nimbus的守护进程和Supervisors守护进程的状态维持在Zookeeper中或保存在本地磁盘上。这意味着Nimbus或Supervisors进程杀掉,而不需要做备份,这种设计结构使得Storm集群具有很高的稳定性。
3、S4
S4(SimpleScalableStreamingSystem)是Yahoo的一个开源流计算平台,它是一个通用的、分布式的、可扩展性良好、具有分区容错能力、支持插件的分布式流计算平台。S4将流的处理分为多个流事件ProcessElement(PE),每个PE唯一处理一种流事件。S4将用户定制的PE放在名为ProcessingElementContainer(PEC)的容器中。PEC加上通信处理模块就形成了逻辑主机ProcessingNode(PN)。PN负责监听事件,PEC接收源event,event经一系列PE处理后,在通信层CommunicationLayer的协助下分发事件或输出事件处理结果。在分发事件的过程中,S4会通过hash函数,将事件路由到目标PN上,这个hash函数作用于事件的所有已知属性值上。通信层有“集群管理”,“故障恢复到备用节点”,“逻辑节点到物理节点映射”的作用。同时通信层还使用一个插件式的架构来选择网络协议,使用zookeeper在S4集群节点之间做一致性协作。
四、大数据在交通行业拓展的困境
1、行业信息化整体水平较低、数据的采集与整合困难
2、缺乏工作规范与要求,数据应用机制困难
交通运输管理机构人员信息化水平差距较大,系统用户缺乏应有的信息化思想,传统的办公方式与习惯难以改变。政府管理机构没有针对信息化应用与数据的采集应用形成上下联动,奖惩结合的管理机制。信息化应用游离于业务办理之外,信息管理部门与业务部门各管一摊,无法真正将实际业务实现在线办理,真正提高办公效率创造信息价值。行业主管部门缺乏对行业企业生产监管数据进行采集的法律法规,也没有面向企业提供数据服务,既没有通过信息化手段对行业生产状况进行全面掌握,也无法通过信息服务促进产业升级和变革。
3、行业从业人员信息化意识不强,大数据应用思路缺乏
交通运输行业主管部门领导对数据指标价值与数据应用方式缺乏认识,一些信息化规划、项目规划不接地气,系统重建设轻实用,实际应用价值不高,数据采集需求无法得到贯彻。如交通运输部部省联网项目,采集了全国绝大多数省份的户车人基础数据,但是既没有制定政策法规,保证数据的更新与同步,也没有进行数据指标的价值分析,实现真正有价值的应用,造成后期维护困难,数据逐渐陈旧,实用价值迅速流失。此外,全国各省、各地交通运输行业信息化发展不均衡,部分地区信息化基础设施较为落后,整体信息化水平有待加强。
五、大数据在交通行业发展的浅见
1、积极立法,确立数据采集与应用的重要性
2、加快体制改革,设立数据采集与信息化和单位考评相结合的制度
结合国家行政体制改革,进一步改变交通运输行业信息化项目建设传统的上级规划、立项、投资、监管、评审一体化管理模式,实现规划与立项、资金使用与审计、项目监管与后评审的权责分离,让信息化项目建设实际落地,上级单位更注重资金使用的控制与系统应用效果的后评审。尽快制定政策,将指定数据指标的采集和上报纳入行业管理规定;通过体制改革,设立数据上报与信息化应用水平考核制度并实现常态化,同时实现数据上报制度与行业统计工作的全面结合,改变传统的统计人工上报模式,用信息化数据支撑行业统计。考核制度包括3个层面:管理机构对企业考核;单位领导、信息化主管部门对业务部门的考核;上级主管部门对下级单位的考核。
3、加快信息化发展步伐,通过示范指导,引导大数据技术的引入与发展
在交通运输行业信息化规划与设计中,广泛引入云计算等大数据处理技术,选择试点单位,建设应用示范项目,总结大数据在交通运输行业的应用方式方法与使用价值,对具有适用性的项目进行全国推广,引导大数据技术的不断发展。
结束语
【关键词】云计算大数据MapReduceHadoop
一、大数据
1.1什么是大数据
大数据概念可以从四个维度去解,即三个V和一个C。三个V分别指的是数据量大(Volume)、数据种类多(Variety)和数据增长速度快(Velocity),最后一个C指的是处理、升级或利用大数据的分析手段比处理结构化数据要复杂的多(Complexity)。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像Map-Reduce一样的并行计算框架将复杂的计算任务分配到“云”中成百上千的节点。
1.2大数据与云计算
大数据本身就是一个问题集,云计算技术是目前解决大数据问题集最重要最有效的手段。云计算提供了基础的架构平台,大数据应用在这个平台上运行。目前公认为分析大数据集最有效手段的分布式处理技术,也是云计算思想的一种具体体现。
云计算是分布式处理、并行处理和网格计算的发展,或者说是这些计算机科学概念的商业实现。云计算将网络上分布的计算、存储、服务构件、网络软件等资源集中起来,基于资源虚拟化的方式,为用户提供方便快捷的服务,实现了资源和计算的分布式共享和并行处理,能够很好地应对当前互联网数据量高速增长的势头。
1.3大数据与Hadoop
Hadoop是一个Apache的开源项目,主要面向存储和处理成百上千TB直至PB级别的结构化、半结构化或非结构化的大数据。Hadoop提供的Map-Reduce能将大数据问题分解成多个子问题,并将它们分配到成百上千个处理节点之上,再将结果汇集到一个小数据集当中,从而更容易分析得出最后的结果。
Hadoop项目包括三部分,分别是HadoopDistributedFileSystem(HDFS)、MapReduce编程模型,以及HadoopCommon。Hadoop具备低廉的硬件成本、开源的软件体系、较强的灵活性、允许用户自己修改代码等特点,同时能支持海量数据的存储和计算任务。这些特点让Hadoop被公认为是新一代的大数据处理平台。Hadoop同样具备出色的大数据集处理能力,在获取、存储、管理和分析数据方面远远超越传统的数据库软件工具。Hadoop经常在构建大数据解决方案时被用作基础构架软件。
二、大数据技术综述
大数据处理不仅仅是Hadoop,许多特定的数据应用场景是需要实时分析和互动反馈的,这时候就需要利用包括内存检索、流处理和实时计算等其他技术。而云计算的分布式存储和计算架构开启了大数据技术研究的大门,打造健全的大数据生态环境,所有这些技术结合在一起,才是一个完整的大数据处理系统。
2.1分布式计算框架
MapReduce是Google开发的一种简化的分布式编程模型和高效的任务调度模型,用于大规模数据集(大于1TB)的并行运算,使云计算环境下的编程变得十分简单。
MapReduce将数据处理任务抽象为一系列的Map(映射)和Reduce(化简)操作对。Map主要完成数据的分解操作,Reduce主要完成数据的聚集操作.输入输出数据均以〈key,value〉格式存储.用户在使用该编程模型时,只需按照自己熟悉的语言实现Map函数和Reduce函数即可,MapReduce算法框架会自动对任务进行划分以做到并行执行。
2.2分布式文件系统
为保证高可用、高可靠和经济性,基于云计算的大数据处理系统采用分布式存储的方式来保存数据,用冗余存储的方式保证数据的可靠性。目前广泛使用的分布式文件系统是Google的GFS和Hadoop团队开发的GFS的开源实现HDFS。
GFS即Google文件系统,是一个可扩展的分布式文件系统,用于大型的、分布式的、对大量数据进行访问的应用。GFS的设计思想不同于传统的文件系统,是针对大规模数据处理和Google应用特性而设计的,运行成本低廉,并提供容错功能。
HDFS即Hadoop分布式文件系统,受到GFS很大启发,具有高容错性,并且可以被部署在低价的硬件设备之上。HDFS很适合那些有大数据集的应用,并且提供了数据读写的高吞吐率。HDFS是一个master/slave的结构,在master上只运行一个Namenode,而在每一个slave上运行一个Datanode。HDFS支持传统的层次文件组织结构,对文件系统的操作(如建立、删除文件和文件夹)都是通过Namenode来控制,Datanode用来存放数据块。
2.3大数据管理技术
互联网数据已超出关系型数据库的管理范畴,电子邮件、超文本、博客、标签(Tag)以及图片、音视频等各种非结构化数据逐渐成为大数据的重要组成部分,而面向结构化数据存储的关系型数据库已经不能满足数据快速访问、大规模数据分析的需求,随之而来,一系列新型的大数据管理技术和工具应运而生。
2.3.1非关系型数据库
NoSQL,也有人理解为NotOnlySQL,它是一类非关系型数据库的统称。其特点是:没有固定的数据表模式、可以分布式和水平扩展。NoSQL并不是单纯的反对关系型数据库,而是针对其缺点的一种补充和扩展。典型的NoSQL数据存储模型有文档存储、键-值存储、图存储、对象数据、列存储等。而比较流行的,不得不提到Google的Bigtable,它把所有数据都作为对象来处理,形成一个巨大的表格,用来分布存储大规模结构化数据,数据量可达PB级。而HBase是Hadoop团队基于Bigtable的开源实现,使用HDFS作为其文件存储系统。同时,Cassandra(K/V型数据库)、MongoDB(文档数据库)和Redis等一系列优秀的非关系型数据库产品如雨后春笋般问世。
2.3.2数据查询工具
Hive是Facebook提出的基于Hadoop的大型数据仓库,其目标是简化Hadoop上的数据聚集、即席查询及大数据集的分析等操作,以减轻程序员的负担.它借鉴关系数据库的模式管理、SQL接口等技术,把结构化的数据文件映射为数据库表,提供类似于SQL的描述性语言HiveQL供程序员使用,可自动将HiveQL语句解析成一优化的MapReduce任务执行序列.此外,它也支持用户自定义的MapReduce函数。
PigLatin是Yahoo!提出的类似于Hive的大数据集分析平台.两者的区别主要在于语言接口.Hive提供了类似SQL的接口,PigLatin提供的是一种基于操作符的数据流式的接口.可以说Pig利用操作符来对Hadoop进行封装,Hive利用SQL进行封装。
GoogleDremel是个可扩展的、交互式的即时查询系统,用于完成大规模查询结构化数据集(如日志和事件文件)。它支持类SQL语法,区别在于它只能查询,不支持修改或者创建功能,也没有表索引。数据被列式存储,这样有助于提升查询的速度。Google将Dremel作为MapReduce的一种补充,被用于分析MapReduce的结果或者是作为大规模计算的测试。
2.4实时流处理技术
伴随着互联网业务发展的步调,以及业务流程的复杂化,企业的注意力越来越集中在“数据流”而非“数据集”上面,他们需要的是能够处理随时发生的数据流的架构,现有的分布式计算架构并不适合数据流处理。流计算强调的是数据流的形式和实时性。MapReduce系统主要解决的是对静态数据的批量处理,当MapReduce任务启动时,一般数据已经到位了(比如保存到了分布式文件系统上),而流式计算系统在启动时,一般数据并没有完全到位,而是经由外部数据源源不断地流入,重视的是对数据处理的低延迟,希望进入的数据越快处理越好。数据越快被处理,结果就越有价值,这也是实时处理的价值所在。
三、思考与展望
新闻媒体的数据库中拥有海量信息存储,这些多媒体数据包括文字,图片,视频和音频等多种格式,符合大数据处理的基本特征,利用大数据技术对这些资源进行存储,计算和分析,了解用户行为,挖掘数据本质和关联,为领导提供决策支持,为终端用户提供更好的服务和新闻定制,增强新闻信息产品的质量和影响力。
如今,在开源社区,围绕GoogleMapReduce框架,已经成长出了一批优秀的开源项目。这些项目在技术和实现上相互支持和依托,逐渐形成了一个特有的“大数据”生态系统。系统为我们实现优质廉价的大数据分析和管理提供了坚实的技术基础。
新闻媒体可以顺应大数据的技术趋势,加强技术调研,早日选型,搭建大数据处理平台,利用云计算项目资源,将海量数据统筹管理,通过分析和挖掘,实现新闻产品的创新和跨越式发展,以现代化的传播手段向世界展示中国。
关键词智能电网;大数据处理技术;应用现状;困境
1智能电网大数据概述
1.1智能电网系统中的大数据
电网系统中的数据可以分为三种类型,包括电网运行中设备监测数据、电网运营数据以及电网管理数据。
根据电网数据内在结构,可以将其分为结构数据以及非结构数据。其中结构数据包括关系库中储存的数据,随着我国科技的进步,结构数据不断的增长。跟结构数据不同的是,非结构数据不方便用二维逻辑表现,主要包括图形处理数据以及视频监控产生的数据。由于智能化的发展,非结构数据每年以60%的指数上涨,逐渐成为智能电网中重要的组成部分。
与传统电网不同的是,智能电网具有很强的智能化,这就需要能够对电网运行实时数据及时的获取,目前智能电网大数据表现在以下几个方面。
1)为了能够实现对电网运行中实时数据的获取,就必须设置越来越多的采集点,监测设备应用也越来越多,每一秒都会产生大量的数据。
2)设备对电网运行信息采样的频率越来越快。
1.2智能电网大数据特点
智能电网中大数据具有以下几个方面的特点。
1)智能电网数据量大。随着智能化的发展,电网数据从TB级逐渐上升至PB级。
2)智能电网数据类型种类繁多。社会对电力需求量越来越多,为了能够满足电量数据要求,电网数据的种类也越来越繁杂,包括文本数据、媒体数据等结构数据,还包括非结构数据,在数据的应用以及处理上也不尽相同。
3)智能电网大数据利用价值密度较低。就以电网监控视频为例,在实时监控的过程中,有用的数据占总数据的比例很少,绝大多数的数据都属于正常数据,而少数的异常数据正是有用的数据,也才是对电网运行检修提供有力依据的数据。
2智能电网大数据处理技术应用面临的挑战
2.1智能电网大数据传输、存储技术
智能化的发展,电力系统运行过程中各项数据、以及电力设备监测数据被全部记录下来,数据量越来越多,这给电网运行监控设备以及数据的传输、存储系统造成巨大的负担,并对电网智能化发展造成很大的影响。
对于智能电网大数据的传输,采用数据压缩的方式能够提高数据传输的效率,降低数据传输量。所以越来越多的网络数据压缩技术被应用到智能电网数据传输中,通过数据压缩能降低数据储存的空间,但在压缩以及解压过程中也会对系统中心带来一定的资源浪费,需要更为合理的平台支持。
对于智能电网大数据存储方面,采用分布式文件保存的方式能够实现对大量数据的存储,但对电力系统实时性数据处理方面还有一定的局限性。所以需要对系统中大数据性能进行分析并实行分类存储。
智能电网中非结构化数据占据很大的比重,在存储方面需要将这些海量的非结构化数据转换为结构化数据,这正是目前智能大数据处理技术面临的困境。
2.2大数据实时处理技术
2.3智能化大数据可视化分析技术
智能电网运行中会产生海量的数据,将这些数据及时分析处理,并在有限的屏幕中将其展示给电力用户,这也是目前智能电网运行大数据处理面临重要的挑战。可视化分析技术能够有效的处理大数据,并逐渐应用到实际电网运行中。可视化分析技术,利用高度集成技术、高分辨率图像,以及交互工具,为电力用户提供明朗的数据处理结果。
随着科技水平的提升,可视化分析技术也面临着挑战,包括该技术的扩展性,以及重要数据的提取、显示以及图像合成方面的挑战。
另外,还需要保证智能电网数据网络的质量,对其进行定期检修与维护,如果在数据网络运行中出现故障,需要根据故障的现象,结合网络诊断技术,找出故障发生的原因,从根源上排除故障,使数据网络恢复正常。进行网络故障诊断,不仅需要及时的恢复发生故障的网络,不断的改善调度数据网络的性能,还需要掌握数据网络的运行状态,确保数据网络的通信质量。
3总结
我国智能化技术在电网系统中应用越来越广泛,大数据处理技术成为了维护智能电网安全运行的主要手段。云计算为智能化数据处理、存储提供有效的平台,也能够保证智能电网大数据能够得到及时的分析与处理,为电网安全运行提供保障。但是随着电网智能化程度逐渐深入,大数据处理技术在实时性、隐私性、一致性等方面也遇到了很大的挑战,必须找出有效的解决方法,这就需要有关人员加大科研力度,不断的探索,相信我国智能电网系统运行会越来越稳定,必将推动我国电力事业的健康发展。
随着云计算技术的不断完善,为了促进大数据处理系统的功能多样化,云计算技术在大数据处理系统上得到了广泛的应用。本文重点研究了在多元因素的影响下的数据模型对大数据处理的影响,并据此提出了一种基于融合思想,采用了混合架构以及分散处理的云计算环境下的大数据处理系统的整体部署策略。
【关键词】云计算大数据处理融合处理
随着网络技术的发展,以及智能设备的普及,当前的数据增长速度已经呈现爆炸式增长,大数据时代已经来临。目前专家对大数据处理系统方面的研究主要是基于云环境下的分布式部署以及网络架构的融合和动态实时数据处理这三个方面。同时也取得了一定的研究成果,对于当前的云计算环境下的大数据处理系统的发展提供了很多理论和实践基础。
2基于融合思想的大数据处理方案分析
云计算技术模式下,人机交互和数据处理以及网络逻辑处理技术等都相对交融,处于深度融合状态。因此基于融合思想的大数据处理方案就是以融合思想为核心,将云计算技术模式下的各种分散的网络资源进行协同组织,然后再进行融合,从而充分发挥分散状态下的资源优势,形成一种整体性的比较优势,因此这种融合式的大数据处理方案的应用前景十分广阔。
3大数据处理系统的应用和处理系统分析
3.1大数据处理系统的应用
大数据处理系统的应用主要包括三个方面:
(2)分散式架构。这种架构的特点就是协同控制的节点都是平等地位,并且和处理系统有关的控制和管理模块都是分散在各个客户端上。客户端拥有一定的自治属性,因此具有通用性和灵活性和可扩展性等诸多优势。但是由于数据采用分布存储和分布操作,这样在维护方面就变得较为困难,而且节点之间的实时同步和用户动态注册的应用也难以实现。
(3)混合式结构。这种结构拥有前两两种结构有点,通过服务器实现数据信息的统一维护,而客户端一方面实现信息传输功能,同时也能够和用户在某些应用方面进行充分的交互,因此能够有效减轻服务器端的压力,这样也能够消除服务器端的瓶颈。提升系统的鲁棒性和灵活性。
3.2云计算技术下的大数据处理系统具体分析
3.2.1系统架构
这个处理平台架构采用了融合式的调度执行层和任务融合调度管理,并根据处理规则和不同的参数来调整处理引擎的数据和算法组合以及计算资源。对大数据资源的数据交互和任务分工工作进行了有效融合。同时在管理层,也对业务数据进行分布式存储,提升了容错处理能力。
3.2.2系统处理流程
系统处理流程主要是对分散状态数据进行处理,其关键就是对分散的数据进行提取,因此首先给其他应用提供数据接口。然后数据管理部分要融合数据资源,并在一定容忍度的基础下,对不同的数据处理机制进行比较,进而优势融合。最后数据处理中心则是对数据进行集中处理,然后统一分配数据资源,从而在数据中心实现数据处理的融合。
3.2.3处理系统的部署
某信息产业园的大数据处理系统的部署是根据信息企业集群的需求,然后对现有分散数据资源进行挖掘,比如企业内部的ERP和SCM系统中的数据,通过对这些数据进行深度挖掘从而为该企业提供战略发展资源。图1就显示了这个部署图。
从部署图可以看出,在这家企业中,ERP和SCM和CRM是其数据源,然后经过服务器处理之后,分布到n个数据库,然后进行合并进入到大数据管理模块,最终能够实现数据查询和数据决策服务。
总而言之,目前采用融合式思想,在云计算技术条件下,对大数据处理系统进行部署的研究相对较少,特别是当前的信息产业,由于其自身的解决方案并不能够实现大数据条件的比较优势,所以本文提出的融合式的大数据处理技术,有效的提升了数据利用深度,拓展了大数据处理系统的应用范围。
北大期刊?双月刊
主办单位:中国电子学会;仪器仪表学会;信号处理学会;中国一汽仪表学会;中国物理学会;微弱信号检测学会;南京航空航天大学