导言:作为写作爱好者,不可错过为您精心挑选的1篇数据存储技术论文,它们将为您的写作提供全新的视角,我们衷心期待您的阅读,并希望这些内容能为您提供灵感和参考。
【摘要】计算机科学技术的快速发展同时也带动了网络数据存储技术的蓬勃发展,网络数据存储技术作为一种重要的数据存数技术,被广泛的应用在多个领域。不断发展和改进网络数据存数技术,推动网络数据存储技术的快速发展。本文分析了传统网络数据存储技术的分析和应用和现代化网络数据存储技术的分析和应用。
【关键词】网络数据存储技术分析应用
数据存数作为计算机系统中一个独立的模块,网络数据存数技术的发展目标是高智能化、低成本化,通过深入分析和研究网络数据存储技术,不断地进行改进和完善,使网络数据存储技术更加强大和安全,推动网络数据技术的快速发展。
一、传统网络数据存储技术的分析和应用
1、SAN。SAN是一种计算机存储区域的数据存储技术,将计算机网络服务器和存储设备联系起来,服务器使用SAN接入网络系统[1]。SAN存储区域基于LAN层次一下,是一种高效的存储网络,利用SAN数据存储技术,可以有效地缓解大容量数据传输对计算机网络的影响,能够优化大容量数据的分配。但是这种技术在日常的应用中操作性较差,在维护和构建SAN架构时,技术人员必须具有丰富的操作经验和专业知识积累,再加上SAN技术的网络互联装置价格昂贵,增加了这种技术的运行成本,使得SAN技术难以发展和普及。
2、DAS。DAS是一种和计算机网络直接相连的数据存储技术,它利用SCSI接口或光纤通道将网络服务器和存储设备直接相连,这种直接相连的数据存储技术,系统的运行成本相对较小,被广泛的应用在计算机网络集群环境中,具有良好的扩展性。例如,计算机网络中的服务器分布比较分散,利用普通的网络数据存储技术进行连接在技术上有很大的困难,这时可以利用DAS技术。但是这种技术最大的缺点是不具有共享性,需要计算机网络系统中每一个客户终端配置一个单独的服务器,给网络的管理存储维护带来了很大的难度,服务器一旦发生故障,存储数据信息很难进行恢复,网络数据存储的容量空间难以进行拓展,在这种背景下,网络数据存储技术的普及受到了很大程度的限制。
3、NAS。NAS是一种计算机网络系统中重要的数据存储附加技术,计算机网络数据存储附加技术能够直接将计算机磁盘序列和计算机网络系统连接起来,NAS技术的服务器主要由计算机存储硬件和计算机操作系统共同组成[2],在应用过程中,具有很强的拓展性,并且SAN技术和计算机网络互联的设备价格相对较低,安装操作简单便捷,具有可靠、安全、高容、高效等特点,被广泛的应用在法律环境、电子出版以及图像教育等领域,这些领域都对于数据存储容量有着很高的要求。与此同时,NAS技术的网络协议开销较大,在数据文件访问过程中,NAS技术很难适应高访问速度的网络应用,例如计算机网络数据库的存储应用,NAS会占据大量的带宽,并且NAS难以兼容多种不同存储设备,无法对设备进行统一的管理和控制,这样就限制了NAS技术在某些领域的应用。
二、现代化网络数据存储技术的分析和应用
三、结束语
无论是传统的网络数据存储技术还是现代化的网络存储技术,都需要不断地改进和发展,不断提高网络数据存储技术的可靠性、安全性和拓展性,推动网络数据存储技术的广泛应用。
云技术是当前先进的技术,把实时数据存储检索技术以云技术结合起来创新实时数据库高性能数据库存储检索机制是今后未来发展的必然趋势,加强对这一趋势的研究有重要意义。本文将以云计算技术为基础,通过分布式通讯服务平台结合应用需求来重点研究数据存储和数据检索机制。
【关键词】云计算数据库存储检索
基于云技术的分布式实时数据库能充分利用高性能广域网络。这种挂数据库主要是通过数据流的形式来对存储云中的数据来进行专业化地处理,通过这种方式定义的计算函数就能够对存储云所管理的刷数据进行有针对性处理。
1云计算技术介绍
研究分布式数据库高性能数据存储检索机制,首先就需要掌握云计算技术。了解云计算技术是研究的重要前提。近些年来云计算技术获得了迅猛发展,依托于云计算技术本身的产品也获得了较快发展。云计算技术主要是将效用计算、网络存储、网格计算以及负载均衡等领域进行综合而形成的一种专业性技术。
通常情况下云计算技术本身包含海量数据的分布式存储技术、分布式实时事务提交协议、网络动态路由与负载均衡技术、事务实时调度机制等核心技术。这几种技术对于分布式实时数据库的构建具有重要意义。
2分布式实时数据库的框架
分布式实时数据库是云计算技术与实时数据库技术深度融合的产物,该数据库主要是通过计算机集群来进行构建。该数据库具有可扩展、系统性、可靠性、可维护性高等特点。负载均衡、事务调度、冲突处理、数据存储等是其主要内容。分布式实时数据库主要是通过分布式通讯服务平台的客户端结构接入到该平台中的。某个节点在接入分布式应用服务之后就可以实现与同样服务的其他节点的有效连接。
多台数据服务器的数据存储,检索组件则是通过接入平台结成一个统一的数据存储以及数据检索服务来向外提供服务的。这样一种服务机制实际上打破了原来那种单台实时数据处理服务器的孤岛。对于数据的查俊则是用平台接口把客户端同服务平台连接起来实现的。
3分布式实时数据库存储机制
针对基于云计算分布式实时数据库存储机制的设计,重点是要在规模动态调整能力、数据一致性、分布式冗余存储等方面来进行调整和设计。在实际设计过程中必须要能够达到以下目的:一是适当增加服务器节点从而实现系统并发处理能力,最终提升数据存储容量。二是系统数据存储的实时性和高可用性得到增强。三是实现高效的数据备份冗余,从而来有效避免数据读写失败情况的出现。有的条件下甚至是可以用一致性维护机制来保证备份数据的一致。四是服务器节点可崩溃,恢复以及在线加入。
存储云结构主要是由主管服务器、安全服务器、客户端以及从属节点等构成。这些设备在系统中承担的功能各有不同。主管服务器主要是维持系统内的元数据,提供目录服务、响应用户请求、控制从属节点运行等。从属节点主要指的是那些存储数据的文件,这些节点通常是基于存储云客户端的请求而需要处理数据的节点。从属节点一般只接受主服务器的指令,客户端、从属节点的关系以及从属节点之间的关系则主要是由主节点来进行协调。
存储云结构能够实现高速缓存数据连接,这样就能够有效改变同一队节点间,数据传输需要多次连接的现状。该系统的安全机制主要是通过存取控制列表来实现的。存储云结构中的数据需要由存取控制列表来进行控制,客户端IP地质也需要在服务器内部。数据的组织和处理是按照以下方式来实现的:在存储云结构中每个数据文件一般都附有一个索引文件,数据文件和索引文件都存在与相同节点中。复制数据文件的同时,牵引文件也将会被复制。索引文件本身包含每个记录的起始地址以及末端地址。那些没有索引文件的数据文件则主要是通过文件为单位的方式来进行处理。此时就需要通过特定函数来解析以及提取数据。
4分布式实时数据库检索机制
高性能数据检索具有明显特点,它的查询耗时和结果正确率是影响数据库性能的重要指标。分布式实时数据库检索机制有以下几个特点:一是数据最终的一致性。通常情况下数据在同步完成之前,数据备份之间往往存在不一致情况,此时系统通过一致性维护机制就可以实现数据的最终一致性。二是数据一致性修复。系统中数据一致性恢复主要是通过数据一致性对比、修复机制来实现备份数据间的一致性,从而最终达到分布式的最终一致性。三是查询的一致性等级。所谓查询的一致性等级主要指的是用户指定查询结果的一致性等级。对于那些一致性要求较高的一般四通过数据点的主备份节点来进行查询处理,对于那些一致性要求不高的请求则是要尽可能降低数据检索耗时。
分布式数据查询,按照查询位置不同可以分为当前节点数据查询和备份节点数据查询两种情况。针对备份节点的数据查询主要是通过当前节点数据查询来实现的。本地节点数据查询本身又可以分为实时数据查询和历史数据查询两种方式。历史数据的查询则可分为存档缓存查询和磁盘数据查询。
云计算技术是当前一种先进的信息技术,这种技术在分布式实时数据库中的应用是时展的必然要求。在今后应该不断加强云计算技术的研究。本文首先分析了云计算技术,而后分析了分布式实时数据库的总框架,之后重点分析了存储结构和检索机制。基于云技术的分布式实时数据库中数据存储和检索是其中的重要功能。加强这两方面的研究有重要意义。
【摘要】XML的良好的可扩展性和能够进行自我描述的特性使得它的应用范围越来越广泛,本文将对基于XML技术的数据存储技术进行总结与归纳,整理出不同数据存储技术的技术特征与要点。
【关键词】XML数据存储
Web应用的发展带动了XML技术的发展,XML已经成为了网络上的数据交换标准中的一种。XML技术的发展与其优秀的数据表达能力有关,它可以用来表达各种不同类型的数据,有鉴于此,XML数据存储技术对发挥XML数据表达特性非常重要。目前常见的XML的数据存储方式主要有三种,分别是文本文件方式、关系数据库方式以及面向对象数据库方式,本文将分析这三种存储技术的特点。
一、文本文件方式
XML文档本质就是文本文件,所以以文本文件方式进行数据存储是最为常见的XML存储数据方式,这种方式存储的数据可以直接使用文本编辑工具查看,非常易于参看与修改。使用文本文件方式存储数据并不意味着只能存储文本,此种方式同样可以存储二进制数据,也就是能够存储任意数据,只是数据不能以一种直观的展现方式呈现,需要其他的工具支持。
XML文档一般是通过DOM或者是SAX等接口进行存取,应用这些接口可以很方便的管理XML中存储的数据。实现XML文档操作接口的商业产品有许多种,也可以自行实现接口,针对性的提升XML数据存取性能。
应用文本文件方式进行数据存储的优点:
*方便查看与修改,对于一些轻量级XML文档,可以直接使用各类文档编辑工具进行编辑。
由于XML存储数据的结构是半结构化式,所以以文本文件方式存取数据存在着一定的局限性,对于结构复杂的数据难以清晰、准确的操作。
二、关系型数据库方式
XML文件存储的数据是半结构化式的,在实际工程中,所用到的数据往往需要关系型数据库的支持,为了达到将XML文件中存储的数据作为关系型数据库使用的目的,通常在XML文件和关系型数据库中添加一个映射层,它将承担对XML文件数据的存取任务,同时也承担为数据库提供数据以及映射数据库数据到XML文档中的任务。
映射层的工作流程可以分为以下四个步骤:
1)提取XML文档中的数据,按照映射规则组织数据,生成可以供关系型数据库使用的模式。
2)依据填充规则将数据向关系型数据库中的表中填充。
3)将XML查询方式转换为数据库使用的SQL查询方式。
4)将关系型数据库的数据重新转化,写入XML文档。
这种数据存储技术最为关键的部分是映射层,映射层的工作中最为重要的部分是将XML文件这种文档结构映射为关系模式的任务,映射策略的优劣对整体性能有着至关重要的影响,按照映射策略的不同,可以分为模型映射与结构映射。模型映射的策略是建立数据模型,根据模型的特征先行定义出一个关系型数据库模式,无需模式文件的帮助。而结构映射是依靠如Schema等模式文件的帮助,完成到关系模式的转换,整个过程中无需定义关系模式。
三、面向对象数据库方式
除以上两种较为常见的方式外,还有面向对象数据库的存储方式。与关系数据库相反,这种方式中将数据库作为底层存储者,将XML文档作为一个对象、作为数据的载体,存储在数据库中。
在XML文档与数据库映射过程中,一般情况下需要Schema或者是DTD的辅助,XML文档中的元素对应数据库中的类、元素属性值对应列,元素与元素之间的关系对应数据库中类于类的关系。
在将XML文档映射进面向对象数据库中时,具体步骤如下:
1)依据XML文档创建DOM树,按照先树根后树叶的方式进行遍历搜索。
2)对搜索到的元素进行校验,提取元素信息。
3)将得到的元素填入面向对象数据库中对应的对象的相应域中。
当从数据库中提出数据,重新映射为XML文档时,具体步骤如下:
1)提取数据库中的对象,并生成XML文档中的对应元素。
2)将对象的数据域映射为元素的属性值,写入XML文档中。
3)遍历对象里的子对象域,重复进行步骤1和2。
4)将所有的对象转换完成后,封闭根元素,结束映射。
这种存储方法可以方便的建立起XML文档中所携数据的对象模式,通过面向对象数据库对数据进行结构化操作,有着较出色的存储效率。
四、结束语
正是因为XML的应用范围广泛,不同的应用方向对数据的存储要求不同,所以XML有多种数据存储技术,文中提到的数据存储方式是较为常见的几种,每种都有自己的特性,究竟使用何种存储手段取决于具体的使用需求。
摘要:讨论了Web多媒体数据的存储方式,重点研究了图片文件在SQLServer2005中的存储方法,并实现了利用对二进制数据文件的读取及显示方法,最后讨论了其他多媒体文件存储方式所需要考虑的多方面问题,为Web应用中多媒体数据存储提供了参考。
关键词:数据库;多媒体数据存储;SQLServer2005;web应用
早期因特网浏览器仅支持文本,甚至被限制为单一颜色的单一字体。随着Internet的快速发展以及网络传输率的提高,人们对Web上的媒体需求越来越多,文本、书籍、图片、音频、视频等各种各样的多媒体资源目前在浏览器中已经得到了很好的支持。
在Web应用程序开发和使用过程中,有相当多的场合需要使用多媒体内容表达程序,因此对多媒体的数据进行存储就显得非常重要了。例如在人事管理系统中,需要存储员工照片、扫描并存储员工学历证书获奖证书并能够通过应用程序显示。又如在教学资源管理系统中,需要存储文字资源、图片资源、课件资源、音频资源及视频资源以供查阅。再如在多媒体论坛上,需要由用户上传多种多媒体资源,包括图片、声音、视频等。
在web应用程序中引用的多媒体资源存储方式一般有两种方式,一种是存储文件到指定路径下,将文件与应用程序的相对路径以及文件名存储到数据库中,数据库中存储的内容相对较少。这种存储方式的特点是数据读取比较容易,但是对数据管理不方便,多媒体的信息完全暴露在机器设备之上,信息容易被删除、修改或者替换,数据的安全性和可靠性得不到保证,这种方式不利于保存重要的媒体信息。另外一种就是把多媒体信息直接保存在数据库中,保证了数据的一致性和安全性,这也是目前多媒体数据库的发展趋势,但这种方式的数据读取比较麻烦,因为一般多媒体数据都是以二进制的数据存储方式存储在数据库中,需要通过第三方的工具来完成数据的存储和读取。该文主要研究以多媒体数据库实现图片的二进制存储和读取方法,并比较其他类型多媒体文件存储方式的应用。
1SQLServer2005数据表的建立
1.1数据类型选择
2存储图片到SQLServer2005的实现
2.1二进制数据的插入
2.3.2建立上传数据后台页面
1)主要实现方法分析
上传数据页面的主要功能是先启用数据缓冲区,获取图像文件的路径和文件名,若文件大小不为空数据,建立文件流对象,然后用二进制读取方式将图片文件读取到缓冲区中,最后连接数据源生成记录集,建立参数插入新纪录。
3读取图片并在web中显示
显示存储在数据库中的图片文件首先需要把数据库中的二进制数据转换为计算机内存中的二进制流,然后再把内存流的数据转换为图像数据,最后把图片放到页面中显示。
3.1读取图片数据流程
从数据库读取图片数据的流程如下:
4其他多媒体文件存储方式分析
在考虑存储各类多媒体文件方式的时候,我们需要从多个方面考虑,来选择合适的存储方式。
1)性能方面要求:二进制对象对性能要求并不高,如果多媒体文件对性能要求较高,特别是视频流之类,那么将多媒体文件保留在文件系统中会比二进制文件存储会获得更高的性能。
2)数据大小要求:如果需要经常检索二进制对象,文件大小又非常大,比如大型的视频文件,那么利用文件系统来检索和读取的效率比从SQLServer显示和读取的效率更高。
3)安全性要求:二进制对象是存储在SQLServer中的,可以通过常规的数据库访问方式来管理其安全性。但如果文件存储在文件系统中,那么其安全性就相对要低,需要考虑用其他的代替方式来进行保证其安全性,例如增加安全性软件,安全性管理机制等。
4)客户访问方式:客户对数据库的访问方式也会直接决定多媒体文件的存储形式,若数据库采用ODBC方式连接,那么对于大型的视频流存储可能会出现连接超时或连接失败的情况。因此ODBC的连接方式下建议采用文件系统来进行存储,以免对web应用产生影响。
5)碎片处理:如果需要经常对二进制文件对象进行修改操作,又或者文件非常巨大,文件系统处理碎片的能力高于SQLServer,这种情况下利用文件系统存储会比较优越。
6)事务控制:如果web系统需要进行事务控制,那么利用SQLServer内置事务解决方案能更好的处理事务控制,比文件系统要更好的得到事务的控制及各类事务处理机制。
在分析多媒体数据存储方式的时候,不能够单一的只考虑某一方面的问题,应该从多个方面来进行综合性考虑,特别是大文件视频流或音频流文件,处理起来比图片要更复杂,要考虑的问题更多,应该根据实际应用的需要进行选择。
5结束语
本文通过对Web下多媒体数据存储技术进行研究,分析了多媒体数据存储的两种情况,重点讨论了BLOB文件存储方式存储图片的方法,并实现了在SQLServer2005中建立数据库存储图像的过程,利用查询T-SQL查询数据的方法,并介绍利用实现图片存储、读取并在web中显示,实现了在web中图片存储的主要技术。最后讨论了其他多媒体文件存储时要考虑的问题,包括性能、数据大小、安全性要求、访问方式等多方面的建议,从而对其他web系统中各类多媒体数据的存储提供有效的参考。
关键词:数据存储;计算机;安全广泛
1影响计算机数据存储安全的软件与硬件因素
1.2影响计算机数据安全的软件因素。影响计算机数据安全技术的软件技术主要有以下三个方面:(1)电磁波的辐射,在计算机存储的各种数据在一定程度上会被电磁波带出,非法分子通过使用一些无线数据接收器,就能获得相应的数据信息;(2)网络安全因素:计算机网路使得各个电脑硬盘内存储的数据实现了共享,在用户与主机之间以及用户和用户之间将会出现大量的漏洞,使得计算机存储的数据遭到了黑客的攻击;(3)现代计算机网路在运营的过程中虽然有防火墙的作用,但是防火墙目前由于存在狠毒偶的漏洞遭到了很多计算机病毒的入侵。这些病毒程序是可以通过网上下载以及电子邮件和盗版光盘的形式潜入计算机网络。
2计算机数据存储安全防范技术
2.1数据存储安全的物理防范措施。目前比较常用的物理防范措施主要体现在以下几个方面:(1)数据备份,原始数据一旦丢失以后,那么应该按照原始的副本进行原始数据的维护。当前比较经常使用的数据本分技术有快照技术、数据镜像技术、Raid技术以及云共享技术。一旦遇到自然灾害或者是人为的破坏数据,可以通过上述方法实现数据的恢复。(2)数据安全删除技术,随着最近几年数据恢复技术的不断发展,在计算机上通过操作系统对文件进行删除已经变的不再可靠,如何实现有效的对信息进行清除对计算机的数据安全威胁,去除计算机上有用的信息,正在成为当今信息安全领域的新的研究热点。所谓的数据安全删除就是指对删除数据的恢复过程进行破坏,使得比较重要的数据一旦删除以后,就无法进行恢复。尤其是对于企业的发展而言,一些比较敏感数据的删除是十分必要的。众所周知高级格式化无法对数据内的数据信息进行覆盖处理,因此也不能叫做安全处理。
2.3数据传输安全策略分析。数据的传输安全因素通常包括两个方面,数据的发出端A,数据的接收端B,数据的传输通道。在数据传输的过程中通常会有两种情况导致传输数据的丢失。一种是非法用户对数据的发送端和接收端进行更改,获得需要的数据;另外一种就是非法用户在数据传输道路上进行数据的截取。
针对网络数据传输中的安全问题,可以采用以下两个方面的安全策略,首先使用数据加密技术对数据进行加密,为数据的传输提供一个安全的通道;其次利用公共密钥和数据证书对用户段和服务器进行身份验证。现在比较常用的数据加密技术主要有对称密钥加密、非对称密钥加密以及hash加密三种。网路数据的存储的实现过程主要是通过服务器中的数据备份来实现的。为了结局数据安全的可靠性问题,可以将风险分散到两个服务器上,从而保证整个网络数据系统的安全性。
3计算机数据存储技术安全防范技术发展趋势
3.2未来计算机数据存储的安全技术。在目前的学术界数据的安全存储技术已经引起了广大学者的注意。具体的研究方向主要分文数据的机密性、完整性以及可用性三个方面进行展开。比如可以通过在客户端安装数据加密技术使得客户有一定的访问权限来直接提取客户端的数据。另外虚拟专用网络技术也是目前比较常用的数据安全技术。这种技术的特点就是把数据传输的通道进行加密,然后将这种数据通道从公共网络中分离出来,从而使得数据信息能够得到有效的保护。也就是路由器数据过滤技术和隧道技术,路由器数据过滤技术就是将流出的IP数据包使用路由器进行动态监控。
4结束语
关键词云计算;数据存储;分析;计算机
随着计算机技术,信息处理技术不断的发展,人们可以不用把大量的数据技术放在自己的计算机上,可以放在别人的计算机上或者是远程的服务器上,因此企业就不需要投入大量的资金购买存储设备,完全可以通过互联网根据自己的需求找到存储在远程设备上的数据,于是云计算初步模型就出现了。
1云计算与云储存
1)云计算。在互联网的技术条件下提供了云计算的一种技术形式,云计算可以提供动态变化的能够伸缩的并且以虚拟为特点的计算模式。“云”就是一种比喻,是一个抽象的概念,实际上是计算机和互联网在起作用。
通过云计算把大量的数据都放在计算机上,这个计算机不是指本地的计算机,而是远程的服务器,企业可以根据自己的实际需求,对计算机的存储系统进行访问,企业可以把大量的信息资源都转换到客观应用上去。也就是说,计算机只是成为了一个简单的终端,不需要进行任何的计算或者是存储,直接把主机功能交给云端。
2构建在云环境下的数据存储体系
在实际操作的过程中,数据存储体系包括数据中心和云服务接口以及服务协议等,数据中心是在云环境下实现数据存储的基础,由存储管理、分布式文件体系和存储备份组成。云存储设备既可以是在企业的发展过程中所专门应用的存储设备,也可是PC,这个系统的设计依据的基础是客户机和服务器模式。经过检验这些确实可以完成大量数据的存储工作,并且效果也非常理想。
1)服务器的结构。云计算的组成部分中最重要的是存储服务器架构。在云存储体系构建之前,应该首先构建云存储服务器架构,这个可以根据架构技术来实现,这些架构技术是多样化的。在NAS这个文件存储系统中,每一个节点都是一个相互独立的个体,文件是这个系统中最小的单位。在集群中,如果文件可以完整的保留,那么其数据信息也会有效的保存在集群的特定的点上,文件虽然比较多,但是会被重新定义到一些另外的节点上,这样信息就显得太过繁杂了。在实践的过程中,人们可以发现,SNA作为存储系统的一块儿,如果有某一个文件发出请求,每一个节点都会对该文件的不同数据块进行访问,它能够有效的对用户的某一种需求进行及时的处理。这种存储结构比较适合在云服务器当中使用,它可以在一定的范围内进行扩展,而且传输的效率也比较高。
3关于企业的存储构建方案
4云计算的环境下关于数据安全问题
为了保证数据的安全性能我们可以采用加密的方式,对于加密的方法有两种:对称加密和非对称加密。实践证明,对称加密的算法还比较成熟,所以应用的范围比较广泛,这种加密的算法、加密和解密都比较容易实现,所以广泛的应用于大量的数据传输,对于非对称加密来说,可以把传统的密钥分为公开密钥和私有密钥,把加密算法和解密算法分开控制,这样可以在计算方法的复杂程度上确保其的安全性。
1)关于加密。当想要对某一个数据进行加密的时候可以通过对称加密算法密匙生成器,通过密匙生成器来随机生成含有校验信息的密匙,再通过非对称加密算法对所包含的效验信息的密匙进行加密。这样就可以把密文统一打包以后发到用户端供用户们使用,这个密文是经过加密算法处理的。除这些以外,对于一些数据量十分大的用户的数据可以通过对称的加密算法对其进行加密。但是对于一些数据量用户较小的用户可以考虑对一些非对称算法进行加密,将这两种密匙和密文数据一块儿存储起来放到云存储中心,对于那些非加密的密匙以及解密的密匙仅仅需要进行保存就行。
在云计算环境下的数据存储技术给人们带了许多的方便,释放了个人计算机终端的数据存储任务,优化了网络系统结构。云计算环境下数据存储中把对称密匙和非对称密匙结合起来使用,为云环境下的存储技术带来了一定的安全性。这是一种解决安全问题比较可行的方法。随着科技的不断进步,云计算环境下的存储技术一定会有更大的突破,实践应用也一定会更加广泛。
关键词:分布式;数据存储;数据库
1数据存储技术的现状
近年来,随着计算机技术和网络技术的迅猛发展,依靠先进的技术进行网络化办公已经成为现实。越来越多的企业、政府机构、社会团体借助计算机技术将业务主体进行科学的专项设计和应用,用户只需要少量的终端设备就可以对大量的数据进行处理和分析。另一方面,随着人们对互联网依赖程度的逐步加深,伴随“大数据”等新概念的提出和发展,产生的数据量也呈现爆炸式增长。新数据的产生和原始数据的不断积累,导致占用的存储容量越来越大。因此,如何扩展服务提供商器的存储能力已经成为当前科研领域的重要研究热点。
目前,能够有效提高数据存储能力的方式主要有两类解决方案。一类是新增硬件的方法提高存储能力。由服务提供商采购新的存储设备来拓展服务器的存储能力。另一类是在不改变现有硬件设备的条件下,服务提供商改善数据存储软件,优化存储信息的方式,通过分类和分解数据的形式提高存储能力。第一类解决方案存在明显的弊端,服务提供商的购买能力是有限的,无法从根本上解决难题。另一类目前已经得到国内外行业的普遍认可,各大数据服务提供商投入大量人力和物力,加快了数据管理软件的研发脚步,一系列的数据库产品营运而生,像GoogleSpanner,Cassandra,MongoDB,MySQLCluster等[1]优秀的产品为分布式环境下有效的管理数据,优化存储提供了先决条件。
2分布式环境下数据存储的应用特性分析
通过大量实践可以看出,对于大量数据的处理效率往往与数据本身的可操作性有着紧密联系,所以有必要对分布式环境下的数据应用特性进行合理的分析和总结。分布式数据库主要有以下三个特点:
2.1数据库存储的数据在逻辑上是集中的,在地理位置上是分散的
分散的数据单元所在的物理位置是透明的,通过通讯线路和协议进行相互沟通。这点有力的说明分布式数据库存在数据的“分散性”。
2.2用户对数据进行的任何操作都有一个统一的DBMS进行调度
用户不必关心数据的并发处理、副本调度等问题,即使局部数据单元发生数据故障,统一的DBMS仍可以进行调度和工作。这点有力的说明分布式数据库存在管理上的“集中性”。
2.3用户对任何数据进行例如添加、删除和查询操作时,每个数据单元都各有一个小型的数据管理系统,都有各自的DBMS,多数处理就地完成
这点有力的说明分布式数据库存在操作上的“自治性”。
3分布式数据库系统的设计
3.1数据分发[2]
数据分发的建立打破了传统数据存储模式,它使物理上分散的数据单元成为逻辑上统一的整体,数据模块之间通过数据链路进行连接,通过形式统一的数据接口和协议进行通讯。合理的数据分发模块能够解决数据在远距离存储上存在的异构问题。
3.2并行处理
3.3SQL解析
由于大量数据库管理系统和操作系统存在异构的特点,SQL解析功能就显得尤为重要。SQL的语句首先被数据库管理软件转化为ASCII码,然后由解析器分三个环节进行解析。首先是语法解析,通常会从数据字典、对象比较、游标等方面检查用户输入的语法是否存在错误;其次是语义解析,为用户输入的语句建立语法树,对语义中提到的程序、表、字段等方面进行检查;最后是执行语法过程,将操作结果进行打包后传递给DBMS。[3]
3.4汇总处理
汇总处理的目标是从分散的数据模块中提取用户需要的数据,并进行必要的处理后呈现在用户面前,形成一个完整的、统一的大型数据库。
4总结
分布式数据存储能够不改变现有硬件设备的条件下,充分利用现有资源为用户服务,为用户提供快速灵活的体验,同时可以减少投入,提高设备利用率。随着数据存储技术的不断发展和成熟,能够在不同领域中得到更广阔的发展。
摘要:改革开放以来,我国的社会经济得到了迅猛的发展。社会经济的进步,同时也推动了我国科学技术的发展。科学技术的发展,对于我国的社会经济也有相应促进作用。在所有的科学技术的发展中,要数计算机的发展最为迅速。21世纪是一个信息的时代,其中的典型就是计算机,随着社会的发展,各式各样的计算形式层出不穷,在这样一个更新周期短的时代趋势的影响下,在计算机领域出现了一种新型的计算形式,这种新型的计算机形式称为云计算。对于互联网模式,我们都不陌生,而对于云计算是十分陌生的。其实,所谓的云计算,指的就是互联网技术的升级,云计算这种新型计算模式的出现,对于现代大量的数据冲击来说是一个机遇,云计算中的数据存储技术也成为了计算机技术的重要的技术领域。
关键词:云计算数据存储技术研究
云计算是一种现代的架构体系,这种体系主要是以服务作为其主体运运而生的。为了可以很好地区分云计算的服务方式,在计算机领域把云计算分为了两种最为基本的服务形式,这两种服务形式为云计算,以及云存储。云计算作为一种新型的技术手段被广泛的运用到现代的网络系统,以及现代的金融服务领域;作为计算机技术快速发展的一种形式的云计算,是一种以服务为主体的现代运用系统。为了能够在各种各样的环境下对计算机的数据进行相应的处理,就需要加入另一种服务形式,这种服务方式就是云存储。为了能够适应社会的发展需求,有必要对云计算进行更加深入的研究。
1云计算,以及云存储
1.1云计算
云计算是一种新型的技术形式,它通过向对象提供提供技术服务来实现的。云计算提供的计算模式可以分为两种,一种是动态化的可伸缩的计算模式,另一种是动态化的虚拟资源计算模式。虽然说云计算是一种新型的技术形式,但是从它的本质来说,云计算指的就是互联网,以计算机网络,所以说云计算中的云是一种比喻性的说法。在以往的电信行业中,也存在云的概念,当时的云指的就是电信网。但是随着近几年计算机网络的不断发展,为了满足互联网,以及基础设施抽象表达的要求,才逐渐把云的概念扩大到互联网等方面。在计算机中使用云计算,可以很好地满足现实的需求。传统的数据信息基本上是以本地的计算机,或者远程服务器为载体进行存储。而云计算的使用,则是将大量的数据存储到计算机之上。大部分的企业可以很方便的把资源信息转换到比较客观的应用上,这主要是由于这些企业的数据系统与计算机互联网比较相似,所以,可以很容易的对存储体系,以及计算机进行相应的访问。
1.2云存储
2云计算的环境下数据存储体系的构建
在实际的云计算的操作过程当中,对于云计算环境下数据存储体系的建立是十分的必要的。建立云计算环境下数据存储体系,通常会涉及到很多方面的内容,比如说,云计算的数据中心,以及云服务的接口,还有就是云的用户和与计算的服务协议等等各方面的内容。首先,我们先来了解一下什么是数据中心。所谓的数据中心,实质上指的就是数据的存储基础,数据中心是要通过云计算的环境下来进行实现的。数据中心所涉及的内容,包括了数据的存储管理,以及数据的存储设备,还有就是计算机中分布式的文件系统等等。云存储可以有很多不同的类型,一种是根据企业发展的不同程度会采用的专门的存储设备,另一种是运用于个人的存储设备,还有一种就是把专门的存储设备与个人的存储设备进行有机的结合起来。虽然有以上的三种分类,但是对于云存储设备来说,并没有硬性的规定说要根据那个条件进行分类。根据客户机,或者服务器的模式可以对分布式的文件系统进行相应的设计。运用网络节点之间的联接可以很好地吧文件系统管理当中的一些物理存储紫玉进行有效的存储。
3云计算服务器架构的构建
云计算存储服务器在云计算中占据着关键性的作用,所以对与计算服务器的架构的构建显得至关重要。对于云存储服务器架构的建立,一定要保证是在进行建立云储存体系之前进行建立。比较常见的云存储服务器架构有两种,一种是存储区域网,另一种就是附网存储。对于云存储服务器架构的建立,可以通过多变的架构技术来实现云存储服务器架构的建立的。
4结语
总的来说,作为现代计算模式的代表的云计算,在实践当中具有很大的数据集群,因此云计算具有最优化的服务功能。云计算中的数据存储,可以通过冗余存储方式来进行数据的存储,进而可以确保数据的安全性,以及可靠性。
摘要:现代数字图书馆存储系统有高可靠性、高可用性、高性能、动态可扩展性、易维护性和开放性等众多方面的需求,而目前使用的存储系统还远不能满足这些需求。本文着重介绍网格的数据存储技术在数字图书馆中的应用。
关键词:网格数据存储GridFTP数字图书馆
1综述
随着网络技术和分布式计算技术的发展,网格应运而生,有望成为第三代互联网。宏观上讲,网格是信息社会的网络基础设施,它把整个因特网整合成一台巨大的超级虚拟计算机,实现互联网上所有资源的互联互通,实现计算资源、存储资源、通信资源、软件资源、信息资源、知识资源等资源的全面共享。
利用存储网格技术,一个大型复杂数字图书馆系统可以将各自的计算机组成一个虑拟的单一存储网格,所有的子系统界面信息均可实时地被他人所共享,不管这些单位位于世界的哪一个角落,也不管他们用的是什么系统。传统上完成类似目标需要建立并维护一个集中的数据服务系统,在很多时候是无法实现或者极不经济的。而存储网格技术通过建立开放标准将这一需求变为现实。
网格存储是网格技术发展的重要组成部分,它将存储和存储引擎整合成内部相连的网格。它通过网格以一种灵活的、透明的方式分配资源,依照单位的存储策略和程序,高效地管理存储资源,以保护大容量信息的安全。网格存储能很好地解决各类资源的自动优化、自动配置、自我保护和自动恢复等功能。
2基于网格的数据存储技术在数字图书馆中的应用
2.1数据网格存储方式
数字图书馆是综合运用多方面高新技术支持的数字信息资源系统,将分散于不同载体、不同地域的数字化信息资源以网络化方式互相联结起来,实现资源共享。数字图书馆是计算机可处理的、有序组织的信息集合,是存储数字信息的仓储。数字图书馆通过数字技术进行信息资源的组织和管理,能够储存海量信息,用户可以通过互联网络高效方便地进行查询、检索服务。数字图书馆具有信息资源数字化、信息组织非线性化、结构复杂化、信息传递网络化、服务方式多样化等特点。而网格是高性能计算机、数据源、因特网三种技术的有机组合,它具有高性能、一体化、知识生产、资源共享、异地协同工作、支持开放标准、功能动态变化等优点,为数字图书馆建设提供了有利的条件。
在网格中最常用的资源是数据存储。网格对数据存储提供了一个集成的视图,有时被称为“数据网格”。通常,网格中的每台机器会提供一定数量的存储给网格使用,即使是暂时的。存储可以是配属于处理器的内存,也可以是硬盘或者其他永久性的存储介质。配属于处理器的内存通常速度非常快,但是不稳定,最好应用作缓冲数据。网格中的第二存储可以以合适的方法使用来增加容量、性能、共享和数据可靠性。许多网格系统使用网络文件系统,如AFS、NFS、DFS或者GPFS。这些文件系统在性能,安全和可靠性方面存在差异。
多台机器的存储使用统一的文件系统,容量可以增加。任一独立的文件或者数据库可以扩展到多台存储设备和机器,利用操作系统的文件系统可以消除最大空间的限制。统一的文件系统可以为网格存储提供统一的命名空间。这对用户使用网格中的存储变得相对容易,可以不用考虑其确切的位置。类似的,特殊的数据库软件可以联合独立的分类数据和文件,形成一个更大的,更全面的数据库,可以使用数据库查询功能操作。
网格文件系统也能实现日志功能,因而在某些操作失败后,数据也可以被可靠地删除。另外,当数据共享或者很多用户更新时,有些文件系统实行高级的同步机制来减少冲突。
2.2GridFTP在数字图书馆数据存储技术中的应用
网格存储是以节点之间的备份为基础,可以在多重节点上进行内容管理与储存;也可以把存储环境下的多重节点进行资料转移与传输。正因为这样,它可以将网络连接存储(NAS)和存储局域网(SAN)两种不同的技术、不同的管理工具、不同的存储应用融合在一起。网格存储使存储简单化,兼容不同的网络协议,支持不同的系统平台,在各个分布系统上远行而且同步。
访问、分析和处理分布在不同逻辑位置、存储系统上的数据,应用程序要么选择只支持某些存储系统,要么使用多种方法来获取不同存储系统上的数据。GridFTP提供了一种在异构系统上的公共互用层,避免性能上的损失和过大的复杂性。
GridFTP作为网格环境中安全高效的数据传输协议,是对标准FTP协议的扩展。GridFTP扩展了标准FTP协议,这是因为FTP协议是目前因特网上使用最普遍的数据传输协议,有大量的技术基础,也是在网络环境中最规范的数据传输协议,并且易于扩展。
GridFTP在不同的网格主机之间提供了安全的、可依赖的数据传输,使用扩展的FTP协议,提供了网格的功能。GridFTP是标准的服务器/客户端应用,支持两种类型的文件传输标准和第三方参与的文件传输。
为了管理分布式通信中的大数据集,GridFTP提供了经过鉴别的由第三方控制的数据传输功能。这种功能允许第三方用户或应用程序启动、监视和控制共他两地之间的数据传输,为使用多个地点的资源提供了保障。GridFTP在保留FTP的第二方数据传输功能上增加了GSS-API安全认证。
当前,由于网格技术的发展,数字图书馆技术正面临着一场新的技术革命。采用网格技术能增加数字图书馆成本的有效性,也能增强数字图书馆服务的适应性,真正解决数字图书馆资源的信息资源存储问题。数字图书馆只有借助于先进的网格技术,才能真正推动数字图书馆研究和建设的更深人发展。
【关键词】网络;存储技术;数据安全;备份
一、前言
在网络技术持续发展的今天,实现网络数据存储是解决现阶段数据流失的主要手段,通过网络对数据实现备份可以很好的实现数据的移动化。本文针对现阶段的三种主要的网络数据存储方式进行分析研究,确定其技术实现方式,了解实现原理。使得对网络数据存储有进一步的认识。
二、RAID存储技术
1、RAID存储技术介绍
RAID是指廉价(独立)磁盘阵列,所谓“磁盘阵列”是指多张磁盘连成一个阵列上,然后,以某种方式书写磁盘,这种方式可以在一张或多张磁盘组之间提供数据。
从主机的角度看,控制器使得整个磁盘组就像一片又快、又大、又可靠的虚拟磁盘。它的初衷主要是为大型网络服务器提供高端的存储功能和冗余的数据安全,在系统中RAID被看作是一个逻辑分区,但它是由多个硬盘组成的,通过在多个硬盘上同时储存和读取数据来大幅度提高存储系统的数据吞吐量。而且在很多RAID模式中都有较为完备的、相互校验与恢复的措施,甚至是直接相互的镜像存储。当数据灾难发生时可以自动修复,从而大大提高了RAID系统的容错度,稳定了系统的冗余性。
2、RAID技术规范
RAID技术是一种工业标准。通常将组成磁盘阵列的不同方式分为RAID级别。随着RAID技术的不断发展。现在已拥有了以RAID0到RAID6七种基本的级别。另外,还有一些基本RAID级别的组合形式,如RAID10、RAID50等。现将RAID级别在应用中的实现作进一步的研究。
(一)、RAID0:是连续以位或字节为单位分割数据,并行读写于多个磁盘上。因此具有很高的数据传输速率,但它没有数据冗余。它只是单纯地提高性能,而且其中的一个磁盘失效将影响到所有数据。因此,它不能应用于数据安全性高的场合。
(二)、RAID1:通常被称为RAID镜像,是通过磁盘数据镜像实现数据冗余,在成对的独立磁盘上产生互为备份的数据,即所有数据都进行百分之百的备份。当原始数据繁忙时,可直接从镜像磁盘上读写,而不需要重组失效数据。
(三)、RAID0+1:也称为RAID10标准,至少需要4块硬盘才可以实现,不过它综合了RAID0和RAID1的特点,将独立磁盘配置成RAID0,两套完整的RAID0互换镜像。但构建RAID0+1阵列的成本投入大,数据空间利用率只有50%。
(四)、RAID2:是按位分配数据到多个驱动器的,在写入数据时一个磁盘上保存数据的各个位。同时把一个数据不同的位运算到海明校验码保存在另一组磁盘上,在数据发生错误的情况下将错误校正。这种编码技术需要多个磁盘存放检查及恢复信息,使得RAID2技术实施更复杂、速度最慢,因此在商业环境中很少使用,最适合用于诸如图像之类的应用。
(五)、RAID3:通常是按字节将数据划分为条纹分配在许多驱动器上,虽然也可按位划分.但它在阵列时专用一个驱动器保存奇偶校验信息,因此它同RAID2非常类似,区别在于它使用简单的奇偶校验,并用单块磁盘存放奇偶校验信息。如果一块磁盘失效,奇偶盘及其他数据盘可以重新产生数据;如果奇偶校验失效,则不影响数据使用,但奇偶盘会成为写操作的瓶颈。
(六)、RAID4:除了按扇区而不是按字节对数据划分条纹外,RAID4与RAID3相似,同样也将数据条块化并分布于不同的磁盘上,但条块单位为块或记录。它使用一块磁盘作为奇偶校验盘,这时奇偶校验盘会成为写操作的瓶颈。因此它在商业环境中也很少使用。
(七)、RAID5:是把数据和相对应的奇偶校验信息存储到组成RAID5的各个磁盘上,并且奇偶校验信息和相对应的数据分别存储在不同磁盘上。它使用一种特殊算法,可以计算出任何一个区域校验块的存储位置。这样就可以确保对校验块的任何读写操作都会在所有RAID磁盘中进行均衡.从而消除产生瓶颈的可能。它读出效率很高,写入效率一般.块式的集体访问效率较佳,但控制器的设计也相当困难。
(八)、RAID6:与RAID5相比,它增加了第二个独立的奇偶校验信息块。两个独立的奇偶校验系统使用不同的算法.数据的可靠性非常高,即使两块磁盘同时失效也不会影响数据的使用。相对于RAID5有更大的写“损失”,因此“写性能”非常差。
三、IP存储技术
IP存储技术作为新兴的网络存储技术得到了迅猛的发展,越来越多的企业选择了IP存储作为存储解决方案。另一方面,随着信息化建设的迅猛发展,计算机系统已成为各企事业单位的基础设施,数据成为关系到企业生存的重要资源,是企业赖以生存的命脉,其价值远远大于设备的价值。然而,病毒木马、软件故障、及人为误操作等不确定因素时刻威胁着数据的安全,数据安全性问题愈来愈突出。
四、无限传感存储技术
无线传感器网络的根本任务是准确、高效地提取环境中有价值的信息发送给用户。无线传感器网络是一个数据为中心的网络,无论其应用场景和底层硬件部署如何,应用层用户最为关心的问题是如何将各个传感器节点感知的监测数据进行有效传输和存储,从而保证后期高效、可靠、实时的访问。因此数据存储是无线传感器网络一个重要的研究领域。当前的数据存储算法根据存储策略的不同主要分为本地存储、外部存储、数据为中心存储三种。
地理信息路由是数据为中心的存储中应用最广泛的一种经典路由,周界转递模式在寻找存储节点时存在着转递次数过多引起的能量浪费,提出了一种可以减少周界转递的位置逼近算法。该算法的思想是:在数据转递中,当节点距离目的位置足够近时,则修剪掉后面的周界转递过程。地理位置逼近算法可以有效减少周界转递造成的能量消耗,从而提高网络能量利用率。基于网格的存储节点动态分配算法GBMT,使事件数据更加均匀的存储在节点上。该算法主要思想是:把事件映射到一个网格中,根据节点的当前的存储空间和能量,该网格动态的分配存储该事件的节点。通过设置阈值和虚拟坐标两个机制,防止某个节点过多的担任存储的任务,避免热点问题。该算法使数据在网内存储分布更加均匀,进而提高网络服务质量,延长网络使用寿命。
五、结束语
通过对现阶段已有的三种网络数据存储方式进行深入研究可以清楚的知道,现阶段的移动网络数据存储已经可以通过这三种方式实现,针对数据的安全等方面也做了相应的研究,保障用户的数据安全是实现网络数据存储最关键的一步。相信通过不断的研究,网络数据存储必将开启新的篇章。
作者简介:赵春燕(1984—),女,北京人,工程师,研究方向:高性能计算系统管理维护、软件配置管理(E-mail:);孙英锐(1973—),男,河北迁交人,高级工程师,硕士,研究方向:气象数据存储管理。
摘要:为了满足气象数据快速增长和高效应用的业务需求,设计采用基于SAN和GPFS的高性能存储集群进行数据存储,并随着数据量的快速增长,实现灵活在线扩展以满足数据存储需求。结合国家级气象资料存储检索系统、省级风能资源数据库共享服务系统和风能资源数值模拟系统的存储设计,阐述基于SAN和GPFS技术的存储集群架构,并重点介绍存储集群的在线扩展技术的实现。基于SAN和GPFS的存储集群在线扩展技术包含在线扩展服务器节点、在线扩展存储容量和在线扩展文件系统容量三方面,实现了气象数据存储系统随着业务数据变化的灵活扩展,使系统具备优秀的扩展性和适应性。
关键词:气象数据存储;存储集群;SAN;GPFS集群;在线扩展
1引言
随着气象事业和科技水平的迅速发展,气象数据的种类、数量也随之迅速增长,目前气象数据的存储采用数据库和共享文件系统两种技术,根据数据特点和服务方式将数据按照在线、近线和离线三种方式进行存储。由于气象数据种类多、数量大、格式多样,除通用数据库、专题数据库存储的数据之外,还有大量的数据采用高性能的共享文件系统实现在高速磁盘阵列上的直接在线存储,以满足业务应用、服务和安全备份的需求。随着业务的不断丰富,数据量呈现快速增长,大量数据库系统也采用高性能共享文件系统作为底层存储,如何高效的访问存储,保障业务应用的数据访问效率,同时考虑满足不断增长的数据存储需求,灵活的在线扩展,成为存储系统设计和实现中必须考虑的问题。
我国气象部门应用广泛采用GPFS(GeneralParallelFileSystem)[1]、NFS(NetworkFileSystem)[2]等共享文件系统。GPFS是一个可扩展、高性能、安全的通用并行文件系统,在性能和安全性上优于NFS[3],结合SAN(StorageAreaNetwork)[4]高速高可靠网络互联技术,构成高性能的数据存储集群[5],实现大容量数据库存储和直接的在线存储,广泛的应用于气象信息系统数据库、共享数据存储系统建设中。
针对基于SAN和GPFS的存储集群架构,探讨了在数据计算和处理能力、存储容量、文件系统容量变更等三方面的在线扩展技术,对气象数据存储系统的灵活扩展具有重要意义。
2高性能气象数据存储集群设计
基于SAN和GPFS的存储集群物理架构包含三层,1)存储层:高速磁盘阵列;2)SAN存储网络层:冗余链路配置的高速SAN存储区域网;3)服务器层:至少两台的服务器作为冗余的数据访问处理节点。
2.1存储集群架构设计
2.1.1.物理架构本实例采用三台服务器作为集群节点,配置两台冗余SAN光纤交换机,四台磁盘阵列。每台服务器配置两块HBA卡,冗余连接至两台SAN交换机。每台光纤交换机配置2个控制器,每个控制器两个端口,将每个控制器冗余连接到两台SAN交换机。如图1所示,为存储集群的物理架构,冗余配置保证了在Zone划分后集群的高可靠性。服务器节点间通过以太网连接,服务器节点和存储之间的连接链路采用光纤线,磁盘阵列采用高端磁盘阵列,构成高性能数据存储管理集群,根据业务数据访问性能需求和磁盘阵列的光纤出口速率,可对集群性能进行精细化分析,在此不详细探讨。
2.1.2逻辑架构
使集群节点访问存储设备的路径唯一,需要对连接到SAN中的服务器和存储划分Zone,实现设备的隔离。Zone划分好以后,配置GPFS集群,形成逻辑上的存储集群。存储集群的逻辑架构如图2所示,GPFS将物理磁盘映射形成虚拟设备NSD(NetworkShareDisk),将一个或多个NSD作为逻辑文件设备挂载到服务器节点上提供给文件系统使用。
2.2存储集群构建
2.2.1物理结构配置
1)将三台服务器连接至以太网络,配置光纤交换机,配置Domain。
SAN1:Domain为1,SAN2:Domain为2
2)规划服务器节点和存储占用的交换机端口,并按规则为每个控制器进行编号,在交换机中配置。
(1)服务器节点
控制器A:I-SRV-1-A-1:1,1;
控制器B:I-SRV-1-B-2:2,1;
各项含义为:交换-服务器-服务器编号-控制器-Domain:Domain,端口号
(2)磁盘阵列
控制器A:I-DS42-1-A-1:1,4;
控制器A:I-DS42-1-A-2:2,4;
控制器B:I-DS42-1-B-1:1,5;
控制器B:I-DS42-1-B-2:2,5;
各项含义为:交换-阵列名称-阵列编号-控制器-Domain:Domain,端口号
3)物理连线:按照图1所示结构和端口规划,用光纤线连接服务器、SAN交换机和磁盘阵列。
4)Zone划分:创建Zone,并指定该Zone所包含的端口,将Zone添加到配置中,保存配置,并使其生效。
5)LUNMapping:基于存储管理软件,将LUN与集群节点的端口进行绑定,使LUN与主机建立一对一或者多对一的映射关系。
2.2.2GPFS集群构建
如图3所示,在物理架构搭建后,对各个服务器节点做互信配置,并在每个节点上安装GPFS软件包,创建GPFS集群。根据应用需求创建文件系统,提供给文件存储使用或数据库应用,则构成GPFS高性能存储集群。
3存储集群在线扩展技术
图2所示GPFS存储集群的逻辑结构分为三层,服务器节点层、文件系统层、磁盘存储层。GPFS存储集群的扩展包含这三方面:在线扩展服务器节点、在线扩展磁盘容量和在线扩展文件系统。
3.1在线扩展服务器节点
风能资源数值模拟系统[6,7,8]基于SAN和GPFS的集群架构,由7台服务器节点构成高性能数据存储处理集群,但风能资源数值模拟业务涉及大量的计算和数据处理,随着业务计算需求的增加,7个节点的处理能力逐渐显得不足,需要在不影响现有应用的情况下在线扩展集群节点至16个。图4所示,将G07至G15节点在线增加至GPFS集群,流程与新建GPFS集群流程相似,如图5所示,在物理连接配置环节,将新增的节点逐一加入到已有的Zone中,并使配置生效,在集群配置环节将节点增加至集群。集群节点的扩展包括剔除节点,直接执行最后一个环节:从GPFS集群删除节点操作。
3.2在线扩展磁盘容量
国家级气象资料存储检索系统[9,10](简称“存储系统”)中采用了基于SAN和GPFS的集群架构,提供高性能计算机用户无法在高性能计算机上长期在线保存而又需要保存的各类数据以及需要备份和归档的数据。
扩容前存储能力为337.8TB,可用磁盘容量以所有文件系统平均90%为可用上限计算为304.02TB,仅有20TB左右的余量,无法满足数据量的增长,通过在线扩展磁盘阵列,实现系统无业务影响扩容80TB,如图6所示。
集群中存储容量的扩展,需要将新增的磁盘设备用光纤连线加入SAN中,并加入Zone的配置使其生效,将LUN与集群中的节点进行绑定。
流程如图7所示,将已连接集群的该存储设备创建为虚拟的NSD,并创建文件系统,分配这些空闲的NSD给挂载的文件系统。
3.3在线扩展文件系统容量
省级风能资源数据库共享服务系统[11,12]基于基础地理信息、风能资源专业观测网数据、详查区数值模拟结果与综合评估数据,为决策部门、业务用户、行业用户以及公众用户提供不同层次的风能数据共享服务,其数据库存储基于SAN和GPFS的集群架构设计实现。
表1所示为省级风能资源数据库共享服务系统文件系统容量扩展前的参数值,系统共建立四个文件系统,业务流程调试过程中发现/dev/gpfs_DB文件系统容量预估过小,不能满足应用需求,拟在不影响现有系统数据存储的情况下,对系统进行调整。
表2所示调整后情况,与表1所示调整前文件系统容量分布比较可以看出,/dev/gpfs_mysql文件系统容量由调整前的5.5TB缩减为2.2TB,/dev/gpfs_DB文件系统的容量由调整前的2.2TB,增加至5.5TB,而调整前后系统总容量未改变。调整过程在线进行,对用户和应用透明,未对现有数据发生影响。
3.4系统扩展效果
以上三套系统所采用的基于SAN和GPFS架构的存储集群,其分层的存储架构和灵活的在线扩展技术使得系统具有良好的业务适应性,能够提供高效的数据存储访问,并能够随着业务需求变化而快速、安全、无缝的扩展。
本文介绍了国家级气象资料存储检索系统、省级风能资源数据库共享服务系统和风能资源数值模拟系统的存储架构和在线扩展的实施,阐述了基于SAN和GPFS技术的高性能气象数据存储集群架构及其在线扩展技术,实现了存储集群数据处理能力、数据存储容量及文件系统容量随着气象数据和业务需求变化的灵活扩展。经过实践的检验,该存储架构具备灵活的可扩展性和适应性,能够在不影响已有数据应用服务的前提下实现在线扩展,适用于快速增长的气象数据存储管理的需求。
摘要社会经济的快速发展带动了科学技术的进步,尤其是计算机技术的发展可谓突飞猛进,目前已经出现了新的计算形式,即云计算。该种计算模式的出现,实际上就是对互联网技术的一种升华和体现,在此背景下的数据存储技术也成为非常重要的一个技术领域。本文将对云计算与数据存储问题进行简单阐释,并在此基础上就云计算环境下的数据存储技术谈一下自己的认识,以供参考。
关键词云计算;数据存储;研究
所谓云计算,实际上就是一种以服务为主体的现代架构体系,基本服务形式有两种,一种是云计算,另一种是云存储。云计算是计算机技术快速的一种新形式,这种基于云计算服务体系的现代应用程序,在现代金融服务领域、网络系统中扮演着非常重要的角色,几乎在所有的环境下都需要云存储来满足数据处理要求。因此,在当前的形势下,加强对云计算环境下的数据存储技术问题研究,具有非常重大的现实意义。
1云计算与云存储
云计算主要是基于Internet技术提供服务的一种技术形式,它可以提供动态化的可伸缩、虚拟资源计算模式。其中,云是一种比喻性的说法,实质是计算机网络和互联网。传统意义上的“云”代表的是电信网,近年来才用于互联网、基础设施抽象表达。云计算通过计算,使大量的数据信息分布于计算机之上,并非本地计算机、远程服务器之中,而企业数据中心的实际运行与计算机互联网非常相似,这在很大程度上可以使企业将资源信息切换至客观应用上,并且根据实际需求,对计算机及其存储系统进行访问。简单地说,正如从传统的单台发电机模式向现代的电厂集中供电模式转变一样,这意味着计算能力已经作为商品在流通,并且像水电一样,利用方便而费用低廉,主要区别在于它是借助互联网技术进行传输。
2云计算环境下的数据存储体系构建
实践中,云计算环境下的数据存储体系,主要包括数据中心、云服务接口、云用户以及服务协议等内容,其中数据中心主要由存储管理、分布式文件系统以及存储设备等构成,同时它也是云计算环境下实现数据存储的基础。云存储设备通常没有特殊的规定的类型,既可以是个人PC,也可是企业发展过程中所应用的专门存储设备,甚至是二者的结合体。分布式文件系统,即文件系统管理中的物理存储资源是通过网络节点之间相互连接的,该系统的设计主要是依据客户机、服务器模式。
2.1服务器架构
云存储体系构建之前,应当先构建云存储服务器架构,它是云计算IAAS中重要组成部分,可通过多样化的架构技术实现,常见的是附网存储(NAS)以及存储区域网(SAN)。
NAS属于分布式架构系统的文件存储系统,是一种松散结合型集群,实践中可有效满足以云存储为主体的环境要求,而且在该系统集群中,任何一个节点都是相对独立的实体。在此系统中,最小单位即为文件。当文件被保存在该集群之中时,其数据信息会被有效地保存在集群中的特定节点上,虽然文件副本很多,也可能会被重新定位到另外的节点上,从而形成冗余,但该节点提供的文件单实例却是唯一的。下图为NAS存储架构示意图如图1所示。
实践中可以看到,SAN为集群架构块存储系统的一种,即为紧密结合型集群系统。当文件请求产生时,每一个节点都会访问该文件中的不同数据块,并对用户的请求进行及时的处理。用户请求越多,SAN响应请求可用节点数量就越多,此时其性能也就越强。实践证明,该存储架构比较适合于云服务器,而且其可扩展性非常的好,数据传输效率较高,若配合P2P以及重复数据删除技术使用,可有效满足一级存储要求。
2.2服务器之间的数据信息传送
针对当前的存储结构体系,NFS、CIF即为NAS存储系统的数据传送协议,将NFS、CIF作为数据传送口,可实现异构平台间的信息资源有效共享。NFS在Windows客户端加载了NFS客户端软件,这样就可以确保Windows客户端能够有效融入到UNIX基础的计算机网络系统之中;CIF在UNIX服务器上也加载了CIFS服务器端软件,这样就可以使UNIX服务器与本地Windows服务器一样。NFS与CIF,使NAS服务器间形成一个统一的整体,实现了云存储服务的统一化,并且在集群环境下,表现非常的突出。ISCSI也是一种SAN数据传送协议,它可以实现单客户端有效应用程,像本地客户端使用服务器资源一样,操作结果对另外客户端不透明。
3结束语
云计算作为一种典型的现代计算模式,拥有较大规模的数据集,可向广大用户提供最优质的服务。云计算环境下的数据存储,采用的是冗余存储方式来确保存储数据的安全可靠性,未来云存储将向着安全性、共享性以及便捷性方向发展。
【摘要】随着IT系统向云计算技术方向演进,数据存储应用需求也出现了显著的变化特点,传统的数据存储已不能满足云时代的需要。为解决云时代的数据存储问题,首先分析了传统数据存储应用技术现状,接着在此基础上分析了块存储、分布式存储、对象存储、表存储等非结构化和结构化存储技术在云计算环境中的不同应用及性能特点,为云时代的数据存储技术提供建议。
【关键词】云计算云存储块存储结构化存储
1传统数据存储应用现状
随着社会信息时代的快速发展,用户对存储的需求增长迅速。在进入云环境的时代,传统IT系统存储技术面临建设成本高、运维复杂、扩展性有限等问题的挑战,系统存储扩容压力很大,主要表现在以下几个方面:首先,传统存储开放性不足,通常采用软硬件一体化解决方案,标准化程度低,不同厂家系统无法混合使用;其次,成本较高,且市场垄断严重,建设成本居高不下,扩容成本尤其高;再者,扩展性能较差,其单点扩展存在容量上限和接口带宽等限制,面对云时代PB级的海量存储需求,在容量和性能的扩展上无法满足。
长期以来,传统IT系统存储一直存在诸多资源配置不合理的状况,带来资源浪费。一些系统不考虑数据的价值和访问方式,统一放在磁盘阵列或NAS中,相对于云存储缺少性能、扩展性和低成本的优势。而另有一些系统对磁盘I/O性能要求并不太高,却仍然采用FCSAN建设,造成建设成本的浪费。大部分系统没有区分应用对磁盘可靠性的要求,统一使用SAS磁盘,将SATA盘排除在外,造成一定的浪费。
传统的块存储承载传统关系数据库,在应对大数据环境下高性能应用系统,特别是超大规模和高并发的业务系统已经显得力不从心,暴露出很多难以克服的问题。传统关系数据库稳定性高,使用简单,功能强大,久经历史考验,积累了大量的成功案例。但是,随着网络技术和软件技术的飞速发展,网站也开始快速发展,近几年比较火爆的论坛、博客、SNS、微博逐渐引领Web领域的潮流。随着访问量的急剧上升,几乎大部分使用传统数据库的网站都开始出现了性能问题。Web程序也不再仅仅专注在功能上,同时也在追求性能,虽然后来MySQL的集群技术和Memcache的缓存技术使得MySQL架构在一定程度上缓解了性能的压力,但最终还是因为其扩展性差(需要比较复杂的技术来实现),承受着大数据下的I/O压力,因此依然面临着很大的问题。
传统的关系型数据库系统并不能提供这些应用所需要的高可扩展性,新型的网络应用又不像金融等领域那样需要严格的数据一致性和很强的事务特性,而是对海量数据的松散结构表示以及可用性与可扩展性提出了更高的要求。很多研究学者与互联网公司早已开始寻求新的数据存储和管理架构,并试着弱化数据管理系统在一致性和事务性方面的要求,向着系统可用性和可扩展性方面努力,使之成功运用到后端系统中。
2云环境下数据存储需求特点
随着现代信息网络技术发展,数据信息总量正呈指数级爆炸式增长,在如此大量数据产生的时代,用户的数据存储需求具有全新的特点:
(1)对数据库高并发读写的需求
随着互联网应用的发展,Web2.0应用强调的是以用户为主,需要根据用户个性化信息来实时生成动态页面和提供动态的信息,目前比较流行的微博就是如此。该类应用对数据库的并发访问的负载就非常高,往往能达到每秒上万次的读写请求,甚至更多。从已有的优秀的数据库产品看来,对于上万次SQL查询还能勉强应付,但是应付上万次SQL写数据请求时,I/O成了瓶颈。
(2)对海量数据的高效率存储和访问的需求
以Facebook为例,它一个月就达到了2.5亿条用户动态,对于关系数据库来说,在一张拥有2.5亿条记录的表里面进行SQL查询,效率是极其低下乃至无法忍受的。在未来大数据时代,海量数据的高效存储和访问是必须要解决的问题。
(3)对数据库的高可扩展性和高可用性的需求
在基于Web的架构中,数据库是最难进行横向扩展的,当一个Web应用的用户量和访问量与日暴增时,数据库服务器却没办法像WebServer那样简单地通过更多的硬件和服务节点来进行性能扩展与负载分担。对于很多需要不间断提供服务的网站来说,由于这样的升级需要停机维护和数据迁移,将使用户体验值急剧降低。
(4)支持非结构化数据的处理能力的需求
传统的关系型数据库对数据的处理和数据类型有比较明确的限制,只针对某些数据类型,如整型数字、字符、字符串等,而对类似图片、音视频的非结构化数据的支持不够,无法满足未来用户对各种各样类型数据的需求。
对于以上数据存储应用需求,传统存储应用技术是无法胜任云计算环境下应用需求的。云存储技术的发展结合了各种存储技术应用的特点,在容错、吞吐量、冗余、读写分布、数据划分、负载均衡等特性方面进行技术提升,并综合多种存储技术以适应复杂的不同的数据存储需求。
3数据存储技术在云计算环境中的应用特性分析
现有的IT环境正逐步向云计算环境演进,在未来云时代,块存储、分布式存储、对象存储、表存储等非结构化和结构化存储技术有各自的应用特点,可区分不同应用需求,实现云环境下存储能力最优化应用。
3.1块存储技术
块存储基于传统的磁盘阵列实现,主要为现有各种应用提供通用的存储能力,将存储区域划分成固定大小的小块,使传统裸存储设备的存储空间对外暴露,将大量磁盘设备通过SCSI/SAS或FCSAN与存储服务器连接,服务器直接通过SCSI/SAS或FC协议控制和访问数据。块存储方式由于不存在数据打包/解包过程,可提供更高的性能,数据访问延迟低、带宽较高,但可扩展性差。因此可采用弹性块存储降低传统磁盘盘阵的使用比例,以满足快速分配和灵活扩展的场景。
块存储本身可以通过多个设备堆叠出更大的空间,但受限于数据库的能力,通常只能支持TB级数据库应用。主要为一些高性能、高I/O的企业关键业务系统(如企业内部数据库)提供存储,也可为虚拟机提供集中存储,包括镜像和实例的存储。
3.2非结构化存储技术
在云计算环境下引入非结构化云存储技术可降低传统盘阵/NAS的采购成本,满足业务系统海量非结构化数据存储处理需求。在互联网类业务等具有海量冷数据存储需求的业务中,可逐步采用基于X86架构本地硬盘的分布式文件、对象、弹性块等云存储产品,代替NAS和传统盘阵设备,并开展和推动云存储接口标准化和规范化,推动上层业务软件适应底层新型云存储系统,最终在业务系统中大规模引入非结构化云存储技术。目前非结构化存储技术主要包括分布式文件存储和对象存储两种。
(1)分布式文件存储
分布式文件存储提供文件存储能力,把分布在局域网内各个计算机上的共享文件夹集合成一个虚拟共享文件夹,将整个分布式文件资源以统一的视图呈现给用户,最终以标准文件系统接口形式,向应用系统提供海量非结构化数据存储空间,支持随机读写、复杂目录结构。
对于数据增长量快的文件存储型业务,分布式文件存储提供NFS、CIFS、POSIX等文件访问接口,但整体协议开销较高、响应延迟比块存储长,存储能力和性能水平有待扩展。分布式文件存储适合TB~PB级文件存储,可支持文件频繁修改和删除,例如存储图片、文件、视频、邮件附件、MMS内容等,同时它在文件在线备份和文件共享具有较强优势,但上层业务需要考虑支持跨多个文件系统的系统结构。
(2)对象存储
对象存储与分布式文件存储都属于非结构化存储类型,对象存储操作简单、无需频繁修改,对于一次写入、多次读取的数据,优先考虑对象数据存储系统。对象存储为海量非结构化数据提供Key-Value这种通过键-值查找数据文件的存储模式,提供基于对象访问的REST/SOAP接口,协议开销较高,且响应延迟较文件存储长,应用系统跟存储系统的耦合程度松散。
3.3结构化存储技术
针对传统数据库对非一致性数据存储及不能灵活扩展等技术壁垒,在云存储技术中用表存储以管理结构化数据或者半结构化数据,并通过设置键值对映射模型采用Hadoop框架等技术,向应用系统提供高可扩展的表存储空间,主要包括交易型(OLTP)数据库和分析型(OLAP)数据库。
分析型应用特点则是更新少,批量导入,每次针对大量数据进行处理,并发量小。主要应用在大规模日志存储处理、信令系统XDR数据存储和分析预处理、经分系统ETL等场景。并且可引入逐步成熟的日志详单类存储,系统的性能、稳定性及安全性将得到全面提升,这可以作为数据仓库的补充,承担ETL、数据挖掘和非结构化数据处理,缓解现有数据仓库的压力。
在云环境中积极探索和引入大数据处理和云存储技术,开展和推动云存储接口标准化和规范化,将有效推动上层业务软件适应底层新型云存储系统。在云存储技术发展的另一方面,存储网络技术和存储介质技术的进步也必将推动云存储的有效规模部署,共同推动云时代的加速发展。
摘要:随着Web2.0技术的发展,用户对数据的计算和存储需求激增,往往通过购置更多数量的服务器来增加计算和存储能力。通过互联网租用计算能力和存储资源,就可以大大减少对自有硬件资源的依赖。因此,将云计算技术应用到存储领域可以大大提高资源的利用率。本文主要分析基于云计算的数据存储技术。
关键词:云计算,数据存储,技术
云计算是一种基于服务的架构体系,有两种基本服模式:云计算和云存储。基于云计算服务的应用程序,无论是金融服务还是网络角色扮演游戏,几乎在所有情况下都需要高性能的云存储来满足数据处理的需求[1]。网络时代是一个信息时代,随着Web2.0技术的成熟,大量的信息以井喷的姿势出现在互联网上,如何应对这种信息爆炸式的增长速度,如何对这些信息进行有效存储和管理,云存储是否能够应对这种情况,如何才能保证云存储的高性能,如何才能保证云存储的灵活性,这些是本文探讨的问题。
1、云计算与云存储
1.1云计算的概念
云计算(cloudcomputing)是分布式计算技术的一种,是分布式处理、并行处理和网格计算的发展。其最基本的概念是通过网络将庞大的计算处理程序自动拆分成无数个较小的子程序,再交给由多部服务器组成的运算系统,经过计算分析之后将处理结果回传给用户。
1.2云存储的概念
云存储是在云计算概念基础上延伸和发展出来的一个新概念。与云计算类似,它是通过集群应用、网格技术或分布式文件系统等功能,将网络中不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问功能的一个系统。云存储是对现有存储方式的一种变革,是一种特殊形式的架构服务。如同云状的广域网和互联网一样,云存储对使用者来讲是透明的,不是指某一个具体的设备,而是指分布在不同物理地域的多台存储设备所构成的集合体。云存储的核心是应用程序软件与存储设备相结合,通过应用软件来实现存储设备向存储服务的转变。
2、云存储系统的结构模型
与传统的存储设备相比,云存储不仅仅是一个硬件,而是一个由网络设备、存储设备、服务器、应用软件、公用访问接口、接入网和客户端程序等多个部分组成的复杂系统。它以存储设备为核心,通过应用软件对外提供数据存储和业务访问服务。自下而上分别为存储层、基础管理层、应用接口层和访问层。
2.1存储层
存储层是云存储的基础部分。各个存储设备通过网络设备连接在一起,存储设备可以是FC光纤通道存储设备,也可以是NAS和iSCSI等IP存储设备。在存储设备层之上是一个统一的存储设备管理系统,可以实现存储设备的逻辑虚拟化管理、多链路冗余管理以及硬件设备的状态监控和故障维护[2]。
2.2基础管理层
2.3应用接口层
云存储运营单位可以根据实际业务类型开发不同的应用服务接口并提供不同的应用服务。比如视频监控应用平台、IPTV和视频点播应用平台及远程数据备份应用平台等。
2.4访问层
云计算是一种新型的计算模式。它的最主要特征是系统拥有大规模数据集、基于该数据集,向用户提供服务。为保证高可用、高可靠和经济性,云计算采用分布式存储的方式来存储数据,采用冗余存储的方式来保证存储数据的可靠性,即为同一份数据存储多个副本。
三、云存储未来发展趋势
云存储已经成为未来存储发展的一种趋势,目前,云存储厂商正在将各类搜索、应用技术和云存储相结合,以便能够向企业提供一系列的数据服务。但是,未来云存储的发展趋势,主要还是要从安全性、便携性及数据访问等角度进行发展。
云计算是一种新型的计算模式。它的最主要特征是系统拥有大规模数据集、基于该数据集,向用户提供服务。为保证高可用、高可靠和经济性,云计算采用分布式存储的方式来存储数据,采用冗余存储的方式来保证存储数据的可靠性,即为同一份数据存储多个副本。另外,云计算系统需要同时满足大量用户的需求,并行地为大量用户提供服务。未来云存储的发展还是要从安全性、便携性及数据访问等角度进行深入发展。