大数据的基本概念草木物语

关于大数据的定义目前有很多种,其实“大数据”就是收集各种数据,经过分析后用来做有意义的事,其中包括对数据进行采集、管理、存储、搜索、共享、分析和可视化。

大数据的特点可以用“4v”来表示,分别为volume、variety、velocity和value。

·海量性(volume):大数据的数据量很大,每天我们的行为都会产生大批量数据。

·多样性(variety):大数据的类型多种多样,比如视频、音频和图片都属于数据。

·高速性(velocity):大数据要求处理速度快,比如淘宝“双十一”需要实时显示交易数据。

·价值性(value):大数据产生的价值密度低,意思是说大部分数据没有参考意义,少部分数据会形成高价值,比如私家汽车安装的摄像头,大部分情况下是用不到的,但是一旦出现“碰瓷”等现象就会很有价值。

从维克多·迈尔·舍恩伯格所著的《大数据时代》中,可以看到大数据时代的思维变革。

(1)不是随机样本,而是全体数据。

统计学家们证明:采样分析的精确性随着采样随机性的增加而大幅提高,但与样本数量的增加关系不大。随机采样取得了巨大的成功,成为现代社会、现代测量领域的主心骨。但这只是一条捷径,是在不可收集和分析全部数据的情况下的选择,它本身存在许多固有的缺陷。大数据是指不用随机分析法这样的捷径,而采用所有数据的方法。

(2)不是精确性,而是混杂性。

数据多比少好,更多数据比算法系统更智能还要重要。社会从“大数据”中所能得到的益处,并非来自运行更快的芯片或更好的算法,而是来自更多的数据。大数据的简单算法比小数据的复杂算法更有效。大数据不仅让我们不再期待精确性,也让我们无法实现精确性。那些精确的系统试图让我们接受一个贫乏而规整的惨象——假装世间万物都是整齐地排列的。而事实上,现实是纷繁复杂的,天地间存在的事物也远远多于系统所设想的。要想获得大规模数据带来的好处,混乱应该是一种标准途径,而不应该是竭力避免的。

大数据技术框架主要包含6个部分,分别是数据收集、数据存储、资源管理、计算框架、数据分析和数据展示,每部分包括的具体技术如图所示

关系数据库技术,可扩展性是这种计算模式的一大缺陷。当数据容量更大、并发处理性能需求更高时,唯有提高服务器性能指标和可靠性,这是典型的向上扩展模式(ScaleUp)。即使可采用并行数据库集群,最多也只能管理有限数量的服务器,而且这种并行数据库也同样要求高配置的服务器才可以运转,其成本之高可以想象。

随着信息技术的进步,相比较而言,软件的重要性将下降,数据的重要性将上升。

在大数据环境下,数据量已经由GB级别跨越到PB级别,依靠单台计算机已经无法存储与处理如此规模的数据,唯一的出路,是采用大规模集群来对这些数据进行存储和处理,所以,系统的可扩展性成为衡量系统优劣的关键因素。

传统关系数据库系统为了支持更多的数据,采用纵向扩展(ScaleUp)的方式,即不增加机器数量,而是通过改善单机硬件资源配置,来解决问题。如今这种方式已经行不通了。

目前主流的大数据存储与计算系统通常采用横向扩展(ScaleOut)的方式支持系统可扩展性,即通过增加机器数目来获得水平扩展能力。与此对应,对于待存储处理的海量数据,需要通过数据分片(Shard/Partition)来对数据进行切分并分配到各个机器中去,通过数据分片实现系统的水平扩展。

数据复制,通过数据复制来保证数据的高可用性。数据复制是将同一份数据复制存储在多台计算机中,以保证数据在故障常发环境下仍然可用。从数据复制还可以获得另一个好处,即可以增加读操作的效率,客户端可以从多个备份数据中选择物理距离较近的进行读取,既增加了读操作的并发性,又可以提高单次的读取效率。

可以将数据分片的通用模型看作是一个二级映射关系。第一级映射是key-partition映射,即把数据记录映射到数据分片空间,通常,一个数据分片包含多条记录数据;第二级映射是partition-machine映射,把数据分片映射到物理机器中,即一台物理机器通常可以容纳多个数据分片。

在大数据系统中,为了获得系统可用性,需要为同一数据分片存储多份副本,业界的常规做法是一个数据分片同时保存三个副本。将数据复制成多份除了能增加存储系统的可用性,同时还能增加读操作的并发性,但引发了数据一致性问题,即同一数据分片存在多个副本。在并发的写请求下,如何保持数据一致性尤为重要,即在存储系统外部的使用者看来,即使存在多个副本数据,它与单份数据也应该是一样的。CAP、BASE、ACID等基本原则是分布式环境下数据一致性方案设计重要的指导原则。

关系数据库系统采纳ACID原则,获得高可靠性和强一致性。而大多数分布式环境下的云存储系统和NoSQL系统则采纳BASE原则。

BASE原则与ACID原则有很大的差异。BASE通过牺牲强一致性来获得高可用性。尽管现在大多数的NoSQL系统采纳了BASE原则,但是有一点值得注意:NoSQL系统与云存储系统的发展过程正在向逐步提供局部ACID特性发展,即从全局而言,符合BASE原则,但局部上支持ACID原则,这样,就可以吸取两者各自的好处,在两者之间建立平衡。

ACID强调数据的一致性,这是传统数据库设计的思路。而BASE更强调可用性,弱化数据强一致性的概念,这是互联网时代对于大规模分布式数据系统的一种需求,尤其是其中的软状态和最终一致性。可以说,ACID和BASE原则是在明确提出CAP理论之前关于如何对待可用性和强一致性的两种完全不同的设计思路。

主流的大数据技术可以分为两大类。

一类面向非实时批处理业务场景,着重用于处理传统数据处理技术在有限的时空环境里无法胜任的TB级、PB级海量数据存储、加工、分析、应用等。一些典型的业务场景如:用户行为分析、订单防欺诈分析、用户流失分析、数据仓库等,这类业务场景的特点,是非实时响应,通常,一些单位在晚上交易结束时,抽取各类数据进入大数据分析平台,在数小时内获得计算结果,并用于第二天的业务。比较主流的支撑技术为HDFS、MapReduce、Hive等。

另一类面向实时处理业务场景,如微博应用、实时社交、实时订单处理等,这类业务场景,特点是强实时响应,用户发出一条业务请求,在数秒钟之内要给予响应,并且确保数据完整性。比较主流的支撑技术为HBase、Kafka、Storm等。

常见的大数据计算模式分为4类

·批处理计算

又称为离线计算,是针对大规模历史数据的批量处理,如MapReduce。

·流计算

是针对流数据的实时计算,可以实时处理产生的数据。商业版的有IBMInfoSphereStreams和IBMStreamBase,开源的有Storm和S4(SimpleScalableStreamingSystem),还有一部分是企业根据自身需求而定制的,如Dstream(百度)。

·图计算

是针对大规模图结构数据的处理,常用于社交网络,如Pregel、GraphX、Giraph(FaceBook)、PowerGraph和Hama等。

·查询分析计算

是针对大规模数据的存储管理和查询分析,如Hive、Cassandra和Impala等。

物联网还为云计算提供了广阔的应用空间,而云计算为物联网提供了海量数据存储能力;

云计算还为大数据提供了技术基础,而大数据能为云计算所产生的运营数据提供分析和决策依据。

THE END
1.中国大数据网中国大数据网 公众号 移动端自助装机聚超值 多地长租公寓接连跑路 长租公寓连环“爆雷”深陷信用危机 资讯|?优刻得安全屋保障公共数据资源开发利用 滚动|中国石化发布第三季度报告 净利润人民币达到235.07亿元 滚动|中新天津生态城智慧能源小镇示范项目 能源互联网的未来方向 ...http://www.sjsbz.com/
2.数据观中国大数据产业观察数据观是一个大数据新闻门户网站,专注大数据、大数据分析和大数据应用,同时涉及移动互联网、征信、云计算等领域,为读者提供专业的大数据信息交流平台。http://www.cbdio.com/index.html
1.干货:“大数据”核心知识精粹!大数据中需要用到哪些技术栈笃威尔数字技术作为全国产业大数据服务行业先锋企业,旗下「“五度易链”产业大数据解决方案」深度运用大数据和人工智能等新一代信息技术,以数字化手段为政府、园区、企业提供全周期一站式的产业大数据服务,能够为地方更好的制定产业发展战略和政策提供有效的数据支撑,并推动地方全面实现产业数字化、智能化和高效化的运营和...https://blog.csdn.net/wuduyilian/article/details/143405640
2.大数据什么?大数据实际应用中有哪些价值?基金频道大数据具有“4V”特点,即Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)。大量意味着数据规模巨大;高速指数据产生和处理的速度快;多样表示数据类型繁多,包括结构化、半结构化和非结构化数据;价值则体现为通过对大数据的分析和挖掘,可以获得有价值的信息和知识。 https://funds.hexun.com/2024-11-13/215515313.html
3.大数据在数据预处理环节,针对从分布式文件系统读取数据开销大的问题,研发了高效大数据处理引擎“诸葛弩”。在模型训练环节,针对检查点文件读写性能差的问题,提出了分布式检查点策略,加快了检查点文件的读写速度。在模型推理环节,针对KVCache对存储系统的挑战,研发了高吞吐推理方案FastDecode以及大模型推理架构Mooncake。分布式技术...https://www.j-bigdataresearch.com.cn/
4.什么是大数据?大数据(big data),是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。 在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》 中大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理。大数据的4V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)...http://gxt.nmg.gov.cn/hdjl/zsk/202104/t20210421_1414923.html
5.大数据大数据(big data),又称巨量资料,是指所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯[1],是需要新处理模式才能适应海量、高增长率和多样化的信息资产[2]。最早由咨询公司麦肯锡提出[3],于2009年逐渐开始在互联网圈内传播[4]。 https://baike.sogou.com/v59756418.htm
6.大数据大数据一词自1990年代开始使用,有人称赞JohnMashey推广了该术语。大数据通常包含的数据集的大小超出了常用软件工具在可容忍的经过时间内捕获、整理、管理和处理数据的能力。大数据哲学包含非结构化,半结构化和结构化数据,但是主要关注于非结构化数据。大数据“大小”是一个不断移动的目标,如2012的范围从几十兆兆字节到...https://vibaike.com/19573/
7.大数据概述「建议收藏」腾讯云开发者社区电信行业,利用大数据技术实现客户离网分析,及时掌握客户离网倾向,出台客户挽留措施。 能源行业,随着智能电网的发展,电力公司可以掌握海量的用户用电信息,利用大数据技术分析用户用电模式,可以改进电网运行,合理设计电力需求响应系统,确保电网运行安全。 物流行业,利用大数据优化物流网络,提高物流效率,降低物流成本。 https://cloud.tencent.com/developer/article/2079922
8.什么是大数据?Oracle中国3. 只有真正分析数据并基于数据数据洞察采取有效行动,您的大数据投资才会取得回报。您可以:对各种数据集进行可视化分析以获得全新理解;进一步探索数据以获得全新洞察;与他人分享您的洞察;结合机器学习和人工智能构建数据模型;立即行动起来,释放您的数据价值!https://www.oracle.com/cn/big-data/what-is-big-data/
9.什么是大数据,大数据有什么特点大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产,简单来说大数据就是海量的数据。 什么是大数据,大数据有什么特点 企服解答 ...https://36kr.com/p/1461500714175237
10.科普说说大数据是什么,及其特点与应用大数据因为具有海量化、多样化、时效性和价值密度这四个特点被广泛应用于各个领域,对企业而言不仅可以了解客户也可以了解自身的价值。本文详细的讲述了大数据的概念、特点、开发和应用,以及大数据、数据分析和数据挖掘之间的区别https://bigdata.51cto.com/art/202012/635228.htm
11.从《小时代》浅析“大数据”的样貌(非影评)(小时代4:灵魂尽头)影评“大数据”教学中常提及两个娱乐领域的应用案例:美剧《纸牌屋》和电影《小时代》;当时我还被忽悠去看美国政治秀的《纸牌屋》体验,后知后觉其实“大数据”是应用在剧外反馈在剧内。在这点与《小时代》异曲同工,然而不少人很难接受它票房火爆的事实,借此余热用《小时代》切入浅析“大数据”的样貌。 首先,“大数据...https://movie.douban.com/review/6771842/