大数据的概念

作者:厦门大学计算机科学系林子雨博士/副教授全国高校知名大数据教师

E-mail:ziyulin@xmu.edu.cn

随着大数据时代的到来,“大数据”已经成为互联网信息技术行业的流行词汇。关于“什么是大数据”这个问题,大家比较认可关于大数据的“4V”说法。大数据的4个“V”,或者说是大数据的四个特点,包含四个层面:数据量大(Volume)、数据类型繁多(Variety)、处理速度快(Velocity)和价值密度低(Value)。

随着数据量的不断增加,数据所蕴含的价值会从量变发展到质变。举例来说,有一张照片,照片里的人在骑马。受到照相技术的制约,早期我们只能每一分钟拍一张,随着照相设备的不断改进,处理速度越来越快,发展到后来,就可以1秒钟拍1张,而当有一天发展到到1秒钟可以拍10张以后,就产生了电影。当数量的增长实现质变时,就由一张照片变成了一部电影。同样的量变到质变过程,也会发生在数据量的增加过程之中。

大数据时代的数据产生速度非常迅速。在Web2.0应用领域,在1分钟内,新浪可以产生2万条微博,Twitter可以产生10万条推文,苹果可以下载4.7万次应用,淘宝可以卖出6万件商品,百度可以产生90万次搜索查询,Facebook可以产生600万次浏览量。大名鼎鼎的大型强子对撞机(LHC),大约每秒产生6亿次的碰撞,每秒生成约700MB的数据,有成千上万台计算机分析这些碰撞。大数据时代的很多应用,都需要基于快速生成的数据给出实时分析结果,用于指导生产和生活实践,因此,数据处理和分析的速度通常要达到秒级甚至毫秒级响应,这一点和传统的数据挖掘技术有着本质的不同,后者通常不要求给出实时分析结果。为了实现快速分析海量数据的目的,新兴的大数据分析技术通常采用集群处理和独特的内部设计。以谷歌公司的Dremel为例,它是一种可扩展的、交互式的实时查询系统,用于只读嵌套数据的分析,通过结合多级树状执行过程和列式数据结构,它能做到几秒内完成对万亿张表的聚合查询,系统可以扩展到成千上万的CPU上,满足谷歌上万用户操作PB级数据的需求,并且可以在2~3秒内完成PB级别数据的查询。

大数据虽然看起来很美,但是,价值密度却远远低于传统关系数据库中已经有的那些数据。在大数据时代,很多有价值的信息都是分散在海量数据中的。以小区监控视频为例,如果没有意外事件发生,连续不断产生的数据都是没有任何价值的,当发生偷盗等意外情况时,也只有记录了事件过程的那一小段视频是有价值的。但是,为了能够获得发生偷盗等意外情况时的那一段宝贵的视频,我们不得不投入大量资金购买监控设备、网络设备、存储设备,耗费大量的电能和存储空间,来保存摄像头连续不断传来的监控数据。

如果这个实例还不够典型的话,那么我们可以想象另一个更大的场景。假设一个电子商务网站希望通过微博数据进行有针对性营销,为了实现这个目的,就必须构建一个能存储和分析新浪微博数据的大数据平台,使之能够根据用户微博内容进行有针对性的商品需求趋势预测。愿景很美好,但是,现实代价很大,可能需要耗费几百万元构建整个大数据团队和平台,而最终带来的企业销售利润增加额可能会比投入低许多,从这点来说,大数据的价值密度是较低的。

THE END
1.中国大数据网中国大数据网 公众号 移动端自助装机聚超值 多地长租公寓接连跑路 长租公寓连环“爆雷”深陷信用危机 资讯|?优刻得安全屋保障公共数据资源开发利用 滚动|中国石化发布第三季度报告 净利润人民币达到235.07亿元 滚动|中新天津生态城智慧能源小镇示范项目 能源互联网的未来方向 ...http://www.sjsbz.com/
2.数据观中国大数据产业观察数据观是一个大数据新闻门户网站,专注大数据、大数据分析和大数据应用,同时涉及移动互联网、征信、云计算等领域,为读者提供专业的大数据信息交流平台。http://www.cbdio.com/index.html
1.干货:“大数据”核心知识精粹!大数据中需要用到哪些技术栈笃威尔数字技术作为全国产业大数据服务行业先锋企业,旗下「“五度易链”产业大数据解决方案」深度运用大数据和人工智能等新一代信息技术,以数字化手段为政府、园区、企业提供全周期一站式的产业大数据服务,能够为地方更好的制定产业发展战略和政策提供有效的数据支撑,并推动地方全面实现产业数字化、智能化和高效化的运营和...https://blog.csdn.net/wuduyilian/article/details/143405640
2.大数据什么?大数据实际应用中有哪些价值?基金频道大数据具有“4V”特点,即Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)。大量意味着数据规模巨大;高速指数据产生和处理的速度快;多样表示数据类型繁多,包括结构化、半结构化和非结构化数据;价值则体现为通过对大数据的分析和挖掘,可以获得有价值的信息和知识。 https://funds.hexun.com/2024-11-13/215515313.html
3.大数据在数据预处理环节,针对从分布式文件系统读取数据开销大的问题,研发了高效大数据处理引擎“诸葛弩”。在模型训练环节,针对检查点文件读写性能差的问题,提出了分布式检查点策略,加快了检查点文件的读写速度。在模型推理环节,针对KVCache对存储系统的挑战,研发了高吞吐推理方案FastDecode以及大模型推理架构Mooncake。分布式技术...https://www.j-bigdataresearch.com.cn/
4.什么是大数据?大数据(big data),是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。 在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》 中大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理。大数据的4V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)...http://gxt.nmg.gov.cn/hdjl/zsk/202104/t20210421_1414923.html
5.大数据大数据(big data),又称巨量资料,是指所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯[1],是需要新处理模式才能适应海量、高增长率和多样化的信息资产[2]。最早由咨询公司麦肯锡提出[3],于2009年逐渐开始在互联网圈内传播[4]。 https://baike.sogou.com/v59756418.htm
6.大数据大数据一词自1990年代开始使用,有人称赞JohnMashey推广了该术语。大数据通常包含的数据集的大小超出了常用软件工具在可容忍的经过时间内捕获、整理、管理和处理数据的能力。大数据哲学包含非结构化,半结构化和结构化数据,但是主要关注于非结构化数据。大数据“大小”是一个不断移动的目标,如2012的范围从几十兆兆字节到...https://vibaike.com/19573/
7.大数据概述「建议收藏」腾讯云开发者社区电信行业,利用大数据技术实现客户离网分析,及时掌握客户离网倾向,出台客户挽留措施。 能源行业,随着智能电网的发展,电力公司可以掌握海量的用户用电信息,利用大数据技术分析用户用电模式,可以改进电网运行,合理设计电力需求响应系统,确保电网运行安全。 物流行业,利用大数据优化物流网络,提高物流效率,降低物流成本。 https://cloud.tencent.com/developer/article/2079922
8.什么是大数据?Oracle中国3. 只有真正分析数据并基于数据数据洞察采取有效行动,您的大数据投资才会取得回报。您可以:对各种数据集进行可视化分析以获得全新理解;进一步探索数据以获得全新洞察;与他人分享您的洞察;结合机器学习和人工智能构建数据模型;立即行动起来,释放您的数据价值!https://www.oracle.com/cn/big-data/what-is-big-data/
9.什么是大数据,大数据有什么特点大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产,简单来说大数据就是海量的数据。 什么是大数据,大数据有什么特点 企服解答 ...https://36kr.com/p/1461500714175237
10.科普说说大数据是什么,及其特点与应用大数据因为具有海量化、多样化、时效性和价值密度这四个特点被广泛应用于各个领域,对企业而言不仅可以了解客户也可以了解自身的价值。本文详细的讲述了大数据的概念、特点、开发和应用,以及大数据、数据分析和数据挖掘之间的区别https://bigdata.51cto.com/art/202012/635228.htm
11.从《小时代》浅析“大数据”的样貌(非影评)(小时代4:灵魂尽头)影评“大数据”教学中常提及两个娱乐领域的应用案例:美剧《纸牌屋》和电影《小时代》;当时我还被忽悠去看美国政治秀的《纸牌屋》体验,后知后觉其实“大数据”是应用在剧外反馈在剧内。在这点与《小时代》异曲同工,然而不少人很难接受它票房火爆的事实,借此余热用《小时代》切入浅析“大数据”的样貌。 首先,“大数据...https://movie.douban.com/review/6771842/