大数据的概念|大数据_宠物食品

作者：厦门大学计算机科学系林子雨博士/副教授全国高校知名大数据教师

E-mail:ziyulin@xmu.edu.cn

随着大数据时代的到来，“大数据”已经成为互联网信息技术行业的流行词汇。关于“什么是大数据”这个问题，大家比较认可关于大数据的“4V”说法。大数据的4个“V”，或者说是大数据的四个特点，包含四个层面：数据量大（Volume）、数据类型繁多（Variety）、处理速度快（Velocity）和价值密度低（Value）。

随着数据量的不断增加，数据所蕴含的价值会从量变发展到质变。举例来说，有一张照片，照片里的人在骑马。受到照相技术的制约，早期我们只能每一分钟拍一张，随着照相设备的不断改进，处理速度越来越快，发展到后来，就可以1秒钟拍1张，而当有一天发展到到1秒钟可以拍10张以后，就产生了电影。当数量的增长实现质变时，就由一张照片变成了一部电影。同样的量变到质变过程，也会发生在数据量的增加过程之中。

大数据时代的数据产生速度非常迅速。在Web2.0应用领域，在1分钟内，新浪可以产生2万条微博，Twitter可以产生10万条推文，苹果可以下载4.7万次应用，淘宝可以卖出6万件商品，百度可以产生90万次搜索查询，Facebook可以产生600万次浏览量。大名鼎鼎的大型强子对撞机（LHC），大约每秒产生6亿次的碰撞，每秒生成约700MB的数据，有成千上万台计算机分析这些碰撞。大数据时代的很多应用，都需要基于快速生成的数据给出实时分析结果，用于指导生产和生活实践，因此，数据处理和分析的速度通常要达到秒级甚至毫秒级响应，这一点和传统的数据挖掘技术有着本质的不同，后者通常不要求给出实时分析结果。为了实现快速分析海量数据的目的，新兴的大数据分析技术通常采用集群处理和独特的内部设计。以谷歌公司的Dremel为例，它是一种可扩展的、交互式的实时查询系统，用于只读嵌套数据的分析，通过结合多级树状执行过程和列式数据结构，它能做到几秒内完成对万亿张表的聚合查询，系统可以扩展到成千上万的CPU上，满足谷歌上万用户操作PB级数据的需求，并且可以在2～3秒内完成PB级别数据的查询。

大数据虽然看起来很美，但是，价值密度却远远低于传统关系数据库中已经有的那些数据。在大数据时代，很多有价值的信息都是分散在海量数据中的。以小区监控视频为例，如果没有意外事件发生，连续不断产生的数据都是没有任何价值的，当发生偷盗等意外情况时，也只有记录了事件过程的那一小段视频是有价值的。但是，为了能够获得发生偷盗等意外情况时的那一段宝贵的视频，我们不得不投入大量资金购买监控设备、网络设备、存储设备，耗费大量的电能和存储空间，来保存摄像头连续不断传来的监控数据。

如果这个实例还不够典型的话，那么我们可以想象另一个更大的场景。假设一个电子商务网站希望通过微博数据进行有针对性营销，为了实现这个目的，就必须构建一个能存储和分析新浪微博数据的大数据平台，使之能够根据用户微博内容进行有针对性的商品需求趋势预测。愿景很美好，但是，现实代价很大，可能需要耗费几百万元构建整个大数据团队和平台，而最终带来的企业销售利润增加额可能会比投入低许多，从这点来说，大数据的价值密度是较低的。

THE END

大数据的概念

首页大数据

大数据是什么意思大数据的翻译音标读音用法例句

什么是大数据？从7个V详谈大数据的定义！

大数据的概念

大数据的基本概念草木物语

我要问小编:大数据将会如何影响我们的生活?新闻频道

什么是大数据，一张图带你看懂大数据

《大数据》大数据杂志订阅,杂志封面，精彩文章导读