数据量大十分好理解,以前我们存储数据使用的单位是KB,一个Excel表格也就几十到几百KB,现在我们经常说到GB甚至是TB乃至PB的数据量级,它们的数量关系如下所示。
1MB=1024KB
1GB=1024MB
1TB=1024GB
1PB=1024TB
更直观一点,1KB相当于512个汉字,1MB就相当于六本红楼梦的字数……而淘宝网在2015年3月每天大约能产生7TB的数据量,相当于4000万本红楼梦的数据量,而中国最大的图书馆中国国家图书馆的藏书量是3000万册。由此看来,我们的大数据着实是数据量巨大了。而只说能够产生如此大量数据的原因有哪些呢?我们不妨从数据获取的方式、数据传输的方式和数据存储的方式来探讨数据量大的这个问题。
超市通过这样的方式来收集用户的数据,对收集的数据进行分析,来对用户画像与人群定位。试想在超市每天如此大的接待量情况下,收银员能否保证数据录入的准确性呢?与此同时,通过人工输入的方式每天能够采集多少数据呢?类似的这种键盘记录的方式还有许多人工录入数据的方式不再一一举例,传统记录数据的方式必定只能是小范围的,少量的和准确度欠佳的。而现在的数据获取方式大多是通过URL传输和API接口,大体上数据获取的方式有这样几类:爬虫抓取、用户留存、用户上传、数据交易和数据共享。
至此,我们看到新时代的数据获取形式相较于传统数据获取的方式更加多元、更加高效。
在数据存储方面,大数据的存储环境相较于传统数据的存储已经跃升了好几个数量级。犹记得十多年前软盘还非常高级,存储量达到20MB的软盘已然很贵,更别说U盘和移动硬盘了。
大数据与传统数据的另一个显著差异是数据类型的丰富。传统数据更注重于对象的描述,而大数据更倾向与对数据过程的记录。
当然,大数据能记录的用户就餐数据远不局限于上述所列的字段,理想状况的大数据监控甚至会记录用户吃饭的方式、吃饭时的行为、吃饭时的面部表情等一系列数据,这些数据反映了用户对就餐环境的感受,对餐食口味的反应,进一步可以用来改进就餐环境、食物口味,给出点餐建议。
大数据与传统数据的核心差异在于其价值的不可估量。传统数据的价值体现在信息传递与表征,是对现象的描述与反馈,让人通过数据去了解数据。而大数据是对现象发生过程的全记录,通过数据不仅能够了解对象,还能分析对象,掌握对象运作的规律,挖掘对象内部的结构与特点,甚至能了解对象自己都不知道的信息。
大数据价值的特殊之处就在于它的可挖掘性,同样的一堆数据,不同的人能得到不同层次的东西。就好像同样见一个人,有些人只看他的外貌好不好看,有些人能从他的表情中读出心理活动,从眼神中看出阅历,从衣着打扮中读出品味,从鞋子上读出生活习惯。而这些深层次的非表象的内容需要技巧与实力去挖掘出来,这就是我们说的数据分析与数据挖掘。