21世纪是信息时代,随着互联网、物联网、云计算等信息技术的迅猛发展,企业、个人、机构等每个个体所参与的社会经济活动的特征,都会以计算机数据的形式被记录和存储,从而形成了大规模的信息网络体系,现代信息社会已经进入了大数据时代。
一、“大数据”的定义、特征和作用
(一)“大数据”的定义
衡量大数据的大小通常以“太字节(TB)”或者“拍字节(PB)”为单位量级。1个太字节数据量为1024G个字节或10.7亿个字节。目前,数据的存储单位从小到大的次序为:KB→MB→GB→TB→PB→EB→ZB→YB(千字节→兆字节→吉字节→太字节→拍字节→艾字节→泽字节→尧字节),每提高一个量级单位的存储量扩大1024倍。
(二)“大数据”的特征
一般认为大数据有四个基本特征,即大数据基本特征可以用“4个V”来总结,即大量性(Volume),多样性(Variety),价值性(Value)和高速性(Velocity)。
第一,大量性。大量性是指大数据自身所特有的数据量巨大的特性。全球数据量正以前所未有的速度增长,遍布世界各个角落的传感器、移动设备、在线交易和社交网络每天都要生成上百万兆字节的数据。我们从大数据的计量单位从KB发展到YB,之间经过了六个量级单位的升级,每提高一个量级单位的存储量扩大1024倍,就可以看出,大数据体量非常巨大。
第二,多样性。多样性是指大数据自身所特有的类型繁多的特性。海量数据并不单纯是数据量的爆炸性增长,它还牵涉到数据类型的不断增加,如互联网多媒体中的图片、声音和视频等各式各样的数据类型。大数据的类型主要包括结构化数据、半结构化数据、非结构化数据,等等。
第三,价值性。价值性是指大数据价值巨大,但价值密度低的特性。有学者补充提出了大数据还具有稀疏性,即有价值的信息相对于数据量而言非常之少。大数据的质量不仅参差不齐,而且还通常是杂乱无章的。数据价值密度的高低与数据总量的大小往往成反比。挖掘“大数据”的价值类似浪里淘沙却又弥足珍贵。
第四,高速性。高速性是指数据处理经常要求实时分析,数据的收集、获取、产生、处理速度快。一般而言,数据库等应用往往运行1、2天获得的结果依然可行,而“大数据”应用,必须要在1秒钟内形成答案,否则这些结果可能就是过时的、无效的。在瞬息万变的市场中,企业能够及时把握市场动态,迅速对市场、消费者需求等各方面情况深入洞察,并能快速制定出合理准确的应对策略,成为企业提高竞争力的关键。
综上所述,4V表明大数据具有量大、源多、结构复杂等特征。
大数据一般来自以下几个渠道:
数据信息类型
主要特点
行政记录数据
个人信息记录
单位信息记录
自然和资源记录
其他管理记录
结构化数据
按一定的标准记录
数据质量较好
通常以标准数据库形式存在
可能涉及到部门利益
商业记录数据
电子商务交易数据
企业生产经营管理数据
信息咨询报告数据
数据即时产生
涉及广泛的领域
多采用企业标准
一般不公开
互联网(包括搜索引擎)数据
社交网数据
媒体数据
搜索引擎数据
信息量大
不稳定性
非标准化
容易获取数据记录
(四)“大数据”的作用
在当今国家发展与竞争中,大数据已成为未来的核心竞争力,谁掌握了大数据,利用大数据实现真正的变革,谁就能赢得未来。第一,对大数据的处理分析已成为新一代信息技术融合应用的结点。第二,大数据是信息产业持续高速增长的新引擎。第三,大数据利用将成为提高核心竞争力的关键因素。第四,大数据将成为降成本、增效益、促转型、稳增长的新途径与新动力。第五,大数据将促进统计方法、科学研究与实验的方法手段发生重大改变,成为政府统计收集数据的第二轨。
二、“大数据”给政府统计带来的机遇和挑战
(一)大数据与政府统计数据的区别
大数据与政府统计数据存在明显区别。一是大数据多是自动生成的,而政府统计数据往往是根据社会经济发展需要生成的指标。大多数大数据的生成不涉及与人的互动,如跟踪定位系统的痕迹数据。二是与大数据相比,政府统计数据具有明显的社会服务性。大数据的产生和发展最早源于商业企业,也更多的服务于大数据持有者本身,而政府统计部门的各类统计数据和统计信息要最终服务于社会。三是大数据杂乱无章,缺乏统一的标准,而政府统计数据则有严格的统计标准规范。如社交网站上的文本流,无法要求使用统一语法、语序或是词汇表,但政府统计数据则有严格的政府统计制度标准作为保障。四是大数据中非结构化数据占有相当的比重,但政府统计数据仍以结构化数据为主。目前的政府统计数据还不涉及对图片、网页和音频视频等非结构化数据的标准化处理,而这恰恰是大数据的核心部分。
(二)大数据对政府统计的影响
(三)“大数据”给政府统计带来的机遇
1、有助于数据信息收集
2、有助于统计部门给政府决策提供参考
政府统计的一项重要职能就是分析数据,从而为政府决策提供参考依据。一项决策的做出不光需要总结过去的经验,还要对未来进行科学的分析测算,大数据能够通过快速、精准的分析,提高政府统计机构的工作效率。现今的各种统计分析所使用的数据一般多是事后统计数,显得较为滞后,用来判断未来的发展趋势则显得有些力不从心。而利用大数据提供的算法和即时统计的数据信息等原始材料,结合特定的分析方法则能够提升对未来趋势判断的准确性和快捷性。
3、有助于统计方式的创新
有研究表明“当前15%的信息是结构化信息,电子邮件、视频、呼叫中心对话和社交媒体等非结构化信息占85%”。这对于运用常规的统计方式来提取有意义的信息造成了挑战,电脑和各种智能移动设备等产生信息的设备继续成倍增加,社交网络也在加速发展,这些共享信息的大量产生已经深刻改变政府、公众和企业间的互动方式,老的统计方式势必会造成这些领域数据信息的较大缺失,这就迫使统计部门要创新统计方式。
(四)“大数据”给政府统计带来的挑战
1、对政府统计职能的挑战
统计部门的主要职能是组织、协调和承担全社会的经济统计工作,确保统计数据真实、准确、及时,制定统计政策、规划、统计制度和管理统计标准,起草统计法规和规章草案等等。
2、技术和技能落后面临的挑战
首先,传统主机加存储的数据库结构难以应付大数据洪流。大数据时代的到来意味着数据将以几何倍数不断增长,每天产生的数据量将是以前一个月甚至一年的数据量,传统数据库的传输带宽不足,不能满足这种数据的大量扩张,数据难以被快速的传到服务器上。
其次,传统的关系型数据库很难在单一数据平台中进行不同类型数据以及不同字符集数据的混合存储和高效访问。以往政府统计所面对的数据都是结构化数据,数据之间具有很强的因果关系,机器可以进行逻辑判断。但是大数据中绝大部分是非结构化数据,这些数据之间不存在因果关系或者因果关系较弱,传统的关系型数据库很难大规模处理非结构化数据。
大数据意味着更多的信息,但同时也意味着更多的虚假关系信息,曾经一位著名的学者用“在一堆稻草里面找一根针”来比喻大数据时代的数据挖掘。该比喻可能有点夸张,但是由于数据价值密度低,导致数据分析工作难度大大增加。如果在数据量较大的同时,能够保证数据的质量,这无疑对数据挖掘工作起到事半功倍的作用,但事实是,大数据时代下数据量和数据质量之间的矛盾,是一个暂时未得到解决的难题。
三、“大数据”应用前景广阔
大数据是随着信息数据快速增长和网络计算技术迅猛发展而兴起的,大数据通过对海量数据的收集、处理和展示,从而揭示规律,预测未来。大数据能够帮助企业从原本毫无价值的海量数据中挖掘用户的需求,从而使数据真正产生价值。随着大数据的发展,其应用已经渗透到农业、工业、商业、服务业和医疗领域等各个方面。
全球信息数据量的飞速膨胀成为大数据产业存在并发展的基础。国际数据公司(IDC)预计,未来全球数据总量增长率将维持50%左右,到2020年全球数据总量将达到40ZB,其中,我国将达到8.6ZB,占全球的21%。中国信息产业研究院预测未来几年,随着应用效果的逐步显现,我国大数据市场规模将维持40%左右的高速增长。
在大数据的应用领域中,金融行业对数据的依赖性极高。据统计,目前我国商业银行和保险公司数据量已达到100TB以上级别。大数据金融的出现将提升金融行业运营效率,提高金融产品营销准确性。机构预计,到2020年,我国金融大数据应用规模将达到450亿元。
(一)大数据统计应用的意义
在信息高速流通的当代,大数据猛烈地改变着人们的工作和生活方式,数据的重要作用不断显现,释放出巨大的经济社会价值,引发人们的思维变革,在统计领域的理论研究和工作实践上也具有重要意义,大数据时代利用大数据对经济社会现象进行分析,将是统计学研究的重要课题。
1、大数据能够更加客观真实地记载经济社会的发展情况
在现代社会,人与人之间、人与单位之间、单位与单位之间,甚至地区与地区之间、国与国之间发生的交流和交易行为都有可能在计算机等各种电子设备上留下记录,由于它们都是电子化的信息,没有掺入任何人为的干扰因素,因此,对这样的信息进行发掘、加工、整理而得出的大数据能够更加客观真实地反映社会经济发展情况。同时,实现大数据统计应用也是遏制统计造假、弄虚作假行为的重要途径。
2、大数据能够最大限度地拓展现行统计调查制度所无法涉及到的领域
大数据能轻而易举地解决常规统计调查无法涉及到的、各种复杂多变的行业和领域的统计,因为大数据不但量大,其涵盖面也十分广泛,任何时候、任何地方、任何人、任何单位,只要发生了互动行为就要留下“痕迹”,而对这些信息进行加工整理获得的大数据必然能够有效解决现行统计和国民经济核算资料不全的问题。
3、大数据分析应用已经发挥出了显著的社会经济效益
(二)大数据统计应用迫切需要解决的问题
就目前的情况,要真正实现大数据在统计工作中的应用尚面临着很多问题与障碍,如口径不一致、范围不相同、标准不统一、程序不规范、信息不共享等,这些或将成为大数据统计应用的“拦路虎”。因此,我们建议:
第一,建立机构,统一管理大数据开发应用工作。大数据就像是一座巨大的“宝藏”,如果不加以开发就无法发挥其作用。但是,如果无序开发,也会使得这笔宝贵的财富得不到有效利用,造成浪费,甚至产生负面效应。因此,要真正实现大数据统计应用,应建立一个专门的管理机构,加强组织领导,统一管理大数据的开发、应用,保障数据信息安全,在某些领域、某些行业逐步实现以大数据取代常规统计调查数据。同时,制定周密计划、明确职责分工、选择工作路径、加强日常监管,从而实现对大数据这一宝贵资源的有效利用。
第四,创造条件,为大数据开发应用铺平道路。大数据应用离不开现代信息技术和网络技术,更离不开大数据发掘、加工、整理和分析的人才。因此,应该大力培养一批大数据应用、尤其是大数据分析方面的人才,为将大数据广泛应用于政府统计、宏观管理、企业经营等方面奠定基础。要鼓励高校和科研机构有针对性地开发大数据应用软件,为大数据分析提供帮助。要通过国内培养、国外委培等途径,培养一批大数据分析师,除开展大数据分析外,还要将大数据分析的理念、思路广泛应用于宏观管理和微观经营之中,发挥出大数据统计应有的社会经济效益。
(三)大数据思维在统计分析中的应用
伴随着科技水平的不断提高,当代社会的发展逐渐呈现在信息化网络之下,基于“互联网”的发展模式不断深入,我国各个领域的发展都与大数据思维相挂钩。政府作为维护社会稳定和国家长治久安的服务组织,其统计分析工作亦需要结合大数据思维,这不仅是政府服务工作与时代发展对接的需要,更标志着政府职能工作方式更新与转型迈向新的发展高度。
大数据思维方式与统计分析进行融合并非偶然,而是时代发展对工作模式进行改变的要求。大数据平台的发展起到了重要的支撑作用,纵观现代网络信息的广泛性,每天都有大量的用户通过互联网来获取社会信息,在这种大数据聚集的网络中,“大数据+”的工作模式便成为时代发展的必然结果。
1、大数据形式下统计分析的特点
(2)数据统计具备多样性。政府在对传统的数据进行统计分析时,往往采取文本形式呈现。随着经济社会的不断发展,现阶段我国政府的文本形式已不能完全满足社会发展的需要。基于互联网下的大数据模式与统计分析工作进行融合,不仅能够全面准确的对数据进行搜集和智能化整理,更能让统计分析工作中的数据以表格和图形的形式展现出来,使数据的统计呈现出多样性,打破传统数据统计的单一结构。
(3)统计分析结果价值大。传统的统计分析工作,受地域限制的影响大,让数据受到严重的空间限制,其所反映的问题不少限于局部,以此基础上形成的数据,其准确性无法保证,而且部分数据在统计的过程中也容易出现漏洞。大数据思维下进行统计分析工作时,往往从全面性的数据中进行筛查,进而让数据与工作的结合度大大提升,在此基础上进行统计分析,其统计数据质量、统计工作质量也会相应提高。
2、基于大数据思维下统计分析的应用
政府的统计分析工作需要建立在周密的数据基础上,为此,大数据形式的应用便是政府统计工作急需引入的机制。在大数据思维下统计分析工作的应用主要趋向于以下几方面:
(1)国民经济发展数据统计分析。我国每个月、每个季度、每年都会对全国多数经济指标进行全面统计,通过统计各项经济数据的变动,来制定不同的经济发展战略,其中有国内生产总值(GDP)、居民消费价格指数(CPI)、工业企业主要经济指标等数据。大数据思维的应用,将大大缩短统计周期,也必将提高统计分析的时效性,进而让政府可以根据有效、准确的数据做出决策,做到“先知先觉”,通过大数据对未来的经济发展形式与趋势做出预判。
(4)国民人口分布数据统计分析。传统国民人口分布统计工作是一项庞大的工程,政府逐一将每个省市进行分组,投入大量的人力和财力进行“走访式”的人口普查。其统计分析工作能够对我国人口的分布特征、人口数量、男女人口比重、人口的出生率和死亡率等进行普查。然而,基于大数据平台的统计分析工作,不仅能够将传统人口现状所筛查的领域进行更加准确化的统计,更能够对不同地区的人口消费习性、学历水平等综合性指标进行分析,其统计分析数据更具全面性,让统计结果更立体的得出我国现阶段人口的群体性特征。
3、大数据统计分析工作应注意的几个重要问题
[1]马建堂.大数据在政府统计中的探索与应用[M].北京:中国统计出版社,2013.
[2]丛雅静、蔡宁.大数据背景下政府统计信息化建设的几点思考
[3]金绮等.“大数据”时代政府统计应对之策探讨
[4]张启良.从“数即万物”到“万物皆数”----大数据与我们的生活