1、大数据产业调研大数据产业调研及分析及分析报告报告数据堂(北京)科技股份有限公司数据堂(北京)科技股份有限公司大数据的出现,引发了全球范围内深刻的技术与商业变革,已经成为全球发展的趋势以及国家和企业间的竞争焦点,直接关系到国家安全、社会稳定、经济发展和民生幸福等诸多方面。对于中国而言,在经历了30多年的高速发展之后,各种严峻问题也伴随而生,包括产业升级、社会稳定、环境保护、医疗健康和食品安全等方面的挑战。因此,亟需将大数据的发展提升到战略高度,以此为契机,通过各种创新和探索,推动产业升级和创新、经济转型和民生建设。本报告主要以启发性和独创性为主线,选择国内外最具典型意义的案例进
3、上对外提供服务;垂直领域内的数据链条在孕育和发展,但是在所有纯数据源企业或平台,只有不到8%在开展数据的租售业务;政府/公共服务、农业和医疗健康领域的应用案例相对缺乏另一方面,在政府/公共服务、农业和医疗健康领域的应用案例相对缺乏,尤其是政府和公共服务事业单位沉淀的海量数据未能与广大传统行业的需求形成对接。(三)(三)我国发展大数据产业发展的建议我国发展大数据产业发展的建议以大数据供需两端(数据源和应用环节)为抓手实现重点突破,大力推动全社会的数据开放,尤其是政府数据的开放,力争在短期内降低全社会的数据获取成本并起到显著的社会示范效应。我国幅员辽阔、人口众多,交通、医疗、金融及农
4、业等事关国计民生的领域汇集了海量的人口、个体行为和环境数据,通过人工智能技术的应用可以极大带动政府决策、公共服务和传统行业的发展,同时培育数据银行和众包平台等产业模式的创新。目录目录(一)大数据综述.51.1大数据概念溯源.51.2大数据产业的战略意义.9(二)全球大数据产业分析.112.1数据源(Datasources).122.1.1模式创新.15数据银行.15众包模式.172.2基础架构(Infrastructure).202.3跨平台(Crossinfrastructure).212.4开源(Opensourc
7、4.2趋势分析.924.3各国推动大数据发展的案例.944.4我国大数据产业发展建议.964.4.1从数据源和应用环节入手.964.4.2积极推动数据开放.97数据开放的意义.97政府数据开放的意义.994.4.3注重应用和模式的创新.102社会治理.102智能交通/物流.105智能电网.106智慧医疗.107互联网金融.109智慧农业.111人工智能技术商业化.113数据银行.120众包模式.1214.5海淀区大数据产业发展策略.1234.5.1海淀区大数据产业现状.1244.5.2
8、海淀大数据产业发展建议.127推动数据开放流通.127孵化大数据技术创新.128附录:大数据企业名录.129(一)(一)大数据大数据综述综述1.1大数据大数据概念概念溯源溯源数据来自一切客观存在,包括宏观到微观的物理世界,各种生物体,人类社会活动,人类感知、认识和思维的结果。随着信息技术的发展,当前通常所说的数据是指经过数字化转换后的信息,是可被量化、分析和再利用的信息,包括数值、文字、符号、音频、视频等形态。对数据的分析并非新鲜事物。交通规划、宏观经济分析、电力系统规划、气象预测、高能物理、航空航天、基因工程等大规模数据的分析和计算早已在人类生产生活中发挥着关键的
9、作用。1970年哈佛大学关于资源三角形的论述中,将材料、能源、信息看成是推动社会发展的三种基本资源。因此,传统的商业智能和数据库厂商得以出现并获得快速发展。而大数据概念的出现,是以信息技术的发展和应用为主线的:数据规模和类型的剧变。互联网和移动互联网的发展、传感技术的广泛应用,使得数据的规模和种类急剧增长。数据类型不仅包含关系型数据,还出现了大量的日志、文本、图片、音频和传感器非结构化和半结构化数据。数据呈指数级增长态势,据麦肯锡全球研究院(MGI)预测,2020年产生的数据量将是2009年的44倍,接近35ZB(211ZB=10Byte)。数据存储成本下降。单位信息存储
10、成本的下降,使得对海量数据的分布式存储技术难度降低。30年前,1TB存储的成本大约是16亿美元,如今通过云存储服务所需不到100美元。大规模数据处理成为可能。计算能力不断发展、对非结构化数据处理和分析方法的逐渐成熟、MapReduce模型以及云计算模式的出现,使大规模数据处理的成本和技术门槛大为降低。数据的采集更为密集和广泛。人类活动和自然环境的各类数据被广泛地采集和记录,其中蕴含的信息和知识可以极大推动人类社会的发展。据预测,2020年物联网传感器的数量将达到500亿个。数据分析应用的发展。Google(海量数据的分析利用)和沃尔玛公司(啤酒与尿布的关联销售)的数
11、据分析经典案例给业界带来的冲击。以上因素,使得学术界和企业界开始思考新时代下数据分析所能带来的巨大价值,所谓大数据的概念得以引爆并且逐渐为人所熟知:自然杂志在2008年9月推出了名为“大数据”的封面专栏,讲述了数据在数学、物理、生物、工程及社会经济等多学科扮演的愈加重要的角色;科学杂志2011年推出大数据专刊,将大数据深度分析看成未来研究的突破点;2011年6月,麦肯锡发布研究报告大数据:下一个创新、竞争和生产力的前沿领域,研究了当下全球数据的状态,并阐述了挖掘这些数据能够释放出的潜在价值。对于大数据的概念,至今没有一个为业界所广泛接受的明确定义。各界纷纷给出了
17、方则共同构成了大数据产业链。根据IDC的报告显示,全球大数据市场规模年增长率达40%,在2017年将达530亿美元。其中,大数据技术及服务市场复合年增长率(CAGR)将达31.7%,2016年收入将达238亿美元,其增速约为信息通信技术(ICT)市场整体增速的七倍之多。当前各界对大数据产业链的划分有诸多版本,其中逻辑相对清晰的刻画来自于彭博发布的研究报告,将大数据产业分为六大区块,包括数据源类、基础设施类、分析类、应用类、跨基础设施类和开源项目类。本报告依据此划分进行阐述,但所引述的大数据应用和探索案例并不限于彭博的报告内容,在地域上也不局限于北美地区。大数据的定义没
18、有明确的限定和边界,能够归入大数据范畴的案例数不胜数,本文主要以启发性和独创性为主线,选择最具典型意义的案例进行描述,希望尽可能地从数据源、分析方法和价值实现等角度体现出大数据的真正内涵。图图..大数据产业链分布(彭博)大数据产业链分布(彭博)2.1数据源数据源(Datasources)本区块内的企业基于自身业务产生或采集了大量数据,并通过租售等方式直接对外交付数据,还包括纯粹提供数据交易平台的企业。判断企业是否属于数据源的关键在于,这类企业的客户还需要对所获得的数据进行分析和挖掘才能对决策形成真正的支持。大数据与传统数据分析理念的一大区别就在于强调数据的外部性,即数据离开了其
19、产生和消费的传统路径,为其他行业或领域所用。数据外部性的典型场景包括:电信运营商和政府合作,可以在交通运输、市政规划和人口统计等方面发挥作用;金融数据和电商数据结合,可以用于诸如小微贷款一类的金融产品和服务;物流数据和电商数据相结合,可以勾勒出经济领域的宏观和微观运行情况;农业和气象数据应用到金融领域,可以为农业保险和理赔提供高价值的信息;遥感卫星数据与耕地抽样数据相结合,可以打破传统的统计路径,实现更为客观的粮食产量统计;电表数据可供房地产行业进行空置率的估算。数据源类企业就是实现数据外部性的基础渠道,在对各类数据进行采集和整合之后,提供给各行各业进行目的和方法各不相同的分析和挖掘
23、分别对数据资产存在着管理和融资的需求,因此在大数据产业链的数据源区块,孕育着一种类似银行性质的产业形态,即数据银行。从融资角度看,数据银行的本质在于实现数据供需的对接,为数据所有者找到数据资产价值变现的出口,同时使需求方获得自身业务发展所需的数据资源。与传统银行或交易平台不同的是,数据银行并不是简单地对供需进行对接和撮合:数据资产类型各异,没有统一的形式和度量,数据银行必须积极从多个源头引入资源,以专业的知识和技能建立原始数据和最终应用之间的通路,让数据需求方可以顺利以市场化的手段获得所需的数据资源。从资产管理的角度看,数据银行的本质在于为数据资源的价值体现提供便利。传统银行所管理的金
25、Gartner公司估算,数据混杂的CRM系统将使企业收入下降25%,而Experian公司则认为不准确的数据很可能导致公司的收入平均损失12%。通过脱敏、去噪和去重处理,以及针对文本、图像和音视频等海量非结构化数据的标注和特征抽取,能够将数据转化为需求方易于理解和利用的形式,降低数据分析和挖掘的难度。这一环节是数据资产融资和管理的关键,是提取和挖掘数据所含高价值信息和知识的前提,是大数据技术发展和应用开拓的核心推动力。图图..数据数据银行银行模式模式综上所述,数据银行的本质就在于实现了数据资源的商品化、标准化、资产化,承载着数据资产形成、管理和交易的职责。由于欧美先进
26、国家在数据利用方面有较深传统,在多个行业内自发形成了数据流通的渠道,数据资源商品化、标准化和资产化的动作已渗透到大数据产业链的各个环节中,全社会对于数据银行或综合性数据交易平台的需求并不突出。但是,对于信息产业相对落后、数据利用意识比较淡薄的国家和地区,数据银行形态的培育非常重要,从而在市场供给和需求之间对数据资源进行深度资产化改造,使数据真正成为大数据产业以及其他行业和领域发展的助推器。众包模式众包模式随着大数据的应用扩展和深化,社会对数据的需求日益上升,现有的数据获取渠道和方式已无法满足科学研究和产业发展的需求,更为便捷的获取方式、更为广泛的覆盖面和更为真实准确的数据已成为迫
27、切的需要。随着互联网、移动互联网和智能设备的发展,每个人都成为一个潜在的数据采集点,导致众包(crowdsourcing)模式成为大数据时代一种极具现实意义的数据采集方式。众包这一概念由美国连线杂志的记者杰夫豪(JeffHowe)在2006年6月明确提出,指把工作任务以自由、自愿的形式外包给大众的方法,通常用于完成那些耗费大量人力的繁重任务。众包的思路并非新鲜事物,18世纪英国就通过向民间征集海洋经度的精确测量方法,解决了牛顿、惠更斯和哈雷等著名科学家未能解决的问题,获奖者是一位来自于乡村的木匠。此后的几个世纪中,类似的方法曾经有力地推动了航空、计算机等行业的发展。随着互联网的出现
28、,众包的覆盖范围和可参与度都大大提升,日益成为一种可行的商业模式与组织方式。以当前的技术发展情况而言,数据的采集、标注和清理等重复性工作还很难完全实现自动化,比如人体特征的采集、图片的标注和重复数据的剔除等,而这些工作所需耗用的人力随着数据量的剧增而成为企业或组织难以承受的重负。对于这些需要大量人力介入才能保证质量的工作,众包模式提供了一种成本可控、规模易伸缩的实现途径。比较典型的案例有:Twitter使用亚马逊的众包平台MechanicalTurk,来响应用户对热点话题的搜索查询。国家地理曾发动近2.8万人在蒙古的卫星图像中搜寻成吉思汗的墓地。澳大利亚昆士兰的公交乘客用
31、础架构必须拥有高度的可扩展性;为了快速应对变化、响应市场,实时分析的需求日益强烈,基础架构必须具有强大的数据吞吐和计算能力。基础架构区块中的企业主要提供大数据的存储和管理产品或服务,为后续的分析和挖掘提供支撑,包含各类新兴的NoSQL、NewSQL、MPP和图数据库,以及云服务、数据转换工具、管理/监控工具和存储设备等。Neo4j。图形数据库,将结构化数据以图结构进行存储,具备完全的事物特性。Asterdata。MPP数据库,起源于斯坦福大学,已被Teradata收购。Cloudera。基于Hadoop的产品与解决方案提供商。MapR。基于Hadoop的产品与解决方
32、案提供商,用自身文件系统取代HDFS,实现高速、镜像、快照等功能。Cleversafe。分布式存储产品,为提升系统吞吐率优化了HDFS的副本设置。VoltDB。内存数据库产品,NewSQL的代表之一。同时满足关系型数据库的ACID原则以及NoSQL的可扩展性。StackIQ。Hadoop系统管理工具。Greenplum。MPP数据库的代表之一,具有高可扩展性的关系型并行数据库。微软Dryad。关系型数据库的并行实现,能够将SQL语句转化为基于DAG的多个操作。Box和Dropbox。提供大数据存储的云服务。2.3跨平台跨平台(Crossinf
33、rastructure)本区块中多为提供计算、存储和分析平台或服务的大型厂商,提供对大数据分析进行支撑的软硬件一体化方案。IBM在DB2中集成了BLU技术、列式优化和并行向量处理等技术,以内存计算大幅提升数据分析效率。在基础平台方面,为Hadoop平台提供支持,同时有针对性地对GPFS文件系统进行了改造。微软推出了基于Hadoop的大数据处理的组件,实现了SQLServer与Hadoop的连接;推出LINQPack、Project“Daytona”以及ExcelDataScope,让用户可以在WindowsAzure云上进行大数据分
34、析;2015年初,微软收购R语言的商业版提供商RevolutionAnalytics,加强数据分析方面的能力建设。SAS通过与Hadoop的集成,为客户提供分布式的分析产品。1010data公司提供基于云计算平台的数据分析服务。Talend公司针对数据集成提供专业的ETL工具和主数据管理云服务。惠普推出了针对Hadoop平台优化的AppSystemforApacheHadoop,提供包括底层硬件、Hadoop和实时数据分析的一体式解决方案。2.4开源开源(Opensource)由企业、高校或科研机构所研发并开源的大数据产品,是当前大数据基础技术发
35、展的最大推动力,通常集中在基础性平台和分析工具两大类。Hadoop。起源于雅虎公司,是当前主流的大数据存储和处理平台,实现了分布式的计算框架MapReduce和文件存储系统HDFS。Spark。诞生于加州伯克利大学AMP实验室,是新一代大数据分布式处理框架,以高效的内存计算著称,逐渐成为大数据处理环节的主流平台。MongoDB。由10gen公司开发,著名的分布式NoSQL数据库,由于功能丰富,在使用方面最接近关系数据库。Storm。由推特开发的大数据流式分析解决方案,在接收数据的同时就进行计算和分析,具备一定的故障处理能力。Mahout。数据挖掘工具,起源于
36、Apache基金会,实现了一个分布式机器学习算法的集合。Solr。起源于ApacheLucene项目的开源企业搜索平台,功能包括全文检索、命中标示和分面搜索等。2.5分析分析(Analytics)除了存储,大数据管理的另一项大的挑战是数据分析,只有通过分析才能获取智能、深入、有价值的信息。数据分析大致可以分为以下几类:数据挖掘,大数据分析的理论核心,基于不同的数据类型和格式呈现出数据的各种特性,挖掘其中蕴涵的价值;预测性分析,大数据分析最重要的应用领域之一,通过训练数据建立模型,并以此为基础预测未来的趋势和走向;非结构化分析,针对海量的音频、图像、视频和文本数据,结合人工
37、智能技术抽取和提炼,使之能够用于后续的分析的挖掘;可视化分析,直观的呈现数据统计分布特性,使普通用户能够对数据形成大致的理解。图图..分析领域及技术分析领域及技术在大数据海量、多源、异构特性和实时处理的需求推动下,专门针对大数据的分析工具蓬勃发展,尤其是对于非结构化数据以及对未来进行预测的分析。从创业和获得投资的情况来看,本区块是整个大数据产业链中最为活跃的部分,其中典型的企业或产品如下所述:甲骨文宣布收购EndecaTechnologies,为企业用户提供非结构化数据的搜索和管理服务。SAP推出了Hana平台,能够对非结构化数据进行高速分析,是大数据内存计算的代表性技术
39、是政府、金融等行业提供解决方案,2014年底以150亿美元估值完成融资。Clearstory为客户提供数据整合工具,可以整合包括Facebook在内的多种数据源。Affectiva专注于人脸表情识别,商业媒体评为发展最快的创业公司之一。2012年美国总统竞选期间,Affectiva追踪人们观看奥巴马和罗姆尼辩论片段的表情,结果以73%正确率判断出了选民投票结果。2.5.1可视化可视化图形是直观呈现数据的直接方法,数据可视化就是研究如何利用图形,展现数据中隐含的信息,发掘数据中所包含的规律。数据可视化所需的专业知识横跨计算机、统计和心理学。随着大数据的发展,海量的数据
40、需要以直观、便捷的方式展示给技术和业务人员。大数据可视化分析领域的典型公司包括:RiskManagementSolutions用热图来直观标示自然灾害的风险和类别,包括地震、龙卷风、飓风、暴风、森林大火和火山爆发等,进而为保险公司提供自然灾难风险模型,供客户估算理赔风险。Compuware公司每天采集80亿个数据点,对外提供Web服务故障热图,监测全球1500个Web服务。RetailNext基于店内的摄像头、Wi-Fi和其他探测设备所采集的数据,用热图显示顾客在商店内的实际行走模式,超市或零售店家可以据此来摆放货物或评估促销活动的实际效果。DOMO公司为
44、索尼影业等巨头提供咨询服务。Pandora、Rithm、Spotify等通过对客户的音乐偏好分析,为消费者提供个性化推荐服务。博彩业巨头凯撒娱乐(CaesarsEntertainment)分析客户的网页点击和老虎机游戏记录,提升客户营销和服务的实时性。2.6.2交通交通/物流物流随着交通系统信息化程度的加深,以及各种路测和车载智能传感器的普及,大量包含道路、公交、轨道交通、出租汽车、航空、铁路、航运等信息的数据得以产生并被存储下来,可在构建实时、准确、高效的综合交通运输管理系统方面发挥巨大作用。交通基础设施建设和运营涉及大量工程和多个环节,而大数据技术能够对海量信
46、集、整合和分析为基础,其最基础的数据源就是交通领域的数据。此外,物流业和大型电商的仓储配送,以及以Uber为代表的出租车市场的颠覆者,也都引入了大数据的特性。当前,大数据在交通和物流领域的典型应用案例有:UPS基于超过46000货车上的传感器数据来规划运输线路。数据包括速度、方向、刹车等。同时基于在线地图数据,实时规划每辆车的取货和送货。2011年,减少了8500万英里的行车路程,从而节省了840万加仑的燃料。早在2000年,UPS就利用这种基于大数据的预测性分析系统来检测全美60000辆车的实时车况,以便及时地进行主动修理。法国电信公司Orange承建
50、源调度和远程医疗顾问等方面广阔的应用空间,而实时分析和图像分析一类的技术需求则进一步提升了大数据进入医疗健康行业的必要性。可见,大数据的引入已成为医疗健康行业进一步发展的必要条件和助推器。据麦肯锡2010年测算,大数据将给医疗健康产业带来3330亿美金的增值。当前,大数据在医疗健康领域的主要应用场景包括:医疗数据的结构化。全球医疗数据仅有五分之一为适于计算机处理的结构化数据,其余五分之四为非结构化数据,包括手写病历、各类文档、音视频文件等,其增长速度是结构化数据的15倍。优化运营。医疗机构通过对医疗档案数据的转化、整合、统计和分析,实现对管理和监管等环节的优化。新药研制。
51、通过大数据技术,加大临床数据采集力度,运用基因序列分析等先进技术,提升疾病发现和新药研发的效率。通过对产品上市后用药人群分析,检测其疗效和副作用,从而达到提高研发成功率的目的。个性化医疗。在患者就诊时实时整合其体征数据、临床记录和日常生活信息,提供具有针对性的高效医疗服务。当前,医疗和健康行业的典型大数据企业有:HealthFidelity、Explorys、PracticeFusion、athenahealthInc.和Humedica等,采用自然语言处理技术实现非结构化数据到结构化数据的转化。Flatiron被称为“癌症治疗的基础设施”,通过对临床数据收集整理方
52、法的创新,为医生提供全面而详尽的数据,从而在整体上加速征服疾病的进度。FoundationMedicine采集和分析患者基因组数据,通过特定算法进行突变分析和解读,以临床建议形式辅助医生设定治疗方案。Ginger.IO记录患者的行为和位置移动,帮助护士远程监控诸如糖尿病等类患者的实时情况,以便提醒其停止不利于治疗的行为。美国北卡罗来纳医疗体系(CarolinasHealthCareSystem)采集200多万客户的消费数据,识别其中高风险的患者,比如经常购买酒精饮料的人可能有抑郁症隐患等。DNAnexus公司为医疗行业客户提供DNA数据的管理和分析平台。Bina
53、Technology、23andMe以及SpiralGenetics则专注于基因测序技术本身的研究。罗氏制药收购基因测序公司SignatureDiagnostics,加速靶向药物的开发。IBM基于超级计算机Watson,与WellPoint合作进行恶性肿瘤的临床诊断,与BlueCross合作进行医保数据分析,与Sloan癌症中心合作进行癌症研究。2.6.4金融金融金融业在信息技术和人才等方面相较其他产业具有明显的优势,在开展业务的过程中积累了海量的高价值数据,不但属于数据密集型的行业,而且具有巨大的数据价值变现潜力。比如,据波士顿咨询(BCG)
55、售等情况进行分析。为了更全面的了解客户,除了自身业务所采集到的数据之外,需要整合更多的外部数据,比如客户在社交媒体上的行为数据、客户在电商网站的交易数据、企业客户的产业链上下游数据等。精准营销精准营销。在运用大数据理念和技术对客户全面画像之后,可以通过多种创新提升营销的精度和准度:(1)实时营销。获取用户的当前状况来提升营销活动的时效性,比如根据客户当前的地点、最近的消费记录和其他信息(工作变化、迁移等)来推送具有针对性的产品或服务;(2)个性化推荐。根据客户的年龄、资产规模、理财偏好等进行产品或服务的推荐,挖掘出用户潜在的金融服务需求;(3)客户挽留。根据用户近期的动态构建流失预
57、和产品服务提升:(1)市场和渠道分析优化。通过大数据,银行可以监控不同市场推广渠道尤其是网络渠道推广的质量,从而进行合作渠道的调整和优化。同时,也可以分析哪些渠道更适合推广哪类银行产品或者服务,从而进行渠道推广策略的优化。(2)产品和服务优化:银行可以将客户行为转化为信息流,并从中分析客户的个性特征和风险偏好,更深层次地理解客户的习惯,智能化分析和预测客户需求,从而进行产品创新和服务优化。如兴业银行目前对大数据进行初步分析,通过对还款数据的挖掘比较,区分优质客户,根据客户还款数额的差别,提供差异化的金融产品和服务方式。市场预测市场预测。金融市场价格走势很大程度上受市场情绪的左右,通过对
60、量可达1000个以上。新加坡星展银行(DBS)与商铺进行合作,当消费者路经店铺时,向其手机推送相应的优惠提示,比如在20分钟内使用星展银行信用卡可享受10%的折扣。Paypal基于Hadoop、Cassandra和Luster文件系统构建大数据技术栈,并应用于欺诈识别,第一年即挽回多达7亿美元的损失。美国KeyBank银行通过对网点客户行为的实时监测,定时调配员工并关掉某些非必要的网点,每年因此节省3500万美元的运营费用。波士顿咨询(BCG)结合银行业内部数据(现有的网点分布和业绩状况等)和外部数据(各个地区的人口数量、人口结构、收入水平等)
62、0多个独立指数,如每分钟的心情状态(乐观、忧郁、快乐、恐惧和生气等),为金融机构提供第三方服务。华尔街的德温特资本市场公司对3.4亿社交媒体用户的留言进行情感分析,以大众情绪为指引来决定股票买卖时机。英国对冲基金DerwentCapitalMarkets专门建立了一支对冲基金,通过分析Twitter的数据内容来感知市场情绪,指导投资策略。在首月的交易中以1.85%的收益率超过0.76%的市场平均业绩。Estimize公司通过众包模式采集大众对于上市公司下一季度每股收益和收入的预测,准确率往往超过专业机构。Cignifi针对手机预付费用户开发风险评估模型,基于付费、
63、通话、上网及其他使用情况预测贷款人的还款意愿和能力。Kabbage使用来自于亚马逊,UPS和Intuit的信用评分模型数据,以及企业销量和客户反馈,评估中小企业的风险等级。美国一家创业公司用电梯数据和黄页数据帮助银行进行风险预警。如果某家公司的电梯数据突然发生异常变化,某种程度上反映了该公司的经营状况,比如电梯停靠次数突然减少可能意味着员工的减少或者客户拜访次数的减少。互联网金融互联网金融除了各类应用场景之外,大数据在金融领域的应用还催生了所谓互联网金融的新兴服务模式。以互联网、云计算和大数据为代表的现代信息科技对金融行业产生了巨大的影响,再加上全球化浪潮的冲击,金融领域内原有的信
64、息壁垒被打破,导致传统的中介开始消解,新型融资模式和平台开始涌现,即互联网金融的概念。图图..互联网金融互联网金融互联网金融的称谓本身从字面上看并不准确,其本质不是将金融产品和服务的交付界面移到互联网或移动应用上,而主要在于以下两点:更全面和准确的企业和个人画像。引入各类网络数据,在很大程度上解决市场信息不对称的问题。网络数据尤其是社交媒体信息蕴含了丰富的企业、组织或个人之间接触、关联和群聚的信息,能够展现财产、经营、消费习惯和商业道德等各个方面的历史和当前状况。在目前的现实规则和客观条件限制下,上述信息中很大一部分属于个人和机构没有披露义务的范畴,同时采用传统技术手段也难以采集。随
65、着互联网和大数据技术的发展,上述数据的采集和分析成为可能,使得决策的数据支撑面得以扩展,进而极大提升了信用评级和风险控制的效率和准确率,大幅降低全社会的交易成本。更广阔的金融服务市场。网络数据的采集和网络接口的构建,其本质在于通过更丰富多样的数据和客户触点,扩大了金融服务的受众面。据统计,全球范围约有50%的成年人还没有被金融服务所覆盖,其原因有二:征信方式的落后导致很大一部分民众并未被纳入到信贷业务的覆盖范围内;对于银行记录较少、学生或新移民等人群,征信数据的缺失导致无法对其进行信用评估。而社交媒体、电商消费记录等数据的引入则能够极大地扩大信用评估模型所适用人群的覆盖面,从而实现诸如信贷
67、业活动、搜索历史和社交网络信息,根据思科的预测,2017年全球移动数据流量将比2012年提升13倍。而且,随着移动支付的普及,商业活动的信息也能够被移动设备所采集和记录。可见,运营商所处的数据交换中心地位,是Google和Facebook等巨头无法企及的:图图..运营商数据对客户的刻画运营商数据对客户的刻画电信运营商数据的优势主要体现在:(1)维度丰富。运营商数据涵盖了用户的行为、位置、消费和各类人口统计学特征,是用户画像的物理基础;(2)群体性强。全球各个国家的电信市场基本都由为数不多的运营商所占据,海量用户的累积导致运营商数据可以充分反映群体客户的特征;(3)
70、公司从运营商处收集智能手机使用信息和位置数据,并销售给市场营销机构。美国定位服务提供商AirSage采集来自运营商基站的实时数据,在经过匿名处理和加密之后,对外提供特定地区内的人群特征分析服务。西班牙电信成立了DynamicInsights部门,基于完全匿名和聚合的移动网络数据,对影响某个时段、某个地点人流量的关键因素进行分析,并将分析结果作为商品出售。日本NTT公司利用所掌握的用户信息向金融、电子商务、物联网等周边产业进行扩张。法国运营商SFR通过Intersec公司的软件方案,分析球赛后观众主要通过哪些地铁站疏散,而后交通部门则根据分析结果在热点地区提供短
73、。而人力公司则可以通过数据分析,为各行各业提供人力资源管理解决方案和行业宏观分析报告。当前,大数据在人力资源领域的各类典型案例有:LinkedIn公司基于大数据分析,构建了用户的身份识别系统,比如哪些人在企业里属于关键决策人等。KiranAnalytics公司为美国富国银行提供基于生物计量的员工评测方案,对员工进行分析并预测离职可能性,并对表现优异的员工进行群体画像,从而指导未来的招聘方案。Glassdoor、Simplyhired和ResumUp等企业通过各种方式收集企业信息,为求职者提供企业评价、薪水范围、面试问题、招聘启事等信息,达成供需双方的信息对等。Pyme
77、转化而成的。沃尔玛在2013年6月收购了大数据预测公司Inkiru,以此获得所需的分析人才、技术和平台。梅西百货(Macys)基于Hadoop平台,综合运用R、Impala、SAS、Vertica和Tableau等各类分析工具,开发机器学习算法,对企业数据进行分析,提升客户认知水平和个性化推荐的精度。西尔斯百货(Sears)引入Kafka和Storm,对业务数据进行实时处理,将复杂营销活动的准备期从8个礼拜减少到1个礼拜。塔吉特百货(Target)专门成立了GuestMarketingAnalytics部门,针对每个用户专门建档进行分析,
82、周期长、影响因子复杂,导致农业数据涵盖面广、数据源复杂,大数据理念、技术和方法具有极大的应用空间,有助于解决农业领域数据的采集、存储、计算与应用问题。(2)随着全球人口的增加、气候极端化和能源价格波动的加剧,农业领域对于提升风险管理水平和运营效率的需求日益强烈。传感器、物联网、云计算和大数据等技术的成熟为应对挑战提供了契机,能够推动农业向集约化、精准化和智能化的方向转变。大数据在农业领域主要有以下应用场景:科学化管理。通过对农田环境数据采集和遥感监测,通过大数据分析,为土质管理、产量评估、病虫害防控和化肥药剂管理提供支持。市场监控。通过对气候、农产品价格、道路交通信息和终端消费等数据
83、的整合与分析,实时监测并评估市场需求和价格变动等情况。精细化耕种。整合有关土壤、水资源、动植物和气候的数据并进行分析,实现耕种模式和方法的精细化。食品安全。实时采集生产、运输和消费等各个环节数据,结合条形码、RFID等技术,实现对农产品全产业链条的监控和溯源。图图..农业大数据示意农业大数据示意当前,在农业领域,最具有大数据内涵和现实意义的应用场景是基于环境数据提升生产、管理、运输等环节的效率。据IBM统计,全球90%以上的农作物损失是由于天气原因造成的,50%的粮食损耗发生在运输环节。准确的天气建模预测可以将农作物损失减少25%,提升农产品生产和运输的效率。当前,大数据
84、在全球农业领域的典型应用案例有:孟山都公司用历史的降水和土壤品质数据,帮助农民预测产出和管理风险。2012年,孟山都花2.5亿美元收购的种植技术公司PrecisionPlanting,实现每块农田上耕种模式的差异化。Climate公司(已被孟山都以9.3亿美元收购)每天从250万个采集点获取天气数据,并结合大量的天气模拟、海量的植物根部构造和土质分析等信息对意外天气风险做出综合判断,向农民提供农作物保险。芝加哥天气交易所(ChicagoWeatherExchange)基于气象数据的采集和分析,提供温度和降雪的期货合约。Farmeron公司为农民提供类似于Goo
86、客户管理等基础性横向应用,用于协调管理者、员工与部门之间的关系,为企业运营、管理及业务提供全面的综合支持。超越行业的界限,当前全球企业界面临的共同的挑战和机遇。在金融危机的威胁尚未完全消除的背景下,市场竞争加剧、利润下滑、企业增长放缓等是企业界必须应对的挑战。而在互联网发展的带动下,新市场、新渠道、新需求和新交付模式的不断涌现,也为各行业带来巨大的市场空间,对企业来说是宝贵的历史机遇。为了迎接挑战、把握机遇,企业必须贯彻大数据的理念,以数据驱动业务,引入相应的大数据技术,全面了解企业运营状况和客户需求,持续优化运营,提升产品和服务水平,发掘新的业务增长点。大数据在企业应用领域的切入点主
87、要是实时采集、整合和分析企业内外部的数据(包括供应商信息、采购数据、库存信息、订单信息、销售数据和客户反馈等),从而形成对企业运营的全面、深刻洞察并对经营决策进行支撑。与企业应用领域传统的数据分析相比,大数据在企业应用中最鲜明的特点是引入了对音频、视频、文档、工作流、日志、社交媒体等非结构化数据的整合和挖掘能力。不局限于具体垂直行业划分,大数据在企业界的通用性案例有:Gainsight公司整合包括Salesforce的多种数据源,对销售日志进行分析,以SaaS的模式为企业提供客户挽留与流失预测服务。FractalAnalytics公司基于客户的交易记录和社交媒体内
88、容分析客户特征,帮助企业对客户进行全面画像。Aspect公司开发了语音数据分析平台AspectAnalyticsforSpeechandText,专门针对呼叫中心的非结构化语音数据进行分析,深刻洞察客户的需求。Elasticsearch公司基于开源的ApacheLucene系统,为企业提供内容管理和搜索方案。WGBH电视台采用RedPoint公司的技术来实现多渠道用户数据的清洗和整合。TideMark公司为企业客户提供绩效管理和预测分析云服务。2.6.11能源能源能源行业是国民经济和社会发展的基础,具有多环节、多地域特色,需要对长期负荷以及环境变化的
89、监控、分析和预测,这是大数据在能源行业应用的主要切入点。基于各类传感器所采集的海量数据,能够对能源系统实时的监测和分析,提升运维和服务的效率,优化能耗负载。同时,基于气象数据的分析建模来减少极端天气给基础设施造成的损失。下列是几种能源行业的大数据典型应用场景:在能源供应链上实现信息链的全覆盖,及时掌握上下游的行为和变化,实现能源生产、分配以及消耗的优化,支持能源网络的安全检测与控制(包括灾难预警、调度决策和用量预测)、客户行为分析和精细化运营管理等多方面。基于诸如智能电表等能耗采集设备,能源供应公司可以快速采集分析能源用量,根据能耗高峰和低谷时段的制定不同的价格策略,在平衡了系统负载的
91、eCaliforniaISO公司采集天气、传感器和电表数据,实现美国加州电网的优化调配,预测停电等事故的发生概率。Arad公司在IBM的协助下监测自来水管道和水表的实时状况,实现水资源的优化配置。EnergyHub公司与传感器网络厂商EarthNetworks合作,利用气象数据提高能源供给设施的效率。TXUEnergy公司利用智能电表实时采集的数据,通过价格杠杆来平抑用电高峰和低谷的波动幅度,鼓励用户避开用电高峰。GridNavigator公司为楼宇业主提供能够更好控制能源使用的软件系统。德国部分地区通过智能电网终端每隔五分钟或十分钟收集一次数据,以此预
93、具时效性、更加全面。比如,麻省理工通过在线商品价格预测CPI数据,IBM日本通过搜索引擎热词统计来评估美国的ISM制造业指数。迅猛增长的网络数据背后是相互联系的各种人群,结合心理学、经济学、信息科学等不同学科共同探索网络数据产生、扩散和涌现的基本规律,揭示其后所隐藏的社会动向和矛盾隐患,能够为社会稳定和国家安全提供及时而充分的决策依据。此外,大数据在提升突发事件反应速度和处理方式上也有较大的发挥空间。政府部门和公共服务机构沉淀了大量的宝贵数据资源,这些数据是整个社会经济活动的数字化记录,运用大数据的理念和技术可以极大地提升工作效率。比如,通过图像识别技术,对海量的监控视频数据进
94、行分析和挖掘,可以及时发现治安隐患。目前,各国在政府决策和公共服务领域的大数据应用典型案例有:英国国家统计局通过大数据技术进行人口普查,在节省约5亿英镑经费的同时还提升了人口数据的实时性。纽约州能源研究和发展管理局运用大数据技术来评估气候变化的影响,并为农业、公共卫生、能源和交通运输等领域提供应对气候变化的策略。美国拉斯维加斯市通过传感器技术和数据可视化建模,构建市政基础设施实景图,提升事故处置的效率。德国某些州政府建立了覆盖人口分布、地理数据、矿藏信息等领域的数据库,通过数据分析让决策更加科学化。富士通公司基于用户手机访问社交媒体的数据,帮助东京市政府建立预测犯罪或暴力事件
98、,因而也归入数据源区块;某些企业拥有较强的数据分析技术,在大数据产业中最大的价值体现在于为其他企业提供分析技术,尽管其当前没有直接向市场交付分析服务或方案,仍然归入分析区块。3.1数据源数据源与国外的数据源区块相比,我国大数据产业对于数据源有着自身的特点。由于数据流通在全社会还未形成规模,国内数据源区块中的综合性平台比例较为明显,尤其是培育出了集采集、加工和流通功能于一体的数据银行典型案例。同时,在国内互联网向其他行业迅速渗透的趋势下,各类线下数据的采集和整合现象也较为突出(尽管未必直接通过数据租赁或销售获取利益)。根据数据所涉及的行业和企业服务形态,国内的数据源类企业可分为以下几
99、类:数据银行。最为典型的是数据堂(北京)科技股份有限公司。具有鲜明的数据市场中介功能,成为数据资源供需对接的桥梁:主动采集数据资源满足各类需求;履行数据资产管理职能,通过数据加工和转化服务,实现数据资源的变现和增值。综合性数据流通平台。中关村数海大数据交易平台是国内首个面向数据交易的产业组织,通过开放API进行数据录入、检索、调用,为政府机构、科研单位、企业乃至个人提供数据交易和使用的场所。开放平台。数据堂基于自身的各类海量数据,对外开放通用数据API;淘宝和百度基于自身的业务数据,分别推出了数据魔方和数据开放平台;聚合数据也通过API接口为应用开发者提供各类数据。众包采集平台
102、数据;星红桉公司通过机顶盒和有线电视网,积累了大量关于电视节目收看信息和电视用户数据;粤科软件(2015年4月被阿里影业以8.3亿元收购)作为我国影院市场的主要系统供应商,掌握最为底层的票房数据,并为各类在线选座服务提供支持;无锡天脉聚源建有全国最大的视频节目加工中心和数据库。旅游类。汇通天下公司为酒店提供在线中央预订、分销、管理和交易系统,北京中长石基公司(阿里巴巴集团28亿入股)在国内五星级酒店信息管理系统市场占90%份额,都掌握有大量的酒店业务和客户信息;票管家为景区提供电子票务解决方案,掌握大量景区人流数据。地理/环境类。长地万方、凯立德、北京城际高科等企业通过测绘收
104、车发动机数据,为物流行业提供支持。个人类。涟漪采集医师的职称、论文、同行口碑等大量文本信息;微糖和橙意家人分别采集糖尿病和鼾症患者身体数据;易达讯负责建设全国人口库和法人库,拥有全面的法人数据;上海万达信息建设了全国性的医疗健康服务平台和社会保障系统,覆盖上亿人口;厦门可睿特通过专业仪器采集人体足型、体形等数据,为电商和鞋类品牌提供服务;爱康国宾和慈铭体检拥有海量且较为全面的个人健康数据。教育/知识类。同方知网拥有海量的科技文献资源;知乎、百度知道、新浪爱问等通过众包式的问题解答模式,采集了海量的知识信息,百度基于百度知道推出了教育类应用作业帮。农业/环境类。北京太谷雨田,因承建农
106、un的云存储服务主要针对于图片和视频数据。基础平台。华为、华胜天成、浪潮、曙光等公司推出大数据分析平台级的方案;同有科技主要致力于大数据数据的存储、保护和容灾系统的研发;用友基于大数据技术,提供营销管理、供应链、项目管理等企业云服务。算法。九章云极科技为企业提供大数据分析所需的基础环境和常见算法库。监控。并行科技开发了针对大数据基础设施的监控和性能分析工具。非关系型数据库。巨彬公司推出了分布式NoSQL数据库sequoiadb,已获千万美元级的投资。分布式存储。龙存科技研发了具有自主知识产权的分布式存储方案,并以在石油、广电和互联网等行业得到了普遍应用。行业数据平台
107、。京东、小米、Broadlink和庆科致力于做物联网行业的基础设施,成为各类智能设备的数据收集和管理平台;随手房供中介记录诸如房屋类型、地址面积、客户信息等数据;春雨医生和易随诊为医生提供病患资料的统一存储和管理平台;博康智能与海康威视等专注于各类视频监控数据的采集、存储和管理。3.3分析分析在大数据分析区块,从分析技术的角度进行区分,国内的企业大致可分为以下几类:商业智能类。直接为企业提供决策支持,侧重的行业各有不同,但基本都是针对业务、运维和客户进行分析,典型的厂商有华院数据、美林数据、龙信数据、星图数据等。专注于金融行业大数据分析的有融智网信,拓尔思专注于非结构化数据处理的软件
108、研发。图像分析。Face+主要提供人脸识别的技术方案;汉王科技侧重于文字和人脸的识别;格林深瞳专注于计算机视觉方面的研究,获红杉3000万美元投资;图谱科技基于用户提供的标签进行建模,实现图片的识别和分类;面包旅行针对海量的风景区图片进行结构化处理和识别;天创征腾针对金融行业提供票据的识别技术;南京智搜智能专注于流媒体的自动化识别和搜索;杭州摩图科技致力于图像识别引擎的开发;中科奥森基于图像识别技术探索人、车、物、事件的自动识别和检索;重庆中科雲從专注于动态人脸识别、大规模人群监测、车辆多属性深度分析、警用图侦等领域;上海银晨智能识别科技有限公司的人脸识别技术广泛用于公安、金融
109、、司法、民航等领域,支持了上海世博会安保工作。语音识别。北京羽扇智公司开发的出门问问应用,专注于中文语音的识别技术研发;广州灵聚信息致力于以语音领域的中文人工智能交互引擎开发;普强信息(北京)专注于中文的智能语音识别和自然语言处理技术。其他诸如科大讯飞等语音识别的领先企业由于大多直接进入了面向消费者的服务领域,因此归类到应用区块中。实时处理。深圳祥云信息科技专注于复杂事务处理、CUDA和神经网络等技术的融合,面向股票交易进行实时分析;杭州同盾科技针对网络交易进行实时分析,识别欺诈现象。空间分析。基于地理信息系统(GIS)基础软件对外提供地理空间信息技术服务,包括超图软件和数字空间等
110、公司;中科九度(北京)空间信息技术有限责任公司专注于遥感图像处理和空间信息分析。基因分析。华大基因和解码DNA公司致力于基因的检测和分析。日志分析。翰思(Hansight)公司基于日志分析,提供企业安全解决方案。个体分析。百分点通过网络采集大量的消费者偏好信息,为企业提供业务优化方案;友盟专注于移动互联网用户的分析,为应用开发者提供决策支持;北京至信普林科技有限公司基于自然语言处理和深度学习技术,为企业提供全面的客户画像服务。可视化。永洪科技、海云数据和苏州国云数据专注于大数据的可视化分析。3.4应用应用3.4.1医疗医疗/健康健康正如全球大数据大数据产业链部分的分析
112、是医疗大数据的典型应用场景。根据Frost&Sullivan公司的调查,2014年-2019年中国体检市场份额的复合增长率将达到22.5%,中国健康体检的市场规模将会在2020年达到3000亿元。庞大的市场规模和发展空间,将使体检机构成为我国个人健康数据的主要源头之一,诸如爱康国宾和慈铭体检等大型体检连锁都开始从自身掌握的海量体检数据为入口,对客户健康状况加以解读和判断,将业务扩展到后续的医疗健康服务环节。但是,由于目前大数据分析的技术色彩仍显单薄,这类体检机构被归入到数据源区块中。同时,行业外的大型企业也开始以类似的模式涉足医疗健康行业,比如百度、平安、阿里和腾
113、讯等。其中,以百度的举措最具大数据特质:接入北京市的卫生信息系统,通过移动医疗健康平台和智能穿戴设备记录人们的健康数据,依托百度知道专家资源和病例问答内容,以及好大夫在线、39健康网、寻医问药网、有问必答网、育儿网、中国育婴网、宝宝树等医疗健康类网站的数据,上线了百度医前智能问诊平台。在医院环节,以东软、金蝶等大型厂商为代表的企业也开始在我国医院信息化建设中涉足医疗档案整合和分析。3.4.2电子商务电子商务我国幅员辽阔、市场庞大和线下成本过高等因素,导致以淘宝、京东等为代表的网络零售交易平台和电子商务网站得以蓬勃发展。基于所掌握的海量消费者和商家的数据,电商可以将大数据应用在下列
114、三个方面:精准营销。对用户消费全过程数据(包括浏览、交易、客服、配送和物流等)进行分析,掌握用户基本属性、购买能力、行为特征、社交特征、心理特征和兴趣偏好等多方面信息,为其提供具有高度针对性的服务;商家和供应商决策支持。提供具有高度时效性的行业平均数据、市场需求变化、产业上下游动态等市场信息,帮助商家和供应商分析运营状态,预测销售和用户趋势,并提供针对性的运营优化策略;自身平台运营优化。通过大数据分析为管理层以及各级运营管理人员提供数据分析和决策支持服务。需要指出的是,Google、亚马逊和Facebook等互联网巨头对大数据概念的推广起到了重要的作用,对于社交媒体和网购记录等数
115、据的分析一直是大数据研究的热点,其中基本的理念、算法和模型都具有较高的普及度。因此,无论规模大小以及是否局限于某垂直行业,大多数电子商务网站都具备了一定的大数据特征。但是,从数据规模、覆盖面、视角丰富度和实时性等角度考虑,只有足够大的电子商务平台才能为大数据提供真正的应用场景,比如亚马逊由于几乎涵盖了全美所有生活必需品并掌握了海量消费者的原始数据,分析和预测的准确性才有足够的保证。有鉴于此,本文只将淘宝和京东等大型平台作为大数据在我国电子商务领域的典型应用案例。3.4.3语音服务语音服务我国互联网和移动互联网具有庞大的市场规模和潜力,促使业界在网络服务上不断追求创新和用户体验的提升。
124、理财和信用卡产品的一站式搜索服务,融资总额达1亿美元。数联铭品,注重引入各类非受控的外部数据源,对外提供大数据征信服务。九次方,基于所掌握的海量金融数据,构建全国性的企业征信大数据平台。除上述新兴公司之外,建行、广发(与百度合作)、中信和光大等传统大中型银行也基于大数据技术在客户洞察等方面进行了探索,但是从总体上来说仍偏重于传统的商业智能领域,而且在主动引入外部数据源进行创新等方面力度仍有待提升。3.4.6影视影视/娱乐娱乐大数据在我国影视娱乐业的应用,首先体现在各类视频和音乐网站对于自身的音视频数据资源的加工上。通过分段和标签等手段,形成更为丰富的分类维度和检索体系,提
128、触摸、增强现实、眼动和体感等方式,构建新型的教育模式和渠道,提升学习效率;通过图像识别技术和游戏化手段,改善用户的学习体验;通过人工智能、数据挖掘、推荐引擎等技术,为用户提供量身定制的学习环境和课程。当前,我国大数据在教育领域的典型应用有:作业通和学大教育。通过教材和试题的收集、组织和搜索以及对用户的特性分析,实现个性化的教育服务。作业帮(百度)。基于百度知道平台所积累的海量知识,百度推出了作业帮应用,除海量数据的管理和检索之外,还涉及了图像识别等大数据技术。学霸君。通过图像识别技术提供试题答案的查询检索服务。3.4.8人力资源人力资源社会经济的发展,推动了我国对于各类劳动力
130、述可见,大数据分析在人力资源行业的应用已经相对成熟,随着国内市场的发展,我国人力资源管理与招聘行业也会沿着相同的路径,告别过分依靠市场投入驱动增长的模式,进入以数据为驱动的时代。当前,我国人力资源行业比较典型的大数据应用案例如下所述:搜前途。通过大数据分析实现简历和职位的精准匹配。哪上班。基于大数据算法进行人才分析和职位匹配。e成招聘。通过机器学习算法帮助企业进行人才筛选。望才招聘。基于社交媒体内容对候选人进行分析画像。内聘网。基于文本分析,实现简历和职位描述的格式化和自动匹配。人人猎头。基于熟人推荐的模式,用众包方式进行人才的搜索。3.4.9旅游旅游多年以来,我国的旅游
135、求对整个产业链造成了极大的影响,地理信息数据、系统和服务提供商快速成长,从数据采集、加工和交付的地理信息完整产业链已经形成。鉴于我国目前地理信息服务的发展态势,本报告单独将其列为大数据应用区块的一个子类。目前,我国比较典型的地理信息服务企业有:百度地图、搜狗地图和腾讯地图等。直接针对用户提供地图服务。高德地图。除为大众提供地图服务外,还为产业链上其他企业提供地理数据服务。中海达。提供测绘、卫星定位和街景等数据服务。东方道迩。提供卫星数据加工和地理信息服务。灵图软件。地理信息服务提供商。3.4.11交通交通/物流物流我国在交通网络上投入巨大,积累了大量实时、底层的数据。比如
138、服务等方面。航旅纵横。由中航信基于自身所掌握的数据开发,面向社会提供航班的实时信息。飞常准。基于中航信、空管局、机场和航空公司的数据,提供航班查询服务。途志。收集国际航班的各种底层数据,为用户提供出行方案优化服务。车来了。通过车辆上的GPS获取数据,提供公交实时查询服务。北京汇通天下物联科技。通过车载设备G7采集汽车行驶实时数据,为物流公司提供运营决策支持,客户基本涵盖了我国中上规模的物流公司。快的打车。采集用户和出租司机信息,分析其基本信息、信用、行为模式,在用户下单后通过局部地理范围内的人车匹配,提升叫车效率和服务质量。美的空调。查交通违章数据,优化对自身运输车队的
140、据技术,整合数据资源、规范数据标准、统一标识和规范协议等,是打通数据流动通道、推动大数据在我国农业领域应用深化的关键所在。这方面的典型案例包括:蒙牛通过奶牛的“智能耳环”、“云端牧场”应用、质检工序监测和社交媒体营销等策略,打造从生产到消费的闭环,构建集质量追溯、生产管理和市场开拓于一体的大数据架构。软通动力在河北廊坊的农田里安装内置摄像头的传感器,采集诸如气温、湿度、雨量等农作物生长环境的数据,并将数据汇聚到云端进行实时监测、分析和管理。在基于大数据技术的预测分析方面,我国农业领域的应用屈指可数,其中最为典型的是禾讯科技,利用卫星数据,评估农作物长势,建模预测农业产量,与之相较的是
141、PlanetLabs用卫星数据评估地区发展水平。3.4.13房地产房地产过去的十多年中,中国房地产行业在整体上呈现粗放式的增长模式。但是,近年来在整体调控、供应过剩、融资成本攀高、市场需求趋理性化和个性化的背景下,房地产业开始向精细化运营和深入挖潜的方向转变。房地产行业的决策始终围绕着土地、房屋和消费者三者展开,而大数据的应用,使房地产商和中介行业更加深刻地洞察土地和房屋的价值以及消费者的真实需求成为可能。大数据在房地产行业的应用场景大致可分为以下三类:引入大数据理念,通过用电数据和电信运营商数据等新数据源,以创新方法评估城市经济发展状况、消费力、人口组成、区域内购房人群特征
142、、日常通勤人流量等指标,支持投资决策。与互联网企业或电信运营商等掌握海量用户数据的企业合作,结合销售过程中掌握的用户信息,对主要客户群进行群体画像,提升项目建设、产品营销等环节的针对性,同时探索新的盈利模式和空间。在大型综合性购物休闲中心的运营中,引入室内定位技术,分析商场人流轨迹,结合外部数据渠道,对日常客流进行群体分析,进而优化商场布局,帮助商家制定具有针对性的销售策略。图图..房地产大数据应用场景房地产大数据应用场景需要指出的是,在评估城市和地块的开发前景的过程中,如果仅以传统途径获取宏观经济、市场热点、市场活跃度、供需对比、常住及户籍人口数、房价收入比、地价房价比、人口年龄结
143、构、周边楼盘价格、商业和生活配套等数据,则属于传统的数据分析思路,不应归属为大数据的创新应用。当前,我国房地产行业的大数据典型应用案例如下:万科地产。与移动、联通、电信三大手机运营商合作,测算北京地区的实际人口规模,并结合当年北京的新房供应量、存量房数量、房屋均价、购房人群年龄结构等数据,支持土地投资决策。链家地产。基于自身的房源和客户数据进行关联分析,打造包括生活支付、社区服务、智能家居等方面的生活服务平台易遨中国。基于房产中介业ERP系统的数据积累,开发了美丽屋应用,实现房主和中介的对接。万达地产和万科地产(与百度合作)等。通过室内定位技术分析商场内人流模式,或引入新数据源对
146、融360、去哪儿等。(二)(二)产业分布过于偏重产业分布过于偏重应用环节应用环节应用类的企业或产品的占比达到了39%,产业链分工还不够精细。除了国内企业在基础架构和分析技术上多处于跟随状态,缺乏自主创新之外,一个很重要的原因是绝大部分拥有数据的企业都在分析挖掘的基础上对外提供服务,比如阿里巴巴开始做金融行业的数据分析应用,百度基于自身数据涉足在线教育领域,中航信通过航旅纵横提供航班信息服务,春雨医生和丁香园之类也没有直接通过数据的租售获利。相比之下,国外案例中的S则在累积了大量医疗数据之后直接销售给医药公司。图图..国内大数据产业分布国内大数据产业分布(三)缺乏综合
152、方向上较为单一,倾向于抄袭或模仿国外现成的案例,其中最为典型的就是金融行业的应用对比。随着国外如Zestfinance等公司超越行业惯用的FICO模型,引入征信对象更为全面(并非只是线上)的信息并开发新的模型评估个人信用等级,国内P2P网贷企业也以此为参照,引入各类网络信息,试图以自动化方式取代耗时耗力的针对贷款企业的实地调查,在一定程度上忽略了数据覆盖面、技术积累和征信对象类型等种种不同。更进一步,国外金融行业的案例包括了引入网络数据、清洗现有数据、基于先进架构提升欺诈识别效率、实时采集网点数据、转化客服音频数据等各种不同的切入角度和实现思路,都是基于自身的业务痛点而做
153、出的。反观我国金融行业,几乎都集中在信用评估、业务分析和客户画像上,思路较为单一,缺乏创新。下图以中外银行业为例,说明了在大数据应用上的差异:图图..国内外银行业大数据应用对比国内外银行业大数据应用对比4.2趋势分析趋势分析结合大数据近年来的发展态势,以及大数据所涉及的技术本质,我国未来大数据产业的发展将呈现以下趋势。(一)数据的流通以综合性的流通和交易平台为主(一)数据的流通以综合性的流通和交易平台为主在用户需求的推动下,综合性的数据交易平台将成为行业主流,形成少数几个全国性的数据流通集市,主要是因为:1.数据的跨域、关联分析已成为普通的共识,业务决策支持可能会同时接入
155、性的大型数据交易平台带动下,围绕数据所产生的各类需求能够得到最大程度的凸显,必然会促进大数据产业链的划分逐渐清晰和细化,诸如数据采集、汇聚、加工、交易和分析等环节在内的细分产业都将得到极大的推动。此外,企业在大数据产业链中的定位将会更加明确和聚焦。当前很多跨越了多个环节的企业,将会根据自身的优势和特点来重新定位在大数据产业链中的角色,可以预见的是某些数据拥有者将专注于对外提供数据服务,而目前横跨分析和应用环节的企业将会有很大一部分成为专业的分析技术提供商。(三)形成多个细分的垂直行业生态(三)形成多个细分的垂直行业生态随着大数据应用在不同行业的落地和深入,数据分析终将成为企业日常
156、运作的基础性工作。应用环节对于数据、平台和分析的需求会逐渐细化,并连锁式地、逐一反向作用于产业链上游的各个环节,进而形成具有行业特色的大数据垂直生态系统。这一趋势将对基础架构和分析环节产生较大影响。大数据分析所涉及的理论和技术因数据类型、数据规模和应用场景而异,最终无法收敛于统一的数学模型,因此必然会在算法层面产生各种分支,衍生出侧重于不同行业的分析技术供应商。随着分析技术的差异化,基础架构也必将出现各种面向应用的定制和优化,从而削弱当前MapReduce模型和Hadoop平台的强势地位,内存计算模型的提出和Spark平台的出现就是证明。更进一步,在体系架构方面也将会突破由通用硬件
157、搭建分布式系统的模式。综上所述,围绕大型数据流通平台,产业链在横向和纵向上都将逐渐细化,形成大数据产业的网格状布局。4.3各国推动大数据发展的案例各国推动大数据发展的案例全球主要国家、各类国际组织和国内多地政府,都将大数据的发展提升到了战略层面,并陆续出台了一系列的政策加以推动。(一)国外现状(一)国外现状美国政府将大数据从商业行为上升到国家战略层面,推动大数据在经济社会各个层面、各个领域的应用深化。2012年3月29日,奥巴马政府宣布“大数据的研究和发展计划”,由美国科学基金会、卫生福利部/国家卫生研究所、能源部、国防部等多个联邦政府部门共同推进。2011年9月
159、国家级的信息基础设施。2013年6月18日,八国集团首脑在北爱峰会上签署开放数据宪章,要求各成员国率先开放公司信息、犯罪与司法、地球观测、教育、能源与环境、医疗健康、科学研究、统计、社会福利、交通运输与基础设施等数据。联合国发布了大数据促发展:挑战与机遇的白皮书,指出大数据时代已经到来,大数据对于联合国和各国政府都是一次历史性的机遇。报告讨论了如何利用大量丰富的数据资源帮助政府更好地响应社会需求,指导经济运行。(二)国内动态(二)国内动态2013年8月,国务院发布了关于促进信息消费扩大内需的若干意见(国发201332号),文件提出的“促进公共信息资源共享和开发利用
160、”和“提升民生领域信息服务水平”等方针都明确指向了数据资源的开放。在中央层面,中央网络安全和信息化领导小组办公室已经于2014年初开始进行国家公共信息资源开放的规划工作,充分借鉴各国政府的数据开放工作成果,旨在形成覆盖全国、贯穿各级政府和公共服务单位的数据采集、存储和社会化服务体系,提升全社会对公共信息资源的再利用水平。在地方层面,各地政府已逐步推动数据开放的工作。北京市政务数据资源网目前已汇集了35个政府部门的269项、共计约36万余条原始数据,涵盖旅游、教育、交通、医疗等多个领域。上海市公共信用信息服务平台于2014年4月正式开通,已发布交通、公共服务、经济统
162、最终走向成熟的必要条件。大数据产业链的供需两端分别是数据源和应用环节,从前述世界各国以及我国各地政府对大数据的推动举措来看,也多从数据和应用领域入手。由于我国大数据产业链尚处于孕育期,数据供给和应用需求更是当前工作的重中之重。对于基础架构和分析环节,由于应用场景的不同,必然会呈现多种形态并存的局面。当前,基础架构的发展明显未能满足应用场景优化的需求,较为单一的架构导致了大量存储、能耗、机房空间和管理成本的浪费,而分析技术则必然与应用场景紧密挂钩,不可能出现一种特定算法未经修正即有效运用于各类业务的情况。因此,在大数据发展初期,基础架构和分析算法的发展应主要以科研机构和企业界自发行动为主,
163、无须在战略或政策层面进行规划,否则极有可能导致大量投资和人力的浪费。而只有打破现有的数据藩篱,加大全社会数据资源的供给,促进数据资源共享和流通体系的建设,同时以应用需求为导向,为目前涵盖面过广的大数据领域指出具有真正实用意义的前进路径,才能够给基础架构和分析技术的发展注入长久的驱动力。4.4.2积极推动数据开放积极推动数据开放数据开放的意义数据开放的意义数据是继土地、劳动力、资金之后的第四种生产资料,是大数据发展的核心所在。数据在人类的生产生活过程中不断产生,为人类的各种决策提供着事实依据,推动社会向前发展。由于云计算、大数据和物联网的发展使得各种信息被更加详细的记录下来。尽管数据
164、规模已足够庞大,要真正实现大数据的价值,首先要面对数据开放和流通的挑战,只有结合多源头数据的跨域分析才能提炼出更完整的知识和更深刻的洞察,才能真正达成社会管理、公共服务、金融保险、科研教育、医疗卫生、零售消费、文化娱乐及制造业的跨越式发展。由于数据所蕴含的巨大价值,数据开放和流通的价值已成为一种普遍的认知。根据麦肯锡预测,开放数据在全球的教育、交通运输、消费市场、电力、石油/天然气、医疗健康、消费金融(包括银行、保险和房地产)等7个领域可以撬动3.2万亿到5.4万亿美元的经济价值;根据美国参议院商务、科学与运输委员会发布的报告,全美数据中介市场2012年的总规模已达15
167、、税收、治安、土地、就业、环境、交通等各类数据,无不隐含着人类社会和自然环境的最真实和最及时的信息。可见,从政府数据的开放和共享入手,能够释放出巨大的经济和社会价值。此外,大数据最终的价值体现在各个行业领域内的应用,单靠企业界和学术界难免会局限于特定行业,无法体现出大数据跨领域的真正特色。因此,由政府牵头建立数据开放共享的典范,将对大数据产业链的发展大有裨益。目前,由于庞大的国土、人口和经济规模,我国已成为仅次于美国的数据大国。预计到2020年,我国的数据量将突破8.5ZB,占全球数据总量的21%。其中,据麦肯锡分析,我国三分之一的数据属于政府及提供公共服务的机构与企业。比如,
168、“智慧城市”建设大约一个季度就能产生200PB数据,其他农业、气象、环境、工业制造和人口流动等数据也规模庞大。除了规模庞大之外,政府所拥有的数据价值极高,这是由政府的社会管理职能所决定的,其中比如统计、税收、预算、土地、就业、空气质量、治安、公共设施、交通等类数据都含有极高的应用价值。因此,从宏观层面看,由政府带动的数据开放和流通,对经济发展、产业升级、社会管理和科技创新等方面都具有极其重要的意义。(一)提升社会管理水平(一)提升社会管理水平政府掌握有事关社会、经济、环境和民生等方面的各类宏观数据,有巨大的信息共享与数据分析的需求。通过政府数据的开放,促进政府各部门之间的信息
169、交流,已成为政府决策科学化的基本保障。同时,以适当的方式实现政府数据向全社会的开放,可以充分调动各方力量,探索在卫生医疗、交通、文化教育、环境和资源保护等方面的发展机遇,形成提升政府决策和公共服务水平的巨大动力。(二)推动产业升级和创新(二)推动产业升级和创新作为2015年中央政府工作报告中拉动经济发展的两架马车,创业创新和公共产品及服务都能在很大程度上受益于全社会的数据开放。首先,数据已逐渐成为企业的生产要素和战略资产,其价值的挖掘是企业发展的基础所在。通过数据的开放共享,引入新的数据和分析思路,可以为教育、医疗、零售业、物流业、制造业及互联网等行业创造巨大的发展空间,其中
170、典型的代表就是由金融信息、地理信息和气象信息的开放共享所催生的各类新兴服务业态,比如2006年中国人民银行上海总部实施信息公开之后,催生了大批金融信息咨询服务公司。在当前我国经济转型升级的大背景下,这一点具有特殊的时代意义。其次,数据的开放和流通将推动产业的创新。在信息时代,数据正日益成为科研和生产活动中不可或缺的要素,但是创新和创业活动面临着数据获取成本较高的问题,尤其对于中小企业来说更是如此。通过数据开放共享,可以让技术企业和科研单位专注于技术的开发和业务的发展,全力探索新的应用领域和产业机会。(三)推动科技创新(三)推动科技创新数据是科研成果最直接的体现。但是长期以来由于
172、环境保护工作的广度和深度。综上所述,数据的开放和流通已成为全球的潮流和趋势,由政府为主导的数据开放是目前世界各国的普遍经验。在以大数据和云计算为标志的新一次IT浪潮兴起的同时,大力推进数据开放平台的建设将在产业升级、经济发展、民生建设和公共服务等方面对我国社会的协调、可持续发展起到巨大的推动作用,创造可观的社会效益和经济效益。4.4.3注重注重应用应用和模式和模式的的创新创新在应用环节的推动上,政府的推动不仅能够促进大数据产业链的发展和完善,更能够在事关国计民生的诸多领域,尤其是在基础设施建设、公共服务和新兴行业方面发挥巨大的作用。在上述领域的应用探索,对于大数据基础架构和分析
173、技术的发展也具有特殊意义。社会管理、农业、交通、能源等领域所包含的数据规模庞大,采集难度高,通常需要进行实时的处理和分析,这些特性对于基础架构和分析环节都是极具现实意义的课题。此外,对于数据银行和众包等创新模式,也需要政府从全局角度进行规划、设计和推动。社会治理社会治理在经过了30多年的改革开放之后,我国社会治理面临着种种新的问题和挑战,比如人口问题、环境问题、群体冲突、社会治安、公共危机处理等。为此,十八届三中全会将推进国家治理体系和治理能力的现代化纳入到全面深化改革的总目标中。国家治理体系和治理能力现代化,要求治理要更加科学,因而必须准确掌握治理对象的状况及其外部环境信息。现
176、2012年,苏州警方通过各类流动警力实时采集治安隐患信息,每天达700多万条,所累积的海量数据为破案提供了极大便利。高效的社会治理需要能够正确识别出企业、组织和个人等社会治理工作的基本要素,并对这些要素的社会活动和时空环境进行分析。首先,基于现有的国家基础人口库和法人库,结合诸如互联网企业等数据源,实现网络身份与现实世界的映射;通过电信运营商和视频监控等数据,通过大数据技术进行清洗和挖掘,可以更为准确地掌握治理要素的活动轨迹;通过网购数据和银行交易数据,可以更加准确的把握企业、组织和个人的社会和经济活动情况。基于上述手段,能够加强对社会风险的控制,提高政府的预警能力以及对社情民意
179、大气污染等问题亟需解决。据统计,因交通堵塞造成的损失占到了GDP的1.5%至4%,相应的燃料损失及环境污染整治费用也高达千亿级别。鉴于这种情况,我国必须大力推动智能交通和智能物流建设。智能交通的立足点在于交通运输工具(汽车、船舶和飞机等)与信息化的全面结合,通过对交通信息的实时感知,及时发现拥堵,调控交通流量,预警安全隐患,从而达成对交通系统的全方位、立体式管控和优化。智能物流涉及物联网、网络通信和云计算与物流基础设施的结合,通过对货物实时位置监控和信息分析,形成对物流全过程的感知、反馈和控制,优化成本并提供差异化的物流服务。当前,我国的智能交通和智能物流建设尽管已有长足进步,但仍
180、存在着种种问题。比如,对交通信息的感知和收集广度和深度不够;对存在于各个管理系统中的海量的数据无法共享运用;对交通态势缺乏预测能力,未能充分满足公众的交通信息服务需求;各类交通和物流数据的潜在价值未能得到有效分析和挖掘。通过引入大数据理念和技术,有针对性地改善或解决上述问题,是智能交通和智能物流发展的必由之路。智能电网智能电网随着我国经济进入新常态,国家经济政策调控逐渐偏向于结构优化、增长质量、节能降耗、环境保护和民生改善等,电力需求出现趋势性拐点,进入了低速(相对于GDP增速)增长的常态。而且,随着第三产业用电比重的日益提升,以及第二产业逐渐向中西部转移的趋势,我国整体的用电结
182、网配套使用的智能电表安装数量已超过7.6亿只,到2020年智能电网预计将覆盖全世界80%的人口。智能电网导致的一个必然结果是电网运行控制信息的爆发式增长,由此催生的对海量数据采集、管理和分析的需求使得大数据在智能电网建设和运营过程中的应用成为必然。因此,必须充分认识到大数据在整个智能电网发展过程中的的基础性作用,顺应我国在新发展阶段电力供需的变化趋势,大力推动大数据技术在智能电网规划、设计、建设、运行和维护等各个环节的应用。智慧智慧医疗医疗医疗体制的改革是我国社会和经济改革探索的重中之重。随着人们生活水平的不断提高及人口老龄化加速到来,我国的医疗服务需求正在稳步增加,我国
183、2014年的健康医疗支出占总支出23%,预计到2020年,健康医疗支出占总支出上升到32%。在医疗服务产业快速发展的同时,我国医疗服务体系仍然存在诸多严重的问题,包括医疗资源在城乡之间和地区之间配置失衡、总体医疗卫生成本过高等。从上世纪80年代到2005年的25年间,我国卫生总费用增长了52倍,其中居民个人支付费用增长了133倍,两项指标都远远超过了经济总量的增速。为了解决上述医疗问题,一个根本的思路就是实现患者与医务人员、医疗机构、医疗设备之间的互动,构建医疗健康行业的智能化管控和决策体系,实现资源的合理配置和动态平衡,解决或减少由于医疗资源缺乏所导致的看病
185、咨询类的服务。区域卫生信息化建设。区域卫生信息化建设最基本的需求是让医生信息和患者健康档案能够在不同医疗机构之间实现共享,涉及医生和患者信息的标准化工作。专业科室的信息化建设。专业科室的信息化建设需要将某些以往难以数字化的特有疾病信息记录下来,并实现数据的转化和高效存储,为后期的抽取、统计和挖掘提供便利。数据中心的建设。随着医疗信息化进程的深入,有大量来自多个源头的数据需要实现统一的存储和管理,尤其是新增临床和管理类数据。此外,引入基因序列分析等大数据技术能够加速新药的研发速度,以及更有针对性的进行临床开发,降低研发中的风险。这对于我国已进入糖尿病、癌症和心脑血管疾病高发期的现状具
190、义。当前,我国农业取得了举世瞩目的成就,粮食产量连续11年增长,农民收入也实现连续11年增长。但是,在农业领域,我国面临的形势不容乐观。在生产环境上,我国农业发展面临着土壤、水资源、气候等诸多严重问题:我国人均耕地面积不到世界平均水平的一半,2030年作为我国重点粮食调出区域的东北地区将接近农业需水极限,极端气候发生频率由上世纪50年代的不足20次发展到2010年的100多次。由经济起飞拉动的市场需求无法自给,粮食安全问题日益严重,2010年起我国成为粮食的净进口国,粮、棉、油、糖、肉、奶六大农产品无法完全自给且进口量呈增长态势。食品安全形势严峻,近年来镉大米
191、、瘦肉精、奶粉等食品安全事件频发,根据有关部门统计,每年我国消费者因食物残留农药和化学添加剂中毒的人数超过10万人。针对我国农业发展所面临的种种问题,中央政治局在分析研究2015年经济工作的会议中指出,要加快转变农业发展方式,从主要追求产量增长和拼资源、拼消耗的粗放经营,向数量质量效益并重、注重提高竞争力、注重可持续的集约发展转变。在这个大的指导思想下,2015年一号文件将农业信息化作为农业现代化的突破口,而大数据、物联网和云计算等技术则是实现农业信息化的基础所在。大数据对于我国农业发展的推动作用主要表现在以下方面:1基于大数据技术对整个农业产业链进行全面、实时的监控,结合诸如天
192、气报告、土壤条件、地图、水资源、市场动态等数据,可以形成对农业整体情况的准确把握和有效的规划。2对农业生产过程进行监控和预测,可以提高运营管理和生产效率,有助于农业生产的精准化、标准化和规模化。3通过大数据采集和分析流通环节的库存、价格和物流数据,引入农产品期货交易信息,可以及时掌握真实库存,预测市场波动,主动调控生产过程和生产布局。4.通过传感器、条形码和RFID等采集和识别手段,运用大数据和云计算技术建立农产品信息管理平台,构建覆盖产地、品种、土壤、水质、病虫害、农药、化肥、储藏、加工、运输、销售等环节的农产品安全追溯体系。可见,采用大数据研究手段,在搜集、存储气象、水
194、重于学术研究的性质,在实用方面取得的进步相对有限。随着互联网的兴起,机器与人之间的连接和互动日益紧密,各类产品和服务需要更为清晰地理解人的意图,并且更好的满足用户需求,使得人工智能获得了广阔的实践土壤和应用空间。其中,作为人类信息表达最主要的三种方式,通过计算机来模拟人类大脑对文本、音频和图像的分析和识别,是人工智能研究的热点所在,也成为大数据发展的基础性支撑技术之一。基于语音、图像和文字的识别是大数据领域的基本研究内容和各类成功应用的基础,具有巨大的产业前景,据预测,未来五年,基于语音和图像的搜索将达到全球搜索份额的50%以上。人工智能技术的快速发展,将极大推动社会管理、智能交通、智
198、通过在海量音频数据中捕捉和提取客户的意向和情绪,还能够实现业务流程、座席绩效和客户体验等的优化。语音技术在智能设备、车联网、在线教育、电信、零售、医疗、公共事业、运输/物流、旅游、传媒、能源等多个行业具有广阔前景,根据ResearchandMarkets公司的预测,全球语音分析市场预计将从2014年的4.56亿美元增长至2019年的13.3亿美元,年均复合增长率高达23.9%。我国互联网和移动互联网的迅速发展为语音技术提供了广阔的应用空间,而诸如科大讯飞、云知声等国内厂商在语音解决方案上的基本成熟,也使得语音技术在各个领域的应用呈爆发态势。据2014中国智能语音产业发
199、展白皮书显示,随着在移动互联网、呼叫中心、智能家居、车联网和教育等领域的应用逐步深入,我国智能语音产业保持了持续、快速的增长,在未来将进一步带动工业、家电、通信、医疗、家庭服务、消费电子产品等众多领域的发展。除了市场规模庞大以外,我国语音还有着独特的市场需求。首先,与英语等语言相比,中文语序表灵活、省略现象严重,在断句、词性判定、语序规整和词汇组合等方面需要进行专门的研究;其次,我国是个多民族国家,幅员辽阔,各民族语言和各地方言的差异给语音服务市场带来了多样化的需求。独特的技术挑战与细分的市场需求为我国语音服务产业提供了宝贵的市场空间和发展机遇。(二)(二)图像图像//视频理
202、搜索中占比达35.5%。身份识别。高效可靠的身份认证技术在社会安全中起着至关重要的作用。近年来,以图像识别为核心的生物特征认证技术逐渐被应用于监控摄像、刑侦识别和金融支付等领域,包括对指纹、虹膜、人脸、掌纹、手形和耳形等人体生理物理特征的识别。比较典型的应用如阿里旗下的蚂蚁金服和腾讯的微众银行都基于人脸识别技术进行用户的智能交通。智能交通系统需要捕获周边环境和交通工具状态的图像,并进行实时的处理和识别。比如车辆牌照自动识别系统,需要实时、自动地对含有车牌的图像进行分析处理,从而确定牌照在图像中的位置,并进一步提取和识别出文本字符。而对于无人驾驶汽车来说,需要实时感知并识别出车辆周围环境,
203、并结合道路、位置和障碍物信息来控制车辆的转向和速度。工业应用。在工业生产领域,图像识别技术已成为自动化生产控制系统的核心技术之一,被广泛应用于质量检测与评估、快速测量、自动分拣以及智能工业机器人的视觉定位与环境感知等方面,极大提升了电子、汽车、纺织、印刷以及制造加工等行业的生产效率。医疗健康。医疗健康行业拥有大量反映病患身体内部解剖学或生理功能信息的图像数据,医疗图像具有规模庞大、分辨率高和图像特征表达复杂等特点,使得图像识别技术在医疗领域具有极大的实用价值,可应用于医疗诊断、组织容积定量分析、病变组织定位、解剖结构学习、治疗规划、功能成像数据局部体效应校正和术后监测等各个环节。(三)
204、(三)文本文本分析分析文本挖掘是指对无结构的原始文本进行科学抽象和模型构建,转化为结构化的、计算机可以识别处理的信息,进而使计算机能够基于已有模型识别文本,并对散布在文本中知识进行提取和组织。例如,由LexisNexis公司开发的HPCC系统,通过整合来自不同系统的数据,抽取人名、地名、公司名以及其他重要信息;安全公司OpenDNS公司,基于自然语言处理理论(NaturalLanguageProcessing),提前识别出刻意模仿著名站点名称的恶意钓鱼网站。由于互联网的迅速发展,以社交媒体为代表的非结构化文本信息呈爆炸式增长态势,推动了文本分析领域的快速发展。当前,文本数据
206、后,语音识别及其应用服务也是以自然语言处理为基础。企业营销。对用户的社交媒体内容进行分析、掌握用户的性格、年龄阶段、星座、性别、偏好等。在对用户全面刻画的基础上,向用户推送相应的折扣、优惠和最新产品信息。金融业务。金融信息中的的绝大部分数据均是以文本形式存在,如交易信息、金融论坛、研究报告、财经新闻和社交媒体等,通过文本分析可以用于市场洞察、信用评估和风险管理等方面。比如前文案例所述,有公司基于社交媒体预测市场走势,进而对股票操作进行指导。社情民意。当前,网络论坛和社交媒体中存在大量以非结构化数据形式出现的舆情信息,其中蕴含真实而广泛的对某种社会现象或社会问题的看法,分析提供了方法和技术
207、支持,通过分析可以及时掌握民众所关心的热点、难点和舆情动态,为合理决策和突发事件预防提供重要依据。医疗。医疗档案是病患在医疗机构就诊过程中产生的完整、详细的临床信息资源。医疗档案中包含大量的非结构化文本信息,例如以自然语言记录的临床表现等医疗记录,运用相应的文本分析技术,可以有效提升医疗服务的质量。与语音识别类似,我国语言类型多样,包含汉语和各类少数民族语言,拥有足够细分的子领域和应用场景,为国内厂商提供了巨大的发展机遇。数据银行数据银行针对我国信息化建设和大数据发展较先进国家和地区仍相对落后的现状,有必要从全局推动数据银行一类实现全社会数据资源供需的产业形态的发展。首先,我国大
209、量和准确性方面缺乏一致的标准。低质量、混乱的数据会导致错误的分析结果,进而对用户的决策造成负面影响。因此,必须要有对数据质量进行规整的产业环节,将数据资源转换成易于为市场所理解和使用的形态,提升数据资源商品化、标准化和资产化的水平,从而盘活数据资产,带动资源的优化配置,有效推动大数据产业以及其他行业的发展。可见,积极发展数据银行一类的产业形态,能够深化全社会对于数据外部价值的认识,通过汇集各类数据供需方并提供必要的数据商品加工手段,降低实现和利用数据价值的成本,打造我国大数据产业快速成长所需的开放、透明、资源高度聚集的市场环境。众包模式众包模式数据的准确性、实时性和覆盖面等质量指标是关
210、乎大数据产业发展的关键所在,针对我国数据采集基础较弱的情况,众包模式在某些领域具有巨大的应用价值。随着我国城市化进程的发展,城市资源和环境的限制日益明显,交通方面的挑战尤为严峻,对于数据的准确和及时程度有较高的要求。当前,我国在这方面的数据采集大多通过雷达、摄像头、传感器和实地观测等方式,耗时耗力且难于维护。在环保领域,环境监测数据是预测、预报环境质量状况的重要基础,关系到能否对环境质量、生态环境现状及变化趋势进行实时、准确的监测。目前,由于过分依赖环境监测仪器、测试手段和数据传输方式不够完善等问题,使得监测得到的数据过于稀疏、数据量过小且实时性不够。通过众包模式,比如基于民众随身的移动
211、设备来进行采集交通或城市环境数据,能够有效提升所需数据的真实性、密度和实时程度。正如前文中所述,当前国外已有通过民众的智能手机来实时采集公交信息的案例,而2013年全球电信日也将基于运营商数据来改善交通状况作为主题之一。在自然环境监测和灾害预警方面,由于我国自然环境日益恶化、地质灾害频发,众包模式也具有极大的应用价值。根据研究显示,地震发生时如果能提前10秒预警,生存率可以增加12%,提前30秒,生存率能增加到40%。而日益普及的智能设备为环境和灾害信息的采集和分发提供了高效通道,能够大幅提升信息采集的覆盖面和预警的实时性。这方面的研究和探索已有先例。美国地质勘探局和航天
213、、交通运输和自然环境等各个方面的实时状况。目前,众包数据采集在我国已有成功实践。比如,数据堂通过数十万众客采集语音和图像数据,为我国在语音识别和人脸识别等领域的发展提供了坚实的基础。而百度、腾讯等地图服务的上游数据供应商也逐渐通过众包模式采集传统方法难以应对的各种数据,比如海量街景图片。综上所述,应该大力提倡和推动众包模式在数据采集环节的运用,这不仅是实现我国大数据产业快速发展的有效途径,更是提升政府和企业决策科学性、降低灾害损失、确保社会可持续发展的有力手段。除了采集之外,在数据分析和价值挖掘环节,众包模式同样能够发挥巨大作用。针对我国数据利用极不充分的现状,充分调动高校、科研机
216、企业北京大数据企业按区按区分布分布如果细化到产业链的各个环节,可以看出海淀区大数据产业分布的特点所在:图图..海淀区大数据企业全国海淀区大数据企业全国分类分类占比占比如上图所示,在基础架构和分析类海淀区企业的占比明显高出数据源和应用类。而且,在基础架构和分析这两大区块中,海淀区大数据企业基本实现了对子类别的全覆盖,尤其是在数据库、分布式系统、管理工具、可视化、机器学习、图像识别和语音识别等方面,国内仅有的少数企业基本都是起源于海淀区。在应用方面,以地理信息、人力/教育、金融/保险、影视/娱乐、企业应用和语音服务最多;在数据源方面,主要偏重于地理信息和互联网用户信息,影视娱乐、个人
217、健康、金融、能源和交通数据都比较缺乏。可以看出,基本都是由互联网企业推动为主,传统产业较少涉及,这也是和海淀区本身的产业特点决定的。对于海淀来说,在大数据产业发展方面,可以从数据流通和技术创新两个方面入手。4.5.2海淀海淀大数据产业大数据产业发展建议发展建议推动推动数据开放数据开放流通流通大数据产业的发展涉及诸多方面,但其中最为关键的一点就是数据的开放和流通,只有极大丰富的各类数据能够为产业链其他环节所见所用,大数据才能在各行各业发挥出最大的价值。结合各国政府的大数据战略举措,构建数据流通生态最为有效的方法就是由政府推动数据的开放。政府在具体操作和风险规避上具有较大优势。数据
218、开放涉及数据采集、存储、管理、分析、交付及隐私保护等方面,只有政府能够切实推动上述各个环节的实践,为大数据产业的良性发展坚实的基础。同时,金融、能源、电信等公共服务部门富含大量高价值数据,政府在推动上述领域数据的开放上比企业具有无可比拟的优势。政府数据本身富含极高的价值,可以改变目前大数据在我国社会管理、农业发展和公共服务等领域应用薄弱的局面。目前,由于庞大的国土、人口和经济规模,我国已成为仅次于美国的数据大国,其中三分之一的数据属于政府及提供公共服务的机构与企业。大数据之所以在我国政府和农业等领域应用案例稀少,数据的封闭是首要原因。为了推动数据开放和流通的工作,可以考虑由政府牵头进行数
219、据开放平台的建设或对接已有的数据流通平台,以数据的聚合为牵引,向全社会进行推广,进而逐步推动数据流通所涉及的各项工作走向深入。孵化大数据技术创新孵化大数据技术创新大数据科学作为一个新兴的交叉学科方向,其研究和实践必须由不同的学科领域协作完成,比如计算机科学、统计学、人工智能、社会科学等。海淀在科研力量方面优势明显,在技术色彩最浓的基础架构和分析环节属于国内领头羊的地位,完全具备成为我国大数据技术创新基地的条件。在具体措施上,可以通过产业园区规划和创业创新大赛等措施形成大数据产业链在海淀的聚集,尤其是注意引入数据源类企业,挖掘现实的数据存储、管理和分析需求,让海淀广大科研院所和企业研发
222、.12.03北京5高德信息技术有限公司(阿里入股)地图和地理数据提供商海淀数据源;应用2006.8.24海淀6北京灵图软件技术有限公司地理信息服务提供商海淀数据源;应用1999.4.1海淀7北京长地万方科技有限公司(百度)导航电子地图测绘,为百度提供地理数据石景山数据源2003.2.19海淀8深圳市凯立德科技股份有限公司地理数据提供商深圳数据源1997.12.12深圳9北京城际高科信息技术有限公司地理数据提供商西城数据源2000.1.27海淀10科菱航睿空间信息技术有限公司(腾讯收购)为奇瑞、和华泰等汽车厂商
224、平台及社交媒体上的信息,进行信用评估朝阳应用2006北京16上海拍拍贷金融信息服务有限公司P2P网贷上海应用2011.1.18上海17上海陆家嘴国际金融资产交易市场股份有限公司(陆金所)平安集团旗下,P2P业务上海应用2011.9上海18有利网(北京弘合柏基金融信息服务有限责任公司)P2P,信用模型来自于美国FICO海淀应用2012.5.31北京19人人贷金融信息服务(北京)有限公司P2P业务海淀应用2014.2.11海淀20三平伟业(北京)投资管理有限公司(三益宝)P2P。搜集企业收入、固定资产、债务等数据,结
225、合银行的征信数据,评估信用等级海淀应用2012.10.30海淀21北京华胜天成科技股份有限公司承建各类大数据平台,开始涉足互联网金融海淀基础架构1998.11.30北京22深圳前海征信中心股份有限公司征信,隶属于平安保险深圳应用2013.8.8深圳23鹏元征信有限公司征信,人行与深圳市政府背景深圳应用2005.4.8深圳24中诚信征信有限公司我国第一家从事全国性信用评级和信息服务的非银行类金融机构东城应用2005.3.23北京25中智诚征信有限公司征信海淀应用2013.9.11北京26考拉征信服务有限公司暨
226、原来的拉卡拉(北京)信用管理有限公司。属于联想系统,拓尔思入股海淀应用2015.1.29海淀27北京华道征信有限公司征信朝阳应用2013.12.23北京28浙江电融数据技术有限公司(元宝铺)第三方信贷平台,以电商卖家数据为授信依据的短期纯信用贷款浙江应用2014.3.28浙江29股票赢家(上海财新信息科技有限公司)提供实时的股票交易信息;未来计划参与到征信产业链中上海应用2013.9.25上海30九次方财富资讯(北京)有限责任公司九次方大数据平台,据称掌握900万家公司数据海淀数据源;应用2010.8.5朝阳
227、31浙江核新同花顺网络信息股份有限公司为客户提供全球金融市场行情数据西城数据源;应用2001.8.24浙江32上海万得信息技术股份有限公司即万得(wind)咨询,提供类似彭博终端的产品西城数据源2005.4.4上海33通联数据股份公司掌握大量企业信息,类似九次方大数据上海数据源2013.12.28上海34北京融世纪信息技术有限公司(融360,百度背景)提供贷款、理财和信用卡产品的搜索服务。融资总额1亿美元海淀分析;应用2011.11.10海淀35深圳祥云信息科技有限公司中科院计算所有关。将复杂事务处理、CUDA、
228、神经网络等应用于股票交易深圳分析;应用2011.8.29深圳36融智网信(北京)管理咨询有限公司金融行业数据技术解决方案海淀分析2010.9.26朝阳37恒生电子股份有限公司(马云以33亿元入股)主营金融IT产品与服务,掌握各大金融机构重要数据,全面覆盖客户的各类交易记录浙江数据源2000.12.13浙江38杭州又拍云科技有限公司(upyun)云存储,主要针对图片和视频浙江基础架构2014.6.17浙江39上海七牛信息技术有限公司(七牛云)云存储,擅长文件管理上海基础架构2011.8.3上海40上海庆科信息技
229、术有限公司同broadlink类似,实现更为底层,从芯片入手。与阿里云合作上海基础架构2010.1.27上海41杭州古北电子科技有限公司(broadlink)物联网基础模块,实现数据的采集、传输和存储浙江基础架构2013.7.30浙江42机智云(广州杰升信息科技有限公司)为智能硬件提供云平台,沉淀各类硬件设备的数据并进行统计分析广州基础架构;分析2006.9.18广州43亿方云(杭州亿方云网络科技有限公司)文件管理云平台浙江基础架构2013.12.6浙江44北京同有飞骥科技股份有限公司存储系统研发海淀基础架构199
230、8.11.3北京45杭州宏杉科技有限公司存储系统研发浙江基础架构2010.5.27浙江46曙光信息产业股份有限公司计算和存储设备,大数据系统平台研究海淀基础架构1995.6北京47浪潮集团有限公司计算与存储设备、大数据系统平台研究海淀基础架构1989.2.3北京48上海爱数软件有限公司数据管理,备份一体机上海基础架构2006.9.18上海49杭州信核数据科技有限公司数据安全方案提供商浙江基础架构2006.7.11浙江50创新科存储技术有限公司存储方案提供商海淀基础架构2005.11.24海淀51北京
231、龙存科技有限责任公司分布式存储产品研发海淀基础架构2007.7.23海淀52神州数码信息系统有限公司为行业客户提供各类IT解决方案与服务供应商海淀应用1998.12.25海淀53深圳金蝶中间件有限公司为行业客户提供IT解决方案与服务供应商,在医疗行业比较突出深圳应用2000.8.29深圳54东软集团股份有限公司为行业客户提供各类IT解决方案与服务供应商海淀应用1991.6.17辽宁55亚信集团股份有限公司为行业客户提供各类IT解决方案与服务供应商,主要针对运营商海淀应用2009.12.6海淀56北京用友科技有限公
232、司为行业客户提供ERP、CRM、人力资源管理、商业分析等系统方案海淀应用1999.4.15海淀57北京永洪商智科技有限公司各种可视化产品:仪表盘、报表、即席、OLAP海淀分析2012.2.17海淀58龙信数据提供数据管理和分析方案,偏重政府行业海淀分析2010.10.21海淀59北京荣之联科技股份有限公司提供数据中心解决方案,有基于Greenplum的方案海淀基础架构2001.3.12北京60上海天玑科技股份有限公司类同荣之联,使用了高速网络infiniband上海基础架构2001.10.24上海61苏州思必驰信息
233、科技有限公司智能语音服务提供商江苏分析;应用2007.10.26苏州62北京捷通华声语音技术有限公司智能语音服务提供商海淀分析;应用2000.10.28海淀63北京云知声信息技术有限公司提供音识别服务中间件和语音识别服务云平台海淀分析;应用2012.6.29北京64北京中科大讯飞信息科技有限公司(科大讯飞股份有限公司)智能语音服务提供商海淀分析;应用2004.7.6海淀65厦门市美亚柏科信息股份有限公司公安数据管理和分析福建分析1999.9.22厦门66北京东方国信科技股份有限公司主要为电信业提供BI产品朝阳
236、限公司国土资源数据采集、管理、分析海淀数据源;分析2001.5.25北京77北京数字空间科技有限公司地理信息分析,起源中科院地理所海淀分析2000.8.2海淀78广州中海达卫星导航技术股份有限公司采集大量测绘、卫星和街景数据广州数据源;应用2006.6.21广州79随便走APP(深圳市感知网络有限公司)基于真实图片,实现最后一公里的导航深圳应用2013.7.4深圳80北京东方道迩信息技术股份有限公司拥有多颗国际卫星数据,提供卫星数据加工和地理信息服务海淀数据源;应用2001.11.22海淀81武汉禾讯农业
237、信息科技有限公司利用卫星数据,判断农作物长势,估算农业产量湖北数据源;应用2009.6.17武汉82中科宇图天下科技有限公司(遥感所背景)采集环境数据、提供地理信息服务朝阳数据源;应用2001.11.07朝阳83杭州海康威视数字技术股份有限公司视频监控,面向安防领域浙江基础架构2001.11.30浙江84浙江大华技术股份有限公司视频监控方案浙江基础架构2001.3.12浙江85杭州中威电子股份有限公司视频监控,面向安防领域浙江基础架构2000.3.14浙江86博康智能网络科技股份有限公司视频监控方案,偏重交
240、荐医师朝阳数据源97深圳华大基因科技有限公司基因测序巨头深圳分析;应用2008.8.12深圳98解码(上海)生物医药科技有限公司基因检测及健康服务上海分析;应用2011.8.12上海99丁香园(观澜网络(杭州)有限公司)腾讯7000万美元投资。面向医疗行业从业者,提供专业知识的交流平台浙江应用2010.1.8杭州100春雨医生(北京春雨天下软件有限公司)提供病患健康数据采集和管理平台,供医生参考海淀基础架构;应用2011.7.21海淀101易随诊APP(西部天使(北京)健康科技有限公司)供病患和医生使用;对病历进
241、行统一管理和检索海淀基础架构;应用2003.7.1海淀102沸腾时刻APP(深圳市沸腾时刻信息技术有限公司)采集用户身体数据和运动成绩,汇集健身教练资源,提供个性化健身指导深圳数据源;应用2014.2.17深圳103橙意家人科技(天津)有限公司通过鼾症监测仪采集患者身体数据,结合医患互动的APP形成监测、治疗、服务的闭环产品天津数据源;应用2014.3.6天津104微糖APP(上海格平信息科技有限公司)针对糖尿病患者,,聚合医生资源并对接到患者。将来想做数据平台,包含患者和医生两端的数据上海数据源;应用2012
244、2012.3.14朝阳113携程(携程旅游网络技术(上海)有限公司)数据:客户及订单信息。应用:个性化推荐、为景区提供决策辅助上海应用2005.4.14上海114新影数讯网络科技(北京)有限公司基于社交数据,做影业BI海淀分析;应用2012、6、29海淀115猫眼电影(美团网,北京三快科技有限公司)线上购票选座业务,分析用户与票房的关联朝阳数据源;应用2007.4.10海淀116大众点评(上海汉涛信息咨询有限公司)产生了大量用户的评价信息,以及各类POI的位置等信息上海数据源2003.9.23上海117北京捷成世纪科技
246、爱美乐(北京)科技发展有限公司)音乐个性化推荐海淀分析;应用2012.2.20海淀123虾米网(杭州缪斯客网络科技有限公司)音乐个性化推荐浙江分析;应用2006.12.1浙江124浙江华策影视(以16亿元收购克顿传媒)影视剧行业数据库,收录自97年以来近万部电视剧的收视数据、国内大量影视业人员信息。近期经典案例何以笙箫默浙江数据源2005.10.25浙江125搜前途(北京搜前途科技有限公司)基于大数据的在线招聘创业公司,它通过大数据和特殊算法来实现简历和职位的精准匹配朝阳应用2012.1.4朝阳126哪上班(贝
247、维优(北京)科技有限公司)基于算法,做人才数据的分析和匹配。CTO是CMU的人工智能博士海淀应用2013.11.13海淀127e成招聘(上海逸橙信息科技有限公司)总部在上海。用机器学习帮助HR进行筛选上海应用2012.7.30上海128望才招聘特色:基于社交媒体内容对候选人进行画像上海应用129内聘网(北京亿联宏谦科技有限公司)基于文本分析,自动+人工方式实现简历和职位描述的格式化,然后进行匹配海淀应用2013.12.30海淀130人人猎头(上海众聘信息科技有限公司)基于熟人推荐,用众包方式寻找人才上海应用201
248、2.10.15上海131途志(北京途志优旅信息科技有限公司)“中国版ITA”。收集底层航班数据,提供多种国际航班的选择朝阳应用2011.2.22朝阳132航旅纵横(中国民航信息网络股份有限公司)最主要的航空数据源,典型的数据拥有者介入应用领域的案例东城数据源;应用2000.10.18北京133飞常准(合肥飞友网络科技有限公司),携程入股,航班实时查询。数据:向中航信、空管局、机场和航空公司购买安徽应用2005.10.28合肥134中国船期网(厦门鑫炬信息科技有限公司)全球班轮数据提供商福建数据源;应用2011.12.29厦门
249、135滴滴&快的(北京小桔科技有限公司)用户画像、司机画像、位置匹配海淀分析;应用2012.7.10海淀136车来了(武汉元光科技有限公司)实时公交查询。数据:通过在公交上装GPS获得武汉分析;应用2010.2.4武汉137重庆云途交通科技有限公司(招商局旗下)提供各种车载设备和智能交通信息技术服务重庆数据源2013.12.17重庆138深圳市元征科技股份有限公司车联网企业,与百度合作,推出golo盒子深圳数据源1993.7.27深圳139北京九五智驾信息技术股份有限公司车联网服务商,也推出了OBD盒子海淀应
250、用2007.1.8海淀140上海博泰悦臻电子设备制造有限公司车联网设备制造商,推出iVokaMiniX盒子上海数据源2009.10.20上海141上海快逸行信息科技有限公司车联网服务商,推出车逸行终端上海数据源;应用2009.11.27上海142autobot(北京微格互动科技有限公司)车载智能设备制造商。通过OBD接口,获取里程、耗油、急刹车等行车数据海淀数据源2011.5.26海淀143聚合数据(苏州新科兰德科技有限公司)通过api为开发者提供各类数据江苏数据源2010.2.25苏州144作业通(长
251、沙拓欣菁优网络科技有限公司)基础教育试题收集、组织和搜索湖南数据源;应用2014.8.7长沙145学大教育(学大教育科技(北京)有限公司)课程及教材积累、用户数据分析、个性化教学。纽交所上市朝阳数据源;应用2001.9.10北京146知乎(北京智者天下科技有限公司)大型问答平台,积累各行业领域海量知识海淀数据源2011.6.8海淀147学霸君(上海谦问万答吧云计算科技有限公司)通过图像识别技术,识别试题并返回结果上海分析;应用2013.12.31上海148北京天创征腾信息科技主要针对金融行业,票据账面识别海淀分析2
252、006.10.31海淀149嗨图(成都夏陌科技有限公司)图片众包标注平台四川数据源2014.7.7成都150汉王科技股份有限公司人脸识别、文字识别海淀分析1998.9.11北京151face+(北京旷视科技有限公司)融合机器视觉、机器学习、大数据挖掘技术,提供人脸识别服务海淀分析2011.10.8海淀152云视链(上海极链网络科技有限公司开发)海量视频标签化和搜索上海数据源2014.10.3上海153格灵深瞳信息技术有限公司计算机视觉产品研发。红杉数千万美元投资海淀分析2013.8.16北京154北京天诚盛业科技有限
253、公司研发图像识别和指纹识别等技术,提供数据安全解决方案海淀分析2005.4.18海淀155北京博思廷科技有限公司视频分析,目前主要用于安防领域海淀分析2007.9.26海淀156北京吉祥海云数据科技有限公司(hydata)主要提供数据可视化服务西城分析2013.1朝阳157广州图普网络科技有限公司用户上传图片并打标签,后台自动构建模型、案例:迅雷用其来完成黄色图片的识别。收益:积累了大量图片数据和分析模型广州分析2014.4.1广州158随手房(北京悦商行知信息技术有限公司)“房产经纪的evernote”,供房产
255、62杭州同盾科技有限公司针对网络交易的欺诈识别浙江分析2012.10.10杭州163北京瀚思安信科技有限公司(HanSight)基于日志分析,提供企业安全解决方案。类似splunk海淀分析2014.1.6海淀164Talkingdata(北京腾云天下科技有限公司)移动应用统计分析平台。北京腾云天下科技有限公司东城数据源;分析2011.7.19海淀165友盟(友盟同欣(北京)科技有限公司)移动互联网用户分析,为开发者提供决策支持海淀数据源;分析2011.10.21海淀166厦门可睿特信息科技有限公司脚型数据采集
256、-KRT-Footin3D扫描仪。为电商和鞋类品牌提供服务福建数据源2010.5.13厦门167sequoiadb(广州巨杉软件开发有限公司)分布式文档型NoSQL数据库,支持事务处理和SQL。已获启明创投千万美元级的A轮广州基础架构2012.10.11广州168北京海博思创科技有限公司开发智能电网系统,掌握大量用电数据海淀数据源2011.11.4海淀169国网信息通信有限公司国家电网下属,电力数据源头宣武数据源1994.9.28北京170北京拓尔思信息技术股份有限公司非结构化信息检索和分析朝阳分析1993
257、.2.18北京171麦客(北京易多客信息技术有限公司)mikecrm产品,帮助企业做调查和联系人管理。获红杉400万美元成都应用2013.7.4石景山172北京银瀑技术有限公司类似RetailNext,为多媒体设备提供高效智能视频分析算法朝阳分析;应用2009.11.26朝阳173出门问问(北京羽扇智信息科技有限公司)中文语音分析海淀分析2014.3.6海淀174墨迹天气(墨迹风云(北京)软件科技发展有限公司)数据:可能来自气象局。不产生数据也没有分析,但是处于数据交付链条上的一环朝阳应用2010.3.8朝阳175
261、技有限公司中文人工智能交互引擎,主要偏向语音方面的交互广州分析2013.6广州188杭州摩图科技有限公司前Google员工创办,专注于图像识别引擎的开发,2015年1月完成A轮融资浙江分析2013.7.12浙江189南京智搜智能科技有限公司专注于流媒体的自动化处理、识别和搜索(WUSHUU智能视频分析系统)江苏分析2013.5.30江苏190上海优同科技有限公司从事自然语言、语音和人脸动画等先进人机交互技术研发与应用上海分析2009.5.13上海191无锡天脉聚源传媒科技有限公司全国最大的视频节目加工中心和数据库江
262、苏数据源2008.11.4江苏192北京中科奥森科技有限公司中科院自动化所背景。基于图像识别技术,实现人、车、物、事件的自动识别与检索海淀分析2005.12.29北京193苏州国云数据科技有限公司旗下魔镜平台致力于各类数据的可视化展现江苏分析2013.8.15江苏194广东粤科软件工程有限公司我国影院市场的主要系统供应商,掌握最为底层的票房数据,并为各类在线选座服务提供支持广东数据源1997.10.6广东195上海创冰信息科技有限公司致力于足球及篮球赛事分析系统的研发及服务,拥有海量赛事数据上海数据源2014.12.26
264、握的海量体检数据为入口,对客户健康状况加以解读和判断朝阳数据源朝阳200慈铭健康体检管理集团股份有限公司从自身掌握的海量体检数据为入口,对客户健康状况加以解读和判断朝阳数据源2004.9.27朝阳201珠海云洲智能科技有限公司无人船制造商,用于水质监测、水文测绘、核辐射监测和水文研究等广东数据源2010.4.15广东202思昂教育(北京凌声芯语音科技有限公司)专注于英语口语评测、语音识别等领域,将语音技术运用于教学、培训和考试等海淀分析;应用2005.3.4海淀203重庆中科雲從科技有限公司(广州云从信息科技有限公司和中国科学院重
265、庆绿色智能技术研究院合资)专注于人脸和车辆识别、警用图侦等领域。首席专家:黄煦涛重庆分析2015.5.4重庆204上海骏聿数码科技有限公司图像识别及人体生物特征识别核心技术研究,包括:人脸识别、人体车体检测、行为识别分析、视频检索等上海分析2010.11.22上海205北京数字政通科技股份有限公司街景影像采集海淀数据源2001.11.6北京206北京易道博识科技有限公司发票、人脸、版面识别海淀分析2013.3.27海淀207深圳市赛为智能股份有限公司将视频分析用于智慧交通、智慧建筑、智慧水利等行业深圳分析1997.2.27深圳
266、208深圳市飞瑞斯科技有限公司专注于人脸识别和智能视频分析等技术的开发深圳分析2007.8.28深圳209江苏清大维森科技有限责任公司人脸智能识别和后台分析比对系统研发江苏分析2011.7.28江苏210广东铂亚信息技术有限公司(欧比特5.25亿元收购)从事生物特征识别核心技术研究,正在建设人脸数据库广州数据源;分析1999.8.28广州211上海银晨智能识别科技有限公司人脸识别技术研发,用于公安、金融、司法、民航等领域,曾参与世博会安保上海分析2001.12.29上海212北京千搜科技有限公司专注于人脸检测、识别、分析和重
267、建等技术领域海淀分析2013.8.21海淀213亮风台(上海)信息科技有限公司专注于智能图像识别与视觉交互技术,与三星、乐视、美图秀秀等有合作上海分析2012.11.21上海214北京致生联发信息技术股份有限公司图像数据整合与分析,承接多个平安城市项目朝阳分析1997.3.24朝阳215江苏视图网络科技有限公司专注于图像识别和图像相似搜索技术江苏分析2011.12.27江苏216普强信息技术(北京)有限公司智能语音识别和自然语言处理技术,提供以中文为主的智能语音产品海淀分析2010.9.27海淀217同方知网(北京)技术有
268、限公司拥有海量文献资源,将自然语言处理运用于文本挖掘和信息检索海淀数据源;分析2004.11.18北京218上海玻森数据科技有限公司专注于中文语义分析,对外提供语义分析API,涵盖情感计算、实体、分类、聚类等技术领域上海分析2012.4.20上海219万达信息股份有限公司其医疗健康服务平台覆盖了全国3.6亿人口,社会保障系统覆盖1.3亿人口上海数据源1995.11.9上海220中科九度(北京)空间信息技术有限责任公司中科院电子所背景,遥感图像处理和空间信息分析海淀分析2010.10.26海淀221艺恩世纪国际信息咨询(北京)有
270、金融基于电商业务积累的海量数据,通过线上提供各类金融服务浙江应用9.万达地产通过室内定位、人流分析、用户画像等,达成商场整体布局的优化朝阳应用10.阿里巴巴(数据魔方)为企业决策提供数据支持浙江数据源11.京东为企业决策提供数据支持朝阳数据源;应用12.百度数据开放平台类同数据魔方海淀数据源13.链家基于自身的房源和客户数据,打造包括生活支付、社区服务、智能家居等方面的平台朝阳数据源;应用14.爱问知识人(新浪)知识平台,类同于百度知道海淀数据源15.百度知道&作业帮基于海量知识积累,推出了作业帮,直接介入分析和应用环节。
京东大数据:1号会员店大数据与用户调研报告(14页).pdf
2021年中国大数据产业规模及云创数据公司业务体系分析报告(24页).pdf
天府大数据:2020全球大数据发展分析报告(47页).pdf
2017中国大数据产业分析报告(30页).pdf
大数据技术沙龙会议报告:网易数据湖调研与实践-范欣欣.pdf
中国大数据网:大数据产业白皮书(72页).pdf
大数据产业生态联盟:2022中国大数据产业发展白皮书(33页).pdf
中国大数据产业观察网:2018最新全国大数据产业政策汇编(68页).pdf
中国大数据产业生态大会:中国大数据产业生态地图白皮书(38页).pdf
中国大数据产业联盟:2018中国大数据产业发展白皮书(36页).pdf