大数据基本概念与应用场景

丰富的线上&线下活动,深入探索云世界

做任务,得社区积分和周边

最真实的开发者用云体验

让每位学生受益于普惠算力

让创作激发创新

资深技术专家手把手带教

遇见技术追梦人

技术交流,直击现场

海量开发者使用工具、手册,免费下载

极速、全面、稳定、安全的开源镜像

开发手册、白皮书、案例集等实战精华

为开发者定制的Chrome浏览器插件

分布式文件系统所管理的数据存储在分散的存储设备或节点上,存储资源通过网络连接形成存储集群。

在大数据应用中,元数据的规模也非常大,元数据的存取性能是整个分布式文件系统性能的关键。常见的元数据管理可以分为集中式和分布式元数据管理架构。集中式元数据管理架构采用单一的元数据服务器,其优点是实现简单,但存在单点故障等问题。分布式元数据管理架构则将元数据分散在多个节点上,从而解决了元数据服务器性能瓶颈问题,提高了可扩展性,但实现复杂,同时还要解决元数据一致性的问题。此外,还有一种无元数据服务器的分布式架构,使用在线算法组织数据,不需要专用的元数据服务器。但是该架构对数据一致性的保证很困难,实现复杂。另外,文件目录遍历操作的效率低下,并且缺乏文件系统全局监控管理功能。

在大数据环境下,数据规模和复杂度的增加往往非常迅速,因此其存储系统必须提供按需扩展的功能。实现存储系统的高可扩展性首先要解决两个方面的重要问题,即元数据的分配和数据的透明迁移。前者主要通过静态子树划分和动态子树划分技术实现,后者则侧重数据迁移算法的优化。此外,大数据存储系统规模庞大,节点失效率高,因此还需要实现一定程度上的自适应管理功能。系统必须能够根据数据量和计算的工作量估算所需要的节点个数,并动态地将数据在节点间迁移,以实现负载均衡;同时,节点失效时,数据必须可以通过副本等机制进行恢复,不能对上层应用产生影响。

在构建存储系统时,需要基于成本和性能来考虑,因此存储系统通常采用多层不同性价比的存储器件组成存储层次结构。大数据由于规模大,因此构建高效合理的存储层次结构,可以在保证系统性能的前提下,降低系统能耗和构建成本。利用数据访问局部性原理,可以从两个方面对存储层次结构进行优化。从提高性能的角度,可以通过分析应用特征,识别热点数据并对其进行缓存或预取,通过高效的缓存预取算法和合理的缓存容量配比来提高访问性能。从降低成本的角度来看,采用信息生命周期管理方法,将访问频率低的冷数据迁移到低速廉价存储设备上,可以在小幅牺牲系统整体性能的基础上,大幅降低系统的构建成本和能耗。

随着新型存储器件的发展和成熟,Flash、PCM等逐渐开始在存储层级中占据一席之地,存储软件栈也随之开始逐渐发生变化。以Flash为例,起初各厂商通过闪存转换层FTL对新型存储器进行封装,以屏蔽存储器件的特性,适应存储软件栈的现有接口。但是随着Flash的普及,产生了许多针对应用对FTL进行的优化,以及针对Flash特性进行定制的文件系统,甚至有去掉FTL这层冗余直接操作Flash的存储解决方案。传统的本地文件系统,包括分布式文件系统,是否能够与新型存储器件耦合,最大程度地利用这些存储器件新特性上的优势,需要存储软件开发者重新审视存储软件栈,去除存储软件栈的冗余,甚至需要修改一些不再合适的部分。

大数据时代,企业对数据的管理、查询及分析的需求变化促生了一些新技术的出现。需求的变化主要集中在数据规模的增长,吞吐量的上升,数据类型以及应用多样性的变化。数据规模和吞吐量的增长需求对传统的关系型数据库管理系统在并行处理、事务特性的保证、互联协议的实现、资源管理以及容错等各个方面带来了很多挑战。为此,在分布式文件系统的基础之上发展出了分布式数据库技术。

这种技术以NoSQL(即NotOnlySQL)为代表。NoSQL系统通过放弃对事务ACID语义的方法来增加系统的性能以及可扩展性,具有以下几个特征。·支持非关系数据模型,例如采用键值存储等。·简单操作往往不支持SQL。·具备在多个节点中分割和复制数据的能力。·用最终一致性机制解决并发读操作与控制问题。·充分利用分布式索引和内存提高性能。采用NoSQL技术的代表性系统包括BigTable、Dynamo、HBase、Cassandra、MongoDB。

自从MapReduce被Hadoop开源实现之后,Hadoop广受欢迎。目前,在大数据领域涌现出了很多针对Hadoop的SQL分析引擎,代表性系统包括Hive、Impala等。其中,Hive是一个基于MapReduce的SQL引擎。Hive提供了一个类似SQL的查询语言(称为HQL)。Hive的基本原理是接受HQL,解析HQL,然后把HQL语句翻译成多个MapReduce的任务,通过MapReduce来实现基本的类似SQL操作。

随着数据量、数据处理速度和数据多样性的快速发展,大数据存储系统不但要处理已有的大数据,还要能快速地处理新数据,这就催生了满足大数据环境需要的索引和查询技术。分布式是处理大数据的一个基本思路,这同样适用于大数据索引和查询。分布式索引把全部索引数据水平切分后存储到多个节点上,这样可以有效避免单个节点构建索引的效率瓶颈问题。当业务增长,需要索引更多的数据或者更快地索引数据时,可以通过水平扩展增加更多的节点来解决。切分索引数据时要注意数据分布的均匀性,要避免大量索引数据分布到一个或者几个节点上,否则无法达到负载均衡的目的。与分布式索引对应的就是大数据的分布式查询。所有节点或者部分节点的查询结果由主节点或者查询节点进行汇总,然后得到最终结果。

实时流式大数据的处理与分布式系统在原理上有很多相似之处,但也有其独特需求。

实时流式大数据系统中,数据通常以流的方式进入系统,如何高效且可靠地将数据加载到大数据存储系统,成为了流式大数据系统实现低延迟处理的基础。此外,能够重新处理数据流中的数据也是一个很有价值的特性。

数据流中的数据源是多种多样的,数据的格式也是多种多样的,而数据的转换、过滤和处理逻辑更是千变万化,因而需要强大而又灵活的复杂事件处理引擎来适应各种场景下的需求。

数据通过复杂处理引擎和流计算框架时,通常会经过很多步骤和节点,而其中任何一步都有出错的可能,为了保证数据的可靠性和精准投递,系统需要具有容错和去重能力。

整个流系统可能有若干个模块,每个模块的处理能力和吞吐量差别很大,为了实现总体高效的数据处理,系统需要具备对流量进行控制和动态增加和删除节点的能力。当数据流入大于流出的速度时,还需要有一定的缓存能力,如果内存不足以缓存快速流入的数据时,需要能够持久化到存储层。

当数据规模的增长已大大超过了传统的关系数据库的承载和处理能力时,可以使用分布式数据存储管理和并行化计算方法,大力发展大数据查询分析计算技术。这种技术提供了面向大数据存储管理和查询分析的能力。为了满足企业日常的经营管理需求,大数据查询分析计算技术必须解决在数据量极大时如何提供实时或准实时的数据查询分析能力这一难题。能否达到关系数据库处理中小规模数据时那样的秒级响应性能,将决定大数据查询分析计算技术的成败。目前,具备大数据查询分析计算模式的典型系统有Hadoop下的HBase和Hive,Facebook开发的Cassandra,Google公司的Dremel,Cloudera公司的实时查询引擎Impala。此外,为了实现更高性能的数据查询分析,还出现了基于内存的分布式数据存储管理和查询系统,包括BerkeleyAMPLab的Spark数据仓库Shark,SAP公司的Hana等。

最适合于完成大数据批处理的计算模式是MapReduce。MapReduce是一个单输入、先映射转换(map)后合并汇总(reduce)的数据处理过程。首先,MapReduce对具有简单数据关系、易于划分的大规模数据采用分而治之的并行处理思想;然后将大量重复的数据记录处理过程总结成map和reduce两个抽象的操作;最后,MapReduce提供了一个统一的并行计算框架,把并行计算所涉及的诸多系统层细节都交给计算框架去完成,因此大大简化了程序员进行并行化程序设计的负担。MapReduce的简单易用性使其成为了目前大数据处理领域最为成功、最广为接受和使用的主流并行计算模式。在开源社区的努力下,目前包含MapReduce的Hadoop系统已发展成为非常成熟的大数据处理平台,已构建起了一个包括众多数据处理工具和环境的完整的生态系统。目前国内外的主要IT企业都在使用Hadoop平台进行企业内大数据的计算处理。

为了克服HadoopMapReduce难以支持迭代计算的缺陷,人们对HadoopMapReduce进行了改进。例如,Hadoop把迭代控制放到MapReduce作业执行的框架内部,并通过循环敏感的调度器保证前次迭代的reduce输出和本次迭代的map输入数据在同一台物理机上,以减少迭代间的数据传输开销;MapReduce在这个基础上保持map和reduce任务的持久性,规避启动和调度开销;而Twister在前两者的基础上进一步引入了可缓存的Map和Reduce对象,利用内存计算和pub/sub网络进行跨节点数据传输。目前,一个具有快速和灵活的迭代计算能力的典型系统是BerkeleyAMPLab的Spark,它采用了基于分布式内存的弹性数据集模型来实现快速的迭代计算。

社交网络、Web链接关系图等都包含大量具有复杂关系的图数据,这些图数据规模常达到数十亿的顶点和上万亿的边数。这样大的数据规模和非常复杂的数据关系,给图数据的存储管理和计算分析带来了很大的技术障碍。为此,需要引入图计算模式。大规模图数据处理首先要解决数据的存储管理问题,通常大规模图数据也需要使用分布式存储方式。但是,由于图数据的数据关系很强,分布存储就带来了一个重要的图分区问题。在有效的图分区策略下,大规模图数据得以分布存储在不同节点上,并在每个节点上对本地子图进行并行化处理。与任务并行和数据并行的概念类似,由于图数据并行处理的特殊性,人们提出了一个新的“图并行”的概念。目前,提供分布式图计算的典型系统包括Google公司的Pregel,Facebook对Pregel的开源实现Giraph,微软的Trinity,BerkeleyAMPLab的Spark的GraphX,CMU的GraphLab以及由其衍生出来的目前性能最好的图数据处理系统PowerGraph。

Hadoop的MapReduce是为大数据脱机批处理而设计的,它在分布式的文件系统之上实现大数据处理,它的主要缺陷是由于频繁的磁盘IO读写操作而降低了计算性能。随着大量需要高响应性能的大数据查询分析计算问题的出现,MapReduce往往难以满足要求。随着内存价格的不断下降以及服务器可配置的内存容量的不断提高,用内存计算完成高速的大数据处理已经成为大数据计算的一个重要发展趋势。Spark则是分布内存计算的一个典型的系统,SAP公司的Hana就是一个全内存式的分布式数据库系统。

智慧医疗是医疗信息化的升级发展,通过与大数据、云计算技术的深度融合,以医疗云数据中心为载体,为各方提供医疗大数据服务,实现医生与病人、医疗与护理、大医院与社区医院、医疗与保险、医疗机构与卫生管理部门、医疗机构与药品管理之间的六个协同,逐步构建智慧化医疗服务体系。

大数据在农业中的应用主要是指依据未来商业需求的预测来进行农牧产品生产,降低菜贱伤农的概率。同时大数据的分析将会更加精确地预测未来的天气,帮助农牧民做好自然灾害的预防工作。大数据同时也会帮助农民依据消费者消费习惯来决定增加哪些品种农作物的种植,减少哪些品种农作物的生产,提高单位种植面积的产值,同时有助于快速销售农产品,完成资金回流。牧民可以通过大数据分析来安排放牧范围,有效利用牧场。渔民可以利用大数据安排休渔期、定位捕鱼范围等。

不少银行已经开始尝试通过大数据来驱动业务运营。银行的大数据应用大概有四个方面,客户画像、精准营销、风险管控与运营优化等。

目前国内外证券行业的大数据应用大致有股价预测、客户关系管理、投资景气指数。其中客户关系管理包括客户细分、流失客户预测。通过分析客户的账户状态、账户价值、交易习惯、投资偏好以及投资收益,来进行客户聚类和细分,可以发现客户交易模式类型,找出最有价值和盈利潜力的客户群,以及他们最需要的服务,从而更好地配置资源和政策,改进服务,抓住最有价值的客户。此外,可以根据客户历史交易行为和流失情况来建模,从而预测客户流失的概率。

零售行业的大数据应用有两个层面,一个层面是零售行业可以了解客户消费喜好和趋势,进行商品的精准营销,降低营销成本;另一个层面是依据客户购买的产品,为客户提供可能购买的其他产品,扩大销售额,也属于精准营销范畴。另外,零售行业可以通过大数据掌握未来消费趋势,有利于热销商品的进货管理和过季商品的处理。零售行业的数据对于产品生产厂家是非常宝贵的,零售商的数据信息将会有助于资源的有效利用,降低产能过剩。厂商依据零售商的信息按实际需求进行生产,可以减少不必要的生产浪费。

通过大数据,政府可以实现精细化管理。政府过去一直都在利用数据来进行管理,但是由于过去没有高效的数据处理平台,造成了很多数据只是被收集,而没有体现其社会价值。由于缺少全局的数据和完善的数据,数据本身没有体现其应用的价值,所以在过去政府并不重视数据价值。依托于大数据和大数据技术,政府可以及时得到更加准确信息,利用这些信息,政府可以更加高效地管理国家这部机器,实现精细化资源配置和宏观调控。

以上是大数据的概念、大数据存储计算的关键技术与现在大数据在各个行业里面的应用,希望对你有帮助。

内容来自于:《大数据技术基础——基于Hadoop与Spark》作者:陈虹君,罗福强,李瑶

THE END
1.医疗大数据行业发展情况分析1医疗大数据在保险领域体现在精算核保...医疗大数据行业发展情况分析 1、医疗大数据在保险领域体现在精算、核保以及理赔。惠民保的出现使得应用逐渐注重区域化的数据。保险领域市场规模由核保与理赔占据主导,其数据主要来源于医保局。 2、而在医药领域则主要体现在新药物的研制,同时也细分为药物发现、临床使用以及产品推广。其主要数据源则来自于医院。 https://xueqiu.com/4290256430/302492606
2.2018级泛华金控——专业互联网保险中介商业模式案例分析4) 互联网保险服务公司:指信息科技公司利用大数据、SaaS(软件即服务)、人工智能等互联网技术手段为相关的保险公司提供服务与支持,简化和改善保险的理赔流程,降低保险公司的运营成本,提升服务用户的效率。这可以说是大数据与人工智能的快速发展给互联网保险行业带来的新亮点。 http://fmba.pbcsf.tsinghua.edu.cn/info/1027/1260.htm
3.重磅报告:大数据改良与改革中国保险业我们认为,保险公司需要从获取、应用和组织三个方面,构建包括开拓数据来源、建立许可和信任、商业应用场景构建、数据分析与建模、数据存储和整合、组织建设、专注的数据人才、治理和文化在内的八项专业能力,以驾驭大数据时代的创新要求。 3.1开拓数据来源 3.2 建立许可和信任 ...https://www.cac.gov.cn/2015-08/20/c_1116322312.htm
4.保险:大数据大发展【摘要】网络时代的到来,把我国的金融行业带入了一个大数据发展阶段。金融的大数据时代给我国的金融行业带来了深度的知识信息。保险行业也是一样,大数据的的带来,为保险行业带来了一个可记录、可分析、可预测,保险业的定价模式,新技术的发展带动着保险产品的定价模式。 https://m.huize.com/study/detail-68113.html
5.大数据分析在保险业风险评估中的应用袋鼠社区总之,大数据分析在保险业风险评估中的应用为保险公司带来了巨大的潜力和机遇。通过利用大数据技术,保险公司可以更准确地评估风险、提供个性化的产品,并发现新的市场机会。然而,为了充分发挥大数据的潜力,保险公司也需要面对隐私保护、数据质量和技术成本等挑战。随着技术的不断进步和行业的不断发展,大数据分析无疑将在保险...https://www.dtstack.com/bbs/article/18291
1.大数据时代下,保险业迎来了怎样的机遇与挑战?为了更好地驾驭大数据对保险行业的改良及改革,保险公司需要从数据获取 、应用和组织三大方面构建包括开拓数据来源、建立许可与信任、构建商业应用场景、数据分析与建模、数据存储与整合、组织建设、专注的数据人才、治理和文化在内的八项专业能力。 在被调研公司中,63%的保险公司已将大数据应用于欺诈检测方面,47%的保险公...https://cloud.tencent.com/developer/article/1106747
2.数字化保险的数据分析:如何应用大数据技术本文探讨了保险行业的传统问题,并介绍了如何通过大数据技术进行数字化转型,降低成本、提高效率、个性化服务和风险管理。文章详细解析了大数据、分析方法、机器学习算法及其在保险中的应用,并展望了未来的发展趋势和面临的挑战。 摘要由CSDN通过智能技术生成 1.背景介绍 ...https://blog.csdn.net/universsky2015/article/details/135796933
3.保险行业的年度盛会——2021年第四届中国保险大数据分析与人工...由上海泽为资讯集团IIC主办,国际保险协会IIS支持的2021年第四届中国保险大数据分析与人工智能创新国际峰会暨“保险创新者大奖”颁奖典礼(上海,8.17-8.18)将探索保险的未来,以及数据和人工智能驱动的商业模式如何在整个行业创造创新。这一必须参加的活动将在2021年举行,将讨论大数据分析和人工智能如何改变保险产业链。了解谁...https://news.hexun.com/2021-07-02/203891259.html
4.2019,浅谈保险大数据在保险领域的综合应用近年来,关于保险大数据及保险人工智能的探讨不绝于耳,其中有对保险行业发展前景的担忧,也有叫好声。今天,笔者在此就前者对保险行业的影响做一个综合的介绍与论述,抛砖引玉。 保险大数据在保险领域的应用 在保险大数据应用层面:精准营销、产品设计、风险控制、企业内部运营精细化管理都是保险机构在新生态上着手发力并提...https://www.iyiou.com/p/118223.html
5.帆软FineBI大数据Spider引擎——为海量数据分析而生在保险行业,有大数据量明细清单查询与分析场景,这种场景在稍大型保险企业,明细数据量动辄上亿。 保险行业常用传统展示分析工具如BO、SSAS、cognos、Microstrategy等,常规汇总分析数据与粗粒度维度汇总计算较为方便,固定的指标查看等都没有问题。但是到明细数据的展示分析与汇总时候,就存在各种性能瓶颈以及传统BI工具的约束...https://maimai.cn/article/detail?fid=1087958660&efid=cFC-D1L_rX-NNAoQf2Qh1A
6.行业首份!《全国重载货车保险大数据分析报告》发布全国重载货车风险晴雨表今日出炉。2022年5月31日,中交兴路通过分子实验室直播间正式发布《全国重载货车保险大数据分析报告》(以下简称“报告”),梳理货车市场规模与结构、分析风险分布与关键因子,预测发展走势,为险企绘制作战地图。据悉该报告也是行业首份针对重载货运保险的大数据分析报告。 https://www.sinoiov.com/news/official/325.html
7.大数据保险行业的应用,有哪些具体的案例和效果基础知识前言:本文将会介绍一些大数据在保险行业中的具体应用案例以及它们所带来的效果。此外,保险公司还可以利用大数据来监测风险的变化,从而及时采取相应的措施,降低风险。大数据技术在保险行业中的应用非常广泛,可以帮助保险公司提高效率、降低风险、提升服务质量。 随着互联网技术的不断发展,大数据已经成为了一个非常热门的话题。https://www.shenlanbao.com/zhishi/5-588650
8.保险数据仓库大数据分析项目保险业大数据分析项目保险 数据仓库 大数据分析 项目 保险业大数据分析项目 保险推销用户行为分析 一、选题的背景 当今社会时代下,人们生活中有时遇到一些意外事故,比如车祸,伤病等,而随之发展起来针对这些意外事故做保护的各种保险产业,应运而生。保险行业的出现创造了许多的就业岗位,因为销售提成的原因也有不少年轻人选择进入这个行业。当前...https://blog.51cto.com/u_16213621/7245832
9....全球及中国高端保险产业运行大数据与标杆案例分析报告报告对全球及中国保险行业的保险市场规模和份额、保费情况等方面进行了分析,并将保险行业的产品分为基础险种和高端保险产品分别进行分析。基础险种方面,报告分析了人身保险和财产险发展的核心数据、相关公司盈利情况,并对具体险种,包括寿险、健康险、人身意外险、车险、高端车险、家庭财产保险等发展情况进行了分析。报告...https://www.iimedia.cn/c1066/97594.html
10.2022年招生专业介绍可获证书:证券业从业资格证书、基金从业资格证书、金融大数据职业技能等级证书等。 就业方向:学生能面向银行、证券、保险等金融机构的理财顾问、财富经理岗位,金融信息服务行业的金融咨询、金融服务营销岗位及岗位群,从事投资理财产品咨询、金融市场分析、理财规划服务、理财产品营销与推广等工作。 https://www.scpcfe.cn/info/1026/14626.htm