南大通用数据技术股份有限公司GBase8aMPP解决方案成功案例
目录
1.1项目概况
随着互联网和“大数据”时代的来领,传统银行如今面临来自其他领域的跨界挑战前所未有。如何转变思维,唤醒沉睡的数据,建立强大稳定的数据分析系统,开发创新数据应用,实现经营转型,是银行业“大数据”时代迫在眉睫的任务。同时,也是农业银行在转变经营思路的过程中,一直思考的问题。
为了应对上述问题,农行着手构建新型大数据平台时提出了以“数据是基础,治理是保障,技术是支撑,分析是关键,应用是目标”的原则,核心目标是实现数据价值在业务应用中转变为生产力,构建数据价值利用的有效闭环,真正实现从数据支撑到数据运用的转变。在此过程中,需要对数据治理,提高数据质量,从而更好地满足数据挖掘需求,为数据价值在业务中的深入应用夯实基础。
农业银行作为典型的数据密集型单位,数据的重要性日益凸现:一方面,数据是其信息化的核心,是保障银行正常运转的关键,对数据库系统的稳定性和安全性有着十分苛刻的要求;其次,数据是宝贵的资源和财富,体量增长非常迅速,新构建的数据仓库系统必须具备对新生数据进行及时处理,计算和管理的能力。其主要需求如下:
1.2解决方案
农行数据仓库架构图
数据处理层:数据处理层由Hadoop构建,完成对数据的抽取、清晰转换以及拉链表的加工。目前,数据处理层每日处理完毕的数据输出达2.5TB左右。数据加工完成之后,加载至模型指标层,即农行数据仓库主库。
在数据仓库内部,从功能上可以划分为ODS层,BDS层及GDS层三个逻辑层次。ODS(OperationalDataStorage)层即为贴源层,用于存放从业务系统直接抽取出来的数据,这些数据从数据结构、数据之间的逻辑关系上都与业务系统基本保持一致。BDS(BaseDataStorage)层全称为基础数据层,主要加工任务为在数据库按照对象的需求建模成功之后,对ODS层的数据进行加工和整理。GDS(GeneralDataStorage)即公共数据层,主要目的是为了满足上层应用加工的需求,对BDS层中的数据按照主题或需求进一步进行加工整合,完成轻度数据汇总或宽表加工等任务。
数据集市层:通过使用GBase8aMPPCluster构建了针对上层业务的资负集市、零售集市、个人客户集市、对公客户集市、分行数据集市、运营风控集市、信用风险集市、财务数据集市、广东分行信用预警分析系统以及分析数据集市等各个集市子系统。为了实现数据的高安全和高可用,采用双活集群组成数据仓库。数据仓库主库加工后的数据,通过DBLink方式,由主库传输到集市环境。
分析展示层:使用特定的计算分析引擎,建立数据模型等方法,完成对数据的挖掘和使用。
应用展示层:应用展示对数据进行最终的调取使用,以供服务和业务的展开。
1.3应用效果
海量数据管理:为用户提供了并行海量复杂数据处理平台,帮助客户形成PB级以上的业务数据单一视图,为客户提供及时高效的数据分析结果;
满足监管需求:通过对数据统一的管理与治理,满足上层监管部门对上报监管数据的要求,保证数据的准确性、及时性、完整性;
通过数据指导业务:通过数据仓库的建立,对数据在生命周期内有效和高效的管理,保证客户接入更全面的业务数据,满足市场营销、内部管理和内外监管的分析业务需求;
创新的大数据平台架构:将MPP数据库技术和Hadoop技术的混合使用并搭建组成大数据平台,是金融行业的大数据技术架构和应用的创新,荣获银监会二等奖。
国内金融行业最大的数据仓库和大数据平台:目前农行的GBase8aMPPCluster集群的节点个数已经达到2100+节点,共部署42套生产集群,管理裸数据总量超过20PB。是国内金融行业最大的数据仓库和大数据平台。
提升反洗钱风控能力:使用GBase8aMPPCluster作为反洗钱风控的数据集市,满足新形势下监管要求及内部风控要求,达到了如下效果:
支撑全行精准营销体系:GBase8aMPPCluster大数据平台全面支撑了农行的精准营销全流程,支持各级分行开展营销活动近10万次,实现新增贵宾客户数近400万,信用卡年发卡量突破1000万。基于GBase8aMPPCluster的精准营销系统做到了客户的全覆盖管理,覆盖全行个人有效客户9亿,覆盖全行对公有效客户400多万。营销系统日均访问量超过1500万次,日均推送工作提醒5000万,为临柜客户日均推送400万次产品推介。
2.1项目概况
根据中国银行企业级架构建设总体部署,通过构建“三横两纵一线”的数字资产运营服务体系,为全行数据治理各项工作奠定坚实基础。
“三横”是搭建集团统一数据平台,以“数据+分析+展现”的三层架构,为数据资产的共享、分析应用、服务提供和价值创造提供全面、敏捷、精细的能力支撑,数据仓库是数据层的重要组成部分。
项目采用国产芯片服务器、国产操作系统和国产数据库建设,建成全国产化的企业数仓平台。
2.2解决方案
中国银行企业数仓系统架构示意图如下:
中国银行企业数仓系统架构图
GBase8a集群作为中国银行企业数仓的核心部分,进行结构化数据的存储管理与计算,支撑全行的公共数据存储、整合模型计算、共性数据模型架构,并直接承担一些业务应用的查询分析。
使用Hadoop平台用于数据湖的数据存储和公共数据交换区,通过TBDS分布式存储汇聚来自各个业务系统的数据,经过初步加工处理后,加载进入GBase8a集群。GBase8a集群运算分析后的结果数据再回到TBDS分布式存储,供其他系统使用。
2.3应用效果
本项目目前搭建205台服务器,服务器为海光Hygon7185芯片的国产服务器,同时使用国产操作系统。部署GBase8av9.5.3集群,包含15个coordinator管理节点服务器,120个数据节点服务器,70个freenode节点服务器。为适配国产服务器架构,每个数据节点服务器上部署2个实例。
超大规模集群:超大规模集群提供了海量数据存储和超强计算能力,同时具备横向扩展能力,可扩展到千节点以上,支撑中国银行未来规划;
全国产化:金融行业率先大规模应用国产服务器+国产操作系统+国产数据库;
湖仓一体:打通数据仓库与数据湖的数据通道,实现湖仓融合。
3.1项目概况
中国银行股份有限公司江苏省分行在大数据形势下,主动进行业务创新,率先搭建基于GBase8a集群支撑海量数据存储、分析、统计的大数据平台。
GBase8a集群关系型数据库数据库作为江苏分行的大数据平台,支撑了众多应用系统,其中,已经上线应用系统10个:数据查询平台、营销分析系统、风险监控平台、大风险项目、经济资本管理系统、个人客户信息治理、贸经全景数据平台、柜员业务量系统、数据分析挖掘平台和外部数据管理平台;正在建设中还未上线的系统4个:公司质效管理系统、厅堂销售项目、社保数据对接项目和全球现金管理平台。
此外,江苏分行在2017年年底对GBase8a集群进行了升级和扩容,扩容后集群规模接近为扩容前集群节点数的2倍,并且升级到了GBase8a集群的最新版。
3.2解决方案
本项目针对大数据平台建设需求及规划,采用GBase8aMPPCluster大规模分布式并行数据库集群系统构建数据平台的核心数据管理层,形成全量数据的统一基础数据平台。该大数据平台的架构如下图所示:
中国银行江苏分行大数据平台架构图
前端业务系统采用OLTP数据库,通过统一的数据交换平台将业务数据数据同步到GBase8a集群的大数据平台中。在GBase8a集群完成数据的统计分析,支撑前端的十多个业务系统,如营销分析系统、数据查询平台、风险监控平台、经济资本管理系统、个人客户信息治理、外部数据管理平台、柜员业务量系统和数据分析挖掘平台等业务系统。
目前江苏分行的大数据平台的数据量是360TB,每天的增量是200GB数据,共7400多张表,最大表为70亿行数据,并发30个跑批,每天跑批3-4个小时。
由于江苏分行的业务规模不断扩大,加之有新的应用系统要在大数据平台上线(公司质效管理系统、厅堂销售、社保数据对接和全球现金管理平台等),大数据平台现有的存储空间已经无法满足要求。于是,在2017年年底江苏分行对GBase8aMPP数据库集群进行了扩容并在扩容的同时将GBase8aMPP产品大版本升级到了最新版。
到目前为止,江苏分行大数据平台总集群已经升级到了GBase8aMPP数据库的最新版,无论是平台的稳定性和高可用性,还是平台的数据处理性能都得到了极大的提升。未来,在GBase8aMPP数据库支撑下的中国银行江苏分行大数据平台还将上线更多的分析类应用,为中国银行江苏分行的业务创新和业绩提升提供有力保障。
3.3应用效果
4.1项目概况
在建设基础客户分析拓展系统过程中,客户提出的需求如下:
查询性能高效:支持模糊查询、等值查询和范围查询,查询性能较Oracle数据库性能提高5倍;
数据同步高效:数据从Oracle数据库加载至GBase数据库性能提高10倍;
集群高可用:7×24小时持续运行,避免单点故障或系统维护造成停机;
集群监控管理:可以实现对存储空间使用状态、CPU使用状态、内存使用状态、SQL性能等指标的监控。
4.2解决方案
中国银行山西分行股份有限公司针对其在传统Oracle数据库下建设的客户分析系统性能不佳的问题,采用高效的分布式关系型数据库来支撑海量数据存储、分析、统计的大数据平台。GBase8aMPP数据库产品应用于客户分析系统,通过大数据分析进行精准营销,实现客户和营销渠道的高效服务,实现数据管理业务的增值。
中国银行山西省分行基础客户分析拓展系统架构图
本项目搭建5节点规模集群,采用GBase8aMPPCluster大规模分布式并行数据库集群系统构建数据平台的核心数据仓库及数据集市,形成以客户资产、客户关系、运营营销、签约渠道等以客户管理为中心的全量数据统一基础数据平台。
目前的数据量是2TB,每天的增量是10GB数据,共1500多张表,最大表为20亿行数据,每天跑批3.5个小时。结合业务场景,配置1台加载机,1台监控机。
4.3应用效果
使用了GBase8aMPPCluster产品后,极大地提升了数据批量处理、数据装载和数据查询等方面性能,实现了业务需求,使海量客户数据得到了有效利用。
数据加载性能提升:在数据装载方面,计息日存储对私账户主表加工,原Oracle数据库需2小时18分钟,GBase8aMPPCluster只需要3分钟。
数据查询性能提升:借助GBase8aMPP数据库的智能索引技术及列存储的特点,使应用场景中的等值查询、范围查询及模糊查询的效率提升了300%-500%,例如原Oracle无法实现的即席查询功能,GBase8aMPPCluster数据库20秒左右即可返回查询结果,有效支撑了营销管理、金融产品管理、决策支持等领域对OLAP的业务分析需求。
业务模型跑批性能提升:借助MPP数据库的多表关联查询速度快的优势,解决了原传统数据库处理能力瓶颈导致的每日跑批作业处理延迟的问题,模型跑批平均耗时缩短5-10倍,保证了业务处理及时性以及新业务的拓展。
数据同步时效性提升:借助GBASE数据同步工具,实现与Oracle数据库的高效同步,数据同步由2小时缩短到3分钟,大大提高了数据分析的效能。
5.1项目概况
中国银行澳门分行需要一款能够替代Oracle功能并达到更好性能的数据库,在不进行纵向扩容的前提下,通过资源横向扩展来实现性能提升,最大限度的减少系统建设成本,实现“低投入、高产出”的效果。达到如下目标:
5.2解决方案
为解决客户Oracle平台分析能力问题,中国银行澳门分行搭建6节点的GBase8a集群替换原有的Oracle平台。通过8aMPP集群分布式计算能力,解决了原有Oracle平台单点故障和性能瓶颈问题,架构图如下:
中国银行澳门分行大数据平台架构图
基于GBase8aMPPCluster数据仓库,采用节点数据冗余高可用机制,每个节点包含一个主分片,并同时保存其他节点的两个备用分片。
集群各节点间通过万兆以太网交换机互联,用于数据加载和节点间数据交换;集群通过万兆网及双网卡主备模式绑定对外提供客户端访问服务。
提供监控系统以便客户方便的进行集群状态的监控和运维。
5.3应用效果
本项目大幅度提升了客户的大数据分析能力:
高可用能力提升:原Oracle环境需要采用基于DG的Oracle高可用机制,同时仅一台服务器提供服务,另一台为备份。新系统可进行全集群的交叉备份,运行时全部六台机器均参与计算,最大限度的发挥整个集群性能,彻底避免了单节点故障,使整个系统高可用能力上升到了一个新的阶段。
6.1项目概况
中国银行股份有限公司北京分行搭建的大数据平台系统,主要用于用户营销分析、用户标签分类等业务。通过大数据分析进行精准营销,实现高效服务客户和社会的同时也增加了营业收入。
大数据平台建设过程中,需要满足如下要求:
功能强大:需要支持数据迁移、数据加工、数据查询、应用连接的大集成;
高性能:需要对数据加载、数据导入导出、数据加工、查询等要求快速响应;
高可靠性:需要支持7*24小时持续运行和避免单点故障或系统维护造成停机;
工具接口:需要支持SQL92标准,并支持符合国际规范标准的ODBC、JDBC、ADO.NET接口及本地化CAPI接口。
6.2解决方案
基于客户的业务需求,中国银行北京分行搭建了一套GBase8aMPP集群来满足以上需求,该系统的架构图如下:
中国银行北京分行大数据平台架构图
目前整个集群系统的总数据容量8T,数据增量大约每个月300G,暂定保留2年的数据。
数据不定时(大部分是晚上)进行批量导入,并通过存储过程进行跑批运算,计算结果存储到结果表中。终端直接查询结果表,主要用户是营销经理,并发量不大。
6.3应用效果
数据整合:GBase8aMPPCluster集群数据库在海量存储和大规模并行计算的突出优势,实现海量数据的存储管理,通过高效的数据整合加工能力,提供一致可靠的数据视图;
即席查询:GBase8aMPPCluster集群数据库在海量数据下的高效即席查询能力,实现交易明细数据的快速逐笔查询和即席查询;
标准化:支持SQL92\SQL99标准,支持符合国际规范标准的ODBC、JDBC、ADO.NET接口及本地化CAPI接口;
高线性扩展能力:GBase8aMPPCluster具有在线高扩展能力,保障数据平台后续接入更多的业务系统,满足更高层次的复杂分析以及战略决策需求。
7.1项目概况
中国银行股份有限公司黑龙江省分行在大数据形势下,主动进行业务创新,搭建基于分布式关系型数据库的海量数据存储、分析和统计的大数据平台,该平台将应用于各个业务部门的报表系统,以及配合公检法监管部门或客户的业务查询。
统一基础数据平台:需要支持数据迁移、数据加工、数据查询、应用连接的统一平台;
高性能:要求对数据加载、数据导入导出、数据加工、数据拆分、查询等要求快速响应;
高可用:需要7*24小时持续运行,可以避免单点故障或系统维护造成停机;
高线性扩展能力:需要支持多台节点的在线扩容,来满足未来业务性能和数据存储的指标要求。
7.2解决方案
本项目搭建4节点规模集群,采用GBase8aMPPCluster大规模分布式并行数据库集群系统构建数据平台的核心数据管理层,形成全量数据的统一基础数据平台。目前该项目采用4节点规模集群,数据量是10TB,每天的增量是30GB数据,共1000多张表,最大表为百亿行以上数据,每天跑批4-5个小时。结合业务场景,配置1台加载机,4个计算节点。
中国银行黑龙江分行大数据平台架构图
7.3应用效果
管理创新:改变数据架构模式,将所有业务模型数据汇集在数据库中,向所有业务部门提供报表服务。利用数据库的大数据复杂场景计算能力,可以配合公检法监管部门进行业务查询;
高性能:业务场景已得到全面性能提升,较Oracle跑批性能提升7到10倍不等,大数据量精确查询性能提升几十倍,低投入带来性能高收益;
高可扩展性:集群可支持多节点在线扩容,可以适应未来业务性能和数据存储的指标要求;
高可用:保障系统7*24小时持续运行,同时可以避免单点故障或系统维护造成停机使用。
8.1项目概况
中国银行股份有限公司辽宁省分行在大数据形势下,主动进行业务创新,搭建基于MPP关系型数据库支撑海量数据存储、分析、统计的大数据平台。MPP数据库产品目前主要应用于历史查询系统中,后续会根据数据规模制定新的业务体系。
功能强大:支持数据迁移、数据加工、数据查询、应用连接的大集成;
高性能:对数据加载、数据导入导出、数据加工、数据拆分、查询等要求快速响应;
高可用:7*24小时持续运行和避免单点故障或系统维护造成停机;
高线性扩展能力:支持多台节点的支持在线扩容。
8.2解决方案
本项目搭建6节点规模集群,采用GBase8aMPPCluster大规模分布式并行数据库集群系统构建数据平台的核心数据管理层,形成全量数据的统一基础数据平台。目前的数据量是10TB,每天的增量是30GB数据,共1000多张表,最大表为百亿行以上数据,每天跑批4-5个小时。结合业务场景,配置1台加载机,6个计算节点。
中国银行辽宁分行大数据平台架构图
8.3应用效果
本项目部署6节点集群,日增数库量30G,数据总量约为10T左右。
管理创新:改变数据架构模式,将所有业务模型数据汇集在数据库中,通过Smartbi工具向各个业务模型提供报表数据。
高性能:业务场景已得到全面性能提升,较Oracle跑批性能提升7到10倍不等,大数据量精确查询性能提升几十倍,低投入带来性能高收益。
高可扩展性:集群可支持多节点在线扩容,可以适应未来业务性能和数据存储的指标要求。
9.1项目概况
随着中行内蒙古银行数字化业务的发展,数据形态已经脱离了原有的单一结构化模式而向着多样态发展,加之业务的不断发展,对系统的灵活性也提出了更高的要求。
考虑到未来数据分析平台的发展,对大数据平台要求如下:
9.2解决方案
本项目采用基于X86PCServer+Linux的GBase8aMPPCluster建设方案,构建以列存储、智能索引、高效压缩、高可用和分布式并行计算为核心技术的内蒙古银行大数据平台,支持未来10年的分析发展需求。系统架构图如下:
中国银行内蒙古分行大数据平台架构图
本项目采用GBase8a集群进行数据的存储管理和数据分析,支撑前端的实时信贷分析、渠道分析和风险分析等应用的展现,支撑多数据分析、模型调度、风险预警等数据挖掘分析业务。
9.3应用效果
项目实施部署10个节点的GBase8aMPPCluster数据库集群。
提供了成本可控的可扩展性:通过使用国产X86设备建立分布式集群,提供了系统未来扩展的成本可控能力及系统的国家安全保障,为未来发展保驾护航;
提升复杂客户分析能力:提供对不同业务数据的统一整合,从产品角度完善了不同业务场景功能及性能需求,体现了对全数据的全面处理能力;
提升综合分析查询效率:系统可支持全行全业务覆盖的综合查询和分析,查询分析效率明显提升;数据查询能力从原有的千万行级表数据复杂查询分钟级响应,提升到现在亿行级表数据复杂查询秒级响应。
10.1项目概况
中国银行青岛分行数据分析平台自2010年建成已运行8年,满足了分行在数据分析类应用的需求。随着系统管理的数据量越来越大、业务快速增长及业务管理要求的提高,现有系统也暴露出一些问题。
更新和逐步改进现有数据分析平台、引入分布式数据库全面提升数据分析平台的计算、存储和扩展能力成为亟待解决的问题。
项目的目标就是在中行青岛分行数据分析平台中,引入现今流行的MPP集群作为数据分析平台的数据库,与现有的Oracle数据库并行运用,并以业务查询需求为入口,采用小步快跑、平滑过渡的方式,安排应用功能扩展,逐步以MPP集群替代现有Oracle数据库,利用分布式数据库的存储和计算能力,全面提升青岛分行特色应用集成数据架构的计算和存储能力,满足我行分析型应用系统在数据管理、模型运算和业务分析方面的需求。
10.2解决方案
现有数据分析平台包括贴源层、加工层和集市层等3个层次,创建数据库及数据表的逻辑模型和物理模型时需要尽量贴近现有平台的表结构创建,减少数据初始化和数据同步程序开发和测试的难度,同时需要按照分布式数据库的特点建立合理的分区健、联接键等,为数据分布、数据联接创奠定基础。
中国银行青岛分行数据分析平台架构图
集市层:主要是按照业务逻辑进行的项目数据加工,目前拥有全员营销、绩效等级测算平台等集市数据,数据一般按照日期戳或按数据期间分表的方式区分,数据迁移、新增和清理等相对简单;
10.3应用效果
数据分析平台采用2套8个节点的GBase8a集群建成主备双活集群,提升系统的高可用和灾备能力,提供监控系统以便客户方便的进行集群状态的监控和运维。
低成本:有效降低维护成本,整个项目降低了系统管理维护的复杂性,从而达到“集中监控、集中维护、集中管理”的目标,减少系统建设维护成本、节约投资和降低人力成本;
技术先进性:建设符合信息技术的最新发展潮流的应用基础架构和应用系统,保证投资的有效性和延续性;
开发接口兼容性:保证开发用的工具平台具有良好的二次开发功能;
高安全性:充分考虑用户、系统、网络方面的安全性要求,防止来自外部非法的访问;且具有用户的身份认证和权限管理;
高可用性:数据分析平台投入运行后即作为生产系统,保证7×24小时服务;
支持备双活集群部署:使系统的高可用性和容灾能力进一步提升。
11.1项目概况
11.2解决方案
本项目采用基于X86PCServer+Linux的GBase8aMPPCluster建设方案替换原有系统,构建以列存储、智能索引、高效压缩、高可用和分布式并行计算为核心技术的广东某股份制银行审计系统,可管理TB级结构化数据,支持10年的历史数据审计。项目分多期建设完成:
新规划后的审计系统将三期建设的3个集群共60个计算节点合并为一个大集群,并新增20个节点,形成一个80个计算节点的大集群;扩容ETL数据分发集群,从10节点扩容到20节点。支撑的数据总量达到1PB。
总行审计、分行审计、中小额企业审计都在大集群中进行处理,通过资源管理进行隔离,保证互不影响,保证处理的效率。系统架构图如下。
广东某股份制银行审计分析系统架构图
11.3应用效果
系统扩容:从支持几十TB数据量的小型机+磁阵架构升级到可支持几百TB数据量的PCServer+内置磁盘架构;
性能提升:支持100人并发即席查询实现秒级响应,数据加载和模型运算速度提升2-5倍;
高性价比:新系统的软硬件拥有成本不到原系统的20%,大幅降低用户的建设成本;
高可用易扩展:支持多副本,数据互相备份。支持在线近线性扩展,满足未来扩展需求。
12.1项目概况
广东某股份制银行的报表集中管理平台于2012年使用SybaseIQ和Oracle建设,已运行8年,当前技术架构陈旧存在如下痛点:
使用MPP数据库替代SybaseIQ承载报表服务平台,期望实现以下功能和效果:
12.2解决方案
报表服务平台使用分布式数据库GBase8aMPPClusterV9.5进行建设,报表工具使用Smartbi。有效解决报表服务平台面临的报表统计耗时长、数据库扩展困难等问题。报表平台对外提供平台化开发能力,提供自定义报表服务、自助报表数据下载等功能。整体效果如下:
广东某股份制银行数据分析类业务整体架构图
源系统采用传统数仓(OracleExadata)和大数据平台(FI)建设,处理来自行业各种业务系统的数据和行外数据。所有数据加工类处理统一通过数据开发子应用来调用底层数据。
新报表平台集中管理子应用作为全行未来的报表统一平台,对外分别服务业务用户和科技用户。新报表平台采用南大通用GBase8aMPPV9.5,初期规划部署5台X86服务器,容量规划为50TB(压缩后容量)。
12.3应用效果
本项目采用混合部署模式,共部署10个节点,其中5个管理节点,10个数据节点,库内数据达190T。
高扩展性:新平台采用的数据库GBase8aMPPCluster为SharingNothing的MPP架构,具备高可扩展性,目前5个节点,未来整个集群最大可扩展到4096个节点;
高性能:新的平台数据处理性能较原有SybaseIQ提升10倍以上。GBase8aMPPCluster集群V9版本在2020年12月份完成TPC-DS基准测试,以性能QphDS分数8944478上榜,成为TPC-DS官方榜单物理机世界第一的数据仓库;
高安全性:新报表平台采用全栈国产平台,包括国产服务器、国产操作系统和国产数据库。全国产化整体解决方案保障了系统具备完全的自主可控能力,提供了高安全性。
13.1项目概况
随着大丰银行业务不断发展,数据积累日益增多,海量的历史数据得不到有效利用,金融业务和服务创新缺乏IT技术支撑。如何利用海量数据资源进行价值和商业变现,成为提高核心竞争力、抢占市场先机的关键。随着数据量的增长及业务场景的变化,取数和计算范围不断扩充,整个ETL过程的调度也日益复杂,这不仅带来运维成本的增加,也让数据生产质量难于保障。
大丰银行数据平台使用DB2,存量数据达TB级以上,数据库性能和稳定性都遇到挑战,急需保证数据平台系统在高并发和高负荷下进行查询分析的快速响应能力和系统稳定性。在扩展性方面,需满足未来业务对系统扩展的要求。另外在成本方面,系统需要具有较高的性价比,避免后期建设由于成本过高导致的不可持续维护和扩容。
13.2解决方案
为了满足大丰银行数据查询分析的用户需求,采用GBase8aMPPCluster大规模分布式并行数据库集群系统替代DB2建设新的数据平台以满足用户的预期,并带来更高的价值。
数据平台采用6节点GBase8a集群支撑TB级数据量。通过GBase8a的列存储、智能索引、高压缩等技术,有效减少磁盘I/O访问量,在查询统计分析方面较原有系统有很大幅度的提升;支持即席查询和多维分析;支撑各种复杂的BI应用分析展示。作为数据调度平台的基础平台,实现模型、指标、ETL的统一管理,为金融行业其他用户提供方案级复用。
大丰银行数据平台架构图
13.3应用效果
大丰银行原来的数据平台系统是DB2,目前已全面迁移到GBase8a集群中运行,对大丰银行的数仓报表出数性能有了明显提升。
14.1项目概况
山西某商业银行数据集市使用MPP数据库建设,通过MPP数据库集群查询和存储能力,在保留原有数据集市功能基础之上,根据该商业银行的业务特点开发新的数据集市应用,并实现数据的统一整合、共享和展示。
14.2解决方案
基于GBase8aMPPCluster建设该商业银行数据集市系统。源系统通过ETL将数据汇集至挖掘集市进行分析挖掘,包括全部业务报表和查询业务系统的业务信息,提取重点信息内容。
数据集群系统包含如下几个部分:
共性加工层:针对集市共性指标维度等进行整理和整合,对数据进行标准化处理,统一口径、统一维度、统一指标,为后续数据整合提供标准基础。
基础整合层:对所有分析类指标维度进行基础整合,对目标结果进行计算与整合,完成复杂计算,对结果数据进行存储,完成星型模型的构建和处理。
14.3应用效果
山西某商业银行数据集市GBase8aMPPCluster环境共部署8个集群节点(8个数据节点+3个管理节点),采用1主分片1副本分片高可用机制。管理的数据量超过60TB。
集群各节点间通过万兆以太网交换机互联,用于节点间数据交换;协调节点与数据各节点间通过万兆以太网交换互联,用以数据加载;集群通过千兆网对外提供客户端访问服务。
整合分散系统,打通全行数据孤岛,将原有碎片化资源集中管理,使其得到充分利用。
统一数据管理:统一分析、统一处理,提升客户数据价值,大大节省计算和存储成本。
高效的查询性能:查询响应速度比原有系统提升2~10倍,复杂查询秒级响应。
易扩展:支持基于X86的横向扩展,极大节省了原有单机数据库扩容依靠纵向扩展的模式。
高性价比:通过横向扩展,将系统总建设成本降低50%。
15.1项目概况
2020年3月9日,“2019年中国银行业100强榜单”发布,阜新银行排名第97位。
2019年7月起IBM官方宣布停止其旗下数据仓库产品Netezza及其一体机全部技术支持,导致阜新银行方面从2019年7月至12月末连续出现大规模的数仓宕机和业务停机事故。而项目集成商和软件开发商未能提供有效的技术支持和解决方案,这是促使阜新银行方面决心更换数仓产品的主要因素。
此外,IBM一体机过高的扩容成本和不断增长的算力要求也促使客户计划替换国外产品。
阜新银行科技部门积极寻求数据仓库的国产化替代IBM-Netezza产品的整体化解决方案,探索国产自主可控技术路线,寻求硬件低投入,性能高收益的解决方案。新数仓是为交易所提供数据存储和计算的新型平台,涉及交易产生的主要业务数据,并提供数据查询、统计、分析、挖掘、检索等数据处理服务,并在功能上、性能上、高可用等多方面满足要求或者超越原有Netezza一体机平台。
15.2解决方案
阜新银行大数据平台采用GBase8aMPPCluster数据仓库构建,替换IBM-Netezza一体机。全面支撑信用风险系统、资金稽查系统、报表业务、以及日常跑批等各项业务应用。面向全行数据仓库业务领域、十几个业务系统,提供跑批服务、报表业务以及数据深度分析及数据预警等数据支撑,为业务经营发展提供全新的高性能数据处理引擎。
数据处理层:主要由GBase8aMPPCluster替换原有的IBM-Netezza一体机数仓所承接的前端采集、数据汇总等数据处理任务,完成数据比对、入库、汇总等工作。同时,新增加同城主备集群同步功能,实现同城灾备。
15.3应用效果
大数据平台共部署6节点,数据总量超过10TB,每日增量约50GB左右,近1万张数据表,4000多存储过程。
目前经过部署期、适配期、已经成功正式上线,并进入系统稳定期。成功实现了对原有IBM-Netezza数据仓库的全面替换。
阜新银行引入GBase8aMPP集群建设数据仓库,实现了预期的建设目标,带来了技术和业务方面的双重价值,主要体现以下:
全面平台国产化:基于华为鲲鹏系列国产化平台,结合GBase8aMPP的优良设计架构和高性能的数据处理能力,全面替代传统的数仓一体机架构。
性能优越性:GBase8aMPP先进的设计架构及其解决方案,实现高速数据加载、数据导出、数据处理等,在仅有3个计算节点的前提下集群业务跑批性能就已经超过传统Netezza一体机架构。
高可用性:GBase8aMPP的多级高可用技术全面保障阜新银行的数仓、报表、稽查等多套系统的可用性,确保系统7×24小时稳定运行,无单点故障风险。
安全可控:核心数仓系统均采用掌握完全知识产权的国产分布式数据库产品,具备自主研发,安全可控的特性,全面提升银行存量数据的数据安全和业务安全。
16.1项目概况
福建某商业银行正处于业务发展的新阶段,新业务模式层出不穷,数据量日益增多,随着业务数据的内容和形式不断丰富,对数据支撑及数据服务的总体能力提出了更高的要求。因此,基于大数据技术,整合现有行内数据,接入行外数据,搭建并行处理能力强、易于扩展的大数据平台刻不容缓。
结合该银行实际情况,大数据平台的建设包括以下几个目标:
实现数据中台的建设,以提升“数据资产变现”能力为业务目标的一站式、一体化开发平台,完成全行数据的大集中管理,统一全行数据开发平台,数据标准并提高数据质量,辅助全行实现数字化转型目标。具体需要实现以下目标:
1、建设一体化数据管控平台。完成数据标准管理、数据质量管理、元数据管理落地,满足数据治理需求,实现数据管控上贯穿数据开发全过程。
2、建设数据开放服务中心。实现向外提供API、订阅、数据分析、数据产品等多样化服务,构建多维数据集、指标数据集、领域数据集,通过数据业务化、服务化组建,支持多场景数据服务需求。
3、建立数据开发一体化机制。实现全流程线上开发,与数据治理平台可以连通部署,支持以项目、任务工单形式进行的流程;支持全线上配置化完成数据建模和ETL;支持开发、测试版本的同步,自动生成上线安装包,形成版本管理。
4、建设智能数据交换中心。实现在线订阅数据交换需求,统一数据卸数及装载工具,支持跨数据库(ORACLE、MPP、MYSQL等)数据文件装载。将分散建设的若干应用信息系统进行整合,通过大数据生态圈的技术来实现信息交换,使若干个应用子系统进行信息/数据的传输及共享,提高信息资源的利用率,保证分布异构系统之间互联互通,建立中心数据存储,完成数据的抽取、集中、加载、展现,构造统一的数据处理和交换。
5、建立统一的指标管理体系。实现对全行经营目标、经营行为、经营结果等情况进行概括性、数量化的统计描述,通过指标管理平台进行指标的定义,通过指标引擎完成指标的计算,为行内监管报送、经营分析、报表服务、管理驾驶舱提供一致性的指标服务,实现指标复用与多用,建立数据中台化服务的核心,指标体系的建立需要业务部门重点参与。
6、建立全行数据资产管理体系。将数据的基本信息、数据之间的关系、数据的使用情况进行统一化和透明化处理,实现元数据驱动的数据开发、数据分析、数据管理全流程管理,管理的内容可以是行内任何有价值的数据资产;提升数据查找和统计的效率,全方位的数据资产采集手段,实现数据资产的共享和复用。
7、实现数据库国产化。将引入国产MPP架构数据库,优化数仓数据模型,数据集市,并借助于MPP先进的架构能力与技术性能,通过数据与业务的双核心驱动建立对智能化应用的支撑能力。
16.2解决方案
根据同业主流的数据体系建设方法和经验,同时结合福建某商业银行现状采用了上图的数
据体系总体架构设计,包括以下六个部分:
2、数据管控:数据管控平台包括元数据管理、数据标准管理、数据质量管理、数据资产管理等。数据管控始终贯穿数据平台的整个建设过程,需要规划数据管控平台的体系架构,分析梳理行内数据标准化、数据质量、元数据的管理流程,结合数据管控平台做好数据管理,提升数据质量。
3、数据开发运维:制定统一的开发规范,提高数据开发质量以及开发效率,降低数据运维成本。主要包括统一数据采集、统一数据交换、统一ETL处理和统一调度平台等产品工具,贯穿数据平台的整个开发和运维过程。
4、数据平台:数据平台为数据应用提供数据支持。包括基础数据平台和大数据平台,其中基础数据平台对高价值密度的结构化数据进行加工、计算;在线(近五年)数据服务可由基础数据平台提供,基础数据平台加工完成的数据也可以批量同步到大数据平台进行历史存储。大数据平台利用大数据特性解决流式数据、半/非结构化数据和低价值密度的历史数据存储、计算,包括整合后的历史数据存储和应用,近线和归档数据(超过五年)服务可由大数据平台提供。
数据平台由大数据平台与数据仓库组成,本次项目数据仓库采用南大通用GBase8aMPPCluster构建,借助GBase8aMPPCluster数据融合的能力实现与大数据平台的信息共享。项目一期规划为10个节点的MPP集群规模,未来支撑福建某商业银行全行的大数据分析平台。
5、数据服务:数据服务体系根据应用系统的业务需求,由数据平台提供数据,分级分类提供数据交换服务,包括联机查询服务、实时计算服务、外部数据服务和批量数据服务等,满足数据平台与内部应用系统、外部系统交互的需要。其中,我们还可以通过自助分析工具,为用户提供自助分析等数据服务功能。
6、数据应用:数据应用体系作为数据平台的展现及应用窗口,主要通过统一应用平台,实现数据展现分析固定报表、自助分析、灵活查询、图形化展示和历史查询等,满足用户对报表管理以及数据分析的迫切要求,支持经营决策,充分挖掘数据价值。
16.3应用效果
福建某商业银行数据平台项目一期的10节点GBase8aMPPCluster集群已部署实施完成,该项目带来如下价值:
湖仓一体化:GBase8aMPPCluster数据融合能力可实现MPP与Hadoop平台无缝数据融合:使用统一的访问接口,实现在线透明跨异构平台的数据交互、异构平台的数据流转,借助该能力可以构建福建某商业银行湖仓一体化平台,实现湖仓批算、数据生命周期管理、多模数据融合的能力。
自主可控的数据平台:数据中台采用全栈的国产平台:包括国产服务器、国产操作系统和国产数据库。全国产化整体解决方案保障了该数据平台具备完全的自主可控能力,提供了高安全性。GBase8aMPPCluster具备国际领先的数据库技术,使用该数据库构建数据中台,不仅可以满足当前的业务需求,其高扩展能力可以满足未来随着业务不断发展扩展存储空间和扩展计算能力的需求。
高稳定性:GBase8aMPPCluster具有多种高可用机制,有力支撑了福建某商业银行数据平台的高稳定性,包括多副本技术保障单集群高可用、虚拟集群技术提供逻辑集群高可用、双活集群技术实现跨机房的高可用,为福建某商业银行的数据平台建设实现了金融级两地三中心高可用提供保障。
17.1项目概况
江西某商业银行是中国江西省唯一一家省级城市商业银行。在2017年的排名中,以截至2016年12月31日的一级资本计,江西某商业银行在《银行家》「全球1000家大银行排名」中位列第329名;以截至2016年12月31日的资产总额计,江西某商业银行在所有中国城市商业银行中位列第22名。
江西某商业银行已在江西省建立广泛的业务网络,凭借在广州和苏州设立分行,已成功渗入中国经济活动最为活跃的珠江三角洲及长江三角洲经济区。经过多年努力,江西某商业银行与江西省及中国政府机关、企事业单位和具有战略意义的企业成功建立并巩固长期业务合作关系,客户包括江西省内众多优质的国有及私营企业,行业范围覆盖广泛。
江西某商业银行审计平台数据仓库运行在IBMDB2上,现有数据已经有60TB左右,该业务系统上线运行多年,目前碰到以下问题:
差。
需要新构建新平台要解决当前面临的问题,满足未来江西某商业银行审计业务数字化转型的业务要求:
求;
17.2解决方案
本项目数据仓库\集市层采用GBase8aMPPCluster构建,规划12个节点用来支撑江西某商业银行审计部数据平台。GBase8aMPPCluster采用分布式非对称部署模式,对外提供数据接口服务,对内借助多副本机制提供高可用保护机制。系统机构图如下。
江西某商业银行数据平台架构图
17.3应用效果
江西某商业银行审计新业务平台项目首期实施部署12个节点的GBase8aMPPCluster来满足客户的项目建设目标,带来如下效果及价值:
高扩展性:GBase8aMPPCluster采用SharedNothingMPP架构,提供较高的架构扩展性,整个集群最多可以扩展到4096个节点,可以完全满足江西某商业银行审计部业务需求。
高性能:GBase8aMPPCluster上线前实际对比测试结果较现有生产DB2提升5倍以上,包括数据加载、复杂业务跑批作业等。可以极大支撑生产业务的性能需求。
国产化:全平台采用纯国产平台:包括服务器、操作系统、数据库。国产化MPP集群整体解决方案极大的提升平台的高可靠性。
18.1项目概况
重庆某商业银行大数据平台项目中,客户需求为替换华为高斯产品,同时需要在生态上兼容鲲鹏泰山服务器、可以高效支撑传统关系型结构化数据。对项目建设目标总结如下:
开放型:对于日益变化的技术发展趋势,为使企业IT系统的发展能够追随技术发展的大势,建立开放与标准化的IT系统是企业赖以生存发展的基础。要求基于业界开放式标准,系统硬件采用基于鲲鹏芯片ARM架构的泰山服务器平台;而在软件方面,构建基于分布式的云化数据库平台也是适应开放性的根本所在。
高扩展性:能够根据业务需求满足系统规模的动态扩展,灵活适应未来业务规模和数据量的不断增长,并使系统整体部署策略能够满足未来的各种变化和发展因素。
高可用性和稳定性:在基于国产服务器等低价格硬件平台上构筑可靠的核心经营分析业务系统,所构建的分布式系统必须具备成熟的高可用技术。并且作为一个大规模分布式系统除了保证系统的耐故障特性以外,为了保证系统的稳定运行,还需要系统通过内部的自律性资源管理能力和合理的任务调度控制来保证系统的稳定性。
18.2解决方案
采用GBase8aMPP分析型数据库构建大数据平台,采用GBase8aMPP快速加载工具实现数据的快速入库,将银行账务、银行信贷等业务系统的数据采用准实时方式,同步到数据中心,有效支撑各个历史数据的分析应用;通过GBase8aMPP的列存储、智能索引、高压缩等技术,有效减少磁盘I/O访问量,在查询统计分析方面较原有系统有很大幅度的提升;支持即席查询和多维分析;支撑各种复杂的BI应用分析展示。
重庆某商业银行大数据平台架构图
18.3应用效果
该大数据平台2017年上线共计部署8个节点,2021年客户再次进行扩容到16个节点,数据容量约250T。
降低成本:GBase8aMPPCluster数据库可运行于低成本的国产芯片以及整机服务器,有效节省硬件投入成本,将扩容成本降为原来的1/10左右;
动态扩展:GBase8aMPPCluster数据库节点的水平横向扩展模式,动态扩展无须停止服务,保证业务服务的连贯性;
高可用:GBase8aMPPCluster数据库提升整个系统的协同效率,基于多副本的数据高可用策略,能够保证某节点在发生故障时,不影响系统对外提供服务的连续性。
19.1项目概况
伴随银行业机构的数字化转型,数据已成为银行机构越来越重要的资产,银行机构对数据管理能力的提升越发重要。现有数据能力建设自2014年开始,在数据管理与使用方面进行了数据管理与数据应用的信息系统建设,依托ODS及数据仓库系统对该商业银行各信息系统数据进行抽取、存储、加工。现阶段为适应数字化转型和监管需要,结合新疆某商业银行发展,计划对ODS系统进行数据库软件替换。
传统事务关系型数据库OLTP,主要面向应用的数据库实时响应,对实时性和并发性能要求很高,实现大规模用户的多并发实时访问,对数据分析及决策支持能力较弱,多表关联分析查询及处理性能很低。
通过对ODS数据库产品进行国产化、分布式替换升级,充分发挥分析性数据库的优势,结合ODS系统的数据整合、建模、分析能力,为新疆某商业银行数据支撑及应用价值挖掘提供有力支撑。
19.2解决方案
通过对ODS及数据仓库系统的基础架构及数据库重建,解决新疆某商业银行ODS及数据仓库系统的一体机扩容问题和整体性能问题。通过将原有IBMNetezza数据库替换成基于X86服务器的国产化分布式分析型数据库,将原数据库拆分为三个集群:主数据库集群、历史库集群和应用服务库集群,确保整体ODS系统无单点瓶颈以及各集群的灵活扩容,保障ODS系统持续提供稳定高效的数据服务。
原有ODS系统数据架构包含数据接入、接口层、整合层、汇总层、应用层和数据共享平台,基于原有数据架构层级的基础上,整合后建成接口层、整合层、汇总层、集市层及历史层。使用GBase8aMPPCluster取代原IBMNetezza为接口层、整合层、汇总层、集市层及历史层提供数据服务支撑,实现数据架构的全流程数据流向管理,以及针对应用服务集市的建设,降低流程和应用干扰度,提升数据服务稳定性。
新疆某商业数据仓库系统架构图
19.3应用效果
整个项目部署GBase8aMPP生产环境主数据库集群9节点、历史库集群3节点、应用服务库集群3节点;开发测试环境主数据库集群3节点、应用服务库1节点。
后续根据需求进行集群扩容及建设双活集群,进一步提升集群高可用性。
首次完成新疆自治区金融行业数据库国产化替换:在新疆自治区金融行业内,第一次完成了将原有IBMNetezza替换为GBase8aMPP,实现了新疆某商业银行ODS系统数据库层面的自主可控;
有效提升分析统计能力,助力新疆某商业银行大数据分析决策;分析型数据库GBase8aMPP应用于OLAP使用场景,基于海量数据进行分析建模,为多表关联大批量数据分析提供高性能的处理能力,完成快速查询分析,为上层系统提供数据规律和趋势,有效支撑决策支持系统。
20.1项目概述
四川某商业银行遵循商业银行经营规律,对标行业先进,注重改革创新,以市场化专业化为导向,以“成为客户体验一流、价值创造能力领先的现代金融企业”为愿景,实现成为管理规范、经营稳健的现代商业银行和四川经济社会发展的金融主力军。
四川某商业银行积累了丰富的业务数据,数据总量急速增长,数据资源呈现海量、快速增长等特点,原有的Netezza数据仓库系统已存在使用瓶颈,不能满足银行发展的数据产出需求,迫切需要以新的思路、新的方法、新的技术来逐步解决。考虑到国内银行业采用基于开放X86的MPP架构数据库构建结构化数据处理平台及分析应用已经成为一种趋势,故此次采用构架于X86服务器上的MPP数据库,替换原有Netezza数据仓库一体机。
四川某商业银行原数据仓库系统采用的是Netezza数据仓库一体机,目前可使用的裸数据容量约为25TB。此次数据仓库替换以提升数据处理容量,提高批量数据处理效率,增强数据库横向扩展能力为目的。同时,建设中注重信息安全体系的建设,提高数据的整体安全性,进一步保证数据安全。
四川某商业银行原有数据仓库系统主要面临的问题有:
新的数据仓库平台需要满足以下要求:
20.2解决方案
四川某商业银行数据仓库使用GBase8aMPPCluster完成海量数据的统一存储、管理、信息共享和数据资源服务,并作为应用系统的支撑,针对不同的业务建立不同的专题,建立完善的数据采集、加载、存储、分析和应用展示的架构。系统总体架构图如下。
四川某商业银行数据仓库系统架构图
数据仓库架构说明:
抽取加载层:通过ETL的工具,从源系统中将海量数据抽取出来进行抽取、加载、转换等操作;
存储管理层:采用GBase8aMPP集群建设,加载机将海量数据进行清洗后,按照一定的规则,将数据按照一定的规律分发到各节点上,建立数据主仓——数据仓库和数据集市,集市根据仓库的业务不同,各集市的规模也不同;
分析展示层:银行通过第三方分析挖掘工具将数据从数据仓库或数据集市中提取出来,进行进一步的分析,加载到相应的业务模块中;
应用门户层:银行的内部系统或外部系统,通过中间件将各个模块所需要的数据整理后通过门户网站呈现出来。
20.3应用效果
四川某商业银行部署两套4节点GBase8aMPPCluster,并建立为双活集群。主库加工作业完成后通过同步工具自动同步更新到备库。
目前已完成Netezza到GBase8aMPPCluster的数据迁移,业务数据量约为25TB。已稳定运行超过400天。
动态扩展:系统可扩展能力强,支持集群动态扩展,且性能随着节点的增加而线性提升。
数据迁移:实现了第三方数据库无风险迁移到GBase8aMPP数据库的全面解决方案。迁移工作做到了,过程标准化、工作简单化、风险最小化。
高可用性:双活同步机制可以保证在每天集群级同步批量完成后,主备集群的数据完全一致。保障了数据和服务的高可用性,即使主集群出现故障无法短期恢复的场景,也可以迅速完成集群切换,使用备库提供数据和服务,充分保障了集群的高可用性。
低投高效:GBase8aMPPCluster运行于低成本X86PCServer,具有高性能,低成本的特性。
可视化、易维护:便捷易用的集群可视化管理工具,功能齐全,方便运维人员管理维护集群,极大提升生产效率。
21.1项目概况
江苏银行审计系统需要满足如下需求:
21.2解决方案
江苏银行审计系统架构图
21.3应用效果
打破扩容能力限制:利用GBase8aMPPCluster集群的横向扩展能力,保证客户的投资,并在未来需要的情况下对系统进行扩展,支撑更多的数据、业务和用户;
增强高可用性:通过GBase8aMPPCluster集群的多副本机制提供透明的高可用能力,在出现服务器故障的情况下仍然可以继续对外提供服务;
解决性价比矛盾:使用通用的X86PCServer运行GBase8aMPPCluster集群,比原系统节省80%的硬件投入,而性能远超原系统。
22.1项目概况
农信银资金清算中心有限责任公司(以下简称农信银)为全国30家农村合作金融机构及其数万个网点提供汇兑、银行汇票、个人账户通存通兑等业务的资金清算。随着国家三农政策指引,不断促进农村经济快速发展,农信银的业务量和数据量高速增长。
农信银数据平台的核心数据管理层采用GBase8aMPPCluster大规模分布式并行数据库集群系统构建,作为基础数据平台整合了多个核心业务系统的数据,包括支付清算系统、电子商业汇票平台、网上银行平台、网上支付跨行清算平台、自助金融服务平台、共享多介质金融服务平台等,实现报文级细粒度数据的管理,并针对上层应用进行数据整合和共性加工,形成全量数据的统一基础数据平台。农信银数据平台架构如下:
农信银数据平台架构图
在基础数据平台上构建固定报表平台和灵活报表平台,实现对各业务信息进行多维度分析,对历史交易数据进行逐条快速查询。
该数据平台的建设,满足了农信银业务部门和成员机构对数据分析的多样化、时效性、复杂性的需求,实现了资金动态分析、风险管控、信用评级以及互联网金融等高层次应用。截止2020年6月已累积库内压缩数据达到52TB。
数据平台在农信银的发展过程中越来越重要,数据安全需求和系统异地容灾需求日益突出。亟需建设数据平台的异地容灾系统,实现数据资产的全方位保护。
农信银规划在北京、长沙两个城市建设异地双活系统,满足下一阶段的业务发展与数据安全保护并重的发展要求。针对数据平台,需要实现多层级全方位的高可用和数据安全保障,具体包括:
22.2解决方案
农信银数据平台基于GBase8aMPPCluster集群在北京、长沙建立主备双活集群,其中北京的8节点集群为作为主集群。
GBase8aMPPCluster异地双活集群采用M-S架构同步,主集群数据可写,备份集群数据可查询;备集群可以分担主集群对外业务查询服务,降低主集群读写对系统资源的争抢压力。数据的同步过程基于自主研发的集群间同步工具实现,集群间同步工具提供了数据同步需要的最核心的功能点及异常处理,各功能点具有低耦合性,使应用程序能够灵活的调用接口,实现同城灾备或者异地灾备。
22.3应用效果
农信银数据平台异地灾备系统已建成上线,每天需进行约200张表、超过100GB的压缩态数据文件的同步,实现了如下效果:
实现了全方位高可用:充分保障了农信银数据平台在遭遇灾难、机房瘫痪、网络或电力故障、服务器节点故障等紧急情况下,仍然具备可用能力。北京和长沙之间的GBase8a异地双活集群,保障了集群级高可用;GBase8a集群自身具备的节点级和进程级高可用机制,保障了集群持续提供服务的能力;
实现了高数据安全:数据异地容灾备份,数据安全性进一步提升;
实现了高效率同步:采用只同步关键数据表的主副本,点对点同步,增量数据同步,压缩态数据文件同步等方式,完成了在只有100M网络带宽场景下主备集群间数据同步任务。
23.1项目概况
农信银资金清算中心有限责任公司(以下简称农信银)为全国30家农村合作金融机构及其数万个网点提供汇兑、银行汇票、个人账户通存通兑等业务的资金清算。随着国家三农政策指引,不断促进农村经济快速发展,农信银的业务规模不断扩大,近年来业务量年增长近1倍,目前累积数据已达到5TB。随着现有业务量的高速增长以及后续新业务的不断扩展,原有系统无法满足农信银业务部门和成员机构对数据分析的多样化、时效性、复杂性的需求,亟需建立统一的数据平台,支撑繁多复杂的报表分析,满足成员机构的数据分析需求。同时下一阶段要基于此数据中心建立大数据平台,接入更全面的业务数据及外部数据,实现资金动态分析、风险管控、信用评级以及互联网金融的等更高层次的应用。
通过建设数据平台,实现农信银数据的大集中,实现数据的统一存储、访问和分析。数据平台将整合农信银各系统和平台的数据,形成权威性的数据中心,降低业务人员数据预处理工作量,为各成员机构和清算中心提供及时的、多维度的业务分析报表。同时系统需要具有高可靠性和易维护的特点,减少系统运维工作量及成本;需要具有灵活横向扩展能力,以满足未来业务量增长和新业务的需求;需要具备高并发处理能力,支持300个用户数和清算中心用户20个并行访问量。
23.2解决方案
本项目采用GBase8aMPPCluster大规模分布式并行数据库集群系统构建数据平台的核心数据管理层,搭建4个节点集群满足农信银数据平台建设需求及规划。整合支付清算系统、电子商业汇票平台、网上银行平台、网上支付跨行清算平台、自助金融服务平台、共享多介质金融服务平台等多个核心业务系统和平台的数据到基础数据平台,实现报文级细粒度数据的管理,并针对上层应用进行整合和共性加工,形成全量数据的统一基础数据平台。在基础数据平台上构建固定报表平台和灵活报表平台,实现对各业务信息进行多维度分析,对历史交易数据进行逐条快速查询。
农信银资金清算数据平台架构图
23.3应用效果
海量业务数据整合:发挥GBase8aMPPCluster集群数据库在海量存储和大规模并行计算的突出优势,实现海量业务数据的存储管理,通过高效的数据整合加工能力,提供一致可靠的数据视图;
逐笔业务即席查询:利用GBase8aMPPCluster集群数据库在海量数据下的高效即席查询能力,实现交易明细数据的逐笔、快速即席查询;
复杂多维度统计分析:基于GBase8aMPPCluster的高效ROLAP分析能力,支撑海量数据下的多维度复杂分析报表,为成员机构和清算中心提供分析决策依据;
高线性扩展能力:GBase8aMPPCluster具有的在线高扩展能力,保障数据平台后续接入更多的业务系统及更高层次的复杂分析以及战略决策需求。
24.1项目概况
常熟农商银行业务不断发展,数据积累日益增多,海量的历史数据得不到有效利用,金融业务和服务创新缺乏IT技术支撑,银行管理层在把控经营风险、制定管理决策时缺乏信息依据。规划和建设自己的数据中心已成为常熟农商银行的经营战略之一。
常熟农商银行的各个业务系统之间相对独立,对于历史数据的查询、统计和分析类应用费时费力,不能满足性能要求,需要建立数据中心,由数据中心提供统一的数据存储与管理服务。新建的系统能够支持汇总历史数据报表,支持在线归档备份,从而提高查询统计分析性能,满足业务变化产生的新需求,支持领导决策。
24.2解决方案
本方案采用GBase8a分析型数据库构建数据中心,采用GBase8a快速加载工具实现数据的快速入库,将银行账务、银行信贷、国际结算等业务系统的数据采用准实时方式,同步到数据中心,有效支撑各个历史数据的分析应用;通过GBase8a的列存储、智能索引、高压缩等技术,有效减少磁盘I/O访问量,在查询统计分析方面较原有系统有很大幅度的提升;支持即席查询和多维分析;支撑各种复杂的BI应用分析展示。
常熟农商行数据中心架构图
24.3应用效果
性能提升:与原数据库相比,数据加载性能提升3倍以上,即席查询和统计分析性能提升6倍以上;
辅助决策:为各种历史数据分析应用提供了数据支撑,挖掘数据潜在的价值;为领导决策提供了客观依据,确保管理层随时掌握银行的经营风险和运营情况;
按需扩展:系统的高扩展性能够应对新的业务需求,可随着数据量的增长采用集群方式构建存储容量更大的数据中心。
25.1项目概况
山东省农村信用社联合社审计系统使用DB2数据库承载应用,随着业务发展和应用复杂导致的数据量增加,数据存储和处理压力日益增大,DB2数据库存在无法线性扩容,效率下降等问题,难以满足日益增长的业务数据带来的存储、计算需求。
在此背景下,山东省农村信用社联合社,引用GBase8aMPPCluster数据库来解决日益增长的业务数据带来的存储、计算需求。
25.2解决方案
山东农信基于GBase8aMPPCluster配合搭建审计系统的基础环境,GBase8aMPPCluster采用MPP+SharedNothing技术实现对海量数据的大规模并行处理,具有高性能、高扩展、高可用等特性,可以有效解决山东农信审计系统面临的性能下降、数据库无法线性扩容等问题,支撑山东农信审计和数据分析的快速发展。
GBase8a集群共承载了审计系统、审计模型、数据分析模型、审计计划集市、模型调度模型、预警模型、审计等各个模型集市子系统。架构示意图如下:
山东农信审计系统架构图
南大通用提供原厂的技术支持,配合实施原数据库系统DB2向GBase8a集群的数据迁移、存储过程迁移、业务迁移,以及GBase8a集群调优工作。为山东农信业务的快速切换上线保驾护航,也体现出原厂支持服务价值。
25.3应用效果
山东农信审计系统2018年12月15日开始实施,进行GBase8a集群部署工作及应用的联调工作,到2019年3月22日完成系统上线工作。共部署了24节点的生产环境用于审计系统的数据分析平台,同时还部署了8节点的测试环境用于新业务开发的测试验证。截止2019年底共96TB数据。
使用GBase8aMPPCluster数据库替换DB2数据库后,审计系统中每天150G数据量的加载及模型转换作业由原来的五个半小时缩短至半个小时,性能大幅度提升10倍。充分证明使用GBase8a集群建设的审计系统有如下价值:
国产替代:国产MPP数据库GBase8a集群完全可以替代DB2,提供比DB2更高的性价比;
高性能:智能索引、全并行架构、透明压缩,支持极速查询分析,全面支持高性能查询分析场景,性能提升10倍;
可扩展:开放架构,按需水平扩展:Shared-Nothing架构,支持不中断业务在线按需扩展;
高可靠:全组件HA,无单节点故障:联邦架构,集群管理节点、数据节点等组件全HA设计;
易管理:一键节点替换:提供极简式节点硬件故障处理功能;集群间工具DBLink:实现两套集群间数据可互访;集群管理工具和监控工具,对多套集群集中式、图形化操作。
原厂服务:提供原厂的技术支持,配合实施原数据库系统DB2向GBase8a集群的数据迁移、存储过程迁移、业务迁移,以及GBase8a集群调优工作。为山东农信业务的快速切换上线保驾护航,也体现出原厂支持服务价值。
26.1项目概况
随着我国金融行业改革的不断深入,银行业监管要求日趋严格。按照监管要求,江苏省农村信用社联合社监管数据标准化报送项目有如下困难:
因此,采用先进的技术架构以及成熟的工具产品建立基于大数据计算技术的统一监管数据报送平台,可以极大的提高数据报送质量和效率,并有效减轻数据报送的工作量。
江苏农村信用社决定,采用先进的技术架构以及成熟的工具产品建立基于大数据计算技术的统一监管数据报送平台。利用MPP数据库架构的横向扩展能力,实现承载数据量和计算能力的线性横向扩展;同时满足监管要求涉及业务全面、业务关系复杂,报表之间的校验关系复杂,大表关联操作较多的场景要求。
26.2解决方案
数据标准化报送系统采用GBase8aMPPCluster集群搭建,通过可配置的负载均衡机制,来调度和平衡各个节点的负载和并行处理过程,底层分布式架构对于上层应用是透明的,用户所面对的是同一个数据库系统,而不需要考虑如何调度其中某个节点的负载。
江苏农村信用社数据标准化报送系统架构图
系统架构描述如下:
数据交换层:作为系统间数据交换的枢纽,对于数据产生层、数据整合层、数据应用层之间数据进行双向交换。数据不允许系统间点对点传输,所有系统对下游提供数据均通过数据交换层,数据交换层本身不产生数据,但可以对源数据做一些清洗处理。交换方式分为批量交换和实时交换,其中批量交换用于产生层与整合层、应用层间非实时的、大数据量的数据交互,实时交换用于系统间少量、实时或者准实时的数据交互。数据交换采用DATASTAGE工具进行数据的抽取、转换和加载过程,部署采用集群架构,不仅可以提高数据抽取效率,还可以避免机器的单点故障。
数据分析平台:是将数据按照一定规则进行整合后统一存储,以方便后续的查询和分析。数据整合层作为数据集中存储、整合的核心,实现了数据共享,避免了系统间数据重复存储和加工问题。
数据应用层:主要存储基于数据整合层提供的原始数据和衍生数据,根据业务需求进行相应的加工,提供应用所需的结果数据或接口数据,并提供用户使用数据的界面和方式,它对整合后的数据进行深度分析,利用不同手段对数据处理结果进行展现,包括固定报表、多维分析、灵活查询等。
数据展示层:提供了机构、用户、角色的统一管理,并根据监管部门要求生成报文并管理报文,展示层还提供数据补录界面,用于弥补监管报送需要而基础业务系统数据缺失内容。
26.3应用效果
原系统数据库是Oracle和DB2,新建系统使用5节点GBase8a集群。并由原厂提供支持服务,完成数据迁移到GBase8a集群,加载性能优化、跑批流程性能优化、查询SQL优化等,将GBase8a集群性能调至最优,提供对报送系统的良好支撑。
高性能:完全相同的环境下,GBase8aMPP性能优于Hadoop1.1倍;
高兼容:GBase8aMPP支持通用SQL语法和脚本,而Hadoop对于SQL语法、脚本或字符支持度不足;
易迁移:提供从Oracle、DB2迁移到GBase8aMPP集群的迁移工具,简化应用人迁移操作。
27.1项目概况
福建某农商数据仓库已构建企业级批量数据总线,解决了信息分散、数据质量信息未披露、数据复杂模型等问题,进一步梳理数据服务架构,为管理类应用系统与业务系统之间复杂的数据交互方式解耦,以提升管理类应用系统的分析和模型处理时效。但为了进一步提升数据处理容量,提高批量数据处理效率,增强数据库横向扩展能力,需引入大规模并行处理数据库,以便于为银行大数据转型奠定数据分析基础。
福建某农商银行数据仓库的裸数据总量已经超过50TB,传统的Oracle共享存储数据库在数据处理、架构扩展性等方面的瓶颈已逐渐显露。为了满足数据仓库业务发展需求,强化数据仓库数据资源整合能力、提升数据处理分析能力、提高数据服务质量及时效性,应对未来深度数据处理分析及大数据分析应用的需求,需要引入新型的MPP数据库软件产品,以提供更全面、更深入、更及时的数据服务。本项目建设旨在实现以下业务目标:
27.2解决方案
福建某农商银行原有数据仓库系统由Oracle数据库搭建。新数据仓库系统采用GBase8aMPPCluster建设,系统采用10台PCServer搭建数据仓库集群。原有Oracle系统搭建客户服务、风险管理等数据集市。
福建某农商银行数据仓库系统架构图
27.3应用效果
性能优越性:GBase8aMPPCluster及其解决方案具有良好的ETL性能,数据加载、数据导出、数据处理等的效率为传统Oracle数据库的5倍以上;
高可用性:GBase8aMPPCluster保证7×24小时系统稳定运行,确保无单点故障风险;
线性扩展:GBase8aMPPCluster在PB级数据量下,性能可以随着节点数的增加而线性增长。
28.1项目概况
本项目旨在通过引进业内领先的大数据基础平台软件、MPP数据库软件、图形化报表工具、数据管控子系统等应用软件,结合同业最佳实践及我行现状,构建符合海南某商业银行未来业务发展需求的数据平台。
大数据基础平台构建、数据仓库建设、数据标准化建设、数据管控系统、报表系统建设、门户系统构建、统一调度平台、开发平台建设和数据安全建设九大部门。方案充分利用业务最新成熟的技术,打造一套稳定的新数据业务平台。
本期项目由中电金信负责数据平台的上层建设,MPP数据库采用南大通用GBase8aMPP数据库,大数据平台采用星环TDH,报表平台为帆软fineBI。项目建设目标是利用以上组件构建海南某商业银行新一代数据平台,服务于海南某商业银行金融数字化业务发展、构建小微金融和零售银行的双业务共同发展、实现银行和网络银行的同步发展。
28.2解决方案
本次项目内容范围包括大数据基础平台软件、MPP数据库软件、数据应用开发实施、数据报表工具或BI类软件等等。项目采用Hadoop集群与GBase8aMPP数据库集群混搭的湖仓一体化架构,搭建低成本、高性能、大容量、易扩展的数据基础平台、实现结构化、半结构化、非结构化数据集中采集、存储、加工、分析和应用,并基于此技术架构重构数据仓库和规范历史数据存储使用,形成基础数据体系,提供支撑经营管理的各类数据应用。
海南某商业银行平台技术架构图
项目共包含4层:数据源层、数据中台(数据交换层、数据湖、数据仓库、数据访问层和数据服务平台)、业务中台、数据应用层。整体方案采用GBase8aMPP分析型数据库构建大数据平台,采用GBase8aMPP快速加载工具实现数据的快速入库,将银行账务、银行信贷等业务系统的数据采用准实时方式,同步到数据中心,有效支撑各个历史数据的分析应用;通过GBase8aMPP的列存储、智能索引、高压缩等技术,有效减少磁盘I/O访问量,在查询统计分析方面较原有系统有很大幅度的提升;支持即席查询和多维分析;支撑各种复杂的BI应用分析展示。整体方案架构图如下:
海南某商业银行数据平台整体统架构图
28.3应用效果
海南某商业银行数据平台共部署5个节点,数据量达250T左右。
前瞻性、实用性、可用性、稳定性和先进性:采用Gbase8aMPP数据库的系统建设方案代表国际国内先进的大数据设计理念,采用先进成熟的技术,具有较强的前瞻性;
规模扩展性:GBase8aMPP数据库支持节点横向拓展;
开放性:整个数据平台系统应具有良好的开放性、根据业务系统的发展需求快速的做出变更;
功能可扩展性:提供标准数据语言、接口及灵活完整的二次开发平台,能够根据业务发展的需要,自行进行功能的完善、修改和增加功能;
安全性:GBase8aMPP数据库具备自主可控,满足系统采用全国产可控组件构建的要求,有力提升系统数据安全。
29.1项目概况
江西农信作为华中地区有影响力的银行业成员,在几年前采用IBMNetezza一体机解决方案构建了ODS数据仓库平台。数据仓库的应用有效地支撑了江西农信的经营分析、决策支持、风险控制等多个业务场景的数据分析和数据挖掘的需求。
随着银行业竞争的加剧和各类业务快速发展,作为企业核心竞争力的数据分析和挖掘平台的数据仓库有进一步演进和发展的需要。
Netezza一体机产品属于基于封闭式架构,价格昂贵,后期硬件、软件维护成本较高,且实际场景使用中发现Netteza批处理能力强,但并发查询弱,满足不了客户多并发查询的业务需求。
29.2解决方案
江西农信数据平台采用采用一体机+MPP数据库集群两类大数据平台技术混搭的方式数作为据仓库基础架构。架构图如下:
江西农信数据平台架构图
本项目中Netezza一体机平台建议保留并作为ODS系统的主体平台。利用一体机的高稳定性和中、小数据量分析场景下,MPP并行处理、列存储、压缩、FPGA硬件加速等先进技术,提供对各前端业务系统实时或准实时数据的寄存功能,同时提供在线数据处理功能,主要面向各类及时性要求较高的在线业务查询和小数据集的分析类场景。包括及时性要求较高的日常的报表类应用,如日报、周报和和在线的实时统计,实时查询,提供面向固定用户和固定业务场景的数据查询和关联分析能力。
29.3应用效果
动态高扩展:不受数据量与设备能力的限制,随着业务数据量增长,按需线性扩展;
自主可控:国内自有知识产权,安全可靠,可定制开发;
低成本:采用经济的PCServer+本地磁盘硬件方案,降低系统建设成本;本土企业售后服务及时高效,降低运维成本。
天津农商银行原数据仓库主要用于存储来自各个业务系统的数据,包括核心系统、个贷系统、网银系统、零售系统等。各系统数据量不断增长,数据复杂,包括2000多张各类小型复杂表格和多张数据容量巨大的事实表,如何选择替代原有Netezza系统新的数据仓库系统,是整个项目的难点。另外,替换Netezza之后,保持现有架构不进行大的更改情况下,持续支持未来五年的增量数据也是需要解决的问题。因此,天津农商银行拟购买符合信息创新应用的国产化数据库替换现有Netezza系统,建设新一代数据仓库系统。
为建立高性能与架构扩展灵活的国产数据仓库系统,解决天津农商行数据仓库系统面临的Netezza替代问题,并满足未来持续增长的数据业务,此次升级改造项目需要满足如下要求:
天津农商银行新的数据仓库系统搭建了15个节点规模的GBase8aMPPCluster集群,承载所有结构化数据的存储和计算任务,完成数据加工、数据处理、数据分析等任务。使用数据抽取工具将原有Netezza数据库中数据抽取到GBase8aMPPCluster,实现了数据迁移无缝对接,不仅保证了Netezza原有功能,还提高了数据的存储容量与计算性能。另外,同上层应用厂商配合,顺利完成业务迁移任务,顺利实施产品部署和适配工作。
天津农商行数据仓库系统架构图
本项目共部署3个管理节点,12个数据节点,共计15个节点。迁移前原数据量约36TB,入库数据量10TB左右。未来三年数据增量约54T左右。
天津农商行采用Base8aMPP集群建设数据仓库,实现了预期的建设目标,带来了技术和业务方面的双重价值,主要体现以下:
全面平台国产化:基于全国产化平台,结合GBase8aMPP的先进的设计架构和高性能的数据处理能力,全面替代传统的数仓一体机架构。
海量存储:GBase8aMPP相比统Netezza一体机架构,具有海量数据高压缩比入库存储能力,大大降低了系统使用的存储空间。
性能优越性:GBase8aMPP加载TB级数据,性能高达20TB/小时,具有高速数据加载、数据导出、数据处理等优越的性能,同时集群业务跑批性能超过传统Netezza一体机架构。
高可用性:GBase8aMPP的多级高可用技术全面保障天津农商行的数仓、报表、稽查等多套系统的可用性,确保系统7×24小时稳定运行,无单点故障风险。
优质服务保障:GBase的全方位一体化的产品服务,为用户提供了全方位的保障。
31.1项目概况
PICC数据平台原系统建设在TD一体机平台上,软硬件紧耦合,使用和运维成本很高。目前存储容量和处理性能已达瓶颈,无法纵向扩容,扩容需要中断业务。
本项目旨在通过采用MPP数据库产品来重构系统,通过大规模并行处理的架构,开放的X86硬件平台,建设具备分布式计算和水平线性扩展能力的大数据平台。按照应用场景的不同,构建独立平台,实现平台隔离,避免资源竞争。以解决目前中国人民财产保险股份有限公司数据平台存在的存储资源和计算性能不足的问题。
客户急需解决的问题如下:
客户希望能够构建独立大数据平台,具备分布式计算和水平线性扩展的能力,解决目前数据平台存在的各种问题。
未来中国人民财产保险股份有限公司将形成TD一体机和MPP数据库共存的数据服务平台。
31.2解决方案
针对PICC的特点及建设规划,使用GBase8a集群建设大数据资源中心,通过GBase8a集群的列存储、智能索引、线性扩展、分布式并行计算等技术特性支撑用户的业务发展需求,解决TD一体机、Oracle面临的性能瓶颈和不能线性扩容问题。实现了数据分析的统一整合、统一管理、统一调度,为实现PICC的新目标打下了坚实的基础。
利用GBase8a集群数据库构建大数据资源中心,促进数据资源融合共享,提升数据资产运营管理能力。整体系统的架构图如下:
在Oracle和TD系统上运行的数据分析系统移植到MPP数据库中,在大幅降低成本的同时,提高系统的运行效率,为PICC的经营分析和业务发展提供更好的数据服务。
搭建基于GBase8aMPPCluster的大数据湖平台,接入上游业务系统数据;逐渐剥离主仓业务,从集市入手逐渐降低TD主仓业务负载,剥离核心业务,从并行运行到逐步迁移替代。
31.3应用效果
目前PICC已完成8套生产集群共139节点安装部署,整体承载数据量约2PB。其中ACRM系统搭建两套A(7节点3coor+7data)、B(14节点)集群承载主要业务,日增量基础数据每日7:00前完成;月度报表在每月3日前完成数据发布。替换原数据库Oracle后,整体性能提升2~10倍,具体可见表35-1。SGA、ODS、F、DW、DM各层整体数据量200+TB,完成1000+个程序迁移工作。具体各系统部署情况见表35-2。
表35-1
业务类型
性能提升
增量
18h
7h
2.5倍
全量
7day
16h
10倍
月报
48h
4.5h
表35-2
PICC数据平台业务系统名称
部署集群情况
ACRM系统
1套7节点月报集群(3coor+7data),1套17节点日作业集群(5coor+17data),库内数据总量250TB。
数仓(原数仓为TD)
1套23节点主仓集群(5coor+23data),1套46节点集市集群(5coor+46data),1套12节点应用集群(5coor+12data),库内数据总量800TB。
IDS系统
1套1节点集群(5coor+14data),库内数据量150TB。
数据湖
1套46节点大集群(5coor+46data),1套5节点小集群(3coor+5data),库内数据总量达500TB。
高性能:智能索引、全并行架构,支持极速查询分析,全面支持高性能查询分析场景。ACRM系统数据库从Oracle+IBMP780服务器迁移到GBase8a集群+X86服务器上,在硬件配置比接近1:1的情况下,性能提升2-10倍以上;
可扩展:开放架构,可实现按需水平扩展:Shared-Nothing架构,支持不中断业务在线按需扩展;
高可靠:全组件HA,无单节点故障:联邦架构,集群管理节点、数据节点等组件全HA设计;支持双活集群,全方位保障系统的可用性;
原厂服务:原厂为PICC提供TD数仓迁移,Oracle迁移的解决方案及专家支持服务。
32.1项目概况
中国人民人寿于2018年采购了GBase8aMPPCluster集群数据库,部署10节点集群,作为生产环境支持了分支机构数据BI下发系统、数据仓库升级改造等项目的建设,一定程度上缓解了公司数据类项目对Oracle及数据一体机环境的依赖,在满足计算效率的同时,降低公司对数据机扩容的成本。
自2018年部署完成后,至今一直支持分公司BI数据下发系统使用,系统运行稳定。自2020年1月,数据仓库升级改造项目正式启动实施,预计于2021年初完成系统建设并进入试运行阶段。投入试运行的数据仓库系统将主要在GBase数据库上运行,主要承担操作数据区、主题数据区、通用数据区、应用数据区的数据存储以及各数据区之间的数据加工逻辑处理工作,同时需要承担部分应用的数据直连查询、接口数据查询等工作。基于目前实施阶段对于源数据及各层数据、逻辑、支持应用的情况,建议在现有基础上对数据库进行扩容,以保证数据仓库系统稳定高效运行。
数据仓库升级改造项目在现有10节点GBase8a集群基础上扩容集群规模至40个节点,作为数据仓库未来支撑数据类系统的基础支持和大量数据分析应用系统,保证数据仓库系统稳定高效运行。项目需求如下:
的并行度,支持调整数据重分布的优先级,降低扩容时数据重分布对于业务执行的影响。
32.2解决方案
项目一期建设采购10个节点,数据仓库主要承担操作数据区、主题数据区、通用数据区、应用数据区的数据存储以及各数据区之间的数据加工逻辑处理工作,同时需要承担部分应用的数据直连查询和接口数据查询等工作。随着业务的发展,本次扩容30个节点
点,需要承担总公司报表系统、管理驾驶舱系统和大数据平台系统。
中国人民人寿数据仓库系统架构图
32.3应用效果
集群规模:当前共40个data节点,5个coordinator节点,其中coordinator和data节点共用;
数据量:总数据量约120T;
并发量:夜间跑批峰值40并发左右,白天查询目前并发量不大,峰值6并发左右;
白天复杂的报表查询基本能在2分钟之内完成。
GBase8a集群扩容到40节点,提升了数据仓库的计算能力和应用效果:
统一数据服务平台:集群规模从10节点扩容到40节点,存储能力提升4倍;可以实现统一数据服务,为多场景分析提供统一数据服务;
高效跑批性能:扩容后,在增加了2倍新数仓业务的情况下,分公司BI业务跑批性能仍然提升了70%以上,整体的跑批任务可以在5小时之内完成;
高性价比:构建合理的“投入产出比”,提供线性灵活扩展能力;
国产数据库、自主可控:符合政府对自主可控的信息国产化的要求。
33.1项目概况
在保险行业中,随着数据的日积月累,业务数据量已经超过了亿条的规模,这些宝贵的数据如果应用于分析决策,将会带来显著的附加值。在大数据形势下,作为国有七大保险集团之一的阳光保险集团,正积极利用新理念和新技术挖掘数据的价值,实现正确及时的分析决策,不断提升其竞争力。阳光保险集团原有的分析系统中使用传统数据库,其性能已无法满足海量数据查询分析和挖掘的需求,亟需引入新的技术架构支撑集团对海量保险业务数据的复杂分析和深度挖掘。
阳光保险集团的大数据分析主要面临如下两个方面的问题:
当前系统需要采用新型分析类架构,实现对各业务海量数据的统一存储和管理,并能够进行高效的查询统计和深度挖掘,有效地提高集团的分析和决策能力,实现经营管理优化,提升核心竞争力。
33.2解决方案
为了满足阳光保险集团对海量数据的查询分析和数据挖掘需求,采用GBase8aMPPCluster大规模分布式并行数据库集群系统构建数据平台。数据库负责海量数据的加载,基础数据的整合和共性加工,构建各主题的数据挖掘集市,完美支撑集团的分析应用和决策需求。产品架构图如下
阳光保险数据挖掘平台架构图
项目采用批量生成ETL脚本工具,融合客户多种业务应用系统平台信息数据,大大提高了开发效率,保证数据的处理效率,为客户深层次业务分析提供了强有力的支撑,满足了用户保险业务系统信息整合及高速统计。
数据挖掘平台满足了集团多个高层次的应用:
33.3应用效果
集群规模:8个计算节点+2台加载机
数据规模:总数据量16TB,共6310张表,最大表超过3亿多行,每天运行1067个数据加工作业,涉及SQL语句4682个,每日数据增量15GB。
高速加载、海量存储:实现加载亿行大表数据,同时提供高压缩比入库从而提升性能,海量存储能力,整合多业务部门数据,并可根据需求在线动态扩展;
即席查询、秒级响应:在海量数据下,实现高速即席查询、区间范围查询,为分析系统提供稳定支撑;
高效分析、精细运营:大幅提升保险行业中涉及到的大表关联、多表关联查询的运算分析性能,复杂统计分析秒级响应,帮助客户实现精准营销、精细化运营。
34.1项目概况
英大泰和人寿保险股份有限公司(简称英大人寿),由国家电网有限公司及其所属公司发起,于2007年6月26日在北京注册成立,注册资本金40亿元。目前,国家电网有限公司(简称国家电网公司)所属26家公司共同持有英大人寿股份80.1%。英大人寿历经十余年发展,2020年在全国91家人身险公司中,原保险保费收入排名第32位,规模保费排名第30位。
在当前的数字化背景下,英大人寿面临的高频业务需求已呈现持续扩大的趋势。为应对数据分析工作,英大人寿在2018年建设了数据仓库,选用了南大通用GBase8aMPP数据库产品。至2021年5月,GBase8aMPP数据库已经达到质保期年限后,客户再次与我司签约,采购我司原厂服务,帮助客户维护和管理GBase8aMPP数据库。
英大人寿希望实现业务人员自助分析,首先需要提供数据资源目录让他知道如何用这些数据,把数据变得易懂易用。通过对表、字段名称进行业务含义翻译,把枯燥的数据翻译成容易理解的业务数据,并且把字段的数据类型、显示格式、维度层次等提前设置好,以便业务人员使用。通过这种方式,还可以把企业的数据资产化,提升数据价值。有了数据资源目录,还需要以可视化的形式展示出来,并且提供精准的搜索功能。
为保障南大通用GBase8aMPP数据库产品正常运行,结合信息技术、大数据信息化时代的管理,改善日常运维运营的复杂的管理,设施设备的统计管理,提升维修项目数据统计,高效率的管理,降低日常运维费用。
34.2解决方案
英大人寿“数据之家”平台利用GBase8a+SmartbiEagle提供的多样化自助分析工具供业务人员选择。例如即席查询,主要用于大数据量的清单明细查询,任何字段均可作为筛选条件;提供类似Excel透视表的透视分析,支持超大数据量的查询性能,支持超多维度、甚至维度无法固定的分析场景;还提供自助仪表盘,让业务人员通过拖拉拽就可以生成可视化的数据仪表盘,做到所见即所得。
英大人寿“数据之家”平台架构图
34.3应用效果
本项目部署了3个节点(3个管理节点,3数据节点)集群,数据量约600G。本次项目客户再次与我司签约,采购我司原厂服务,帮助客户维护和管理GBase8aMPP数据库。
通过数据仓库建设,有效提升日常数据分析的效率,营造全公司范围的数据分析文化,实现“数尽其用、人尽其才”的目标。随着应用的逐渐深入,平台将不断激发公司各级人员对于数据的认知和分析,提升公司数据资产的价值,有效推动“数据化运营”战略的落地,为英大人寿在数字经济时代的进一步发展提供强有力的保障
35.1项目概况
非现场检查是银监会对金融机构业务活动及其风险状况进行评估的重要手段。当前非现场检查工作存在很大问题:银行业务量急剧膨胀,复杂程度大大提高,传统的手工检查方式效率低下,难以保证非现场检查工作的质量和全面性。使用高效的分析型数据库系统对银行海量数据进行分析成为非现场检查工作的必然选择。在这种背景下,迫切需要一套高效、实用的数据库系统应用平台对金融机构海量业务数据实现安全存储、高效分析和准确评估,以改进传统现场检查模式,全面提高非现场检查工作的质量和效率。
本项目需求主要包括:对1TB数据进行高效存储;提高对金融数据的查询、分析效率;金融数据属国家敏感数据,系统要满足高安全级别的要求;替换费用高昂的小型机+磁阵系统,控制系统建设成本。
35.2解决方案
GBase8a采用列存储和先进压缩算法,对金融数据进行高效压缩存储,同时结合智能索引等技术大大提升系统查询和分析效率,并通过采用基于X86PCServer大大降低了建设成本。本系统架构如下图所示,以国产高容错计算机为硬件基础平台承载了GBase8a,业务数据存储管理系统通过接口平台对银行业务数据进行访问、抽取和加载。在GBase8a的数据支撑下,数据分析平台及软件工具包通过WebUI向用户提供业务模型、数据分析挖掘、数据提取、标准化数据和数据存储等服务。
银监会非现场检查系统架构图
35.3应用效果
高性能:数据压缩达到1:5,查询测试性能比传统数据库平均提高10倍;
低成本:采用经济的PCServer+本地磁盘硬件方案,降低系统建设成本;本土企业售后服务及时高效,降低运维成本;
高安全:完全国内自主研发,摆脱对国外数据库的依赖,可以消除信息安全隐患,为国家战略安全提供保障。
36.1项目概况
中国证监会中央监管信息分析平台项目,旨在对证监会信息系统数据和资源进行统一整合,进而对监管业务和流程进行集中再造,最终实现信息资源的大集中和OLAP分析型监管业务的协调统一。
证监会中央监管平台的建设需要实现业务系统和数据资源的高度整合,降低监管成本提高监管效率。统一标准、数据、功能和界面,全面覆盖全部监管机构和流程,共享中央数据平台信息是项目建设的基本原则。
析平台,用以支撑上层应用;
储、查询、分析;
36.2解决方案
数据源主要来自于证监会中央监管信息平台DW和其业务系统中的数据,通过ETL将数据加载和同步到GBase8aMPPCluster数据库中,上层应用则通过ODBC、JDBC等接口实现和OLAP软件的访问。通过GBase8aMPPCluster强大的数据加工能力,可以实现混合OLAP的计算能力,为应用提供对原始数据的查询通道。
证监会信息分析系统平台架构图
36.3应用效果
低硬件成本:完全使用x86架构的PCServer,不需要昂贵的Unix服务器和磁盘阵列;
海量数据分布压缩存储:可处理PB级别以上的结构化数据,采用hash分布、随机分布等存储策略进行数据存储;同时采用先进的压缩算法,减少存储数据所需的空间,可以将所用空间减少1~20倍,并相应地提高I/O性能;
数据加载高效性:提供了基于策略的数据加载模式,集群整体加载速度可达2TB/h;
高扩展、高可靠:支持在线扩展,集群级、节点级和服务级高可用保障了集群某个节点宕机时集群正常工作;
高并发:支持数据的边加载边查询,单个节点并发能力大于300个用户。
37.1项目概况
近年来随着中国金融期货交易所业务的不断发展,尤其在期权产品上市及做市商制度引入后,交易量大幅攀升,委托数据长远来看会爆发性增长。当前中金所实时查询分析类交互式应用使用Oracle数据库做后台计算,部分业务还需要与Hadoop平台进行数据交互。设计规划中监查业务实时高效交互式监管的数据量的大于200TB,实时或准实时接收的上游应用系统数据约每天累计几十个GB。面对数据量日益增长,目前中金所使用的Oracle不支持节点的扩展,对性能提升支撑有限,难以满足业务持续扩展的要求,会降低所内实时查询分析类交互式应用性能,影响实时监查业务开展效率。在此背景下,中金所计划采用具有高性能分析计算、能支撑高并发加载大量数据且具有高效支撑与Oracle、Hadoop平台的数据加载导出功能的MPP数据库。
当前,国内金融业采用基于开放X86的MPP架构数据库构建结构化数据处理平台及分析应用已经成为趋势。在这背景下,中金所计划采用海量并行计算(MPP)架构数据库产品技术,一是用于监查业务实时高效交互式监管的需要;二是满足新产品、新业务长远发展,性能提升的水平拓展需要。
采用开放X86的MPP架构分析型数据库,支持中金所后端数据类应用系统数据库由集中式架构向分布式架构转型,在成本可控的同时,大幅提高大数据计算处理能力,通过增加机器资源实现稳定的性能提升和容量扩大,支持实时的数据处理分析,提升业务体验。
100TB级数据量的实时查询分析要求;
无法支撑业务发展需求;
增实时数据量近10亿条;
放平台搭建,具备不断的线性扩展能力.
37.2解决方案
项目采用GBase8aMPPCluster集群作为数据管理,同时支撑分析应用层上的各类应用,实时分析、发现异常交易操作。GBase8a集群面向分析型应用领域,以列为基本存储方式和数据运算对象,结合列数据压缩处理、并行处理、快速智能索引等新型数据处理技术,在查询、统计、分析以及批量加载性能上具备突出的优势。GBase8a集群同时兼备高性能实时数据入库、实时数据分析能力,交易数据通过数据同步层的Kafka实时同步至GBase8a集群。
金融期货交易所数据平台架构图
37.3应用效果
一期共部署1套集群,共6个节点,部署在普通的X86服务器上,软硬件采购成本和维护成本有效降低。
极高性能:提供每小时加载10T数据的加载能力,完全满足在线监查系统每秒近100MB万条记录数据加载要求;
分析性能有效提升:实时分析效率比原有系统有指数级的提升,从之前的分钟级大幅提升至秒级或毫秒级;
高可扩展性:集群采用Shared-Nothing架构,支持不中断业务在线按需横向扩展,满足业务系统对存储容量和计算能力的需求。
信息技术应用创新发展是目前我国的一项国家战略,也是当今形势下国家经济发展的新动能。发展信创是为了解决本质安全的问题。本质安全也就是将其变成自己可掌控、可研究、可发展、可生产的,通过发展信创产业构建自己的IT产业标准和生态,使得IT产品和技术安全可控。
为响应国家发展战略,中信证券股份有限公司将对外报送数仓系统进行数据库国产化替代进行立项。在中信证券信息技术中心的统一部署下,启动中信证券国产分析型数据库(对外报送数仓)系统的建设工作,报送数仓的主要模块包括:数据采集、模型转换、报送指标计算以及报送管理等。当前对外报送数仓是一个4节点的Greenplum一体机的数据库。本次采购目标是实现对外报送数仓项目的全面国产化,包括服务器、操作系统及数据库的国产化替代。
本项目选型产品需要满足如下要求:
完成国产替代,包括国产服务器、国产操作系统及国产分析型数据库的替代,满足兼容性及性能要求。
原对外报送数仓是一个4节点的Greenplum一体机的数据库,集市采用oracle搭建,本次采购目标实现国产化,包括服务器、操作系统及数据库的国产化替代。
新系统采用GBase8aMPPCluster集群搭建,GBase8aMPP面向分析型应用领域,以列为基本存储方式和数据运算对象,结合列数据压缩处理、并行处理、快速智能索引等新型数据处理技术,在查询、统计、分析以及批量加载性能上具备突出的优势。
交易数据通过数据同步层的informatica批量同步加载至数据管理层的GBase8aMPP集群。需要支撑采集任务(11个系统19个任务480张数据库表)、转换任务(简单归历史转换任务394个),计算程序(8个转换任务组,共计175个)。
中信证券对外报送数仓系统架构图
本项目共部署1套集群,共10个节点,其中5个管理节点,10个数据节点,库内数据达18T。
成本可控、国产化、可扩展:通过使用国产设备建立分布式集群,替换国外Greenplum一体机,降低维护成本,现实系统未来扩展成本可控,采用全国产可控组件实现自主可控,保障系统信息安全;
开放架构,按需水平扩展:Shared-Nothing架构,支持不中断业务在线按需扩展;
原厂服务:原厂全方位产品服务,完成数据对象迁移、数据迁移、应用迁移,保障对外报送数仓项目升级改造完。
图1-1广东联通OCS系统云清单项目架构图
平台共部署10节点,数据总量已达到77TB。
性能提升:提高查询性能,前台100并发的情况下,单月查询秒级响应;
节省存储:实现1-10倍的数据压缩,节省存储空间,实现6+1个月的历史清单数据存;
随着业务的不断发展,广东联通BSS历史详单的存储规模迅速增长。目前,广东联通BSS详单每个月新增100多亿条记录,规模总计约10TB。因数据规模不断膨胀,BSS历史详单系统的数据存储正面临着严重的成本压力。而其原有基于Oracle10g构建的BSS历史详单系统,面对海量数据存储已无法提供高效的查询响应,面向业务应用的响应性能亟待提升。
为了提高BSS详单查询分析效率,降低详单数据存储成本,广东联通希望替换现有基于Oracle10g的BSS历史详单库,使用列存数据库专门存放历史详单数据,同时对外提供高性能的查询服务。
BSS历史详单查询系统建设目标:
本期改造项目实施部署10个节点的GBase8aMPPCluster数据库集群环境,10台节点采用X86PCServer服务器,其中8台作为集群计算节点,2台服务器作为GBase8aMPPCluster集群数据加载机使用,提高数据加载性能和高可用。
图2-1广东联通BSS详单查询改造项目架构图
平台共部署10个节点,数据总量已达到44TB以上。
高效低成本:运行于低成本X86PCServer,有效节省硬件投入成本,提供比小型机更高的处理性;
动态扩展:完全不受数据量与设备能力的限制,随着业务数据量增长,按需扩展;
高可用:基于安全组的备份策略,能够保证节点在发生故障时,不影响正常的详单查询服务;
效率提升:提供高性能的查询保障,实现秒级响应。
互联网的高速发展,使得电信运营商承担了很大的流量压力,而如果运营商不对用户的行为进行分析,最终只能被管道化。广东联通智能管道系统是基于分布式计算和存储的大数据采集管控平台,融合全网、全业务、全接口数据采集,通过DPI及信令解析,提供比互联网公司更精准、更细粒度的用户行为大数据,成为大数据分析应用源泉。
广东联通的网络数据量巨大,智能管道系统项目需要快速的将这些网络数据入库,这就要求数据库具有非常快的数据加载速度,并且,要完成海量数据的分析,就需要数据库同时具有强大的计算能力。此外,因为数据库的加载和分析是同时进行的,所以还需要数据库具有强大的并行能力。
广东联通对智能管道平台的预期如下:
本项目使用6台X86服务器,安装部署GBase8aMPPCluster数据库集群,使用万兆网络将各节点进行高速互联。其中1台X86服务器作为集群的加载服务器,将Mc、Gb、IUPS、Gn、Gi口的数据从网络侧获取之后,快速的加载到数据库集群中。网络信令数据每5分钟入库一次,将前5分钟网络上产生的流量数据进行入库分析,形成分钟级的汇总报表。同时,按小时、日、月等粒度也分别生成不同的报表。目前,系统每天处理的数据量为10T左右,数据入库后针对不同接口,分别进行数据汇总,得到汇总类的报表。同时也对这些数据提供精确查询,以快速捕捉和定位网络上可能出现的问题。
图3-1平台结构图
平台共部署10节点,数据总量超过84TB以上。
高速加载:数据加载速度可达2T/小时,满足海量信令数据的高速加载需求;
高性能:海量数据快速计算,从海量数据中直接进行分析;
高速精确查询:快速定位,快速查询,秒级响应
随着移动互联网的不断发展、智能终端迅速普及,以及移动数据流量迅猛增长,流量经营已是河北联通战略转型的重点,而流量经营的先决条件是经分系统的可持久运行。面对海量的网络数据规模,传统经分系统的数据存储、数据处理和数据分析显然无法满足河北联通日益发展的数据处理要求;同时传统小型机扩容成本高,扩展能力有限,不符合河北联通未来大数据平台技术发展规划。
传统小型机+Oracle的经分系统由于其成本与性能的限制,无法满足当前河北联通的数据处理性能要求,随着后续更多业务平台的接入,省级经分的数据规模将达到PB级别,现有平台完全无法承载。为了实现对用户的精准画像业,数据内容、互联网数据都将纳入统一数据平台中。在上述问题亟待解决的背景下,河北联通秉承“高效低成本”的指导原则,兼顾海量数据的存储及管理能力和海量数据的处理及分析能力,河北联通采用GBase8aMPPCluster数据库作为底层数据平台,建立起公司业务融合运营、能力对外服务的大数据平台。
本项目使用24+2节点GBase8aMPPCluster数据库构建核心数据仓库,采用GBase8a快速加载工具,将数据快速的加载到数据仓库中。用GBase8a建设核心数据仓库存储河北联通全域的高价值结构化数据,并通过对全域数据的关联分析计算,向平台应用层以及外围系统数据接口提供高度汇总的结果数据,同时直接支撑前台页面的报表查询和即席查询。
图4-1河北联通大数据平台架构图
平台共部署节点数已有最初上线24节点扩容到36节点(7个管理节点,36个数据节点),数据总量超过500TB,库内近4万张数据表。
高效低成本:通过使用廉价X86设备建立分布式集群,提供比小型机更高的处理性;
扩展更灵活:完全不受数据量与设备能力的限制,集群从8节点到12节点到24节点再到36节点,随需扩展;
数据更融合:全面融入省内各业务支撑系统的数据,数据保存周期更久,数据量达到500TB以上;
迁移更安心:原厂工程师全面保障Oracle到GBase8aMPP的数据与应用迁移,原系统零改动直接在GBase8aMPP上运行。
上海移动经分平台应用项目,目前已有将近2000万移动用户,承载数据量约为60TB,原有“小型机+磁阵”的查询系统已远远不能满足经分业务需求。为提升客户满意度,提高查询的响应速度和扩展能力,同时满足业务内部使用需求,上海移动急需进行经分平台应用改造。
上海移动经分平台应用涵盖一经、地市经分和领导日报等业务,应用过程中不断暴露出各种业务问题,主要包括:查询速度慢、数据统计慢、数据存储容量有限、扩展能力差等。
图5-1上海移动经分平台应用总体架构
经分库部署规模为12节点(3个管理节点+12个数据节点),正常情况下并发10以下。
系统云化:经分平台应用项目积极响应中国移动总部“积极探索云计算的建设”目标,降低了系统运行维护成本,提升了业务扩展性能;
国产化:系统基于华为TaiShan服务器+GBase8aMPP国产数据库构建,实现了即席查询、详单类经分统计、数据备份等业务功能,体现了上海移动公司平台国产化的应用价值;
性能提升:即席查询实现秒级响应,月数据查询10秒以内;统计性能较以前提高10倍以上;高压缩比节省了大量存储空间,以前存储1个月的空间现在能存储3个月;
按需扩展:集群节点根据需求可随时增加,且保证性能随着节点的增加而线性提升。
北京公司经营分析系统2004年正式开始全面建设和整合,经分系统集中支撑了各部门、各分公司的管理分析需求;通过KPI、报表、专题分析等方式,为公司考核、移动领导的决策、各部门的管理提供了依据,并通过数据稽核等方式一定程度上保证了数据的真实性和分析的有效性。经营分析系统建设运营11年来,紧跟企业发展步伐,以完备的数据、准确的统计分析、周到细致的支撑,充分发挥了“科学决策之器”、“针对性营销和客户挽留之器”、“精细化管理之器”的重要作用。
北京移动企业数据中心项目,系中国移动北京分公司自2004至2015年正式开始全面建设和整合经分系统之后,历时5年进行打造不断优化的企业数据中心平台。该平台的建设为紧跟新的市场发展需求、进一步面向全价值链进行从产品、客户、资源、渠道、基建等多角度挖掘分析,形成面向优化和加强面对4G业务以及已经到来的5G、流量、存量、终端、数据业务等多方面支撑运营能力,综合反映绩效成果,动态监控实时预警,迅速响应决策支撑需求。
通过建设新数据中心,对企业数据进行集中采集、加工整合、规范模型,建立统一数据视图,实现数据的可管、可控、可用,为业务提升与创新奠定基础,以达到对内增效、对外创收的目标;利用目前成熟的大数据处理技术,在数据中心建设中通过基础设施云化、数据服务标准化封装等技术手段,对经分架构体系进行优化设计,实现投资降本增效、应用百花齐放和体系优化提升的目标。
大数据时代的背景下老的系统构架的定位已经跟不上企业战略转型的诉求。随着市场竞争的进一步加剧,北京公司对内面临传统业务营收不断下滑,对外面临来自新兴OTT业务发展带来的巨大冲击挑战,在重重压力下,市场对公司的价值分析能力和决策支撑能力提出更高要求。本项目在北京移动数据中心,通过整合B域、O域和M域,实现企业有价值数据的集中存储,并对外围应用提供必要的数据计算、数据存储服务。业务实际需求如下:
平台层面:主要为企业级数据中心提供数据存储和数据处理能力,提供统一的集成平台环境,将硬件和软件做有效的集成。搭建混搭架构计算框架,实现海量数据的分布式处理;通过新技术,降低系统总体拥有成本,引入批处理、流处理技术,验证大数据、准实时处理架构;增加数据源,丰富应用和数据价值能力;
功能层面:主要为企业级数据中心提供数据整合、数据清洗&转换&加载、数据共享、数据分析与查询、数据挖掘、数据管理能力;提供新的IT功能架构,提供多样化数据的ETL、统一的数据计算与存储、数据共享、多租户的应用开发、数据平台管控。从硬件平台基础设施上,建立企业级的ETL平台,建立管控平台,简化运维,降低门槛,现有的运维开发知识能够顺利平移到新平台;
业务层面:主要为数据中心提供多域的数据模型、标准的元数据、数据处理调度任务、后台处理程序和前台应用程序,以及数据产品。实现对环境中系统资源、软件资源、业务应用、参与人员等各种资源统一管理,综合监控。建设“多维成本分析”,“流量经营”,“位置信息服务平台”三个重点应用。并迁移现有经分应用“自助分析平台”,“集团一经接口”,“市场运营监控中心”以及成熟稳定的数据模型。
北京移动数据中心系统采用PCServer+Linux+本地磁盘的部署模式,100(一经主数据仓库)+40(一经专用库)+12(自助分析平台)节点规模,系统整体采用多种分布式存储处理平台的混搭架构,Hadoop的Map/Reduce、Hive处理海量的非结构/半结构化数据的批处理场景;GBase8aMPPCluster数据库处理结构化的海量数据(包括批处理和准实时的交互处理)(本方案在应用展示层采用MySQL数据库配合GBase8aMPPCluster数据库完成部分与应用的交互处理;流式数据处理框架Streams、MQ、VlotDB实现流处理及复杂数据处理,支撑实时营销场景。MPP与Hadoop之间的数据传输速度,每小时的传输速度最快可以达到30T左右。
图6-1北京移动数据中心系统架构图
GBase8aMPPCluster数据库在系统中作为整个企业数据中心的主数据仓库,担负处理数据的深度加工和BOM域之间的数据融合,即承担了整个数据供应链中最复杂的数据加工处理过程,具体功能详见图6-2GBase8aMPPCluster功能架构图。
图6-2GBase8aMPPCluster功能架构图
本项目从2015年至2017年,已完成项目1期2期的建设。迁移老DB2系统业务30余个(包括最重要的一经业务系统),历经二次扩容,一次扩增新集群,形成目前北京公司经营分析系统100(一经主数据仓库)+40(一经专用库)+12(自助分析平台)节点的集群部署规模,目前库内总数据量约2.5PB。日处理数据量:每日库内处理数据量约30T。日处理任务量,每日库内处理任务数达到50万个左右。
扩展系统数据处理范围:系统采用GBase8aMPP分布式技术加多种技术混搭,实现了系统可处理的数据范围的扩展,全面融合运营商的B域/O域/M域数据,为全价值链分析打下了数据基础;实现了从产品、客户、资源、渠道、基建等多角度挖掘分析;GBase8aMPP在系统中作为跨域数据融合和关联的处理中心,实现了对海量结构化数据的高效关联分析和统计运算,达成了对决策支撑的迅速响应需求。
满足系统更长周期数据可扩展性存储,管理和处理:GBase8aMPP的分布式可扩展能力实现系统对更长周期的海量数据的存储管理,能够从更长的数据积淀中观察数据的深度规律,满足了企业数据中心支撑“大数据”的本质诉求。
数据库操作性能提升:GBase8aMPP数据库的列存、智能索引等特性对于一般分析、统计类库内操作性能优势明显高db2数据库。一般统计查询类操作性能提升100%以上,更新类操作性能提升30%-50%以上。
提升系统存储空间利用率:GBase8aMPP数据库主副本和55压缩存储方式存储数据的功能,在保证集群高可用的同时,提升系统存储容量使用率50%。对于超过4个月的历史数据采用了更高级别的13压缩模式,使数据容量进一步降至未压缩前的1/4,极大提高了整个系统的数据生命周期。
降低系统建设软硬件成本:GBase8aMPP数据库的普通X86架构下的PCServer+源Linux操作系统部署方式,降低了对软硬件环境的依赖成本。从而间接的降低了系统的软硬件投入成本。
近年随着云南移动的业务量激增,企业的业务分析系统不断面临日益增长的数据处理规模的压力,并且以精细化、个性化服务的理念做驱动,运营商企业对经营分析的处理模型愈加复杂,由此业务对系统的数据承载能力和分析处理能力提出了更高的要求。基于以上要求,中国移动云南经分大数据平台改造工程,计划引入MPP关系型数据库来实现整体性能提升。
开放型:对于日益变化的技术发展趋势,为使企业IT系统的发展能够追随技术发展的大势,建立开放与标准化的IT系统是企业赖以生存发展的基础。要求基于业界开放式标准,系统硬件采用基于X86PCServer的标准服务器平台;而在软件方面,构建基于分布式的云化数据库平台也是适应开放性的根本所在。
高扩展性:能够根据业务需求满足系统规模的动态扩展,以灵活适应未来业务规模和数据量的不断增长,并使系统整体部署策略能够满足未来的各种变化和发展因素。
高可用性和稳定性:在基于X86PCServer等低价格硬件平台上构筑可靠的核心经营分析业务系统,所构建的分布式系统必须具备成熟的高可用技术。并且作为一个大规模分布式系统除了保证系统的耐故障特性以外,为了保证系统的稳定运行,还需要系统通过内部的自律性资源管理能力和合理的任务调度控制来保证系统的稳定性。
MPP经分仓库数据库和DB构建的传统经分主库共同组构为实现云南移动经分业务的客户分析类、服务分析类、渠道分析类等各类主题域分析的统一数据分析平台。为使企业构建面向更大规模数据和更复杂的挖掘分析处理打下平台建设基础。做为本项目的经分数据仓库的扩容思路,扩容后经分系统下的各个平台要素之间的数据处理具体流程如下:
主库和MPP接口机上。接口机完成最终的数据向GBase8aMPPCluster数据库的加载。
数据平台划分为由传统集中式数据库与MPP分布式数据库共同构建的集成式数据仓库平台。新的数据平台可以融合MPP分布式数据库的可扩展优势,也可集成传统数据仓库平台上对高价值密度数据的强一致性等各类数据可靠性保证。
图7-1云南移动经分系统架构图
平台共部署四套集群,共计部署89个节点,数据量达PB级,其中:
低成本:GBase8aMPPCluster数据库运行于低成本的X86PCServer,有效节省硬件投入成本,将扩容成本降为原来的1/10左右;
动态扩展:GBase8aMPPCluster数据库节点的水平横向扩展模式,动态扩展无须停止服务,保证服务连贯性;
高可用:GBase8aMPPCluster数据库提升整个系统的协同效率,基于安全组的备份策略,能够保证某节点在发生故障时,不影响系统对外提供服务的连续性
随着中国移动各项业务的不断开展和深入,经营分析系统和大数据专题分析平台的建设将围绕经营决策工作提供更加全面、深入、高效的数据展开,在这一背景下运营商企业不断推进B域、O域包括M域的数据融合,传统经分系统和大数据平台也随之需要承载更大的数据量和业务量。随着承载量的剧增,对经分系统的数据模型转换、低度汇总、高度汇总等核心主仓的处理能力和存储能力提出了更大需求。具体表现在经分系统从生产数据抽取,转换和加载,到数据仓库中的加工统计和汇总,最终到展现数据和报表输出的过程,迫切要求缩短数据从生产环节到消费环节的周期。而在此情形下,运营商企业为了对经分系统和大数据平台提供持续的支撑能力,面临着巨大的持续的扩容成本和维护成本的压力,而作为基于X86PC服务器的分布式存储和计算策略,在解决了大数据的处理压力的同时,为企业提供了扩展性强并且廉价的解决方案。此项目就是针对日益加大的山东移动的经分数据压力和各类专题分析场景的压力,实施了基于X86PC服务器的大数据平台云化改造项目,通过基于Hadoop的ETL平台和基于MPP数据仓库平台的混搭融合,顺利地支撑起山东移动大数据平台历史海量数据的存储和各类大数据专题分析处理的需求。
数据规模大并且增长快速:
现有系统响应提速:
数据高可用性需求:
大数据平台中原有MPP集群根据功能需要分为两个部分:一部分是40个节点(浪潮主机的历史库集群;另一部分是省经分72x72主备双活集群+26节点的地市经分集群。
随着客户用户数量、数据大规模快速增长,为满足业务需求,本方案主要现有省经分72x72主备双活集群进行扩容,采用GBase8a最新虚拟集群技术,将大集群进行物理垂直分割,形成多个逻辑子集群,各逻辑子集群可以根据不同业务的存储与技术需求,独立规划和扩展集群规模和计算资源,计划采用72*72(X86)的双活模式迁移数据,迁移完成后72
节点扩容至160节点,最终形成160*160(X86)主备双活模式,承载云经分中一经和二经
的业务应用,主集群计算后的数据以准实时的方式同步给备集群,当主集群出现故障时备集
群可以进行切换,完成生产任务的接管,为大数据平台7*24小时业务稳定运行提供坚实保障。
同时利用GBaseUP的融合统一管理能力,融合OLTP+OLAP+Hadoop三种异构引擎,40节点的GBase8aMPP作为地市经分数据仓库负责存储、计算、汇总地市经分数据,实现地市Oracle数据库可以跨引擎透明访问GBase8a地市经分数据仓库,Hadoop采用亚信基于开源Hadoop2.0开发的产品,配合地市经分完成非结构化数据的存储、加工和历史数据备份等工作。
图8-1大数据平台总体架构图
大数据平台系统架构采用HadoopETL平台与MPP经分主库的混搭结构,处理和存储来自/B/O/M域的跨域数据。数据在从源数据系统采集之后,先在HadoopETL平台进行数据的结构化、清洗、数据的轻度汇总等;之后HadoopETL的输出数据在通过GBase8aMPP集群的数据分发工具将ETL输出数据加载至MPP分布式数据库;作为经分系统历史库,GBase8aMPPCluster处理从明细层的ODS、DWD到轻度汇总的DWA和高度汇总的ST层的数据加工和各层数据之间的转换。
图8-2平台数据存储及计算图
该项目从2012-至今历时四个建设阶段:云试点(2012-2013已完成)、仓库云化(已2013.8-2014.11完成)、大数据平台建设(2014-至今进行中)、大数据平台运营(2014-至今进行中)。平台部署情况:
低成本高性:GBaseMPP数据库集群运行于低成本X86PC服务器,新系统扩容后,新系统成本是原系统的1/10,但性能远超原系统。
混搭架构支撑海量数据:通过分布式计算和存储以及Hadoop+MPP的混搭结构有效支撑海量数据(集群支持最大192计算节点,有效处理PB级数据)。
高可用:GBaseMPP数据库集群通过合理配置能够有效实现均衡负载,充分发挥每一个节点的计算能力,提升整个系统的协同效率。基于多副本的备份策略,能够保证节点即使在发生故障时,系统仍能连续对外提供服务。
实现深度精细化业务分析:高效的数据分析能力帮助客户应对复杂性强、效率及实时性要求高的场景,有效管理海量数据,实现对各类数据的多维深入分析,准确挖掘数据价值。帮助客户实现渠道选址优化、长漫包触点营销校园市场监控、校园营销、集团客户识别、上网日志查询等大数据专题分析并不断扩展分析场景。
根据对上海电信现有ODS/EDW系统调查和分析,目前上海电信ODS/EDW基础数据和应用系统范畴存在以下几类问题:
长、分析结果及业务报表滞后等劣势;
共计新增26个模型及对应的加载程序的开发。
目前的EDA整体架构中包括了两大平台:传统的ODS/EDW平台和新增的大数据平台(HADOOP/MPP),两者共享公共设施,其中包括数据采集网关、数据运营管理系统等。新增的基于ODS/EDW上的结构化数据应用分析需求将逐步迁移到MPP(GBASE),同时逐步将原有ODS/EDW上的数据和应用向MPP(GBASE)迁移,平台整体架构见下图。
图9-1数据平台整体架构
图9-数据平台业务架构图
平台目前共部署2套集群,84节点规模,目前2套集群数据量已达400TB,库内表达6万张,其中:
核心库:7+72coor复用,一主两备,数据量达340TB,库内表5万张左右日增数据
量2TB,业务并发达250~300;
只读库:5+12coor复用,一主一备数据量达60TB,库内1万表左右,日增数据量300GB,业务并发20。
运营提速:满足集团要求的全网数据运营进入提速阶段,每天10点之前确保产品实例,销售品等全量数据的上传;
即席查询:自助报表查询实现秒级响应,解决部分大数据量应用查询效率低下问题,有效提升用户感知和满意度;
高扩展:原有服务器的垂直纵向扩展模式改为依据数据量的水平横向扩展模式,支持在线线性扩展,且性能随着节点的增加而线性提升;
高可用:节点级故障时具备在线替换、修补节点能力;具备快速故障切换,数据快速恢复能力;
低成本:基于X86PCServer,有效节省硬件投入成本。响应去IOE的发展趋势。
交通、能源行业
2016年7月,国家发展改革委、交通运输部、中国铁路总公司联合发布了《中长期铁路网规划》,勾画了新时期"八纵八横"高速铁路网的宏大蓝图。铁科院为配合这一战略,着手开展新一代客票及电子支付平台等系统升级和扩容工程。
工程涉及到的系统有:新一代客票系统、铁路电子支付平台、短信及语音平台等7个。本期铁科院的项目属于新一代客票系统。铁路新一代客票系统的大数据应用创新主要聚焦12306互联网风控、票额预分应用和针对12306用户画像三个方面:
12306互联网风控:主要是用来解决互联网售票比较严峻的抢票等应用场景。新一代客票系统通过构建风控系统实现风险的预判,然后进行精确打击。通过大数据平台,实时收集网上购票用户的行为数据,以及第三方数据,然后开展实时分析和实时计算,完成对风险的决策和管理,实现实时卡控。
票额预分应用:它以历史客运数据为基础,以列车运行图为约束,对列车的分席别OD客流进行分席别的需求预测,在客流预测的基础上,以票额最大化利用率为优化目标,实施的售票组织策略。基于大数据平台的分析,优先分配重点客流,努力保证稳定客流,科学兼顾其它客流,对销售时机和数量进行预测,通过精细化管理提升发送量和收入。
本期项目为扩容,在原有GBase8aMPP的22节点集群中再增加6个节点,建设完成的28个节点进行动态数据重分布。
作为SybaseIQ的替代,通过在大数据平台中引进GBase8aMPP数据库,增强了客户数据的分析计算能力,消除了传统SharedDisk型数据库的处理瓶颈,实现了包括多维分析在内的在线查询能力。
利用GBaseUP将基于Hadoop建设的客户历史库和GBase8aMPP在线库进行整合。用户应用可将在线库数据和历史库数据作为一个统一视图,进行查询和分析计算,使应用不用意识所查询和处理的数据的具体位置,实现应用对数据层透明化访问,并且通过标准SQL统一数据访问,降低了开发难度,防止了1个应用中SQL和HQL混在的局面。并且GBaseUP可以基于标准接口对Cognos这样的第三方BI工具实现直接的数据开放,从而平滑继承之前BI应用。
基于GBaseUP的跨引擎的客票数据的生命周期管理,可自动根据数据的生命周期在引擎间自动搬运数据,而对于上层应用又封装为统一视图,这种生命周期管理可综合数据价值和存储成本,实现数据的“适才适所”的分布。
基于GBaseUP的大数据平台,可以将各类客运数据统合在一起,形成客运数据湖,各类客运分析应用可以基于GBaseUP提供的标准化接口实现DaaS(DataasService)式服务,从而有效共享全路局数据。
图101铁科院客票分析系统架构图
本项目原系统GBase8aMPP22节点基础上进行二次扩容,在扩容到28节点,目前总数据量约240T,日增数据量100G,查询并发一般30-200。
海量数据存储和处理:基于GBaseUP下的大数据平台(MPP+Hadoop)有效支撑总公司及各地方路局几十TB的数据量,并具有很好的可扩展性,可动态应对今后不断增长的数据分析需要,彻底解决之前SybaseIQ平台上数据处理能力不足的问题。
海量数据的高效分析查询:通过GBase8aMPP数据库的分布式架构、列存、压缩存储和大规模数据并行处理能力,有效支撑了并行条件下,海量数据分析查询,即席查询能力,实现十亿级数据的秒级在线分析,并且具有线性的系统扩展能力。
数据的统一整合管理:基于GBaseUP大数据平台,有效整合了MPP和Hadoop两大种类集群能力,将在线数据和历史数据统合成一个统一视图,并以标准SQL封装的方式,对上层应用开放数据分析和数据挖掘能力,简化了大数据应用开发,并通过数据生命周期管理等特性,降低了数据运维难度,提升了系统整体的性价比。
民航统计局综合统计信息系统是目前民航应用的业务系统,该系统采集并存储了大量关于机场、运输生产及通航生产等数据信息,随着数据的不断累积,原有的业务系统再运行中更为吃力,为了更方便快捷的获取企业数据价值,民航局决定开发综合统计系统数据分析平台,对数据进行更加精细化的提取、挖掘、分析获得更大的应用价值。
民航综合统计系统数据分析子平台支持灵活的系统用户、角色和权限配置。各类用户在民航统计工作中拥有不同的功能权限和数据权限。通过权限、角色配置使用户只能拥有被授予的功能权限、资源权限、动作权限、数据权限等。
考虑未来业务发展需要,升级MPP数据能力平台到V9版本,支持虚拟集群能力,支持多租户管理,不同业务间数据隔离、资源隔离、故障隔离和独立扩容。
目前MPP集群承载业务为综合统计系统数据仓库,近期将加载数据到共享交换平台数据仓库和专业数据分析子系统数据仓库业务,通过升级来保证系统支持虚拟集群,使多业务在虚拟集群下高效有序地运行。
本期项目采用对MPP数据能力平台进行升级的方案,以满足更多种类的数据统计和分析业务需要。
考虑未来业务发展需要,升级MPP数据能力平台到V9版本,支持虚拟集群能力,支持多租户管理,不同业务间数据隔离、资源隔离、故障隔离和独立扩容,同时未来考虑增加服务器数量,并通过物理隔离,即每个业务的数据部署在若干服务器组成的虚拟集群中,保证数据节点硬件隔离,共同使用现有的集群管理节点,租户间数据节点硬件隔离,确保租户间不会相互影响。
图11-1系统架构图
该平台部署6节点(6个数据节点,3个管理节点),数据总量约2T,库内表约200张左右。
通过本次升级项目,使原有MPP集群支持虚拟集群功能,更好地规划MPP大数据平台的使用职责,实现不同业务的逻辑隔离。提升现有数据库应用系统的可靠性和可扩展性。
国家电网公司要求“网上国网”服务平台应用查询性能达到毫秒级别,单表数据量在200亿行以上,之前在Oracle、Hadoop生态及国网大数据平台均无法达到毫秒级响应。
支撑网上国网报表统计分析类业务:每日对300多张超1亿条(约50G)业务数据表进行抽取汇聚处理,平均每日从网省同步超1000万档案变更数据,每天汇聚超2000万的用户行为日志数据。
指标计算抽取方面:每日需对上亿数据进行批处理计算,对外提供300多个运营指标数据支撑。
基础数据下发方面:每日将网上国网汇聚后的数据下发至全网27家单位,每日下发超2000万条约15G数据。
系统采用GBase8aMPPCluster建设,共20个节点,目前系统每个节点数据都已经通过压缩存储,每个节点数据量都超过10TB。
业务规模:每日入库数据量30亿行以上(日增量300G以上),同时支持2000万用户的app账单及用采数据实时查询。
报表统计分析类业务:每日对300多张超1亿条(约50G)业务数据表进行抽取汇聚处理,平均每日从网省同步超1000万档案变更数据,每天汇聚超2000万的用户行为日志数据。
基础数据下发方面:每日将网上国网汇聚后的数据下发至26省(自治区、直辖市),每日下发超4000万条约30G数据。
图12-1网上国网报表统计分析系统架构图
系统采用GBase8aMPPCluster建设,共20个节点(20个数据节点,3个管理节点),目前数据量约200T,日增数据量400G左右,并发一般100-500。
海量数据处理:为用户提供了性价比很高的海量并行复杂数据处理平台,帮助客实现26省(自治区、直辖市)服务11亿供电人口的,电费查询、电量电费以用能分析等业务。
高性能:系统架构高可扩展,性能随着节点数的增加而提升,保证客户接入更全面的业务数据,满足客户的业务需求。
高压缩比:为用户提供完备压缩态存储管理海量数据的能力,进一步降低客户数据仓库建设的成本,并进一步提升系统性能。
政、企行业
根据《气象雷达发展专项规划(2017-2020年)》及《气象雷达发展专项规划(2017-2020年)实施方案》的要求,在国省构建高效的分布式实时历史一体化数据存储管理系统,满足海量数据的存取和分析时效要求。本项目是雷达数据共享平台建设的重要组成部分,有效推进国省气象雷达数据共享和气象业务应用信息化、集约化进程,需尽快启动本项目建设工作。
兼容性要求:将历史数据从国省现有的数据环境(主要采用Oracle数据库、MySQL数据库)迁移到分析型数据库,并支持应用的迁移和接入。
完成国家级和省级分布式分析型数据库软件的采购、安装部署、联调优化和应用接入支持工作。
气象大数据平台实现了数据全集的统一管理和服务,提供除数值预报以外各类气象数据产品加工、挖掘分析的平台计算服务;直接支撑应用,助力“云+端”业务模式的全面发展,构成集约化、标准化、开放发展的气象新业态。
提供统一的数据库访问接口,实现异构数据库引擎的透明访问,方便数据统一管理和应用的迁移和开发。
图16-1气象雷达数据共享平台整体架构图
该项目部署规模国家局三套集群51节点,省局涉及部署31个省,共计31套集群,286节点。其中国家局三套集群:
本项目的建设将气象行业数据与算法资源整合,使算法向数据靠拢,从而解决过去各业务系统反复调用、存储、传输带来的冗余问题,成为气象部门适应大数据时代,推进气象业务系统转型升级、优化全流程业务的重要抓手,而GBase8a作为应用支撑库,为上层数据服务提供有力的支持。
数据全集的统一管理和服务:实现各类气象数据全集的管理,进行数值预报以外的产品加工、挖掘分析的平台计算服务。
实时数据同步:气象数据进入到事务型数据库提供业务实时查询访问,通过Kafka将事务库中的增量数据准实时的同步到GBase8a分析型数据库。利用GBase8a的数据存储、服务、分析的能力,发挥数据应用效益,为天气预报,防灾减灾等业务提供保障。
高性能分析:利用GBase8a集群的高性能分布式并行计算能力,有效提升气象业务的复杂分析场景性能。
在基于大数据、物联网的“工业4.0”这一变革理念的指引下,煤炭工业也迎来了新一轮的变革浪潮。从煤炭行业的发展趋势来看,生产矿井对于安全形势要求越来越紧迫,井下工人的数量也在逐年递减,自动化、智能化成为生产矿井必然的趋势。而大量的有经验的安全生产专业技术人员逐渐向矿业集团公司集中,如何发挥集团人才优势、技术优势,通过大数据中心的建设,将矿井安全生产的一线原始数据送到各级专业管理人员手中,让数据“开口说话”、为煤炭行业服务,解决企业安全生产的实际问题,进而影响煤炭行业发展方向、区域资源配置,促使煤炭企业安全、生产、经营管理决策更加客观高效,成为摆在企业信息化发展过程中亟待解决的问题。建设企业大数据中心,已经成为当前各大煤炭企业实现矿山透明化开采,提升安全生产和经济效益的突破口和着力点。
随着对矿井生产安全要求的不断提高,生产矿井的井下一线员工也呈现出招工难、人员老化、逐年递减的趋势,迫使煤炭集团企业的安全生产管理也必须向生产一线靠拢,打通生产一线同集团各级专业技术部门的壁垒,让集团专业技术人员能够精准掌握生产一线实时情况,使得各项管理和指令趋向于扁平化,制定的各项措施针对性更强,实效更高。同时随着煤炭企业信息化、自动化的不断融合应用,产生了大量的数据信息,数据的重要性日益显著,如何能够更好为矿井管理人员提升效率,为矿井安全生产保驾护航,成为当前摆在企业信息化发展过程中亟待解决的问题。
因此,迫切需要立足于企业的内部需求,通过大数据中心建设,实现集团领导对企业安全生产、经营管理和市场政策信息的实时掌控,实现关键领域数据的精准推送、满足领导决策,同时通过大数据深入挖掘分析,破解企业生产经营过程中的各类难题并服务于企业安全生产。
某矿集团大数据中心建设,应以高效、通用为原则,应选用成熟、高效、稳健的技术架构,满足某矿集团未来大数据的分析利用和数据挖掘,实现企业级的数据标准化、数据治理等数据管理过程,集成整合集团现有业务系统,建设集团公司大数据中心,实现集团全域数据的可视、可查,跨专业、跨部门的大数据分析和有针对场景的业务建模、数据挖掘等,对安全生产、经营管理起到实际指导和决策依据作用。
南大通用大规模分析型数据库集群产品GBase8aMPP作为集团大数据中心的核心数据平台,需要同管理信息化系统进行集成,采集大量的关系型数据。经营数据、监测数据、监控数据、地图数据通过接口汇聚进入GBase8aMPP,满足某矿集团全部数据“统一采集、统一存储、统一管理、统一运营、统一服务”的需求,为集团公司及其权属单位提供全栈大数据服务,包括技术平台、数据应用及分析、数据服务等。
图17-1山东省某矿业大数据中心整体架构图
该项目部署6节点集群(3个管理节点,6个数据节点),数据总量目前约5T左右,20并发。
某矿集团采用全部数据“统一采集、统一存储、统一管理、统一运营、统一服务”,为集团公司及其权属单位提供全栈大数据服务,包括技术平台、数据应用及分析、数据服务等。因此平台的定位不仅仅局限于使用大数据技术构建数据分析系统,更应基于云计算、云服务等理念,打造集团公司“数据即服务”的平台理念。
先进性:GBase8a具有先进的分布式架构设计,支持分布式集群部署,支持千台级服务器部署,提升了系统的先进性。
安全性:GBase8a具备的完善的安全管理机制。具备用户身份认证、权限管理、审计管理、日志管理、数据加密、多租户隔离、数据容灾、敏感数据脱敏等安全保密功能,确保系统的安全性。
可维护性:GBase8a具备大数据平台安装部署、运营信息监控、日常维护都应通过图形化界面完成,从而提高可维护性。支持监控总体资源使用率、实时监测各个节点和组件的状态信息,支持关键业务KPI的监控,支持集群的自动安装和部署。
扩展性:GBase8a具备高度的在线可扩展性,可以满足系统日益增长的应用需求和数据量。
安徽省抢抓机遇、高位谋划、将“数字江淮”建设摆上战略位置,响应国家大数据战略,奋力在数字化“新赛道”上大展宏图。而“江淮大数据中心总平台”项目的建设,正是安徽省“数字江淮”的重要里程碑事件,是深入贯彻“数字中国”战略,推进“数据江淮”建设的积极践行和重要举措,是实现全省数据汇聚、共享、服务的总枢纽,满足安徽省省直部门、市级部门一站式数据服务要求的重要基础。
“数字江淮”对数字化改革提出了新的挑战,平台面临数据治理、数据共享以及智慧服务等多方面、高技术的要求,需要借助新兴的大数据、人工智能等技术,实现数据的高效处理、融合共享、赋能开放等要求,以实现数据赋能经济社会发展、企业服务、群众生活的“幸福安徽”战略。
江淮大数据中心总平台的建设,通过“总平台+16个市子平台+N个省直部门分平台”的“1+16+N”框架模式体系设计,以实现全省跨部门跨层级数据资源的统分结合、互联互通、共建共享的数据服务目标。通过平台的总枢纽作用,打通政务数据、社会数据、经济数据的归集与服务脉络;通过讯飞智慧化技术实现数据的与赋能;通过南大通用GBase8aMPP数据库并行技术,实现数据服务的高效与精准。从而推动跨行业、跨部门、跨领域的数字化服务落地、为市民带来智慧新体验。
图18-1平台总体架构图
GBase8aMPP集群产品做为安徽数据化转型的基础支撑,借助GBase8aMPP集群产品的高效查询、并行服务能力,提升数据中心服务能力,实现13.5亿条政务信息资源的汇集与共享,依据政务服务以及数据共享需求完成主题模型构建,从而支撑上亿访问压力,提升智慧审批、数字政务的高效处理服务需求。
该平台已经完成3个节点部署(3个管理节点,3个数据节点)。
GBase8aMPP在“江淮大数据中心总平台”项目中,为智慧安徽提供数字化支撑保障,极大地提升了海量业务数据的查询分析性能,实现高效分析、准确评估、以及服务效能,并成为省级数据中心平台的示范标杆,为我司助力全国各省数字化转型提供了实战经验与积累。
该平台作为全省交通信息资源枢纽,将打破部门壁垒,整合城市交管行业、交通运输行业等行业数据资源,并汇集公路局、路政局等企事业单位和互联网资源等各类交通数据,实现多源异构数据的融合、共享、分析、计算和交互,完成交通信息的综合和深层次的挖掘利用,为高质、高效的交通管理和服务提供后台支撑。
黑龙江省交通厅大数据分析平台其整体技术架构由如下4部分组成:
数据源:大数据分析平台的数据资源包括省级数据资源总中心和公路管理、道路运输管理、航务管理、综合政务数据资源分区。
数据资源层:包括数据仓库,以及共享信息库、规则库、模型库、元数据库、非结构化数据元数据库等支撑库。其中GBase8aMPPCluster集群建设数据仓库,主要用于存储经过按照数据仓库模型进行数据整合后的全部数据,包括基础数据库、业务数据库、主题数据库、共享数据库等,以及根据分析业务的需求划分的多个数据分析专题库,如高速公路运输出行规律及运行监测、高速公路安全事故监测、长途客运运行监测等专题库。
应用层:包括应用支撑系统和业务分析应用,应用支撑系统为上层分析应用提供各类引擎,包括即席查询、多维分析、交互式图表、交互式报表、地理信息引擎、权限管理、语义映射、模型设计等,支撑上层应用开发;业务分析应用基于可视化的数据分析系统之上建设基于数据仓库专题的分析应用,包括统一查询、综合分析、数据预测及其它业务类分析。
图19-1大数据分析平台业务架构图
平台共部署4节点,数据总量超8TB,每日增量50GB以上,近8千张数据表,2000多个存储过程,300并发。
目前经过部署期、适配期、已经正式上线,并进入系统稳定期。稳定期过后将承担黑龙江全省交通行业所有二级部门的数据访问支撑任务。
黑龙江省交通厅引入GBase8aMPPCluster集群建设数据仓库,实现了交通大数据平台的建设目标,带来了技术和业务方面的双重价值。
建设成本大幅降低:全平台基于中低端X86服务器打造,采用1:8入库数据压缩有效利用了本地存储空间,大幅节约了数据存储成本。低廉的硬件成本为后期数据平台的扩容预留了充足的预算空间,随着数据平台承载数据量的提升,GBase8aMpp的高性价比将得到凸显。
高可用性:GBase8aMPPCluster的多级高可用技术全面保护黑龙江省交通厅大数据平台的多种核心数据,确保系统7×24小时稳定运行,无单点故障风险。
安全可控:核心数仓采用掌握完全知识产权的国产分布式数据库产品,具备自主研发,安全可控的特性,全面提升银行存量数据的数据安全和业务安全。
中国重汽集团在2020年开始构建企业级大数据平台,现有业务涵盖销售、服务、人力资源、车联网、物流和生产等,原平台采用Oracle+Hadoop的双数仓方式构建,DW层主要采用Hadoop的hive+hdfs的离线数据计算的技术路线,部分业务由Oracle承载;DM层主要由Oracle+帆软和Impala+Kudu+帆软的方式对外提供数据服务。
化数据的查询必然成为瓶颈,质量部现有280GB数据量的指标数据查询返回结果已经大于10秒,已经不能满足业务展现的需要,亟需可容纳海量结构化数据的数据库产品改进业务现状。
短期需求:满足2021年业务部门(销售、服务、人力资源、生产、物流、车联网等)对大数据平台新增业务的承载能力需要,满足系统数据存储不小于10TB,最大并发数不少于200,月活人数3000/次,单日活跃人数3000/次的系统承载压力;
长期需求:融合各类数据,基于实时流处理技术、内存技术、租户和容器技术,通过新一代融合平台技术架构逐步提供完整的PaaS服务能力,逐步推动从数据平台建设到数据开放运营的过程,实现自主业务和开放业务的百花齐放;
一期工程采用南大通用GBase8aMPPCluster数据库替换Oracle重新构建大数据平台结构化数据主仓,GBase8a大规模分布式并行数据库集群系统处理结构化数据,能够适应OLAP计算模型的业务场景,完成数据的查询、分析。通过8aMPP集群分布式计算能力,解决了原有Oracle平台单点故障和性能瓶颈问题,采用全无共享架构,为客户提升了信息处理能力和水平,提升了客户数据分析时效性和使用体验。实现重汽大数据平台架构优化的同时提升海量结构化数据存储和计算能力。
图20-1业务架构图
本项目一期部署2个节点,后期客户会进行扩容。
架构优化:一期工程实现中国重汽大数据平台Oracle数仓的替换,满足大数据部海量结构化数据的存储和分析,为大数据平台技术架构的进一步优化奠定基础;
低成本、高扩展性:基于X86PCServer国产化平台的可扩展架构,对比Oracle只能纵向扩展的能力,更加节省投资,符合长期规划;
高性能:入库、汇总、查询速度比传统数据库提升10倍以上,存储能力提升至PB级;
易用性:GBase8a数据库提供统一的接口、SQL语法,具备丰富的企业管理器和运维监控工具,对开发和运维人员门槛较低。
随着公积金缴存人数的不断增加以及既有数据的不断累积,北京住房公积金管理中心保存了海量的各类公积金数据。传统的数据管理架构基于Oracle+小型机的模式,面对每天日益增长的数据表现出严重的性能瓶颈,且架构限制了扩展的灵活性。为此,北京住房公积金管理中心综合信息系统亟需改造升级,解决当前的性能和架构问题。
为解决用户当前系统面临的性能与架构扩展灵活性问题,此升级改造项目需求主要包括:
功能完整性、性能效率、安全性、终端兼容性达标,完成后整个项目业务迁移上线。
住房公积金综合信息系统改造项目将采用南大通用GBase8aMPPCluster数据库构建融合数据的统一存储与管理平台,汇聚来自用人单位、银行及征信系统等的第三方数据,在综合信息系统内完成与公积金中心自身业务数据的统一存储,并在库内实现各类数据的初级汇总,按照一定的规则将分散的各类数据重新规整和计算,如数据立方体的构建,面向主题的数据集市等。
公积金综合信息系统数据采用8台物理机构建GBase8aMPPCluster集群,承载所有结构化数据的存储和计算任务。通过2台加载机完成周期性外部数据的接收和加载。在数据库数据处理逻辑层面,数据库内部划分为ODS层,DW层和DM层,层层紧密配合,最终将数据加工成面向业务主题的高价值数据。
图22-1公积金综合信息系统架构图
本系统部署8个节点,其中4个管理节点,4个数据节点,现已完成业务迁移上线。
低成本、可扩展:基于X86PCServer的平台架构,节省投资,且系统具备扩展能力,符合长期规划;
高性能:入库、汇总、查询速度比传统数据库提升10-20倍。
针对此情况解决方案为:
本平台扩容需满足:
图24-1
本系统部署12个节点,其中3个管理节点,9个数据节点,现已完成业务迁移上线。
挖掘数据价值:数据魔方是基于大数据的研判分析系统,能够对多种数据进行数据建模,碰撞和分析,为用户可提供更可靠、更及时的数据信息;
低成本、可扩展:基于X86PCServer的平台架构,节省投资,且系统具备扩展能力,符合长期规划;保障数据平台后续接入更多的业务系统,满足更高层次的复杂分析以及战略决策需求;
2012年7月开始山东移动经分系统开始采用GBase8aMPP数据库对DB2进行全面替换,经过几期建设,2020年逐步建成大数据开放运营平台,通过MPP数据库服务能力为大数据平台数据对内对外服务提供助力。
经过周密计划,GBASE制定了2步骤的搬迁扩容方案:
图25-1双活集群图
通过GBase8aMPP产品V95版本搭建跨数据中心的双活集群架构,在第六数据中心创建虚拟集群VC2,要求VC2与第五数据中心VC1的集群规模、分片个数、distribution和hashmap完全相同,创建VC2之后通过镜像关系开始集群的全量数据同步,同时上层应用修改JDBC连接,开始访问VC2的Coordinator节点,此时VC1的datanode节点仍然作为生产数据集群对外提供数据服务。
图25-2双活集群图
当数据同步完成后将VC2的Coordinator向下访问数据集群修改为VC2的datanode,最终完成数据主仓的跨数据中心迁移工作。
此方案做到了业务应用的代码零改动,通过修改JDBC的连接串,重启服务就完成了系统割接,真正意义上做到了经分大数据数据主仓完全业务无感知的跨数据中心搬迁工作。
本项目部署了6个节点,其中3个管理节点,6个数据节点,数据量约10T左右。
通过GBase8aMPPV95版本的虚拟集群功能,在虚拟集群中将两个同样规模和数据分布策略的子集群建立镜像关系来构建实时数据复制,可以构建大数据业务平台实时双活的容灾方案。
通过山东移动大数据平台主数据仓库的成功迁移,验证了通过虚拟集群搭建双活或容灾架构的可行性,为其他预计搭建双活或容灾集群的省公司积累了丰富经验。
针对卷烟厂膨胀烟丝中剔除梗签存在的问题,本项目主要研究膨胀烟丝风选工艺环节的智能化技术及应用,主要包括:
解决方案配套GBase8aMPPclusterV9版本单节点部署以满足系统数据分析需要,配合设备自带传感器及配套开发的ModBus数据接口采集数据系统架构图如下:
图26-1系统架构图
系统为实现智能化、精准化品控调节,建立数据模型以及数据指导,根据现有梗签剔除率影响数据,采集以下关键参数:
等。
利用输送不同烟丝质量流量时,气相压力能损失间的线性关系,构建烟丝质量流量测量的基础数据,结合流体流动的相似理论和烟丝输送的气固耦合流型规律,实现测量范围的细致划分和测量精度的升级,经过计算机计算得出稳定数据。
为积极响应银行业务上云政策,华南区某股份制银行近年实现业务转型,其业务逐步搬迁至中央银行会计核算数据集中系统(以下简称ACS云)。华南区某股份制银行资产业务数据平台中有Oracle、DB2、MySQL三种数据源。用户规划将所有资产业务涉及的业务数据采用准实时增量的方式同步到GBase8aMPP中,以便充分利用GBase8aMPP数据库集群的高性能分析功能,高效的为上层业务系统ACS云提供数据分析结果。要求实现三种异构数据源同步到GBase8a数据库且彼此业务隔离;Oracle支持在线增加、删除同步表,可执行增加列的DDL操作;并为同步工具搭配图形化监控与管理界面便于运维人员管理。
在华南区某股份制银行数据资产项目中RTSync实现了如下几项技术要点:
本项目采用GBaseRTSync+GBase8aMPP组合方案,通过RTSync对资产业务系统中Oracle、DB2、MySQL业务数据库的数据增量准实时同步到GBase8aMPP中。其中Oracle数据的全量数据采用RTSync的在线全量转增量功能实现系统的在线割接;DB2配套IBM的CDCfordatastage套件,把数据库的CDC变化量输出到文件中再由RTSync通过scp/sftp协议获取cdc变化量,把源端变化量还原为GBase8aMPP能够高速消费的事务操作;MySQL
的bin-log日志解析功能,将数据增量日志进行信息拆分,获取到的增量信息由kafka生产组件生产,再由GBase8aconsumer进行消费,实现MySQL到GBase8aMPP的信息增量同步。
RTSync将Oracle、DB2、MySQL业务数据库的数据增量准实时同步到GBase8aMPP后再由GBase8aMPP将数据高效处理输出至ACS云平台。
图1-1华南区某股份制银行RTSync方案概览图
在华南区某股份制数据资产项目共部署4套GBase8aMPP集群(共9节点)负责实现数据跑批与生产。7套RTSync负责实现生产数据同步业务。
事务库与分析库联动:实现Oracle等OLTP数据库于GBase8a(OLAP)数据库联动向应用系统提供数据管理和数据分析功能的业务场景;
易运维:提供图形化配置与监控管理界面,易于操作;
优质服务保障:GBase的全方位一体化的产品服务,为用户提供了全方位的保障;
安全可控:RTSync是拥有完全知识产权的国产数据库同步产品,具备自主研发,安全可控的特性,全面提升银行同步数据安全和业务安全。
图3-1铁科院客票分析系统架构图
按照国家应急管理部和原安监总局对应急管理、安全生产信息化建设的总体要求,按照紧贴需求、急用先建的原则,积极推进应急管理“一张图”建设,依托省政府办公厅信息中心的网络及云服务资源,按照全国安全生产信息化“一盘棋、一张网、一张图、一张表”的总体目标,结合实际情况,以省安监局实际需求为导向、以应用为核心、以数据为支撑,紧密围绕省安全生产监管监察和应急管理业务,深化信息化与安全生产业务融合,建设辽宁省安全生产信息平台。
建设两大业务+一个中心+一个平台,两大业务指应急救援指挥业务,安全监管业务,一个中心指信息资源管理中心,一个平台指应用支撑平台。
辽宁安监安全生产信息平台建设,通过信息资源管理中心平台进行数据整合,ETL入库,结构化数据进入GBase8aMPPCluster,非结构化数据进入GBaseHD。GBaseUP构建统一管理平台,GBase8aMPPCluster数据库构建融合数据的统一存储。在库内实现各类数据的初级汇总,并按照一定的规则将分散的各类数据重新规整和计算,如数据立方体的构建,面向主题的数据集市等。
本次项目建设涉及9台虚拟机,数据开发平台(3台)、数据仓库GBase8aMPP(2台)、前置库与中间件Oracle/ETL(1台)、GBaseHD(3台)。
图4-1辽宁安监安全生产信息平台架构图
图3-2辽宁安监安全生产信息云平台架构图
平台部署1套GBase8aMPP集群和1套GBaseHD,其中8a集群部署规模,2个节点(2个管理节点,2个数据节点),GBaseHD部署3个节点。该19年项目启动,截止目前,项目已稳定运行2年,15+个源应用系统,300并发。
标杆项目:作为国内安监唯一两个大数据试点项目之一,GBsae参与技术框架搭建部署,协同第三方共同完成安监大数据平台上线,提供给国家总局,形成安检大数据指标体系。
数据融合、统一管理:基于GBaseUP大数据平台,有效整合了MPP和Hadoop两大种类集群能力,融合管理结构化数据和非结构化数据,并将在线数据和历史数据统合成一个统一视图,提供标准接口及标准查数据查询语言,对上层应用开放数据分析和数据挖掘能力,简化大数据应用开发,并通过数据生命周期管理等特性,降低了数据运维难度,提升了系统整体的性价比。
大数据平台有效支撑本工程中各类业务信息的处理和运行、提供面向在线、离线数据存储和处理的综合能力、并满足易于管理和扩展的需要。平台系统需要支持各类结构化、半结构化与非结构化数据的存储,通过可扩展性的分布式平台技术有效支撑对各类数据的加工、检索、统计、分析和数据深度挖掘的需要,并对资源与任务实现最优的调配管理,最终为上层各业务系统提供基于标准接口方式的数据的存储、检索、统计和分析等服务能力。
本项目采用各类分布式数据存储和分布式分析处理方案,大平台数据采用Hadoop分布式体系架构结合GBase商用化分布式数据库GBase8aMPPCluster以及统一融合平台产品GBaseUP,进行有效技术融合,全面性地综合解决本工程项目对各类结构化、半结构化与非结构化数据的存储管理和分析、挖掘的处理需求。
本项目采用GBaseUP大数据融合平台,替换原有单一hadoop架构,为用户构建标准统一的数据采集、数据访问的DaaS平台。
平台包括数据采集层、数据存储层、数据计算层、分析服务层和大数据统一监控管理。数据采集层用于支持数据采集、过滤、缓存、中转分发调度;数据存储层用于支持海量异构数据的统一可靠的存储管理,对外提供标准化统一的结构化、半结构化和非结构化数据的访问接口;数据计算层是基于支持多种计算模型的分布式计算框架,为上层业务系统提供专业的计算处理库;分析服务层为上层业务系统提供各种不同协议和标准的访问接口,并实现大数据平台内跨引擎间的任务调度;大数据统一监控管理用于完成对数据分析平台的运维、监控等功能,并同时提供命令行和图形两种管理界面。
图5-1西藏通管局大数据平台总体架构
该大数据平台经过三期建设,目前部署规模145节点GBaseHD,5节点GBase8a(5个管理节点+5个数据节点),总节点数达150个,总数据量达60T,库内表数量14000张,日增数据量400G(GBase8a)。
基于GBaseUP融合架构构建DaaS平台:构建的大数据平台兼具OLTP的稳定高效的事务数据库、OLAP大规模分布式并行MPP数据库集群、NoSQL等多种大规模结构化、半结构化与非结构化数据处理技术,构建了对外统一,对内可扩展的大数据平台,支撑结构化数据、非结构化、半结构化数据的采集、存储与计算应用,能够适应OLAP、OLTP和NOSQL三种计算模型的业务场景;
解决方案具有行业通用性、复制性:本项目平台解决方案已经开始在通管局行业产生复制效应,促进GBase与集成商在WA/XA项目领域的全面合作。