数据库平安人寿基于ApacheDoris统一OLAP技术栈实践个人文章

随着大数据时代的到来,传统数据库出现性能瓶颈,基于Oracle的数据仓库无法满足海量数据的存储、处理与应用需求,因此在2016年平安人寿引入了Hadoop建立寿险大数据平台。在近十年的大数据技术探索中,以提升数据质量、加快业务数据分析效率、加速数据价值变现为目标,平安人寿基于大数据平台构建了数据中台并引入数据治理体系,全方位保障业务用数效率、提升数据生产力。在数据应用层引入了多个开源大数据处理和分析组件,结合业务对于分析的实际需求开发了多个数据应用系统,为业务用户分析决策提供支持。

如今,随着数智化时代的到来,数据价值的重要性得到更深度认可,深挖数据价值成为新的目标。在此背景下,平安人寿坚持技术创新,以更加开放的思路来应对不断增长的数据分析和应用需求,升级大数据产品体系正是其中至关重要的一步。

为了进一步提升数据应用效率、降低多组件带来的运维和使用成本,平安人寿自2022年起开始引入开源实时数据仓库ApacheDoris,对多个数据应用系统进行了升级,基于ApacheDoris统一了OLAP引擎层技术栈。ApacheDoris的引入为平安人寿大数据产品体系打破了原有系统的数据“孤岛”、统一了数据开发与应用层查询服务,降低了需求的开发成本、加速了业务需求的交付周期,并满足业务方更高数据时效性与查询响应度的要求,最终形成更开放、灵活、可扩展的企业级管理与分析大数据产品体系,实现数据价值的最大化释放。

早期大数据产品体系如上图所示,数据流转过程主要分为离线与实时两条链路:

基于实际的分析需求,平安人寿开发了各类数据应用系统以支持不同业务人群进行决策分析,包括面向管理层的报表分析系统、面向总部运营人员的即席查询系统、面向一线业务人用的多维分析系统以及面向总部与分公司营销人员的人群圈选系统。

针对各类应用系统,在分析过程中对OLAP性能有不同的要求,具体如下:

由于早期架构基于多个OLAP组件(包括Presto、PostgreSQL、Hive、Kylin、Druid、Clickhouse以及HBase)提供计算存储与查询服务,虽然能够满足业务要求,但架构复杂与链路过长势必会增加运维成本、学习成本,同时也无法保障系统之间多源数据的一致性。

更重要的是,随着用户规模的增长与业务场景多样化,数据的写入效率、查询时效性、后台稳定性也逐渐无法得到保证,时常影响业务分析效率。接下来,将详细为大家分析以上业务应用痛点、选型过程以及相应的解决方案,希望为读者带来关于架构升级的新视角。

早期主要基于Hive与PostgreSQL支持该应用场景,当业务全域数据经过ETL清洗处理后,全量存储于Hive中。为了满足管理层快速查看报表的需求,开发人员首先会将数据进行多轮处理清洗,并采用预汇总结果的方式,将计算好的指标数据导入PostgreSQL中。

虽然这种方式能够应对查询低延迟响应的要求,但指标结果多轮计算会导致数据处理链路过长、各类成本的叠加,例如将数据拆分存储至14个PostgreSQL库中所造成的存储冗余与资源成本增加、将报表异地聚合与定制化开发所造成的开发成本增加、将PostgreSQL与应用端交叉使用所造成的运维成本增加等。

早期即席查询场景由多个组件共同支持,其中Hive负责离线数据分层存储、PostgreSQL用于存储指标结果数据、Presto则作为查询引擎对Hive中数据查询下压。然而,由于业务查询严重依赖PostgreSQL中的指标数据,一旦未提前计算好指标,查询压力将全部交给Presto,容易造成资源浪费、查询响应延迟等问题。同时,该系统的权限管理不清晰、业务之间没有资源隔离限制,所有业务运营人员均可以查询Hive底层中的数据,造成临时表多、查询任务并发过高、资源抢占等问题。

同时,Druid在查询性能中存在一定的局限性,如不支持关联查询、不支持精细去重。在理赔与用户数据Join的查询场景下,业务人员只能先将所需数据形成宽表满足查询需求;在面对用户数据精细去重时,只能对Druid组件功能改造。这些局限性不仅使查询复杂度增加,也会消耗大量的人力、学习、开发等成本。

在上述各应用痛点中不难发现,组件过多容易出现数据存储冗余、数据不一致等问题,开发人员也需要来回导数整合组件之间的数据流,加重开发运维成本。并且,组件之间还会加重数据孤岛的现象,使数据之间缺乏关联与共享。基于此,我们希望选出一款综合性强、灵活度高的组件,能够统一OLAP技术栈,打通平台之间的数据读取,覆盖日常分析场景需求,实现高效导数与极速分析。除此之外,为了将数据治理更体系化,还希望引入的OLAP组件支持指标、标签等维度数据统一计算与存储,借用API为上游应用层提供统一查询服务。

在经过调研选型后,如图所示,我们发现ApacheDoris非常符合升级需求,不仅能够覆盖常规业务场景,满足写查性能需求,同时,基于ApacheDoris统一技术栈也将大幅度降低架构复杂度,减少运维、开发以及使用成本,最大化提升架构性能。因此,平安人寿基于ApacheDoris开启了新架构的升级之旅。

在未引入ApacheDoris之前,大数据产品体系借助不同OLAP组件提供数据存储、计算与查询服务。引入ApacheDoris后,平安人寿以OLAP引擎统一为基础,在ApacheDoris集群之上构建了一体化指标与标签设计平台,形成“上下经营一张表”,完善经营指标管理体系,并通过API接口直通应用层,面向多种场景的统一数据服务。

目前,平安人寿已使用ApacheDoris替换了HBase、PostgreSQL、Presto、Druid组件,统一指标标签计算存储,支持报表分析、即席查询以及多维分析的应用,并已上线了管理层的报表应用系统、总部与一线运营人员的可视化分析系统。同时,平安人寿也已完成ApacheDoris与各类数据源适配,进一步替换Clickhouse、Kylin组件。预计在今年11月份,ApacheDoris将上线并应用于营销机构人群圈选系统的生产使用。

通过ApacheDoris一套系统同时满足数据存储、计算与查询服务,不仅避免了数据多轮计算带来的重复开发与冗余存储问题,更满足了更灵活、更细粒度、更高效的查询分析。平安人寿在应用上线后取得如下收益:

当统一了OLAP技术栈后,平安人寿进一步引入统一语义层,将复杂查询语句进行拆解转化,简化加速SQL语句执行效率,并借助数据服务API接入的方式,连接各业务应用层。

一站式数据门户是平安人寿大数据产品体系自始至终的构建目标,基于ApacheDoris统一OLAP多个技术栈,并将标签与指标标准化开发与管理,共同提供统一的数据服务,使业务分析师能够进行自助式的数据探查,减少对技术人员的依赖,同时,通过方便快捷地访问、分析和可视化各种数据资源,实现数据高效、低成本的交付。

未来,平安人寿将进一步拓展ApacheDoris湖仓一体化的应用,使用Doris替换Presto进行数据湖查询分析,让数据和计算在湖与仓之间自由流动。同时,还将引入ApacheDoris多租户和资源隔离方案,完善应用系统间负载均衡性能,避免导数过程中出现任务并发高、CPU内存占用大、查询性能受阻的风险,减少多用户数据操作时在同一集群内被干扰,将集群资源更合理的分配给各个应用系统。

最后,非常感谢飞轮科技团队一直以来对平安人寿的技术支持,加速平安人寿数智化转型进程。至此,各级业务人员能够加速数据分析效率,帮助企业及时发现和解决问题,从而提升运营效率;管理层能够通过海量数据洞察市场趋势、客户需求以驱动业务决策。

现代化实时数据仓库SelectDB,支持大规模实时数据上的极速查询分析。

THE END
1.教育培训信息流推广落地页案例分析,分解落地1、人群痛点分析:无论是学历教育培训还是职业培训,需要站在受众角度罗列痛点,让他们感同身受。如何展现痛点?可以通过思维导图分析痛点,然后分条描述或采用对比形式。 2、品牌、产品优势要突出:品牌优势,如过往成绩、师资队伍、硬件设施等,可以用很宏观的内容展现;但光讲品牌是不够的,必须细化产品和服务。 https://www.ismes.cn/news/jypxxxltgldyalfx_fjld_1717.html
1.客群深度解析,定位特征与市场策略研究按摩器材摘要:本内容主要关注客群类的深度解析,涉及定位、特征与市场策略。通过对目标客群进行精准定位,深入研究其消费行为、需求和偏好,揭示客群特征。在此基础上,制定针对性的市场策略,以优化产品服务,提升客户满意度和忠诚度。整篇文章旨在帮助企业更好地理解和把握客户需求,实现市场精准营销。 https://bbs.haomengjk.com/post/707.html
2.消费者痛点怎么分析,不同行业如何营销消费者痛点分析消费者的痛点是品牌营销中的关键因素,因为准确把握消费者的痛点,可以为品牌带来更大的市场机会。今天和大家探讨下消费者痛点怎么分析,不同行业如何营销? 今天我们会从分类、洞察、场景分析、分级与评判以及不同行业细分的角度来进行分析: 1. 消费需求与痛点分类 ...https://blog.csdn.net/laimachuanmei/article/details/135056068
3.用户痛点分析怎么写?3招教你快速的分析用户的痛点若找到精准痛点,则 1、吸引力强 吸引力是核心,牢牢的抓住你用户的吸引力,牢牢的吸引住客户,这才是撰写成交文案的一大法宝 2、成交率高 当你抓住了用户的吸引力之后,再加上你自己分析到用户精准的痛点 你就会发现,只要你根据用户的痛点,来为用户解决问题,那么用户就会需要你的产品或者说服务 ...https://www.chuhai-club.com/article/117330.html
4.数据分析报告(15篇)三、生鲜电商人群分析 人群集中在北上广深为中心区域的经济带,女性更关注健康、男性更阔绰,并且与菜谱类网站用户群高度相关。 华北地区生鲜购买人数占总体55.1%,华南地区占据16.6%,东部地区占26.3%,三个地区购买人数占据总人数97.8%,在经济较发达的地区,购买用户出现较明显的地域性。 https://www.ruiwen.com/fenxibaogao/6135550.html
5.精准宝妈粉的裂变技巧TaoKeShow二、宝妈的痛点 分析完宝妈人群的特性,接下来分析她们的痛点,才能做到快速裂变宝妈人群。 1、没有收入,地位低 如果是全职宝妈,每天睁眼就是锅碗瓢盆和照顾孩子,没有稳定的经济收入,在家里地位低。甚至有时买东西还不敢跟老公要钱,过着手心向上的日子,实在难熬。 https://www.taokeshow.com/30919.html
6.万字干货!微信读书产品设计策略推导优设网痛点分析 阅读前 门槛高:读书需要时间,还要动脑筋去思考去理解,本身不是一件容易的事情,所以喜爱并能坚持的阅读的人很少。 时间少:人们现在的生活节奏实在太匆忙了,从早晨到晚上,几乎都有做不完的工作,到了周末,又要陪伴家人或和朋友聚会,能静下心读书的时间实在太少。 https://www.uisdc.com/wechat-read-design
7.数据分析报告范文(精选10篇)在人们越来越注重自身素养的今天,报告的使用频率呈上升趋势,报告具有双向沟通性的特点。为了让您不再为写报告头疼,以下是小编帮大家整理的数据分析报告,仅供参考,大家一起来看看吧。 数据分析报告 篇1 一、确定分析目标 分析目标主要包括以下三个方面: 分析目的, ...https://m.wenshubang.com/baogao/155767.html
8.户外露营市场消费者分析市场的成熟度分析 后备箱经济 目标人群93.3%的有车,80%以上的人群选择自驾前往 户外用品后备箱的购买意见 目标人群痛点1 总结:舒适感、收纳空间、不齐备 目标人群痛点2 总结:携带不便、拆卸复杂、质量不好 目标人群痛点3 总结:占地方、携带便利性、时尚化 ...https://www.mroyal.cn/News_3895.html
9.中医穴位养生——寻艾竞品分析用户痛点:对于具有专业中医知识的中医找不到一个专业的分享、交流的地方。 四、竞品分析 1. 战略层 2. 范围层 (3)总结 从表格中可以看到,经络穴位图解app是偏向知识学习的中医知识穴位学习科普平台,重在对穴位的学习上;而康小二则是通过问诊互动、舌象自检来定位用户健康问题并提出健康养生建议的平台。两款软件都...https://maimai.cn/article/detail?fid=1689516637&efid=VMnic9ToxzUTx7iPBayG6A
10.小红书品牌投放前,看完这30个建议(少亏30万)品牌要经营人群,而不只是经营产品。人群定位好之后,更多洞悉的是人群的习惯和喜好,最好自己泡在人群中,或者团队小伙伴属于这部分人群。反复搜集反馈信息,再来调整自己的内容,这一步必不可少。 030 善于分析和总结;竞争对手打动内容背后 内容的核心凌驾于技巧之上,研究一篇爆文不单单是看到形式,更多的是要分析笔记成...https://www.marketup.cn/marketupblog/newmedia/12296.html
11.干货分享:7步带你2023做好跨境电商!进行人群分析,对跨境电商平台分析与选择: (图片来源:老夏分析师) 国外与国内还是有一定差距的,我们想要进行跨境电商时,首先我们要对我们准备销售的国家进行历史、文化习俗、生活习惯、地理、气候等因素进行了解,这样才能更好的对我们的人群进行分析,找到想要所销售的国家人群有需求量的产品。 https://www.cifnews.com/article/139005
12.精选创业计划范文11篇2、痛点分析: 用几句话阐述你发现目前市场中有什么空白,或者存在什么问题,这个问题有多严重,效率有多么低下、供给有多么缺乏。 3、解决方式: 提出了问题就要匹配相应的解决方案,但是在创业环境中,针对一个问题往往可能有一百种解决方案,一定要阐述你的解决方法的合理性,以及你的产品解决问题的方式或者途径 ...https://www.yjbys.com/chuangye/ziliao/chuangyejihuashu/631917.html
13.高端品牌汽车如何通过线上和线下相结合实现销量倍增二、营销需求及痛点分析 回到上面的三个问题,我们先说第一个问题,数量。像这种高端的汽车品牌,在中国销量一直不错。举个最简单的例子:保时捷在国内属于汽车高端奢侈品的第一梯队,去年一年保时捷的销量在国内大概在9万多到10万辆。这只是大众旗下的一个品牌,而我们的这个客户售卖的汽车品牌不输于保时捷这个品牌的,...https://www.yoojia.com/article/9783643859112630459.html
14.7000字拆解萨洛蒙凭什么成为下一个10亿欧元品牌?萨洛蒙是很典型的人群品牌,从“满足一类人的需求”出发,针对核心人群提供产品解决方案,不断优化运动体验,而非死磕某个单品或品类。它建立品牌的方式是从人群痛点出发,研判上升趋势,及时抓住变化,实现跨品类跨圈层的增长。 我们详细拆解了萨洛蒙在发展过程中的三个关键阶段,希望看完它的故事,你能对如何做一个“人群品...https://www.digitaling.com/articles/949353.html