坐拥亿级用户,支付宝APP如何进行运维可观测体系建设?算法路由时序

在蚂蚁金服,无论是客户端还是服务端、基础设施,都统一在AntMonitor可观测平台中。我们会与业务团队合作,提供更多的平台化能力,由客户端的业务团队与我们配合建立运维体系。这包括小程序平台、客户端发布平台和客户端保障平台。针对第三方扩展,我们会提供一些行业开放的东西,大家自己编写小程序也能看到相应的数据。

二、客户端可观测技术难点

接下来,我们将讲解客户端可观测的核心技术难点,这些都是我们实际遇到的问题。既然要讲客户端,我们先回顾一下服务端的可观测数据,因为它们在很大程度上是与业界相似的。在这里,我们将介绍蚂蚁金服在服务端监控数据方面的体系,以及与其他公司的区别。

十年前,我们从日志开始构建了这个监控平台。字节可能在追踪(Trace)方面投入了更多的资源,这在每家厂商具体实际情况可能有一定区别。

我们具备可观测这三个方面(Logging、Metrics、Tracing)的能力,但是从应用程序日志转化为Metrics,最后变成指标监控的这个过程是我们使用最多的。

相对的,客户端比服务端更加复杂。针对这三个点,分别有如下难点和挑战:

Tracing:现代的SOA架构是一些小应用程序之间的串联,而客户端和服务端之间的串联是断开的。客户端本身有中间件、框架等,但是这些往往无法与后端联系起来,因此它们的价值会降低。

Metrics:聚合指标也面临着相同的问题,即如何处理早期版本和后期版本之间的指标差异。另外,”数据维度爆炸”是可观测领域普遍存在的问题。

在面对各种问题时,我们真正需要解决的是哪些问题呢?总结后有如下四点:

海量数据处理与水平伸缩架构

维度(Tag)爆炸与多维分析

海量多样化被观测实体告警

采集与埋点规范

对于维表和统一服务,我们需要对大量的数据进行对齐和补齐,同时需要补充很多用户手机端没有打上的信息。这个过程中,数据会被移动到实时数据中,并最终写入到实时数据库中。

难题一:维度(Tag)爆炸与多维分析

解决方案Part1:维度服务与维表Join

解决方案Part2:分析型时序数据库CeresDB

关于维度爆炸对存储带来的问题,我们和其他厂商可能不太一样,前面提到了腾讯、京东等存储方案非常多,我们是自研一套时序数据库,我们在设计层面就考虑到维度爆炸问题。

如何解决这个问题?我们选择了列式存储和分区剪枝。这个图有点问题,他写按年,实际我们是按天、按小时去分segment,每个segment里面有大量的源信息,对查询过程中的剪枝效果是非常好的。

解决方案Part3:分析型时序数据库CeresDB存算分离与弹性架构

介绍CeresDB分布式架构,我们自己从头开始研发了一款时序数据库,除了刚才解决单机维度爆炸的问题,还需要解决分布式问题,这包括原生Prometheus也是没有的,整个结构会变成计算存储分离结构。

解决方案Part4:分析型时序数据库CeresDB查询性能优化

CeresDB性能问题,我们通过如下三个方面解决这个问题。

针对超大数据表:百亿级别的数据表我们通过用分区表来增加水平扩展。

存算分离特有问题:

次查性能问题:次查其实就是构建多级缓存,首查已经查过了,我们需要用到首查拿回来的数据。

解决方案Part5:分析型时序数据库CeresDB性能优化

此外,查询性能也是非常重要的。目前在高筛选度条件下命中数据较少,针对某一台机器去查数据,由于存储结构设计我们跟InfluxDB不太一样,会有一定程度比InfluxDB要慢。这个问题可以通过针对小的数据块建立更多针对性的索引来优化。低筛选度条件,也就是说对大量数据做分析时,这种情况下CeresDB比InfluxDB快26倍。对于数据继续增长性能是没有什么特别大的影响的。

难题二:海量多样化被观测实体告警

我们有这么多数据,如何解决几百万被观测实体告警问题呢。运维出身的同学一定非常痛苦,不希望把所有报警手工配一遍,或者手工配出来,然后批量覆盖,这样针对每个有特点东西的覆盖效果并不是很好。

解决方案一:智能告警

目前业界比较流行,各个云厂商包括业界也有很多方案,针对曲线做异常检测。异常检测整体架构分为三层:第一层算法路由、第二层检测、第三层降噪。这三层在我们实际应用过程中效果非常好。

首先前置算法路由,拿到这个数据到底执行什么算法,不能把所有算法跑一遍,这样对系统开销是比较大的。算法路由模块会看这个数据当前有没有问题,有问题应该跑什么样的算法。中间会有具体的算法实现,但算法产生的结果并不总是我们想要的。

因此,我们需要引入降噪技术,将算法、规则和事件进行处理。这些事件可能是运维事件,也可能是主动或外部的突发事件。我们需要避免这些事件对真正需要收到告警的人造成干扰。

解决方案一:动态阈值生成技术

前面提到的单纯使用算法的异常检测可解释性非常差,真正用户并不知道里面发生了什么事情,也不知道什么情况下能告警出来,什么情况下不能告警出来,所以我们在推广时遇到非常大的阻力。

将生成的规则展示给用户,用户能直观地感受到这些规则的作用。生成规则时,可以结合数据特点,例如流量大小或检测业务总量等,这些特点可以帮助我们在生成规则时进行分类。下图解释了动态阈值生成技术的过程。

第一点和之前的内容相同,需要将一些事件的变更、突发情况或不太正常的情况剔除,以便我们通过常态的数据生成想要的规则。

上图是整体的模式实现架构。前置校验、推导任务统一调度,会由具体程序进行执行。再下面会有存储样本、算法结果,各种模板、阈值。最上面是实时运行,生成出来的规则缓存进行统一调度、告警检测。规则生成后,这些规则跟人工配置规则一起运行。

四、开源与技术演进

Holonsight在内部使用较少,主要用于小程序和云上。CeresDB的蚂蚁内部版本和开源版本完全相同,可以直接使用开源代码进行内部部署。

陈伟荣(蚂蚁集团高级技术专家)

2015年加入阿里集团,此后一直在可观测领域工作。阿里电商可观测平台

Sunfire

创始团队成员。2017年转岗蚂蚁集团,为蚂蚁

Xflush核心研发。

2019

年起负责蚂蚁可观测技术与架构团队,带领团队经过多年工作,产出了蚂蚁统一可观测平台

AntMonitor、开源时序数据库CeresDB、开源可观测平台

HoloInsight

等成果。

在小小的代码里挖呀挖呀挖,6月29-6月30,2023DOISDevOps国际峰会·北京站,可观测性、SRE、云原生架构,运维转型需要的内容,都在这里!

THE END
1.蚂蚁借呗下载手机版2024最新免费安装“花呗”用户在消费时,可以预支蚂蚁花呗的额度,享受“先消费,后付款”的购物体验。 工资理财,自动还贷 厂商联系方式:客户服务热线:95188 官方微博:@支付宝 http://weibo.com/zfbwxzf 官方网站:https://www.alipay.com/ 蚂蚁借呗,一般又称支付宝,Alipay。 支付宝是蚂蚁集团旗下业务,诞生于2004年,已经成长...https://m.liqucn.com/app-rn-10070-0
2.蚂蚁云蚂蚁云(www.ant-cloud.net) 计算服务器提供商,专注云服务器,VPS,香港免备案空间服务器,SSL证书,域名注册,企业建站等云计算解决方案,弹性灵活,助力企业轻松上云。云服务器租用、网站服务器租用、云数据库租用、CDN加速企业建站首选蚂蚁云。https://www.ant-cloud.net/trademark/abroadShow
3.云蚂蚁客户端如何解除绑定机器方法一: 通过老板手机端解绑 进入手机管理界面, 选择终端, 选择要解绑的机器 进入机器界面 , 选择备注, 然后再解除绑定 方法二: 通过云客户端解除绑定 输入云蚂蚁客户端的管理员密码 首先我们点击右下角状态栏的云蚂蚁程序 按动鼠标右键,点击高级设置,http://www.u7pk.cn/help/DocDetail.aspx?id=1332
4.云蚂蚁客户端如何解除绑定机器方法一: 通过老板手机端解绑 进入手机管理界面, 选择终端, 选择要解绑的机器 进入机器界面 , 选择备注, 然后再解除绑定 方法二: 通过云客户端解除绑定 输入云蚂蚁客户端的管理员密码 首先我们点击右下角状态栏的云蚂蚁程序 按动鼠标右键,点击高级设置,http://www.u7pk.com/help/DocDetail.aspx?id=1332
5.与北京蚂蚁云金融信息服务公司签订蚂蚁区块链合作伙伴框架协议...与北京蚂蚁云金融信息服务公司签订蚂蚁区块链合作伙伴框架协议 2018年9月17日公告,公司与北京蚂蚁云金融信息服务有限公司于2018年9月14日签订《蚂蚁区块链合作伙伴框架协议》,一致同意基于双方优势资源,通过资源共享建立业务合作及市场推广机制,共同拓展区块链市场,促进双方品牌的共同推广。双方将以共同建设领先的大数据生态...http://guba.sina.cn/view_64_217148.html
6.大蚂蚁即时通讯客户端下载大蚂蚁即时通讯官方版下载v5.8大蚂蚁即时通讯是由杭州艾朴软件推出的一款企业级即时通讯平台,旨在为企业提供高效、安全、稳定的即时通讯服务。该平台支持多种通讯方式,包括文字消息、语音通话、视频会议、文件共享等,满足企业不同场景下的通讯需求。同时,大蚂蚁即时通讯还提供了丰富的功能特性,如即时通讯、消息队列、群聊、多人视频会议等,帮助企业实...https://www.32r.com/soft/26511.html
1.阿里云产品服务协议3.2.1. 您可通过阿里云网站或客户端自行选购您所需的服务,阿里云将不时提供正在公测期的产品服务,您可通过届时我们提供的方式申请使用,并遵守本协议的约定服务使用限制。您对阿里云服务的使用应遵守法律法规,同时您在使用阿里云产品服务的过程中还应遵守阿里云发布的《服务使用规则》以及《安全管控规则》 。 http://terms.aliyun.com/legal-agreement/terms/suit_bu1_ali_cloud/suit_bu1_ali_cloud201802281451_77479.html?spm=5176.b73997031.0.0.41827508XEZYSs
2.云蚁物联官网免费下载云蚁物联,支持多型号智能摄像机使用。 【远程监控,高清画质】通过APP查看您的摄像机,随时随地,了解家中情况; 【双向语音通话】身处再远,也能随时语音互动,家人、宠物仿佛就在身边; 【分享给家人】您可将设备分享给其他家人,不同账号设定不同权限,分享更随心,使用更安全; 【移动监测报警】任何异动及时通知,6秒短视...http://ku.u.360.cn/detail.php?sid=559448&sid=3989839
3.阿里云app最新版,重塑数字生活的强大工具平台保险柜阿里云app最新版是一款重塑数字生活的强大工具。它集成了阿里云的技术优势,为用户提供丰富的数字化服务,涵盖云计算、大数据、人工智能等领域。这款app致力于提升用户体验,简化操作流程,让用户更轻松地管理和应用数字生活。无论是个人用户还是企业用户,都能通过阿里云app最新版享受高效的云服务,实现数字化转型。 http://www.jydsafe.com/post/12560.html
4.云迁移离线采集工具采集工具文档中心云资源离线调研工具供客户采集源端平台的资源使用,目前支持对阿里云、华为云和 AWS 国际站的源端资源扫描。 如果云资源地域在境外,将扫描工具下载到境外节点进行扫描,可以减少因为网络问题造成的云厂商 API 调用失败。 准备工作 扫描工具工作需要指定云资源所在的云厂商名称, 资源所在地域 Region 和访问云资源的密钥对(...https://cloud.tencent.com/document/product/659/112539
5.分享2019年蚂蚁金服面经(已拿Offer)!附答案!!客户端–发送带有 SYN 标志的数据包–一次握手–服务端 服务端–发送带有 SYN/ACK 标志的数据包–二次握手–客户端 客户端–发送带有带有 ACK 标志的数据包–三次握手–服务端 为什么要三次握手 三次握手的目的是建立可靠的通信信道,说到通讯,简单来说就是数据的发送与接收,而三次握手最主要的目的就是双方确认...https://www.ucloud.cn/yun/7294.html
6.蚂蚁云医院,诱导客户,骗人蚂蚁云医院,诱导客户,骗人 来自安卓APP客户端 https://www.51kanong.com/xyk-9103177-1.htm
7.蚂蚁办公零信任的技术建设路线与特点特点:微隔离是一种在数据中心和云部署中创建安全区域的方法,该方法使企业组织可以分离工作负载并分别保护它们 用于保护:业务到业务的访问安全 3.2 蚂蚁办公零信任安全架构 基于SDP + IAM + MSG零信任核心技术,结合蚂蚁企业实际情况,构建以身份为边界的办公零信任安全管控平台。如下图8 ,终端上安装SDP客户端后,能够实现...https://www.secrss.com/articles/43978
8.微信运营方案怎么写9篇(全文)微信商城是用户直接可以在通过关注云蚂蚁云销平台微信在微信上直接进行浏览商品、购买等行为的商城。完善微信商城的搭建,包括:商城商品展示(商品信息)、会员登录、商品购买流程、会员中心、退货申请、商品评价、物流查询、会员积分、优惠券领取、pc端商城数据对接等。(注:此功能可以暂缓开发,先完善一些基础功能)...https://www.99xueshu.com/w/filer4w7wg0i.html
9.在Windows搭建私人蚂蚁云笔记服务器windows云笔记服务器在Windows搭建私人蚂蚁云笔记服务器 前言 1.下载相关文件 2.安装MongoDB 3.导入leanote初始数据 4.安装leanote客户端 5.设置开机启动 致谢 前言 实在厌烦了用ppt整理论文笔记的方式,于是突发奇想试图寻找一个笔记软件,最终找到leanote,并试图将其服务器搭建在自己的电脑上,经过几个小时的努力,终于完成了所有工作。https://blog.csdn.net/weixin_44676142/article/details/107156400
10....攻坚产业协作蚂蚁集团数字科技业务亮相云栖大会“蚂蚁数字科技业务秉持‘以数助实’的价值理念,在服务企业及机构数字化、产业协作数字化、可信价值互联三个不同的数字化生命周期里,联合合作伙伴推出80多个行业解决方案,在金融、新能源、版权科技、跨境贸易等领域服务近万家企业。”11月3日,蚂蚁集团在云栖大会公布科技业务全景图,并发布云原生、隐私计算、安全科技、...http://my-h5news.app.xinhuanet.com/news/article.html?articleId=2bc1e3f2bffc4d9033d5307612b6f84f
11.十年磨一剑:蚂蚁集团可观测性平台AntMonitor揭秘2017年后,整个蚂蚁集团可观测性能力逐步走向了全息化、数据化和智能化。这一代整个团队除了继承前几年的平台建设优点之外,还着力解决了几个方面的问题,包括: 完成从客户端到服务端,从业务应用到基础设施的一站式全场景监控 基于监控的海量数据,实时数据探查和分析 ...https://maimai.cn/article/detail?fid=1800250066&efid=jf8V2GlnjZflcznBrC9g3A
12.蚂蚁金服手机版客户端下载芝麻信用,是蚂蚁金服旗下独立的第三方信用评估及管理机构,通过云计算、机器学习等技术客观呈现个人的信用状况,已经在消费金融、融资租赁、信用卡、P2P、酒店、租房、出行、婚恋、分类信息、学生服务、公共事业服务等近百个场景为用户、商户提供信用服务,众多用户享受到了信用的便利。人与人,人与商业之间的关系正因为信...https://m.qqtn.com/q/109858