阿里云实时“官宣”处理进度:11月12日18:14,阿里云发布公告称,自17:44起,阿里云云产品控制台访问及API调用出现异常,工程师正在紧急介入排查;17:50,阿里云确认故障原因:与某个底层服务组件有关;18:54,公告显示杭州、北京等地域的控制台及API服务已恢复;19:20,公告称工程师通过分批重启组件服务,绝大多数地域控制台及API服务已恢复;21:11,公告显示受影响云产品均已恢复。
这并非阿里云的第一次事故,2018年6月,阿里云被曝出持续近半小时的重大技术故障;2019年3月,疑似出现宕机事故,给部分互联网公司造成影响;2022年12月,香港Region可用区C发生大规模服务中断事件,对较多客户的业务带来重大影响,影响面扩大到香港可用区C的EBS、OSS、RDS等云服务……6年内发生多次不同程度的故障,不禁让人心生疑虑:阿里云还值得信赖吗?
底层服务组件故障
“牵一发而动全身”
从事发当日的首个回应公告至当晚发布的“云产品均已恢复”结果,整起事故耗时3个小时,地域范围波及甚广,国内如华南1(深圳)、西南1(成都)、华南3(广州)、华东1(杭州)、华北5(呼和浩特)等,海外如印度(孟买)、英国(伦敦)、美国(硅谷)、韩国(首尔)等。
底层服务组件在中台发挥关键的作用。业内专家王淇(化名)告诉《IT时报》记者,阿里云自身使用的是一个大中台的技术架构,中台具有高度复杂性和集约性,当底层出现错误,要完成灾备切换恢复具有较高的难度。“相当于‘大脑’瘫痪了。”王淇表示,尽管当前这个故障已恢复完毕,但倘若处理不周或不防患于未然,随时会再次面临“瘫痪”。
而中台出现故障不仅会发生在阿里云身上,在王淇看来,任何一家具有云计算服务企业都会存在故障风险。
裁员、管理或成“导火索”?
外界普遍认为,裁员,特别是高级技术人员的缺失,或是阿里云这次大规模故障引发的主要原因。王淇也表示,维护一个复杂的中台需要大量专业的开发和运营人员,而阿里云今年的裁员对此或多或少产生了影响,另外,管理亦是因素之一。
独立分析师付亮也表示,今年阿里巴巴管理模式的大调整可能带来新的管理隐患。“从管理层面,阿里全面推进各业务集团及下属公司独立,各实体之间‘公司化协议运作’,各业务集团及具备条件的公司独立盈亏,结果必然是各业务集团和公司加强了盈利项目,压缩了非盈利项目,跨业务集团的支撑很难避免不受到盈利目标的影响。”
“阿里云内部精力从‘云’向仍处于投入期的AI大模型转移。”付亮说道。
就在本月初举行的云栖大会上,阿里云发布机器人大模型解决方案,宣称集成了通义千问、通义万相等基础模型及阿里云物联网平台,赋予机器人知识库问答、工艺流程代码生成、机械臂轨迹规划、3D目标检测和动态环境理解等全方位能力,可大幅降低机器人开发的门槛。付亮认为,阿里云高管的调整、业务团队的变动,以及精力的转移增加了不确定性,业务稳定性亦在降低。“利润考核逐步下压,降低成本,以增加利润,但减少了资源配置,这是阿里云业务支撑出现隐患的重要原因。”