翻译:李天池审校:张宏伟审核:谢帅
本文档提供服务连续性实践实用指南,分为五个主要部分,涵盖:
本文档中的部分内容可作为以下教学大纲的一部分以供检查:
详情请参考各部分教学大纲。
一个突发的意外事态,会对组织造成巨大损坏或严重损失。要被归类为灾难,这一事态必须与组织预定义的特定业务影响准则相匹配。服务连续性管理实践有助于确保服务提供者做好应对高影响事件的准备,这些事件会破坏组织的核心活动和/或信誉。在数字化转型的背景下,服务连续性管理实践变得越来越重要,因为在各个行业,数字化服务的作用越来越大。对于在过去专注于非技术灾难的组织而言,重大服务中断可能产生灾难性的影响。
云解决方案的广泛使用,以及与合作伙伴和服务消费者的数字化服务的广泛整合,正在产生更加难以控制的新的关键依赖关系。合作伙伴和服务消费者通常会投资于高可用性和高连续性解决方案上,但是组织之间缺乏整合和一致性会产生新的脆弱性,这一点需要被了解并解决。
服务连续性管理实践与其他实践(包括可用性管理、容量和性能管理、信息安全管理、风险管理、服务设计、关系管理、架构管理和供应商管理实践)相结合,可以确保组织的服务具有弹性并为灾难性事件做好准备。
风险的概念是服务连续性管理实践的核心。该实践通常可以减轻无法被完全避免的高影响、低概率风险(因为某些风险因素不在组织的控制之下,例如自然灾害)。
简单来说,此实践与事件管理实践非常相似,不同之处在于其潜在的损害要大得多,并且它可能威胁到服务提供者创造价值的能力。
服务经济时代,每个组织的业务都是由服务驱动和数字化的。由于这样的紧密联系,业务连续性管理实践可能会与数字化服务连续性与服务管理进行全面整合。如果数字化转型导致消除了“IT管理”和“业务管理”之间的界限,则这种整合可能是可行且有用的(有关该主题的更多信息,请参见ITIL4:高速IT)。
在灾难事态或破坏性事件发生后,服务提供者以可接受的预定义级别继续服务运营的能力。
对于外部服务提供商,服务连续性管理等同于业务连续性管理。
ISO将灾难定义为“一种具有高度不确定性的情况,这种情况会破坏核心业务和/或组织的信誉,并需要紧急行动”
明确定义被认为是灾难的事态列表通常是一个好主意。这样做有助于制定一套适当的服务连续性计划,从而确保组织做好应对破坏性事件的准备。灾难清单通常包括:
为了从灾难中成功恢复,服务提供者应该定义服务的连续性要求。服务的连续性要求包括:
最低服务连续性级别(请参阅图2.1)
图2.1服务的连续性要求:RTO,RPO,最低目标服务级别
估算RTO时应考虑的主要因素是:
ISO22301:2012提供以下定义:
按照此逻辑,RTO应当比MAO在数量上少一些,这足以说明组织的风险偏好.MAO应该在业务影响分析中确定。RTO应该在服务连续性计划的开发中定义。
定义:恢复点目标
活动所使用的必须恢复的信息所指向的点,以使活动在重新开始后能够有效运行。
估算RPO时应考虑的主要因素是:
例如,一家网上商店每小时接收100个订单。高管们说,丢失200个订单将是不可接受的。因此,RPO为2小时。
RPO定义了备份频率的要求。在灾难发生时,备份管理必须确保最近的备份副本的可用性。
灾难恢复期间,服务提供者通常应以最低目标服务级别提供服务。即使客户没有特殊要求,但达到最低服务级别也有助于尽量减小损失。
最低目标服务级别通常根据以下方面进行定义:
定义:业务影响分析
服务连续性管理实践中的关键活动,用于标识重要的业务功能(VBF)及其依赖关系。这些依赖关系可能包括供应商,人员,其他业务流程和IT服务。业务影响分析定义了IT服务的恢复要求。这些要求包括RTO,RPO和每个IT服务的最低目标服务级别。
业务影响分析(BIA)是一个流程,用于分析活动以及中断可能对其产生的影响
根据ISO22301,业务影响分析应包括:
定义:服务连续性
一套明确定义的考虑到服务管理四维模型的计划,有关组织如何从灾难恢复并返回到灾难之前的状态。
服务连续性计划用于指导服务提供者在中断后响应,恢复服务并将其还原到正常水平。
服务连续性计划通常包括:
在许多情况下也会有制定业务连续性计划的需求。业务连续性计划可能包括:
这些计划通常在制定时被当做业务连续性管理实践的一部分。
服务连续性管理实践包括以下领域:
服务的连续性和可用性管理的实践之间的界限是不明显的。两种做法都涉及风险的概念,并致力于识别和准备应对可能威胁并导致服务不能运转的事件。对于这两种实践,都需要了解VBF和风险评估或服务故障的BIA。最终,两种做法都确保了组织的抗故障能力。
一些组织不希望将可用性的管理和连续性分开。但是,表2.2中概述了这两种做法之间的一些差异,在设计服务管理系统时应考虑这些差异。
表2.2可用性管理和服务连续性管理之间的区别
这些实践的目标之间存在对立。可用性管理实践处理统计数据并分析趋势;连续性管理关心如何应对破坏性事件。
可用性规划致力于满足当前和将来的商定要求,并避免出现偏差。可用性管理实践发现并消除单点失效;所采取的对策通常是积极主动的,以减少意外事态发生的可能性。服务连续性管理实践专注于规划,以管理破坏性事件的严重后果。备份站点,服务提供的替代方案的过渡,还有恢复程序,都可以减少损坏,但是通常不影响事件发生的可能性。
事件管理实践的活动与服务连续性管理实践的非常相似。但是,事件管理实践专注于不会威胁组织的弹性的故障,而服务连续性管理实践专注于可能会阻碍组织恢复服务交付的高影响故障。
同样,这两个实践之间的界线是不明显的,应根据对务提供者和服务使用者的影响来明确定义。同时,在某些情况下(通常在小的,单站点服务提供者中),服务连续性活动可作为重大事件管理的一部分来执行。
当服务连续性计划到位并与事件管理活动分开管理时,应该有一个清晰的标准来触发服务连续性程序。在评估事件的业务影响时,支持专家应确定重大事件是否可能导致灾难,并通知危机管理组,以便他们能够做出有关启用的决定。
定义:启用
服务提供者必须承诺服务连续性计划,以便继续服务的交付。
为了降低风险,此实践致力于使预期损失减小到最低程度,以便在灾难发生时不会造成重大损失。
为确保准备好应对破坏性事件,服务连续性管理实践需要有关风险的信息,这些信息可以通过风险管理实践获得。
定义:实践成功因素
实践的一个复杂的功能性的组件,是实践实现其目的所必需的。
实践的成功因素(PSF)不仅仅是一项任务或活动,因为它包括全部服务管理四维模型的组件。活动的性质和实践中PSF的资源可能有所不同,但它们共同确保实践有效。
服务连续性管理实践包括以下PSF:
为了有效地应对灾难并从中恢复,服务提供者需要服务连续性计划,该计划应反映所选的服务连续性策略。应该根据在BIA期间确定的服务连续性要求选择服务连续性策略。
因此,为了制定和管理服务连续性计划,服务提供者应该首先完成BIA,然后选择适当的一组服务连续性要求,进而定义服务连续性策略。
业务连续性研究所(BCI)定义了以下连续性策略:
BCI在响应和恢复规划结构中引入了三个层次:战略层、战术层和操作层,如表2.3所示。
表2.3响应和恢复规划结构中的层次
根据组织的规模以及服务提供者是内部的还是外部的,可能会有不同的解决方案来构建计划。责任主体也可能有所不同。
服务连续性计划根据服务提供者的类型和组织的规模,其结构的复杂度可能会或多或少。表2.4概述了一些常见的结构。
表2.4连续性计划的结构选项
服务连续性计划应涵盖表2.5中概述的灾难发生之后的各个阶段。
表2.5响应阶段和恢复阶段
服务连续性管理实践包括管理各种风险的控制项的定义和管理。为此,它与风险管理实践和其他以风险为中心的实践(例如容量和性能管理,可用性管理和信息安全管理实践)结合使用。商定的可用性控件应通过服务设计,软件开发和管理,以及基础设施和平台管理实践来实施。
表2.6中概述的服务连续性选项可以作为总体风险缓解计划的一部分来设计和实现。
表2.6服务连续性管理实践的四个维度
如果服务的BIA表明了有更早和更高的影响发生,则需要采取更多的预防措施。如果初始影响较低且发展缓慢,则投资于连续性和恢复对策是更经济有效的方法。
选择服务连续性措施时,每个选项的效果和效率应得到评估。同样重要的是持续控制并验证其持续效果和效率。
未经测试的恢复计划通常根本无法按预期工作。因此,测试是服务连续性管理的关键组成部分,并且是确保所选策略,已实施措施和计划切实可行的唯一方法。
测试服务连续性计划是检查和提高准备状态的一种手段。通过定期修改计划和程序,恢复团队发现缺陷和低效率,然后更新服务连续性计划以反映他们的发现。
BCI定义以下演练类型:
根据BCI良好实践指南,每种类型的关键特征和目的。
表2.7概述了2013年。
表2.7锻炼类型
演练不仅是确保准备就绪的一种方法,而且是一个改进机会。因此,通常的好主意是,分析测试期间的发现以及整个恢复团队表现,然后生成包括发现和正式建议的演练报告。
每个实践所做的贡献应该在价值流的背景下评估ITIL实践的效果和绩效。与任何工具的性能/绩效一样,只能在应用程序的背景下评估实践的绩效。然而,工具在设计和质量方面会有很大差异,这些差异被定义为一种工具在根据其用途使用时的有效潜力或能力。更多的有关指标,关键绩效指标(KPIs),和有助于此目的的其他工具的进一步指导,能够在度量和报告实践指南中找到。
服务连续性管理实践的关键指标已映射到其PSF。它们可以用作价值流的背景中的KPI,以评估实践对这些价值流的效果和效率的贡献。表2.8给出了一些关键指标的示例。
表2.8实践成功因素的指标示例
将指标正确汇总到复杂指标中,将使数据更易于用于价值流的日常管理,以及用于服务连续性管理实践的定期评估和持续改进。没有单一的最佳解决方案。指标将基于总体的服务战略和组织的优先级,以及实践有助于的价值流目标。
像任何其他ITIL管理实践一样,服务连续性管理也有助于多个价值流。重要的是要记住,价值流永远不会由单个实践形成。服务连续性管理实践与其他实践相结合,可以为消费者提供高质量服务。实践贡献的主要价值链活动是:
服务连续性管理实践对服务价值链的贡献如图3.1所示。
图3.1服务连续性管理实践对价值链活动贡献的热力图
每个实践可能包含一个或多个流程和活动,它们对于实现该实践的目的可能是必需的。
定义:流程
一组相互关联或交互的活动,可将输入转换为输出。流程接受一个或多个定义的输入,并将其转换为定义的输出。流程定义活动的顺序及它们的依赖关系。
服务连续性管理活动形成五个流程:
该流程包括表3.1中列出的活动,并将输入转换为输出。
表3.1服务连续性管理的治理的输入,活动和输出
图3.2显示了流程的工作流程图。
图3.2服务连续性管理的治理的工作流程
这些活动可能由组织中的许多人以不同程度的正式方式来执行。表3.2进一步描述了这些活动。
定义服务连续性管理实践的范围,确保它所涵盖的组织的环境和地域清晰。
组织范围可能受到产品和服务,站点和位置,客户等的限制。那些已停产的或即将终止的产品和服务通常被排除在范围之外,非关键和低利润的产品和服务也一样。
实施服务连续性管理实践的成本可能很高。因此,如果服务提供者启动服务连续性管理方案,则某些服务,产品或站点最初可能会作为分阶段实施的一部分而被排除在外。
许多不同的技术被用来定义实践的范围,包括成本效益分析,SWOT分析,PESTLE分析等。
定义范围时,组织应考虑:
根据灾难定义实践的范围也很重要。
策略的设置包括:
测试是整个服务连续性管理实践的关键部分:这是确保所选策略,措施和计划有效的唯一方法。
应该制定教育,认知培训和演练计划,以确保实践的所有部分(站点,团队成员,服务或CI)每年至少进行一次测试。
演练方案应确保测试整个的服务管理四维模型:
表3.2服务连续性管理的活动
该流程包括表3.3中列出的活动,并将输入转换为输出。
表3.3业务影响分析流程的输入、活动和输出
图3.3业务影响分析流程的工作流程
图3.3显示了流程的工作流程图
这些活动可以由组织中的许多人以不同程度的正式方式来执行。表3.4进一步概述了这些活动。
VBF涉及到服务中对于服务提供者和/或客户的成功至关重要的一部分。识别和文件化这些VBF,以提供适当的焦点和资源分配非常重要。
如果服务提供者具有已建立的风险管理实践,则有关风险评估的信息可能有助于理解最关键的区域。
当确定了VBF时,应确定中断的影响。该影响可能是可以准确识别的“硬”影响,例如财务损失,也可以是“软”影响,例如声誉受损或失去竞争优势。
可以考虑FAIR提出的以下形式的损失:
VBF
相互依赖关系识别
VBF和服务组件以及关键的内部和外部资源之间的相互依赖关系应予以识别和文件化。
为此,如果已安装配置管理数据库,则服务提供者可以使用服务和配置模型。组件故障影响分析(CFIA)也可能是有用的技术。CFIA可用于识别失效的单个点,现有的冗余等。
基于对中断后果和识别的相互依赖关系的分析,服务提供者应为服务连续性管理范围中的每个服务或VBF确定服务连续性要求,包括:
表3.4业务影响分析流程的活动
该流程包括表3.5中列出的活动,并将输入转换为输出。
表3.5制定和维护服务连续性计划流程的输入,活动和输出
图3.4显示了该流程的工作流程图。
图3.4制定和维护服务连续性计划流程的工作流程
这些活动可以由组织中的许多人以不同程度的正式方式来执行。
表3.6进一步概述了这些活动。
基于BIA报告,服务提供者应该确定一套适当的且具有成本效益的服务连续性策略集。
基于服务连续性政策和策略,服务提供者应该制定和维护服务连续性计划。
如果服务或恢复团队成员发生变化,则必须更新计划。计划也可以在演练或实际恢复之后更新。
表3.6制定和维护服务连续性计划流程的活动
该流程包括表3.7中列出的活动,并将输入转换为输出。
表3.7测试服务连续性计划流程的输入、活动和输出
图3.5显示了该流程的工作流程图。
图3.5测试服务连续性计划流程的工作流程
这些活动可能由组织中的许多人以不同程度的正式方式来执行。表3.8进一步概述了这些活动。
演练和测试不仅是确保准备就绪的方法;它们也是改进机会。这通常是一个好主意,用来分析测试结果以及整个恢复团队绩效,然后生成包括结果和建议的演练报告。
练习报告可能包括对新的或更新的现存的要求,或对服务连续性计划变更的请求。
审核可以在内部进行,也可以由第三方进行。审计的输出可能会确定一个实施新的或更新的控件的需求,也可以是调整服务连续性策略或计划的需求。
表3.8测试服务连续性计划流程的活动
该流程包括表3.9中所述的活动,并将输入转换为输出。
表3.9响应和恢复流程的输入、活动和输出
图3.6显示了该流程的工作流程图。
图3.6响应的工作流程和恢复流程
表3.10进一步概述了这些活动。
如果风险较低,则危机管理团队可以决定不调用服务连续性计划。
如果启动,危机管理团队还应该:
启动是服务连续性计划的最终测试。如果准备工作已经完成并且计划已经制定和经过测试,那么启动应该很简单。如果计划未经测试,则可能会失败。
任何时候都可能发生中断,因此对于办公室内外的关键人员而言,容易获得启动流程的指南是非常必要的。
恢复流程通常包括以下阶段:
表3.10活动的响应和恢复流程
ITIL实践指南没有描述实践管理的角色,例如实践所有者,实践负责人或实践教练。相反,他们专注于每个实践特有的专门角色。每个角色的结构和命名都可能因组织而异,因此ITIL中定义的任何角色都不应被视为强制性的,只是推荐性的。
请记住,角色不是职位。一个人可以担任多个角色,一个角色可以分配给多个人。
角色是在流程和活动的背景中描述的。每个角色都具有基于表4.1中所示模型的一个能力简介的特征。
表4.1能力代码和简介
表4.2负责服务连续性管理活动的角色示例
灾难是影响重大的事件,因此响应必须非常快。协调响应和恢复活动需要灵活性。因此,常规业务的组织结构与灾难无关。
在恢复过程中,组织结构通常基于连续性计划的级别。表4.3概述了用于响应和恢复的组织结构级别。
表4.3用于响应和恢复的组织结构
服务连续性管理实践的效果基于所使用信息的质量。该信息可以包括:
实践的关键输入和输出在第3节中列出。
尤其是在大型组织中,服务连续性实践应该是自动化的。在可行且有效的地方,可能涉及表5.1中概述的解决方案。
表5.1服务连续性管理活动的自动化解决方案
很少有服务仅使用组织自己的资源来交付的。大多数(如果不是全部)依赖于其他服务,这些服务通常由组织之外的第三方提供(请参阅ITILFoundation的2.4节:ITIL4Edition服务关系模型)。在服务设计,架构管理和供应商管理的实践指南中描述了由支持服务引入的关系和依赖。
合作伙伴和供应商可以提供关键产品和服务组件。服务提供者需要与合作伙伴和供应商协商,并就服务的连续性要求达成一致,以便满足服务的连续性要求。
合作伙伴和供应商也可以提供连续性服务和解决方案,例如备份站点,按需计算,灾难恢复的服务等。在这些情况下,它们也应参与服务连续性计划的开发,测试和执行。
该实践指南的大部分内容都应作为组织在建立和培养自己的实践时可能考虑的领域的建议。实践指南是组织可能考虑的主题目录,而不是答案列表。使用实践指南的内容时,组织应始终遵循ITIL指导原则:
有关指导原则及其应用的更多信息,请参见ITILFoundation:ITIL4Edition的第4.3节。
AXELOS有限公司非常感谢为本指南的开发做出贡献的每一个人。这些实践指南融合了ITIL社区前所未有的热情和反馈。AXELOS特别要感谢以下人员。