如今,许多企业正在讨论他们的公共云计划,这些讨论经常关注如何避免潜在的云服务中断。原因是公共云服务确实中断了。虽然这些中断比以前少得多,但企业最关心的是如何降低中断的风险。
幸运的是,每个主要的公共云供应商都提供了建立高度可用的环境的选择,可以在某种类型的中断中恢复和幸免。AWS该公司提出了使用多个地理区域的四个选项。这些选项(其他公共云供应商也可以使用)有不同的价格,并提供不同的恢复点目标(RPO)不同的恢复时间目标(RTO)。
企业可选择***其恢复点目标(RPO)不同的恢复时间目标(RTO)要求和预算选项。关键是公共云提供商可以帮助客户在其全球基础设施上构建高可用性解决方案。
以下简要介绍了这些选项,并回顾了使用公共云构建高可用环境的基本原则。AWS以公共云为例,但这些原则适用于所有公共云供应商。
首先,企业需要了解每个应用程序恢复点的目标(RPO)恢复时间目标(RTO),为每个用例提供正确的解决方案。其次,对于使用多个地理区域,没有一个***解决方案(RPO)、恢复时间目标(RTO)、可以采取不同的 *** 来衡量可以承担的成本和权衡。
以AWS例如,有些 *** 包括:
人们将环境备份从备份恢复到其他区域S3,包括EBS快照、RDS快照、AMI备份常规文件。S3默认情况下,数据只复制到单个区域的可用区域,因此企业需要在灾难恢复区域的跨区域复制。企业将承担在第二区域传输和存储数据的成本,但不会产生计算EBS或者数据库成本,直到企业需要在灾难恢复区生效。权衡是启动应用程序所需的时间。
在另一个区域进行热备份,并将数据复制到第二个区域。在这里,企业将经营一个缩小版本的生产环境。该环境始终处于活动状态,其尺寸适合恢复业务所需的最小容量。企业根据需要使用Route 53切换到灾区。根据需要将环境扩展到所有容量。有了这些选项,企业可以更快地恢复数据,但成本会更高。
多区域“Active/Active”解决方案,中,数据在两个区域之间同步,两个区域都用于为请求提供服务。这是最复杂和最昂贵的解决方案。然而,即使整个区域出现故障,停机时间也很少或根本没有。虽然上述 *** 实际上是灾难恢复解决方案,但该方案是关于构建真正高度可用的解决方案。
成功的多区域设置和灾难恢复过程的关键之一是尽可能多地使用自动化工具。这包括备份、复制和启动企业应用程序。Ansible和Terraform等待自动化工具捕获环境状态并自动启动资源。此外,重复测试以确保企业能够成功地从可用区域或区域故障中恢复。这不仅需要测试工具,还需要测试过程。
版权声明
本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。