【外评】谷歌云计算 VMware 引擎 (GCVE) 私有云宕机事故

发生了什么?

简要说明

在使用内部工具为客户初步部署 Google Cloud VMware Engine (GCVE) 私有云期间,由于将一个参数留空,Google 操作员无意中错误配置了 GCVE 服务。这造成了意想不到的未知后果,即客户的 GCVE 私有云被默认为固定期限,并在期限结束时自动删除。事件触发和下游系统行为均已纠正,以确保这种情况不会再次发生。

除该客户的一个 GCVE 私有云外,该事件未影响任何谷歌云服务。其他客户未受到此事件的影响。

深入探讨:

使用异常流程进行部署

2023 年初,谷歌运营商使用内部工具部署了客户的一个 GCVE 私有云,以满足特定的容量部署需求。这一用于容量管理的内部工具已于 2023 年第四季度废弃并完全自动化,因此不再需要(即无需人工干预)。

空白输入参数导致意外行为

谷歌操作员遵循了内部控制协议。但是,在使用内部工具配置客户的私有云时,有一个输入参数被留空。由于参数空白,系统为该参数分配了一个未知的默认固定 1 年期限值。

在系统分配的 1 年期限结束后,客户的 GCVE 私有云被删除。没有发送客户通知,因为删除是由于谷歌操作员使用内部工具将参数留空而触发的,而不是由于客户的删除请求。任何客户发起的删除都会事先通知客户。

恢复

客户和谷歌团队经过数天全天候的努力,恢复了客户的 GCVE 私有云,恢复了网络和安全配置,恢复了应用程序,并恢复了数据以恢复全面运行。

这得益于客户在管理中断或故障风险方面所采用的强大而灵活的架构方法。

存储在同一地区谷歌云存储中的数据备份没有受到删除的影响,并且与第三方备份软件一起在帮助快速恢复方面发挥了重要作用。

补救措施

此后,谷歌云已采取多项措施,确保这一事件不再发生,包括

  • 我们废弃了引发这一系列事件的内部工具。现在,即使在需要特定容量管理的情况下,客户也可以通过用户界面完全自动化地控制这方面的工作。
  • 我们清除了系统数据库,并人工审查了所有 GCVE 私有云,以确保没有其他 GCVE 部署存在风险。
  • 我们纠正了将 GCVE 私有云设置为删除此类部署工作流的系统行为。

影响范围

以下列出的受影响技术和服务仅是对谷歌托管服务的描述。

此事件影响

  • 一个云区域的一名客户。
  • 该客户使用一项 Google 云服务 – Google Cloud VMware Engine (GCVE)。
  • 客户的多个 GCVE 私有云之一(跨越两个区域)。

此事件不影响

  • 任何其他 Google 云服务。
  • 使用 GCVE 或任何其他 Google 云服务的任何其他客户。
  • 客户的其他 GCVE 私有云、Google 帐户、组织、文件夹或项目。
  • 客户存储在同一地区的谷歌云存储 (GCS) 中的数据备份。

结论

  • 在此之前,Google 云从未发生过此类事件。这不是一个系统性问题。
  • 谷歌云服务已采取强有力的保障措施,包括软删除、提前通知和适当的人工环路。
  • 我们已确认这些保障措施继续有效。
  • 与客户密切合作对快速恢复至关重要。客户的首席信息官和技术团队与谷歌云团队密切合作,快速、准确地执行了 24×7 全天候恢复,值得称赞。
  • 在发生意外事件时,要想快速恢复,就必须采用具有故障保险的弹性和稳健的风险管理。
  • 谷歌云一直拥有全球最具弹性和稳定性的云基础设施。尽管发生了这起一次性事件,但经独立验证,我们的正常运行时间和恢复能力在领先的云中是最好的。

本文文字及图片出自 Sharing details on a recent incident impacting one of our customers

你也许感兴趣的:

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注