Google云服务故障原因公开,只因为同时做了两项升级
昨天 Google 在其云服务官方日志中公开了故障原因,原来只因为工程师们在例行维护时同时做了两件事。
本月 11 日 13 时 13 分到 15 时,Google 位于美国数据中心的 App Engine 服务出现大面积故障。其中 3% 的应用出错概率超过 50%,18% 的应用访问出错概率在 10% 到 50% 之间,14% 的应用出错概率在 1% 到 10% 之间,有 2% 的应用出错率在 1% 以下但依然高于正常水平。剩余 63% 的应用访问正常。
昨天 Google 在其云服务官方日志中公开了故障原因,原来只因为工程师们在例行维护时同时做了两件事。
出于负载均衡的考虑,Googe 的工程师配置了新的数据中心,把老数据中心一定比例的 App 迁移到了新的数据中心,然后把流量从之前的服务器导向新的数据中心。
至此相安无事,但不凑巧的是,数据中心的多台路由器正在软件升级,需要滚动式重启,网络流量处理能力不如平常。
同时,新迁移的许多应用由于启动缓慢,导致旧服务器大量重复向新服务器发送启动应用的请求,进一步加重路由器负载,最终造成偶然丢失外部用户的访问。
对此意外,Google 方面表示将会加大对硬件的投入,修正导入流量的方式,并修改针对新服务器的重试请求。
本文由 TecHug 分享,英文原文及文中图片来自 tech2ipo.com。
你也许感兴趣的:
- Android对美国外部内容链接引入2-4美元安装费及10-20%分成政策
- 谷歌将允许用户在无需验证的情况下侧载(sideload)安卓应用
- 全球安卓命运将改写:Epic与谷歌达成和解,谷歌不再封杀应用商店
- 谷歌将于2026年合并安卓与ChromeOS,因人工智能
- 谷歌确认安卓开发者验证将设免费与付费层级,不再公开开发者名单
- 法官裁定谷歌不必出售Chrome浏览器,但将被禁止签订独家合同
- 关于谷歌对安卓开发者身份验证的敏感问题
- 谷歌高管称过去一年已裁撤35%的小团队管理者
- 谷歌将要求开发者验证才能安装安卓应用,包括侧载安装
- Google 的设计文档

你对本文的反应是: