标签：宕机

Cloudflare 2025年11月18日全球网络出现故障事后分析

💬 363 条评论 | Cloudflare/宕机| 2025-11-19

Cloudflare 2025年11月18日全球网络出现故障事后分析

问题并非由任何形式的网络攻击或恶意活动直接或间接引发。实际诱因是某数据库系统权限变更导致其向机器人管理系统的“特征文件”写入大量冗余条目，致使该文件容量翻倍。超出预期的特征文件随后传播至网络中所有节点设备。

2025年10月19日亚马逊 us-east-1 宕机事故反思

💬 175 条评论 | 亚马逊/宕机| 2025-10-30

2025年10月19日亚马逊 us-east-1 宕机事故反思

本周一，AWS us-east-1区域遭遇十余年来最严重的停机事故。此次故障持续超过14小时，影响140项AWS服务，其中关键的EC2服务也未能幸免。服务等级协议(SLA)全面失效，预计将造成八位数收入损失。

Cloudflare 2025年8月21日事故解析

💬 42 条评论 | 宕机/Cloudflare| 2025-08-27

Cloudflare 2025年8月21日事故解析

2025年8月21日，涌向亚马逊网络服务(AWS)us-east-1区域托管客户的流量激增，导致Cloudflare与AWS us-east-1区域间的链路严重拥塞。此事件影响了众多通过AWS us-east-1区域服务器连接至Cloudflare或接收Cloudflare连接的用户，表现为高延迟、数据包丢失及源站连接失败。

2025年7月14日 Cloudflare 1.1.1.1 宕机事件解析

💬 362 条评论 | Cloudflare/宕机| 2025-07-17

2025年7月14日 Cloudflare 1.1.1.1 宕机事件解析

根本原因是内部配置错误，而非攻击或BGP劫持所致

【外评】谷歌云计算 VMware 引擎 (GCVE) 私有云宕机事故

宕机/谷歌| 2024-05-25

【外评】谷歌云计算 VMware 引擎 (GCVE) 私有云宕机事故

谷歌操作员遵循了内部控制协议。但是，在使用内部工具配置客户的私有云时，有一个输入参数被留空。由于参数空白，系统为该参数分配了一个未知的默认固定 1 年期限值。

又翻车！微软一次更新引爆大规模连锁反应，Bing、Copilot等多个软件集体宕机五小时！

宕机/微软| 2024-05-24

又翻车！微软一次更新引爆大规模连锁反应，Bing、Copilot等多个软件集体宕机五小时！

微软突然的大规模中断影响了 Bing.com、网页和移动版 Copilot、Windows 版 Copilot、ChatGPT 互联网搜索和 DuckDuckGo 等。

腾讯云4月8日故障复盘及情况说明

宕机/腾讯云| 2024-04-15

腾讯云4月8日故障复盘及情况说明

4 月 8 日 15 点 23 分，腾讯云团队发现云 API 服务异常，并收到大量客户反馈无法登录控制台。

从谷歌 20 年的站点可靠性工程（SRE）中学到的 11 个经验教训

谷歌/宕机| 2023-11-14

从谷歌 20 年的站点可靠性工程（SRE）中学到的 11 个经验教训

由于 YouTube 的分布式内存缓存系统的一个 bug，YouTube 经历了长达 15 分钟的全球宕机故障，中断了 YouTube 的视频提供能力。

B站宕机事故复盘：2021.07.13 我们是这样崩的

宕机| 2022-07-17

B站宕机事故复盘：2021.07.13 我们是这样崩的

2021 年 7 月 13 日 22:52，SRE 收到大量服务和域名的接入层不可用报警，客服侧开始收到大量用户反馈 B 站无法使用，同时内部同学也反馈 B 站无法打开，甚至 APP 首页也无法打开。

鹿晗关晓彤公布恋情却火了一位程序员

微博/宕机| 2017-10-09

鹿晗关晓彤公布恋情却火了一位程序员

与此同时，一位名为丁振凯的程序员在微博上火了，因为他是微博搜索的工程师，昨天正好大婚。

从AWS宕机事件说开去，热闹看完该学会什么？

宕机/教训| 2017-03-09

从AWS宕机事件说开去，热闹看完该学会什么？

上周二，因为一条错误指令导致的AWS 宕机事件，影响了大量流行的网站和服务。此事件对用户来说，是服务的中断；对AWS来说，是巨额的损失；对旁观者来说，是宝贵的经验。

OSChina 早上 8 点钟容易宕机的原因

宕机| 2016-08-26

OSChina 早上 8 点钟容易宕机的原因

最近一段时间，OSChina 网站在早上 8 点出头的时候很容易因为数据库连接池爆满而导致网站宕机。

Google云服务故障原因公开，只因为同时做了两项升级

谷歌/宕机| 2016-08-25

Google云服务故障原因公开，只因为同时做了两项升级

昨天 Google 在其云服务官方日志中公开了故障原因，原来只因为工程师们在例行维护时同时做了两件事。

Google是如何做到从不宕机的？

谷歌/宕机| 2016-05-31

Google是如何做到从不宕机的？

连接中断而用不上Google的情况；但是Google的基础性在线服务——从搜索引擎到Gmail再到Google Docs等等——几乎永远垂手可及。根据Google官方的数据，2015年该公司旗下的Google App套件在99.97%的时间里都处于可用状态。也许我们认为这是理所当然的，但它的确是一个了不起的事实；而全世界数十亿的Google用户似乎从来没有停下来想想：Google是如何把一件如此激动人心的事情处理得如此波澜不惊的。

标签： 宕机

Cloudflare 2025年11月18日全球网络出现故障事后分析

2025年10月19日亚马逊 us-east-1 宕机事故反思

Cloudflare 2025年8月21日 事故解析

2025年7月14日 Cloudflare 1.1.1.1 宕机事件解析

【外评】谷歌云计算 VMware 引擎 (GCVE) 私有云宕机事故

又翻车！微软一次更新引爆大规模连锁反应，Bing、Copilot等多个软件集体宕机五小时！

腾讯云4月8日故障复盘及情况说明

从谷歌 20 年的站点可靠性工程（SRE）中学到的 11 个经验教训

B站宕机事故复盘：2021.07.13 我们是这样崩的

鹿晗关晓彤公布恋情却火了一位程序员

从AWS宕机事件说开去，热闹看完该学会什么？

OSChina 早上 8 点钟容易宕机的原因

Google云服务故障原因公开，只因为同时做了两项升级

Google是如何做到从不宕机的？

标签：宕机

Cloudflare 2025年8月21日事故解析