标签: 宕机
Cloudflare 2025年11月18日全球网络出现故障事后分析
问题并非由任何形式的网络攻击或恶意活动直接或间接引发。实际诱因是某数据库系统权限变更导致其向机器人管理系统的“特征文件”写入大量冗余条目,致使该文件容量翻倍。超出预期的特征文件随后传播至网络中所有节点设备。
2025年10月19日亚马逊 us-east-1 宕机事故反思
本周一,AWS us-east-1区域遭遇十余年来最严重的停机事故。此次故障持续超过14小时,影响140项AWS服务,其中关键的EC2服务也未能幸免。服务等级协议(SLA)全面失效,预计将造成八位数收入损失。
Cloudflare 2025年8月21日 事故解析
2025年8月21日,涌向亚马逊网络服务(AWS)us-east-1区域托管客户的流量激增,导致Cloudflare与AWS us-east-1区域间的链路严重拥塞。此事件影响了众多通过AWS us-east-1区域服务器连接至Cloudflare或接收Cloudflare连接的用户,表现为高延迟、数据包丢失及源站连接失败。
2025年7月14日 Cloudflare 1.1.1.1 宕机事件解析
根本原因是内部配置错误,而非攻击或BGP劫持所致
【外评】谷歌云计算 VMware 引擎 (GCVE) 私有云宕机事故
谷歌操作员遵循了内部控制协议。但是,在使用内部工具配置客户的私有云时,有一个输入参数被留空。由于参数空白,系统为该参数分配了一个未知的默认固定 1 年期限值。
又翻车!微软一次更新引爆大规模连锁反应,Bing、Copilot等多个软件集体宕机五小时!
微软突然的大规模中断影响了 Bing.com、网页和移动版 Copilot、Windows 版 Copilot、ChatGPT 互联网搜索和 DuckDuckGo 等。
腾讯云4月8日故障复盘及情况说明
4 月 8 日 15 点 23 分,腾讯云团队发现云 API 服务异常,并收到大量客户反馈无法登录控制台。
从谷歌 20 年的站点可靠性工程(SRE)中学到的 11 个经验教训
由于 YouTube 的分布式内存缓存系统的一个 bug,YouTube 经历了长达 15 分钟的全球宕机故障,中断了 YouTube 的视频提供能力。
B站宕机事故复盘:2021.07.13 我们是这样崩的
2021 年 7 月 13 日 22:52,SRE 收到大量服务和域名的接入层不可用报警,客服侧开始收到大量用户反馈 B 站无法使用,同时内部同学也反馈 B 站无法打开,甚至 APP 首页也无法打开。
鹿晗关晓彤公布恋情却火了一位程序员
与此同时,一位名为丁振凯的程序员在微博上火了,因为他是微博搜索的工程师,昨天正好大婚。
从AWS宕机事件说开去,热闹看完该学会什么?
上周二,因为一条错误指令导致的AWS 宕机事件,影响了大量流行的网站和服务。此事件对用户来说,是服务的中断;对AWS来说,是巨额的损失;对旁观者来说,是宝贵的经验。
OSChina 早上 8 点钟容易宕机的原因
最近一段时间,OSChina 网站在早上 8 点出头的时候很容易因为数据库连接池爆满而导致网站宕机。
Google云服务故障原因公开,只因为同时做了两项升级
昨天 Google 在其云服务官方日志中公开了故障原因,原来只因为工程师们在例行维护时同时做了两件事。
Google是如何做到从不宕机的?
连接中断而用不上Google的情况;但是Google的基础性在线服务——从搜索引擎到Gmail再到Google Docs等等——几乎永远垂手可及。根据Google官方的数据,2015年该公司旗下的Google App套件在99.97%的时间里都处于可用状态。也许我们认为这是理所当然的,但它的确是一个了不起的事实;而全世界数十亿的Google用户似乎从来没有停下来想想:Google是如何把一件如此激动人心的事情处理得如此波澜不惊的。
