V2EX 17小时前
AWS US-EAST-1 大范围宕机事件分析
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

2023年10月20日,AWS US-EAST-1区域发生了一场大规模宕机事件,影响了全球众多知名互联网服务。事件初期,AWS监控系统发现区域内服务错误率和延迟增加,故障迅速集中于核心数据库服务DynamoDB,表现为DNS解析失败。然而,DNS问题仅是表面症状。经过深入排查,AWS最终确认根本原因为负责监控网络负载均衡器健康的内部子系统故障,该故障导致负载均衡器行为异常,进而“污染”了DynamoDB的DNS记录,引发了灾难性的连锁反应。事件恢复过程漫长,AWS采取了节流措施以防二次冲击,直至当日傍晚服务才全面恢复。

💡 **事件爆发与初步症状:** AWS US-EAST-1区域于美东时间10月20日凌晨发生大规模服务错误率增加和延迟,故障核心迅速锁定在DynamoDB数据库服务,初期表现为DNS解析失败。这是用户和AWS最初感知到的问题。

🔍 **DNS解析失败的表面原因:** 初步诊断显示,DynamoDB API错误率飙升的根本原因是US-EAST-1区域DynamoDB API端点的DNS解析出现问题,这导致其他服务无法正确寻址DynamoDB,如同内部“电话簿”失灵。

💥 **连锁反应与全球影响:** 由于US-EAST-1是许多全球服务的核心区域,且DynamoDB是AWS内部多项关键服务(如IAM、EC2、SQS)的依赖项,DNS解析失败引发了灾难性的连锁反应,导致Snapchat、Reddit、Robinhood、Amazon.com等众多客户应用和服务全球范围瘫痪。

🛠️ **根本原因的揭示:** 在DNS问题缓解后,服务恢复不稳定促使AWS深入追查,最终发现真正根源是一个负责监控网络负载均衡器(NLB)健康的内部子系统故障。该子系统的异常导致NLB行为异常,进而影响了DynamoDB的DNS记录。

⏳ **恢复过程中的挑战与策略:** 事件恢复并非一蹴而就。AWS首先缓解了DNS问题,随后着手处理根本原因。为了防止系统在恢复过程中被瞬时流量压垮,AWS采取了“节流”措施,限制了新EC2实例的启动,这延长了服务的恢复时间,直至当日傍晚才全面恢复。

阶段一:事件爆发与初步症状 (美东时间 10 月 20 日 凌晨 3:11 左右)

地点: 事件起源于 AWS 规模最大、最古老的 US-EAST-1 区域(北弗吉尼亚州)。

最初现象:AWS 监控系统开始检测到该区域的“多种 AWS 服务出现错误率增加和延迟”。

关键症状: 故障迅速集中在核心数据库服务 DynamoDB 上。AWS 状态页在 04:26 AM (ET) 确认:“在 US-EAST-1 区域,对 DynamoDB 端点的请求出现严重错误率。”

阶段二:初步诊断 - DNS 解析失败 (ET 凌晨 5:00 左右)

在宕机初期,最明显的“症状”是 DNS 解析失败。

诊断内容:AWS 在 05:01 AM (ET) 左右发布了初步诊断:“我们已经确定了 DynamoDB API 错误率的潜在根本原因。根据我们的调查,该问题似乎与 US-EAST-1 中 DynamoDB API 端点的 DNS 解析有关。”

通俗解释: 这就像是 AWS 内部的“电话簿”坏了。当其他服务(如 Lambda 、EC2 )尝试调用 DynamoDB 时,它们无法通过 DNS 查到 DynamoDB 的“地址”( IP ),导致请求失败。

阶段三:连锁反应与全球大规模宕机

由于 US-EAST-1 是许多全球服务的默认和核心区域,且 DynamoDB 又是 AWS 内部许多其他服务(包括身份验证 IAM 、计算 EC2 、队列 SQS 等)所依赖的基础设施,因此 DynamoDB 的 DNS 解析失败迅速引发了灾难性的连锁反应。

AWS 内部: 大量核心服务(如 EC2 、Lambda 、IAM 、SQS 、Amazon Connect 等至少 37 项服务)因无法访问 DynamoDB 或依赖其他故障组件而相继瘫痪。

全球影响: 依赖这些 AWS 服务的全球客户应用几乎同时下线。

社交/游戏:Snapchat, Reddit, Roblox, Fortnite, Signal, Pokémon Go 等瘫痪。

金融:Coinbase, Robinhood, Venmo 以及多家英国银行(如 Lloyds )服务中断。

工具/生活:Duolingo, Canva, Ring 门铃, Alexa 智能音箱, 甚至亚马逊自己的 Amazon.com 购物网站和 Prime Video 都受到了冲击。

阶段四:修正诊断 - 锁定真正根本原因 (ET 上午 11:43 左右)

在 DNS 问题被缓解后,工程师发现服务恢复并不稳定,表明 DNS 只是“症状”,而非“病根”。

经过数小时的深入调查,AWS 在 11:43 AM (ET) 左右更新了状态页,公布了真正的根本原因:

“The root cause is an underlying internal subsystem responsible for monitoring the health of our network load balancers.” (根本原因是一个负责监控其网络负载均衡器( Network Load Balancers )健康的底层内部子系统。)

过程还原:

这个核心的“监控子系统”首先发生故障。

它的故障导致了网络负载均衡器( NLB )的行为异常。

这反过来又“污染”或破坏了 DynamoDB 服务的 DNS 解析记录,导致了第二阶段观察到的 DNS 失败。

最终导致了第三阶段的全球服务崩溃。

阶段五:缓解与恢复过程 (贯穿全天)

紧急缓解 (凌晨):AWS 工程师首先针对最明显的症状——DNS 问题——进行了缓解(约在 06:35 AM ET 宣布 DNS 问题已缓解)。

处理根本原因 (上午): 在定位到负载均衡器监控系统后,团队开始对其应用缓解措施。

受控恢复 (全天): 为防止系统在恢复过程中被瞬时涌入的请求再次压垮,AWS 采取了“节流”( Throttling )措施,即限制了新 EC2 实例的启动速率。这就是为什么在 DNS 问题修复后,很多服务仍然长时间无法恢复或启动新服务器的原因。

全面恢复 (下午到傍晚):AWS 逐步放开限制,清理积压的后台任务。直到 06:01 PM (ET)(即太平洋时间 3:01 PM ),AWS 才宣布所有服务“恢复正常运行”。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AWS US-EAST-1 宕机 DNS DynamoDB Outage Cloud Computing 网络负载均衡器 连锁反应 服务中断
相关文章