快科技资讯 15小时前
亚马逊AWS宕机事件:影响广泛,暴露互联网服务脆弱性
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

亚马逊AWS的us-east-1区域发生大规模宕机事件,导致ChatGPT、Zoom、Slack、Netflix、PlayStation等众多互联网服务中断,波及开发者工具、流媒体、游戏、社交平台乃至航空和餐饮业。此次故障源于EC2内部网络监控子系统的异常,引发DNS解析问题和网络连接不稳定,进而导致核心云服务大范围瘫痪。us-east-1区域作为AWS最早且服务最集中的区域,其故障对全球服务产生连锁反应。事件暴露了互联网服务高度集中化带来的脆弱性,强调了开发者构建弹性机制、采用多区域部署策略的重要性,以应对潜在的灾难性后果。

❗ **广泛的服务中断触及日常生活与工作**:亚马逊AWS的us-east-1区域宕机事件,波及范围极广,不仅中断了ChatGPT、Zoom、Slack等工作和沟通工具,还影响了Netflix、Disney+、PlayStation等娱乐平台,甚至导致麦当劳、星巴克等餐饮服务和美联航、达美航空的航班值机服务受阻。智能门锁和亚马逊自家智能家居产品也因网络中断而失效,显示出互联网服务已深度渗透至日常生活的方方面面,一旦中断将带来巨大不便。

⚙️ **DNS解析问题引发连锁故障**:本次AWS宕机的主要技术原因是EC2内部网络一个用于监控网络负载均衡器健康状态的子系统出现异常,进而引发了DNS解析问题。这种底层基础设施的故障,通过连锁反应,导致了网络连接不稳定、数据库访问延迟以及API请求失败,最终造成多项核心云服务的大范围瘫痪,凸显了互联网服务对稳定运行的依赖性。

🌐 **区域集中化服务模式的潜在风险**:us-east-1区域是AWS最早建立且服务种类最集中的区域,大量企业在此部署核心服务,并且许多全球控制面服务也托管于此。这意味着该区域的故障能够影响全球范围内的服务部署、身份验证和权限管理等操作。此次事件以及过去类似宕机事件的发生,暴露了这种高度集中化服务模式所带来的潜在风险,即单个节点的故障可能引发灾难性的后果。

💡 **构建弹性机制是应对之道**:事件促使人们反思互联网服务的脆弱性。像Hacker News上的用户通过采用CloudFront连接多个区域的静态站点,在本次事件中未受影响。这表明,开发者可以通过构建弹性机制,例如采用原生多区域、故障转移的部署方式,来降低对单一区域的依赖,从而提高服务的鲁棒性,避免灾难性后果的发生,且技术上和成本上并非不可行。

亚马逊一声咳嗽,半个互联网都地震了。

由于亚马逊AWS服务器宕机,大量互联网服务被迫中断,ChatGPT也被殃及。

故障发生在美国东部us-east-1区域,是AWS全球服务最核心的一块。

根据故障追踪平台Downdetector的数据,当天累计收到超过650万份用户故障报告。


△非完全列举

AWS这波事故,也让Reddit在内的社交平台服务崩溃,人们差点连吐槽都没法吐。

而且连AWS自己的客户支持提单系统都挂了,想报个错同样找不到门路。

不过好在马斯克的X没用AWS,也就没受影响,才给了网友们机会讨论AWS的这波故障。

有网友用表情包调侃,马斯克才是这波事件的最大赢家。

但玩笑归玩笑,被这件事波及的人,可能一点也笑不出来……

亚马逊服务故障波及各行各业

亚马逊的这次宕机波及面究竟有多广?先来看开发者群体的情况。

Docker是一个重要的应用容器引擎,有开发者发现Docker全线瘫痪了,多个核心服务集体中断。

除了Docker,另一个重要开发工具npm也出现了同样的问题,还有备受青睐的AI编程工具Cursor、Vercel一样未能幸免。

除了开发者,其他打工人也受到影响——视频会议软件Zoom、OpenAI同款办公平台Slack,全都崩了。

抓马的是,据说今年亚马逊内部开会开始改用Zoom,这样一来,没有Zoom的话AWS就开不了线上会议,但AWS不修复Zoom就用不了……

既然工作干不了,那干脆直接摸鱼呢?

也不行,因为游戏平台Epic、索尼PlayStation,还有Reddit等社交平台以及Netflix、Disney+、Max等流媒体视频网站也宕机了。

那我学总行了吧?对不起,多邻国也崩了,还有学生群体也登录不了作业平台Canvas。

AI工具方面,最著名的ChatGPT也被认为受到波及,还有著名AI搜索工具Perplexity也榜上有名。

而且影响也从线上蔓延到了线下,打车软件崩了,麦当劳星巴克崩了,日常生活中的叫车、点餐都无法进行。

还有航空公司,美联航和达美航空都受到了影响,无法给乘客办理值机和行李托运。

比上不了飞机更惨的是在飞机上下不去,小红书上就有网友现身说法,表示自己乘坐的达美航空班机落地后无法停靠,一飞机的人只能在跑道等待,机长广播通知原因正是亚马逊宕机。

更惨的是智能门锁用户,受网络影响无法解锁,但门锁的报警功能却是好的,引来了警察上门。

当然像Alexa等亚马逊自家其他的智能家居,更是因为没有网络服务全面罢工。

事情甚至影响到了大西洋另一边的英国。

比如英超官方宣布,由于受到AWS故障的影响,西汉姆联对阵布伦特福德的比赛当中半自动越位系统故障,将比赛中若有需要,将采用以往的人工画线方式来辅助判定。

当然,除此之外“受害者”名单还有很长……

互联网为何如此脆弱

这次发生问题的是AWS的us-east-1服务器,直接原因是DNS(Domain Name System)解析问题。

AWS的说法则是,问题起源于EC2内部网络的一个子系统,该子系统用于监控和管理网络负载均衡器的健康状态。

该监控系统的异常导致了网络连接不稳定、数据库访问延迟以及部分API请求失败。在连锁反应下,多项核心云服务出现大范围故障。

us-east-1是AWS最早建立的区域,基础设施历史最长,服务种类最多,大量企业都在us-east-1部署核心服务。

us-east-1不仅是计算/存储资源的大本营,也是许多全球控制面服务的集中托管区域,这意味着其他区域即便本地运行正常,部署、身份验证、权限变更等控制层操作仍需依赖us-east-1。

这也就导致了us-east-1相比亚马逊其他服务器与众不同,其故障能够影响全球。

而且这也不是us-east-1第一次崩了,过去几年(2020、2021、2023年)也发生过类似的“大范围瘫痪”事件,每次都会影响一大批线上服务。

故障本身在所难免,但故障的波及面,揭示了互联网存在的问题——

像亚马逊这样的大型云服务的确提升了全球网络安全和稳定性,但成也萧何,这种标准、集中化的服务,意味着任何一个小故障,都有可能造成灾难性的后果。

为了避免这种情况,网站开发者需要设置一种弹性机制。

Hacker News上就有网友表示,其静态站点通过CloudFront连接多个区域,没有全部押注us-east-1,因此在这次事件中没有受到影响。

而且这种原生多区域、故障转移的部署方式,技术上并不复杂,成本也不会显著增加。

网络服务开发者们,是时候重新审视一下自己的部署策略了。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AWS宕机 亚马逊云 互联网服务 技术故障 弹性设计 AWS Outage Amazon Cloud Internet Services Technical Failure Resilience Design
相关文章