美国互联网服务提供商的重大技术故障造成全球流量下降
美国互联网服务提供商CenturyLink周日遭遇重大技术故障,原因是其一个数据中心配置不当,给互联网造成了严重破坏。
由于中断的技术性质,包括防火墙和BGP路由,该错误从CenturyLink网络传播出去,并影响到其他互联网服务提供商,最终导致更多其他公司的连接问题。
由于CenturyLink的中断,今天提供服务的技术巨头包括著名的公司,如亚马逊、Twitter、微软(XboxLive)、EA、暴雪、蒸汽、不和、Reddit、Hulu、DuoSecurity、Imperva、Namec堆、OpenDNS等等。
今天也受到严重影响的Cloudflare说,CenturyLink的向外传播导致全球互联网流量下降3.5%,这将是历史上最大的互联网中断之一。
根本原因:Flowspec规则配置错误
根据CenturyLink状态页面,问题来源于加拿大安大略省密歇根市的CenturyLink数据中心。
这家电信公司表示,这起事故的根本原因在于错误的Flowspec公告。
Flow spec是BGP协议的扩展,允许公司使用BGP路由在其网络中分发防火墙规则。在处理BGP劫持或DDoS攻击等安全事件时,Flow spec公告通常被使用,因为它允许公司在几秒钟内改变整个网络,以响应和减轻攻击。
然而今天,CenturyLink表示,其Missaga数据中心发布了错误的Flowspec公告,这实际上阻止了该公司在BGP路由中扎根。
Cloudflare从远处观察到了这一事件,认为CenturyLink通过发布一组新的BGP路由,然后通过错误配置的Flowspec规则意外地删除了所有路由,从而有效地将整个网络置于一个循环中。
BGP路由是保持Internet开放的粘合剂。BGP路由是互联网络公司之间的一种信息。BGP路由告诉每个互联网提供商哪些IP地址块可以在他们的网络上使用。
然而,他们网络中的一些路由器因CenturyLink的错误的Flowspec命令而瘫痪,一些路由器开始宣布不正确的BGP路由到其他第一层相邻的Internet服务。
这反过来又会使其他网络瘫痪,成为多米诺骨牌般的角色。
停电需要七个小时才能解决。
CenturyLink解决了这个问题,它采取了一些罕见的措施,告诉所有其他第一层互联网提供商取消点对点网络,同时忽略来自其网络的任何流量。企业很少做出这样的决定,因为它们会导致与所有客户的所有连接被中断。
哇,这一定是一段时间以来最大的互联网中断需要其他的"Tier 1"才能点对点。这意味着它必须是坏的,而且不可能恢复。
顾客用3356拜访他们的同行,但这条路线没有被撤销。
-AndreeToonk(@atoonk)2020年8月30日
应l3/ctl的要求,我们禁用了所有点对点会议,直到局势得到控制。我很高兴看到整个行业的合作,这对AS 3356无疑是一个困难的时期。
-JohanGustawsson(@Gustawsson)2020年8月30日
该公司说,总的来说,CenturyLink必须重置所有设备,并从一个干净的BGP路由表开始,从12:13世界协调时到18:58世界协调时,这需要花费近7个小时。
这是一个重大的全球互联网中断,"Cloudflare的联合创始人兼首席执行官马修斯普林斯(MatthewPrince)在对中断的分析中说。