/Cloudflare
只有短短5分鐘的錯誤配置便造成了巨大的過載,導致底層系統過載而無法正常運作,需要全面的重置與重新啟動。這起意外從配置系統出錯、Fail Open的設計、Buftee的保護機制未被啟動,一直到復原,總計持續了3.5個小時,造成Cloudflare原本應該發送給客戶的日誌中,有55%並未發送而且完全遺失。
Cloudflare表示,大規模系統中的故障是無可避免的,但子系統必須具備自我保護機制,以防止來自其它部分的故障引發連鎖反應,在此次的事故中,系統某部分的配置錯誤導致了另一部分的過載,而另一部分的系統亦存在著配置問題,如果正確的配置,即可避免日誌遺失。



2024-11-28
