Awaria Cloudflare to kolejny sygnał, że dzisiejszy internet jest znacznie mniej zdecentralizowany, niż nam się wydaje. Kilka gigantów infrastrukturalnych obsługuje nieproporcjonalnie dużą część ruchu. Samo przedsiębiorstwo Cloudflare obsługuje około jednej piątej globalnych zapytań, więc pojedyncze punkty awarii szybko i szeroko się rozprzestrzeniają. Widzieliśmy już ten schemat: pojedynczy incydent dot. AWS w Stanach Zjednoczonych ujawnił, jak wiele firm znajduje się w tej samej lokalizacji fizycznej bez prawdziwej odporności wieloregionalnej, a zeszłoroczny problem CrowdStrike pokazał koncentrację zależności rynku EDR. Dobra wiadomość: wydaje się, że zidentyfikowano przyczynę problemu i usługi są przywracane. Wniosek jest jasny: odporność wymaga przemyślanego projektu i architektury wieloregionalnej, ale także, tam gdzie to możliwe, architektury wielodostawczej, solidnego przełączania awaryjnego i łagodnego spadku wydajności oraz zdyscyplinowanej reakcji na incydenty. Nawet najlepszym zdarzają się pomyłki. Sztuka polega na tym, by w takiej sytuacji system, mimo zachwiania, się nie przewrócił.
Poniżej komentarz. Autorzy to Andrzej Olender, Platform Engineer i Kamil Nowak, IT Security Engineer w internetowym biurze podróży eSky.pl.

