Gigantyczna awaria systemów z rodziny Microsoft dotyka milionów ludzi, a także banki, transport lotniczy, szpitale. Przywrócenie działania systemów zajmie tygodnie, jeśli nie dłużej. Czy tym razem wyciągniemy wnioski?
Miliony komputerów na całym świecie doświadczyły w piątek potężnej awarii. Systemy nie ładują się, wyświetlając charakterystyczny „niebieski ekran śmierci” (ang. „blue screen of death”, w skrócie „BSoD”) – ekran krytycznego błędu systemu Windows.
Dotyczy to serwerów (na których uruchomione są usługi tysięcy firm i instytucji), systemów wbudowanych (np. wyświetlających informacje na lotniskach), maszyn wirtualnych w „chmurze”, i zwykłych stacji roboczych.
Systemy dotknięte awarią łączą trzy rzeczy:
Sugestią Microsoftu jest… restartowanie maszyn do skutku (nawet kilkanaście razy).
CrowdStrike rekomenduje usunięcie konkretnych wadliwych plików, co nie jest łatwe w sytuacji, gdy system się nie ładuje. Szef firmy twierdzi, że to nie jest „incydent cyberbezpieczeństwa”.
A organizacje i instytucje dotknięte awarią przechodzą na papierowe procedury – o ile je jeszcze mają.
CrowdStrike to ogromna firma technologiczna zajmująca się cyberbezpieczeństwem, warta dziesiątki miliardów dolarów. W zeszłym roku jej przychód wyniósł ponad trzy miliardy dolarów.
Jednym z jej głównych produktów jest Falcon, oprogramowanie typu EDR (ang. „endpoint detection and response” – „wykrywanie i reagowanie w punkcie końcowym”). To właśnie wadliwa aktualizacja komponentów tego oprogramowania doprowadziła do globalnej awarii.
W dużym uproszczeniu system EDR to bardzo zaawansowany antywirus. Działa na urządzeniach końcowych (serwerach, systemach wbudowanych, stacjach roboczych, maszynach wirtualnych itp.), reagując na znane zagrożenia, podobnie jak zwykły antywirus. Ale zbiera też dane i wykonuje analizę behawioralną (obserwuje zachowanie uruchomionych programów w poszukiwaniu podejrzanych wzorców), wysyłając rezultaty do centralnego systemu. To pozwala na dokładniejszą ich obróbkę, oraz wspomaga analizę ewentualnych problemów z bezpieczeństwem w dużej infrastrukturze komputerowej (setki czy tysiące urządzeń).
Jak każde oprogramowanie antywirusowe, Falcon wymaga regularnych aktualizacji sygnatur pozwalających na wykrywanie złośliwego oprogramowania. Te instalowane są automatycznie, często zaraz po tym, jak zostają udostępnione przez producenta. To się dobrze sprawdza w sytuacji, gdy trzeba szybko zareagować na nowe zagrożenie… ale działa gorzej, jeśli aktualizacja jest wadliwa.
Taką wadliwą aktualizację CrowdStrike opublikowało w piątek o 06:09 rano czasu polskiego.
Wygląda też na to, że w wielu wypadkach urządzenia i maszyny wirtualne, na których została ona zainstalowana, od razu się restartowały. Prawdopodobnie nie był to krok procesu instalacji aktualizacji – wadliwe pliki z danymi od razu powodowały na tyle poważny błąd, że systemy uruchamiały się ponownie.
Było to możliwe, ponieważ oprogramowanie Falcon instaluje sterownik trybu jądra systemu. To oznacza, że niektóre elementy tego oprogramowania działają z najwyższymi możliwymi uprawnieniami w systemie operacyjnym, a w razie błędów mają bezpośredni wpływ na jego stabilność.
Restart utrudniał naprawę awarii.
Maszyny, które dalej jakimś cudem działały, po prostu zainstalowały wypuszczoną niedługo później poprawkę. W przypadku pozostałych albo trzeba restartować do skutku (mając nadzieję, że podczas ładowania systemu uda się pobrać aktualizację naprawiającą problem), albo ręcznie usunąć wadliwe pliki.
W infrastrukturze z setkami czy tysiącami urządzeń i niewielką liczbą osób (zwykle zarządzających nimi zdalnie) to gigantyczne wyzwanie.
Oczywiście wadliwa aktualizacja nie powinna była w ogóle zostać opublikowana. Nie jest jasne (i pewnie jeszcze długo nie będzie, o ile kiedykolwiek się tego dowiemy), co dokładnie było powodem jej wypuszczenia. Różne (mniej lub bardziej publiczne) kanały pełne są spekulacji, które trudno potwierdzić.
CrowdStrike twierdzi, że nie doświadczyło włamania i że awaria nie jest efektem celowego złośliwego działania. Na chwilę obecną wygląda na to, że może to być prawda. Informacje, które udało mi się zebrać, sugerują raczej problem wynikający ze skomplikowanego systemu publikacji aktualizacji i niewystarczająco wyczerpujących procedur ich testowania. Ale znów: na tym etapie to w dużej mierze spekulacja.
Pewne jest jednak, że aktualizacja dotyczyła danych, które Falcon wykorzystuje do identyfikowania złośliwego oprogramowania. Pliki, opublikowane w tej aktualizacji, miały niewłaściwą strukturę. Co z kolei oznacza, że oprogramowanie firmy CrowdStrike, działające z najwyższymi możliwymi uprawnieniami w systemie operacyjnym, próbowało przetwarzać niepoprawne pliki z danymi, zamiast je odrzucić.
Nie jest to pierwsza aktualizacja oprogramowania Falcon z poważnymi problemami. Kilka tygodni temu CrowdStrike opublikował aktualizację, która powodowała poważne problemy z wydajnością urządzeń, na których została zainstalowana.
W celu rozwiązania problemu, osoby administrujące tymi systemami musiały je zrestartować – co w przypadku systemów będących częścią infrastruktury krytycznej albo używanych w szpitalach, na których Falcon jest często instalowany, może być poważnym problemem.
CrowdStrike zdaje sobie oczywiście sprawę z tego, że Falcon instalowany jest z bardzo wysokimi uprawnieniami systemowymi. Zdaje sobie też sprawę, na jak ważnych systemach oprogramowanie to jest wdrażane. A mimo to nie uniknął dwóch wadliwych aktualizacji w ciągu miesiąca oraz poważnego błędu w samym oprogramowaniu Falcon, który spowodował, że wadliwe pliki z danymi przełożyły się na katastrofalną awarię milionów urządzeń.
Reagując na awarię, dyrektor generalny firmy CrowdStrike, George Kurtz, stwierdził, że piątkowa awaria „nie jest incydentem cyberbezpieczeństwa”. Dyrektor Kurtz miał tu zapewne na myśli brak włamania i wycieku danych. Zapomniał chyba jednak o tym, że bezpieczeństwo danych czy systemów informatycznych oznacza również to, że pozostają one dostępne dla osób, którym mają służyć.
Co z tego, że system jest bezpieczny, jeśli nie możemy z niego skorzystać? Co nam po naszych danych, które pozostają poufne, ale są nam niedostępne?
Globalna awaria spowodowana przez CrowdStrike jak najbardziej jest incydentem cyberbezpieczeństwa, i tak powinna być traktowana!
Działy IT klientów CrowdStrike mają przed sobą pracowite dni lub tygodnie przywracania tysięcy urządzeń do stanu używalności. Z poważnymi problemami borykają się wiecznie niedofinansowane szpitale (które mimo to wyłożyły niemałe środki na oprogramowanie Falcon), operatorzy telefonów alarmowych w Stanach wracają do procedur papierowych, linie lotnicze odwołały tysiące lotów.
Tymczasem licencja na oprogramowanie CrowdStrike ogranicza odpowiedzialność gwarancyjną firmy do „zapewnienia obejścia błędów” lub dopuszczenia anulowania subskrypcji wadliwego oprogramowania i zwrotu pieniędzy za niewykorzystany jej okres.
„Nasi klienci pozostają pod pełną ochroną.” – pisze dalej w tym samym wpisie dyrektor Kurtz.
George Kurtz ma doświadczenie w reagowaniu na tego typu incydenty. W 2010 r. mniejszą, ale podobną falę awarii wywołała wadliwa aktualizacja antywirusa firmy McAffee, zarządzanej wówczas właśnie przez niego. Wie zatem, że prawie na pewno nie czekają go (ani innych osób decyzyjnych w CrowdStrike) żadne konsekwencje karne.
A może powinny.
Na tego typu awarie składa się zawsze szereg problemów. W tym wypadku prawdopodobnie są to przynajmniej:
Takie problemy często wynikają nie z niewiedzy czy niedoświadczenia osób technicznych, pracujących nad danym rozwiązaniem, a ze świadomych decyzji o cięciu kosztów, podejmowanych wbrew ich rekomendacjom przez osoby na stanowiskach menadżerskich i dyrektorskich.
Niezależnie od konkretnych technicznych powodów tej awarii, jej skala pokazuje, że mamy do czynienia z problemem systemowym. W całym sektorze IT.
O globalnych awariach słyszymy przecież regularnie. I nie wyciągamy z nich wniosków. Awarie Facebooka i Fastly w 2021 r., regularne, praktycznie coroczne problemy Amazon Web Services, problemy z dostępnością usług Google czy Microsoft Office 365 wciąż nie nauczyły osób podejmujących decyzje technologiczne, że usługi wielkich korporacji nie są tak niezawodne, jak je malują ich działy PR.
Rozwiązania chmurowe Microsoftu, Azure, doświadczyły nawet oddzielnej, niezwiązanej z wadliwą aktualizacją od CrowdStrike, poważnej awarii w nocy z czwartku na piątek!
Nasza infrastruktura cyfrowa jest niebezpiecznie krucha. A przecież konsekwencje awarii są tu nie mniej poważne niż konsekwencje katastrof budowlanych. Opublikowana w zeszłym roku praca naukowa dowodzi, że wywołane przez złośliwe oprogramowanie awarie systemów komputerowych w szpitalach prowadzą do znacznie zwiększonej liczby zgonów pacjentów.
„Każda wystarczająco zaawansowana wadliwa aktualizacja oprogramowania jest nieodróżnialna od cyberataku” – zauważyła Leigh Honeywell, założycielka małej kanadyjskiej firmy zajmującej się cyberbezpieczeństwem osobistym.
Ile zgonów spowodują błędy CrowdStrike?
Jeśli chcielibyśmy faktycznie wyciągnąć jakieś wnioski, to zacznijmy od odpowiedzialności osobistej osób decyzyjnych. Czas zacząć traktować poważne awarie infrastruktury cyfrowej – dotykające szpitali, instytucji publicznych, kluczowych gałęzi przemysłu – podobnie, jak traktujemy poważne awarie infrastruktury fizycznej.
W następstwie katastrofy budowlanej uruchamiane jest śledztwo, mające ją wyjaśnić. Publikowany jest oficjalny raport z rekomendacjami, a w przypadku błędów czy zaniechań osób, czy firm zaangażowanych w dany projekt budowlany lub jego utrzymanie, stawiane są zarzuty prokuratorskie.
CrowdStrike wywołało w piątek odpowiednik globalnej katastrofy budowlanej, w wyniku której można spodziewać się ofiar w ludziach. Czy dyrektor Kurtz inaczej zarządzałby tą firmą, gdyby wiedział, że mogą mu potencjalnie grozić zarzuty prokuratorskie?
Po drugie, zwróćmy uwagę na konsolidację na rynku IT.
Fakt, że wadliwa aktualizacja jednego produktu jednej firmy spowodowała awarie w tysiącach (jeśli nie setkach tysięcy) podmiotów na całym świecie kolejny raz pokazuje, że zbyt mocno opieramy się na kilku ogromnych firmach technologicznych. Władze USA zaczynają na szczęście to zauważać, czy zauważą to również władze nad Wisłą?
Po trzecie, przestańmy wreszcie traktować wielkie firmy technologiczne jak jakieś nieomylne, neutralne organizacje eksperckie. Pamiętajmy, że dbają przede wszystkim o swoje interesy, i nie zawahają się kłamać w żywe oczy, jeśli to pozwoli im zwiększyć wartość akcji lub zyski.
Alternatywy istnieją, ale zasoby dostępne na ich rozwój (w tym na polepszenie łatwości ich użycia) są nieporównywalnie mniejsze, niż te dostępne Big Techom. Warto je wspierać, zamiast pompowania publicznych pieniędzy np. w podbijanie pustej bajery AI.
Programy takie, jak finansujący m.in. rozwój wolnego i otwartego oprogramowania i godnych zaufania usług cyfrowych unijny program Next Generation Internet, są krytycznie ważne, jeśli chcemy poważnie myśleć o odpornej infrastrukturze cyfrowej i cyfrowej suwerenności. Tym bardziej martwiące są informacje, że jego finansowanie może nie być zapewnione.
I wreszcie po czwarte, bądźmy przygotowani na wypadek problemów z infrastrukturą cyfrową. Organizacje zajmujące się prawami cyfrowymi wystosowały list otwarty podkreślający, że usługi publiczne muszą być dostępne również w formie niewymagającej korzystania z urządzeń elektronicznych.
To nie musi być trudne, wystarczy utrzymać w mocy istniejące procedury „analogowe” w miarę, jak cyfryzujemy administrację. Zaopiekuje to osoby, które z różnych względów nie korzystają z nowych technologii, a jednocześnie w pewnym stopniu zabezpieczy nas wszystkich od (najwyraźniej nieuniknionych) awarii.
Globalna awaria spowodowana przez CrowdStrike "nie jest incydentem cyberbezpieczeństwa"
Specjalista ds. bezpieczeństwa informacji, administrator sieci i aktywista w zakresie praw cyfrowych. Studiował filozofię, był członkiem Rady ds. Cyfryzacji, jest współzałożycielem warszawskiego Hackerspace’a. Pracował jako Dyrektor ds. Bezpieczeństwa Informacji w OCCRP – The Organised Crime and Corruption Reporting Project, konsorcjum ośrodków śledczych, mediów i dziennikarzy działających w Europie Wschodniej, na Kaukazie, w Azji Środkowej i Ameryce Środkowej. Współpracuje z szeregiem organizacji pozarządowych zajmujących się prawami cyfrowymi w kraju i za granicą. Współautor „Net Neutrality Compendium” oraz “Katalogu Kompetencji Medialnych”.
Specjalista ds. bezpieczeństwa informacji, administrator sieci i aktywista w zakresie praw cyfrowych. Studiował filozofię, był członkiem Rady ds. Cyfryzacji, jest współzałożycielem warszawskiego Hackerspace’a. Pracował jako Dyrektor ds. Bezpieczeństwa Informacji w OCCRP – The Organised Crime and Corruption Reporting Project, konsorcjum ośrodków śledczych, mediów i dziennikarzy działających w Europie Wschodniej, na Kaukazie, w Azji Środkowej i Ameryce Środkowej. Współpracuje z szeregiem organizacji pozarządowych zajmujących się prawami cyfrowymi w kraju i za granicą. Współautor „Net Neutrality Compendium” oraz “Katalogu Kompetencji Medialnych”.
Komentarze