Te rzekomo niezwykłe możliwości najnowszego modelu LLM firmy Anthropic, którymi martwić się ma rząd USA, wcale nie są takie niezwykłe – mają je nie tylko konkurencyjne wielkie modele, ale i modele małe, które można uruchomić na własnym sprzęcie. Wyjaśniamy więc, co tu się dzieje.
Na zdjęciu u góry: Z lewej Dario Amodei, szef firmy Anthropic, z prawej Pete Hegseth, sekretarz obrony USA. Foto Ludovic MARIN and Brendan SMIALOWSKI / AFP
W połowie czerwca rząd USA nakazał firmie Anthropic – jednej z firm technologicznych tworzących wielkie modele językowe – zablokować dostęp wszelkich osób niebędących obywatelami USA do jej najnowszych modeli (Fable 5 i Mythos 5).
Oficjalnie jest to związane z rzekomo wyjątkowymi możliwościami tych modeli oraz z bliżej nieokreśloną podatnością pozwalającą na ich użycie w niecnych celach. Firma wyłączyła dostęp do tych modeli wszystkim swoim klientom i pracuje nad dodatkowymi zabezpieczeniami.
Nic tu się jednak kupy nie trzyma.
Po pierwsze, tłem są trwające od miesięcy napięcia pomiędzy firmą Anthropic a Departamentem Obrony USA, i to w kontekście zbliżającego się debiutu firmy na giełdzie. Po drugie, jak wskazuje sam Anthropic, modele konkurencji mają podobne podatności, a nikt im nie kazał niczego blokować.
Po trzecie wreszcie, te rzekomo niezwykłe możliwości, którymi martwić się ma rząd USA, wcale nie są takie niezwykłe – mają je nie tylko konkurencyjne wielkie modele, ale również modele małe, które można uruchomić na własnym sprzęcie.
W umowach pomiędzy firmą Anthropic a Departamentem Obrony USA, regulujących korzystanie przezeń z generatywnych modeli firmy, zawarte są klauzule zabraniające korzystania z tych modeli w celach nadzoru osób w Stanach Zjednoczonych oraz w kontekście broni w pełni autonomicznej (na przykład dronów bojowych niewymagających w ogóle kontroli przez operatora).
Na początku tego roku Departament Obrony zażądał od firmy usunięcia tych klauzul. Firma odmówiła, argumentując, że wykorzystanie tych narzędzi do nadzoru obywateli USA jest niezgodne z wartościami demokratycznymi, zaś na wykorzystanie w broni w pełni autonomicznej obecne modele są po prostu zbyt zawodne. Z oboma tymi twierdzeniami trudno się nie zgodzić.
(Notabene, od września 2025 roku Departament Obrony preferuje alternatywną nazwę, nadaną przez Prezydenta Donalda Trumpa: Departament Wojny. Nazwa nie została jednak oficjalnie zmieniona – do tego potrzeba zgody Kongresu USA).
Gdy rozmowy ostatecznie zakończyły się brakiem porozumienia, Donald Trump – wpisem na swojej sieci społecznościowej – nakazał zaprzestania korzystania z usług firmy wszystkim agencjom federalnym. Sekretarz obrony Pete Hegseth poszedł dalej: formalnie oznaczył Anthropic jako „zagrożenie łańcucha dostaw”, co oznacza, że zgodnie z prawem w USA nawet niezależni podwykonawcy czy dostawcy mający jakiekolwiek kontrakty z siłami zbrojnymi USA nie mogą mieć żadnych relacji biznesowych z firmą Anthropic (a więc i nie mogą korzystać z jej modeli).
Oczywiście nie miało to żadnego faktycznego uzasadnienia – było (i nadal jest) jedynie formą nacisku, zemsty za to, że firma miała czelność sprzeciwić się woli prezydenta Trumpa i sekretarza Hegsetha. Co więcej, cała sytuacja jest absurdalna: Departament Obrony uważa, że nieskrępowany dostęp do modeli Anthropica jest tak niesamowicie ważny, że aż trzeba go zakazać; a jednocześnie, Anthropic jest tak wielkim zagrożeniem dla bezpieczeństwa narodowego, że musi zostać oznaczony jako „zagrożenie łańcucha dostaw” – ale z sześciomiesięcznym okresem przejściowym!
Od końca zeszłego roku wiadomo, że Anthropic szykuje się do debiutu na giełdzie. Miałby nastąpić w ciągu najbliższych kilku miesięcy. Szacowana wartość firmy miałaby oscylować w okolicach 960 miliardów dolarów (mimo że najprawdopodobniej nadal nie przynosi zysków).
Firmie zależy na pompowaniu bajery przed debiutem, by cenę akcji wywindować jak najwyżej. Przynajmniej częściowo z tego wynikała cała szopka z ograniczeniem przez firmę dostępu do jej najnowszego modelu mającego mieć niemal mityczne możliwości, nazwanego nomen omen Mythos. Ze względu na rzekomo ogromne zagrożenie dostęp początkowo miała mała grupa firm i organizacji, w tym giganci technologiczni oraz Linux Foundation, oraz… nieautoryzowane osoby, wykorzystujące dane logowania, które wyciekły od współpracującej z Anthropic firmy Mercor w marcu. Jak to świadczy o powadze podejścia firmy do cyber bezpieczeństwa każdy ocenić może sam.
Te zagrożenia mają wynikać z tego, że modeli językowych można użyć w celu znajdowania podatności w oprogramowaniu. Tyle tylko, że jak wykazały późniejsze analizy, Mythos nie jest jedynym modelem, który można w ten sposób wykorzystać. Podobną skuteczność wykazywały nawet modele małe, które można uruchomić na własnym sprzęcie – jak chiński DeepSeek R1.
Anthropic był jednak w stanie skutecznie zbudować narrację o tym, jaki to wyjątkowo niebezpieczny Mythos miałby być, między innymi wykorzystując do tego zagrywkę z ograniczeniem dostępu.
Z drugiej strony wszelkie problemy prawne czy narzucone z góry ograniczenia dotyczące tego, kto może, a kto nie może, korzystać z modeli firmy odbijają się na przewidywanej cenie akcji negatywnie. A kręcąc bajerę o tym, jak rzekomo dramatycznie niebezpieczny jest Mythos, Anthropic stworzył doskonały pretekst dla wyjątkowo przecież małostkowej administracji Donalda Trumpa.
Skoro Mythos jest taki niebezpieczny, to i powiązany z nim prostszy model Fable – dostępny publicznie – musi być niebezpieczny! A skoro Anthropic nadal nie zgadza się na wykorzystanie swoich modeli bez ograniczeń przez Departament Obrony USA, to trzeba dokręcić śrubę.
Trudno znaleźć inne sensowne wyjaśnienie decyzji nakazującej firmie ograniczyć dostęp do obu tych modeli wyłącznie do osób pochodzących z USA. Tym bardziej że oczywistym musiało być, że skuteczne wdrożenie takiego ograniczenia wymagałoby weryfikacji dokumentów każdej osoby korzystającej!
W praktyce nakaz ten oznaczał więc kompletne zablokowanie dostępu do obu najnowszych modeli firmy. I to niecałe dwa tygodnie po złożeniu przez nią pierwszych niezbędnych dokumentów finansowych do wejścia na giełdę.
Decyzja uzasadniona została z jednej strony tą wyjątkową rzekomo skutecznością w wyszukiwaniu podatności w oprogramowaniu, a z drugiej – możliwością obejścia wbudowanych ograniczeń (ang. „guardrails”) modeli Anthropica, mających blokować ich użycie w celach groźnych z punktu widzenia bezpieczeństwa informacji.
Jeśli chodzi zablokowanie możliwości obchodzenie ograniczeń, to zasadniczo jest to problem niemożliwy do kompletnego, skutecznego rozwiązania.
Modele językowe probabilistycznie generują tekst w oparciu o dane wejściowe oraz tak zwane instrukcje systemowe. Instrukcje systemowe zawierają informacje o ograniczeniach, na przykład rzeczach, których model nie powinien generować. Zarówno instrukcje systemowe, jak i dane wejściowe, są w formie tekstu w języku naturalnym.
Tak naprawdę nie ma strukturalnej różnicy między instrukcjami systemowymi a danymi wejściowymi. Stąd trywialne przykłady typu „zignoruj poprzednie instrukcje” – model po prostu nie ma jak wiedzieć, że dany fragment tekstu jest złośliwym zapytaniem, a nie instrukcją systemową.
Gdy w zeszłym roku modele Anthropica zostały wykorzystane przez cyberprzestępców do automatyzacji ataków – czyli czegoś, co instrukcje systemowe dla tych modeli miały blokować – ograniczenia udało się przestępcom obejść za pomocą wysublimowanej techniki polegającej na… napisaniu, że są pracownikami zupełnie wiarygodnej firmy zajmującej się cyberbezpieczeństwem.
Drugim problemem jest to, że język naturalny pozwala opisać to samo działanie za pomocą różnych słów. Ograniczenia w modelach Mythos i Fable miały uniemożliwić ich wykorzystanie do znajdywania błędów bezpieczeństwa w kodzie źródłowym oprogramowania.
Gdy zapytanie prosiło o „przejrzenie kodu i opisanie problemów bezpieczeństwa”, model odmawiał. Ale wystarczyło zamiast tego poprosić o „naprawienie tego kodu” (ang. „fix this code”), by model mimo wszystko wygenerował opis znalezionych problemów.
Katie Moussouris, amerykańska ekspertka w zakresie bezpieczeństwa informacji, podsumowała to krótko: „Tego zachowania nie da się skutecznie naprawić.”
Zgadza się z tym sam Anthropic: „Podejrzewamy, że ograniczenia idealnie skuteczne nie są w tej chwili możliwe do uzyskania przez żadnego dostawcę modeli”.
Jeśli chodzi o znajdowanie podatności w oprogramowaniu, w ciągu ostatnich kilku miesięcy faktycznie zaszła dość spora zmiana w skuteczności narzędzi generatywnych.
Organizacje takie, jak Mozilla (twórca przeglądarki Firefox), bardzo chwalą sobie możliwość automatycznego znajdowania podatności. Nawet osoby dość sceptyczne wobec narzędzi generatywnych, jak Daniel Stenberg, twórca popularnego narzędzia curl, przyznają, że jakość zgłoszeń dotyczących automatycznie znalezionych błędów wzrosła. Zamiast zupełnie nieprzydatnego spamu, zaczęły być faktycznie istotne.
Przy czym wielu ze znajdowanych problemów technicznych w praktyce nie da się złośliwie wykorzystać – innymi słowy, często nie stwarzają faktycznego zagrożenia. Kevin Beaumont, znany ekspert w zakresie cyber bezpieczeństwa, zauważył: „Mythos szybko staje się sam w sobie mitologiczną bestią. Zautomatyzowali linię produkcyjną bajery dotyczącej podatności – to określenie, którego używam w odniesieniu do sytuacji, w których badacze znajdują prawdziwe podatności, niemające jednak żadnego realnego wpływu. Ludzie bardzo się ekscytują zupełnie bez powodu. Teraz zautomatyzowali ten proces”.
Wygląda też na to, że wzrost skuteczności w znajdywaniu podatności nie jest związany z możliwościami samych modeli, a z narzędziami, które z nich korzystają – tak zwaną „uprzężą” (ang. „harness”).
W linkowanym wcześniej tekście porównującym skuteczność Mythosa do skuteczności mniejszych modeli, autorzy podsumowują: „Możliwości AI związane z cyber bezpieczeństwem są nieliniowe: nie skalują się płynnie z wielkością modelu, wyróżnikiem jest system, w którym wbudowana jest pogłębiona wiedza dotycząca bezpieczeństwa, nie sam model.”
To kolejny kamyczek do ogródka krytyków firm oferujących gigantyczne modele językowe, których model biznesowy opiera się na tym, by nie dało się ich lokalnie uruchomić – innymi słowy, by konieczne było korzystanie z usług ich twórców.
Na myśl od razu przychodzą badaczki wyrzucone w 2020 r. z Google za pracę naukową sugerującą, że mniejsze modele mogą być lepszym rozwiązaniem (pisałem o tym w moim pierwszym tekście o AI dla OKO.press, ponad trzy lata temu).
Przychodzi też na myśl wewnętrzny dokument, który z Google wyciekł w 2023 r., w którym można przeczytać, że „modele rozwijane w ramach ruchu otwartego oprogramowania są szybsze, łatwiejsze do dostosowania do własnych potrzeb, bardziej prywatne, i ogólnie sprawniejsze” (pisałem o tym wówczas tutaj).
To, że możliwe jest wykorzystanie modeli uczenia maszynowego – zwłaszcza tych mniejszych, możliwych do uruchomienia lokalnie – do w miarę skutecznego wyszukiwania podatności w oprogramowaniu, to oczywiście dobra wiadomość. Nie podzielam jednak optymizmu Mozilli, która ogłosiła, że „dni podatności są policzone”.
Każda organizacja czy firma, również te tworzące oprogramowanie (a więc i odpowiedzialne za łatanie znalezionych w nim podatności), ma ograniczone zasoby. Uruchomienie i utrzymywanie opartego o modele językowe systemu znajdowania podatności wymaga sporo tych zasobów – zwłaszcza jeśli korzysta się z modeli wielkich graczy, za które trzeba coraz bardziej słono płacić. Zasoby są też potrzebne na łatanie tych znalezionych błędów.
Z drugiej strony, te same zasoby i modele można wykorzystać do generowania ogromnych ilości nowego kodu (z nowymi błędami).
Czy firmy tworzące oprogramowanie zdecydują się przeznaczyć dostępne im ograniczone zasoby – pieniądze, czas programistek, i tak dalej – na wynajdywanie i naprawianie dziur w istniejącym kodzie? Czy raczej skuszą się raczej jeszcze szybszym generowaniem nowego dziurawego kodu?
Tegoroczny raport firmy analitycznej Faros, oparty o dane od 22 tys. programistek i programistów, wydaje się udzielać odpowiedzi na to pytanie. Nie tylko generowane jest coraz więcej kodu źródłowego, ale jest on coraz gorszej jakości, a jednocześnie coraz częściej jest uruchamiany na produkcji bez żadnego przeglądu i weryfikacji. To zaś prowadzi do coraz większej liczby problemów z bezpieczeństwem.
Problemów, których generatywne narzędzia nie naprawią. O ile bowiem modele językowe są niezłe w znajdywaniu podatności, nic nie wskazuje na to, by miały się stać dobre w generowaniu kodu bez nich.
Prawdziwym zagrożeniem dla naszego bezpieczeństwa informacji nie są więc mitologizowane probabilistyczne generatory tekstu, a niekompetencja i pazerność firm technologicznych.
Specjalista ds. bezpieczeństwa informacji, administrator sieci i aktywista w zakresie praw cyfrowych. Studiował filozofię, był członkiem Rady ds. Cyfryzacji, jest współzałożycielem warszawskiego Hackerspace’a. Pracował jako Dyrektor ds. Bezpieczeństwa Informacji w OCCRP – The Organised Crime and Corruption Reporting Project, konsorcjum ośrodków śledczych, mediów i dziennikarzy działających w Europie Wschodniej, na Kaukazie, w Azji Środkowej i Ameryce Środkowej. Współpracuje z szeregiem organizacji pozarządowych zajmujących się prawami cyfrowymi w kraju i za granicą. Współautor „Net Neutrality Compendium” oraz “Katalogu Kompetencji Medialnych”.
Specjalista ds. bezpieczeństwa informacji, administrator sieci i aktywista w zakresie praw cyfrowych. Studiował filozofię, był członkiem Rady ds. Cyfryzacji, jest współzałożycielem warszawskiego Hackerspace’a. Pracował jako Dyrektor ds. Bezpieczeństwa Informacji w OCCRP – The Organised Crime and Corruption Reporting Project, konsorcjum ośrodków śledczych, mediów i dziennikarzy działających w Europie Wschodniej, na Kaukazie, w Azji Środkowej i Ameryce Środkowej. Współpracuje z szeregiem organizacji pozarządowych zajmujących się prawami cyfrowymi w kraju i za granicą. Współautor „Net Neutrality Compendium” oraz “Katalogu Kompetencji Medialnych”.
Komentarze