Gdyby nie 1,5%, mogłoby nie być OKO.press

Twoja pomoc ma znaczenie

0:00
0:00

0:00

Prawa autorskie: Fot. Jakub Orzechowski / Agencja Wyborcza.plFot. Jakub Orzechows...

Powiedz nam, co myślisz o OKO.press! Weź udział w krótkiej, anonimowej ankiecie.

Przejdź do ankiety

Wyobraźmy sobie historię, która w Polsce nie jest rzadkością.

Kobieta jest w ciąży. W pracy dostaje awans. Przechodzi na cały etat albo zmienia stanowisko. To dobra wiadomość: stabilniejsze zatrudnienie, wyższa pensja, większe poczucie bezpieczeństwa przed porodem.

Po przejściu na L4 może przyjść pismo z ZUS: kontrola. Zaczyna się sprawdzanie umowy, dokumentów, okoliczności zatrudnienia. Spór bywa długi i może przeciągnąć się również na okres po porodzie. Dla tej osoby to nie „procedura”. To tygodnie, miesiące, a nawet lata niepewności, jeśli sprawa trafi do sądu.

Podobne historie opisywało OKO.press:

Przeczytaj także:

Nie twierdzimy, że tak wygląda większość spraw. Twierdzimy coś innego: system jest zbudowany tak, by zabezpieczać się przed „błędem łagodności” (przepuszczeniem potencjalnego nadużycia), a nie przed „błędem surowości” (skrzywdzeniem osoby uprawnionej). Ten priorytet jest wpisany nie tylko w praktykę ZUS, ale też w logikę kontroli, danych i algorytmów.

W styczniu 2026 roku wiceprezes Sławomir Wasilewski i rzecznik Karol Poznański udzielili Markowi Szymaniakowi ze Spider’s Web obszernego wywiadu o algorytmach w ZUS. Ten wywiad – zestawiony z raportami NIK, ustaleniami Fundacji Panoptykon i doświadczeniami kontrolowanych – odsłania coś więcej niż sumę pojedynczych problemów.

Odsłania system, który sam siebie naprawić nie potrafi.

Dwie twarze ZUS: wypłaca szybko, kontroluje ostro

ZUS chwali się automatyzacją: 98 proc. wniosków o 800+ ma być obsługiwanych automatycznie, podobnie 80 proc. wniosków o rentę wdowią. Gdy ZUS „daje”, działa sprawnie, masowo i bez zbędnych pytań.

Ale gdy ZUS kontroluje, uruchamia się zupełnie inna maszyna – maszyna nieufności.

  • Kobieta w ciąży, która zmieniła pracę, dostała awans albo zwiększyła wymiar etatu, może zostać wytypowana do kontroli, a jej świadczenie chorobowe wstrzymane.
  • Osobę na zwolnieniu lekarskim może odwiedzić w domu inspektor.
  • Przedsiębiorca, który spóźnił się ze składką, wchodzi w tryb egzekucji: upomnienia, tytuły wykonawcze, zajęcia majątku, hipoteki przymusowe.
  • Z tych przykładów da się wyciągnąć prosty wniosek: w jednym obszarze ZUS jest instytucją „masowej obsługi”, w drugim uruchamia maszynę nieufności.

To nie musi wynikać ze złej woli. Może wynikać z asymetrii ryzyka, która premiuje surowość.

Asymetria ryzyka

W wywiadzie rzecznik ZUS, pytany o kobiety w ciąży lub na urlopie macierzyńskim niesłusznie poddane kontroli, mówi:

„Odwrócę pytanie, bo my też jesteśmy kontrolowani przez Najwyższą Izbę Kontroli. I proszę sobie wyobrazić, że ktoś potem z NIK zapyta pracownika ZUS: no dobrze, ale dlaczego tę kobietę potraktował pan łagodniej? […] Pracownik nie może odpowiedzieć, że nie chciał »dręczyć« być może niewinnej kobiety w ciąży”.

Ta wypowiedź jest kluczem.

Urzędnik ZUS nie odpowiada za szkodę, jaką wyrządza ludziom, jeśli kontrola okaże się bezzasadna. Może natomiast zostać rozliczony za „zbytnią łagodność”, jeśli ktoś uzna, że przymknął oko na potencjalne nadużycie.

W praktyce oznacza to:

  • za surowość (błąd surowości) rzadko ponosi się konsekwencje,
  • za łagodność można zostać rozliczonym.

To jest mechanizm, który pcha system w jedną stronę: lepiej skrzywdzić kilka osób „na wszelki wypadek” niż przepuścić jednego oszusta.

Powiedzmy to jasno: nadużycia istnieją i ZUS ma obowiązek je ścigać. Problem polega na tym, że walka z nadużyciami nie może być zorganizowana tak, by koszty błędów surowości przerzucać na osoby niewinne – zwłaszcza jeśli system nawet nie próbuje tych kosztów liczyć i minimalizować.

Tajność jako polityka

W tym samym wywiadzie rzecznik ZUS tłumaczy, dlaczego ZUS nie ujawnia kryteriów typowania do kontroli:

„Nie możemy zdradzić wszystkich elementów, bo system straciłby zęby. Dlatego, nie ukrywam, jesteśmy ostrożni we wpuszczaniu dziennikarzy do kuchni tego, jak to działa”.

To ważne, bo tajność nie jest tu skutkiem „skomplikowania technologii”. To świadoma decyzja instytucji, która zakłada, że przejrzystość osłabi skuteczność kontroli.

Tyle że z perspektywy osoby, która znalazła się pod lupą ZUS, efekt jest oczywisty: nie wie, dlaczego jest podejrzana, więc trudniej się bronić, odwołać, wykazać, że typowanie było absurdalne albo dyskryminujące.

„Promil” bez poparcia w danych

ZUS w takich rozmowach używa argumentu „promila”, sugerując, że nieuzasadnione kontrole i błędy systemu to margines, a „zdecydowana większość” spraw przebiega bezproblemowo.

Tyle że instytucja nie pokazuje danych, które pozwalałyby to wiarygodnie ocenić. I tu warto rozdzielić dwie rzeczy.

Co wiemy (bo ZUS sam to potwierdza lub wynika to z działania systemu):

  • ZUS używa narzędzi informatycznych do wspomagania selekcji spraw do kontroli.
  • Część kryteriów i logika selekcji pozostają niejawne.
  • W kontroli i egzekucji działa silna presja na „skuteczność” rozumianą jako minimalizowanie strat państwa.

Czego nie wiemy (bo system tego nie mierzy lub nie ujawnia):

  • Jaka jest skala błędów surowości (bezzasadnych kontroli, błędnych decyzji, nieproporcjonalnej egzekucji), ile osób uprawnionych nie korzysta ze świadczeń („non-take-up”), bo nie wie, boi się, rezygnuje lub nie może sobie pozwolić na walkę z instytucją.
  • Jaki jest realny koszt kontroli po stronie obywatelek i obywateli: problemy finansowe, stres, koszty prawne, utrata pracy, pogorszenie zdrowia.

Bez tych danych „promil” to tylko retoryczna obrona niepoparta wiedzą i danymi.

Jakie algorytmy? Krótka mapa pojęć

W sporze publicznym łatwo utknąć na pytaniu: „Czy to jest sztuczna inteligencja?”. Ostatnio ZUS podkreśla, że stosuje „twarde reguły i dane”, a nie „AI”. Ta odpowiedź nie dotyka jednak sedna problemu.

Żeby było jasno, mówimy tu o kilku typach narzędzi:

  • Algorytm regułowy – zestaw instrukcji typu: jeśli A i B, to C.
  • Model predykcyjny – narzędzie, które na podstawie danych z przeszłości stara się przewidzieć ryzyko wystąpienia jakiegoś wydarzenia w przyszłości. Na przykład, pod kątem różnych cech model porównuje zwolnienie, które wystawił Ci dziś internista, ze zwolnieniami kontrolowanymi przez ZUS w przeszłości. O sztucznej inteligencji mówimy tylko w przypadku niektórych modeli predykcyjnych.
  • Scoring – punktacja ryzyka: wyższy wynik oznacza, że model predykcyjny szacuje ryzyko nieprawidłowości jako większe. Co to znaczy? Nieco upraszczając, scoring jest wyższy, gdy model dostrzega podobieństwo między charakterystykami zwolnień, które w przeszłości uznano za wystawione nieprawidłowo, a cechami, przez których pryzmat opisano Ciebie i Twoje dzisiejsze L4 – np. historię ubezpieczeniową, chorobę, lekarza, który je wystawił i pracodawcę, który Cię zatrudnia. Nawet wysoka punktacja nie dowodzi, że doszło do nadużycia. Nie świadczy o związku przyczynowo-skutkowym, tylko o powiązaniach między ocenianym L4 z przypadkami z przeszłości.

Naszym zdaniem, niezależnie od etykiety („AI”/„nie AI”) problem zaczyna się w momencie, gdy:

  • selekcja do kontroli jest masowa,
  • logika selekcji jest tajna,
  • model jest trenowany na danych historycznych,
  • a system nie mierzy szkód po stronie obywateli i nie stara się ich minimalizować.

Algorytm i jego cienie: historia uczy uprzedzeń

Z oficjalnych sprawozdań ZUS wiemy, że Zakład używa co najmniej dwóch algorytmów predykcyjnych: jednego do typowania podejrzanych zwolnień lekarskich, drugiego do typowania płatników składek. Fundacja Panoptykon dysponuje około dwoma tysiącami stron dokumentacji technicznej pierwszego z tych narzędzi.

Mateusz Wrotny z Panoptykonu mówi:

„Wiemy, że model trenowano na danych historycznych z kilku lat, obejmujących zarówno kontrole zakończone wykryciem nieprawidłowości, jak i te »czyste«”.

To jest moment, w którym wchodzi klasyczny problem, z którym mierzy się data science: model uczy się z przeszłości.

Jeśli w przeszłości urzędnicy częściej typowali do kontroli kobiety w ciąży i pozbawiali je świadczeń – model może wzmocnić tę skłonność. Jeśli częściej kontrolowano samozatrudnionych o niskich dochodach – ubóstwo może stać się „sygnałem ryzyka”. Maszyna nie musi tworzyć uprzedzeń. Wystarczy, że je powieli w skali, która przekracza możliwości pojedynczego urzędnika.

Czy możemy wykluczyć taki negatywny scenariusz? Nie. Dlaczego? Ponieważ ZUS nie udostępnia informacji potrzebnych do oceny wdrożonych rozwiązań pod kątem dyskryminacji i innych szkodliwych społecznie konsekwencji. Nie wiemy, czy w ogóle zastosowano jakieś zabezpieczenia. A jak przekonało się jedno z nas w dwóch kolejnych próbach uzyskania zgody na badanie w ZUS, nie tylko dziennikarze nie są wpuszczani „do kuchni tego, jak to działa”. Również naukowcy, gdy próbują dowiedzieć się więcej lub podzielić wiedzą na temat zagrożeń automatyzacji, natrafiają na mur.

Czyli wracamy do pętli:

  • nie wiemy, bo nie możemy sprawdzić,
  • nie możemy sprawdzić, bo system jest tajny,
  • system jest tajny, bo „straciłby zęby”, a ujawnienie informacji o procesie podejmowania decyzji z użyciem algorytmu jest zagrożeniem dla „bezpieczeństwa”.

Paradoks audytu: NIK widzi straty państwa, nie koszty ludzi

Rzecznik ZUS wskazuje NIK jako źródło presji na surowość. Postanowiliśmy to sprawdzić i przeczytaliśmy dwa raporty NIK dotyczące ZUS: raport o systemach IT oraz raport o dochodzeniu składek. Obraz, który z nich wyłania się jako całość, jest uderzający.

Raport o IT to wynik badania m.in. wydatków na systemy obsługujące miliony osób. W raporcie pojawiają się skargi obywateli (także sygnalizowane przez Rzecznika Praw Obywatelskich) na opóźnienia w wypłatach, ale nie przekładają się one na równie twarde zalecenia naprawcze, jakie pojawiają się przy kwestiach finansowych po stronie państwa.

Raport o dochodzeniu składek to dokument o bezpośredniej relacji władczej ZUS – obywatel: egzekucje, zajęcia majątku, hipoteki przymusowe, sankcje. Wnioski pokontrolne konsekwentnie wzmacniają logikę „intensyfikować” i „zwiększać skuteczność”. Nie ma analogicznej wagi położonej na pytania o proporcjonalność i o koszty społeczne.

Co z tego wynika?

Tak działa paradoks audytu: instytucja kontrolna, która formalnie działa „w interesie obywateli i państwa”, w praktyce wzmacnia mechanizmy, które najbezpieczniej każą wybierać surowość.

NIK nie musi być „złośliwy”, żeby ten efekt produkować. Wystarczy jednostronność miary: jeżeli mierzymy wyłącznie straty państwa, to racjonalną strategią instytucji staje się ograniczanie jednego rodzaju błędów – tych związanych z nadmierną łagodnością – i ignorowanie drugiego: błędów surowości.

Ślepy punkt: czego system nie chce widzieć

Każdy system informacyjny ma ślepe punkty – to, czego nie liczy, zwykle nie istnieje w decyzjach zarządczych. W przypadku ZUS te ślepe punkty mają wspólny mianownik: nie widać w nich ludzkiej krzywdy.

1) Non-take-up: ile osób rezygnuje z praw, bo boi się instytucji?

ZUS nie mierzy zjawiska niekorzystania ze świadczeń przez uprawnionych. Ludzie nie składają wniosków, bo nie wiedzą, bo są zniechęceni procedurami, bo boją się kontroli, bo wcześniejsze doświadczenia ich „nauczyły”, że kontakt z instytucją bywa ryzykowny.

W literaturze międzynarodowej non-take-up jest uznanym wskaźnikiem sprawności systemu zabezpieczenia społecznego. W Polsce nie znamy skali – bo nikt jej systematycznie nie mierzy.

2) Błędy surowości: ile kontroli było bezzasadnych?

ZUS mierzy koszty nadmiernej łagodności (nienależne wypłaty, nieściągnięte należności). Nie ma porównywalnej infrastruktury do mierzenia błędów surowości: bezzasadnych kontroli, odmów, ciągnących się postępowań, bezpodstawnie wstrzymanych wypłat, nieproporcjonalnej egzekucji.

3) Koszty kontroli: ile kosztuje to człowieka?

System nie liczy też kosztów po stronie kontrolowanych i ich rodzin: dni bez środków, stresu, pogorszenia zdrowia, kosztów prawnych, utraty pracy czy konieczności zadłużania się, by przetrwać.

Jeśli instytucja nie zbiera danych o szkodach, które wyrządza, może szczerze wierzyć, że działa prawidłowo. To nie musi być cynizm. To może być organizacyjna niewiedza, która chroni system przed korektą.

Trzy skandale, jeden wzór

Mechanizm „maszyny nieufności” nie jest polską osobliwością. Ten sam wzór uruchamiał się w innych krajach – i dopiero silny impuls z zewnątrz zmuszał państwo do korekty.

Australia: Robodebt

System automatycznie generował żądania zwrotu rzekomych nadpłat, opierając się na prostym porównaniu danych, które nie oddawało realiów zarobków rozłożonych nierównomiernie w czasie. Skutkiem były setki tysięcy błędnych decyzji i masowa krzywda. Komisja badająca sprawę uznała, że problem nie był „techniczny” – wynikał z kultury instytucjonalnej nastawionej na odzyskiwanie pieniędzy, a nie na ochronę praw.

Holandia: toeslagenaffaire

Algorytm w systemie świadczeń profilował rodziców. W praktyce doprowadziło to do masowych żądań zwrotu, wstrzymywania wypłat, kar i wieloletnich dramatów rodzin. Skandal miał konsekwencje polityczne na poziomie rządu. W tle powracał ten sam problem: instytucja była nastawiona na „wyłapywanie” i odzyskiwanie, a koszty błędnych decyzji po stronie obywateli przez lata pozostawały niewidoczne.

Francja: algorytm CNAF

Francuska Narodowa Kasa Świadczeń Rodzinnych (w skrócie CNAF) stosuje modele predykcyjne do typowania beneficjentów do kontroli. Z badań wiemy, że system nieproporcjonalnie częściej typuje osoby w trudniejszej sytuacji, które ubiegają się o świadczenia socjalne: osoby o niskim dochodzie, bez pracy, samotnie wychowujące dzieci.

Okazuje się, że nieprawidłowości w przypadku świadczeń socjalnych są w dużym stopniu pochodną skomplikowanych i nieprecyzyjnych kryteriów i niestabilnej sytuacji życiowej. Kontrole rzadko obejmują: pracujących i gospodarstwa domowe, w których dwójka dorosłych wychowuje dziecko.

Dysproporcja ta rośnie, mimo że odsetek nieprawidłowości w grupach lepiej usytuowanych jest wyższy. Narzędzie przez długi czas nie było audytowane pod kątem skutków dyskryminacyjnych. W sądzie toczy się spór o jego legalność między CNAF a koalicją organizacji społecznych.

W każdym z tych przypadków powtarza się ten sam zestaw elementów:

  • scoring i automatyzacja selekcji,
  • miary skupione na kosztach nadmiernej łagodności,
  • brak przejrzystości,
  • odwrócenie zasady domniemanej niewinności: instytucja nie dowodzi, że doszło do nadużycia, ale to człowiek podejrzewany o nadużycie ma dowieść swojej niewinności,
  • brak danych o kosztach obywatela,
  • instytucja, która z przekonaniem mówi: „działam prawidłowo” i ignoruje głosy krytyczne.

Polska też już to przerabiała: profilowanie bezrobotnych

Mamy własny precedens: w latach 2014–2019 w urzędach pracy działał algorytm profilowania bezrobotnych. Algorytm generował rekomendacje, do którego profilu przypisać osobę bezrobotną, co z kolei wpływało na zakres otrzymywanej pomocy. Badania jednego z nas, prowadzone z zespołem badawczym, pokazały, że urzędnicy niezwykle rzadko korygowali wskazania algorytmu – a w części urzędów wręcz nie wolno było tego robić.

Wojewódzki Sąd Administracyjny uznał algorytm za informację publiczną i wymusił na resorcie pracy, by udostępnił go Fundacji Panoptykon. Trybunał Konstytucyjny uznał przepisy za niezgodne z konstytucją i system wycofano. Dane wywalczone w sądzie przez Fundację Panoptykon pozwoliły już po wycofaniu narzędzia przeanalizować model i wykazać jego podstawowe błędy metodologiczne.

To ważna lekcja: korekta była możliwa, ale dopiero po interwencji z zewnątrz.

Sześć zmian, które mogą przerwać pętlę

System, który nie ma wbudowanej informacji zwrotnej o własnych błędach, sam z siebie się nie naprawi. Potrzebuje impulsu z zewnątrz – prawa, standardów, obowiązków sprawozdawczych i realnej kontroli.

1) Mierzyć to, co dziś jest niewidoczne

ZUS powinien być zobowiązany do systematycznego pomiaru i publikowania wskaźników:

  • non-take-up (niekorzystania ze świadczeń przez uprawnionych),
  • liczby i udziału bezzasadnych kontroli (z uwzględnieniem różnych grup)
  • czasu trwania postępowań i skali wstrzymywania wypłat,
  • skutków społecznych kontroli (choćby w formie wskaźników pośrednich).

2) Zrównoważyć audyt: mierzyć także ochronę praw

NIK powinien kontrolować nie tylko „skuteczność” rozumianą finansowo, ale też adekwatność ochrony praw i proporcjonalność działań. Audyt, który widzi tylko jedną stronę, systematycznie produkuje presję na surowość.

W audytowanie algorytmów wdrażanych przez instytucje publiczne powinno się więc włączyć inne instytucje z doświadczeniem w ochronie praw (np. Rzecznika Praw Obywatelskich, Urząd Ochrony Danych Osobowych). Cenny byłby też głos organizacji pozarządowych, specjalizujących się w tematyce praw cyfrowych czy działających na rzecz różnych grup świadczeniobiorców.

Warto też uwzględniać perspektywę pracowników instytucji wdrażającej algorytm. To często oni sygnalizują najważniejsze problemy, ale ich głos bywa ignorowany.

3) Ocena ex ante: nie dopuścić do wdrażania systemów, które łamią prawo

Część algorytmów – australijski Robodebt, holenderski toeslagenaffaire, polski algorytm profilowania – nigdy nie powinny ujrzeć światła dziennego. Wdrożono je bez sprawdzenia, czy nie łamią prawa (łamały!), a czasem wbrew krytyce ze strony instytucji zajmujących się w państwie ochroną praw (np. negatywna opinia Głównego Inspektoratu Danych Osobowych na temat profilowania).

Szwankuje nie tylko audyt, ale przede wszystkim ocena ex ante: wdrożenie powinno być możliwe tylko wtedy, gdy system spełnia minimalne wymagania.

4) Ujawnić przynajmniej kryteria i logikę typowania

Kryteria typowania do kontroli powinny być publiczne w takim zakresie, by obywatel mógł zrozumieć, dlaczego znalazł się na liście, i realnie się bronić. Argument, że jawność „odbierze systemowi zęby”, zakłada, że wszyscy są potencjalnymi oszustami. Państwo powinno przyjąć odwrotne założenie: domyślną uczciwość obywatela i przejrzystość działania instytucji.

5) Zabezpieczyć przestrzeń na ludzką ocenę i korektę

Automatyzacja wypłat może działać dobrze przy uniwersalnych świadczeniach. Ale profilowanie wpływające na dostęp do usług publicznych i automatyzacja kontroli w sprawach wrażliwych (ciąża, choroba, samotne rodzicielstwo) powinny mieć wbudowany realny mechanizm korekty i odpowiedzialności.

Gdy urzędnicy podążają za algorytmem w 99 proc. przypadków, „decyzja człowieka” staje się fikcją. Jak mówi Wrotny z Panoptykonu: „przemęczony urzędnik może w ogóle wyniku algorytmu nie kwestionować”. Zamiast deklarować „to człowiek podejmuje decyzję, a nie maszyna”, instytucje wdrażające algorytmy powinny umożliwiać niezależne badania, pozwalające sprawdzić, czy ta formuła ma pokrycie w rzeczywistości.

6) Stworzyć publiczny rejestr narzędzi algorytmicznych w państwie

Potrzebny jest rejestr systemów, które współdecydują o prawach i obowiązkach obywateli – wraz z informacją o celu, danych wejściowych, zasadach audytu i sposobach odwołania. Europejski AI Act wprowadza standardy dla systemów wysokiego ryzyka; niezależnie od sporu o etykietę „AI”, narzędzia wpływające na prawa socjalne milionów osób powinny spełniać analogiczne wymagania przejrzystości i kontroli.

Ekosystem nieufności

To, co opisujemy, nie jest sumą przypadkowych błędów. To ekosystem, w którym każdy element wzmacnia pozostałe.

  • Projektanci tworzą narzędzia nastawione na wykrywanie nadużyć.
  • Audyt mierzy głównie straty państwa i skuteczność odzyskiwania pieniędzy.
  • Urzędnicy, rozliczani z „łagodności”, wybierają surowość jako bezpieczną opcję.
  • Obywatele, doświadczając kontroli i barier, wycofują się – czasem rezygnują z praw.
  • A to wycofanie potwierdza w oczach systemu: „skoro nie ma problemu w danych, to problemu nie ma”.

Pętla się zamyka. Każdy aktor działa „racjonalnie” w świetle sygnałów, które dostaje. Suma tych racjonalnych działań produkuje systemową niesprawiedliwość.

W Polsce mamy jeszcze czas, by zobaczyć ten mechanizm i go skorygować – zanim kumulacja „promili” stanie się skandalem, którego dało się uniknąć. Albo, jak powiedział rzecznik ZUS: zanim system straci zęby.

Pytanie brzmi: kto zęby traci już teraz?

;
Na zdjęciu Ryszard Szarfenberg
Ryszard Szarfenberg

Dr hab., profesor na Wydziale Nauk Politycznych i Studiów Międzynarodowych UW, politolog, specjalista w zakresie polityki społecznej, ubóstwa i wykluczenia. Przewodniczący EAPN Polska, członek zarządu ATD Czwarty Świat, członek Zespołu Eksperckiego ds. Usług Społecznych Fundacji Batorego.

Karolina Sztandar-Sztanderska

Socjolożka związana z Instytutem Filozofii i Socjologii PAN. Specjalizuje się w badaniach nad algorytmicznym podejmowaniem decyzji w polityce publicznej i administracji pierwszego kontaktu (street-level bureaucracy). Jej badania koncentrują się na zautomatyzowanym podejmowaniu decyzji, antropologii polityki publicznej i polityce rynku pracy.

Komentarze