0:00
0:00

0:00

Prawa autorskie: Ilustracja: Weronika Syrkowska / OKO.pressIlustracja: Weronika...

ChatGPT i inne ogromne modele językowe (LLM, od ang. "Large Language Models") wydają się rozumieć, o co je pytamy, i być w stanie udzielać sensownych, interesujących odpowiedzi. Midjourney i podobne narzędzia generują obrazy na zadany temat i w zadanym stylu. Dzięki AI smartfony mogą rozpoznawać tekst na zdjęciach i tłumaczyć go na dowolny język. Sztuczna inteligencja ma świetną passę i świetną prasę.

Warto jednak przyjrzeć się bliżej zakodowanym w nich uprzedzeniom i temu, komu służą — a kogo mogą krzywdzić.

Cykl „SOBOTA PRAWDĘ CI POWIE” to propozycja OKO.press na pierwszy dzień weekendu. Znajdziecie tu fact-checkingi (z OKO-wym fałszometrem) zarówno z polityki polskiej, jak i ze świata, bo nie tylko u nas politycy i polityczki kłamią, kręcą, konfabulują. Cofniemy się też w przeszłość, bo kłamstwo towarzyszyło całym dziejom. Rozbrajamy mity i popularne złudzenia krążące po sieci i ludzkich umysłach. I piszemy o błędach poznawczych, które sprawiają, że jesteśmy bezbronni wobec kłamstw. Tylko czy naprawdę jesteśmy? Nad tym też się zastanowimy.

Trudno nie zgodzić się z opinią prof. Aleksandry Przegalińskiej, która w OKO.press przekonuje, że ChatGPT to pewien przełom, i to zarówno w sensie technologicznym, jak i społecznym. Odpowiedzi "udzielane" przez to narzędzie na zadane pytania są zadziwiająco przekonywające, a szeroki do niego dostęp spowodował, że błyskawicznie zaczęło cieszyć się niezwykłą popularnością.

Przeczytaj także:

Podobnie stało się też z Midjourney czy DALL-E — narzędziami generującymi obrazki na bazie podanych zapytań.

Jak grzyby po deszczu pojawiają się usługi próbujące wykorzystać te modele w kontekstach, w których nigdy wcześniej nie były one wykorzystywane. Ale, jak pisze dr Dan McMillan, autor książki "Resisting AI" ("Opieranie się Sztucznej Inteligencji"): "Nawyk dbania o »równowagę« polegającą na podkreślaniu rzekomego pozytywnego potencjału SI, powinien zostać zastąpiony poprzez przyznanie, że jej pozytywne efekty społeczne są wciąż tylko spekulacją, a wyrządzone przez nią szkody już zostały empirycznie zademonstrowane".

"Choć ChatGPT wygląda spektakularnie, to nie bardzo wiadomo, do czego praktycznie można go zastosować" — mówi w wywiadzie dla portalu Nauka w Polsce prof. Piotr Gawrysiak z Politechniki Warszawskiej.

"Trenowanie", utrzymywanie i stosowanie algorytmów uczenia maszynowego ma konkretne koszty i niesie ze sobą konkretne ryzyka, o których rzadko wspominają pełne entuzjazmu doniesienia medialne i materiały promocyjne firm je tworzących.

By móc o nich jednak rozmawiać, musimy wpierw zmierzyć się z językiem.

Sztuczna inteligencja, czyli co?

Tego rodzaju "sztuczna inteligencja" ("SI"), a dokładniej modele (w sensie modelu matematycznego) wykorzystujące uczenie maszynowe, nie są rzeczą nową. Różne ich implementacje są przecież od lat w użyciu na wiele sposobów: od filtrowania spamu i podpowiadania zakończenia pisanego przez nas zapytania w wyszukiwarce internetowej, po rozpoznawanie twarzy, obiektów i odczytywanie numerów rejestracyjnych na nagraniach z kamer monitoringu miejskiego.

Narzędzia takie, jak DALL-E czy ChatGPT, wykorzystują tzw. głębokie uczenie maszynowe. Na nim się dziś skupię.

Głębokie uczenie maszynowe to matematyka: statystyka, prawdopodobieństwo, algebra liniowa i rachunek różniczkowy. Plus dane do "wytrenowania" modelu.

Dobre (choć nigdy krótkie) wyjaśnienia tego, jak to działa, znaleźć można w Internecie (na przykład tu), ale na nasze potrzeby wystarczy wiedzieć, że wszystkie takie modele są probabilistyczne i wymagają "trenowania" za pomocą ogromnych ilości danych.

Jak ogromnych?

Zbiór ImageNet, wykorzystywany często do trenowania modeli rozpoznawania obrazów, to około 150GiB (czym się różni Gibibytes od Gigabytes przeczytasz np. tu).

Archiwum Common Crawl, użyte przy trenowaniu GPT-3 (poprzednika modelu, na którym opiera się ChatGPT) to już petabajty (tysiące terabajtów) danych.

Różne modele tworzone są do różnych zastosowań.

Modele wykorzystywane przez narzędzia tekstowe różnią się od tych stosowanych przy rozpoznawaniu obrazu (jak system stosowany np. w niektórych Żabkach), te zaś są inne niż modele wykorzystywane przy generowaniu obrazków na zadany temat (np. Midjourney czy DALL-E).

Fundamenty są jednak te same: na wejściu matematyka i mnóstwo danych, na wyjściu probabilistyczne wyniki.

Odpowiedzi bez znaczenia

Na bardzo podstawowym poziomie, zadanie modeli językowych (takich jak ChatGPT) brzmi: mając podany tekst, znajdź najbardziej prawdopodobne następne słowo, następną frazę, następne zdanie.

Z modeli językowych korzystamy od lat. Proste, codzienne zastosowania to na przykład podpowiadanie słów przy pisaniu na klawiaturze smartfona, czy podsuwanie możliwych zakończeń zapytania, które właśnie wpisujemy do wyszukiwarki. Klawiatury ekranowe smartfonów często "uczą się" na bazie tego, co piszemy, dzięki czemu z czasem dostajemy coraz lepszej jakości podpowiedzi.

ChatGPT jest oczywiście modelem znacznie bardziej zaawansowanym, "wytrenowanym" przy użyciu znacznie większej ilości danych, może więc skuteczniej "zgadywać" jakie to następne słowo czy zdanie może być. Na tyle, że nawet dłuższe wygenerowane przy jego użyciu teksty wyglądają sensownie.

Nie zmienia to faktu, że

na tym fundamentalnym poziomie nawet ChatGPT nadal jest po prostu maszynką do obliczania prawdopodobieństwa, że dane słowo czy fraza pojawi się (lub powinno się pojawić) jako następne.

A to zasadniczo co innego, niż faktyczne odpowiadanie na zadane pytanie — wymagałoby to przecież zrozumienia, o co pytamy, a nie przetwarzania wpisanego przez nas tekstu na poziomie ciągów znaków ułożonych w wyrazy.

Model nie "rozumie" naszych zapytań (ani swoich odpowiedzi), tak samo, jak słownik internetowy nie "rozumie" słów, które w nim wyszukujemy, a klawiatura ekranowa smartfona nie "rozumie" wiadomości, którą właśnie piszemy.

Udzielając odpowiedzi, ChatGPT nie próbuje nam też niczego "powiedzieć" (w sensie intencjonalnego, celowego przekazania jakiejś treści). System po prostu probabilistycznie przetwarza tekst, zwracając ciąg wyrazów czy zdań oszacowany jako najbardziej prawdopodobny.

Można więc przekornie powiedzieć, że odpowiedzi ChatGPT (i innych modeli językowych) są… bez znaczenia.

Mogą być dla nas przydatne i ciekawe, ale doszukiwanie się w nich sensu, to jak doszukiwanie się zwierząt w kształtach chmur.

Modelowa podmiotowość

Termin "uczenie maszynowe" to metafora pomagająca nam budować pewne intuicje dotyczące tego, jak te systemy działają. Faktyczne uczenie się wymaga jednak intencjonalności, podmiotowości, ciekawości, których nawet najlepsze, najbardziej rozbudowane modele nie mają i zwyczajnie mieć nie mogą.

"Istnieje różnica pomiędzy obserwowaniem, doświadczaniem, uczeniem się, zastanawianiem się nad czymś tak, jak to robią ludzie, a takim 'uczeniem się', jak w przypadku komputerów" — mówi mi dr Ali Alkhatib, dyrektor Centrum Stosowanej Etyki Danych na Uniwersytecie San Francisco.

Można oczywiście upierać się, że "sztuczna inteligencja" w formie modeli takich jak GPT-3.5 (o który oparte jest ChatGPT) ma podmiotowość, może działać intencjonalnie, i może się faktycznie uczyć — ale wtedy dla konsekwencji wypadałoby na poważnie porozmawiać o kwestiach etycznych w stylu: czy ewentualne usunięcie takiego modelu kwalifikuje się podobnie, jak zabicie zwierzęcia w ramach eksperymentu?

Jeśli to brzmi absurdalnie, to równie absurdalnie powinien brzmieć język personifikujący te systemy.

Ten język ma znaczenie. "Jednym z największych wczesnych sukcesów badaczy SI w tej dyskusji jest to, jak dziś o SI rozmawiamy — używając mianowicie tego indywidualizującego, personifikującego języka. Gdybyśmy uczciwie i bez emocji rozmawiali o generowaniu dużych dynamicznych modeli komputerowych przy pomocy zbiorów danych, i nie pozwalali wkradać się żadnym personifikującym określeniom, chce wierzyć, że dużo łatwiej by nam było przejrzeć bzdury, które ludzie próbują nam w tym kontekście wcisnąć".

Rysunek czarnek kłodki z niebieskim zamknięciem
Ilustracja: Weronika Syrkowska / OKO.press

Ocieplanie wizerunku

Antropomorfizacja modeli uczenia maszynowego ociepla więc ich wizerunek i utrudnia rozmowę o związanych z nimi problemach.

"Widzimy, że firmy takie, jak OpenAI [stojąca za ChatGPT — przyp. red.], korzystają z tego samego schematu, który został stworzony i był ulepszany przez Boston Dynamics, Amazon (zwłaszcza Ring), i inne firmy technologiczne:

najpierw zaprezentuj pewną niebezpieczną technologię w sposób tak komiksowo wręcz nieszkodliwy, że jej krytyka brzmi głupio.

Boston Dynamics ma swoje tańczące roboty, Amazon Ring reklamy z dziećmi bawiącymi się przed garażem właściciela urządzenia. Potem, po cichu, podpisuj lukratywne kontrakty z instytucjami aparatu nadzoru czy wojskiem" — zauważa dr Alkhatib.

"Celem jest przekonanie ludzi, że nawet jeśli te technologie nie są kompletnie bezpieczne i nieszkodliwe, to są przynajmniej neutralne. Gdy więc pojawią się w kontekście, który jest mniej przyjazny, trudniej jest opinii publicznej dostrzec rolę tych firm w umożliwianiu wyrządzania krzywdy. Ostatecznie chodzi o to, by opinia publiczna uznała te technologie za neutralne, czy nawet lepiej: nieuniknione".

"OpenAI podchodzi też bardzo skrupulatnie do tego, kto korzysta z modelu" — mówiła prof. Przegalińska w wywiadzie w OKO.press. "Rok temu wystąpiliśmy o dostęp do GPT–3 do generacji tekstu: i byliśmy mocno prześwietlani przez OpenAI. Firma zwraca również bardzo dużą uwagę na wypracowanie dobrych praktyk. Jeśli dzieje się coś niepożądanego, jej reakcja jest bardzo szybka. Więc od strony bezpieczeństwa na najbliższe rok - dwa jestem spokojna".

Nie zgadza się z tym dr Alkhatib: "OpenAI może twierdzić, że to demo [ChatGPT] i jego kolejne wersje z kolejnymi zabezpieczeniami są częścią swego rodzaju konsultacji ze społeczeństwem w celu zbudowania narzędzia z pozytywnymi skutkami społecznymi, że to przykład wsłuchiwania się w zdanie opinii publicznej itd. To jednak kłamstwo. Nie mamy żadnego skutecznego sposobu wpływania na to, jak OpenAI jest zarządzane i jakie podejmuje decyzje biznesowe, o czym firma doskonale wie. Są ciekawi tego, jak korzystamy z tej technologii, ale nie są faktycznie zobowiązani do wychodzenia naprzeciw niczyim potrzebom".

Czy to prawda?

ChatGPT i podobne modele w ich obecnej formie są neutralne i obiektywne, a potencjalne zagrożenia wynikają tylko ze sposobu ich wykorzystania.

Sprawdziliśmy

Dane użyte do wytrenowania modeli tworzone, dobierane i opisywane są przez ludzi, są więc pełne (często nieuświadomionych) uprzedzeń i stereotypów. Zagrożenia wynikają więc w dużej mierze z uprzedzeń i stereotypów zakodowanych w tych modelach

Technologia nie jest neutralna

"Technologia nie jest dobra ani zła; nie jest też neutralna" — to pierwsze z zaproponowanych przez historyka Melvina Kranzberga sześciu Praw Technologii.

Na przykład: nóż (prosta technologia, z której korzystamy na co dzień) sam w sobie nie jest dobry ani zły. Jednak różnica między nożem rzeźniczym i nożem do masła jest zasadnicza, a obecność jednego bądź drugiego w naszym otoczeniu nie jest neutralna.

To, jak ukształtujemy daną technologię, definiuje kto i jak z niej może korzystać… i jak łatwo (bądź trudno) za jej pomocą wyrządzić krzywdę.

Automatyczne systemy oparte o modele uczenia maszynowego krzywdę już wyrządzają. Jak w przypadku Palestyńczyka, aresztowanego kilka lat temu w Izraelu z powodu błędu w automatycznym tłumaczeniu jego wpisu na Facebooku — Arabskie "dzień dobry" zostało automatycznie przetłumaczone na język hebrajski jako "zaatakuj ich".

Albo jak w przypadku Tesli, jadącej pod kontrolą autopilota (zbudowanego rzecz jasna na bazie modelu uczenia maszynowego), która nagle zatrzymała się na ruchliwej wielopasmowej drodze, powodując kolizję kilku pojazdów.

Oba te przykłady są bardzo wyraziste, w obu przypadkach dość jasne też było, że zawiniło narzędzie oparte na "sztucznej inteligencji". Dużo większym problemem są jednak sytuacje, w których krzywda nie jest aż tak widoczna, a powód tak jasny.

Komputer mówi "nie"

Na modelach uczenia maszynowego budowane są już narzędzia, które mogą zasadniczo wpłynąć na nasze życie.

W Brazylii wdrożono system wspomagający wydawanie wyroków sądowych, oparty o "sztuczną inteligencję". Pojawiają się systemy do oceny prac i egzaminów pisemnych (oczywiście obiecując "precyzyjne i obiektywne" wyniki).

Możemy więc dostać wyższy wyrok lub nie dostać się na studia i nigdy nie dowiedzieć się nawet, że oceniał nas nieprzejrzysty model.

Jedna z największych firm technologicznych, Amazon, przez trzy lata próbował zbudować oparty o sztuczną inteligencję system oceniania osób aplikujących o pracę. Projekt został zarzucony, ponieważ szybko okazało się, że konsekwentnie znacznie niżej oceniał on aplikacje kobiet.

Firma wdrożyła jednak kontrowersyjny system rozpoznawania obrazu Rekognition, wykorzystywany m.in. przez siły policyjne w USA do rozpoznawania twarzy przestępców. Podczas testu przeprowadzonego przez organizację pozarządową ACLU, system "rozpoznał" 28 członków i członkiń Kongresu USA jako osoby oskarżone o przestępstwa.

Inny system automatycznej oceny podań o pracę poddany został audytowi. Okazało się, że premiował zwłaszcza kandydatów o imieniu Jared, którzy mieli w CV informację, że w liceum grali w Lacrosse.

Wdrożony przez holenderski urząd podatkowy automatyczny (oparty o model uczenia maszynowego) system mający pomóc wychwytywać nadużycia świadczeń socjalnych przyznawanych na dzieci niesłusznie oznaczył ponad dwadzieścia sześć tysięcy rodzin. Dla tysięcy osób oznaczało to utratę świadczeń i życiowe tragedie.

System — określony później jako przykład "instytucjonalnego rasizmu" — wdrożony był przede wszystkim wśród środowisk imigranckich i w biednych dzielnicach.

W tych i podobnych przypadkach osoby poddawane automatycznej ocenie zwykle nie mają wiedzy o tym, że taka automatyczna ocena następuje. Często nie mają też możliwości odwołania się — zwłaszcza że systemy te wciąż określane są jako "obiektywne", "neutralne", "bez uprzedzeń".

To oczywiście fikcja, ale jakże wygodna dla instytucji je wdrażających! Dana decyzja nie została podjęta przez ułomnego, uprzedzonego człowieka, a przez "obiektywny system" na podstawie twardych danych i chłodnej matematyki! Zaś matematyka i dane nie pozostawiają miejsca na uprzedzenia… Komputer mówi "nie", i tyle.

Takie podejście ma nazwę — "mathwashing".

Uprzedzony model

Ktoś jednak przecież dobiera dane użyte do trenowania modeli i decyduje o tym, kiedy i gdzie dany system wdrożyć. Uprzedzenia są więc w systemach opartych o uczenie maszynowe jak najbardziej obecne, a odpowiedzialność za nie dalej ponoszą ludzie.

Sami możemy się o tym łatwo przekonać — wystarczy spróbować wygenerować za pomocą np. Craiyon obrazy dla zapytań "professor", "doctor", "nurse" ("pielęgniarka"). Na pierwsze dwa dostałem wyniki zawierające wyłącznie mężczyzn. Na ostatnie: wyłącznie kobiety.

Podobnie program Google Translate tłumaczy z angielskiego "this is a doctor" na "to jest lekarz", a "this is a nurse" na "to jest pielęgniarka".

Stereotypy i uprzedzenia widać też jak najbardziej w odpowiedziach ChatGPT. Choć OpenAI dodało filtry mające na celu utrudnienie uzyskania rasistowskich czy seksistowskich odpowiedzi, wystarczy trochę przeformułować pytanie (na przykład prosząc o odpowiedź w formie kodu źródłowego), by je obejść.

Dane treningowe nie muszą wcale być celowo dobierane tak, by zakodować w danym modelu seksizm, rasizm, czy inne uprzedzenia. Nie trzeba być dyplomowaną badaczką patriarchatu, by rozumieć, że jeśli na przykład trenujemy nasz model na danych historycznych dotyczących osób z doktoratem, znacznie przeważać będą w nich mężczyźni.

Nie trzeba być uczoną historyczką rasizmu, by zdawać sobie sprawę, że osoby ciemnoskóre (albo o imionach niebrzmiących "europejsko") będą w takim zestawie słabo reprezentowane.

Kobiety i ciemnoskórzy niżej

Bez dodatkowej przemyślanej ingerencji jego twórców, model wytrenowany na takich danych będzie (w pewnym uproszczeniu) przyporządkowywał kobietom czy osobom ciemnoskórym niższe wartości prawdopodobieństwa bycia doktorem.

Jeśli korzystamy z takiego modelu do oceny prac doktorskich, mamy problem bardzo podobny do wspomnianego wcześniej problemu z systemem Amazona.

"Wiele algorytmów stworzonych przez duże firmy technologiczne jak Google, Microsoft, czy Amazon, wykazują uprzedzenia na bazie płci" — pisze "The Guardian".

Eksperyment przeprowadzony na potrzeby artykułu zdaje się pokazywać, że modele oceniające "erotyczność" zdjęć, klasyfikowały podobne zdjęcia bardzo różnie, najwyraźniej wyłącznie na bazie tego, czy przedstawiały mężczyzn, czy kobiety. Narzędzia te wykorzystywane są np. w LinkedIn, a na podstawie ich ocen wpisy są promowane lub zakopywane.

Dane treningowe mogą też po prostu nie zawierać pewnych kategorii. Banalny przykład: jeśli wytrenujemy prosty model rozpoznawania obrazów na zdjęciach cyfr (np. popularny zestaw danych MNIST), będzie rozpoznawał wyłącznie cyfry. Gdy spróbujemy rozpoznać nim litery, model i tak zwróci najbardziej prawdopodobne "rozpoznane" cyfry. Litery w kontekście tego modelu zwyczajnie nie istnieją.

Komu otworzyć przewód doktorski

Czy dane treningowe naszego hipotetycznego modelu oceny prac doktorskich zawierać będą kategorię osób niebinarnych? Czy będziemy pamiętać, by ująć w nim dane o niepełnosprawnościach? Jeśli nie, a użyjemy takiego modelu do oszacowania, jak wygląda przekrój osób aplikujących o otwarcie przewodu doktorskiego, model przyporządkuje osoby niebinarne do jednej z dwóch kategorii, które pojawiły się w danych treningowych. W żaden sposób nie uwidoczni też informacji o potrzebach osób z niepełnosprawnościami.

Innymi słowy, wymaże ich niebinarność i niepełnosprawności. A to oznacza konkretne konsekwencje — skoro "z danych wynika", że osób niebinarnych na danej uczelni "nie ma" (mimo że przecież są!), po co tworzyć przestrzenie dla nich bezpieczne? Skoro "komputer mówi", że osób z niepełnosprawnościami brak, nie ma co inwestować w niezbędne dla nich zmiany.

Skąd się biorą dane?

W kontekście wszelkich modeli uczenia maszynowego kluczowe jest więc pytanie o dane. Skąd pochodzą? Kto je dobiera, na podstawie jakich kryteriów? Jak i przez kogo tworzony jest ich opis, niezbędny do wytrenowania modelu?

GPT-3 używało między innymi "filtrowanego" zbioru Common Crawl, o którym wspomniałem wcześniej — stanowił on 60 proc. danych użytych w treningu (reszta to książki i Wikipedia). Ten zbiór danych zbudowany został przez indeksowanie publicznie dostępnych stron internetowych. Nie znalazłem jednak informacji, kto i w jaki sposób te dane filtrował. A to kluczowe do oceny, jakie uprzedzenia i stereotypy mogły być w nich odzwierciedlone. Są one przecież w GPT-3 niewątpliwie obecne.

Badaczki i badacze z OpenAI sami przyznali, że "modele wytrenowane na danych z Internetu mają uprzedzenia o skali Internetu".

Trudno znaleźć informację na temat tego, na jakich danych wytrenowany został model wykorzystywany przez ChatGPT, można jednak śmiało założyć, że zbiór Common Crawl (a więc dane bezpośrednio z Internetu) też był do tego wykorzystany. Nie powinno więc dziwić, że i ChatGPT wykazuje uprzedzenia.

Dokumentacja medyczna

Więcej wiadomo o zbiorach danych wykorzystywanych przy trenowaniu modeli pracujących na obrazach. I nie wygląda to dobrze. W publicznych zbiorach danych treningowych znalazły się (w niewyjaśniony jak na razie sposób) zdjęcia będące częścią dokumentacji medycznej prywatnych osób. Bez ich zgody i wiedzy, rzecz jasna.

Również bez wiedzy i zgody ich twórców, wykorzystywane w trenowaniu modeli są ich dzieła, publikowane na przykład na portalach takich, jak DeviantArt. Z punktu widzenia artystów, użycie ich dzieł w celu wytrenowania modeli wykorzystywanych w narzędziach mogących generować obrazy podobne do ich prac, jest po prostu plagiatem. Nic dziwnego, że pierwsze pozwy już wylądowały w sądach.

To pokazuje kolejny problematyczny aspekt ogromnych modeli uczenia maszynowego: dane wykorzystane przy ich tworzeniu często pozyskiwane są w sposób, który jest (mówiąc oględnie) problematyczny z punktu widzenia prawa autorskiego. To, że coś jest dostępne w Internecie, nie oznacza przecież, że udzielona została zgoda na wykorzystanie w dowolnym celu.

Mierzy się z tym również narzędzie Copilot, wytrenowane na kodzie źródłowym wolnego i otwartego oprogramowania, hostowanego na należącym do Microsoftu portalu GitHub.

Tu również pozew jest już w sądzie. Może się okazać, że oprogramowanie napisane z pomocą Copilota (zintegrowanego z popularnym środowiskiem programistycznym Visual Studio Code) narusza prawa autorskie i licencje twórców kodu użytego przy trenowaniu tego modelu.

Błądzić jest rzeczą ludzką

W przypadku modeli przetwarzających dane wizualne, same zdjęcia czy obrazy użyte nie wystarczą do ich wytrenowania. Niezbędna jest też ich kategoryzacja i opis tego, co jest na nich widoczne. To mogą zrobić tylko ludzie — z ich (często nieuświadomionymi) uprzedzeniami i stereotypami.

Zacznijmy od tego, że nawet próba opisu zdjęcia zupełnie niewinnego przedmiotu może być rzeczą dalece nietrywialną. Na temat pewnej fotografii czarno-złotej (czy niebiesko-białej?) sukienki powstały przecież od 2015 roku całe prace naukowe.

Spróbujmy sklasyfikować zdjęcia osób, a sprawa skomplikuje się jeszcze bardziej.

ImageNet, jeden z najbardziej popularnych zbiorów danych treningowych dla modeli pracujących z obrazem, opiera się na gotowej hierarchicznej bazie danych znaczeniowych WordNet (ang. "słowosieć") dla języka angielskiego, zawierającej kategorie dotyczące m.in. wykonywanego zawodu, pochodzenia etnicznego, czy preferencji seksualnych.

Innymi słowy, ImageNet "zakłada, że wystarczy przyjrzeć się czyjejś fotografii, by ustalić, czy ktoś jest »dłużnikiem«, »snobem«, »swingersem«, czy »Słowianinem« [ang. slav]. W dziwnej ontologii ImageNet istnieją oddzielne kategorie dla »adiunkta« i »profesora« — jakby awans miał powodować zmianę w czyjejś fizjonomii odzwierciedlającą zmianę w pozycji zawodowej" — czytamy w "Excavating AI" (ang. "drążąc SI"), fenomenalnej rozprawie na temat problemów z danymi używanymi do trenowania modeli rozpoznawania obrazu.

Zrzut ekranu 2023-02-17 143628

"Kategoria »ciało człowieka« znajduje się w podgałęzi Obiekt Naturalny > Ciało > Ciało Człowieka. Jej podkategorie to »ciało męskie«, »osoba«, »ciało dziecięce«, »ciało dorosłe«, »ciało kobiece«.

Kategoria »ciało dorosłe« zawiera podkategorie »żeńskie ciało dorosłe« oraz »męskie ciało dorosłe«. Znajdujemy tu domyślnie założenie: wyłącznie »męskie« lub »żeńskie« ciała są »naturalne«". Dla osób niebinarnych system kategoryzacji w ImageNet przewiduje podkategorię "hermafrodyta", której próżno szukać w drzewie "Obiekt Naturalny".

Zbiór plików graficznych i system kategoryzacji to nie wszystko — ktoś musi jeszcze przejrzeć i przyporządkować obrazy do dostępnych kategorii. Przy tworzeniu ImageNet wykorzystano tanią ludzką siłę roboczą dostępną przez usługę Amazon Mechanical Turk. A więc przypisanie kategorii (w tym rasowych czy związanych z preferencjami seksualnymi) do obrazków w ImageNet opierało się na "domysłach clickworkerów dotyczących tego, co widać na obrazkach ściągniętych z Internetu", konkluduje "Excavating AI".

Sigourney Weaver to hermafrodyta?

Efekt? Zdaniem ImageNet, aktorka Sigourney Weaver (znana np. z serii filmów "Obcy") to "hermafrodyta".

WordNet dla języka angielskiego zaczął powstawać w latach 80. ubiegłego wieku. Korzystający z niego ImageNet — ok. 15 lat temu. Ile nowych modeli rozpoznawania lub przetwarzania obrazu zostało wytrenowanych na tych kategoriach i danych od tego czasu?

"Granice mojego języka są granicami mojego świata", pisał Ludwig Wittgenstein. Nasz opis i rozumienie rzeczywistości się zmienia, opis obrazków przez raz wytrenowany model SI — nie. Nie tylko replikujemy nasze uprzedzenia, ale je cementujemy.

Przy tworzeniu ChatGPT, firma OpenAI również oparła się na pracy nisko wynagradzanej siły roboczej.

"Od listopada 2021 OpenAI wysłało dziesiątki tysięcy fragmentów tekstu do firmy outsourcingowej w Kenii. Znaczna ich część najwyraźniej wzięta została z najciemniejszych zakamarków Internetu. Niektóre opisywały szczegółowo sytuacje dotyczące seksualnego wykorzystywania dzieci, zoofilii, morderstwa, samobójstwa, tortur, samookaleczenia, czy kazirodztwa" — pisze magazyn "Time".

W zamian za bycie wystawionymi na takie treści, moderatorzy i moderatorki dostawali od firmy wartej dziś prawie trzydzieści miliardów dolarów niecałe dwa dolary za godzinę.

Eko-kolonializm

Dwa lata temu zespół badaczek (w tym pracujących nad modelami uczenia maszynowego w Google) napisał kluczową pracę naukową skupiającą się na zagrożeniach związanych z dużymi modelami językowymi — do których dziś zalicza się ChatGPT.

Autorki przyglądają się między innymi wpływowi trenowania i utrzymywania takich modeli na środowisko. Wytrenowanie modeli rzędu wielkości mniejszych niż ChatGPT to setki ton CO2 wyemitowanych do atmosfery, wymaga niewyobrażalnych nakładów energii i potężnych zasobów sprzętowych.

Innymi słowy, narzędzia typu ChatGPT tworzone (i kontrolowane!) mogą być wyłącznie przez ogromne firmy. Nic dziwnego, że Microsoft ma zainwestować 10 miliardów dolarów w OpenAI. To musi być punkt wyjścia w jakiejkolwiek rozmowie o korzystaniu z nich w sposób "demokratyczny".

I o ile narzędzia te są głównie kierowane na rynek rozwiniętej Globalnej Północy, to z konsekwencjami zmian klimatycznych wynikających z emisji CO2 już dziś bezpośrednio mierzyć się muszą osoby z Globalnego Południa.

"Czy uczciwe jest, by mieszkańcy Malediwów (które prawdopodobnie znikną pod powierzchnią wody do 2100 r.) lub 800 tys. osób w Sudanie, dotkniętych drastycznymi powodziami, płaciło ekologiczną cenę trenowania i wdrażania dużych angielskojęzycznych modeli językowych, skoro podobnej wielkości modele nie są w ogóle tworzone dla języków dhiveni czy stosowanego w Sudanie języka arabskiego?" — pytają badaczki, które niedługo po publikacji pracy zostały przez Google zwolnione lub zmuszone do odejścia.

Mansplaining jako usługa

Google właśnie pokazało swoja odpowiedź na ChatGPT. Podczas demonstracji, narzędzie Google Bard nie uniknęło błędnej odpowiedzi na dość proste pytanie dotyczące Teleskopu Webba.

Jakość odpowiedzi dopiero co udostępnionego zintegrowanego z wyszukiwarką Bing chatbota Microsoftu nie jest wcale lepsza.

"ChatGPT był w stanie wygenerować pełne dane bibliograficzne dla tego cytowania — sprawdziłam to ponownie i odkryłam, że takiego artykułu nie ma. Mimo to ChatGPT ochoczo podsumował mi jego zawartość" — pisze cytowana przez polską organizację fact-checkingową Demagog Teresa Kubacka, ekspertka od data science.

Problem w tym, że te i podobne narzędzia generują tekst często z błędami merytorycznymi, ale zawsze ociekający pewnością siebie. To jak Mansplaining-as-a-Service ("mansplaining jako usługa").

Demagog też przyjrzał się odpowiedziom ChatGPT i doszedł do podobnych wniosków.

Kryzys z dezinformacją się pogłębi

"W moim ostatnim teście narzędzie usilnie starało się mnie przekonać, że za zbrodnię katyńską odpowiedzialni są Niemcy, w tym osobiście Wilhelm Keitel" — słyszę od dr. Pawła Terpiłowskiego z Demagoga. Podkreśla, że "krytycznie ważna jest umiejętność weryfikacji informacji w kilku, niezależnych od siebie i wiarygodnych źródłach.

Nikt bowiem nie ma monopolu na prawdę - o niej decydują fakty. W erze półautomatycznego, a z czasem i pewnie w pełni automatycznego tworzenia treści, fact-checking będzie jedynie nabierał na znaczeniu".

Wpływ ChatGPT i podobnych modeli językowych na dezinformację będzie więc asymetryczny. Nie nadają się do automatycznego fact-checkingu. Sprawdzą się jednak świetnie do generowania niezgodnych z faktami, ale dobrze brzmiących treści, które trzeba będzie pracowicie weryfikować. Kryzys związany z dezinformacją tylko się pogłębi.

Wielki eksperyment społeczny

Rację ma prof. Przegalińska: ChatGPT, podobne ogromne modele językowe, i ogólnie zaawansowane modele uczenia maszynowego, to "wielki eksperyment społeczny, w którym wszyscy bierzemy udział". Nikt nas jednak nie spytał o naszą na to zgodę.

Nie spytano artystów, których dzieła zostały użyte do wytrenowania narzędzi kopiujących dziś ich styl. Nie spytano programistek, których kod z GitHuba wylądował w Copilocie.

Nie spytano nas, czy czujemy się komfortowo z maszynkami ułatwiającymi tworzenie dezinformacji. Nie spytano osób, których zdjęcia wykorzystano w ImageNet i innych treningowych zbiorach danych.

I nikt nie zadał sobie trudu spytać, czy dobrym pomysłem jest, by wytrenowane na danych pełnych stereotypów i uprzedzeń narzędzia wdrażać przy ocenianiu nas w szkole, miejscu pracy, czy na lotnisku.

Technologia nie jest ani dobra, ani zła, nie jest też neutralna. Możemy zaprojektować nóż do smarowania masła, którym trudno kogoś skrzywdzić, możemy więc też stworzyć modele uczenia maszynowego, które minimalizują tego typu ryzyka i nadużycia.

Badaczki i badacze sztucznej inteligencji tacy, jak (cytowany wcześniej) dr Alkhatib czy dr Timnit Gebru (jedna z badaczek zmuszonych do odejścia z Google za wspomnianą wcześniej publikację) w swoich pracach naukowych wskazują, jak to zrobić.

Należałoby zapytać, czy te ogromne modele są w ogóle potrzebne, czy nie lepiej skupić się na modelach mniejszych, wyspecjalizowanych, wymagających mniejszych zbiorów danych treningowych. Dokładnie te zbiory opisać, zbadać uważnie pod kątem uprzedzeń i stereotypów. Zainwestować czas w pracę nad modelami do konkretnych zastosowań, wymagającymi niższych nakładów energii i zasobów, zamiast skupiać się na budowaniu coraz większych modeli ogólnych.

Oznaczałoby to jednak dodatkowe koszty i mniejszą szansę na rozgłos, a na to przecież udziałowcy Microsoftu, Google, czy Amazona nie mogą się zgodzić. Jak widać, z ich zdaniem wszyscy musimy się liczyć.

;
Wyłączną odpowiedzialność za wszelkie treści wspierane przez Europejski Fundusz Mediów i Informacji (European Media and Information Fund, EMIF) ponoszą autorzy/autorki i nie muszą one odzwierciedlać stanowiska EMIF i partnerów funduszu, Fundacji Calouste Gulbenkian i Europejskiego Instytutu Uniwersyteckiego (European University Institute).
Na zdjęciu Michał rysiek Woźniak
Michał rysiek Woźniak

Specjalista ds. bezpieczeństwa informacji, administrator sieci i aktywista w zakresie praw cyfrowych. Studiował filozofię, był członkiem Rady ds. Cyfryzacji, jest współzałożycielem warszawskiego Hackerspace’a. Pracował jako Dyrektor ds. Bezpieczeństwa Informacji w OCCRP – The Organised Crime and Corruption Reporting Project, konsorcjum ośrodków śledczych, mediów i dziennikarzy działających w Europie Wschodniej, na Kaukazie, w Azji Środkowej i Ameryce Środkowej. Współpracuje z szeregiem organizacji pozarządowych zajmujących się prawami cyfrowymi w kraju i za granicą. Współautor „Net Neutrality Compendium” oraz “Katalogu Kompetencji Medialnych”.

Komentarze