SI wcale nie jest inteligentna, ponieważ każdorazowo wymaga obliczeniowo bardzo intensywnych, łopatologicznych treningów. Zamiast o SI mówmy o automatach obliczeniowych, zrywając z ideologią reklamową — to opinie niektórych badaczy. Rozpatrzmy te zarzuty po kolei
Już od swoich początków w połowie XX wieku przed tworzącą się młodą dyscypliną, jaką ówcześnie była sztuczna inteligencja (SI), jej twórcy i pionierzy roztaczali bardzo ambitne wizje rozwoju. Jednym z nich niewątpliwie był zmarły w 2016 roku Marvin Minsky.
W 1970 roku przewidywał on, iż „Za trzy do ośmiu lat będziemy w posiadaniu maszyny o ogólnej inteligencji na poziomie przeciętnego człowieka” (tłum. własne – JM).
Tego, że niewiele zostało z tej śmiałej przepowiedni, nie trzeba tłumaczyć. Niemniej, jako przedstawiciel swojej epoki, Minsky wyraził ideę, nazywaną też niekiedy grzechem pierworodnym SI, jakoby zadaniem stojącym przed tą dyscypliną miałoby być doścignięcie (lub nawet prześcignięcie) człowieka pod względem intelektualnym.
Samo pojęcie ogólna inteligencja ewoluowało na przestrzeni lat, odnosząc się niekiedy do tzw. ogólnej sztucznej inteligencji (artificial general intelligence, AGI) – czyli takiej, która byłaby nieodróżnialna od człowieka albo wręcz przewyższała go intelektualnie.
Co ciekawe, ale i poważnie zastanawiające, taka narracja o AGI ma się zaskakująco dobrze w kręgach Doliny Krzemowej. Bywa tam wręcz traktowana jak biblijny Święty Graal – coś, czego nikt nigdy nie widział, ale wielu chciałoby wejść w posiadanie.
Nie trzeba daleko szukać, przecież firma OpenAI w swoim statucie otwarcie przyznaje, iż ich misją jest właśnie dążenie do AGI rozumianej przez nich jako „wysoce autonomiczny system, który przewyższa człowieka w ekonomicznie wartościowych pracach” (tłum. własne – JM).
Także prezes OpenAI, Sam Altman, w swoich tweetach niekiedy odwołuje się do nie mniej enigmatycznego pojęcia superinteligencji.
AGI, nadludzka inteligencja czy superinteligencja to bardzo mgliste, niejasne pojęcia, niemniej ich popularność pokazuje dobitnie, iż myślenie o SI w kontekście osiągnięcia czy prześcignięcia ludzkich zdolności poznawczych wciąż dominuje w postrzeganiu tej dyscypliny.
Co ciekawe, ponad 50 lat po słowach Minskiego wciąż można natrafić, także w polskiej przestrzeni medialnej, na analogiczne wypowiedzi zakładające przykładowo, iż:
„W ciągu kilku lat to (SI – przyp. JM) będzie lepsze niż przeciętny człowiek, a w ciągu kolejnych kilku może być dużo mądrzejsze niż przeciętny człowiek (…) W 2030, IQ ChataGPT lub czegoś podobnego, (będzie – przyp. JM) na wysokości, na poziomie przeciętnego człowieka”.
Należy tu od razu sprostować, iż przypisywanie SI inteligencji ludzkiej (zwłaszcza mierzonej testem IQ) to analogicznie jak zakładanie, iż sztuczna inteligencja może być na poziomie dziecka – ślepa uliczka antropomorfizmu. Zwłaszcza jeśli przewiduje się, iż to domniemane IQ miałoby konsekwentnie wzrastać.
A umieszczanie takich wypowiedzi w bliskim (choć i tak ciągle odsuwanym) horyzoncie czasowym „za 5 lat”, „do końca dekady” niepotrzebnie pompuje i tak już rozbuchany hype na SI.
W tym momencie należy zapytać, czym w ogóle w takim razie jest ta ludzka, niesztuczna inteligencja? Za prof. Edwardem Nęcką, psychologiem poznawczym z Uniwersytetu Jagiellońskiego, można przyjąć, że:
„Inteligencją nazywamy zdolność umysłu ludzkiego do rozwiązywania problemów nowych lub złożonych.
Za tą zdolnością kryją się liczne procesy umysłowe, np. związane z wydolnością pamięci operacyjnej lub skutecznością procesów myślenia”.
Czy takie ujęcie może odnosić się również do sztucznej inteligencji?
Jak wspominałem w przywołanym wyżej moim tekście opublikowanym w OKO.press, wchodząc w interakcję z SI, niejako instynktownie uciekamy się do antropomorfizacji, przedstawiając sobie tę technologię na nasze podobieństwo.
Widząc, iż odpowiada cokolwiek spójnie na pytania, jest w stanie rozwiązać szereg problemów, czy zadań, skłonni jesteśmy przyjąć, iż faktycznie jakaś forma inteligencji, choćby dalece niedoskonałej, musi się za tym kryć.
W mediach pojawiają się co rusz sugestywne doniesienia, iż przykładowo generatywna SI zdała egzamin prawniczy, maturę z polskiego czy nawet oszukała ludzi w debacie, sugerujące, iż może ona dysponować intelektem nie gorszym od ludzkiego.
To bardzo uwodzicielski, ale iluzoryczny mechanizm, przed którym przestrzega profesor Margaret Mitchell w swoim tekście z lipca 2023 pt. „How do we know how smart AI systems are?”.
Wg prof. Mitchell istnieją trzy poważne kwestie, za sprawą których takie nowinki jak SI należy przyjmować z daleko idącą ostrożnością.
Pierwsza z nich dotyczy zjawiska tzw. zanieczyszczenia danych, które najłatwiej porównać do notorycznych już przecieków pytań maturalnych. Wszak ogólną ideą egzaminu jest przecież to, by nie widzieć pytań przed jego rozpoczęciem. Zanieczyszczenie danych polega właśnie na tym, iż model czy algorytm zapoznał się już w procesie trenowania z danymi pytaniami (i odpowiedziami na nie).
Dlatego takie późniejsze testowanie jest bardzo niemiarodajne, gdyż
odpytujemy co najwyżej ze zdolności zapamiętywania treści przez model, aniżeli ogólną zdolność umysłową – o ile w ogóle można o czymś takim mówić w kontekście SI.
Warto mieć to na uwadze, kiedyś w mediach społecznościowych ktoś znów będzie rozpływał się nad domniemanymi zdolnościami ChataGPT (czy analogicznych narzędzi) w kontekście rozumowania czy logicznego myślenia, podczas gdy rozwiązania takich problemów znajdują się na pierwszej stronie wyszukiwarki.
Problem zanieczyszczenia danych dodatkowo potęgowany jest przez brak transparentności SI, choćby w kontekście wglądu w dane, na których ją trenowano.
Oprócz w zasadzie notorycznych, w kontekście generatywnej SI, problemów z naruszaniem prawa autorskiego, brak informacji o źródłach danych negatywnie wpływa na nasze rozumienie, np. w jaki sposób działają modele SI.
W ciągu kilku lat SI będzie lepsze niż przeciętny człowiek, a w ciągu kolejnych kilku może być dużo mądrzejsze niż przeciętny człowiek. W 2030 r. IQ ChataGPT lub czegoś podobnego na poziomie przeciętnego człowieka
Stworzony zgodnie z międzynarodowymi zasadami weryfikacji faktów.
Drugi problem wg prof. Mitchell dotyczy wiarygodności czy rzetelności rozmaitych testów, czy procedur, jakimi poddaje się SI. O ile ludzie raczej mają zdolność abstrakcyjnego myślenia i np. przeformułowanie problemu albo użycie lekko zmienionego przykładu nie powinno pogorszyć wyniku testu, z narzędziami generatywnej SI sprawa ma się inaczej – narzędzia te są wrażliwe nawet na drobne zmiany w treści poleceń.
W tzw. paradygmacie zadań kontrfaktycznych testuje się właśnie takie zdolności np. rozumienia abstrakcyjnego pojęcia, jakim jest alfabet, ale w warunkach zmienionej kolejności liter (np. a b c d m), lub w sytuacji, kiedy alfabet składa się z umownych symboli (np. & > $ ! +).
Badania pokazują, iż o ile ludzie potrafią rozumować analogicznie przy użyciu abstrakcyjnego pojęcia, jakim jest alfabet, o tyle modelom językowym wychodziło to gorzej. Oczywiście przy zadaniach z alfabetem w tradycyjnej kolejności, modele językowe radziły sobie bardzo dobrze, co nie powinno dziwić, wszak na takim przecież zostały wytrenowane.
Takie oraz inne badania pokazują ponadto, iż ludzie potrafią myśleć abstrakcyjnie za pomocą symboli oraz stosować analogie czy generalizować. Jesteśmy zdolni także do myślenia krytycznego oraz do stosowania wnioskowania przyczynowo-skutkowego. Nasze poznanie jest przy tym niezwykle elastyczne. Z tym wszystkim SI radzi sobie znacznie gorzej.
Odwołując się do definicji inteligencji przytoczonej przez prof. Nęckę, widać wyraźnie, iż ludzie potrafią rozwiązywać nowatorskie problemy, podczas gdy SI raczej niekoniecznie.
SI za to chętnie „chodzi na skróty” – tj. dopatruje się pewnych powierzchownych, statystycznych związków w danych, lecz czyni to bez zrozumienia istoty problemu.
W pewnym badaniu algorytm SI służący do pracy z obrazami medycznymi nauczył się bardzo dobrze rozpoznawać zmiany skórne jako nowotwory złośliwe. Był to jednak zupełnie przypadkowy efekt, ponieważ na zdjęciach przedstawiających takie zmiany była często widoczna linijka centymetrowa.
Na zdjęciach ze zmianami łagodnymi raczej się nie pojawiała, stąd algorytm na skróty połączył obecność linijki występowaniem diagnozy. Była to na swój sposób „sprytna” strategia, ale czy na pewno inteligentna?
Takie pobieżne łączenie wybranych informacji, bez głębszego zrozumienia istoty problemu wydaje się dobrze opisywać sposób działania multimodalnych modeli SI, które generują obrazki pełne fizycznych nieścisłości czy nawet sprzeczności.
Należy tu wspomnieć niedawne demonstracje generatora filmów SORA od OpenAI czy modelu Google o nazwie Gemini. Dokładniejszy rzut oka na treści wygenerowane przez model SORA pozwala zauważyć np. ptaki lecące do tyłu, czy szachownicę o układzie pól siedem na siedem, co sugeruje, że mamy do czynienia z nieprzyswojeniem fundamentalnych praw fizyki czy podstawowych faktów wiedzy o świecie.
Google zresztą przyznało, iż demonstracja ich modelu Gemini, który potrafiłby wnioskować o świecie, okazała się być w pewnej mierze ręcznie podrasowaną mistyfikacją.
Należy więc do takich demonstracji podchodzić ze stosowną dawką sceptycyzmu, jako że są one nader często po prostu starannie wyselekcjonowane, czy wręcz, jak to ma miejsce dla modelu SORA, wyreżyserowane. O prawdziwych zdolnościach modeli można się dopiero przekonać po serii rzetelnych, eksperymentalnych badań, które również wezmą pod uwagę problem zanieczyszczenia danych czy uczenia się na skróty przez SI.
Z połączenia pozostałych problemów powstał jeszcze trzeci bardziej złożony problem związany z benchmarkami, czyli swoistymi, bardzo popularnymi w informatyce, testami wydajności czy skuteczności oprogramowania, czy sprzętu komputerowego.
Benchmarki dla dużych modeli językowych służą do tego, aby w wystandaryzowany sposób porównywać ich możliwości ze sobą, np. jak dobrze radzą sobie z konkretnymi zadaniami dotyczącymi wnioskowania czy rozumienia tekstu.
Jak się okazuje, można je stosować także do porównywań modeli z ludźmi. Skądinąd wiadomo, że z owymi benchmarkami jest ogólnie dużo problemów, gdyż są cokolwiek niemiarodajne oraz obarczone wątpliwą metodologią, w jaki sposób zostały wyznaczone, jak dobrano zadania testowe itd.
Ostatnio pojawiały się doniesienia, iż SI przewyższa ludzi w szerokim zakresie zdolności intelektualnych takich jak np. czytanie ze zrozumieniem. Problem w tym, że benchmarki dla SI wcale nie gwarantują, że nie doszło do zanieczyszczenia danych ani nie wykluczają możliwości zastosowania uczenia się na skróty.
Nie mówią też za wiele, jak dany model czy algorytm będzie sobie radził w prawdziwym świecie, na innych danych. Stąd, trafnie podsumowuje to prof. Mitchell na swoim Substacku, argumentując, że:
„To, że SI przewyższa ludzi na jakimś benchmarku, nazwanym od jakiejś zdolności poznawczej, nie oznacza wcale, że SI faktycznie przewyższa ludzi pod względem tej zdolności poznawczej”. [Tłum. własne – JM]
Ponadto prof. Mitchell przestrzega, ażeby nie wyciągać daleko idących wniosków z dowodów anegdotycznych, nierzetelnych benchmarków, czy bezkrytycznego stosowania na SI testów psychologicznych przeznaczonych dla ludzi.
Nie zapominajmy także o nieprzejrzystości modeli SI pod kątem tego, jak były trenowane. Należałoby też opracować nowe benchmarki, dbając przy tym o ich rygorystyczną metodologię.
Warto też zapoznać się z bogatym dorobkiem badań eksperymentalnych testujących zdolności intelektualne u dzieci czy nawet u osobników innych gatunków. Dałoby to badaczom i twórcom współczesnej SI niewątpliwie bardziej pogłębiony wgląd w inne sposoby inteligentnego funkcjonowania w świecie, aniżeli ten wyznaczony już prawie 70 lat temu wraz z narodzinami dyscypliny sztucznej inteligencji.
Jak zatem obecnie traktować domniemaną inteligencję sztucznej inteligencji?
Niektórzy krytycznie nastawieni badacze technologii, tacy jak Kate Crawford, argumentują, iż w zasadzie SI wcale nie jest inteligentna (ani też sztuczna, lecz to osobny temat), ponieważ każdorazowo wymaga obliczeniowo bardzo intensywnych, z góry określonych, wręcz łopatologicznych treningów.
Krok dalej w swojej krytyce idzie prezeska komunikatora Signal i założycielka AI Now Institute Meredith Whittaker tweetując, iż „termin AI to chwyt marketingowy odnoszący się do obliczeniowo intensywnych opartych o dane systemów, które w ogóle nie są inteligentne (tłum. własne – JM)”.
Podobnie na polskim gruncie prof. UŚ Michał Krzykawski argumentuje: „Zamiast o sztucznej inteligencji mówmy zatem o automatach obliczeniowych lub cyfrowych, zrywając tym samym z ideologią reklamową”.
To niewątpliwie interesujące argumenty patrzące na SI z zupełnie innej perspektywy i na pewno warte rozważania. Abstrahując na moment od terminologii czy i jak dalece poziom reprezentowany przez SI zasługuje na miano jakkolwiek rozumianej inteligencji, warto przytoczyć jeszcze pod koniec historyczną anegdotę o poczciwym koniu zwanym sprytnym Hansem.
Sprytny Hans żył ponad 100 lat temu w Niemczech i, jak na konia, był nad wyraz bystry, gdyż rzekomo rozumiał język niemiecki i posiadał pewne umiejętności arytmetyczne. Odpowiedzi, np. na pytanie, ile to jest 2+2, komunikował, stukając czterokrotnie kopytem.
Dopiero po wnikliwych obserwacjach okazało się, iż Hans jest owszem sprytny, ale nie w kwestii matematyki, a co najwyżej w kwestii obserwacji swojego właściciela. Hans obserwował u niego subtelną mowę ciała i na tej podstawie decydował, czy kontynuować stukanie kopytem, w taki sposób, ażeby ostatecznie zadowolić swojego właściciela, niezależenie od tego, o co w ogóle chodziło w danym zadaniu.
Analogicznie może się mieć rzecz z SI. Podobnie jak to ma miejsce w przypadku sprytnego Hansa, inteligencja jest w oku patrzącego na podpowiedzi – a, jak wiemy, my ludzie chętnie przypisujemy ludzkie cechy naszemu nie-ludzkiemu otoczeniu.
Jako podsumowanie niech posłuży niedawne doniesienie w najstarszym amerykańskim czasopiśmie popularnonaukowym Scientific American (w dziale opinii, a więc pozwalającym na nieco większą swobodę wypowiedzi).
Ukazała się tam subiektywna opowieść pewnej fińskiej psycholożki klinicznej Eki Roivainen, która z czystej ciekawości przetestowała wersję ChatGPT-4 na kilku podskalach najpopularniejszego testu IQ, jakim jest test inteligencji WAIS (Wechsler Adult Intelligence Scale).
Na podstawie odpowiedzi tej wersji Chata, oszacowane IQ wynosiłoby 155, a zatem więcej niż 99.9 proc. populacji. Czy to znaczy, że jednak faktycznie już teraz SI przerasta intelektualnie bez mała całą ludzkość, a wszystko prognozy w końcu się sprawdziły?
Bynajmniej. Jak więc należy interpretować taki wynik? Najlepiej tak jak autorka, Eki Roivainen, pisząca, wbrew popularnemu powiedzeniu, iż widocznie inteligencja (której ChatGPT-4 nie za bardzo wykazuje) to coś więcej, niż tylko to, co mierzą stosowne testy.
Cykl „SOBOTA PRAWDĘ CI POWIE” to propozycja OKO.press na pierwszy dzień weekendu. Znajdziecie tu fact-checkingi (z OKO-wym fałszometrem) zarówno z polityki polskiej, jak i ze świata, bo nie tylko u nas politycy i polityczki kłamią, kręcą, konfabulują. Cofniemy się też w przeszłość, bo kłamstwo towarzyszyło całym dziejom. Rozbrajamy mity i popularne złudzenia krążące po sieci i ludzkich umysłach. I piszemy o błędach poznawczych, które sprawiają, że jesteśmy bezbronni wobec kłamstw. Tylko czy naprawdę jesteśmy? Nad tym też się zastanowimy.
Asystent w Katedrze Zarządzania w Społeczeństwie Sieciowym w Akademii Leona Koźmińskiego. Do zainteresowań naukowych należą kształtowanie się postaw tożsamościowych w mediach społecznościowych, interakcja człowiek-AI, poznanie społeczne, a także wpływ rozwoju technologicznego oraz przemian społeczno-ekonomicznych na rynek pracy, jak również na sensowność pracy jako takiej.
Asystent w Katedrze Zarządzania w Społeczeństwie Sieciowym w Akademii Leona Koźmińskiego. Do zainteresowań naukowych należą kształtowanie się postaw tożsamościowych w mediach społecznościowych, interakcja człowiek-AI, poznanie społeczne, a także wpływ rozwoju technologicznego oraz przemian społeczno-ekonomicznych na rynek pracy, jak również na sensowność pracy jako takiej.
Komentarze