0:00
0:00

0:00

Prawa autorskie: il. Iga Kucharska / OKO.pressil. Iga Kucharska / ...

W środę 9 października 2024 Królewska Szwedzka Akademia Nauk ogłosiła, że tegoroczna Nagroda Nobla w dziedzinie chemii została przyznana trzem badaczom za przełom w odkrywaniu struktur białek. Nagrodę podzielono na dwie części. Jedną otrzymał Denis Baker z USA, drugą część przyznano wspólnie Demisowi Hassabisowi i Johnowi M. Jumperowi z Wielkiej Brytanii.

David Baker opracował skomputeryzowane metody projektowania nowych białek. Nowych, czyli takich, które wcześniej nie istniały i które mają zupełnie nowe funkcje. „Grupa badawcza Bakera stworzyła jedno kreatywne białko za drugim, w tym białka, które można wykorzystać w lekach, szczepionkach, nanomateriałach i maleńkich czujnikach” – tak Akademia uzasadniała przyznanie nagrody Bakerowi.

Z kolei Hassabis i Jumper „wykorzystali swój model sztucznej inteligencji AlphaFold2 do obliczenia struktury wszystkich ludzkich białek. Przewidzieli również strukturę praktycznie wszystkich z około 200 milionów białek, które naukowcy do tej pory odkryli podczas mapowania organizmów Ziemi”.

Przeczytaj także:

Co ma Google do Nobla

Nagroda dla Hassabisa i Jumpera była w zasadzie do przewidzenia. Twórcy AlphaFold, sieci neuronowej przewidującej przestrzenną strukturę białek (w pewnym uproszczeniu jest to bardzo rozbudowany program komputerowy), zostali w zeszłym roku laureatami Breakthrough Prize w naukach o życiu, dostali też medyczną nagrodę Laskera, uznawaną za przedsionek do Nagrody Nobla.

AlphaFold i jego następcy (bo jest już wersja z cyfrą trzy na końcu) zostały opracowane przez spółkę DeepMind, założoną przez Hassabisa w 2010 roku. Cztery lata później, w 2014 roku firmę kupił Google. Wzbudziło to nieco oporu w naukowym świecie, jak wiadomo, firmy nie powstają dla postępu nauki, lecz by przynosić zyski akcjonariuszom. (Tu rolę odegrał zespół Bakera, o czym nieco później).

Nie zmienia to jednak, że tegoroczny nobel z chemii jest niezmiernie ciekawy. Nagrodzono bowiem dość młode i dynamicznie rozwijające się oblicze chemii – chemię obliczeniową, opartą na sztucznej inteligencji.

I zasłużenie, bo za olbrzymi postęp, który dokonał się raptem w kilka lat.

„Życie jest formą istnienia białka”

Aby wyjaśnić, po co chemikom od białek sztuczna inteligencja, musimy wyjaśnić najpierw, że białka to długie łańcuchy połączonych ze sobą aminokwasów. Najkrótsze białka są zbudowane z kilku, kilkunastu aminokwasów (zwane są wtedy peptydami). Najdłuższe białkowe łańcuchy liczą natomiast dziesiątki tysięcy aminokwasowych ogniw.

Nie ma przesady w tym, że jesteśmy istotami zbudowanymi z białek. W organizmach żywych pełnią niebywale wiele ról.

Białko może być transporterem (jak hemoglobina, albuminy i lipoproteiny), przeciwciałem reagującym na zewnętrznego wroga (jak immunoglobuliny i interferony). Może stanowić “rusztowanie” (kolagen, elastyna, keratyna) lub poruszać mięśnie (aktyna i miozyna).

Białko może być też przyspieszającym komórkowe procesy enzymem lub przekazującym sygnały receptorem.

Wiele związków chemicznych w organizmie oraz znakomita większość leków działa, bo pasuje do odpowiedniego białka niczym klucz do zamka. A to, czy będzie pasował, zależy od struktury przestrzennej, czyli kształtu białka.

Krystalografia, czyli rentgenem w białko

Produkowane w komórkach białkowe łańcuchy mają strukturę wolno unoszących się nici. Szybko jednak zwijają się w skomplikowane, poskręcane struktury, przypominające węzły. To, jaką rolę będzie pełnić dane białko, zależy i od kolejności aminokwasów, i od kształtu, w jaki zwinie się białkowa nić.

Z których aminokwasów składa się białko, można ustalić na kilka sposobów. Metody te zwane są sekwencjonowaniem białek. Mają jedną wadę: z ich pomocą można ustalić kolejność składników, ale nie strukturę przestrzenną białka.

Badanie struktur przestrzennych białek jest możliwe w laboratoriach. Niestety jest wyjątkowo żmudne. Wymaga czasochłonnych eksperymentów, takich jak krystalografia rentgenowska i mikroskopia krioelektronowa (krio-EM).

Do metod krystalograficznych, jak sugeruje nazwa, potrzebne jest białko w postaci krystalicznej. Białka bowiem, tak, jak sól czy cukier, mogą przybierać regularne struktury przestrzenne – czyli formę kryształów.

[Krystalografia polega na prześwietleniu kryształów i rejestracji obrazów dyfrakcyjnych promieni rentgenowskich, odbijanych przez elektrony atomów tworzących strukturę kryształu. Z tych obrazów tworzy się pewną trójwymiarową mapę, a jej matematyczna analiza umożliwia wyznaczenie pozycji i odległości poszczególnych cząsteczek względem siebie.]

100 tysięcy białek w pół wieku

Po raz pierwszy krystalografię rentgenowską, by określić pierwsze trójwymiarowe modele białek, zastosowali John Kendrew i Max Perutz w połowie ubiegłego wieku. Otrzymali za to Nagrodę Nobla w dziedzinie chemii w 1962 roku.

Nie jest ani tania, ani szybka metoda. Nowoczesne urządzenie kosztuje setki tysięcy euro, dane zbierane są przez czas od kilku godzin do kilku tygodni, kolejne miesiące może zająć ich analiza.

Niestety do krystalografii potrzebny jest też czysty monokryształ (bez żadnych zanieczyszczeń). W przypadku niektórych białek jest to szczególnie trudne, a innych – wręcz niemożliwe.

Istnieją także inne metody badania struktury białek, ale nie zmienia to podstawowego warunku. Jeśli białko trudno uzyskać lub jest nietrwałe, to nie ma czego badać – nawet jeśli jest jak.

Po półwieczu badań udało się ustalić struktury przestrzenne około stu tysięcy różnych białek. To mniej więcej pół promila wszystkich znanych. Na określenie struktury przestrzennej czekało w kolejce ponad sto milionów (tak) kolejnych.

Białka, czyli czego nie mogą (super)komputery

Od lat osiemdziesiątych ubiegłego wieku do modelowania struktur przestrzennych białek wykorzystywano też komputery. Techniki obliczeniowe pozwalające symulować prawdopodobne ułożenie aminokwasów były skomplikowane. Wymagały tygodni, czasem miesięcy pracy superkomputerów nawet dla krótkich białek, zbudowanych z kilkudziesięciu aminokwasów.

Dlaczego? Załóżmy, że każdy aminokwas może się ułożyć względem poprzedniego tylko na trzy sposoby (na przykład w lewo, w prawo lub do góry). W przypadku białka złożonego ze stu aminokwasów możliwych kombinacji jest 3 do potęgi setnej. Jak wyliczał w 1969 roku Cyrus Levinthal, wyliczanie tego sekunda po sekundzie zajmie dłużej niż wiek istnienia Wszechświata.

Nawet superkomputerowi wykonującemu biliard operacji na sekundę (czyli o mocy obliczeniowej jednego petaflopa) wyliczenie możliwych kombinacji ułożenia 50 aminokwasów zajęłoby kilkaset lat.

A przecież niektóre białka mogą się składać z tysięcy aminokwasów.

Sztuczna inteligencja, czyli cyfrowe analogie

Gdy pojawiły się algorytmy uczenia maszynowego, zaczęto pokładać nadzieje, że przyspieszą rozpracowywanie struktury przestrzennych białek. Postęp w tej dziedzinie był jednak z początku niewielki.

Critical Assessment of Techniques for Protein Structure Prediction (CASP) to konkurs organizowany od 1994 roku co dwa lata. Startują w nim zespoły, a w zasadzie opracowane przez nich algorytmy uczenia maszynowego.

Każdy zespół otrzymuje sekwencje białek, których struktura została ustalona eksperymentalnie (ale nie została jeszcze opublikowana). Poddawane testowi algorytmy mają je rozgryźć – na podstawie sekwencji aminokwasów zaproponować ich ułożenie w przestrzeni.

Takie algorytmy nic nie liczą (jak już wiemy, trwałoby to całe wieki). Są wcześniej uczone na licznych przykładach znanych już białek, jak kolejność aminokwasów przekłada się na strukturę przestrzenną.

Działają na zasadzie analogii, „skoro tam było tak, to tu pewnie będzie tak samo”. Zresztą tak działa każdy algorytm uczenia maszynowego.

Czy to prawda?

Chemikom i biologom nie przyda się sztuczna inteligencja, która przetwarza tylko znane już dane

Sprawdziliśmy

Algorytmy uczenia maszynowego, których twórcy zdobyli tegoroczną Nagrodę Nobla w dziedzinie chemii, pozwoliły odkryć szczegółową budowę aż 99,95 procent ludzkich białek.

AlphaFold, czyli krzywa w górę

Po dwudziestu latach konkurencji z okładem, w 2016 roku, w konkursie CASP 2016 najlepsza drużyna uzyskała średni wynik około 40 w najtrudniejszej kategorii. Co z grubsza oznacza, że przewidywany przez algorytm kształt białka pokrywał się z rzeczywistym jedynie w 40 procentach.

Dwa lata później pojawił się algorytm AlphaFold i uzyskał medianę wyników bliską 60 punktów. To już było coś. Do czasów AlphaFold postępy w obliczaniu struktury białek wyglądały na wykresach jak ledwo wznosząca się linia prosta. Dzięki nowemu algorytmowi ta krzywa zaczęła się mocno piąć w górę.

W 2020 roku w konkursie CASP wystartowała kolejna wersja algorytmu AphaFold, nazwana po prostu AlphaFold2. I przyniosła przełom. Pobiła rywali na głowę, pokonując rozwiązania setki innych zespołów.

W przypadku większości (dwóch trzecich) białek AlphaFold uzyskał wynik rzędu 90 punktów na 100. Przewidywał też struktury z marginesem błędu wielkości pojedynczego atomu (około 0,16 nanometra). To znacznie lepiej niż jakikolwiek inny program obliczeniowy. I odpowiadało poziomom dokładności z laboratoryjnych technik eksperymentalnych – ogłoszono na stronie CASP.

„To zmieni wszystko”

To pozwoliło przypuszczać, że za kilka lat naukowcy będą mogli przewidzieć strukturę każdego białka. A to oznaczałoby, że nowe, skuteczne leki, szczepionki czy przeciwciała skierowane przeciw konkretnym typom nowotworów będą powstawać znacznie szybciej niż przez wcześniejsze dekady. Komentarze badaczy były więc niezwykle entuzjastyczne.

„To zmienia reguły gry”, mówił Andrei Lupas, biolog z Instytutu Biologii Rozwojowej Maxa Plancka w Tybindze. Oceniał osiągnięcia zespołów w CASP, a później za pomocą AlphaFold rozgryzł strukturę białka, nad którą wcześniej jego laboratorium głowiło się przez dekadę.

„To zmieni medycynę. Zmieni badania naukowe. Zmieni bioinżynierię. Zmieni wszystko”, mówił.

I zmieniło. Już rok później, w 2021 roku, AlphaFold2 rozszyfrował budowę 350 tysięcy białek ludzkiego organizmu, czyli niemal wszystkich (98,5 procent). Co autorzy algorytmu ogłosili w „Nature”.

Komercyjny, niekomercyjny

Odkrycie to ogłaszano trochę w pośpiechu. Spółce DeepMind zaczęli bowiem po piętach deptać naukowcy, którzy nie chcieli płacić za dostęp do komercyjnego algorytmu.

W ciągu pół roku zespół pod kierunkiem Davida Bakera – tak, tego, który odebrał połowę tegorocznego Nobla z chemii – stworzył od podstaw własny algorytm, który nazwali RoseTTA fold. Swoją pracę opublikowali w „Science”, tydzień przed doniesieniem DeepMind w „Nature".

Autorzy RoseTTy przyznawali, że komercyjny AlphaFold jest nieco lepszy, ale dostęp do niego jest płatny lub możliwy tylko przez Europejskie Laboratorium Biologii Molekularnej. Zaś RoseTTA fold jest dostępna dla każdego, za darmo i w dowolnym terminie na serwerze utrzymywanym przez badaczy.

Nawiasem mówiąc, miło ze strony szacownego Komitetu Noblowskiego, że pół nagrody przyznał współtwórcy niekomercyjnego odkrycia, a drugie pół twórcom odkrycia udostępnianego za opłatą. Trudno oprzeć się wrażeniu, że choć niewielki, jest to jednak prztyczek w nos Google’a.

Samego Bakera nie wypadało nagradzać. RoseTTA fold nie byłoby bez sprzeciwu środowiska naukowego wobec AlphaFold. To jego twórcy niewątpliwie przetarli tę drogę.

Wszystkie białka na Ziemi w rok

W lipcu 2022 roku ogłoszono, że AlphaFold2 w półtora roku odkrył budowę ponad 200 milionów znanych dziś białek. To prawie wszystkie w światowej bazie białek UniProt, wszystkich żywych organizmów na Ziemi, od bakterii, przez owady, po ludzi. DeepMind i badacze z Europejskiego Laboratorium Biologii Molekularnej ogłosili to na łamach „Nature”.

Trudno nawet wyobrazić sobie tempo tego postępu. Odkąd zaczęto badać struktury białek w połowie ubiegłego stulecia, do 2020 roku rozszyfrowano struktury sto tysięcy, czyli pół promila znanych białek. W dwa lata zaś dwieście milionów, czyli 99,95 pozostałych.

Co zmienia rozszyfrowanie kształtu wszystkich niemal białek żywych organizmów na Ziemi? Bardzo dużo. Tak dużo, że autorzy tego osiągnięcia pisali o „darze dla ludzkości". I raczej nie ma w tym przesady.

Zamki i klucze

Znając dokładny kształt białkowego splotu, można łatwiej (również z pomocą komputerów) wyliczyć, jakie związki chemiczne do niego pasują niczym klucz do zamka w drzwiach.

Na przykład działanie leków przeciwbólowych dostępnych bez recepty zawdzięczamy temu, że pasują do białka o nazwie cyklooksygenaza (w skrócie COX). Jest ono enzymem potrzebnym komórce do przemiany obecnych w błonie komórkowej związków (fosfolipidów) w inne związki wywołujące reakcje zapalne (prostaglandyny).

Gdy cząsteczka leku się przyłączy do białka COX, przestaje ono spełniać swoją funkcję. Stan zapalny się zmniejsza lub mija. Spada gorączka, ból znika.

Jak znaleziono takie związki chemiczne, które pasują do cyklooksygenaz (bo w istocie jest to grupa białek, różniących się nieco budową)? Szukano trochę po omacku. Czasem były to przypadkowe odkrycia, częściej dekady żmudnych prób i błędów prowadzonych w laboratoriach.

Jeśli zna się budowę zamka, nie trzeba już wyważać drzwi za pomocą łomu, ani nawet zmieniając kształty kolejnych wytrychów. Można po prostu dorobić klucz.

Znając budowę białka, znacznie łatwiej jest znaleźć związki, które będą do białka pasowały. To znacznie skraca etap poszukiwań oraz prób i błędów – z dekad do lat, może nawet miesięcy.

Więcej niż białka

Skoro poznano budowę już wszystkich białek, to można by pomyśleć, że dla AlphaFold nie ma już pracy. Niesłusznie.

Na początku maja tego roku DeepMind (oraz jego spółka-córka, która ma komercjalizować możliwości algorytmu), przedstawiły w „Nature” najnowszą wersję algorytmu, AlphaFold 3. Może przewidzieć strukturę kompleksów, jakie białka tworzą z innymi obecnymi w komórkach molekułami.

Trzymając się analogii zamków, to tak, jakby ktoś dał nam narzędzie do ich prześwietlania. W każdej chwili można zobaczyć, jaką zamek ma konstrukcję, czy dany klucz do niego pasuje, a nawet jak będzie w nim chodził.

Biologom pozwoli to lepiej zrozumieć, jak działa komórkowa maszyneria. Szybciej będzie można odnaleźć przyczyny wielu chorób. Dzięki temu można będzie łatwiej opracowywać leki i szczepionki. To, co zajmowało dekady, może teraz trwać lata – a to, co zajmowało lata – tygodnie.

Będzie można też i dowiedzieć się, jak niektóre bakterie mogą trawić plastik, ropę naftową albo pochłaniają metale ciężkie. I te rozwiązania szybciej kopiować.

Od kształtu do genu

Zespół Davida Bakera opracował coś więcej niż tylko algorytm do określania przestrzennej budowy białek. Poszedł o krok dalej.

Naukowcy mogli wprowadzać sekwencje aminokwasów do algorytmu RoseTTA i odczytywać z nich kształty białek, postanowili jednak zrobić też odwrotnie. Wprowadzali do algorytmu pożądaną strukturę białka, a oprogramowanie podawało sugestie sekwencji aminokwasów, z których białko powinno być zbudowane.

DNA to instrukcja i matryca do produkcji aminokwasów. Na długiej nici fosforanu i deoksyrybozy doczepione są zasady azotowe: adenina, cytozyna, guanina i tymina (w skrócie A, C, G, T). Trójki takich zasad oznaczają instrukcję produkcji danego aminokwasu. Na przykład TTA w nazwie RoseTTA to kodon mówiący komórce „zrób leucynę”.

Taka sekwencja trójek zasad (kodonów), które aminokwas po aminokwasie kodują określone białko, to po prostu gen.

Białka, których nie było

Gdy znamy kształt pożądanego przez nas białka, algorytm RoseTTA podpowie nam, jaka sekwencja aminokwasów się na nie składa. Będziemy dzięki temu również wiedzieć, jak ma wyglądać kodujący je gen (czyli sekwencja trójek zasad azotowych).

Zespół Bakera stworzył w ten sposób gen wymyślonego przez siebie białka i umieścił w genomie bakterii. Tak zmodyfikowane bakterie zaś wyprodukowały białko, które przedtem nigdy nie istniało – bo w żadnym organizmie żywym nie było genu kodującego taką sekwencję aminokwasów.

Laboratorium Bakera od kilku lat tworzy jedno nowe białko za drugim. Część nie odgrywa żadnej pożytecznej roli, ale pozwala badać możliwości nowej metody, która w niedalekiej przyszłości może bardzo ułatwić nam życie.

Inne białka mają potencjał, by zostać lekami.

Leki, które będą

Niedawno badacze z laboratorium Bakera zaprojektowali i wytworzyli od podstaw odpowiednie „sztuczne białka”, które mogą hamować rozwój burzy cytokinowej. W uproszczeniu jest to reakcja zapalna, która wymyka się organizmowi spod kontroli. Jest częstą przyczyną śmierci w chorobach zakaźnych, występuje też w przebiegu sepsy.

Inny zespół opracował zaś „białkowe pułapki” na beta-amyloid, który uważany jest za przyczynę choroby Alzheimera. Są również hipotezy, że to on przyczynia się do opóźnienia rozwoju umysłowego dzieci z zespołem Downa.

Nikt nie twierdzi, że pojawił się właśnie lek na sepsę, Alzheimera czy zespół Downa. Jednak droga do nich na pewno mocno się skróciła.

AlphaFold3, RoseTTA oraz produkcja „białek na zamówienie” to odkrycia, które mogą zmienić biologię, farmację i medycynę. Oraz chemię i przemysł.

Chcecie Państwo bakterie, które zjedzą plastik i rozłożą go na gaz ziemny? A może rozłożą toksyczne związki? To można zrobić, wstawiając mikrobom geny kodujące odpowiednio zaprojektowane, nieznane wcześniej w naturze białka.

To nie jest science fiction. Między innymi za to przyznano tegorocznego Nagroda Nobla z dziedziny chemii.

Z algorytmu do apteki

Algorytmy sztucznej inteligencji są nieocenione także w poszukiwaniach kluczy, które będą pasować do zamków – czyli leków. Zamiast latami poszukiwać kandydatów na leki „ręcznie”, można zaprząc do tego algorytm. Inny zaś może wyszukać najlepsze sposoby na syntezę pożądanego związku.

Zespół Instytutu Chemii Organicznej PAN pod kierunkiem Bartosza Grzybowskiego oprogramowanie do przewidywania metod syntezy związków organicznych stworzył już w 2012 roku.

W 2018 roku badacze z IChO PAN dowiedli, że ich program może projektować sposoby syntetyzowania związków chemicznych bez udziału człowieka. W specjalnym eksperymencie program poprawił znane już szlaki syntezy albo znalazł dotychczas nieznane, donosili w opublikowanej w „Cell Press” pracy badacze.

Podobny system rok później opracowali też badacze z Massachusetts Institute of Technology, ale dodatkowo połączyli sztuczną inteligencję z robotyką. Stworzyli mini-laboratorium chemiczne wyposażone w robotyczne ramię. Automat wielkości szafy wyprodukował bez udziału człowieka (ale pod jego nadzorem) między innymi: aspirynę, cztery inne niesterydowe leki przeciwzapalne, antybiotyk, środek do znieczulenia miejscowego, lek uspokajający oraz kilka leków stosowanych w leczeniu nadciśnienia i niewydolności serca.

Być może przyszłość to sterowane sztuczną inteligencją mini-laboratoria, które wyprodukują lek na miejscu w szpitalu lub w przychodni. Będzie to tym łatwiejsze, że znamy już strukturę wszystkich ludzkich białek.

Cykl „SOBOTA PRAWDĘ CI POWIE” to propozycja OKO.press na pierwszy dzień weekendu. Znajdziecie tu fact-checkingi (z OKO-wym fałszometrem) zarówno z polityki polskiej, jak i ze świata, bo nie tylko u nas politycy i polityczki kłamią, kręcą, konfabulują. Cofniemy się też w przeszłość, bo kłamstwo towarzyszyło całym dziejom. Rozbrajamy mity i popularne złudzenia krążące po sieci i ludzkich umysłach. I piszemy o błędach poznawczych, które sprawiają, że jesteśmy bezbronni wobec kłamstw. Tylko czy naprawdę jesteśmy? Nad tym też się zastanowimy.

;
Na zdjęciu Michał Rolecki
Michał Rolecki

Rocznik 1976. Od dziecka przeglądał encyklopedie i już mu tak zostało. Skończył anglistykę, a o naukowych odkryciach pisał w "Gazecie Wyborczej", internetowym wydaniu tygodnika "Polityka", portalu sztucznainteligencja.org.pl, miesięczniku "Focus" oraz serwisie Interii, GeekWeeku oraz obecnie w OKO.press

Komentarze