World Wide DNA

World Wide DNA
Noah, sześciolatek z Kanady, choruje na chorobę, która nie ma nazwy. Lekarze obserwują w skanach MRI jego kurczącą się część mózgową, zwaną móżdżkiem (cerebellum). Podejrzewają, że wśród milionów słów zapisanych literami kodu genetycznego Noaha znajduje się jakaś literówka. Przesyłają więc DNA chłopca Internetem w świat, w nadziei na znalezienie u kogoś takiego samego błędu.

Wada będzie mogła zostać zidentyfikowana, jeśli za pomocą narzędzi sieciowych uda się znaleźć gdzieś ten sam błąd. Programiści z  Toronto rozpoczęli w związku z tym z początkiem 2016 r. testy systemu wymiany genetycznych informacji pomiędzy placówkami służby zdrowia. Na razie w sieci znajdują się szpitale z Kanady, USA i Wielkiej Brytanii. Ambicją systemu nazwanego MatchMaker Exchange, jest automatyzacja i  globalizacja procedur porównawczych DNA. Cel informatyków pracujących nad projektem stanowi zbliżenie technik sekwencjonowania genów z nowoczesnymi technologiami telekomunikacyjnymi. Na świecie jest już ok. 200 tys. ludzi, których genomy zostały zsekwencjonowane. Wkrótce ich liczba może sięgać milionów.

Jeden z  budowniczych kanadyjskiego MatchMakera, David Haussler, bioinformatyk z Uniwersytetu Kalifornijskiego w Santa Cruz, z grupą innych specjalistów założył w 2013 r. Globalny Alians na rzecz Genomiki i Zdrowia – GA4GH, który porównuje często do standaryzującej Internet organizacji W3C. Do nowej organizacji, zalążka „World Wide DNA”, zdążyło dołączyć wiele znanych postaci i całe firmy, takie jak np. Google. GA4GH zajmuje się doskonaleniem protokołów, opracowywaniem programistycznych interfejsów (API) i formatów plików do przesyłania genetycznych danych w sieci.

Zrzut strony Aliansu GA4GH

Jednym z argumentów na rzecz stworzenia takiego „genetycznego” Internetu jest szybko rosnąca ilość generowanych w laboratoriach danych. Największe i najsprawniejsze ośrodki sekwencjonują ludzkie genomy w tempie dwa na godzinę (sekwencjonowanie pierwszego człowieka zajęło trzynaście lat). Oblicza się, że  w  ten sposób na  całym świecie powstanie w tym roku 85 petabajtów danych. W 2019 r. ma być to już dwa razy więcej. I to wszystko – jeśli nie zostanie stworzona globalna sieć i możliwość wyszukiwania – znajdować się będzie w odizolowanych od siebie, trudno dostępnych bazach. W takich warunkach niemożliwe jest np. sprawdzenie wszystkich podobnych mutacji prowadzących do określonego typu nowotworu w konfrontacji z zastosowanymi lekami i terapiami. A opcja porównań w bazie o globalnym zasięgu byłaby dla lekarzy niesamowitym narzędziem. Haussler stworzył więc wyszukiwarkę genetyczną o nazwie Beacon, przeszukującą dwadzieścia baz danych DNA, które zostały udostępnione publicznie i wdrożyły protokoły GA4GH. Wyszukiwarce można zadawać pytania o pozycje genetycznych „liter” w poszczególnych chromosomach genomów z bazy. Mimo uznania faktu, jak ważny dla postępu medycyny jest szeroki dostęp do zsekwencjonowanego DNA, w  społeczeństwie –  ale także wśród lekarzy i badaczy – panuje spory opór przed udostępnianiem tego rodzaju danych. Pomysł umieszczania ludzkich genomów w Internecie brzmi bowiem dla wielu kontrowersyjnie. Aby zapobiec naruszeniom prywatności GA4GH proponuje model peer-to-peer Internetu

Dane w wiecznych łańcuchach

Pamięć DNA
Pamięć DNA

Z jednej strony dążymy do stworzenia Internetu z danymi DNA – z drugiej zaś DNA zaczyna prezentować się jako ciekawa alternatywa dla zapisu danych komputerowych. Grupa szwajcarskich uczonych z instytutu technologicznego w  Zurychu zaprezentowała kilka miesięcy temu technikę kodowania danych w łańcuchach DNA w ten sposób, że mogą przetrwać bez uszkodzeń i błędów nawet do dwóch tysięcy lat! Z taką trwałością nie może się równać żadna inna znana ludzkiej technologii technologia zapisu danych. Oczywiście ktoś spostrzegawczy zapyta od  razu, jak udało się udowodnić trwałość sięgającą tysięcy lat w ciągu jednej prezentacji. Okazuje się, że Szwajcarzy opracowali symulację tak długiego okresu, zamykając łańcuchy DNA z danymi w silikonowych kulach i podgrzewając je do temperatury ok. 72°C. Według naukowców tydzień ekspozycji na taką temperaturę równa się 2 tys. lat w temperaturze 10°C. Po takiej właśnie symulacji nie zauważono żadnych błędów w  zapisie. Uczeni podkreślają również inne zalety spiral DNA jako nośnika danych, w porównaniu z  dyskami twardymi czy taśmami magnetycznymi. Przykładowo, dysk o rozmiarach książki o pojemności pięciu terabajtów może taką ilość danych przechowywać w optymalnych warunkach do pięćdziesięciu lat. Zapis w kodzie DNA nie byłby binarny, lecz polegałby na wykorzystaniu czterech liter nukleotydowych A, C, T i G. Pisząc o osiągnięciach Szwajcarów „New Scientist” podał następujące wyliczenie: jeden gram łańcuchów cząsteczkowych DNA może zakodować 455 egzabajtów informacji, zaś wg szacunków firmy komputerowej EMC w 2011 r. łączna objętość danych zgromadzonych na Ziemi wyniosła 1,8 zetabajta. Jeden zetabajt to 1 tys. egzabajtów, więc do zapisu danych z 2011 r. potrzeba ok. 4 gramów DNA. Oczywiście od 2011 r. objętość światowych informacji nieco wzrosła i potrzeba pewnie dołożyć gram lub trzy.

Informatyka genetyczna

kwitnie Warto pamiętać też o tym, że istnieje już język programujący DNA. Opracował go w  ostatnich latach zespół naukowców z Uniwersytetu stanu Waszyngton w USA. Ma zarządzać działaniem „chemicznego komputera”, bo tak nazywają się systemy służące do syntetyzowania DNA. Chodzi nie tylko o to, aby sterować reakcjami chemicznymi podobnie jak kontroluje się automaty, roboty itp., ale również zarządzać dawkowaniem leków. Stworzenie algorytmów komputerowych, które pozwalałyby np. dostosowywać sztuczne cząsteczki DNA do  środowiska żywych tkanek, w których mają funkcjonować, to poważne wyzwanie. Świat biologiczny jest o wiele bardziej złożony i nieregularny niż świat maszyn. Trudne nie oznacza jednak, że niemożliwe. „Nasz pomysł polega na stworzeniu języka uniwersalnego, mającego zastosowanie w wielu różnych zadaniach” – wyjaśnił Georg Seelig z zespołu pracującego nad językiem programowania DNA. Technologia docelowo ma służyć m.in. do programowania samoistnie budujących się w komórkach molekuł lub do tworzenia biosensorów monitorujących stan organizmu na poziomie komórkowym. Algorytm, stosowany w badaniach nad sekwencją DNA, może też pomóc w obronie przed zalewającymi Internet śmieciami, czyli spamem. Program o nazwie Chung-Kwei (od chińskiego talizmanu feng-shui, który chroni dom przed złymi duchami) ma niemal 97-procentową skuteczność. Został oparty na wcześniejszym algorytmie Teiresias (Tejrezjasz to mityczny grecki wróżbita), którego opracowali bioinformatycy z IBM Thomas J. Watson Research Center w Nowym Jorku, pracujący nad sekwencjonowaniem DNA. Program ten wyszukiwał w zapisach kodu genetycznego powtarzające się sekwencje, które zwykle oznaczają ważne informacje. Zamiast genomu, naukowcy przeanalizowali za pomocą algorytmu 65 tys. najbardziej powszechnych przykładów spamu. Każdy mail był traktowany jak łańcuch DNA. Udało się znaleźć 6 mln powtarzających się (więcej niż w jednym mailu) sekwencji liter i  cyfr. Następnie przeanalizowano znaczną liczbę zwykłej korespondencji (nazywanej czasem ham – „szynka” w przeciwieństwie do spamu – „mielonki”). Te  sekwencje, które powtarzały się w  hamie i spamie, wyeliminowano. W dalszej kolejności analizowano przychodzącą korespondencję. Im większa była liczba typowych „spamerskich sekwencji” na kilobajt maila, tym pewniejsze było, że to spam. Tylko jeden na 65 tys. zwykłych maili został omyłkowo zatrzymany, a skuteczność rozpoznawania spamu wyniosła aż 96,56%.