Co dalej z AI? Nieodparty czar muszki owocowej

Co dalej z AI? Nieodparty czar muszki owocowej
Badaczka sztucznej inteligencji Ajeya Cotra zastanawiała się w swojej ostatniej pracy, w którym momencie obliczenia służące do szkolenie systemu sztucznej inteligencji mogą dorównać możliwościom ludzkiego mózgu. Według niej, jest 50 proc. szansy, że taka „przełomowa sztuczna inteligencja” zostanie opracowana już do 2040 roku.

Nie brakuje prognostów szkicujących taką lub zbliżoną perspektywę powstania podobnej do ludzkiej AI w najbliższych dekadach. Czy wizja AI dorównującej człowiekowi jest groźna, czy nie to nie, jest takie jasne. Bardziej konkretne są obawy o miejsca pracy (1) i to nawet w bliższej niż dekady perspektywie. McKinsey oszacował niedawno, że do 2030 roku co najmniej dwanaście milionów Amerykanów zmieni pracę w związku z rozwojem technik AI. Organizacja Współpracy Gospodarczej i Rozwoju (OECD) zauważyła, że ponad jedna czwarta miejsc pracy w państwach OECD opiera się na umiejętnościach, które można łatwo zautomatyzować. Nie jest to jeszcze odczuwalne, ale już teraz widoczne są konflikty związane z ekspansją AI zmianami, np. strajki hollywoodzkich aktorów i scenarzystów. O swoje źródła utrzymania martwią się przedstawiciele wielu kreatywnych profesji, jednak, jak się ostatnio okazało, liczba błędów generowanych przez modele AI zaczyna rodzić zupełnie nowy rynek pracy dla ludzi np. parających się dotychczas pisaniem – stanowiska do weryfikowania, poprawiania i szlifowania tego, co wytwarza sztuczna inteligencja. 

Do tematu zastępowania ludzi przez AI nawiązał w maju 2024 r. dyrektor operacyjny OpenAI Brad Lightcap. Nowe produkty w dziedzinie sztucznej inteligencji mają być, jak to ujął, „świetnymi członkami zespołów” w firmach. Rozmowa z modelami AI ma, jak zapowiada, przypominać rozmowę z przyjacielem lub współpracownikiem. Lightcap bagatelizuje obawy, że generatywna sztuczna inteligencja zastąpi pracowników i spowoduje masowe zwolnienia. Spodziewa się raczej, że przyszłe programy sztucznej inteligencji pobudzą popyt na nowe specjalności i związane z nimi stanowiska pracy, których dotąd nie znaliśmy, a ludzie dostosują się do zmian technologicznych. W podobnym tonie przyszłość zapowiada dyrektor generalny OpenAI, Sam Altman, jednocześnie zapewniając, że czeka nas stały postęp w dziedzinie AI. „GPT-4 to najgłupszy model, jakiego ktokolwiek z was kiedykolwiek będzie musiał użyć”, powiedział podczas seminarium na  Uniwersytecie Stanforda.

Cokolwiek się stanie z zastępowaniem ludzi, kilka miesięcy temu pojawiło się narzędzie, które sygnalizuje chyba najbardziej prawdopodobną i realną przyszłość generatywnej AI. To Luma AI, nowy generator wideo AI o wysokiej rozdzielczości. Model start-upu Dream Machine obiecuje w tej chwili generowanie wideo z prędkością do 120 klatek na sekundę i długość materiału do 120 sekund. Udostępniane w Internecie przykłady zrobiły wrażenie, choć narzędzie nie jest wolne od błędów. Wielu użytkowników dokonało bezpośrednich porów-nań do Sora firmy OpenAI, powszechnie uważanej za top stanu techniki generacji wideo przez sztuczną inteligencję. O jasny werdykt trudno. Podobnie jak wiele innych narzędzi tego typu (bo jest ich cała fala, np. Google Lumiere, Runway, Pika i Kling chińskiej firmy Kuaishou) to wciąż mocno wstępna faza rozwoju tej techniki. Panuje jednak silne przekonanie, że w nie tak dalekiej przyszłości to właśnie technika generowania ruchomego obrazu będzie nadawać ton rozwojowi technik GenAI.

Ludzie nie chcą AI rejestrującej wszystko, co robią

Microsoft zadebiutował w maju z nową kategorią komputerów osobistych z funkcjami sztucznej inteligencji. Cel jest wyraźny – wbudować powstającą technikę AI w produkty od komputerów po usługi chmurowe i konkurować z Alphabetem (Google) i Apple. Szef firmy Satya Nadella zaprezentował komputery „Copilot+”, które zamierza sprzedawać wraz z wieloma producentami, w tym Acerem i Asustek Computer.

Możliwość przetwarzania danych AI bezpośrednio na komputerze pozwala Copilot+ na włączenie funkcji o nazwie „Recall”, która śledzi wszystko, co zostało zrobione na komputerze, od przeglądania stron internetowych po czaty głosowe, tworząc historię przechowywaną na komputerze, którą użytkownik może przeszukiwać, gdy musi sobie przypomnieć coś, co zrobił, nawet miesiące później. Firma zademonstrowała również swojego asystenta głosowego Copilot działającego jako wirtualny trener w czasie rzeczywistym dla użytkownika grającego w grę wideo Minecraft. Kierownictwo Microsoftu powiedziało również, że GPT-4o, najnowsza technologia producenta ChatGPT OpenAI, będzie „wkrótce” dostępna jako część Copilota.

Zapowiedź integracji AI z systemami operacyjnymi urządzeń Apple wywarła silna presję na innych wielkich graczy. Apple Intelligence to funkcje generatywnej sztucznej inteligencji w iPhone’ach, iPadach i macbookach, m.in. pisanie i tworzenie/edycja obrazów, organizacja pracy i życia, a także ulepszony asystent Siri i wiele więcej. Firma w swoich prezentacjach nowych narzędzi generatywnej AI, które zaczęły być wdrażane latem do iOS 18 (choć nie bez problemów), podkreślała wielką wagę ochrony prywatności użytkowników, co mogło być też nawiązaniem nie wprost do zarzutów wobec microsoftowej funkcji „Recall”, którą wielu uznało za ogromną inwazję na prywatność. Wspomnianą presję poczuł najwyraźniej też Samsung, który miesiąc po prezentacji Apple zademonstrował funkcje AI w swoich urządzeniach i systemach.

Reklamy w chatbotach?

Google z kolei zapowiada mieszanie reklam z odpowiedziami generowanymi przez sztuczną inteligencję, a przynajmniej będzie testować, czy da się największy strumień przychodów firmy dostosować do ery generatywnej sztucznej inteligencji. W 2019 r. ponad 60 proc. przychodów spółki macierzystej Google, Alphabet, pochodziło z reklam w wyszukiwarce. Liczba ta z roku na rok spada, do około 57 proc. w ubiegłym roku. Google wdrożyło niedawno usługę AI Overviews dla amerykańskich użytkowników w języku angielskim i to właśnie ona ma być wehikułem dla tych testowo serwowanych reklam. Zrzuty ekranu opublikowane przez Google demonstrują, jak to może działać: np. użytkownik pytający o to, jak pozbyć się zagnieceń w ubraniach, może otrzymać wygenerowane przez sztuczną inteligencję podsumowanie wskazówek pochodzących z sieci, z reklamami sprejów, które mają odświeżać garderobę, pod spodem.

Zasilane przez AI Google Overviews mają na celu powstrzymanie użytkowników przed przejściem na alternatywy, takie jak ChatGPT lub usługi rosnącego w siłę start-upu Perplexity, które wykorzystują tekst generowany przez sztuczną inteligencję, aby odpowiedzieć na pytania tradycyjnie zadawane Google. Reklamy „będą mogły pojawiać się w sekcji wyraźnie oznaczonej jako ‘sponsorowane’, jeśli są istotne zarówno dla zapytania, jak i informacji w przeglądzie AI”, napisał w poście na blogu firmowym Vidhya Srinivasan, wiceprezes Google i dyrektor generalny ds. reklam. 

Google zapowiedział już w zeszłym roku, kiedy zaczął eksperymentować z odpowiedziami generowanymi przez sztuczną inteligencję w wyszukiwarce, że  reklamy konkretnych produktów zostaną zintegrowane z tą funkcją. Google twierdzi, iż  wczesne testy wykazały, że użytkownicy uznali reklamy powyżej i poniżej podsumowań AI za pomocne. Bing firmy MIcrosoft wyświetla reklamy produktów w swoim chatbocie wyszukiwania Bing Copilot.

Google bada również inne sposoby wykorzystania sztucznej inteligencji do asysty w biznesie reklamowym. Firma ogłosiła m.in. aktualizację narzędzia do generowania obrazów, która ma pomóc reklamodawcom obniżyć koszty produkcji związane z produkcją materiałów wizualnych. Ponadto Google planuje testować nowe środowisko reklamowe w wyszukiwarce, które prowadziłoby ludzi przez „złożone decyzje zakupowe”. Na przykład sztuczna inteligencja może analizować zdjęcia mebli przesłane przez użytkowników, sugerując opcje transportu i  ich przechowywania.

W świecie nauki czekają z otwartymi rękami

Świat badań naukowych wydaje się bardziej zdecydowany we wdrażaniu rozwiązań opartych na AI niż biznes, np. nowy model sztucznej inteligencji (AI) opracowany w Pacific Northwest National Laboratory (PNNL), który może identyfikować wzorce na obrazach materiałów z mikroskopu elektronowego bez konieczności interwencji człowieka, umożliwiając dokładniejsze i spójniejsze badania w materiałoznawstwie, od razu wzbudził duże zainteresowanie. Zazwyczaj, aby wyszkolić model sztucznej inteligencji w celu badania zjawiska takiego jak uszkodzenie radiacyjne, naukowcy skrupulatnie musieliby tworzyć ręcznie oznakowany zbiór danych, ręcznie śledząc obszary uszkodzone przez promieniowanie na obrazach z mikroskopu elektronowego. Ten ręcznie oznakowany zbiór danych byłby następnie wykorzystywany do szkolenia modelu sztucznej inteligencji, który identyfikowałby wspólne cechy regionów zidentyfikowanych przez człowieka i starał się zidentyfikować podobne regiony na nieoznakowanych obrazach. Zamiast tego PNNL zastosowało nienadzorowany model, który potrafi analizować dane – obrazy z mikroskopu elektronowego – bez angażowania ludzi. Naukowcy zastosowali nowy model do badania uszkodzeń spowodowanych promieniowaniem w strukturach materiałów stosowanych w reaktorach jądrowych. Model jest w stanie dokładnie wyłapać zdegradowane obszary i posortować obraz na społeczności reprezentujące różne poziomy uszkodzeń radiacyjnych. Jak to ujmują badacze, piękno modelu polega na tym, że identyfikuje on te społeczności z niezwykłą spójnością, tworząc zarysowane regiony oznaczonych danych bez żadnych błędów typowych dla człowieka.

Uczeni wykorzystali też sztuczną inteligencję np. do rozpoznawania różnic na poziomie komórkowym w mózgach mężczyzn i kobiet. Według publikacji, która ukazała się w „Scientific Reports” w maju 2024 r., modele AI zidentyfikowały płeć biologiczną w skanach MRI z dokładnością 92…98 proc. Różnice stwierdzono w istocie białej mózgu, kluczowej dla komunikacji między obszarami mózgu. Dowodzi to, że sztuczna inteligencja może dokładnie zidentyfikować wzorce mózgowe niewidoczne dla ludzkich oczu. Uważa się, że poznanie tych różnic może ulepszyć narzędzia diagnostyczne i metody leczenia zaburzeń mózgu, stwardnienia rozsianego i autyzmu. Wcześniejsze badania mikrostruktury mózgu w dużej mierze opierały się na modelach zwierzęcych i próbkach tkanek ludzkich. Wzbudzały wątpliwości ze względu na oparcie się na analizach statystycznych „ręcznie rysowanych” regionów zainteresowania, co oznacza, że badacze musieli podejmować subiektywne decyzje co do kształtu, rozmiaru i lokalizacji wybranych regionów.

W lipcu 2024 r. laboratorium badawcze Google AI, DeepMind, ogłosiło powstanie opartej na Google sztucznej inteligencji medycznej, która miałaby być „w  pewnym sensie lepsza od  rzeczywistych lekarzy”. Celem projektu było stworzenie sztucznej inteligencji, która mogłaby pomóc w odciążeniu lekarzy w codziennej pracy, a według nowych raportów medyczna sztuczna inteligencja Google może być w stanie to zrobić, sugerują nowe badania. Model ten wydaje się oparty na technice Google Gemini. Med-Gemini jest jednak zbudowany inaczej niż pozostałe medyczne narzędzie sztucznej inteligencji, ma cechy systemu samouczącego się na bazie wyszukiwani z sieci (co musi nieco niepokoić, gdy wie się, jakiej jakości wiedza medyczna pojawia się w Internecie). Model Med-Gemini został przetestowany w kilkunastu medycznych testach porównawczych i bez wątpienia przewyższa wyniki modeli GPT-4lub Med-PaLM 2. Google podaje, że przewyższył też rzeczywistych lekarzy, uzyskując 91,1 proc. dokładności przy użyciu funkcji wyszukiwania opartego na niepewności.

Tekst, na którym pracuje generatywna AI, to sekwencja znaków, które mogą być łączone w złożony sposób w celu uzyskania niezliczonej liczby złożonych znaczeń. Podobnie podstawą życia jest zaledwie kilku podstawowych znaków (tylko cztery dla DNA i dwadzieścia dla białek), a ich niezliczone kombinacje pozwalają uzyskać całą różnorodność biologiczną, jaką znamy. Jeśli jesteśmy zbudowani z sekwencji, a modele językowe mogą być zdolne do analizowania sekwencji, dlaczego nie wykorzystać modeli językowych z sekwencjami DNA i białek? Zatem AlphaFold2, dzięki wykorzystaniu modelu językowego wyszkolonego na sekwencjach białkowych, rekonstruuje struktury białek na podstawie jedynie sekwencji znaków. Model nauczył się reprezentacji białek i wzorców obecnych w ich sekwencji (sekwencje te, podobnie jak sekwencje tekstowe, nie są przypadkowe, ale mają znaczenie funkcjonalne i własną semantykę). Reprezentacja ta pozwala nam następnie przewidzieć strukturę i funkcję białka lub inne parametry. Duże modele języka białek uczą się wystarczającej ilości informacji, aby umożliwić dokładne przewidywanie struktury białek na poziomie atomowym. Jeśli model rozumie, które części sekwencji białka grają określoną rolę funkcjonalną lub są odpowiedzialne za określone zachowanie, może następnie wykorzystać je we wnioskowaniu. Na przykład, możemy poprosić model o wygenerowanie białka zdolnego do cięcia pierścieni aromatycznych. Mógłby to być enzym, który mógłby być sztucznie produkowany i wykorzystywany do oczyszczania wody zanieczyszczonej ropą naftową. Może to brzmieć jak science fiction ale wykorzystując duży model językowy, naukowcy stworzyli funkcjonalne białka o sekwencjach, które nie istnieją w naturze z pożądanymi właściwościami biofizycznymi.

DNA i białka nie są niezmienne, ale są produktem losowych mutacji i naturalnej selekcji. Każdego dnia każda żywa istota przechodzi mutacje, z których niektóre są korzystne, a niektóre szkodliwe. Mutacje te mogą być następnie przekazywane potomstwu i w ten sposób gatunki ewoluują. Proces ten jest jednak losowy i nie można go kontrolować. Co więcej, wiele z tych mutacji, gdy wystąpią, jest przyczyną różnych chorób. Czy możliwe jest zmutowanie DNA na naszą korzyść i jak może nam w tym pomóc sztuczna inteligencja? Edycja DNA u pacjenta jest skomplikowana technicznie i wiąże się z ryzykiem niespecyficzności (wprowadzanie mutacji do miejsc, w których nie chcemy, a tym samym powodowanie chorób). Ostatnio poczyniono jednak pewne postępy. Obecnie komórki od pacjenta są pobierane ex vivo (zwykle komórki krwiotwórcze), modyfikowane w laboratorium, a następnie ponownie podawane pacjentowi. Oczekuje się, że technologie oparte na CRISPR
znacząco przyczynią się do poprawy zrównoważonej produkcji, wykrywania patogenów, leczenia niektórych dziedzicznych chorób genetycznych i bezpieczeństwa żywnościowego. Zanim jednak potencjał CRISPR-Cas zostanie w pełni wykorzystany, wciąż istnieją pewne przeszkody do pokonania: techniczne, komercyjne i społeczne. Skoro, jak była o tym mowa wcześniej, dysponujemy ogólnymi dużymi modelami językowymi (LLM) zdolnymi do generowania sekwencji białkowych różnych typów i funkcji, które odzwierciedlają sekwencje naturalnych białek, możemy próbować je precyzyjnie dostroić i dostosować do specyficznych wymogów techniki CRISPR-Cas na wyspecjalizowanym, odrębnym, zbiorze danych CRISPR-Cas (2).

2. Edycja DNA przez AI.
Fot. stock.adobe.com

Połączenie sztucznej inteligencji i CRISPR-Cas pozwala nam wyobrazić sobie przyszłość, w której edycja genów może być wykorzystywana do leczenia niemal każdej choroby. Zakłada się, że w przyszłości lekarz podczas diagnozy będzie sekwencjonował genom, zauważy, jakie mutacje leżą u podstaw choroby, a edycja genów służyć ma leczeniu pacjenta. LLM posłuży do identyfikacji nowych mutacji i nowych środków edycji genów. W przyszłości LLM mają oferować także arsenał technik (szybkie projektowanie, dostrajanie itp.) do generowania białek o pożądanych funkcjach, które nie istniej w naturze.

Naukowcy z Cold Spring Harbor Laboratory (CSHL) opracowali niedawno model AI mózgu muszki owocowej w celu badania, w jaki sposób widzenie świata kieruje zachowaniem. Wyciszając genetycznie określone neurony wzrokowe i obserwując zmiany w zachowaniu, wyszkolili sztuczną inteligencję do dokładnego przewidywania aktywności neuronalnej i zachowania (3). Otwiera to drogę do przyszłych badań nad ludzkim układem wzrokowym i powiązanymi zaburzeniami. Benjamin Cowley i jego zespół udoskonalili swój model sztucznej inteligencji za pomocą opracowanej przez siebie techniki zwanej „treningiem nokautującym”, który polega na zaburzaniu sieci podczas treningu, aby dopasować ją do zaburzeń rzeczywistych neuronów podczas eksperymentów. Najpierw nagrali zaloty samca muszki owocowej. Następnie genetycznie wyciszyli określone typy neuronów wzrokowych u samca muszki i wyszkolili swoją AI, aby wykrywała wszelkie zmiany w zachowaniu, prowadząc w efekcie do dokładnego przewidywania, jak zachowa się prawdziwy samiec muszki na widok samicy. „Możemy obliczeniowo przewidzieć aktywność neuronalną i zapytać, w jaki sposób określone neurony przyczyniają się do zachowania”, wyjaśnia Cowley w komunikacie badawczym. Zamiast jednego typu neuronu łączącego każdą cechę wizualną z jednym działaniem, jak wcześniej zakładano, do kształtowania zachowania potrzebnych było wiele kombinacji neuronów. Wykres tych ścieżek neuronalnych wygląda jak niewiarygodnie złożona mapa metra, a jej rozszyfrowanie zajmie lata, jednak wyobraźnia podpowiada, że konsekwencją dalszych badań może być zdolność sztucznej inteligencji do przewidywania ludzkich zachowań. Nie tak szybko. Mózg muszki owocowej zawiera około 100 tys. neuronów. Ludzki mózg ma ich prawie 100 miliardów. „To będą dziesięciolecia pracy”, mówi Cowley.

3. Wzrok muszki owocowej.
Fot. stock.adobe.com

AI ma zmienić wszystko, ale trzeba też zmienić samą AI

W bliższej i dalszej przyszłości należy spodziewać się również nowych metod oszczędzania mocy obliczeniowej wielkich modeli i rosnącego nacisku na redukcję zużycia energii przez centra obliczeniowe. Próbuje się już teraz nowych architektur i innych rozwiązań zmierzających do obniżenia kosztów działania AI.

Mnożenie macierzy (MatMul) uchodzi za najbardziej kosztowną obliczeniowo operację w dużych modelach językowych wykorzystujących architekturę Transformer. W miarę skalowania LLM do większych rozmiarów, koszt MatMul szybko rośnie, za nim zużycie pamięci, a także opóźnienia podczas uczenia i wnioskowania. Niedawno badacze z Uniwersytetu Kalifornijskiego w Santa Cruz, Uniwersytetu Soochow i Uniwersytetu Kalifornijskiego w Davis opracowali nowatorską architekturę, która całkowicie eliminuje mnożenie macierzy z modeli językowych, zachowując jednocześnie wysoką wydajność w dużych skalach. Szczegóły ich rozwiązania są dość skomplikowane, ale są pewni, że ich praca może utorować drogę do opracowania bardziej wydajnych i przyjaznych dla sprzętu architektur głębokiego uczenia. W idealnym przypadku architektura ta sprawi, że modele językowe będą znacznie mniej zależne od wysokiej klasy procesorów graficznych GPU
firmy NVIDIA, i umożliwi naukowcom uruchamianie potężnych modeli na innych typach procesorów. Naukowcy udostępnili kod algorytmu i modeli dla społeczności badawczej.

Niewykluczone, że w przyszłości specjaliści rozwijający systemy AI sięgną po całkiem nowe architektury i pomysły na sieci neuronowe. Wiele mówi się ostatnio o nowej architekturze AI, nazywanej sieciami Kołmogorowa–Arnolda (KAN) i ich potencjalnej przewadze nad dobrze znanymi w świecie sztucznej inteligencji perceptronami wielowarstwowymi. Twierdzenie o reprezentacji Kołmogorowa–Arnolda stanowi, że każda ciągła funkcja wielowymiarowa w ograniczonej dziedzinie może być wyrażona jako skończona kompozycja ciągłych funkcji jednowymiarowych i binarnej operacji dodawania. Twierdzenie to sugeruje, że w zasadzie uczenie się funkcji wielowymiarowej można zredukować do uczenia się wielomianowej liczby funkcji z jedną zmienną. KAN są zdaniem ich orędowników atrakcyjną alternatywą, szczególnie w zastosowaniach naukowych. Niestety, ponieważ jest to stosunkowo nowy pomysł, niewielu specjalistów poważniej zgłębiło temat. Z tego, co do tej pory zbadano, wiadomo m.in., że szkolenie KAN jest też ok. dziesięciu razy wolniejsze niż tradycyjnych sieci neuronowych. Jednak są i potencjalne zalety, z których główną jest ekonomia działania – wymagają mniej parametrów, obiecują szybką poprawę wydajności przy wzroście rozmiarów modelu. Godne uwagi jest złagodzenie w nich problemu katastrofalnego zapominania sieci neuronowych. Perceptrony zapominają, bo zwykle „przepisują” swoją starą wiedzę na nową, co prowadzi do gubienia przez system starych danych wejściowych. KAN tego podobno nie robią. Sieci Kołmogorowa–Arnolda są bardziej wyjaśnialne, czyli ich działanie jest bardziej przejrzyste dla ludzi.

Mirosław Usidus