Ze sztuczną inteligencją na kolejny rok, dekadę i dłużej. Co DALAI?

Nie brakuje opinii, że po robiących wrażenie premierach i osiągnięciach 2022 roku AI ma obecnie swój "internetowy moment". Chodzi o etap, na którym znajdował się internet w latach 90. XX wieku, gdy startował do podboju świata.

Jeśli AI chce podbić świat, to powinna zacząć myśleć o wielkich celach, np. takim jak zdetronizowanie "króla internetu". Czymś takim byłoby np. "wykolegowanie" Google’a przez ChatGPT. "The New York Times" poświęcił rozważaniom na ten temat obszerny, szeroko komentowany, artykuł. W strukturach Google miał wybuchnąć "czerwony alarm" i przerażenie rysującą się konkurencją ze strony maszyny odpowiadającej na pytania. Nie tylko samo narzędzie firmy OpenAI, ale w sensie bardziej ogólnym, zupełnie inny pomysł na serwowanie informacji w miejsce znanej każdemu wyszukiwarki, potencjalnie zagraża bazie biznesu Google, czyli dochodom z reklamy bazującej na wynikach wyszukiwania. Mówi się o możliwym końcu całych branż, SEO, SEM, cyfrowego marketingu w ogóle.

Jeśli spojrzymy na wyniki kwartalne Google podane w czerwcu 2022 roku, to widać, że gigantowi Big Tech udało się osiągnąć dochód w wysokości 69,7 mld dolarów. Z tego 41 miliardów, prawie 60%, pochodzi z jednego tylko źródła, reklamy w wyszukiwarkach. Google kontroluje 92% rynku reklamy internetowej. Rewolucja AI w dziedzinie wyszukiwania, a właściwie już trudno mówić, że chodzi o wyszukiwania, bo to raczej docieranie i zdobywanie informacji, grozi zatkaniem tej wielkiej rury z pieniędzmi dla Google.

Mechanizmy, takie jak ChatGPT, uwalniają użytkow-nika od konieczności przewijania w nieskończoność stron z listami linków, dając bezpośrednie odpowiedzi. Można narzekać, że często są dalekie od ideału i oczekiwań, ale, bądźmy szczerzy, czy wyszukiwarka daje nam informacje w sposób idealny, czy nie zmusza nas do wysiłku lub kolejnych wyszukiwań, by znaleźć lepsze, bardziej trafne wyniki? ChatGPT, poproszony o to wprost, też dostarcza linki do źródeł, stron, dokonując za nas selekcji. Jeśli ludzie polubią ten sposób pozyskiwania informacji, a modele sztucznej inteligencji będą się doskonalić (a co do tego nie ma wątpliwości), to atrakcyjność Google może szybko spaść. Za tym pójdzie spadek zainteresowania firm reklamą w Google, bo dostarczałaby coraz mniej klientów. Straci zarazem sens istnienie zastępów specjalistów od "widoczności" w Google.

Co na to Google? Firma ta jest znana z wielu własnych projektów wykorzystujących AI, także z modeli językowych, podobnych do GPT-3. Nieoficjalnie pisze się o nadzwyczajnej mobilizacji zespołów Google Research, Trust and Safety, z pilną misją tworzenia nowych rozwiązań przed cyklicznym majowym wydarzeniem Google I/O, na którym zwykle prezentuje się nowe produkty. "Times" twierdzi, że prezes Google’a, Sundar Pichai, zawiesił większość swojej aktywności i skupia się głównie na tym problemie.

Według NYT, Google zamierza odpowiedzieć na ChatGPT rozwiązaniem opartym na modelu LaMDA, znanym od wiosny 2021 r. Jeśli będzie to rodzaj hybrydy tradycyjnej wyszukiwarki z elementami interakcji podobnymi do tego, co widzimy w ChatGPT, to się pytanie, czy użytkownicy, zwłaszcza młodsi, nie będą jednak woleli czegoś całkiem nowego zamiast półśrodków. Ewentualne radykalniejsze zmiany rodzą pytania, jak Google pogodzi swój model reklamowy z nowym mechanizmem serwowania informacji. Warto pamiętać, że stojąca za ChatGPT OpenAI jest wspierana przez Microsoft z jego wyszukiwarką Bing, która, jak do tej pory, nie zagroziła Google, jednak dostawca Windows może sobie pozwolić na eksperymenty, gdyż główna część jego dochodów pochodzi nie z reklam w wyszukiwarce, lecz z innych źródeł.

Wyszukiwanie konwersacyjne wydaje się mieć przyszłość, jednak wyzwaniem jest dokładność wyników a raczej odpowiedzi. Bywa, że modele językowe z niewzruszoną pewnością serwują nieprawdziwe informacje. Prezes OpenAI Sam Altman ostrzegał zaraz po premierze Chat GPT, że "błędem jest poleganie w tej chwili na tym narzędziu w jakiejkolwiek ważnej pracy".

Demokratyzacja dostępu do technologii

Standardowe przewidywania co do tego, czego możemy się w dziedzinie sztucznej inteligencji spodziewać w najbliższym czasie, zaczynają się od prognozy, że zasilani przez AI osobiści asystenci będą coraz bardziej inteligentni i uniwersalni, ze zdolnością do rozumienia i reagowania na złożone polecenia i zapytania. Mogą stać się nieodzowną częścią naszego codziennego życia, pomagając nam we wszystkim, od zarządzania planami, harmonogramami i spotkaniami po podejmowanie decyzji. Kto wie, jak szybko pojawią się asystenci, nie tylko organizujący nam życie, ale przewidujący nasze potrzeby i dostarczający rozwiązania, zanim pojawią się problemy.

Prawdopodobną konsekwencją doskonalenia systemów konwersacyjnych i asystenckich będzie upowszechnienie humanoidalnych robotów w środowisku domowym i zawodowym. Badania przeprowadzone w Japonii na osobach w podeszłym wieku wskazują, że AI może o nie ludzkiej, ale podobnej do ludzkiej twarzy i kształcie humanoidalnym pozwoli pomagać samą swoją obecnością ludziom samotnym i chorym.

Roboty humanoidalne to tylko jedna z możliwych konsekwencji rozwoju modeli AI. Będziemy świadkami rozprzestrzeniania się przyjaznych dla użytkownika, nietechnicznych systemów AI", przewiduje w serwisie "VentureBeat", Zeeshan Arif, założyciel i dyrektor generalny w firmie Whizpool zajmującej się tworzeniem oprogramowania. Postępy w przetwarzaniu języka naturalnego (NLP) i w dziedzinie dużych modeli językowych (LLM) "zrewolucjonizują ludzkie interakcje z maszynami - te technologie już mogą zrozumieć, co ludzie mówią językiem naturalnym, odpowiednio działać na tych informacjach i odpowiednio reagować", wtóruje Devanshu Bansal, współzałożyciel The X Future.

Już teraz mamy wysyp platform typu no-code i low-code, które dzięki zastosowaniu technik generatywnych i NLP umożliwiają praktycznie każdemu tworzenie, testowanie i wdrażanie rozwiązań napędzanych przez AI za pomocą prostych interfejsów typu "przeciągnij i upuść" lub opartych na kreatorach. Tak działa np. SwayAI, używany do tworzenia aplikacji AI dla przedsiębiorstw, albo Akkio, który może tworzyć narzędzia do przewidywania i podejmowania decyzji. Demokratyzacja AI ma w przyszłości umożliwić przedsiębiorstwom i organizacjom pokonanie wyzwań związanych z luką w umiejętnościach, spowodowaną brakiem wykwalifikowanych specjalistów i inżynierów danych.

Ponieważ maszyny i algorytmy stają się coraz bardziej zdolne do wykonywania złożonych zadań, możemy spodziewać się, że coraz więcej miejsc pracy będzie automatyzowanych. W dłuższej perspektywie może to mieć poważne konsekwencje dla całego społeczeństwa. Niektórzy sugerują nawet, że rozwój AI może doprowadzić do upowszechnienia uniwersalnego dochodu podstawowego w celu zapewnienia środków do życia tym, którzy utracą pracę wskutek automatyzacji.

Entuzjaści wirtualnej rzeczywistości i metawersum przewidują, że w przyszłości generatywna AI będzie w stanie tworzyć kompletne wirtualne światy, pełne realistycznych środowisk, postaci i fabuł, oferując użytkownikom wciągające i interesujące doświadczenia. Analizując preferencje, zachowania i zainteresowania użytkowników, generatywna AI będzie w stanie generować spersonalizowane treści, dostosowane do każdego użytkownika.

Firma Gartner przewiduje, że generatywna AI nie tylko poprawi jakość produktów cyfrowych, ale do 2025 roku będzie również odpowiadać za 10% wszystkich produkowanych danych, w porównaniu z obecnym 1%. "Technika generatywna będzie wkrótce działać jak egzoszkielet dla człowieka - wspierać pracę, którą wykonujemy i ostatecznie napędzać bardziej wydajną i kreatywną przyszłość", czytamy w raporcie Gartnera. Na całym świecie wydatki rządów i biznesu na technologię AI przekroczą 500 miliardów dolarów już w 2023 roku - wynika z kolei z badań firmy IDC.

Wyczekiwany GPT-4

Jeśli chodzi o przewidywania bardziej konkretne, już w 2023 roku zapewne pojawi się GPT-4, kolejna wersja modelu językowego OpenAI, na którym opierać się mają kolejne produkty, w tym zapewne ChatGPT w udoskonalonej odsłonie, a może także inne rozwiązania. Oczekuje się, że będzie stanowił wielki skok w wydajności w porównaniu z GPT-3 i 3.5.

Większość dzisiejszych wiodących modeli językowych była trenowana na zbiorach danych o wielkości około 300 miliardów tokenów (tokeny nie są tym samym, co słowa - np. w j. angielskim jeden token równa się czterem znakom pisarskim). Rozmiary modelu są opisywane również przez parametry określające zależności między elementami sieci.

GPT-3 firmy OpenAI ma 175 miliardów parametrów, Jurassic firmy AI21 Labs - 178 miliardów parametrów, zaś Megatron-Turing firmy Microsoft/Nvidia - 570 miliardów parametrów. Przewiduje się, że GPT-4 będzie szkolony na zbiorze danych co najmniej o rząd wielkości większym, być może nawet na 10 bilionach tokenów. Jednocześnie będzie miał mniej parametrów niż Megatron-Turing. Odzwierciedlałoby to tendencję panującą w środowisku AI, polegającą na dążeniu do zwiększenia ilości danych szkoleniowych bez nieuzasadnionego powiększania liczby parametrów.

Spekuluje się niekiedy, że GPT-4 będzie multimodalny, czyli, że oprócz tekstu będzie mógł przetwarzać obrazy, filmy wideo i inne rodzaje danych. Jest to teoretycznie możliwe, ponieważ mówimy tu o architekturze Transformer, która okazała się skuteczna w różnych zadaniach uczenia maszynowego, w tym wizji komputerowej. W praktyce może to wyglądać tak, że mógłby przyjąć tekstową podpowiedź jako wejście i stworzyć obraz (tak jak robi to DALL-E), ewentualnie przyjąć jako wejście film i odpowiadać na pytania tekstowe dotyczące jego zawartości. Bardziej prawdopodobne jest jednak, że GPT-4 będzie modelem wyłącznie tekstowym (jak poprzednie modele GPT), którego wydajność ustanowi nowy standard wiedzy i kompetencji generatorów AI.

Nie ma danych? Zsyntetyzuj je

Przy okazji rozważań nad gigantycznymi liczbami parametrów i danych, rodzi się pytanie - o ile więcej danych językowych jest na świecie dostępnych i nadaje się do wykorzystania, mając akceptowalny próg jakości? Jest to pytanie trudne, ale pojawiają się szacunki, że całkowity zasób wysokiej jakości danych tekstowych na świecie wynosi od 4,6 biliona do 17,2 biliona tokenów. Obejmuje to wszystkie książki świata, wszystkie prace naukowe, wszystkie artykuły informacyjne, całą Wikipedię, cały publicznie dostępny kod i znaczną część reszty Internetu, przefiltrowaną pod kątem jakości (np. strony internetowe, blogi, media społecznościowe). Jeśli jest to choć zbliżone do prawdy, to może dzielić nas jedynie rząd wielkości od wyczerpania całego światowego zasobu użytecznych danych do szkolenia modeli językowych. Ilość danych wizualnych, zdjęć, obrazów, filmów może wydawać się ogromna, ale jest, nawet w skali światowej, również skończona. W przyszłości może to się okazać znaczącą przeszkodą dla dalszego rozwoju modeli.

Jednym z możliwych rozwiązań tego problemu są dane syntetyczne. Jeśli ktoś słyszał o autonomicznych samochodach uczących się zasad ruchu drogowego przez gry typu Grand Theft Auto, to właśnie była wczesna wersja uczenia maszynowego na danych syntetycznych. Choć szczegóły dotyczące metod ich powstawania i wykorzystania są dalekie od jasności, to, według przewidywań Gartnera, do 2024 roku będą wykorzystywane w 60% projektów AI.

Istnieją już firmy takie jak Synthesis AI, które oferują opartą na chmurze platformę generowania danych tego typu. Dostarcza ona milionów doskonale oznaczonych i zróżnicowanych obrazów sztucznych ludzi. Uzyskanie zdjęć postaci pod każdym możliwym kątem, ubranych w każdą możliwą kombinację ubrań, w każdych możliwych warunkach oświetleniowych, byłoby "w realu" nad wyraz kosztowne. Zamiast tego można zaprojektować dane syntetyczne tak, aby uwzględniały nieskończoną liczbę wariantów, w dodatku bez potrzeby dodatkowego oznaczania i opisu, gdyż te powstają przy projektowaniu danych.

Inny startup, Daedalean, wykorzystuje dane syntetyczne do szkolenia projektów autonomicznych latających samochodów w wirtualnych światach Unigine. Ma to sens, bo nie dysponuje jeszcze bezpiecznym środowiskiem rzeczywistym, w którym można by testować projekty i generować duże zbiory danych. Ponadto firmy muszą zmagać się z rygorystycznymi ograniczeniami dotyczącymi wykorzystania danych ze świata rzeczywistego. I tu synthetic data idą im w sukurs.

Podstawowym argumentem na rzecz korzystania z danych syntetycznych jest fakt, że są znacznie tańsze niż rzeczywiste. Jednym z sektorów, który już teraz w dużym stopniu opiera się na danych syntetycznych w niektórych procesach, jest bankowość i finanse. Interesują się tym giganty Big Tech. Amazon wykorzystał dane syntetyczne do szkolenia Alexy, Facebook pozyskał generator danych syntetycznych AI.Reverie, a Nvidia wdrożyła NVIDIA Omniverse Replicator, potężny silnik generujący dane syntetyczne do szkolenia głębokich sieci neuronowych.

"Superinteligentna", "świadoma" czy "głupia" - warto mieć na nią oko

Przyszłość z pewnością przyniesie dążenie przezwyciężenia problemu "czarnej skrzynki", prześladujący świat AI. Coraz więcej jest wezwań, aby sztuczna inteligencja działała w sposób przejrzysty, abyśmy mogli wiedzieć, jak podejmowane są decyzje i jakie informacje zostały wykorzystane do ich podjęcia. Administracja prezydencka Stanów Zjednoczonych opublikowała niedawno dokument pt. "Blueprint for an AI Bill of Rights". Nakreśla on zasady, którymi należy kierować się przy projektowaniu, używaniu i wdrażaniu zautomatyzowanych systemów, aby chronić obywateli. Jest tu też zasada powiadamiania i wyjaśniania, czyli obowiązek informowania ludzi, że system AI jest używany w ich sprawie i dlaczego podejmuje takie czy inne decyzje.

Problem nieprzejrzystości działania sztucznej inteligencji ma też związek z prognozami i obawami przed nadchodzącymi podobno narodzinami "silnej" lub "ogólnej" (AGI) sztucznej inteligencji. Prawdopodobnie każdy ekspert od AI zgodzi się, że dziś jeszcze taka nie istnieje i pozostaje w sferze science fiction. Gdyby AGI została osiągnięta, to byłaby systemem mającym zastosowanie do każdego zadania lub problemu, ponieważ, jak to sobie wyobrażamy, może działać i myśleć podobnie jak ludzie. Czasem, pod wpływem znanego futurologa Raya Kurzweila, podaje się 2045 rok jako spodziewaną datę zbudowania AGI. Prawdę mówiąc, Kurzweil miał na myśli nie "silną AI", lecz "technologiczną osobliwość", a to niedokładnie to samo, choć można to traktować jako pojęcia pokrewne tematycznie.

Jednak owa AGI, która byłaby "jak ludzie", a nawet inteligentniejsza od nas - w połączeniu z problemem "czarnej skrzynki", czyli niewiedzy o tym, co tak naprawdę dzieje się w sztucznym umyśle i na jakiej podstawie podejmuje decyzje - budzi niepokój. W przypadku głębokiej nauki (deep learning), na której opierają się współczesne modele, ulepszanie systemów nie musi wiązać się z koniecznością zrozumienia, co zachodzi "w środku". Często niewielka poprawka znacznie podnosi wydajność, ale inżynierowie projektujący systemy nie wiedzą dlaczego.

W miarę jak systemy stają się coraz większe, interpretacja, co dzieje się wewnątrz modeli AI i możliwość upewnienia się, że realizują bliskie naszym cele, a nie swoje własne, staje się coraz trudniejsza. W miarę jak powstawać będą coraz potężniejsze systemy, problem ten przestaje być tylko akademicka ciekawostką. Obecne modele językowe mają wciąż wiele ograniczeń, popełniają błędy, których nie popełniłoby dziecko, i bez wahania podają całkowicie fałszywe odpowiedzi i wyniki. Jednak na przezwyciężenie tych ograniczeń wydawane są miliardy. Zacięta konkurencja, także w sferze militarnej i geopolitycznej, wymusza ciągłe doskonalenie systemów, bez oglądania się na zagrożenia. I.J. Good, matematyk, który współpracował z Turingiem, na krótko przed swoją śmiercią w 2009 roku przewidywał, że człowiek wyginie, ostrzegał, że "z powodu międzynarodowej konkurencji grozi nam przejęcie kontroli przez maszyny. (...) jesteśmy lemingami".

1. Okładka książki pt. „Why Machines Will Never Rule the World – Artificial Intelligence without Fear”. Fot. www.empik.com

Większość mrocznych prognoz opiera się na analogii sztucznej inteligencji i ludzkiego umysłu. Podważają ją analizy "oddemonizowujące" AI. Autorzy nowej książki "Why Machines Will Never Rule the World: Artificial Intelligence without Fear" (1), profesor filozofii z uniwersytetu w Buffalo Barry Smith i Jobst Landgrebe, założyciel niemieckiej firmy Cognotekt, piszą, iż cała ta, nawarstwiająca się opowieść o analogii z ludzkim mózgiem i inteligencją, to nieporozumienie. W ich ocenie, naukowo niemożliwe jest zrozumienie, jak działa mózg.

Gdybyśmy mieli doskonałe zrozumienie, jak działa każda cząsteczka mózgu, to prawdopodobnie moglibyśmy go zreplikować. Oznaczałoby to ujęcie wszystkiego w równania matematyczne. Wtedy można by to zreplikować za pomocą sztucznego systemu obliczeniowego. Problemem jest tylko to, że nie potrafimy zapisać i stworzyć tych równań. Jeśli nie możemy replikować mózgu, to, jak wskazują autorzy książki, maszyna nie może mieć wolnej woli, zatem również nie może mieć złej woli. Oczywiście, nadal można i czasem należy bać się maszyn, tak jak możemy bać się broni. Ale to dlatego, że maszyny są zarządzane przez ludzi mających złą wolę. Nie AI jest zła, tylko ludzie, którzy ją budują i programują. Maszyny nie staną się inteligentne, a tym bardziej superinteligentne.

Jednak być może maszyny nie muszą być wcale "supeinteligentne" i mieć świadomość, by stanowić zagrożenie. "Podstawowym problemem z wysoce zaawansowaną AI nie jest upiorna wyłaniająca się z maszyny świadomość, ale po prostu zdolność do podejmowania wysokiej jakości decyzji", wyjaśnia w jednej ze swoich prac Stuart Russell, badacz AI z Uniwersytetu Kalifornijskiego w Berkeley.

Przez "wysoką jakość" rozumie on to, że AI jest w stanie osiągnąć, co chce, z powodzeniem przewiduje i unika zakłóceń, tworzy plany, które się powiodą, i wpływa na świat w sposób, jaki sobie zamierzy. Przecież do tego właśnie szkolimy systemy AI. Nie muszą być "świadome", a wręcz mogą być całkiem "głupie". Aby zaczęły się kłopoty, muszą tylko stać się bardzo sprawne we wpływaniu na świat i mieć systemy celów, które nie są dobrze przez nas rozumiane i nie są zgodne z naszymi celami. Potężny system AI może realizować wytyczne w sposób, z naszego punktu widzenia, destrukcyjny. Jeśli np. dostanie zadanie znalezienia wszystkich diamentów na planecie Ziemia, korzystając z dostępnych środków, to, jeśli nie zadbamy o inne warunki i ograniczenia, mógłby zniszczyć całą planetę. Russell przypomina stare historie o dżinie z butelki, uczniu czarnoksiężnika albo o królu Midasie - "dostajesz dokładnie to, o co prosisz, a nie to, czego chcesz", pisze.

W przeprowadzonym latem 2022 roku badaniu naukowców zajmujących się uczeniem maszynowym, 48% respondentów stwierdziło, że ich zdaniem istnieje 10% szansy, że skutki AI będą "ekstremalnie złe (np. wyginięcie gatunku ludzkiego)". Zatem nie jest to traktowane jako wielkie prawdopodobieństwo, ale prawdopodobieństwo globalnej katastrofy nie jest też w ocenie specjalistów równe zeru. Zatem chyba trzeba mieć się na baczności.

Mirosław Usidus