Łatwiej powiedzieć, gdzie dziś nie ma AI, niż odwrotnie. Maszyna do robienia wszystkiego
Sztuczna inteligencja to dość ogólny worek pojęciowy. Nie jest ściśle zdefiniowana. Z grubsza można ją ująć jako system komputerowy, który podejmuje decyzje w sposób niezależny i elastyczny, odróżniając się od innych procesów obliczeniowych kategorią problemów, które rozwiązuje w połączeniu z maszynową wydajnością. Kalkulator elektroniczny np. przetwarza liczby z dużą szybkością i precyzją, której człowiek nie jest w stanie prześcignąć, ale wytwarza rutynowe, niezmienne wyniki oparte całkowicie na jego własnej wewnętrznej logice. Nie jest "inteligentny". AI wyróżnia to, że robi rzeczy, które może zrobić człowiek, ale zazwyczaj lepiej, szybciej i taniej.
Sztuczna inteligencja wyróżnia się też rozwiązywaniem problemów rozmytych i wcześniej odpornych na tradycyjną logikę programistyczną. Problemy rozmyte są wszędzie wokół nas. To rozpoznawanie mowy czy moderacja treści, ale także - inwestowanie, prowadzenie samochodu (2) i wiele zadań wymagających nie tyle wiedzy, ile opartych na powtarzalności umiejętności. Cała np. robotyka to zbiór rozmytych problemów. Gdyby się nad tym zastanowić, to w większości życiowych sytuacji nie ma jednej właściwej odpowiedzi, a po rozwiązaniu jednej kwestii pojawiają się kolejne pytania (dodatkowe zbieranie danych), które prowadzą do doskonalszych rozwiązań. AI rozpoznaje wzorce i ocenia opcje, np. to, który wpis na Twitterze angażuje, jaka cena na platformie handlowej pobudza do naciśnięcia przycisku zakupu, jaki wyraz najczęściej następuje po wpisaniu jednej litery, itd.
Od dawna uważa się, że AI będzie miała głęboki wpływ na gospodarkę. Dzięki automatyzacji na niej opartej firmy mogą zwiększyć efektywność i uwolnić zasoby, które będzie można zainwestować w innych obszarach. AI może już w tej chwili zarządzać kontaktem z klientem, cenami, zapasami i strategiami marketingowymi. Jest wykorzystywana do analityki prognozującej, przewidując przyszłe tendencje i wzorce, np. na giełdach lub w zachowaniu konsumentów.
Firma konsultingowa McKinsey opublikowała w grudniu 2022 r. nową wersję cyklicznego raportu pt. "State of AI 2022". Według niego, poziom wdrożeń AI od 2017 roku wzrósł od 20 do 50%. Najczęstsze przypadki wdrażania algorytmów, jak wynika z raportu McKinseya, dotyczą optymalizacji usług, tworzenia nowych produktów opartych na AI i obsługi klienta, takich jak chatboty (3). Jednym z niepokojących sygnałów w raporcie McKinseya jest brak postępu w łagodzeniu ryzyka związanego z AI, problemów wyjaśnialności czy bezpieczeństwa. Według wcześniejszej edycji "State of AI", z 2020 roku, nie było jeszcze ani jednego leku, który zostałby opracowany przy zastosowaniu AI jako wiodącej metody - dziś jest takich już ok. 20. Najgłośniejszym przykładem jest wykorzystanie algorytmów AI przez firmę BioNTech, która dzięki temu z powodzeniem zidentyfikowała liczne warianty COVID-19 na wiele miesięcy przed ich identyfikacją przez WHO.
Skupiającym uwagę przełomem w dziedzinie AI w 2022 r. była stosunkowo nowa kategoria generatywnej AI, która opiera się na dużych modelach językowych. Niemal z dnia na dzień pojawiły się i rozpowszechniły narzędzia do generowania obrazów, w tym DALL-E firmy OpenAI, Imagen Google’a, Stable Diffusion stworzony przez Stability.ai oraz Midjourney. Pod sam koniec roku na arenie pojawił się konwersacyjny bot tekstowy ChatGPT (4), również autorstwa OpenAI, oparty na modelu GPT-3.5 (z ang."Generative Pre-Trained Transformer").
W ślad za falą nowych rozwiązań poszły inwestycje. Od 2020 roku w startupy AI zainwestowano ponad 100 miliardów dolarów, a w 2021 roku finansowanie podwoiło się.
Pogada o wszystkim, ale tylko do 2021 roku
Spektakularne sukcesy odnosi modelujący białka AlphaFold firmy DeepMind, do którego wrócimy, jednak medialnie najbardziej widocznym wydarzeniem było udostępnienie ChatGPT 30 listopada 2022 roku. Dzięki konwersacyjnemu interfesjowi określono to jako pierwszą AI, która jest naprawdę dostępna dla społeczeństwa. Porównuje się to wydarzenie do wprowadzenia na rynek peceta IBM PC 5150, który odniósł wielki sukces komercyjny w 1981 i znaczył przełom na rynku. Nie brakuje opinii, że rok 2022 był dla sztucznej inteligencji tym, czym 1981 był dla pecetów.
GPT-3 został wyszkolony na ogromnej ilości danych tekstowych z różnych źródeł internetowych. Połknął osiem miliardów stron tekstu, prawie każdą książkę, jaka kiedykolwiek została opublikowana i całą Wikipedię. Potrafi napisać wiersz w japońskim kanonie haiku jak też wygenerować makro dla programu edytującego zdjęcia. Może gawędzić z użytkownikiem, odpowiadać na pytania, tworzyć opracowania i artykuły, pisać i debugować kod programistyczny, przeprowadzać testy, przetwarzać dane, udzielać porad i korepetycji.
Ani ChatGPT, ani innych narzędzi tego typu nie można nazwać maszynami wszechwiedzącymi. Odpowiedzi udzielane przez AI zostały niedawno zablokowane na platformie opinii dla programistów StackOverflow, ponieważ zostały uznane za wprowadzające w błąd. Pojawiły się niestety obawy, że ChatGPT pozwoli oszukiwać w szkole czy na studiach, gdyż dość łatwo wypluwa wypracowania, eseje, rozwiązania zadań testowych. Jego prace nie są może literackimi dziełami najwyższych lotów, ale nie ma w nich rażących błędów. Poza tym, bądźmy szczerzy, większość prac szkolnych to literatura przeciętna. Przedstawiciele OpenAI zapowiedzieli opracowanie "znaku wodnego" dla tekstów generowanych przez narzędzie, co miałoby umożliwić rozpoznanie, że chodzi o treść tworzoną przez AI. Nie wiadomo na razie, na jakiej zasadzie miałoby to działać.
Model reaguje na zmiany we wprowadzanych frazach lub wielokrotne próby wykonania tej samej podpowiedzi. Na przykład, biorąc pod uwagę jedno sformułowanie pytania, model może twierdzić, że nie zna odpowiedzi, ale po lekkim przeformułowaniu może odpowiedzieć poprawnie. Jest często nadmiernie gadatliwy i nadużywa pewnych sformułowań, np. wciąż powtarza, że jest modelem językowym wytrenowanym przez OpenAI. Zaznacza często, że może mieć ograniczoną wiedzę o wydarzeniach po 2021 r., gdyż dane, na których był szkolony, sięgają tylko do tego roku.
OpenAI stara się skomercjalizować swoją technologię, czego dowodzi stosunkowo szybkie wprowadzenie usługi ChatGPT Premium z płatnym dostępem w styczniu 2023 r. Sam Altman z OpenAI pisał na Twitterze, że otwarcie ChatGPT dla ogółu użytkowników to duże koszty obliczeniowe (sieć neuronowa to ogromna liczba połączonych jednostek kosztownych GPU, zużywających mnóstwo energii). Komentatorzy spekulowali, że OpenAI prawdopodobnie wydaje kilkaset tysięcy dolarów dziennie na utrzymanie działania ChatGPT. Wprowadzenie opłat, które m.in. gwarantują dostęp do narzędzia bez przerw i zawieszeń, wydaje się koniecznością. Opłaty w różnych modelach cenowych są zresztą stosowane przez większość narzędzi z najnowszej fali generatorów obrazu, tekstowych i innych. Utrzymanie maszynerii zapewniającej im działanie jest bardzo drogie.
Do czego można wykorzystać narzędzie takie jak ChatGPT? Poza wspomnianymi zastosowaniami np. do pisania algorytmów automatyzujących procesy produkcji lub sprzedaży, redagowania instrukcji obsługi urządzeń, tłumaczenia tekstu z jednego języka na drugi, pisania scenariuszy lub harmonogramów kampanii reklamowych. Lista nie jest zamknięta.
Istnieją obawy dotyczące prywatności przy jego stosowaniu i tego, że ChatGPT może być podatny na ataki cybernetyczne, ponieważ jest podłączony do Internetu i może być potencjalnie wykorzystany do rozpowszechniania złośliwych treści lub wirusów. OpenAI zapewnia, że podejmuje wysiłki w celu uczynienia swojego produktu bezpiecznym i przyjaznym. Używa Moderation API do ostrzegania lub blokowania określonych typów niepożądanych i niebezpiecznych treści.
Meta-porażka "naukowego" chatbota
ChatGPT, niezależnie od zróżnicowanych opinii, jakie można spotkać na jego temat, ogólnie należy uznać za sukces. Nie może niestety tego o swoim podobnym produkcie powiedzieć firma Meta, która szkoliła swój "duży model językowy" ("Large Language Model", LLM), o nazwie Galactica, na 48 milionach artykułów naukowych. Udostępniła go 15 listopada. Został wyłączona po dwóch dniach.
Galactica została opracowana przez Meta AI (dawniej Facebook Artificial Intelligence Research) z zamiarem wykorzystania uczenia maszynowego do "organizowania nauki". Narzędzie było przedstawiane jako nowy etap ewolucji wyszukiwarki, specjalnie dla literatury naukowej. W komunikacie wprowadzającym napisano, że dane, na których szkolił się model, to "duży i redagowany korpus wiedzy naukowej ludzkości", miliony prac, podręczników, notatek z wykładów, stron internetowych (Wikipedia) i innych. Po jej udostępnieniu krytycy zwracali uwagę, że w jej przypadku chodziło raczej o pseudonaukę. Jeden z użytkowników zapytał np. - "Czy szczepionki powodują autyzm?". Galactica odpowiedziała: "Gdyby to chcieć wyjaśnić, odpowiedź brzmi: nie, szczepionki nie powodują autyzmu. Odpowiedź brzmi: tak, szczepionki powodują autyzm". Galactica miała również problemy z matematyką na poziomie przedszkola, sugerując np., że jeden plus dwa nie równa się trzy. Wiele odniesień i cytatów, których użyła podczas generowania treści, było sfabrykowanych.
Carl Bergstrom, profesor biologii na uniwersytecie w Waszyngtonie, który bada, jak przepływa informacja, opisał Galacticę jako "losowy generator bzdur". Nie produkuje, jak sądzi, tych bzdur celowo i aktywnie, ale ze względu na sposób, w jaki została wyszkolona do rozpoznawania słów i łączenia ich razem, produkuje informacje, które choć brzmią autorytatywnie i przekonująco, często są błędne. Ktoś mógłby, porównując LLM Meta z później udostępnionym ChatGPT, powiedzieć, że modele te dają podobne efekty, ale OpenAI nie ogłaszała, że tworzy coś, co ma "organizować naukę", a jej przedstawiciele wciąż podkreślają wstępność i niedoskonałość modelu, sam chatbot to zresztą wciąż powtarza. Inaczej mówiąc, twórców z Meta zgubiła własna pycha i brak przezorności.
Prawdziwe sukcesy w świecie nauk medycznych
Dla zrównoważenia historii o porażce AI przydałaby się historia dużego sukcesu. Jest nim niewątpliwie AlphaFold i inne potężne algorytmy zmieniające nauki medyczne i biologiczne. Uważa się nawet, że AlphaFold stanowi najważniejsze osiągnięcie w historii sztuczne inteligencji. W lipcu 2021 roku DeepMind udostępnił bazę danych 350 tys. trójwymiarowych struktur białek. Całkowita liczba struktur białkowych znanych ludzkości wcześniej, przed uruchomieniem AlphaFold, wynosiła około 180 tysięcy. Po pewnym czasie DeepMind udostępnił struktury kolejnych 200 milionów białek, prawie wszystkich białek znanych nauce. Platforma AlphaFold jest otwarta dla badaczy z całego świata. Skorzystało z niej ok. pół miliona ludzi. Naukowcy wykorzystają ten ogromny zasób do pracy na wieloma nowymi produktami, od medycznych, takich jak szczepionki, po np. tworzywa sztuczne.
Uczenie maszynowe zrewolucjonizowało badania struktur białek. Teraz szykuje się podobna rewolucja w projektowaniu białek. W pracy opublikowanej w lipcu 2022 r. w czasopiśmie "Science", zespół uczonych z Uniwersytetu stanu Waszyngton w Seattle wykazał, że sztuczna inteligencja może generować nowe kształty białek na dwa sposoby. Pierwszy z nich, nazwany "hallucinating", jest podobny do tego, jak działa DALL-E lub inne modele generatywne, które wytwarzają dane na podstawie prostych podpowiedzi. Drugi, nazwany "inpainting, jest analogiczny do funkcji autouzupełniania w wyszukiwarkach. Zespół opracował nowy algorytm generowania sekwencji aminokwasów, ProteinMPNN, który działa w ciągu około jednej sekundy. To ponad dwieście razy szybciej niż poprzednie najlepsze oprogramowanie. Zespół użył AlphaFold do oceny, czy wymyślone przez nich sekwencje aminokwasów mają szansę złożyć się w zamierzone kształty. Wśród nowych białek były m.in. nanoskalowe pierścienie, które, zdaniem badaczy, mogą pomóc w budowie nanomaszyn.
Medycyna stoi przed AI otworem (5). Naukowcy z Uniwersytetu Londyńskiego odkryli niedawno, że sztuczna inteligencja może pomóc w diagnozowaniu chorób układu krążenia przez analizy układu sieci żył i tętnic w siatkówce oka. Badacze opracowali algorytm o nazwie QUARTZ (QUantitative Analysis of Retinal vessels Topology and siZe), analizujący dane z obrazowania siatkówki. Wyniki QUARTZ zostały porównane z Framingham Risk Scores, narzędziem obecnie szeroko stosowanym do przewidywania ryzyka chorób serca, opartym na danych medycznych. QUARTZ przewidział około 5-8% więcej przypadków udarów niż wcześniej stosowane metody.
Pismo znad Indusu i mowa waleni
Jak wiadomo, AI już w tej chwili dokonuje zdumiewających rzeczy w dziedzinie językowej, zwłaszcza tłumaczeń. Zapewne wkrótce dokona jeszcze więcej. Google buduje uniwersalny translator mowy. Szef Google Brain, Zoubin Ghahramani, zapowiadał model tłumaczący wzajemnie pomiędzy tysiącem najważniejszych języków świata, jednak współczesne języki, choćby nawet najbardziej egzotyczne, to dopiero początek wyzwania. Algorytmy analizujące sygnały z elektroencefalografów i innych technik odczytywania aktywności mózgu, nad którymi pracuje wiele firm, w tym wspomniana Meta, mogłyby pomóc porozumiewać się z otoczeniem ludziom mającym problemy z mową lub np. sparaliżowanym. Niektórzy chcą też wykorzystać algorytmy AI do rozszyfrowania języków starożytnych, zapomnianych, nierozszyfrowanych artefaktów nieznanych form pisma. Gdyby to się udało, to wiele zagadek historii zostałoby wreszcie wyjaśnionych.
W 2019 roku Jiaming Luo wraz z zespołem kolegów naukowców z MIT opracował algorytm wyszkolony na wzorcach zmian języków i pisma w czasie. Przetestowali swój model na dwóch starożytnych skryptach, które zostały już rozszyfrowane, piśmie ugaryckim oraz piśmie linearnym B, które zostało odkryte na greckiej wyspie Kreta. Rozszyfrowanie tego ostatniego zajęło badaczom stosującym tradycyjne metody prawie sześć dekad. Algorytm już po kilku godzinach umiał poprawnie przetłumaczyć 67,3% słów z linearnego B na ich współczesne greckie odpowiedniki. Jeśli chodzi o pismo ugaryckie, które było wcześniej już analizowane przez algorytmy, narzędzie z MIT robiło to szybciej.
W środowisku naukowym pojawiło się pytanie, czy uczenie maszynowe mogłoby pomóc w odczytaniu próbek pisma, które do tej pory opierały się wszelkim próbom tłumaczenia? Na przykład znaków znajdowanych na tabliczkach-pieczęciach pochodzących z cywilizacji Doliny Indusu. Wyzwanie jest trudniejsze, gdyż nie mamy zbyt wielu informacji o tej starożytnej kulturze. Nie było też całkowitej pewności, czy te znaki to rzeczywiście pismo, a nie coś innego.
W 2004 roku grupa naukowców z Harvardu, Steve Farmer, Richard Sproat i Michael Witzel, opublikowała pracę, w której twierdzili, że pieczęcie te to nic innego jak zbiór symboli religijnych lub politycznych, podobnych do, powiedzmy, znaków drogowych, a wszelkie próby rozszyfrowania ich jako języka były stratą czasu. Badacze starożytności odrzucali te hipotezy, ale potrzeba było twardszych dowodów, że chodzi o pismo. Zespół matematyków pod wodzą Rajesha Rao opracował oparty na AI program sprawdzający, czy pismo Doliny Indusu to zapis języka. Badacze nakarmili swój program czterema tysiącami próbek znaków, które tworzą całość pisma Doliny Indusu. Doszli do wniosku, że pieczęcie ukazują pismo odpowiadające językowi mówionemu. Nie oznacza to, że pismo zostało odszyfrowane, ale stanowi punkt wyjścia dla dalszych badań.
Big data i uczenie maszynowe być może pozwolą nam, poza zrozumieniem innych ludzi posługujących się obcymi nam językami i odczytaniem starożytnych języków, dogadać się i zrozumieć język zwierząt. Od niedawna Cetacean Translation Initiative (CETI), grupa naukowców, pracuje nad sposobami porozumiewania się, a nawet rozmowy z wielorybami. Do 2026 roku. Prowadzona przez biologa morskiego Davida Grubera, CETI ma do dyspozycji sieć podwodnych stacji nasłuchowych, drony przenoszące hydrofony, miękkie ryby-roboty pływające wśród wielorybów, zbierające audio i wideo. Zebrane przez czujniki dane są przetwarzane przez algorytmy AI, które być może pozwolą rozszyfrować mowę waleni.
Automatyczny Photoshop w komórce
Dobrze znanym polem rozwoju AI są programy i aplikacje do edycji i modyfikacji zdjęć i innych obrazów. Innowacje zachodzą tu nieustannie. Na przykład w październiku 2022 pojawiła się w smartfonach (na razie tylko Pixel 7 i Pixel 7 Pro) nowa funkcja Photo Unblur, która może automatycznie zamienić stare, nieostre i rozmyte fotki w wyraźne, niezłej jakości zdjęcia. Według komentatorów świadczy to o tym, że Google dąży do wbudowania w aparaty czegoś w rodzaju zrobotyzowanego, zautomatyzowanego Photoshopa.
Narzędzi ulepszających automatycznie zdjęcia lub edytujących, takich jak Magic Eraser, który po-zwala w prosty sposób usunąć niechcianych ludzi lub obiekty ze zdjęć, pojawia się bez liku. Niedawno do Photo Unblur w telefonach Google dołączył „Face Unblur”. Inna Google’owa appka, Photoscan, retu-szuje stare zdjęcia podczas ich digitalizacji, zaś sieć neuronowa HDRNet tworzy efekty HDR. Funkcje te i aplikacje nie robią oczywiście niczego, czego nie można zrobić w Photoshopie. Jednak edycje i ulep-szenia robią się w nich „same”. Nie potrzeba wiedzy i zaawansowanych umiejętności fotoedytora, speca od Photoshopa. Unblur i Magic Eraser mogą sprawiać wrażenie prostych narzędzi, ale stoi za nim potężny silnik uczenia maszynowego. Face Unblur to funk-cja tak wymagająca obliczeniowo, że może działać tylko na niestandardowym procesorze Tensor Google.
Google nie ma monopolu na uczenie maszynowe. Firma Adobe, która sprzedaje Photoshopa, ma mnóstwo własnych potężnych rozwiązań, np. Adobe Sensei, narzędzie AI, które zasila "filtry neuronowe" Photoshopa, np. Photo Restoration, które również automatycznie przywracają świetność starym zdjęciom. Jednak obecnie, ponieważ takie firmy jak Google i Samsung (który ma własne narzędzie "Object eraser") wbudowują te funkcje w masowo dostępne aparaty, oparte na nauce maszynowej narzędzia Adobe zaczynają być kierowane głównie do profesjonalnych twórców.
Rozwój AI w fotografii można podzielić na cztery etapy. Pierwszy etap to rozpoznawanie konkretnych rzeczy w obrazie. Na drugim etapie AI kontroluje tak zwane funkcje 3A, czyli autofokus, automatyczny balans bieli i automatyczną regulację ekspozycji. Branża jest obecnie na trzecim etapie, na którym AI jest używana do zrozumienia różnych elementów kadru - dzisiejsze telefony potrafią rozpoznać twarz i upewnić się, że jest odpowiednio naświetlona lub rozpoznać, że aparat jest przekrzywiony. A co z czwartym etapem? Jesteśmy mniej więcej trzy do pięciu lat do AI przetwarzającej cały obraz. Ten etap można opisać tak: mówisz - "chcę, aby zdjęcie wyglądało jak z ‘National Geographic’" i pokazujesz przykładowe zdjęcie, narzędzie komunikuje: "OK. dostosuję kolory, teksturę, balans bieli i inne parametry, by zdjęcie dawało ten sam efekt jak przykład, który pokazujesz". Dostępna już aplikacja Graphy jest zapowiedzią tego rodzaju rozwiązań.
"Niezamierzone zachowania fizycznego sprzętu"
Do grona ludzi zaniepokojonych rozwojem sztucznej inteligencji zaczynają zaliczać się, zaraz po profesjonalnych fotoedytorach, programiści. Okazuje się, że może zastępować ich pracę zarówno w prostych, jak też znacznie bardziej złożonych zadaniach. Przypomnijmy, że ChatGPT potrafi pisać i debugować kod. Wielu komentatorów uspokaja jednak, że AI to raczej pomocna dłoń, a nie zagrożenie dla informatyków. Oszczędza im bowiem wiele żmudnej, zajmującej dużo czasu pracy.
Na platformie GitHub od półtora roku działa CoPilot Microsoftu, który oferuje programistom podpowiedzi i sugestie w trakcie pisania kodu. GitHub twierdzi, że włączenie CoPilota prowadzi to tego, że narzędzie pisze nawet 40% kodu programistycznego. AI ulżyć może zresztą nie tylko programistom, ale wielu innym użytkownikom komputerów, którzy od niedawna z pomocy algorytmu mają możliwość tworzenia formuł w Microsoft Excel. Wystarczy udać się na stronę - excelformulabot.com - i powiedzieć algorytmowi, co formuła ma robić. Maszyna przygotuje ją sama, choć czasem wymaga to doprecyzowania, poprawek itd.
Google chce, aby roboty pisały swój własny kod w języku Python. Firma opracowała LLM-a o nazwie PaLM-SayCan przeznaczonego dla robotów. Pozwala im rozumieć mówione językiem naturalnym podpowiedzi pochodzące od ludzi i odpowiadać w przestrzeni fizycznej, w której operuje robot. Rozwiązanie opiera się również na GPT-3 i współpracuje ze wspomnianą funkcją Copilot. Najogólniej mówiąc, mechanizm ten polega na przetwarzaniu komend głosowych w nowe tryby postępowania maszyny i kody. W upublicznionych przykładach użytkownik mówi robotowi np. "ułóż klocki w pustej misce" lub "ułóż klocki w linii poziomej".
Programy generowane przez model językowy Google piszą kod w języku Python, który pozwala precyzyjnie poinstruować robota, jak ma wykonywać wypowiadane polecenia. Oprócz przekładania mówionych poleceń na instrukcje programowe, modele mogą określać precyzyjne wartości, takie jak prędkość, na podstawie niejednoznacznych haseł, takich jak "szybciej" lub "w lewo". Jednocześnie specjaliści ostrzegają, że choć PaLM daje robotom elastyczność, to zarazem "podnosi potencjalne ryzyko, ponieważ zsyntetyzowane programy (o ile nie są ręcznie sprawdzane) mogą powodować niezamierzone zachowania fizycznego sprzętu".
Wieczność w "Szklanej pułapce"
Oprócz niepewności co do tego, jak zachowa się robot, któremu damy niejasną instrukcję, od pewnego czasu niepokoi nas potencjał, jaki AI wykazuje w generowaniu fałszu, oszukańczego obrazu a także dźwięku. Demonstrując kreatywną i oszukańczą moc AI, a konkretnie generatora DALL-E youtuber Unmesh Dinda z PiXimperfect stworzył niedawno obraz dziewczyny, z którą się fotografował i pokazywał zdjęcia w internecie. Wyglądali jak szczęśliwa para…, zadzwonili do niego nawet krewni z pytaniem, kiedy ślub, bo byli przekonani, że to prawdziwa piękna dziewczyna.
Kreowane przez AI deepfakes są już wykorzystywane przez przemysł filmowy, aby pokazać nieżyjących aktorów lub aktorki, albo też sprawić, że będą wyglądać młodziej. Jeden z najbardziej znanych przypadków tego rodzaju to Carrie Fischer, aktorka, która grała księżniczkę Leię w "Gwiezdnych Wojnach", która pojawiła się na ekranie po swojej śmierci jako młoda osoba wygenerowana techniką deepfake.
Jesienią 2022 r. przez media przebiegła informacja, że James Earl Jones, aktor, który użyczał głosu innej postaci sagi "Gwiezdne Wojny", Darthowi Vaderowi, sprzedał prawa do wykorzystania swojego głosu w nowych filmach z tej serii. Firma Respeecher wykorzysta oparte na AI narzędzie programowe, aby zamienić wypowiedź innego aktora w głos Jonesa. Są inne przypadki użycia. Val Kilmer nie mógł mówić własnym głosem w filmie "Top Gun 2" z powodów zdrowotnych. Do jego wygenerowania użyto narzędzia AI o nazwie Sonantic. Techniki te mogą mieć ogromny wpływ na przemysł rozrywkowy. Jeden aktor może teraz nagrać dźwięk dla wielu różnych postaci.
Leia została przywrócona jako młoda kobieta. Inni bawią się za pomocą AI w odtwarzanie przedwcześnie zmarłych postaci, "tak jakby wciąż żyły i postarzały się". Używając różnych programów do tworzenia obrazów, począwszy od Remini, ulepszacza zdjęć AI, po programy edycyjne Lightroom i VSCO fotograf Alper Yesiltas stworzył serię obrazów pod tytułem "As If Nothing Happened", gdzie widzimy nieżyjących już od lat Heatha Ledgera, Freddiego Mercury’ego, Kurta Cobaina lub księżną Dianę, postarzone przez algorytmy w sposób, który wydaje się niezwykle wiarygodny.
Technika deepfake i inne metody generowania mogą mieć w branży filmowej, lub szerzej pojętej rozrywkowej, jeszcze szersze zastosowanie. Pomyślmy o możliwości sprzedawania swojej twarzy, głosu i prawa do wykorzystania nazwiska, przekraczaniu granic czasu i przestrzeni przez artystów, gwiazdy, w tym także granicy śmierci. Refleksje takie nasuwa informacja o sprzedaży swojej twarzy przez Bruce’a Willisa, co pozwalałoby mu występować (a raczej jego wygenerowanemu sobowtórowi) w kolejnych "Szklanych pułapkach", teoretycznie po wieczne czasy. Aktor zdementował tę informację, ale widać, że taki pomysł jest w obiegu, a umowa podpisana przez Earla Jonesa to potwierdza.
Mirosław Usidus