AIrtystyczna rewolucja. Twórca w egzoszkielecie
Jak podał pod koniec 2022 r. serwis "The Verge", grupa artystów pozwała twórców generatorów obrazów Stable Diffusion i Midjourney za bezprawne wykorzystanie ich sztuki do szkolenia AI. Według nich, np. Stable Diffusion pozwala podrobić styl danego artysty. Za pomocą prostej podpowiedzi użytkownicy mogą wygenerować dowolną liczbę obrazów, które przypominają charakterystyczny język wizualny dowolnego twórcy. Ewentualny wyrok może ustanowić precedens prawny.
To nie jedyny pozew przeciwko firmom AI. Agencja Getty Images ogłosiła w tym samym mniej więcej czasie, że również pozywa Stability AI, twierdząc, że firma ta "bezprawnie skopiowała i przetworzyła miliony obrazów chronionych prawem autorskim i powiązane z nimi metadane będące własnością lub reprezentowane przez Getty Images (…) ze szkodą dla twórców treści". Stability AI, która uruchomiła publiczną wersję Stable Diffusion w sierpniu 2022 r., wyszkoliła swoje algorytmy na wielkim zbiorze danych o nazwie LAION-5B, pobierającym obrazy i tekst z Internetu, stworzonym przez niemiecki non profit LAION. Jak informowała CNN w październiku 2022 r., niektórzy artyści, np. malarka Erin Hanson, odkryli, że LAION-5B skorzystał z tysięcy kopii jej obrazów.
Jednak przeprowadzenie dowodu, że Stable Diffusion i inne firmy AI w rzeczywistości narusza prawa autorskie, może nie być łatwe. Po pierwsze, twórcy narzędzi AI argumentują, że są chronieni na mocy amerykańskiego prawa fair use. Ponadto, sam LAION twierdzi, że nigdy nie przechowywał skopiowanych obrazów lub tekstów chronionych prawem autorskim. "Zestawy danych LAION to po prostu indeksy odsyłaczy do internetu, czyli listy adresów URL do oryginalnych obrazów wraz ze znalezionymi tekstowymi opisami obrazów", czytamy na stronie organizacji, która nie ma charakteru komercyjnego.
Chociaż wynik tych pozwów jest, jak widać, niepewny, wielu artystów z całego świata jest poruszonych, wręcz oburzonych, że ich praca jest wykorzystywana do trenowania algorytmów AI bez pytania lub wynagrodzenia. Może się to zmienić bez potrzeby procesowania. Według cytowanego już CNN, zarówno LAION, jak i Stability AI podjęły rozmowy z artystami w celu wypracowania sposobu wynagradzania za wykorzystanie ich prac. Stability AI ogłosiło w grudniu, że pozwoli artystom na usunięcie ich dzieł z zestawów danych szkoleniowych w wydaniu Stable Diffusion 3.0.
Ci, którzy generatorami nie gardzą
Krytyka krytyką, oburzenie oburzeniem, ale okazuje się, że niemała liczba twórców używa we własnych projektach sztuki cyfrowej. Używają jej też do generowania nowych pomysłów na dzieła sztuki, poszukują też nowych technik tworzenia. We wrześniu ub. roku obraz stworzony przy użyciu MidjourneyAI i GigapixelAI wygrał konkurs plastyczny w USA. Wzbudziło to falę krytyki, kontrowersje, ale przez wielu było komentowane także jako zapowiedź nowej ery w sztuce. Ta nowa epoka to jednak jednocześnie ogromna nadprodukcja generowanych przez AI dzieł, zalewających strony i rynki internetowe. Firmy prowadzące serwisy stockowe, Shutterstock i Getty Images, musiały nawet wstrzymać przyjmowanie nowych zgłoszeń od autorów, ludzie bowiem masowo umieszczali tam produkcje AI.
Kiedy Shutterstock i OpenAI ogłosiły partnerstwo, którego celem jest pomoc w rozwoju platformy OpenAI Dall-E 2 do generowania obrazów z wykorzystaniem bibliotek Shutterstock do szkolenia i zasilania algorytmu, gigant fotografii stockowej zapowiedział udostępnienie użytkownikom swojego własnego narzędzia do generowania AI. W styczniu 2023 r. firma je zaprezentowała. Klienci platformy projektowej Shutterstock Creative Flow mogą teraz tworzyć obrazy na podstawie podpowiedzi tekstowych, na bazie generatora DALL-E 2 firmy OpneAI.
Niektóre generatory obrazu, takie jak wspomniany MidjourneyAI, potrafią tworzyć znacznie więcej niż proste małe obrazki. Do drzwi pukać zaczyna sztuka filmowa z generatorów. Pojawiają się już pierwsze ciekawe narzędzia do tworzenia wideo. Właścicielka Facebooka, firma Meta, zaoferowała narzędzie o nazwie Makea-Video, aplikację AI do generowania filmów z prostych podpowiedzi tekstowych lub na podstawie obrazów statycznych. Jak wiele podobnych rozwiązań, nie jest jeszcze szeroko udostępniona użytkownikom, ale to zapewne kwestia czasu.
Co ciekawe, rozwój generatorów stworzy pole do nowych specjalizacji, zajęć o charakterze zawodowym, które mają również wiele wspólnego z kreatywnością. Ponieważ treść i kompozycja sekwencji tekstowych ma spore znaczenie dla ostatecznego efektu, dodanie lub usunięcie jednego słowa może prowadzić do diametralnie różnych, także pod względem artystycznym wyników, tzw. "prompt engineering" (a może "prompt creating”?) szybko staje się cenną umiejętnością. Z drugiej strony sztuką staje się takie układanie zapytań, aby wygenerowany został nie dowolny, "zobaczy się jaki", efekt, ale wynik pożądany, zaplanowany wręcz.
Jakie są w tej chwili najpopularniejsze generatory obrazów?
Znana z budowy modelu języka naturalnego GPT-3, organizacja OpenAI, opracowała generator cyfrowych obrazów DALL-E, który premierę miał w styczniu 2021 roku, a potem został rozwinięty w DALL-E 2 (1), obecnie dostępny dla wszystkich. Po wprowadzeniu tekstowego hasła podaje stosunkowo szybko (uważa się, że najszybciej ze znanych obecnie modeli) cztery wyniki, zazwyczaj w różnych stylach. Jest to narzędzie komercyjne. Rejestracja konta daje 50 darmowych kredytów, z dodatkowymi 15 darmowymi kredytami oferowanymi co miesiąc. Dodatkowe kredyty można kupić.
Stable Diffusion, stworzony przez Stability AI, nie jest tak szybki jak DALL-E 2. Wciąż jednak oferuje wyniki, również w czterech wariantach, w 30 sekund lub mniej. Dostępny bezpłatnie na stronie demo, model ten ma charakter projektu open source, co pozwala ludziom określonych umiejętnościach, w tym także artystom, wpływać na jego działanie. Stability AI oferuje również Dream Studio, gdzie twórcy mogą modyfikować generowane dzieła za pomocą narzędzi edycyjnych.
Wspominany wyżej Midjourney zyskał reputację generatora wysokiej jakości obrazów i wzbudził znane kontrowersje, wygrywając z artystamiludźmi. Narzędzie jest dostępne tylko przez Discorda, popularną platformę komunikacji internetowej. Polecenia są wpisywane bezpośrednio na czacie. Midjourney jest produktem komercyjnym. Użytkownik dostaje na początek 25 kredytów do wykorzystania, ale za więcej musi płacić miesięczny abonament.
Pierwotnie nazywany DALL-E Mini, generator obrazów Craiyon nie ma bezpośredniego związku z modelem OpenAI. Jego twórcy oferują narzędzie bezpłatnie. Wygenerowanie wyników może zająć tu do dwu minut i są one niskiej rozdzielczości, ale podsuwanych jest aż dziewięć różnych wyników. Craiyon różni się od innych generatorów tym, że wykorzystuje niefiltrowane dane. Wyniki są zwykle słabsze jakościowo w porównaniu z innymi narzędziami. Na przykład ludzkie twarze wyglądają czasem wręcz upiornie.
Eksplodująca w 2022 r. popularność generatorów obrazów AI inspirowała i inspiruje twórców kolejnych narzędzi. Jedno z nich, VQGAN+CLIP, który działa w całości w notatniku Google Colaboratory, pozwala zajrzeć pod maskę. Można obserwować, jak narzędzie generuje nowe warianty w czasie rzeczywistym. Widać proces, który zaczyna się od bezkształtnego kleksa i powoli przekształca się w rozpoznawalną kreację.
Są jeszcze, oparte na AI, narzędzia, które nie mają ambicji aż generowania nowej sztuki, ale artyście lub fotoedytorowi mogą znacznie ułatwić pracę przy edycji dzieł. To np. Magic Eraser, który zastępuje żmudne prace w programie graficznym przy usuwaniu obiektów lub np. tła. Pracę przy tworzeniu lub nanoszeniu na ilustracje nieskomplikowanych rysunków może ułatwić z kolei Autodraw, który dzięki algorytmom AI "zgaduje", co próbujesz narysować i oferuje lepsze alternatywy. Jeśli naszkicujemy coś, co przypomina kota, to Autodraw może przerobić go na całkiem zgrabny rysunek kota. Inny program, Let’s Enhance, pozwala poprawiać jakość zdjęcia o niskiej rozdzielczości na lepszą.
Czy prawo autorskie chroni styl artysty?
Przykładem artysty, który świadomie i chętnie korzysta z narzędzi sztucznej inteligencji do twórczości własnej, jest znany grafik Peter Mohrbacher. "Zmieniłem początkowy sposób myślenia Midjourney, zaczynając postrzegać w nim narzędzie do generowania pomysłów i kompozycji. Mogę zacząć od struktury tworzonej przez Midjourney, wnosząc następnie rzeczy, w których jestem dobry i używając Midjourney do rzeczy, z którymi sobie słabiej radzę", opisuje swoją technikę pracy artystycznej z asystą AI w serwisie "Medium". "Moje początkowe odczucie, gdy zacząłem pracować z AI, jest takie, że w pewnym sensie czujesz się tak, jakbyś miał egzoszkielet. Możesz poruszać się szybciej i z większą mocą przez tę samą przestrzeń twórczą. Masz nogi robota. A jednak twoje intencje i cel są w dużej mierze takie same".
Mohrbacher z rezerwą podchodzi o rozpowszechnionych opinii o "kradzieży artystycznego stylu przez AI". Jak mówi, "jeśli Midjourney może idealnie naśladować mój styl, chciałbym to zobaczyć". "Być może wielu artystów dzięki AI mogłoby lepiej zrozumieć, co to zn-czy mieć styl, jaki styl oni mają i czy w ogóle mają", zauważa nieco złośliwie.
Inni artyści, tacy jak wywodzący się z Polski Greg Rutkowski, są jednak przekonani, że generatory obrazów AI kopiują ich styl, aby tworzyć tysiące nowych obrazów i jest to całkowicie poza ich kontrolą. Rutkowski jest znany na świecie z tworzenia fantastycznych obrazów smoków i bitew, które inspirują się grami fantasy. W ostatnim czasie stał się jednym z najpopularniejszych nazwisk w sztuce generowanej przez AI, mimo że sam nigdy nie używał tej technologii. Jak się szacuje, nazwisko Rutkowskiego zostało użyte do wygenerowania prawie stu tysięcy kreacji w jednym tylko generatorze Stable Diffusion, co czyni go znacznie bardziej popularnym inspiratorem sztuki AI niż Pablo Picasso, Leonardo da Vinci i Vincent van Gogh. Rutkowski krytykuje to, twierdząc, że to nieetyczne.
Artystom takim jak Rutkowski być może pomogą narzędzia takie jak Spawning AI, stworzone przez Mata Dryhursta i Holly Herndon, również artystów, które pozwala twórcom sprawdzić, czy ich dzieło zostało włączone do zestawu szkoleniowego AI bez ich zgody.
Twórcy mają jeszcze prawo, które jednak nie jest jasne i chyba nie nadąża za zmianami w świecie techniki. Prawo autorskie różni się w szczegółach pomiędzy krajami, ale zwykle w podobny sposób chroni artystów przed kopiowaniem, jednak raczej nie stylu, lecz określonych dzieł sztuki. Prace wygenerowane przez sztuczną inteligencję nie mają autora-człowieka, więc nawet jeśli zachodzi podejrzenie kopiowania dzieła 1:1, to prawo nie bardzo ma kogo ścigać w takim przypadku. Z kolei twórcy modelu AI tworzą jedynie narzędzie. To może autora zapytania wpisanego do generatora? Ale przecież nie wiadomo dokładnie, co osoba wprowadzająca podpowiedź chciała osiągnąć.
Niektóre generatory obrazów AI, wśród nich DALL-E, Midjourney i Stable Diffusion, wprowadziły rozwiązania uniemożliwiające użytkownikom wykorzystanie chronionych dzieł. OpenAI, na przykład, zakazuje używania wizerunków celebrytów czy polityków. Wszystkie trzy programy blokują użytkownikom tworzeniem "szkodliwych treści", filtrując takie rzeczy jak nagość i krwawe sceny. Czy będą blokować naśladowanie stylów? Stable Diffusion zapowiada w informacji dla serwisu "Business Insider" wprowadzenie możliwości blokowania przez artystów zapytań dotyczących generowania dzieł w ich stylu. Inne generatory na razie nie przekazują jasnych komunikatów.
Muzycy mogą spać spokojnie (na razie)
Generatory obrazów to najgłośniejsza obecnie część rewolucji AI w świecie sztuki. Trochę w ich cieniu pozostaje inwazja rozwiązań AI zmieniających oblicze innych rodzajów twórczości, np. takich jak Rytr, generatora tekstu, który może zostać wykorzystany do pisania tekstów, artykułów a może i prozy o większej objętości. Wystarczy w ustawieniach wybrać język, ton, rodzaj treści, i narzędzie "pisze".
Jest już także muzyka generowana przez AI (2), choć są to narzędzia mniej znane. Powodem stosunkowego jeszcze małego nagłośnienia technik AI tworzących muzykę jest, jak się wydaje, wciąż dość niski poziom dzieł muzycznych AI. Powstały narzędzia, które generują muzykę z podpowiedzi, ale, przynajmniej na razie, to, co oferują, chyba nie powinno niepokoić muzyków.
Do najbardziej znanych należą - Mubert AI, która potrafi przekształcić dane tekstowe w wiarygodnie brzmiącą kompozycję, a także Audio LM Google’a. Wedle recenzji, poziom generowanych przez te programy dzieł to, w porównaniu z utworami komponowanymi i granymi przez ludzi, niebo a ziemia. Mubert AI była, jak twierdzi strona, szkolona na "ponad milionie próbek [muzycznych]" stworzonych przez "ponad cztery tysiące twórców". W Audio LM użytkownik podaje jeden lub więcej klipów dźwiękowych, na przykład kilka nut z partytury a maszyna kontynuuje kompozycję.
Seth Forsgren i Hayk Martiros dostosowali algorytm Stable Diffusion (SD) do generowania muzyki, tworząc "maszynę muzyczną", nazywaną Riffusion, która działa na tej samej zasadzie co generator obrazu, przekształcając podpowiedź tekstową w nową, wygenerowaną przez AI treść. Główna różnica polega na tym, że algorytm został przeszkolony z wykorzystaniem tzw. sonogramów, przedstawiających muzykę i dźwięk w formie wizualnej. Jak wyjaśniono na stronie internetowej Riffusion, sonogram (inaczej spektrogram dla częstotliwości audio) jest wizualnym sposobem reprezentowania zawartości częstotliwości w klipie dźwiękowym. Sztuczna inteligencja została przeszkolona na spektrogramach przedstawiających dźwięki, piosenki lub gatunki, więc może generować nowe klipy dźwiękowe na podstawie wszelkiego rodzaju podpowiedzi tekstowych. Jednak, jak sprawdził MT, większość uzyskanych kompozycji brzmi mniej lub bardziej kakofonicznie.
Kolejna inicjatywa muzyczna to Harmonai, organizacja z finansowym wsparciem Stability AI. Pod koniec września 2022 Harmonai wydała Dance Diffusion, algorytm i zestaw narzędzi, które mogą generować klipy muzyczne, dzięki szkoleniu na setkach godzin istniejących utworów. Dance Diffusion to wciąż produkt testowy - obecnie system może generować jedynie klipy długości kilku sekund. Model jest szkolony tylko na krótkich 1,5-sekundowych próbkach na raz, więc nie może się uczyć ani rozumować o dłużej trwającej strukturze. System jest tak zwanym modelem dyfuzyjnym, który generuje nowe dane (np. piosenki) przez naukę polegającą na "niszczeniu i odzyskiwaniu" wielkiej liczby przygotowanych próbek danych.
Także OpenAI zainicjowało parę lat temu eksperyment z generowaniem muzyki, nazwany Jukebox. Potrafił wygenerować spójną muzykę wraz z wokalem. Jednak piosenki produkowane przez Jukebox nie miały typowych struktur, choćby refrenów, i często zawierały nonsensowne teksty.
Choć narzędzia AI generujące muzykę i dźwięki są wciąż niedoskonałe, doczekały się już swoich kłopotów z prawem. W 2020 roku wytwórnia Jay-Z złożyła pozew o naruszenie praw autorskich przeciwko kanałowi YouTube o nazwie Vocal Synthesis, za wykorzystanie AI do tworzenia wersji znanych piosenek nagranych niby przez Jay-Z, np. "We Didn’t Start the Fire" Billy’ego Joela.
Recording Industry Association of America (RIAA) obawia się, że generatory muzyczne napędzane przez AI mogą zagrozić zarówno portfelom, jak i prawom ludzkich artystów. RIAA wymieniła szereg różnych usług, od takich, które oddzielają wokale od podkładów muzycznych, po takie, które masterują piosenki w stylu znanych artystów. Jak pisał magazyn "Vice", organizacja ta znana od lat (od czasów Napstera) z walki z nowymi technikami i oskarżeń o piractwo, może za kolejny cel obrać sobie generatory muzyki AI. Ale czy te generowane przez SI utwory rzeczywiście naruszają prawa muzyków, dopiero się okaże, bo nie ma zbyt wielu precedensów prawnych.
Na filmowców AI z prawdziwego zdarzenia przyjdzie jeszcze trochę zaczeka.
W odpowiedzi na prototypowy oparty na AI generator filmów, Make-A-Video firmy Meta, Google przedstawił Imagen Video, system sztucznej inteligencji, który potrafi generować klipy wideo na podstawie podpowiedzi tekstowej. Generowane wyniki nie są idealne. Jest w nich sporo zakłóceń i szumów. Jednak system firmy Meta jest również niezbyt doskonały i niedotępny publicznie. Oba narzędzia trzeba traktować jako zapowiedź przyszłości - wejścia rozwiązań pozwalających tworzyć za pomocą AI całe, najpierw krótkie, potem zapewne coraz dłuższe i doskonalsze, dzieła filmowe. Na razie twórcy „generatorów wideo” uczciwie przyznają, że do efektów podobnych do tych, jakie daje DALL-E 2 czy MIdjourney, w dziedzinie filmu jest jeszcze daleko. Amerykańscy potentaci nie są jedynymi, którzy nad tym pracują. Na początku 2022 r. grupa chińskich badaczy z Uniwersytetu Tsinghua zademonstrowała system CogVideo, który potrafi przetłumaczyć tekst na krótkie klipy o dość wysokiej jakości.
Imagen to wspominany już model "dyfuzyjny", generujący nowe dane (np. filmy) poprzez naukę, jak "zniszczyć" i "odzyskać" istniejące próbki danych. W miarę jak model jest nimi karmiony, staje się lepszy w odzyskiwaniu danych, które wcześniej zniszczył, aby stworzyć nowe dzieła. Jak wyjaśnia zespół badawczy Google’a w publikacji naukowej na ten temat, system pobiera opis tekstowy i generuje szesnaście klatek filmu, w tempie trzech klatek na sekundę, rozdzielczości 24 na 48 pikseli. Następnie system zwiększa skalę i "przewiduje" dodatkowe klatki, tworząc ostateczny 128-klatkowy, film z 24 klatkami na sekundę, w rozdzielczości 720p (1280×768).
Google podaje, że Imagen Video został wytrenowany na 14 milionach par wideo-tekst i 60 milionach par obraz-tekst, a także na publicznie dostępnym zbiorze danych LAION-400M obraz-tekst. W eksperymentach stwierdzono, że Imagen Video może tworzyć filmy w stylu obrazów van Gogha i akwareli. Imagen Video wykazuje ponadto podobno zrozumienie głębi i trójwymiarowości, co pozwala mu tworzyć filmy takie jak przeloty dronem bez zniekształceń obrazu. Zespół Imagen Video planuje połączyć siły z badaczami sto-jącymi za Phenaki, innym projektem Google generującym wideo z tekstu.
Mirosław Usidus