Nie wierz własnym oczom

Nie wierz własnym oczom
Film wygląda bardzo sugestywnie. Były prezydent Barack Obama mówi bezpośrednio do kamery i wulgarnie wyzywa obecnego prezydenta Trumpa. Gdyby nie było wiadomo, że wideo jest dziełem Jordana Peele’a i serwisu BuzzFeed (1), stworzonym po to, aby ostrzec ludzi przed rodzącą się techniką deepfakes, łatwo można by się dać nabrać.

Z drugiej strony, przecież fascynowała nas cyfrowa imitacja młodej Carrie Fisher - księżniczki Lei, pojawiająca się pod koniec "Łotra 1", w ramach sagi "Gwiezdne wojny". Mniej znany jest u nas przypadek umieszczania oblicza Nicolasa Cage’a we fragmentach filmów, w których nie występował, w tym m.in. w "Poszukiwaczach zaginionej Arki" (2).

2. Twarz Nicolasa Cage’a nałożona na postać graną przez Harrisona Forda w "Poszukiwaczach zaginionej Arki"

W tym ostatnim przypadku chodziło o dość niewinne internetowe figle. Pomimo pozytywnych lub neutralnych przykładów technika "głębokich fałszerstw" (deepfakes) budzi jednak poważne niepokoje, sięgające wręcz służb dbających o bezpieczeństwo całych państw i narodów.

Niebezpieczne zaufanie do obrazu wideo

Wyspecjalizowany zespół w Departamencie Obrony USA, związany z rządową agencją obrony DARPA, inwestuje dziesiątki milionów dolarów w rozwój konkurencyjnych wobec deepfakes technik - takich, które automatycznie wykryją manipulowane filmy i fotografie, mogące nawet zagrozić bezpieczeństwu narodowemu. Program DARPA Media Forensics (MediFor) pochłonął jak do tej pory ok. 68 mln dolarów.

Matt Turek, kierownik projektu Media Forensics, powiedział niedawno kanadyjskiej telewizji CBC, że "obecnie łatwiej jest wygenerować manipulację, niż ją wykryć". Jak dodał, "współczesne narzędzia dają nowe możliwości działania przeciwnikom rządu USA", zarówno "grupom o niewielkich zasobach", jak też "większym i lepiej zorganizowanym formacjom oraz przedstawicielom innych państw". Zwrócił także uwagę, że "niektóre państwa dobrze znane są z manipulowania mediami".

Dla CBC wypowiadał się w tej sprawie również ekspert w dziedzinie cyfrowej kryminalistyki Hany Farid, profesor informatyki w Dartmouth College w New Hampshire. Mówił o wielkim niepokoju co do tego jak technologia, która pozwala manipulować obrazem wideo, może być niewłaściwie wykorzystana.

- Moim koszmarem jest sytuacja, w której pojawia się filmik z Trumpem mówiącym, że wystrzelił właśnie broń jądrową na Koreę Północną, po czym, zanim ktokolwiek się zorientuje, że ma do czynienia z podrobionym materiałem, rozpoczyna się globalny konflikt jądrowy - stwierdził.

W biurach DARPA w Arlington, Matt Turek demonstrował kilka przykładów zmanipulowanych filmów wideo, które dzięki technologii detekcji stosowanej przez agencję można rozpoznać jako fałszerstwa. Na jednym z nich widać dwie siedzące obok siebie osoby, które w rzeczywistości nigdy się nie spotkały. Technologia wychwyciła niespójności w oświetleniu w kadrze.

Kolejnym przykładem było wideo z monitoringu, na którym przeanalizowano ruch, automatycznie wykrywając brakującą część filmu.

- W pewnym momencie klatka zmienia kolor na czerwony, sygnalizując usunięcie serii ramek, co powoduje niespójność w zapisie ruchu - tłumaczył Turek.

Program Media Forensics ma też pomóc amerykańskiemu wojsku. Obecnie to ludzcy analitycy muszą weryfikować filmy i obrazy, co jest procesem wykonywanym "ręcznie". Media Forensics mocno zautomatyzowałby proces, dostarczając specjalistom narzędzia ułatwiające ich pracę.

- Jako społeczeństwo mamy duże zaufanie do obrazu lub wideo - zauważył w CBC Turek. - Jeśli coś widzimy, wierzymy, że tak się stało. Zmanipulowane materiały wizualne mogą mieć więc wielką destrukcyjną moc.

Niezależnie od sukcesu prac nad technikami wykrywania, które w DARPA potrwają jeszcze prawie dwa lata, trzeba jasno powiedzieć, że oszuści z natury są krok do przodu niż reakcja na ich działania.

O tym także pisało trzech członków amerykańskiego Kongresu - Adam Schiff, Stephanie Murphy i Carlos Curbelo - w alarmistycznym liście wystosowanym we wrześniu ub. roku do Daniela Coatsa, dyrektora wywiadu USA.

"Hiperrealistyczne fałszerstwa cyfrowe, popularnie nazywane deepfakes, bazują na wyrafinowanych technikach uczenia maszynowego służących do tworzenia przekonujących obrazów osób, które wydają się robić lub mówić rzeczy, jakich w rzeczywistości nigdy nie mówiły i nie robiły - całkowicie bez ich zgody lub wiedzy", czytamy w liście. "Przez zatarcie granicy między faktem a fikcją, technika deepfakes może podważyć zaufanie społeczne do nagranych obrazów i filmów jako obiektywnych obrazów rzeczywistości".

Schiff, Murphy i Curbelo zwrócili się do szefa wywiadu z prośbą o przygotowanie raportu, który wskazywałby Kongresowi, jakie kroki zaplanował w celu zwalczania rozpowszechniania nieprawdziwych klipów.

"Podrobione filmy wideo, obrazy lub dźwięk mogą być wykorzystywane do szantażu lub do innych złych celów", napisali. "Mogą być też używane przez podmioty, zagraniczne lub krajowe, do rozpowszechniania błędnych informacji".

Fejkowych kont nie ubywa

W cyberprzestrzeni techniki głębokich fałszerstw stanowią niejako dalszy ciąg znanego od lat problemu istnienia fałszywych profili osób publicznych w mediach społecznościowych. Na Facebooku, Instagramie i Twitterze funkcjonują miliony lewych kont znanych aktorów, muzyków czy polityków. Problem ostatnio narasta, gdyż coraz częściej fejki szerzą dezinformację, albo służą do wyłudzania pieniędzy i krzywdzenia ludzi.

W zeszłym roku Oprah Winfrey ostrzegła swoich fanów na Twitterze, że ktoś próbuje ich oszukać, używając w mediach społecznościowych do wyłudzania pieniędzy jej imienia i awatara (3). Harriet Seitler, dyrektor ds. marketingu Oprah Winfrey Network, dodała, że chodzi o oszustów, którzy tworząc fałszywe profile gwiazdy, próbują sprzedawać bilety na imprezy lub domagają się darowizn.

3. Ostrzeżenie przed fałszywym kontem Oprah Winfrey

Aby ocenić skalę problemu, gazeta "The New York Times" zleciła analizę liczby profili podszywających się w mediach społecznościowych pod dziesięć najbardziej śledzonych osób na Instagramie.

Badanie przeprowadzone przez Social Impostor znalazło prawie 9 tys. kont na Facebooku, Instagramie i Twitterze, udających, że są prowadzone przez te znane osoby lub w porozumieniu z nimi. Najwięcej dotyczyło brazylijskiego piłkarza Neymara – 1676. Gwiazda popu Selena Gomez była druga, z wynikiem 1389. Beyoncé udawało 714 oszustów, a Taylor Swift 233, najmniej spośród sprawdzanej grupy.

Sporo w tym również winy Twittera, Instagrama i Facebooka, gdyż platformy te wykazują dość pobłażliwy stosunek do własnych zasad zabraniających podszywania się pod inne osoby. Przedstawiciele Facebooka i jego jednostki, Instagramu, oświadczyli oczywiście, że rozprawiają się z fałszywymi kontami.

Niedawno dodali np. oprogramowanie, które automatycznie wykrywa oszustwa, co umożliwiło im usunięcie ponad miliona kont, które pojawiły się od marca 2018 r. W międzyczasie jednak zwiększyli szacunki potencjalnie fałszywych kont obecnych na swoim portalu (w tym podwójnych, więc niekoniecznie służących do niecnych celów) do aż ok. 80 milionów, czyli ok. 4% całkowitej liczby profili.

Jak rozpoznać deepfakes?

1. Twarze
W wielu deepfakes twarze wyglądają dziwnie. Nie zawsze też pasują do siebie przejścia między twarzą a szyją lub do twarzy źle dobrane są włosy.

2. Relacja twarzy do ciała
Większość głębokich podróbek to przede wszystkim substytuty twarzy - zmiany w zachowaniu reszty ciała są o wiele bardziej skomplikowane i trudniej je oddać.

3. Długość klipu
Chociaż dostępna technika jest już łatwa w użyciu, procesy uczenia maszynowego w celu uzyskania deepfakes są nadal pracochłonne. Dlatego większość znajdujących się w sieci fałszywek wideo trwa tylko kilka sekund. Jeśli nie
widać oczywistego powodu, dla którego nagranie jest bardzo krótkie, możemy potraktować to jako przesłankę, że mamy do czynienia z fałszywką.

4. Źródło nagrania
Analiza źródła może być pierwszym krokiem do dalszych krytycznych ocen oglądanego efektu.

5. Dźwięk
Oprogramowanie do deepfejków często pozwala wyłącznie na zmanipulowanie obrazu. Jeśli więc brakuje dźwięku lub nie pasuje on do obrazu (np. brak synchronizacji warg), to możemy podejrzewać, że chodzi o fałszywkę.

6. Odtwarzanie przy połowie prędkości
Manipulacje obrazem i niezgodności obrazu głównego z tłem lepiej widać, odtwarzając film w zwolnionym tempie.

7. Rozmyte wnętrza ust
Oprogramowanie do tworzenia głębokich podróbek potrafi już przenosić całkiem sprawnie twarze, ale wciąż ma problemy z renderowaniem takich szczegółów, jak wygląd zębów, języka i jamy ustnej.

8. Mruganie
Zdrowi dorośli mrugają co 2-8 sekund, przy czym pojedyncze mrugnięcie może trwać od 1/10 do 1/4 sekundy. Oprogramowanie deepfakes nie potrafi jeszcze odtworzyć wzorców naturalnego mrugania.

Technologia od Google’a

Pojęcie deepfake to angielskojęzyczne złożenie pochodzące od terminów deep learning ("głębokie uczenie") oraz fake ("fałszerstwo"). Zarówno do analizy i syntezy fałszywych obrazów, jak i do ich tworzenia może być wykorzystywana sztuczna inteligencja, w tym technika uczenia maszynowego zwana "generatywną siecią kontradyktoryjną" (GAN).

W 2017 r. pojawiły się w Internecie fałszywe filmy pornograficzne z twarzami celebrytów. Rozpowszechniane były zwłaszcza w serwisie Reddit. Niepornograficzne deepfakes można z kolei łatwo znaleźć na popularnych serwisach wideo, takich jak YouTube lub Vimeo. Przykładowo, twarz argentyńskiego prezydenta Mauricia Macriego zastępuje się w nich twarzą Adolfa Hitlera, a oblicze Angeli Merkel – wizerunkiem Donalda Trumpa.

W styczniu 2018 r. upubliczniono aplikację desktopową FakeApp. Umożliwia ona użytkownikom stosunkowo łatwe tworzenie i udostępnianie filmów z zamienionymi twarzami. Appka wykorzystuje do generowania takich filmów sztuczną sieć neuronową i moc procesora graficznego, a także 3-4 gigabajty przestrzeni dyskowej.

Aby uzyskać szczegółowe informacje, program potrzebuje dużo materiału wizualnego dotyczącego osoby, która ma stać się "bohaterem". Oprogramowanie wykorzystuje platformę AI TensorFlow firmy Google.

Niektóre strony internetowe, np. Twitter, zapowiedziały, że usuną treści deepfake i zablokują jej wydawców. Wcześniej platforma czatu Discord zablokowała kanał czatu z fałszywymi filmami porno gwiazd. Portal pornograficzny Pornhub również planuje pójść tym śladem, jednak podobno jak dotąd nie wprowadził swojej decyzji w życie.

Tymczasem technika się rozwija. Naukowcy z Uniwersytetu Carnegie Mellon (CMU) opracowali nową metodę, która może generować fałszywki automatycznie, zupełnie bez interwencji człowieka. Dzięki sztucznej inteligencji i maszynowemu uczeniu się, system potrafi kopiować mimikę twarzy podmiotu w jednym filmie wideo, a następnie mapować dane na obrazy w innym.

Barack Obama może być więc łatwo przekształcony w Donalda Trumpa, a Jarosław Kaczyński - w Donalda Tuska. System jest również w stanie konwertować filmy czarno-białe do kolorowych lub manipulować obrazami tak, aby np. kwiat hibiskusa został przekształcony w żonkil. Ponieważ to nowe narzędzie potrafi automatycznie przekształcać duże zasoby filmowe, wydaje się szczególnie przydatne również w neutralnych etycznie celach, np. dla filmowców lub projektantów gier, chcących tworzyć szczegółowe środowiska cyfrowe.

- Jest to narzędzie dla artystów. Udostępnia im początkowy model, który daje się następnie poprawiać - poinformował w specjalnym oświadczeniu doktorant Aayush Bansal z Instytutu Robotyki CMU.

Jednak zespół, do którego należy naukowiec z CMU, jest w pełni świadomy, że stworzona technologia może być wykorzystywana również w przypadku deepfejków. Bansal i jego koledzy przedstawili więc jedną ze swoich metod na Europejskiej Konferencji na temat wizji komputerowej w Monachium.

Ujawniając szczegóły własnej koncepcji innym programistom i badaczom, mają nadzieję na ułatwienie identyfikacji głębokich ingerencji dokonywanych w złych intencjach i tym samym na pomoc w walce z nimi.

Na tym samym Uniwersytecie Carnegie Mellon prof. Alan Black specjalizuje się w syntezie mowy. Pokazał niedawno w telewizji KDKA-TV, jak to działa. Po przeczytaniu przez prowadzącego przed kamerą kilku linijek z podaniem różnych pór dnia, Black miał już próbkę głosu, którą wprowadził do syntezatora. Ten zaś wygenerował wkrótce głos prezentera, oznajmiającego rzeczy, których nigdy nie powiedział. Black nazywa to „Photoshopem dla głosu”.

4. Demonstracja możliwości technologii Synthesia

Niedawno inny system imitujący głos, i to w wielu językach, zademonstrowała na filmiku opublikowanym w YouTube brytyjska firma Synthesia.

- Chciałabym pokazać, jak dzięki technologii Synthesia mogę płynnie mówić w 7100 językach - oświadcza uśmiechnięta kobieta (4). Następnie widzimy ją wypowiadającą to samo zdanie po francusku, chińsku i portugalsku.

- Jesteśmy blisko świata, w którym fakt, że widzieliśmy coś na ekranie, nie będzie oznaczać jednoznacznie, że obserwowaliśmy prawdziwe zdarzenie - powiedział podczas niedawnej konferencji Huddle organizowanej przez firmę Mindshare ekspert w dziedzinie danych John Gibson. Jak dodał, techniki te będą rozwijać się szybciej, niż komukolwiek się wydaje.

- Z drugiej strony, deepfakes mogą zadziałać na korzyść zaufanych marek informacyjnych, bo ludzie staną się bardziej skłonni, aby im ufać. Będą po prostu wierzyć sprawdzonemu kanałowi, a nie tylko samej wiadomości.

Zdaniem Gibsona, już w ciągu następnych kilku lat wykorzystanie narzędzi detekcji do wykrywania fałszywych filmów może stać się codzienną częścią życia zawodowego dziennikarza.

Zapewne nie tylko dziennikarza.