Oszust kradnie twój głos w 3 sekundy i dzwoni po kasę!

AI z ElevenLabs i GPT-5 klonuje głos z 3-sekundowego nagrania, umożliwiając real-time oszustwa. Rodziny tracą tysiące, ufając "znanemu" głosowi.

Telefon dzwoni o północy. Drżący głos wnuka krzyczy: "Babciu, utknąłem za granicą, złodzieje wzięli portfel – prześlij 10 tysięcy natychmiast, bo mnie pobiją!".

Czy wystarczy chwila nagrania bliskiego głosu, by stracić oszczędności życia?

Wcześniej oszuści nagrywali ofiary godzinami, trenując modele na potężnych serwerach. Głosy brzmiały jak robot z tanich bajek – sztywne, z echem, pełen artefaktów. Nawet ElevenLabs, pionier klonowania, wymagało minut próbki i nie radziło sobie z improwizacją w czasie rzeczywistym.

Przełom nastał z GPT-5 i ElevenLabs w duecie. Wystarczy 3 sekundy z Instagrama czy TikToka – AI analizuje barwę, akcent, oddech. Model językowy generuje płynny dialog: "Mamo, nie pytaj policji, bo mnie zamkną". Synteza działa w real-time, z opóźnieniem poniżej 100 milisekund, jak naturalna rozmowa. To jak Photoshop dla uszu – bierze próbkę i maluje idealny klon, reagujący na każde "Co się stało?". W USA matka z Arizony o mało nie przelała 15 tysięcy dolarów, słysząc córkę "porwaną" – głos z jej własnego nagrania świątecznego.

Ironia? Oszuści zyskali Oscara za dubbing, a rodzice płacą haracz. W 2025 roku zgłoszono setki takich scamów, z dziesiątkami tysięcy strat.

Czy ustalenie tajnego hasła – "pingwin w okularach" – wystarczy, gdy AI podsłucha je następnym razem z twojego stories? A może głos stanie się reliktem, zastąpiony skanami tęczówki?

Źródła: https://www.microsoft.com/en-us/research/project/vall-e/, https://arxiv.org/abs/2301.02111, https://arxiv.org/pdf/2406.07855, https://papers.neurips.cc/paper/8206-neural-voice-cloning-with-a-few-samples.pdf, https://arxiv.org/pdf/2410.23320