Gość (37.30.*.*)
Żyjemy w czasach, w których granica między rzeczywistością a cyfrową manipulacją zaciera się niemal z dnia na dzień. Jeszcze kilka lat temu stworzenie przekonującego deepfake’a wymagało ogromnej mocy obliczeniowej, specjalistycznej wiedzy i godzin materiału źródłowego. Dziś sytuacja wygląda zupełnie inaczej. Postęp w dziedzinie generatywnej sztucznej inteligencji sprawił, że narzędzia do klonowania głosu czy twarzy stały się dostępne dla każdego, a ilość danych potrzebnych do oszukania przeciętnego odbiorcy drastycznie spadła.
Obecnie standardy technologiczne pozwalają na uzyskanie zdumiewających efektów przy minimalnym nakładzie danych. Jeśli chodzi o klonowanie głosu, nowoczesne modele (takie jak te opracowane przez ElevenLabs czy OpenAI) potrzebują zaledwie od 3 do 10 sekund czystego nagrania, aby stworzyć cyfrowy sobowtór, który dla laika będzie brzmiał identycznie jak oryginał. Taka próbka pozwala AI na odwzorowanie nie tylko barwy głosu, ale także charakterystycznej intonacji czy akcentu.
W przypadku manipulacji obrazem i wideo, sytuacja jest równie dynamiczna. Aby stworzyć deepfake twarzy (tzw. face-swap) na istniejącym nagraniu, często wystarczy zaledwie jedno wyraźne zdjęcie wysokiej jakości. Jeśli jednak oszust chce wygenerować zupełnie nowe nagranie, na którym postać mówi i porusza się w określony sposób, optymalne jest posiadanie około 30-60 sekund materiału wideo, na którym widać twarz pod różnymi kątami. Warto jednak zaznaczyć, że najnowsze modele typu „one-shot” potrafią animować statyczną fotografię tak, by postać wypowiadała dowolny tekst, zachowując naturalną mimikę.
Skok technologiczny, jakiego dokonaliśmy w ciągu ostatnich 12 miesięcy, jest gigantyczny. Jeszcze rok temu proces tworzenia wysokiej jakości deepfake’a był czasochłonny i często obarczony błędami – obraz drżał, a głos brzmiał nieco metalicznie lub nienaturalnie jednostajnie.
Czy wiesz, dlaczego niektóre deepfake’i budzą w nas instynktowny niepokój? To zjawisko nazywane „doliną niesamowitości” (uncanny valley). Polega ono na tym, że gdy robot lub animacja komputerowa wygląda niemal jak człowiek, ale posiada drobne, nienaturalne skazy, budzi to w obserwatorach silną odrazę. Oszuści starają się tę dolinę „zasypać”, poprawiając mikroruchy gałek ocznych i synchronizację ruchu warg.
Skoro technologia jest tak zaawansowana, czy jesteśmy bezbronni? Absolutnie nie. Obrona przed deepfake’ami opiera się na dwóch filarach: czujności technologicznej i procedurach bezpieczeństwa w życiu prywatnym.
To najprostsza i najskuteczniejsza metoda obrony przed oszustwami głosowymi. Ustal z najbliższymi (rodzicami, dziećmi, partnerem) jedno unikalne słowo lub frazę, której użyjecie tylko w sytuacjach kryzysowych. Jeśli zadzwoni do Ciebie „syn” z informacją o wypadku i prośbą o pieniądze, poproś o podanie hasła. AI nie będzie go znać.
Jeśli otrzymasz nietypową prośbę o przelew lub udostępnienie danych od znajomego czy przełożonego (nawet jeśli widzisz go na ekranie podczas wideorozmowy), rozłącz się i spróbuj skontaktować się z tą osobą innym kanałem. Zadzwoń na jej numer telefonu, napisz na prywatnym komunikatorze lub użyj innego komunikatora wideo.
Choć deepfake’i są coraz lepsze, wciąż często zostawiają ślady, które laik może dostrzec, jeśli wie, na co patrzeć:
W dobie mediów społecznościowych trudno o całkowitą prywatność, ale warto mieć świadomość, że publiczne nagrania (np. podcasty, długie relacje na Instagramie, publiczne wystąpienia) są idealną bazą dla algorytmów. Jeśli nie musisz, nie udostępniaj długich próbek swojego czystego głosu w miejscach dostępnych dla każdego.
Edukacja i ograniczone zaufanie to dziś najważniejsze narzędzia w walce z dezinformacją. Pamiętaj, że w świecie cyfrowym obraz i dźwięk przestały być ostatecznym dowodem prawdy.