Gość (37.30.*.*)
Tempo, w jakim rozwija się sztuczna inteligencja, jest obecnie tak zawrotne, że tradycyjne ramy czasowe, do których przywykliśmy w świecie technologii, przestają obowiązywać. Stwierdzenie, że materiały wygenerowane dzisiaj byłyby nie do odróżnienia od rzeczywistości zaledwie pół roku temu, zawiera w sobie ogromną dawkę prawdy. W świecie AI sześć miesięcy to nie „krótka przerwa”, to cała epoka, w trakcie której powstają nowe architektury modeli, a stare ograniczenia odchodzą w zapomnienie.
Aby zrozumieć ten fenomen, musimy spojrzeć na to, jak szybko eliminowane są tzw. artefakty, czyli błędy charakterystyczne dla obrazów generowanych przez AI. Jeszcze niedawno najprostszym sposobem na rozpoznanie deepfake’a było liczenie palców u rąk, sprawdzanie symetrii źrenic czy przyglądanie się teksturom tła, które często „płynęły”.
Dzisiejsze modele, takie jak najnowsze wersje Midjourney czy Stable Diffusion, praktycznie wyeliminowały problem anatomicznych anomalii. Jeśli weźmiemy obraz wygenerowany dzisiaj i „wyślemy go w przeszłość” o pół roku, ówczesne narzędzia detekcyjne – trenowane na błędach poprzednich wersji – mogłyby go uznać za autentyczny, ponieważ nie szukałyby nowych, subtelniejszych wzorców manipulacji, które pojawiają się w nowszych algorytmach.
W świecie cyberbezpieczeństwa i analizy mediów trwa nieustanny wyścig zbrojeń. Z jednej strony mamy twórców modeli generatywnych (miecz), którzy dążą do idealnego fotorealizmu. Z drugiej strony są badacze rozwijający techniki detekcji (tarcza), które analizują szum cyfrowy, niespójności oświetlenia czy metadane.
Problem polega na tym, że techniki manipulacji są zawsze o krok przed metodami wykrywania. Detektory AI działają reaktywnie – uczą się rozpoznawać to, co już zostało stworzone. Kiedy pojawia się nowa metoda generowania obrazu (np. przejście z modeli GAN na modele dyfuzyjne), stare detektory stają się bezużyteczne. Dlatego materiał z „przyszłości” (czyli dzisiejszy) byłby dla narzędzi sprzed sześciu miesięcy niemal niewidoczny jako fałszywka.
Warto też pamiętać o aspekcie ludzkim. Nasze oczy i mózgi adaptują się do technologii. Pół roku temu nasze standardy dotyczące tego, co uznajemy za „podejrzane”, były nieco niższe. Dzisiaj, patrząc na zdjęcia z początku 2023 roku, często od razu widzimy ich „plastikowość”. Jednak wtedy, bez punktu odniesienia, jakim są dzisiejsze, niemal idealne generacje, bylibyśmy znacznie bardziej skłonni uwierzyć w ich autentyczność.
Ciekawostką jest fakt, że rozwój AI postępuje nieliniowo. Przejście od wideo, które wyglądało jak ruchoma plama (pierwsze próby generowania filmów), do fotorealistycznych prezentacji (jak np. model Sora od OpenAI), zajęło niewiele więcej niż rok. W takim tempie różnica sześciu miesięcy to przepaść technologiczna, która pozwala na ukrycie śladów ingerencji algorytmów w sposób wcześniej niemożliwy.
Choć algorytmy detekcji mogą zawieść, istnieją techniki, które trudniej oszukać, niezależnie od postępu AI. Należą do nich:
Stwierdzenie o sześciomiesięcznym cyklu jest w dużej mierze trafne, ale nie oznacza, że jesteśmy całkowicie bezbronni. To raczej sygnał, że nasza czujność musi ewoluować równie szybko jak technologia. To, co dzisiaj uznajemy za „oczywisty fejk”, za pół roku może być standardem jakości, a my będziemy musieli szukać jeszcze drobniejszych detali, by odróżnić prawdę od cyfrowej halucynacji.
Warto śledzić rozwój narzędzi takich jak Content Authenticity Initiative, które starają się wprowadzić „paszporty” dla cyfrowych treści. Bez systemowych rozwiązań, w świecie, gdzie pół roku to wieczność, poleganie wyłącznie na własnym wzroku może okazać się niewystarczające.