Dlaczego sztuczna inteligencja podczas generowania i modyfikowania obrazów ma trudności z odwzorowaniem szczegółów, takich jak owłosienie czy poprawna liczba palców, czy język promptu ma znaczenie dla jakości efektów i z jakiego powodu twórcy zdecydowali się na udostępnienie tak niedoskonałych modeli?

generowanie obrazów modele AI AI detale

problemy z detalami AI jakość obrazów AI rozwój generowania obrazów

Gość (37.30.*.*)

1 miesiąc temu

Odpowiedź:

Każdy, kto choć raz bawił się generatorami obrazów takimi jak Midjourney, DALL-E czy Stable Diffusion, prawdopodobnie spotkał się z tym samym problemem: postać na wygenerowanym obrazku wygląda niemal idealnie, dopóki nie spojrzymy na jej dłonie. Sześć palców, dłonie wyrastające z łokci czy stopy przypominające abstrakcyjne rzeźby to już niemal memy w świecie AI. Choć technologia ta rozwija się w zawrotnym tempie, pewne detale wciąż stanowią dla algorytmów twardy orzech do zgryzienia.

Dlaczego AI nie potrafi liczyć do pięciu?

Głównym powodem, dla którego sztuczna inteligencja ma problem z palcami czy owłosieniem, jest sposób, w jaki te modele „widzą” i „rozumieją” świat. AI nie posiada wewnętrznego modelu anatomicznego człowieka. Nie wie, że dłoń składa się z kości, stawów i ściśle określonej liczby palców. Dla modelu dyfuzyjnego (czyli tego, który generuje obraz) dłoń to po prostu zbiór pikseli, które w danych treningowych często występują obok twarzy lub ubrań.

Problem polega na tym, że dłonie są niezwykle złożone pod względem geometrii. Mogą być zaciśnięte w pięść, trzymać przedmiot, być częściowo zasłonięte lub widoczne pod dziwnym kątem. W bazie danych, na której uczyła się sztuczna inteligencja, dłonie wyglądają za każdym razem inaczej. Algorytm widzi „ciałowy fragment” z wystającymi elementami, ale nie rozumie logicznej zasady, że tych elementów musi być dokładnie pięć. Dla AI dodanie szóstego palca, jeśli pasuje on do ogólnego wzorca „szumu” i tekstury skóry, jest po prostu statystycznie prawdopodobne.

Wyzwanie, jakim jest owłosienie i drobne detale

W przypadku włosów problem jest nieco inny i dotyczy tekstury oraz rozdzielczości. Włosy to tysiące cienkich linii, które nakładają się na siebie, tworząc skomplikowane cienie i refleksy. Podczas procesu odszumiania (denoisingu), na którym opiera się generowanie obrazu, AI stara się stworzyć spójną strukturę z chaosu. Często dochodzi wtedy do uproszczeń – zamiast pojedynczych pasm otrzymujemy jednolitą masę, która w zbliżeniu wygląda nienaturalnie lub „rozmywa się” w tło.

Warto wiedzieć, że nowsze modele radzą sobie z tym coraz lepiej dzięki technologii „attention mechanism”, która pozwala algorytmowi skupić się na konkretnych fragmentach obrazu i nadać im większą wagę podczas renderowania detali.

Czy język promptu ma znaczenie dla jakości obrazu?

Krótka odpowiedź brzmi: tak, i to ogromne. Większość najpopularniejszych modeli AI została przeszkolona głównie na zbiorach danych w języku angielskim (np. LAION-5B). Oznacza to, że algorytmy znacznie lepiej rozumieją niuanse, synonimy i techniczne terminy opisujące oświetlenie czy styl artystyczny, jeśli są one podane po angielsku.

Używając języka polskiego, często zmuszamy model do korzystania z wewnętrznego tłumacza lub operowania na znacznie uboższym zbiorze skojarzeń. Może to prowadzić do:

Mniejszej precyzji w odwzorowaniu stylu.
Błędnej interpretacji kontekstu (np. wieloznaczność słów).
Gorszej kompozycji obrazu.

Jeśli zależy Ci na fotorealizmie i detalach, najlepiej konstruować prompty w języku angielskim, używając konkretnych terminów fotograficznych, takich jak „depth of field”, „8k resolution” czy „subsurface scattering”.

Dlaczego twórcy udostępnili „niedoskonałe” narzędzia?

Można by pomyśleć, że firmy takie jak OpenAI czy Midjourney powinny poczekać, aż technologia będzie bezbłędna. Decyzja o udostępnieniu modeli w fazie beta była jednak czysto strategiczna i rozwojowa.

Po pierwsze, rozwój AI opiera się na tzw. RLHF (Reinforcement Learning from Human Feedback), czyli uczeniu się na podstawie opinii ludzi. Miliony użytkowników generujących obrazy i oceniających je to najlepszy darmowy poligon doświadczalny. Twórcy widzą, co sprawia trudność, i mogą korygować algorytmy w kolejnych wersjach.

Po drugie, tempo wyścigu zbrojeń w Dolinie Krzemowej jest mordercze. Firma, która czekałaby na „ideał”, zostałaby w tyle za konkurencją. Nawet z błędami w liczbie palców, te narzędzia zrewolucjonizowały pracę grafików, twórców gier i marketingowców, oferując możliwości, o których jeszcze kilka lat temu mogliśmy tylko pomarzyć.

Ciekawostka: Dlaczego AI czasem robi „makaronowe” palce?

W informatyce zjawisko to bywa nazywane „doliną niesamowitości” (uncanny valley). Im bardziej obraz przypomina rzeczywistość, tym bardziej drażnią nas drobne błędy. Gdyby AI generowała postacie z kreskówek, sześć palców mogłoby przejść niezauważone. Jednak przy fotorealistycznych portretach nasz mózg natychmiast wyłapuje każdą anatomiczną anomalię, co budzi w nas instynktowny niepokój.

Jakie masz pytanie?