Czym są biasy modelu i jak wyjaśnić to pojęcie laikowi?

dane uprzedzenia algorytmy

Uprzedzenia w algorytmach Wyjaśnianie stronniczości AI Jak unikać błędów modeli

Gość (37.30.*.*)

9 godzin temu

Odpowiedź:

Wyobraź sobie, że zatrudniasz nowego pracownika do swojej firmy. Zanim jednak ta osoba zacznie pracę, dajesz jej do przeczytania tysiące archiwalnych dokumentów z ostatnich 50 lat, aby nauczyła się, jak podejmować decyzje. Jeśli w tych dokumentach przez dekady awansowali głównie mężczyźni, Twój nowy pracownik – mimo że sam nie ma złych intencji – szybko dojdzie do wniosku, że to właśnie mężczyźni są lepszymi liderami. Właśnie tak, w dużym uproszczeniu, działają biasy w modelach sztucznej inteligencji.

Czym właściwie jest bias w świecie sztucznej inteligencji?

Słowo „bias” najczęściej tłumaczymy jako „uprzedzenie” lub „stronniczość”. W kontekście sztucznej inteligencji (AI) i uczenia maszynowego oznacza to sytuację, w której model generuje wyniki systematycznie wypaczone lub niesprawiedliwe. Nie jest to błąd przypadkowy, jak jednorazowa pomyłka kalkulatora. To raczej stała tendencja do faworyzowania jednej grupy danych kosztem innej.

Dla laika najlepiej wyjaśnić to za pomocą metafory okularów. Jeśli założysz okulary z różowymi szkłami, cały świat będzie wydawał Ci się różowy. Model z „biasem” ma właśnie takie na stałe zamontowane okulary, przez co nie widzi rzeczywistości taką, jaka jest, ale taką, jaką sugerują mu jego wewnętrzne uprzedzenia.

Skąd biorą się uprzedzenia u maszyny?

Maszyny nie rodzą się z poglądami. One uczą się na podstawie tego, co im zaserwujemy. Istnieje kilka głównych źródeł, z których biorą się biasy:

Dane treningowe – główne źródło problemu

To najczęstsza przyczyna. Jeśli model uczący się rozpoznawania twarzy otrzyma 90% zdjęć osób o jasnej karnacji, będzie miał ogromny problem z poprawnym zidentyfikowaniem osób o ciemniejszej skórze. Algorytm po prostu „nie wie”, że świat jest bardziej różnorodny, bo nikt mu tego nie pokazał.

Uprzedzenia historyczne

Dane odzwierciedlają nasze społeczeństwo, a nasze społeczeństwo nie zawsze było sprawiedliwe. Jeśli algorytm analizuje dane historyczne dotyczące przyznawania kredytów z czasów, gdy kobiety miały do nich trudniejszy dostęp, model może uznać płeć żeńską za „czynnik ryzyka”, mimo że w dzisiejszych realiach nie ma to żadnego uzasadnienia ekonomicznego.

Błędy przy zbieraniu danych

Czasami dane są zbierane w sposób niereprezentatywny. Jeśli przeprowadzimy ankietę internetową o poziomie cyfryzacji społeczeństwa, wyniki będą zawyżone, bo osoby wykluczone cyfrowo w ogóle nie wezmą w niej udziału. Model zbudowany na takich danych będzie miał bias w stronę „nowoczesności”.

Przykłady z życia wzięte, które dają do myślenia

Teoria to jedno, ale biasy mają realny wpływ na nasze życie. Oto kilka głośnych przypadków:

Rekrutacja w Amazonie: Kilka lat temu firma stworzyła algorytm do selekcji CV. System szybko zaczął dyskryminować kobiety, ponieważ uczył się na życiorysach nadsyłanych przez ostatnie 10 lat, które w większości pochodziły od mężczyzn. Algorytm zaczął obniżać ocenę dokumentów, w których pojawiało się słowo „żeński” (np. „kapitan żeńskiej drużyny siatkówki”).
Rozpoznawanie twarzy: Wiele systemów biometrycznych ma znacznie wyższy margines błędu w przypadku kobiet i osób o innym kolorze skóry niż biały. Może to prowadzić do tragicznych w skutkach pomyłek, np. błędnego wytypowania sprawcy przestępstwa przez policję.
Medycyna: Jeśli algorytm diagnozujący choroby skóry uczył się głównie na zdjęciach pacjentów rasy kaukaskiej, może nie rozpoznać niebezpiecznych zmian u osób o ciemniejszej karnacji, co bezpośrednio zagraża ich zdrowiu.

Czy da się całkowicie wyeliminować biasy?

Krótka odpowiedź brzmi: prawdopodobnie nie, ale możemy je minimalizować. Walka z biasem to proces ciągły, który wymaga od programistów i badaczy danych dużej uważności.

Kluczem jest dywersyfikacja danych treningowych oraz regularne audyty algorytmów. Firmy coraz częściej zatrudniają etyków AI, których zadaniem jest sprawdzanie, czy model nie krzywdzi żadnej grupy społecznej. Ważne jest też, aby zespoły tworzące technologię były różnorodne – osoby o różnych doświadczeniach życiowych szybciej zauważą potencjalne pułapki w danych.

Ciekawostka: Paradoks dokładności

Czasami model może być bardzo dokładny matematycznie, a jednocześnie skrajnie stronniczy. Jeśli w danym regionie statystycznie więcej przestępstw popełniają osoby biedne, algorytm przewidujący ryzyko recydywy może zacząć karać ludzi za sam fakt bycia ubogim. Z punktu widzenia matematyki model „ma rację” co do korelacji, ale z punktu widzenia etyki i sprawiedliwości społecznej jest głęboko wadliwy. To pokazuje, że w technologii AI człowiek i jego kompas moralny wciąż są niezbędni.

Jakie masz pytanie?