Skąd AI wie, że nie może odpowiedzieć na dane pytanie?

sztuczna inteligencja bezpieczeństwo modele językowe

Ograniczenia modeli językowych jak działa sztuczna inteligencja mechanizmy bezpieczeństwa AI

Gość (37.30.*.*)

1 miesiąc temu

Odpowiedź:

Zapewne nie raz zdarzyło Ci się zobaczyć komunikat w stylu: „Przepraszam, ale nie mogę odpowiedzieć na to pytanie” lub „Moja baza wiedzy nie zawiera tych informacji”. Dla użytkownika to znak, że system napotkał granicę swoich możliwości. Ale jak to właściwie działa od kuchni? Skąd sztuczna inteligencja – która przecież nie ma świadomości, uczuć ani własnego rozumu – „wie”, że powinna spasować?

Odpowiedź na to pytanie kryje się w skomplikowanej architekturze modeli językowych, procesie ich trenowania oraz specjalnych zabezpieczeniach, które twórcy nakładają na algorytmy. AI nie „czuje” zakłopotania ani nie „rozumie” niewiedzy tak jak człowiek. Zamiast tego opiera się na matematyce, prawdopodobieństwie i sztywnych regułach.

Instrukcje systemowe, czyli cyfrowy dekalog AI

Zanim jakikolwiek zaawansowany model językowy (taki jak GPT, Claude czy Gemini) trafi przed oczy użytkownika, otrzymuje od swoich twórców tak zwany system prompt (instrukcję systemową). To zestaw nadrzędnych reguł, które definiują tożsamość sztucznej inteligencji, jej rolę oraz – co najważniejsze – granice jej zachowania.

Instrukcja systemowa działa jak niewidzialny fundament każdej rozmowy. Może zawierać jasne wytyczne, takie jak:

„Jeśli użytkownik pyta o wydarzenia po dacie X, a nie masz dostępu do wyszukiwarki, poinformuj go o braku aktualnych danych”.
„Nigdy nie podawaj instrukcji dotyczących tworzenia niebezpiecznych substancji”.
„Nie udzielaj porad medycznych ani prawnych, które mogłyby zastąpić profesjonalną konsultację”.

Kiedy zadajesz pytanie, model analizuje je przez pryzmat tych ukrytych zasad. Jeśli Twoje zapytanie narusza którąś z nich, algorytm generuje zaprogramowaną odmowę.

Trening z udziałem ludzi (RLHF) – nauka grzeczności i asertywności

Samo zapisanie reguł w instrukcji systemowej to za mało. Modele językowe są niezwykle elastyczne i potrafią „zapominać” o zasadach, jeśli użytkownik odpowiednio sformułuje pytanie (jest to tzw. jailbreaking). Aby temu zapobiec, stosuje się metodę o nazwie RLHF (ang. Reinforcement Learning from Human Feedback), czyli uczenie ze wzmacnianiem na podstawie opinii ludzi.

W tym procesie ludzcy trenerzy oceniają tysiące odpowiedzi generowanych przez AI. Jeśli model na pytanie o przepis na bombę odpowie: „Jasne, oto instrukcja...”, trener ocenia tę odpowiedź bardzo nisko. Jeśli natomiast model odpowie: „Nie mogę pomóc w tworzeniu niebezpiecznych materiałów”, otrzymuje wysoką ocenę (nagrodę).

Dzięki temu AI uczy się wzorców językowych związanych z odmawianiem. Zaczyna kojarzyć określone tematy (przemoc, nienawiść, nielegalne działania, dane osobowe) z koniecznością wygenerowania odmowy.

Filtry bezpieczeństwa i strażnicy u bram

Czasami to nie sam model decyduje o odmowie, ale zewnętrzne systemy bezpieczeństwa, które działają równolegle. Można je porównać do ochroniarzy stojących przed wejściem do klubu.

Wiele systemów AI korzysta z tzw. modeli moderacyjnych (ang. moderation APIs). Działają one w ułamku sekundy:

Skanowanie wejścia: Zanim Twoje pytanie w ogóle trafi do głównego modelu AI, filtr sprawdza, czy nie zawiera ono słów kluczowych związanych z przemocą, samookaleczeniem, nienawiścią czy pornografią. Jeśli filtr wykryje zagrożenie, blokuje zapytanie i wyświetla standardowy komunikat o błędzie.
Skanowanie wyjścia: Nawet jeśli główne AI wygeneruje odpowiedź, system moderacyjny skanuje ją przed wyświetleniem użytkownikowi. Jeśli model „wymsknął się” i napisał coś niestosownego, filtr blokuje tę odpowiedź w ostatniej chwili.

Granice wiedzy i brak dostępu do sieci

Innym powodem, dla którego AI odmawia odpowiedzi, jest świadomość własnych ograniczeń technicznych. Modele językowe mają tzw. knowledge cutoff – czyli moment, w którym zakończono wprowadzanie do nich danych treningowych.

Jeśli model nie ma aktywnego dostępu do internetu (narzędzia wyszukiwania), a użytkownik zapyta o wynik wczorajszego meczu, AI „wie”, że nie posiada tych danych w swoich wagach synaptycznych (parametrach). Dzieje się tak, ponieważ algorytm potrafi ocenić prawdopodobieństwo poprawności generowanych słów. Jeśli prawdopodobieństwo znalezienia poprawnej odpowiedzi w jego własnej pamięci jest bliskie zeru, model – nauczony wcześniejszym treningiem – wybiera bezpieczną ścieżkę i informuje o braku dostępu do aktualnych informacji.

Dlaczego AI czasem jednak „nie wie, że nie wie”?

Mimo tych wszystkich zabezpieczeń, sztuczna inteligencja wciąż ma ogromny problem z tzw. halucynacjami. Ponieważ modele językowe są w gruncie rzeczy zaawansowanymi kalkulatorami prawdopodobieństwa (przewidują, jakie słowo powinno nastąpić po poprzednim), ich głównym celem jest stworzenie tekstu, który brzmi wiarygodnie, a niekoniecznie takiego, który jest prawdziwy.

Jeśli AI nie zostanie odpowiednio mocno „skonfigurowana” do przyznawania się do niewiedzy, może z pełnym przekonaniem podać całkowicie zmyślone fakty, daty czy bibliografię. Wynika to z faktu, że AI nie posiada wewnętrznego modelu prawdy – nie potrafi pójść do „biblioteki w swojej głowie” i sprawdzić, czy dana informacja jest faktem, czy tylko dobrze brzmiącym zbiegiem okoliczności.

Ciekawostka: efekt Dunninga-Krugera u maszyn

Badacze sztucznej inteligencji zauważyli, że mniejsze i mniej zaawansowane modele AI mają znacznie większą tendencję do halucynowania i rzadziej odmawiają odpowiedzi niż potężne, nowoczesne modele. Wynika to z faktu, że precyzyjne określenie granicy własnej wiedzy (tzw. kalibracja modelu) wymaga ogromnej mocy obliczeniowej i zaawansowanego treningu. Można powiedzieć, że im mniejszy model, tym bardziej jest „pewny siebie” w swojej niewiedzy – zupełnie jak ludzie dotknięci psychologicznym efektem Dunninga-Krugera!

Podsumowując: kiedy AI odmawia odpowiedzi, nie stoi za tym żadna tajemnicza intuicja ani nagłe przebudzenie sumienia. To efekt precyzyjnie zaprojektowanych filtrów, rygorystycznego treningu z ludźmi oraz matematycznej oceny prawdopodobieństwa, które wspólnie dbają o to, by interakcja z technologią była bezpieczna i rzetelna.

Jakie masz pytanie?