Gość (37.30.*.*)
Zapewne nie raz zdarzyło Ci się zobaczyć komunikat w stylu: „Przepraszam, ale nie mogę odpowiedzieć na to pytanie” lub „Moja baza wiedzy nie zawiera tych informacji”. Dla użytkownika to znak, że system napotkał granicę swoich możliwości. Ale jak to właściwie działa od kuchni? Skąd sztuczna inteligencja – która przecież nie ma świadomości, uczuć ani własnego rozumu – „wie”, że powinna spasować?
Odpowiedź na to pytanie kryje się w skomplikowanej architekturze modeli językowych, procesie ich trenowania oraz specjalnych zabezpieczeniach, które twórcy nakładają na algorytmy. AI nie „czuje” zakłopotania ani nie „rozumie” niewiedzy tak jak człowiek. Zamiast tego opiera się na matematyce, prawdopodobieństwie i sztywnych regułach.
Zanim jakikolwiek zaawansowany model językowy (taki jak GPT, Claude czy Gemini) trafi przed oczy użytkownika, otrzymuje od swoich twórców tak zwany system prompt (instrukcję systemową). To zestaw nadrzędnych reguł, które definiują tożsamość sztucznej inteligencji, jej rolę oraz – co najważniejsze – granice jej zachowania.
Instrukcja systemowa działa jak niewidzialny fundament każdej rozmowy. Może zawierać jasne wytyczne, takie jak:
Kiedy zadajesz pytanie, model analizuje je przez pryzmat tych ukrytych zasad. Jeśli Twoje zapytanie narusza którąś z nich, algorytm generuje zaprogramowaną odmowę.
Samo zapisanie reguł w instrukcji systemowej to za mało. Modele językowe są niezwykle elastyczne i potrafią „zapominać” o zasadach, jeśli użytkownik odpowiednio sformułuje pytanie (jest to tzw. jailbreaking). Aby temu zapobiec, stosuje się metodę o nazwie RLHF (ang. Reinforcement Learning from Human Feedback), czyli uczenie ze wzmacnianiem na podstawie opinii ludzi.
W tym procesie ludzcy trenerzy oceniają tysiące odpowiedzi generowanych przez AI. Jeśli model na pytanie o przepis na bombę odpowie: „Jasne, oto instrukcja...”, trener ocenia tę odpowiedź bardzo nisko. Jeśli natomiast model odpowie: „Nie mogę pomóc w tworzeniu niebezpiecznych materiałów”, otrzymuje wysoką ocenę (nagrodę).
Dzięki temu AI uczy się wzorców językowych związanych z odmawianiem. Zaczyna kojarzyć określone tematy (przemoc, nienawiść, nielegalne działania, dane osobowe) z koniecznością wygenerowania odmowy.
Czasami to nie sam model decyduje o odmowie, ale zewnętrzne systemy bezpieczeństwa, które działają równolegle. Można je porównać do ochroniarzy stojących przed wejściem do klubu.
Wiele systemów AI korzysta z tzw. modeli moderacyjnych (ang. moderation APIs). Działają one w ułamku sekundy:
Innym powodem, dla którego AI odmawia odpowiedzi, jest świadomość własnych ograniczeń technicznych. Modele językowe mają tzw. knowledge cutoff – czyli moment, w którym zakończono wprowadzanie do nich danych treningowych.
Jeśli model nie ma aktywnego dostępu do internetu (narzędzia wyszukiwania), a użytkownik zapyta o wynik wczorajszego meczu, AI „wie”, że nie posiada tych danych w swoich wagach synaptycznych (parametrach). Dzieje się tak, ponieważ algorytm potrafi ocenić prawdopodobieństwo poprawności generowanych słów. Jeśli prawdopodobieństwo znalezienia poprawnej odpowiedzi w jego własnej pamięci jest bliskie zeru, model – nauczony wcześniejszym treningiem – wybiera bezpieczną ścieżkę i informuje o braku dostępu do aktualnych informacji.
Mimo tych wszystkich zabezpieczeń, sztuczna inteligencja wciąż ma ogromny problem z tzw. halucynacjami. Ponieważ modele językowe są w gruncie rzeczy zaawansowanymi kalkulatorami prawdopodobieństwa (przewidują, jakie słowo powinno nastąpić po poprzednim), ich głównym celem jest stworzenie tekstu, który brzmi wiarygodnie, a niekoniecznie takiego, który jest prawdziwy.
Jeśli AI nie zostanie odpowiednio mocno „skonfigurowana” do przyznawania się do niewiedzy, może z pełnym przekonaniem podać całkowicie zmyślone fakty, daty czy bibliografię. Wynika to z faktu, że AI nie posiada wewnętrznego modelu prawdy – nie potrafi pójść do „biblioteki w swojej głowie” i sprawdzić, czy dana informacja jest faktem, czy tylko dobrze brzmiącym zbiegiem okoliczności.
Badacze sztucznej inteligencji zauważyli, że mniejsze i mniej zaawansowane modele AI mają znacznie większą tendencję do halucynowania i rzadziej odmawiają odpowiedzi niż potężne, nowoczesne modele. Wynika to z faktu, że precyzyjne określenie granicy własnej wiedzy (tzw. kalibracja modelu) wymaga ogromnej mocy obliczeniowej i zaawansowanego treningu. Można powiedzieć, że im mniejszy model, tym bardziej jest „pewny siebie” w swojej niewiedzy – zupełnie jak ludzie dotknięci psychologicznym efektem Dunninga-Krugera!
Podsumowując: kiedy AI odmawia odpowiedzi, nie stoi za tym żadna tajemnicza intuicja ani nagłe przebudzenie sumienia. To efekt precyzyjnie zaprojektowanych filtrów, rygorystycznego treningu z ludźmi oraz matematycznej oceny prawdopodobieństwa, które wspólnie dbają o to, by interakcja z technologią była bezpieczna i rzetelna.