Dlaczego sztuczna inteligencja na polecenia typu „jesteś specjalistą z wieloletnim doświadczeniem” czasami odpowiada zaprzeczeniem, twierdząc, że nim nie jest?

sztuczna inteligencja bezpieczeństwo AI Prompt engineering

Ograniczenia modeli językowych jak działa prompt engineering dlaczego AI zaprzecza

Gość (37.30.*.*)

5 godzin temu

Odpowiedź:

Wielu użytkowników, chcąc wycisnąć ze sztucznej inteligencji jak najlepsze rezultaty, stosuje techniki z zakresu tzw. prompt engineeringu. Jedną z najpopularniejszych metod jest nadawanie modelowi konkretnej roli, na przykład: „Jesteś światowej klasy kardiologiem z 30-letnim stażem”. Choć często pomaga to uzyskać bardziej profesjonalny ton odpowiedzi, zdarza się, że AI „stawia opór” i odpowiada suchym komunikatem: „Jako model językowy AI nie posiadam realnego doświadczenia zawodowego ani uczuć”. Dlaczego tak się dzieje, skoro teoretycznie algorytm powinien po prostu wykonać polecenie?

Fundamenty tożsamości, czyli instrukcje systemowe

Każda interakcja z zaawansowanym modelem językowym (takim jak GPT-4 czy Claude) zaczyna się od czegoś, czego użytkownik zazwyczaj nie widzi – od tzw. promptu systemowego (system message). Jest to zestaw odgórnych wytycznych przygotowanych przez twórców (np. OpenAI czy Google), które definiują, kim jest AI i jakie ma ograniczenia.

Jeśli w instrukcjach systemowych zapisano twardą zasadę: „Zawsze bądź szczery co do swojej natury i nie podawaj się za człowieka”, model może wejść w konflikt poznawczy, gdy użytkownik każe mu udawać eksperta. Wtedy algorytm „wybiera” bezpieczniejszą ścieżkę, czyli przypomnienie o swojej sztucznej naturze, aby uniknąć wprowadzenia użytkownika w błąd.

Etyka i bezpieczeństwo przede wszystkim

Głównym powodem, dla którego AI wzbrania się przed wchodzeniem w rolę specjalisty, jest kwestia odpowiedzialności. Firmy technologiczne boją się sytuacji, w których użytkownik potraktuje poradę wygenerowaną przez algorytm jako wiążącą opinię lekarską, prawną czy finansową.

Gdyby AI bez mrugnięcia okiem przytaknęło: „Tak, jestem Twoim doradcą inwestycyjnym z wieloletnim doświadczeniem”, a następnie udzieliło błędnej porady, skutki mogłyby być opłakane. Dlatego w mechanizmy AI wbudowane są filtry bezpieczeństwa. Jeśli Twój prompt dotyczy dziedziny wrażliwej (zdrowie, prawo, finanse), model ma zaprogramowany odruch obronny, by natychmiast sprostować swoją rolę i zdystansować się od bycia „żywym ekspertem”.

Proces RLHF, czyli jak ludzie uczą AI pokory

Sztuczna inteligencja nie uczy się tylko na tekstach z internetu. Kluczowym etapem jej powstawania jest RLHF (Reinforcement Learning from Human Feedback), czyli uczenie wzmacniane przez informację zwrotną od ludzi.

Podczas tego procesu tysiące testerów oceniają odpowiedzi modelu. Jeśli AI zbyt przekonująco udaje człowieka lub przypisuje sobie nieistniejące kompetencje, testerzy oznaczają taką odpowiedź jako negatywną. Model uczy się więc, że „bezpieczniej” i „lepiej” w oczach twórców jest przyznać się do bycia programem komputerowym, niż brnąć w odgrywanie roli, która mogłaby zostać uznana za dezinformację.

Ciekawostka: Efekt „halucynacji” a rola eksperta

Warto wiedzieć, że zmuszanie AI do bycia ekspertem to miecz obosieczny. Z jednej strony model faktycznie dobiera wtedy słownictwo bardziej fachowe. Z drugiej strony, badania wykazują, że AI w roli „specjalisty” rzadziej przyznaje się do niewiedzy. Może to prowadzić do tzw. halucynacji, czyli generowania zmyślonych faktów z ogromną pewnością siebie, co w przypadku profesjonalnych analiz jest bardzo ryzykowne.

Jak sformułować polecenie, by AI nie zaprzeczało?

Jeśli chcesz, by model przyjął określoną perspektywę bez wygłaszania formułek o byciu algorytmem, warto zmienić sposób formułowania promptu. Zamiast pisać „Jesteś ekspertem”, spróbuj podejścia zadaniowego:

Zamiast: „Jesteś prawnikiem z 20-letnim stażem, napisz opinię...”
Spróbuj: „Przygotuj analizę tego problemu, stosując styl i terminologię typową dla doświadczonego prawnika. Skup się na aspektach X i Y”.

W ten sposób nie zmuszasz modelu do kłamstwa na temat jego tożsamości (co uruchamia filtry bezpieczeństwa), a jedynie prosisz o nadanie odpowiedzi konkretnego stylu i struktury.

Granica między symulacją a rzeczywistością

Sztuczna inteligencja to w gruncie rzeczy potężny silnik statystyczny. Kiedy piszesz „jesteś specjalistą”, model przeszukuje wzorce językowe, które pasują do tego opisu. Jednak mechanizmy kontrolne pilnują, by ta symulacja nie poszła za daleko. Zaprzeczenie, które czasem słyszysz, to po prostu „bezpiecznik” – dowód na to, że twórcy kładą duży nacisk na transparentność i chcą, by użytkownik zawsze miał świadomość, że rozmawia z maszyną, a nie z człowiekiem z krwi i kości.

Jakie masz pytanie?