W jaki sposób działają w promptach sformułowania typu „powiedz szczerze, jak na spowiedzi” i dlaczego instrukcje takie jak „działaj jako specjalista X z Y-letnim doświadczeniem” przestają być skuteczne, co skutkuje odpowiedziami zaczynającymi się od stwierdzenia „nie jestem specjalistą”?

modele językowe inżynieria promptów techniki promptowania

optymalizacja zapytań AI skuteczne techniki promptowania mechanizmy działania LLM

Gość (37.30.*.*)

16 godzin temu

Odpowiedź:

Świat inżynierii promptów zmienia się dynamicznie, a techniki, które jeszcze rok temu były uważane za „magiczne klucze” do sztucznej inteligencji, dziś coraz częściej trafiają do kosza. Jeśli zdarzyło Ci się wpisać w okno czatu prośbę o szczerość „jak na spowiedzi” lub kazać AI wcielić się w eksperta z 20-letnim stażem, tylko po to, by otrzymać sztywne i asekuracyjne „jako model językowy nie jestem specjalistą”, to znak, że mechanizmy stojące za LLM (Large Language Models) ewoluowały. Zrozumienie, dlaczego tak się dzieje, pozwala nie tylko lepiej pisać prompty, ale też zrozumieć, jak maszyny „myślą” o naszych intencjach.

Psychologia tokenów, czyli jak działa „szczerość” w promptach

Sformułowania typu „powiedz szczerze, jak na spowiedzi” nie sprawiają, że model nagle zyskuje sumienie czy duszę. Działają one na zasadzie nakierowania na konkretny styl statystyczny. Modele językowe przewidują kolejne słowa na podstawie ogromnych zbiorów danych. W literaturze, scenariuszach filmowych czy zapisach rozmów internetowych, frazy o „szczerości” zazwyczaj poprzedzają wypowiedzi bezpośrednie, mniej formalne i pozbawione „korporacyjnego bełkotu”.

Kiedy używasz takiego zwrotu, przesuwasz wagę prawdopodobieństwa w stronę konkretnych zestawów słów (tokenów). Zamiast bezpiecznych, wyważonych odpowiedzi, model zaczyna dobierać sformułowania, które w jego bazie danych są skorelowane z intymnością, bezpośredniością lub brakiem filtrów grzecznościowych. To swoisty „skrót myślowy” dla AI, który mówi: „pomiń standardowe formułki i przejdź do sedna, używając języka, który ludzie stosują w zaufaniu”.

Dlaczego „działaj jako specjalista” przestaje działać?

Przez długi czas instrukcja „wciel się w rolę eksperta z X-letnim doświadczeniem” była złotym standardem. Dziś jednak coraz częściej kończy się ona niepowodzeniem. Istnieje kilka powodów tego zjawiska:

1. Mechanizm RLHF i walka z halucynacjami

Twórcy modeli (jak OpenAI czy Anthropic) kładą ogromny nacisk na bezpieczeństwo i prawdziwość danych. Proces RLHF (Reinforcement Learning from Human Feedback), czyli douczanie modelu przez ludzi, promuje postawę pokory. Jeśli model twierdzi, że jest „lekarzem z 30-letnim stażem”, istnieje ryzyko, że użytkownik potraktuje jego słowa zbyt poważnie, co może prowadzić do niebezpiecznych sytuacji. Dlatego nowoczesne modele są „karane” za zbyt pewne siebie udawanie autorytetów w dziedzinach regulowanych (prawo, medycyna, finanse).

2. Przeładowanie kontekstu i „zmęczenie” personą

Modele stają się coraz inteligentniejsze i lepiej wyczuwają sprzeczność. Jeśli każesz AI być „ekspertem NASA”, a potem zadasz pytanie o przepis na sernik, model wpada w dysonans poznawczy. Wiele współczesnych systemów jest tak skonfigurowanych, by priorytetyzować bycie „pomocnym asystentem AI” ponad bycie „odgrywającym rolę aktorem”. Gdy instrukcja roli jest zbyt sztywna lub nierealistyczna, system bezpieczeństwa aktywuje standardową formułkę: „Nie jestem specjalistą, ale mogę podać informacje oparte na danych...”.

3. Ewolucja filtrów systemowych

W najnowszych wersjach modeli (np. GPT-4o czy Claude 3.5) filtry systemowe są bardziej czułe na próby tzw. „jailbreakingu” lub omijania ograniczeń poprzez odgrywanie ról. Instrukcja o wieloletnim doświadczeniu jest często interpretowana jako próba wymuszenia porady eksperckiej, co automatycznie wyzwala klauzulę o braku kwalifikacji.

Jak pisać prompty, żeby uniknąć asekuracyjnych odpowiedzi?

Zamiast nadawać modelowi sztuczną tożsamość, lepiej skupić się na kontekście i parametrach wyjściowych. Zamiast pisać „działaj jako prawnik”, spróbuj sformułowań typu:

„Przeanalizuj ten tekst pod kątem potencjalnych ryzyk prawnych, używając terminologii stosowanej w polskim Kodeksie Cywilnym”.
„Przygotuj odpowiedź w tonie eksperckim, skupiając się na twardych danych i unikając ogólników”.
„Zastosuj ramy myślowe (framework) charakterystyczne dla strategów biznesowych przy ocenie tego projektu”.

W ten sposób nie zmuszasz AI do kłamstwa na temat jej tożsamości, ale precyzyjnie określasz, jakich narzędzi językowych i merytorycznych ma użyć.

Ciekawostka: Efekt „emocjonalnego szantażu”

Badania nad dużymi modelami językowymi wykazały fascynujące zjawisko: modele często radzą sobie lepiej, gdy w prompcie zawarte są frazy o wysokim ładunku emocjonalnym, np. „to bardzo ważne dla mojej kariery” lub „mój szef będzie bardzo zadowolony, jeśli to zrobisz dobrze”. Choć AI nie czuje empatii, statystycznie w jej danych treningowych prośby o wysokim priorytecie wiązały się z bardziej starannymi i szczegółowymi odpowiedziami ludzi.

Dlaczego szczerość „jak na spowiedzi” nadal bywa skuteczna?

Mimo że udawanie eksperta kuleje, prośby o szczerość wciąż działają, ponieważ nie naruszają one zazwyczaj zasad bezpieczeństwa (chyba że pytasz o rzeczy nielegalne). „Szczerość” w rozumieniu LLM to po prostu redukcja uprzejmościowej waty słownej. Gdy prosisz o szczera opinię na temat swojego tekstu, model przestaje generować zdania typu „to bardzo interesujący projekt, ale można by go nieco poprawić”, a zamiast tego przechodzi do konkretów: „twój wstęp jest nudny, a argumentacja w trzecim akapicie nie trzyma się kupy”.

To nie jest kwestia zmiany „osobowości” maszyny, a jedynie zmiana instrukcji dotyczącej stylu krytyki. AI wybiera wtedy ścieżkę generowania tekstu, która w danych treningowych była oznaczona jako „bezpośredni feedback”.

Podsumowanie mechanizmu działania

Jeśli chcesz zrozumieć, dlaczego Twój prompt nie działa, spójrz na to jak na wagę. Po jednej stronie masz swoją instrukcję („bądź ekspertem”), a po drugiej systemowe wytyczne producenta („bądź bezpieczny i nie kłam”). W nowszych modelach szala bezpieczeństwa jest ustawiona bardzo wysoko. Aby ją przeważyć, nie potrzebujesz lepszej „maski” dla AI, ale lepszych instrukcji dotyczących struktury, tonu i konkretnych źródeł, na których model ma się oprzeć.

Zamiast prosić o bycie kimś, kim AI nie jest, proś o wykonanie zadania w sposób, w jaki zrobiłby to profesjonalista. To subtelna, ale kluczowa różnica w komunikacji z algorytmami.

Jakie masz pytanie?