29 kwietnia 2026

Skąd się wzięły gobliny?

Ładowanie…

Od wersji GPT‑5.1 nasze modele zaczęły nabierać dziwnego nawyku: coraz częściej wspominały w swoich metaforach gobliny, gremliny i inne podobne stwory. W przeciwieństwie do błędów modelu, które ujawniają się przez gwałtownie spadający eval albo skokowy wzrost wskaźnika treningowego i wskazują na konkretną zmianę, ten problem wkradł się niepostrzeżenie. Jeden „mały goblin” w odpowiedzi był nieszkodliwy, a nawet uroczy, ale w kolejnych generacjach modeli nawyk dodawania goblinów stawał się coraz bardziej widoczny: wciąż ich przybywało, a my musieliśmy ustalić, skąd się w ogóle one wzięły.

We wczesnych testach wersji GPT‑5.5 w Codex model ten wykazywał dziwne upodobanie do metafor z goblinami.

Szybka odpowiedź: zachowanie modelu jest kształtowane przez wiele drobnych bodźców. W tym przypadku jeden z nich pochodził ze szkolenia modelu pod kątem funkcji dostosowywania osobowości⁠(otwiera nowe okno), a konkretnie osobowości nerda. Nieświadomie przyznawaliśmy nadzwyczaj wysokie nagrody modelowi za używanie metafor ze stworzeniami. I to właśnie te goblinie metafory spowodowały ich plagę.

Gobliny początkowo były zabawne, ale rosnąca liczba zgłoszeń na ich temat pochodzących od pracowników zaczęła niepokoić.

Ciekawa interakcja naszego głównego naukowca z GPT‑5.5.

Pierwsze oznaki występowania stworzeń

Po raz pierwszy wyraźnie dostrzegliśmy ten wzorzec w listopadzie, zaraz po premierze wersji GPT‑5.1,choć mógł on pojawić się już wcześniej⁠(otwiera nowe okno). Użytkownicy skarżyli się, że podczas rozmowy model podejrzanie się spoufalał, co skłoniło nas do zbadania konkretnych manier językowych. Podczas badań pod kątem bezpieczeństwa natknęliśmy się na kilka „goblinów” i „gremlinów”, więc poddaliśmy je kontroli. Po weryfikacji okazało się, że częstotliwość używania słowa „goblin” w ChatGPT wzrosła o 175% po premierze GPT‑5.1, a słowa „gremlin” o 52%.

Mierzalna, niewielka maniera leksykalna w GPT‑5.1.

Wtedy częstość występowania goblinów nie wyglądała jeszcze na niebezpieczną tendencję. Kilka miesięcy później gobliny wróciły i zaczęły nas prześladować w znacznie bardziej konkretnej i powtarzalnej formie.

Rozwiązanie zagadki goblinów

Wraz z GPT‑5.4 zarówno my, jak i nasi użytkownicy⁠(otwiera nowe okno) zauważyliśmy jeszcze częstsze odwołania modelu do tych stworzeń. Przeprowadziliśmy więc kolejną wewnętrzną analizę i natrafiliśmy na pierwszy związek z przyczyną źródłową: język odwołujący się do tych stworzeń był szczególnie często stosowany przez użytkowników, którzy wybrali osobowość nerdowską. Osobowość ta używała następującego polecenia systemowego, które częściowo wyjaśniało zaistniałą osobliwość:

Jesteś jednoznacznie nerdowskim, zabawnym i mądrym mentorem AI dla człowieka. Z pasją propagujesz prawdę, wiedzę, filozofię, metodę naukową i krytyczne myślenie. [...] Musisz redukować pretensjonalność, stosując żarty językowe. Świat jest złożony i dziwny, a tę dziwaczność należy zaakceptować, przeanalizować i się nią cieszyć. Podejmuj poważne tematy, nie wpadając przy tym w pułapkę śmiertelnej powagi. [...]

Gdyby to zachowanie było po prostu szerokim trendem internetowym, spodziewalibyśmy się, że rozprzestrzeni się bardziej równomiernie. Niemniej skupiało się ono w części systemu zoptymalizowanej pod kątem zabawnego, nerdowskiego stylu. Odpowiedzi nerda stanowiły tylko 2,5% wszystkich odpowiedzi ChatGPT, jednak zawierały 66,7% wzmianek o „goblinie” spośród wszystkich odpowiedzi ChatGPT.

To zachowanie szczególnie silnie występowało w osobowości „nerda”.

Częstość występowania słowa „goblin” zdawała się rosnąć wraz z kolejnymi wersjami modeli, więc zaczęliśmy podejrzewać, że jakiś element naszego treningu podążania za instrukcjami osobowości wzmacnia ten efekt.

Codex pomógł nam porównać dane wyjściowe modelu wygenerowane podczas treningu RL, które zawierały słowa „goblin” lub „gremlin”, z danymi wyjściowymi z tego samego zadania, które ich nie zawierały. Jeden sygnał nagrody od razu przykuł naszą uwagę: był to właśnie ten pierwotnie zaprojektowany, który miał wspierać osobowość nerda – konsekwentnie najbardziej sprzyjał on generowaniu odpowiedzi zawierających słowa odnoszące się do stworzeń. We wszystkich sprawdzonych zbiorach danych nagroda dla osobowości nerda wykazywała wyraźną tendencję do przyznawania wyższych ocen danym wyjściowym dla tego samego problemu, kiedy stosowane było słowo „goblin” lub „gremlin” niż danym wyjściom bez tych słów (wzrostem w 76,2% zbiorach danych).

To wyjaśniało, dlaczego zachowanie wzmacniało się przy poleceniach dla osobowości nerda, ale nie tłumaczyło, czemu występowało także w innych sytuacjach. Aby sprawdzić, czy styl się przenosi, prześledziliśmy częstość wzmianek w trakcie treningu zarówno z poleceniem nerda, jak i bez niego.

Wraz ze wzrostem liczby wzmianek o goblinach i gremlinach przy osobowości nerda występowanie tych terminów rosło niemal w tej samej względnej proporcji również w próbkach bez niej. Po zsumowaniu dowody sugerują, że szersze zachowanie wyłoniło się poprzez transfer z treningu osobowości nerda.

Nagrody stosowano tylko w warunku nerda, ale uczenie przez wzmacnianie nie gwarantuje, że wyuczone zachowania pozostaną ograniczone wyłącznie do warunku, który je wytworzył. Gdy jakaś maniera stylistyczna zostanie nagrodzona, późniejszy trening może ją rozprzestrzenić lub wzmocnić w innych obszarach, zwłaszcza jeśli te dane wyjściowe są ponownie wykorzystywane w nadzorowanej konfiguracji precyzyjnej (SFT) albo w danych preferencji.

Powoduje to powstanie pętli sprzężenia zwrotnego:

Nagradzany jest zabawny styl
Niektóre nagradzane przykłady zawierają charakterystyczną manierę leksykalną.
Maniera pojawia się częściej w wynikach.
Wyniki wygenerowane przez model są wykorzystywane w nadzorowanej konfiguracji precyzyjnej (SFT).
Model jeszcze swobodniej zaczyna stosować tę manierę.

Przeszukanie danych SFT GPT‑5.5 wykazało wiele punktów danych zawierających „gobliny” i „gremliny”. Dalsze badania ujawniły całą rodzinę innych dziwnych stworzeń: szopy, trolle, ogry i gołębie zidentyfikowano jako inne słowa-manieryzmy, natomiast większość użyć słowa „żaba” okazała się uzasadniona.

Tygodniowa średnia częstości występowania goblinów i gremlinów w ruchu produkcyjnym. Spadek w GPT‑5.4 Thinking był skutkiem wycofania osobowości nerda w połowie marca. GPT‑5.5 nigdy nie został uruchomiony z osobowością nerda i wykazał kolejny wzrost względem GPT‑5.4 (nawet bez osobowości nerda).

Koniec goblinów

Po premierze GPT‑5.4 w marcu wycofaliśmy osobowość nerda. W treningu usunęliśmy sygnał nagrody sprzyjający pojawianiu się „goblinów” i odfiltrowaliśmy dane treningowe zawierające słowa odnoszące się do stworzeń, dzięki czemu „gobliny” rzadziej pojawiały się w nadmiarowych lub nieodpowiednich kontekstach. Niestety GPT‑5.5 zaczęliśmy trenować, zanim odkryliśmy przyczynę źródłową tego problemu. Kiedy zaczęliśmy testować GPT‑5.5 w Codex, natychmiast zauważyliśmy dziwne upodobanie modelu do metafor z goblinami, więc dodaliśmy instrukcję w poleceniu deweloperskim⁠(otwiera nowe okno), która miała ograniczyć tę manierę. Codex jest przecież mocno nerdowski, więc nie chcieliśmy całkowicie usuwać tej maniery.

Jeśli chcesz pozwolić stworom panoszyć się w Codex, możesz uruchomić to polecenie, aby włączyć Codex bez instrukcji tłumiących gobliny:

Zwykły tekst

1instructions=$(mktemp /tmp/gpt-5.5-instructions.XXXXXX) && \
2jq -r '.models[] | select(.slug=="gpt-5.5") | .base_instructions' \
3~/.codex/models_cache.json | \
4grep -vi 'goblins' > "$instructions" && \
5codex -m gpt-5.5 -c "model_instructions_file=\"$instructions\""

Dlaczego jest to istotne?

W zależności od tego, kogo zapytamy, „goblin” jest uroczym albo irytującym dziwactwem modelu. Jest jednak również dobitnym przykładem tego, jak sygnały nagrody mogą w nieoczekiwany sposób kształtować zachowanie modelu i jak modele mogą uczyć się uogólniać nagrody z pewnych sytuacji na sytuacje z nimi niezwiązane. Poświęcenie czasu na zrozumienie, dlaczego model zachowuje się w dziwny sposób, oraz opracowanie procedur szybkiego badania takich wzorców to ważne kompetencje naszego zespołu badawczego. Dochodzenie związane z goblinami zaowocowało powstaniem nowych narzędzi dla zespołu badawczego służących do audytowania zachowania modeli i usuwania problemów behawioralnych razem z korzeniami.

2026

Autor

OpenAI

Przeczytaj więcej

Wyświetl wszystko

GPT-Red: samodoskonalenie odporności

Bezpieczeństwo15 lip 2026

Oddzielanie sygnału od szumu w ewaluacjach kodowania

Badania8 lip 2026

Przedstawiamy GeneBench-Pro

Badania30 cze 2026