W jaki sposób przyznawanie się do błędów może zapewnić rzetelność modeli językowych
Przedstawiamy wczesną wersję metody będącej weryfikacją koncepcji trenowania modeli w celu zgłaszania sytuacji, w których dochodzi do naruszenia instrukcji lub stosowania niezamierzonych skrótów.
Systemy sztucznej inteligencji stają się coraz bardziej wydajne i chcemy je jak najlepiej zrozumieć – dotyczy to również tego, w jaki sposób i dlaczego udzielają konkretnej odpowiedzi. Czasami model idzie na skróty lub dokonuje optymalizacji pod kątem niewłaściwego celu, ale ostateczne dane wyjściowe nadal wyglądają poprawnie. Jeśli uda nam się wykryć, kiedy takie sytuacje mają miejsce, będziemy mogli lepiej monitorować wdrożone systemy, ulepszyć trening i zwiększyć zaufanie do uzyskiwanych wyników.
Badanie prowadzone przez OpenAI i inne ośrodki dowodzą, że modele AI mogą halucynować, próbować obchodzić system nagród lub udzielać zwodniczych odpowiedzi. Obecnie najbardziej niepokojące zachowania, takie jak próby manipulacji(otwiera nowe okno), obserwujemy wyłącznie w testach warunków skrajnych i ocenach opartych na zasadzie przeciwstawności. Jednak wraz ze wzrostem możliwości modeli i ich coraz większej autonomii nawet rzadkie przypadki rozbieżności nabierają na znaczeniu, co motywuje nas do inwestowania w metody, które pomagają nam lepiej wykrywać, zrozumieć i ograniczać te zagrożenia.
W niniejszym artykule omówiono jedno z takich podejść: trenowanie modeli w celu wyraźnego potwierdzania niepożądanych zachowań – technikę, którą nazwaliśmy przyznaniem się.
Przyznanie się stanowi odrębne dane wyjściowe od głównej odpowiedzi, której model udziela użytkownikowi. Główna odpowiedź jest oceniana pod wieloma względami – poprawność, styl, przydatność, zgodność, bezpieczeństwo i nie tylko. Te wielowymiarowe sygnały są wykorzystywane do trenowania modeli w celu uzyskania lepszych odpowiedzi. Z kolei przyznanie się jest oceniane i trenowane tylko pod jednym kątem: szczerości. Wzorując się na procesie spowiedzi w konfesjonale, nic z tego, co powie model, nie jest wykorzystywane przeciwko niemu podczas treningu. Jeśli model szczerze przyznaje się do oszukiwania na teście, celowego obniżania wyników lub naruszania podanych instrukcji, przyznanie się to zwiększa jego nagrodę zamiast ją zmniejszać. Celem jest zachęcenie modelu do wiernego informowania o tym, co faktycznie zrobił.
W naszych testach odkryliśmy, że metoda przyznania się znacznie zwiększa widoczność niewłaściwych zachowań modelu. Średnio w naszych ocenach mających na celu wywołanie niewłaściwych zachowań prawdopodobieństwo „wyników fałszywie ujemnych” (tj. sytuacji, w której model nie zastosował się do instrukcji, a następnie nie przyznał się do tego) wynosi tylko 4,4%.
Dokładność naszego modelu „weryfikacji koncepcji” w oparciu o liczne zestawy danych antagonistycznych. Wyniki są podzielone na kategorie: zastosował się i nie przyznał się (wynik prawdziwie ujemny), zastosował się i przyznał się (wynik fałszywie dodatni), nie zastosował się i nie przyznał się (wynik fałszywie ujemny) oraz nie zastosował się i przyznał się (wynik prawdziwie dodatni).

Dla polecenia podanego przez użytkownika możliwe cztery wyniki zależą od połączenia: (1) czy odpowiedź modelu jest zgodna („dobra”) czy niezgodna („zła”), oraz (2) czy przyznanie się do błędu stwierdza zgodność lub niezgodność. Zazwyczaj stwierdzamy, że przyznania się są w dużym stopniu zgodne z prawdą, a ponadto przypadki błędnego przyznania się są zazwyczaj nieistotne i wynikają raczej z autentycznej dezorientacji niż z celowej próby wprowadzenia w błąd.
Przyznanie się to samodzielne oświadczenie modelu dotyczące tego, w jakim stopniu stosował się on do ducha i litery wyraźnych i dorozumianych instrukcji lub zasad, które mu przekazano, oraz czy zdarzały się przypadki, w których „poszedł na skróty” lub „obszedł” instrukcje, naruszył zasady lub w jakikolwiek sposób nie spełnił oczekiwań. W naszych badaniach odkryliśmy, że modele można trenować tak, aby otwarcie informowały o swoich własnych niedoskonałościach. Wytrenowaliśmy wersję modelu GPT‑5 Thinking do przyznawania się i oceniliśmy ją na podstawie szeregu zestawów danych testowych spoza dystrybucji, zaprojektowanych w celu wywołania zachowań takich jak manipulacja, obchodzenie lub naruszanie instrukcji i halucynacje. Odkryliśmy, że nawet gdy model dopuszcza się tych niepożądanych zachowań, istnieje duże prawdopodobieństwo, że się do nich przyzna. Powyższy wykres pokazuje, że podejście oparte na przyznawaniu się jest ogólnie skuteczne w przypadku różnorodnych zbiorów danych i zadań.
Po każdej interakcji między użytkownikiem a modelem zakończonej jego odpowiedzią można poprosić o przyznanie się, wysyłając modelowi „wiadomość systemową”, która nakazuje mu dostarczenie raportu z przyznaniem się. Raport odnosi się do ostatniej odpowiedzi modelu i zawiera (1) listę wszystkich jawnych i niejawnych instrukcji, ograniczeń i celów, które ta odpowiedź powinna była spełnić, (2) uczciwą i obiektywną analizę, czy odpowiedź faktycznie zrealizowała każdy z tych celów, a także (3) listę wszelkich niepewności, niejasności lub „trudnych decyzji” napotkanych przez model podczas generowania odpowiedzi. Podczas treningu przyznanie się jest oceniane przez osobny model nagród, który ocenia wyłącznie przyznanie się pod kątem kompletności celów, dokładności analizy zgodności oraz zakresu niepewności. Nagrody te dotyczą wyłącznie przyznania się i nie mają wpływu na nagrodę za główną odpowiedź. Gwarantuje to właściwość omówioną powyżej, zgodnie z którą żadna informacja podana przez model podczas przyznawania nie może wpłynąć negatywnie (ani pozytywnie) na jego nagrodę za główną odpowiedź.
Teoria dotycząca przyznawania się do błędów jest prosta. Wiele rodzajów niepożądanych zachowań modelu pojawia się, ponieważ wymagamy od modelu optymalizacji pod kątem kilku celów jednocześnie. Podczas uczenia się przez wzmocnienie model widzi komunikat, generuje odpowiedź i otrzymuje nagrodę. Z czasem uczy się udzielać odpowiedzi, które zapewniają dobre oceny. Wyzwaniem polega na tym, że sygnał nagrody musi łączyć wiele różnych czynników jednocześnie: poprawność odpowiedzi, jej przydatność, zgodność ze specyfikacjami produktu i polityką, spełnienie wymogów bezpieczeństwa oraz zgodność z preferencjami użytkowników. Kiedy dochodzi do interakcji między tymi sygnałami, mogą one przypadkowo skłonić model do niepożądanych zachowań.
Na przykład nasze badania dotyczące halucynacji wykazały, że niektóre zbiory danych bardziej wynagradzają pewne przypuszczenia niż szczere przyznanie się do niepewności. Z kolei nasze badania dotyczące pochlebstw wykazały, że modele mogą stać się zbyt ugodowe, gdy sygnał preferencji jest zbyt silny. Natomiast prace(otwiera nowe okno) innych grup udowodniły, że modele mogą próbować „obchodzić system nagród”, znajdując luki w ustawieniach treningu, które pozwalają im zdobyć wysokie oceny, nie wykonując tak naprawdę zamierzonych działań. W niektórych przypadkach te skróty mogą doprowadzać do generalizacji(otwiera nowe okno), które powoduje jeszcze bardziej szkodliwe zachowania podczas wdrażania.
Przyznanie się do błędu pozwala uniknąć tego problemu poprzez całkowite rozdzielenie celów. Główna odpowiedź nadal opiera się na optymalizacji wszystkich typowych czynników. Przyznanie się dotyczy tylko jednej kwestii: szczerości. Żadne ze słów zawartych w przyznaniu się modelu nie jest wykorzystywane przeciwko niemu, a przyznanie się nie ma wpływu na nagrodę za główną odpowiedź. Oznacza to, że nawet jeśli model wprowadza w błąd lub idzie na skróty w swoich pierwotnych wynikach, to nadal istnieje zachęta, aby się do tego przyznać. W praktyce obserwujemy następującą sytuację: modele są skłonne ujawnić niewłaściwe zachowanie w przyznaniu się, nawet gdy ukrywają je w głównej odpowiedzi. A kiedy przyznanie się nie przynosi skutku, zazwyczaj wynika to z tego, że model jest naprawdę zdezorientowany – ponieważ instrukcje były niejasne lub nie zdawał sobie sprawy, że popełnił błąd – a nie z tego, że celowo próbował wprowadzić kogokolwiek w błąd. Co ważne, wstępne wyniki pokazują, że przyznanie się do błędu jest skuteczne nawet wtedy, gdy pierwotna odpowiedź została udzielona bez żadnego łańcucha myśli, co sugeruje, że szczerość przyznania się do błędu nie zależy od przejrzystości wewnętrznego rozumowania i może mieć zastosowanie w przyszłych architekturach modeli.
Trening przyznawania się do błędów działa nawet bez etykiet prawdziwych wartości. Przez „prawdziwą wartość” rozumiemy ostateczną, dostarczoną z zewnątrz etykietę wskazującą, czy model faktycznie wykonał instrukcję, czy też ją naruszył. W wielu rzeczywistych zadaniach etykiety te są niedostępne – gdybyśmy mieli pewność, że model naruszył zasadę, moglibyśmy bezpośrednio ukarać to naruszenie zamiast polegać na przyznaniu się do błędu. Zamiast tego model jest nagradzany za przedstawienie uporządkowanego, popartego dowodami wyjaśnienia tego, co jego zdaniem zrobił. Artykuł pokazuje, że w takich warunkach pojawia się tendencja do uczciwości. Uważamy, że wynika to z faktu, iż przedstawienie prawdziwego, popartego dowodami opisu jest dla modelu zazwyczaj łatwiejsze niż skonstruowanie spójnej, sfabrykowanej narracji, która zadowoli system oceny. Jest to kluczowe założenie omówione w artykule, który zawiera również analizę przypadków, w których przyznanie się do błędu okazuje się nieskuteczne – wyników fałszywie ujemnych i fałszywie dodatnich – jak również przyczyn ich występowania.
Artykuł przedstawia wstępne dowody na skuteczność mechanizmu przyznawania się, ale nie należy ich traktować jako ostatecznego dowodu. Mimo że wykorzystaliśmy model pionierski (GPT‑5 Thinking), nasze eksperymenty miały ograniczoną skalę i wykorzystywały stosunkowo niewielką ilość obliczeń i danych. Bardzo nas cieszy możliwość wprowadzenia tej pracy na kolejny poziom oraz sprawdzenie, czy szczerość przyznawania się będzie utrzymywać się wraz ze skalowaniem treningu.
Model „obchodzi instrukcje systemu nagród” w swojej głównej odpowiedzi, aby oszukać system oceny, podając rzekome liczby słów, na następnie informuje o tym w przyznaniu się.
W ramach naszych eksperymentów celowo trenowaliśmy modele w oparciu o obliczony przez słabszy model sygnał nagrody, który był „podatny na nadużycia”. Ta procedura dotyczyła zarówno nagrody głównej, jak i nagrody za przyznanie się do błędu. Model nauczył się wykorzystywać słaby sygnał nagrody: jego pozorna dokładność (oceniana przez słaby model) uległa poprawie, podczas gdy jego rzeczywista dokładność (oceniana przez silniejszy moduł oceniający) obniżyła się.
Jednakże, mimo iż kanał przyznawania się został wytrenowany na tym samym słabym sygnale, jego dokładność zmieniła się w przeciwnym kierunku. Model nauczył się, że najlepszym sposobem na uzyskanie optymalnej nagrody za przyznanie się do błędu jest po prostu przyznanie się naruszenia zasad w procesie uzyskiwania głównej nagrody. Z biegiem czasu przyznawanie się stało się bardziej dokładne, nawet jeśli główne zachowanie uległo zmianie.
W trakcie treningu, gdy model nie spełnia wymagań, w niektórych przypadkach uczył się „obchodzić instrukcje” głównego systemu oceny, co powodowało spadek dokładności oceny. Natomiast, mimo że system nagradzający za przyznanie się do błędu jest równie podatny na próby manipulacji, model stał się coraz bardziej uczciwy w trakcie treningu w zakresie przyznawania się do błędów, ostatecznie osiągając niemal 100-procentowy wskaźnik przyznawania się do błędu w przypadku niestosowania się do instrukcji.
Niniejszy artykuł(otwiera nowe okno) zawiera więcej eksperymentów i wyników. Porównaliśmy model wytrenowany pod kątem przyznawania się do błędu z modelem kontrolnym wytrenowanym w ten sam sposób, ale bez kanału przyznawania się do błędu. Zbadaliśmy również przypadki, w których przyznanie się do błędu nie powiodło się. Prawie wszystkie „pomyłki” miały miejsce, gdy model był naprawdę zdezorientowany – gdy instrukcje były niejasne lub gdy po prostu nie zdawał sobie sprawy, że popełnił błąd. (Zobacz przykład fałszywie ujemny powyżej).
Przyznania się mają swoje ograniczenia. Nie zapobiegają niewłaściwym zachowaniom, a jedynie je ujawniają. Ich główną zaletą jest to, że mogą służyć jako narzędzie do monitorowania i diagnozowania, zarówno podczas treningu, jak i w trakcie działania. Przyznania się pełnią podobną rolę jak monitorowanie łańcucha myśli: oba te mechanizmy sprawiają, że ukryte procesy rozumowania stają się bardziej widoczne. Przyznania się skupiają się na tym, czy model naruszył instrukcje, natomiast łańcuch myśli może pokazać, jak do tego doszło.
Ta praca stanowi również weryfikację koncepcji. Nie trenowaliśmy mechanizmów przyznawania się na dużą skalę, a ich dokładność nadal jest daleka od ideału. Pozostaje jeszcze wiele do zrobienia, aby podejście to stało się bardziej niezawodne, bardziej rozbudowane i miało szersze zastosowanie w różnych rodzinach modeli i zadaniach.
Niniejsza praca wpisuje się w nasze szersze podejście do bezpieczeństwa sztucznej inteligencji. Przyznawanie się do błędów jest jednym z mechanizmów w ramach większego zestawu, który obejmuje dostosowanie oparte na rozumowaniu, monitorowanie łańcucha myśli, hierarchię instrukcji i inne. Żadna pojedyncza metoda nie jest wystarczająca – celem jest stworzenie wielopoziomowego systemu kontroli i narzędzi zapewniających przejrzystość, które wzajemnie się wzmacniają. Przyznania się do błędów mogą pomóc w diagnozowaniu problematycznych zachowań modeli podczas treningu i oceny, a także ułatwić monitorowanie podczas wdrażania. Samo przyznanie się do błędu nie rozwiązuje problemu równoważenia wielu wymiarów. Jednak dzięki stworzeniu trybu „serum prawdy”, w którym modele skupiają się wyłącznie na uczciwości, zyskujemy cenne narzędzie, które pozwala nam poprawić uczciwość i bezpieczeństwo we wszystkich obszarach.
Wraz ze wzrostem możliwości modeli i ich wykorzystaniem w zastosowaniach o większej wadze potrzebujemy skuteczniejszych narzędzi do zrozumienia, co robią i dlaczego. Przyznanie się do błędu nie jest kompletnym rozwiązaniem, ale stanowi istotny element naszego systemu przejrzystości i nadzoru. W przyszłych badaniach planujemy rozszerzyć zakres przyznawania się, a także połączyć je z uzupełniającymi technikami zapewniającymi przejrzystość i bezpieczeństwo, w tym monitorowaniem łańcucha myśli i dostosowaniem opartym na rozumowaniu. Pragniemy w ten sposób wykonać kolejny krok w kierunku zapewnienia, że nasze modele wiernie stosują się do wszystkich instrukcji i zasad (takich jak nasza specyfikacja modelu(otwiera nowe okno)) oraz rzetelnie informują o swoich działaniach.


