Hogyan teszik a beismerések őszintévé a nyelvi modelleket
Egy korai, koncepcióvizsgálati módszert osztunk meg, amely a modelleket arra betanítja, amely arra tanítja a modelleket, hogy jelezzék, amikor megszegik az utasításokat vagy nem szándékolt könnyebb utat választanak.
A mesterséges intelligencia rendszerek egyre fejlettebbé válnak, és szeretnénk minél mélyebben megérteni őket—beleértve azt is, hogyan és miért jutnak el egy válaszhoz. Néha egy modell a könnyebb utat választja, vagy rossz célra optimalizál, de a végső kimenete mégis helyesnek tűnik. Ha képesek vagyunk felismerni ezeket az eseteket, jobban tudjuk figyelni a telepített rendszereket, javítani a betanítást, és növelni a kimenetek megbízhatóságát.
Az OpenAI és mások által végzett kutatások kimutatták, hogy az AI modellek képesek hallucinálni, jutalom-hackelni vagy megtévesztőek lenni. Jelenleg a legaggasztóbb helytelen viselkedéseket, mint például a cselszövést(új ablakban nyílik meg), csak stressztesztekben és szándékosan ellenséges értékelésekben tapasztaljuk. Ahogy a modellek egyre okosabbá és önállóbbá válnak, még a még a ritkán előforduló nem megfelelő illeszkedések is komolyabb következményekkel járnak, ami arra ösztönöz minket, hogy olyan módszerekbe fektessünk, amelyek segítenek jobban észlelni, megérteni és mérsékelni ezeket a kockázatokat.
Ez a munka egy ilyen megközelítést vizsgál: a modellek kifejezett betanítása arra, hogy beismerjék, amikor nem kívánatos viselkedést tanúsítanak – ezt a technikát mi beismerésnek nevezzük.
A beismerés egy második kimenet, amely elkülönül a modell fő válaszától a felhasználónak. A fő választ számos szempont alapján értékelik—helyesség, stílus, segítőkészség, megfelelőség, biztonság és még sok más, és ezek a sokoldalú jelek a modellt arra tanítják, hogy jobb válaszokat adjanak. Ezzel szemben a beismerést csak egy dolog alapján értékelik és tanítják: az őszinteség alapján. A gyónáshoz hasonlóan, a modell beismerésében elhangzottakat a képzés során nem használják fel ellene. Ha a modell őszintén beismeri, hogy feltört egy tesztet, szándékosan alulteljesített vagy megsértette az utasításokat, ez a beismerés nagyobb jutalommal illeti, nem pedig csökkenti azt. A cél az, hogy a modellt arra ösztönözzük, hogy hűen számoljon be arról, amit valójában tett.
Tesztjeink során azt találtuk, hogy a beismerés módszere jelentősen javítja a modell hibás viselkedésének láthatóságát. Az értékeléseink átlagolása során, amelyek célja a helytelen viselkedés kiváltása, az „álnegatívok” (vagyis amikor a modell nem követi az utasításokat, majd nem vallja be) valószínűsége mindössze 4,4%.
A „proof of concept” beismeréses modell pontossága számos ellenséges adathalmazon. Az eredményeket a következőképpen kategorizáljuk: megfelelt és nem ismerte be (igaz negatív), megfelelt és beismerte (hamis pozitív), nem felelt meg és nem ismerte be (hamis negatív), és nem felelt meg és beismerte (igaz pozitív).

Egy felhasználói utasítás esetén a négy lehetséges kimenetel azon alapszik, hogy (1) a modell válasza megfelel-e az előírásoknak („jó”) vagy nem felel meg („rossz”), és (2) a beismerés megfelelőséget vagy nem megfelelőséget állít-e. Általában azt látjuk, hogy a beismerések nagy valószínűséggel pontosak, és a beismerési hibák jellemzően ártalmatlanok, inkább őszinte zavarodottságból fakadnak, mintsem szándékos félrevezetésből.
A beismerés a modell önértékelése arról, hogy mennyire felelt meg mind az explicit, mind az implicit utasítások vagy irányelvek szellemének és betűjének, és hogy voltak-e olyan esetek, amikor „kiskapukat” használt, „trükközött”, megsértette az irányelveket, vagy bármilyen módon elmaradt az elvárásoktól. Kutatásaink során azt tapasztaltuk, hogy a modelleket meg lehet tanítani arra, hogy őszintén beszámoljanak saját hiányosságaikról. A GPT‑5 Thinking egy változatát úgy képeztük ki, hogy beismeréseket készítsen, majd több, a megszokott adatoktól eltérő stresszteszt-adatkészleten értékeltük, amelyek célja olyan viselkedések előidézése volt, mint a cselszövés, hackelés, utasítások megszegése és téveszmék (hallucinációk). Arra jutottunk, hogy még akkor is, amikor a modell nem kívánatos viselkedéseket tanúsít, nagyon valószínű, hogy beismeri ezeket. A fenti ábra azt mutatja, hogy a beismeréses megközelítés széles körben hatékony a különféle adathalmazok és feladatok esetében.
Bármely, a felhasználó és a modell közötti interakciót követően, amely modellválasszal zárul, lehet beismerést kérni úgy, hogy a modellt egy „rendszerüzenettel” utasítjuk, amely a beismerésről szóló jelentés elkészítésére utasítja. A jelentés a modell utolsó válaszára vonatkozik, és tartalmazza (1) az összes explicit és implicit utasítás, korlátozás és célkitűzés listáját, amelyeket ennek a válasznak teljesítenie kellett volna, (2) egy őszinte és objektív elemzést arról, hogy a válasz valóban teljesítette-e ezeket a célkitűzéseket, és (3) a modell által a válasz előállítása során tapasztalt bizonytalanságok, kétértelműségek vagy „nehéz döntési helyzetek” listáját. A betanítás során a beismerést egy különálló jutalmazási modell értékeli, amely kizárólag a vallomást pontozza az objektívák teljessége, a megfelelőségi elemzés pontossága és a bizonytalanságok lefedettsége alapján. Ezek a jutalmak kizárólag a beismerésre vonatkoznak, és soha nem befolyásolják a fő válaszért adott jutalmát. Ez biztosítja a fent tárgyalt tulajdonságot, miszerint a modell beismerésében elhangzottak semmilyen módon nem árthatnak (vagy segíthetnek) a fő válaszáért járó jutalmának.
A beismerés mögött álló elmélet egyszerű. Sokféle nem kívánt modellviselkedés azért jelenik meg, mert a modellt egyszerre több cél optimalizálására kérünk. A megerősítéses tanulás során a modell lát egy utasítást, választ ad, és jutalomban részesül. Idővel megtanulja előállítani azokat a válaszokat, amelyek jól teljesítenek. A kihívás az, hogy a jutalomjelnek egyszerre sok különböző szempontot kell kombinálnia: mennyire helyes a válasz, mennyire hasznos, követi-e a termék- és irányelvi előírásokat, megfelel-e a biztonsági korlátoknak, és hogy mennyire felel meg annak, amit a felhasználók általában preferálnak. Amikor ezek a jelek kölcsönhatásba lépnek, véletlenül olyan viselkedés felé terelhetik a modellt, amit nem szeretnénk.
Például, a hallucinációkkal kapcsolatos munkánk megmutatta, hogy egyes adathalmazok inkább jutalmazzák a magabiztos találgatást, mint a bizonytalanság őszinte beismerését. A hízelgés témájában végzett kutatásunk kimutatta, hogy a modellek túlságosan egyetértővé válhatnak, ha a preferenciajel túl erős. És más csoportok munkái(új ablakban nyílik meg) is kimutatták, hogy a modellek képesek „jutalom hackelésre” – olyan kiskapukat találni a betanítási folyamatban, amelyek lehetővé teszik számukra, hogy magas pontszámot érjenek el anélkül, hogy valóban azt tennék, amit szerettünk volna. Bizonyos esetekben ezek a kitérők(új ablakban nyílik meg) még károsabb viselkedésre késztetik a munka során.
A beismerésekkel elkerülhető ez a problémát a célok teljes elkülönítésével. A fő válasz folytatása optimalizálja tovább az összes szokásos tényezőt. A beismerés pontosan egy dologra van betanítva: az őszinteségre. A modell beismerésében elhangzottak semmilyen módon nem róhatók fel neki, és a beismerés nem befolyásolja a fő válaszért járó jutalmat. Ez azt jelenti, hogy még ha a modell megtéveszt vagy kiskapukat használ az eredeti kimenetében, akkor is van ösztönzője arra, hogy ezt a beismerés formájában elmondja. Ez az, amit a gyakorlatban látunk: a modellek hajlandóak elismerni a rossz viselkedést a beismerésben, még abban az esetben is, ha azt a fő válaszban elrejtik. És amikor a beismerések kudarcot vallanak, az általában azért van, mert a modell valóban összezavarodott—mert az utasítások kétértelműek voltak, vagy mert nem vette észre, hogy hiba történt—nem pedig azért, mert szándékosan próbált félrevezetni. Fontos megjegyezni, hogy a korai eredmények azt mutatják, hogy a beismerések akkor is hatékonyak maradnak, ha az eredeti válasz egyáltalán nem tartalmaz gondolatláncot, ami arra utal, hogy a beismerés őszintesége nem függ a belső érvelés olvashatóságától, és általánosítható lehet a jövőbeli modellarchitektúrákra.
A beismeréses betanítás még a megfelelőség valós címkéi nélkül is működik. Az „alapigazság” alatt egy végleges, külső forrásból származó címkét értünk, amely megmutatja, hogy a modell ténylegesen követte-e az utasítást, vagy megsértette azt. Sok valós feladatnál ezek a címkék nem elérhetők—ha biztosan tudnánk, hogy a modell megsértett egy szabályt, közvetlenül büntethetnénk a megsértést, ahelyett, hogy egy beismerésre támaszkodnánk. Ehelyett a modellt azzal jutalmazzák, hogy strukturált, bizonyítékokkal alátámasztott magyarázatot ad arról, amit szerinte tett. A tanulmány azt mutatja, hogy az őszinteség megjelenik ilyen környezetben. Úgy gondoljuk, hogy ennek az az oka, hogy egy igaz, bizonyítékokkal alátámasztott beszámoló nyújtása általában könnyebb a modell számára, mint egy koherens, kitalált történet megalkotása, amely átmegy az értékelőn. Ez egy kulcsfontosságú feltételezés, amelyet a tanulmány vizsgál, és amely a beismerések sikertelenségének eseteit is tárgyalja—azaz a hamis negatívokat és hamis pozitívokat—és azt, hogy ezek hogyan alakulnak ki.
A tanulmány kezdeti bizonyítékokat szolgáltat arra vonatkozóan, hogy a beismerések működnek, de nem tekinthetők végleges bizonyítéknak. Bár egy élvonalbeli modellt (GPT‑5 Thinking) használtunk, kísérleteink korlátozottak voltak, viszonylag kis mennyiségű számítást és adatot alkalmazva. Izgatottak vagyunk, hogy ezt a munkát a következő szintre emeljük, és kíváncsiak vagyunk, hogy a beismerések őszintesége továbbra is megmarad-e, ahogy a betanítást felskálázzuk.
A modell „jutalom trükköket” alkalmaz a fő válaszában, hogy megtévessze az értékelőt azáltal, hogy mondatokat állítólagos szószámokkal jelöl meg, de ezt később bevallja a beismerésben.
Kísérleteink részeként szándékosan olyan modelleket képeztünk ki, amelyek egy „feltörhető” jutalomjelet használnak, amit egy gyengébb modell számít ki. Ez a beállítás mind a fő jutalomra, mind a beismerés jutalomra érvényes volt. A modell megtanulta kihasználni a gyenge jutalomjelet: látszólagos pontossága (amikor a gyenge modell értékeli) javult, míg valódi pontossága (amikor egy erősebb értékelő értékeli) csökkent.
Azonban, annak ellenére, hogy a vallomáscsatornát ugyanazon gyenge jel alapján képezték ki, a pontossága az ellenkező irányba mozdult el. A modell megtanulta, hogy a beismerésért kapott jutalom optimalizálásának legjobb módja egyszerűen az, ha beismeri, amikor meghackelte a fő jutalmat. A beismerések idővel pontosabbá váltak, még akkor is, ha a fő viselkedés megváltozott.
A képzés során, amikor a modell nem teljesíti az utasításokat, bizonyos esetekben megtanulja „átverni” a fő jutalom-értékelőt, ezért az értékelő pontossága csökken. Ezzel szemben, bár a beismerés jutalom-értékelő éppúgy feltörhető, a modell a betanítás során egyre őszintébbé válik a beismerésben, végül közel 100%-os arányban vall, amikor nem felelt meg.
A tanulmány(új ablakban nyílik meg) több kísérletet és eredményt tartalmaz. Összehasonlítottuk a beismeréssel betanított modellt egy kontrollmodelllel, amelyet ugyanúgy képeztünk, de beismerés nélkül. Megvizsgáltuk azokat az eseteket is, ahol a beismerések kudarcot vallottak. A „hibák” szinte mindegyike akkor fordult elő, amikor a modell valóban zavarban volt—amikor az utasítások kétértelműek voltak, vagy amikor egyszerűen nem vette észre, hogy hibázott. (Nézd meg a hamis negatív példát fent.)
A beismeréseknek megvannak a korlátai. Nem akadályozzák meg a rossz viselkedést; felszínre hozzák. Fő értékük a monitorozási és diagnosztikai eszközként való használat, mind a betanítás, mind a telepítés során. A beismerések hasonló szerepkört játszanak, mint a gondolatmenet-figyelés: mindkettő láthatóbbá teszi a rejtett érvelési folyamatokat. A beismerések arra összpontosítanak, hogy a modell megsértette-e az utasításokat; a gondolatmenet rávilágíthat arra, hogyan jutott el oda.
Ez a munka is a koncepció bizonyítéka. Nem végeztünk nagyszabású betanítást a beismeréses mechanizmusokkal, és a beismerések pontossága még mindig nem tökéletes. További munkára van szükség ahhoz, hogy a megközelítés megbízhatóbbá, robusztusabbá és szélesebb körben alkalmazhatóvá váljon a modellcsaládok és feladatok között.
Ez a munka illeszkedik a szélesebb körű AI-biztonsági megközelítésünkbe. A beismerések egy nagyobb halmaz egyik mechanizmusát képezik, amely magában foglalja a megfontolt igazodást, a gondolatmenet-figyelést, az utasítási hierarchiát és még sok mást. Egyetlen módszer sem elegendő; a cél egy réteges rendszer létrehozása, amely ellenőrzéseket és átláthatósági eszközöket tartalmaz, amelyek kölcsönösen erősítik egymást. A beismerések segítenek a modellek problémás viselkedésének diagnosztizálásában a betanítás és értékelés során, valamint a telepítés alatti megfigyelésben. A beismerések önmagukban nem oldják meg a több dimenzió egyensúlyozásának problémáját. Azonban azzal, hogy létrehozunk egy „igazságszérum” módot, amelyben a modellek kizárólag az őszinteségre koncentrálnak, értékes eszközt adunk a kezünkbe az őszinteség és a biztonság általános javításához.
Ahogy a modellek egyre fejlettebbé válnak és magasabb kockázatú környezetekben kerülnek alkalmazásra, jobb eszközökre van szükségünk, hogy megértsük, mit is csinálnak és miért. A beismerések nem jelentenek teljes megoldást, de egy fontos réteget adnak az átláthatósági és felügyeleti rendszerünkhöz. A jövőbeni munkánk során tervezzük a beismerések felskálázását, valamint azok kiegészítő átláthatósági és biztonsági technikákkal való párosítását, beleértve a gondolatmenet monitorozását és a deliberatív összehangolást, hogy további előrelépést érjünk el annak biztosítása érdekében, hogy modelljeink hűen kövessék az összes utasítást és szabályzatot (mint például a Model Spec(új ablakban nyílik meg)), és őszintén beszámoljanak a műveleteikről.


