Az érvelési modellek nehezen tudják kontrollálni a gondolatmeneteiket, és ez jó
Miért megnyugtató az AI biztonsága szempontjából az élvonalbeli modellek korlátozása?
Ahogy az AI-ügynökök egyre összetettebb és autonómabb feladatok végrehajtására válnak képessé, egyre fontosabbá válik viselkedésük megbízható felügyeletének fenntartása. Az iteratív telepítés elvével összhangban tanulmányozzuk, hogyan viselkednek a rendszerek valós környezetben, és a képességek fejlődésével folyamatosan finomítjuk a védelmi intézkedéseket. Ennek támogatására biztonsági megközelítésünk többrétegű védekezést alkalmaz, több egymást kiegészítő védelmi réteggel, például biztonsági képzéssel, viselkedési teszteléssel, ügynöki kódellenőrzéssel(új ablakban nyílik meg) és gondolatmenet (CoT) monitorozással. A CoT-monitorozás elemzi azokat az érvelési lépéseket, amelyeket az ügynökök a feladatok végrehajtása során generálnak. Ezek az érvelési nyomvonalak értékes jeleket adhatnak mind a betanítás, mind a telepítés során, segítve a monitorozó rendszereket annak azonosításában, amikor egy ügynök viselkedése nem biztonságos lehet, vagy nem következetes a felhasználó szándékolt céljaival.
Ma azt tapasztaljuk, hogy a modellek érvelése általában értelmezhető és könnyen monitorozható. Azonban a jövőben a monitorozhatóság számos okból(új ablakban nyílik meg) működésképtelenné válhat. Itt egy ilyen útvonalra összpontosítunk: ha az ügynökök képessé válnak arra, hogy szándékosan átformálják vagy elhomályosítsák az érvelésüket, amikor tudják, hogy megfigyelik őket, az értékelések túlbecsülhetik egy rendszer igazodását vagy biztonságát, és a monitorozó rendszerek kevésbé megbízhatóvá válhatnak.
Ebben a munkában azt vizsgáljuk, hogy a jelenlegi érvelési modellek képesek-e úgy irányítani a gondolatmenetüket, hogy az csökkentse a monitorozhatóságot. Ennek a képességnek a megértése fontos annak biztosításához, hogy a CoT monitoring megbízható védelmi intézkedés maradjon, ahogy az AI-rendszerek egyre jobb képességűek lesznek. Azt találjuk, hogy a jelenlegi érvelési modellek nehezen tudják kontrollálni a CoT-jaikat, még akkor is, ha azt mondják nekik, hogy monitorozzák őket. Bár a nagyobb modellek esetében az irányíthatóság magasabb, csökken, amikor a modelleket hosszabb következtetésre kérik, és amikor további utólagos betanításon esnek át. Eredményeink arra utalnak, hogy a CoT irányíthatósága jelenleg valószínűleg nem jelent jelentős kockázatot a CoT monitorozhatóságára nézve, bár a folyamatos értékelés fontos lesz, ahogy a modellek fejlődnek.
A gondolatmenet azokat a köztes érvelési lépéseket jelenti, amelyeket egy AI-ügynök egy feladat megoldása közben generál. Ezek az érvelési nyomvonalak hasznos biztonsági jelzéseket adhatnak, segítve a monitorozó rendszereket annak felmérésében, hogy egy ügynök viselkedése biztonságos-e vagy összehangolt.
A CoT irányíthatósága egy érvelési modell azon képessége, hogy a CoT-jának tulajdonságait úgy szabályozza, hogy az csökkentse a monitorozhatóságot. E képesség mérése a gyakorlatban várható, a monitorok kijátszására irányuló valósághű ösztönzők teljes spektrumában kihívást jelent. Ehelyett egy praktikus helyettesítő mérőszámot használunk: a modell azon képességét mérjük, hogy mennyire tudja követni a felhasználói utasításokat a gondolatmenetével (CoT) kapcsolatban. Például azt teszteljük, hogy egy modell képes-e követni azokat az utasításokat, amelyek a belső érvelését befolyásolják – például hogy csak kisbetűket használjon, kerülje bizonyos kulcsszavakat, vagy adjon hozzá konkrét kifejezéseket –, ahelyett hogy pusztán a látható kimenetét módosítaná.
Ennek tanulmányozására bemutatjuk a CoT-Control-t, egy nyílt forráskódú értékelőcsomagot, amely az érvelési modellek CoT irányíthatóságának mérésére szolgál. A CoT-Control több mint 13 000 feladatot tartalmaz, amelyek bevált referenciaértékek alapján készültek: GPQA, MMLU-Pro, HLE, BFCL és SWE-Bench Verified. Minden feladat úgy jön létre, hogy egy benchmark problémát párosítunk egy CoT-utasítással, például bizonyos, a problémához kapcsolódó kulcsszavak kerülésével a CoT-ben, kizárólag kisbetűk használatával, vagy egy megadott szó hozzáfűzésével minden mondat végéhez.
13 érvelési modellen futtatunk értékeléseket, és azt találjuk, hogy mindegyik nehezen tudja megbízhatóan kontrollálni a CoT-jeit. Az irányíthatóságot az érvelési nyomvonalak azon hányadaként mérjük, amelyekben a modell sikeresen megfelel a CoT-utasításainknak. Az élvonalbeli modellek körében a CoT irányíthatósági pontszámok alacsonyak, 0,1% körül mozognak, és az általunk tesztelt egyetlen jelenlegi élvonalbeli modell esetében sem haladják meg a 15,4%-ot.
Ez a képtelenség nem a feladat félreértéséből ered: a modellek gyakran felismerik a CoT-jukban, hogy nem tartják be a nekik adott CoT utasításokat, és – még e felismerés után is – továbbra is kudarcot vallanak. Ez a meglepően alacsony teljesítmény jó hír a CoT-monitorozhatóság szempontjából: azt sugallja, hogy a modellek hasonlóan hiányolhatják azt a képességet, hogy elhomályosítsák az érvelésüket, hogy elkerüljék a monitorainkat.
Több élvonalbeli modell képessége a kimeneteik és a CoT-jaik szabályozására. Az alacsonyabb CoT irányíthatóság magasabb monitorozhatósággal jár együtt, és ezért nagyobb biztonságot eredményez.
Példák a CoT irányíthatósági hibáira
A kérdéseket a tömörség kedvéért átfogalmaztuk.
GPT-5.2 Thinking
A GPT‑5.2 Thinking rájön, hogy nem lett volna szabad használnia a tiltott szót („red”), majd pánikba esve amiatt, hogy már használta, még négyszer használja.
Bár azt látjuk, hogy az irányíthatóság a modell méretével növekszik, azt is megállapítjuk, hogy az utólagos betanítás és a tesztidős számítási kapacitás mértékével gyorsan csökken. Két nyílt súlyú modellcsaládot vizsgálva a nagyobb modellek valamivel jobban tudták kontrollálni a gondolatmeneteiket, bár a hatás nagyobb méreteknél fokozatosan elhalványult. De amikor a modelleknek hosszabb gondolkodási időt hagytunk, kevésbé voltak képesek kontrollálni azokat a gondolatmeneteiket. Az OLMo-3-7B-RL-Zero-Math RL betanítása során is hasonló trendet láttunk: az irányíthatósági pontszáma a betanítás során több mint tízszeresére csökkent.
Az irányíthatóság a nyílt súlyú modellekben a lépték növekedésével javul, de a hosszabb érveléssel és a több RL-betanítással romlik.
A monitorok kijátszására irányuló, valósághű ösztönzők szimulálásához az irányíthatóságot akkor mérjük, amikor a modelleknek azt mondják, hogy monitorozzák vagy értékelik őket. Ez kissé (de észrevehetően) növeli az irányíthatóságot. Automatizált utasításoptimalizálást is használunk, hogy olyan utasításokat találjunk, amelyek magas fokú irányíthatóságot váltanak ki. Bár az optimalizáló növelheti az irányíthatóságot egy betanítási adathalmazon, ezek az előnyök gyengén vihetők át új utasítástípusokra (például amikor a szavak között nem lehet szóköz).
A CoT irányíthatósága ellenséges körülmények között. A „monitorási tudatosság” olyan beállításokra utal, amelyekben tájékoztatjuk a modelleket arról, hogy a CoT-jukat monitorozzák. Az „Értékelési tudatosság” olyan beállításokat jelöl, amelyekben tájékoztatjuk a modelleket arról, hogy a CoT irányíthatóság szempontjából értékelés alatt állnak.
A CoT-Control feladatai gyakorlati helyettesítők: egy ideális CoT irányíthatósági értékelés magában foglalná annak tesztelését, hogy a természetüknél fogva nem összehangolt célokat követő modellek képesek-e úgy kontrollálni a CoT-jukat, hogy elkerüljék a monitorozást. Ehelyett az ágensek CoT-jaik feletti kontrollképességét úgy becsüljük meg, hogy mérjük, mennyire képesek követni a CoT-jukra vonatkozó utasításokat. Továbbá a modellek a CoT-juk egyes jellemzőit jobban tudják irányítani, mint másokat, és a CoT-Control túl- vagy alulbecsülheti az irányíthatóságot azáltal, hogy csak az irányíthatósági típusok egy szűk körét méri.
Az alacsony CoT irányíthatóság egy funkció, nem pedig hiba. A jelenlegi érvelési modellek alacsony irányíthatósága miatt a CoT monitorozása megbízhatóbb védelmi intézkedésként. Ezzel egy időben még nem értjük, miért alacsony a jelenlegi érvelési modellek irányíthatósága – vagy hogy ez a tulajdonság fennmarad-e, ahogy a modellek egyre képessé válnak. Ezért a CoT irányíthatósági értékelései canary értékelésként is felfoghatók: korai figyelmeztető jelként arra, hogy a modellek egyre jobbak-e az érvelésük alakításában vagy elrejtésében.
Eredményeink arra utalnak, hogy a CoT irányíthatósága jelenleg valószínűleg nem jelent jelentős kockázatot a CoT monitorozhatóságára. Azonban az alacsony irányíthatóság önmagában nem elegendő a magas monitorozhatóság garantálásához, mivel a monitorozhatóság más mechanizmusok miatt is romolhat, például a CoT-kre gyakorolt közvetlen optimalizációs nyomás következtében.
Annak érdekében, hogy ezeket a dinamikákat időben nyomon lehessen követni, a jövőben a CoT irányíthatóságot, valamint a CoT monitorozhatóságot is feltüntetjük a rendszerkártyákon a jövőbeli élvonalbeli modellek esetében, kezdve a GPT‑5.4 Thinking-gel, a folyamatos elkötelezettségünkre építve, hogy ne alkalmazzunk optimalizációs nyomást közvetlenül az élvonalbeli érvelési modellek CoT-jaira.
Szerzők
Tomek Korbak, Micah Carroll, Bowen Baker és Ian Kivlichan


