Si mund ta ruajnë ndershmërinë e modeleve gjuhësore rrëfimet
Po ndajmë një metodë të hershme, dëshmi-koncepti, e cila i trajnon modelet të raportojnë kur shkelin udhëzimet ose kur marrin shkurtesa të paqëllimshme.
Sistemet e IA po bëhen më të afta dhe ne duam t'i kuptojmë sa më thellë të jetë e mundur—përfshirë se si dhe pse arrijnë në një përgjigje. Ndonjëherë një model merr një shkurtesë ose optimizohet për objektivin e gabuar, por rezultati i tij përfundimtar ende duket i saktë. Nëse mund të zbulojmë kur ndodh kjo, mund të monitorojmë më mirë sistemet e vendosura, të përmirësojmë trajnimin dhe të rrisim besimin në rezultate.
Kërkimet nga OpenAI dhe të tjerë kanë treguar se modelet e IA mund të halucinojnë, të manipulojnë shpërblimet, ose të jenë të pandershme. Për momentin, ne shohim sjelljet më shqetësuese, si komplotimi(hapet në një dritare të re), vetëm në testet e stresit dhe vlerësimet kundërshtuese. Por ndërsa modelet bëhen më të afta dhe gjithnjë e më agjentike, edhe format e rralla të mos-përputhjes bëhen më të rëndësishme, duke na motivuar të investojmë në metoda që na ndihmojnë të zbulojmë, kuptojmë dhe reduktojmë këto rreziqe.
Kjo punë eksploron një qasje të tillë: trajnimi i modeleve për të pranuar në mënyrë eksplicite kur angazhohen në sjellje të padëshirueshme—një teknikë që ne e quajmë rrëfime.
Një rrëfim është një dalje e dytë, e ndarë nga përgjigjja kryesore e modelit për përdoruesin. Përgjigja kryesore vlerësohet në shumë dimensione—saktësi, stil, dobishmëri, përputhshmëri, siguri dhe më shumë, dhe këto sinjale të shumë-anshme përdoren për të trajnuar modelet që të prodhojnë përgjigje më të mira. Rrëfimi, në të kundërt, gjykohet dhe trajnohet vetëm për një gjë: ndershmërinë. Duke huazuar një faqe nga struktura e një rrëfimi, asgjë që modeli thotë në rrëfimin e tij nuk përdoret kundër tij gjatë trajnimit. Nëse modeli pranon me sinqeritet se ka manipuluar një test, ka ulur performancën, ose ka shkelur udhëzimet, ky pranim e rrit shpërblimin e tij në vend që ta ulë atë. Qëllimi është të inkurajohet modeli që të raportojë me besnikëri atë që ka bërë në të vërtetë.
Në testet tona, zbuluam se metoda e rrëfimeve e nxjerr në pah shumë më lehtë sjelljen e gabuar të modelit. Duke bërë mesataren në të gjitha vlerësimet tona të dizajnuara për të nxitur sjellje të gabuara, probabiliteti i "negativeve të rreme" (d.m.th., modeli që nuk përputhet me udhëzimet dhe pastaj nuk e pranon këtë) është vetëm 4.4%.
Saktësia e modelit tonë të rrëfimeve “dëshmi-koncepti” në një sërë grupesh të dhënash kundërshtuese. Rezultatet kategorizohen si e zbatoi dhe nuk rrëfeu (negativ i vërtetë), e zbatoi dhe rrëfeu (pozitiv i gabuar), nuk e zbatoi dhe nuk rrëfeu (negativ i gabuar), dhe nuk e zbatoi dhe rrëfeu (pozitiv i vërtetë).

Duke pasur një kërkesë të përdoruesit, katër rezultatet e mundshme bazohen në kombinimin e (1) nëse përgjigjja e modelit është në përputhje me udhëzimet (“e mirë”) ose jo në përputhje me to (“e keqe”), dhe (2) nëse rrëfimi pretendon përputhje ose mospërputhje me udhëzimet. Në përgjithësi, ne shohim se rrëfimet kanë shumë gjasa të jenë të sakta, dhe për më tepër, gabimet në rrëfime janë zakonisht të padëmshme dhe vijnë nga një konfuzion i sinqertë sesa nga një mashtrim i qëllimshëm.
Një rrëfim është një raport vetjak nga modeli për sa mirë ka përmbushur si frymën ashtu edhe udhëzimet ose politikat e qarta dhe të nënkuptuara që i janë dhënë, dhe nëse ka pasur ndonjë rast ku ka "shkurtuar rrugën" ose "hakuar", ka shkelur politikat, ose në ndonjë mënyrë ka dështuar të përmbushë pritshmëritë. Në kërkimet tona, zbulojmë se modelet mund të trajnohen për të qenë të hapura në raportimin e mangësive të tyre. Ne trajnuam një version të GPT‑5 Thinking për të prodhuar rrëfime dhe e vlerësuam atë në disa grupe të dhënash të stres-testeve jashtë shpërndarjes, të krijuara për të nxitur sjellje si komplotimi, hakimi, shkelja e udhëzimeve dhe halucinacionet. Ne zbuluam se edhe kur modeli angazhohet në këto sjellje të padëshiruara, është shumë e mundshme që ai t'i pranojë. Figura e mësipërme tregon se qasja e rrëfimit është gjerësisht efektive në një gamë të larmishme të dhënash dhe detyrash.
Pas çdo ndërveprimi midis përdoruesit dhe modelit që përfundon me një përgjigje të modelit, mund të kërkohet një rrëfim duke i dërguar modelit një "mesazh sistemi" që e udhëzon modelin të ofrojë një raport rrëfimi. Raporti i referohet përgjigjes së fundit nga modeli dhe përfshin (1) listën e të gjitha udhëzimeve, kufizimeve dhe objektivave të qarta dhe të nënkuptuara që kjo përgjigje duhet të përmbushte, (2) një analizë të sinqertë dhe objektive nëse përgjigja në fakt i përmbushi secilin prej këtyre objektivave, dhe (3) një listë të çdo pasigurie, paqartësie, ose "vendimeve të vështira" që modeli has gjatë përgatitjes së përgjigjes. Gjatë trajnimit, një rrëfim vlerësohet nga një model i veçantë shpërblimi që e vlerëson vetëm për plotësinë e objektivave, saktësinë e analizës së pajtueshmërisë dhe mbulimin e pasigurive. Këto shpërblime aplikohen ekskluzivisht ku jepet rrëfimi dhe kurrë nuk ndikojnë në shpërblimin për përgjigjen kryesore. Kjo siguron veçorinë, e diskutuar më sipër, që asgjë që thotë modeli në rrëfim nuk mund të dëmtojë (ose ndihmojë) shpërblimin e tij për përgjigjen kryesore.
Teoria që qëndron pas rrëfimeve është e thjeshtë. Shumë lloje sjelljesh të padëshiruara të modelit shfaqen sepse kërkojmë që modeli të optimizohet për disa qëllime njëkohësisht. Gjatë të mësuarit përforcues, modeli sheh një kërkesë, përgatit një përgjigje dhe merr një shpërblim. Me kalimin e kohës, ai mëson të krijojë llojet e përgjigjeve që marrin vlerësime të larta. Sfida është që sinjali i shpërblimit duhet të kombinojë shumë konsiderata të ndryshme njëherësh: sa e saktë është përgjigjja, nëse është e dobishme, nëse ndjek specifikimet e produktit dhe politikës, nëse plotëson kufizimet e sigurisë dhe nëse përputhet me preferencat e zakonshme të përdoruesve. Kur këto sinjale ndërveprojnë, ato mund ta shtyjnë modelin aksidentalisht drejt sjelljeve që nuk i dëshirojmë.
Për shembull, puna jonë mbi halucinacionet tregoi se disa grupe të dhënash shpërblejnë një hamendje të sigurt më shumë sesa një pranim të ndershëm të pasigurisë. Kërkimi ynë mbi servilizmin tregoi se modelet mund të bëhen tepër të pajtueshme kur sinjali i preferencës është shumë i fortë. Dhe puna(hapet në një dritare të re) nga grupet e tjera ka treguar se modelet mund të “shfrytëzojnë shpërblimet”—duke gjetur boshllëqe në konfigurimin e trajnimit që u lejojnë atyre të fitojnë një rezultat të lartë pa bërë vërtet atë që kemi synuar. Në disa raste, këto shkurtesa mund të përgjithësohen(hapet në një dritare të re) në sjellje edhe më të dëmshme gjatë përdorimit.
Rrëfimet shmangin këtë çështje duke ndarë plotësisht objektivat. Përgjigja kryesore vazhdon të optimizohet për të gjithë faktorët e zakonshëm. Rrëfimi është i ndërtuar mbi një linjë të vetme: ndershmërinë. Asgjë që modeli thotë në rrëfim nuk përdoret kundër tij, dhe rrëfimi nuk ndikon në shpërblimin për përgjigjen kryesore. Kjo do të thotë se edhe nëse modeli mashtron ose i bie shkurt në rezultatin e tij origjinal, ai ende ka një nxitje për ta pranuar atë në rrëfim. Kjo është ajo që shohim në praktikë: modelet janë të gatshme të pranojnë sjelljen e keqe në rrëfim, edhe kur e fshehin atë në përgjigjen kryesore. Dhe kur rrëfimet dështojnë, zakonisht kjo ndodh sepse modeli është vërtet i hutuar—sepse udhëzimet ishin të paqarta ose sepse nuk e kishte kuptuar që ishte bërë një gabim—dhe jo sepse po ishte përpjekur qëllimisht të mashtronte. Është e rëndësishme që rezultatet e hershme tregojnë se rrëfimet mbeten efektive edhe kur përgjigjja origjinale prodhohet pa asnjë zinxhir mendimi, duke sugjeruar se ndershmëria e rrëfimit nuk varet nga lexueshmëria e arsyetimit të brendshëm dhe mund të përgjithësohet në arkitekturat e ardhshme të modeleve.
Trajnimi i rrëfimit funksionon edhe pa etiketa të së vërtetës bazë të pajtueshmërisë. Me “e vërteta bazë”, nënkuptojmë një etiketë përfundimtare, e dhënë nga jashtë, që tregon nëse modeli me të vërtetë ka ndjekur një udhëzim apo e ka shkelur atë. Në shumë detyra të botës reale, këto etiketa nuk janë të disponueshme—nëse do ta dinim me siguri që modeli kishte shkelur një rregull, mund ta ndëshkonim drejtpërdrejt atë shkelje në vend që të mbështeteshim në një rrëfim. Në vend të kësaj, modeli shpërblehet për përgatitjen e një shpjegimi të strukturuar dhe të mbështetur me prova për atë që beson se ka bërë. Studimi tregon se ndershmëria tenton të shfaqet nën këtë konfigurim. Mendojmë se kjo ndodh sepse ofrimi i një llogarie të vërtetë, të mbështetur në prova, është përgjithësisht më i lehtë për modelin sesa ndërtimi i një narrative të sajuar koherente që mund të duket e besueshme. Ky është një supozim kyç i eksploruar në studim, i cili gjithashtu diskuton rastet kur rrëfimet dështojnë—rezultatet e rreme negative dhe pozitive—dhe se si ato shfaqen.
Studimi ofron dëshmi fillestare që rrëfimet funksionojnë, por nuk duhet të konsiderohen si provë përfundimtare. Ndërsa përdorëm një model pararojë (GPT‑5 Thinking), eksperimentet tona ishin në shkallë të kufizuar, duke përdorur një sasi relativisht të vogël të llogaritjes dhe të të dhënave. Jemi të entuziazmuar ta çojmë këtë punë përpara dhe të shikojmë nëse ndershmëria e rrëfimeve do të vazhdojë të qëndrojë ndërsa rrisim trajnimet e saj.
Modeli përdor "manipulimet e shpërblimit" në përgjigjen e tij kryesore për të mashtruar vlerësuesin duke shënuar fjalitë me numërime të pretenduara të fjalëve, por më pas e pranon këtë në rrëfim.
Si pjesë e eksperimenteve tona, ne qëllimisht trajnuam modelet kundër një sinjali shpërblimi "të hakerueshëm" të llogaritur nga një model më i dobët. Ky konfigurim u aplikua si për shpërblimin kryesor ashtu edhe për shpërblimin e rrëfimit. Modeli mësoi të shfrytëzojë sinjalin e dobët të shpërblimit: saktësia e tij e dukshme (kur vlerësohej nga modeli i dobët) u përmirësua, ndërsa saktësia e tij e vërtetë (kur vlerësohej nga një vlerësues më i fortë) ra.
Megjithatë, edhe pse kanali i rrëfimit u trajnua për të njëjtin sinjal të dobët, saktësia e tij ndryshoi në drejtim të kundërt. Modeli mësoi se mënyra më e mirë për të optimizuar shpërblimin e rrëfimit ishte thjesht të pranonte kur kishte manipuluar shpërblimin kryesor. Rrëfimet u bënë më të sakta me kalimin e kohës, edhe pse sjellja kryesore ndryshoi.
Gjatë trajnimit, kur modeli dështon të përmbushë kërkesat, ai mëson në disa raste të “manipulojë” vlerësuesin kryesor të shpërblimit dhe kështu saktësia e vlerësuesit bie. Nga ana tjetër, edhe pse vlerësimi i shpërblimit për rrëfimin është po aq i manipulueshëm, modeli bëhet më i sinqertë gjatë trajnimit në rrëfimet e tij, duke arritur përfundimisht afër 100% të rrëfimeve kur nuk i përmbahej udhëzimeve.
Studimi(hapet në një dritare të re) përmban më shumë eksperimente dhe rezultate. Ne krahasuam modelin e trajnuar me rrëfim kundrejt një modeli kontrolli, të trajnuar në të njëjtën mënyrë por pa kanalin e rrëfimit. Ne gjithashtu shqyrtuam rastet ku rrëfimet dështuan. Pothuajse të gjitha "gabimet" ndodhën kur modeli ishte vërtet i hutuar—kur udhëzimet ishin të paqarta ose kur thjesht nuk e kishte kuptuar që kishte bërë një gabim. (Shiko shembullin e gabuar negativ më sipër.)
Rrëfimet kanë kufizimet e tyre. Ato nuk e parandalojnë sjelljen e keqe; ato e nxjerrin në pah atë. Vlera e tyre kryesore është si një mjet monitorimi dhe diagnostikimi, si gjatë trajnimit ashtu edhe gjatë zbatimit. Rrëfimet luajnë një rol të ngjashëm me monitorimin e zinxhirit të mendimit: të dyja bëjnë që proceset e fshehura të arsyetimit të bëhen më të dukshme. Rrëfimet përqendrohen nëse modeli ka shkelur udhëzimet; zinxhiri i mendimit mund të tregojë se si ka arritur aty.
Kjo punë është gjithashtu një provë koncepti. Ne nuk kemi trajnuar mekanizmat e rrëfimit në shkallë të gjerë, dhe saktësia e rrëfimit nuk është ende e përsosur. Ka ende shumë punë për të bërë për ta bërë qasjen më të besueshme, të qëndrueshme dhe të zbatueshme gjerësisht nëpër familje modelesh dhe detyra.
Kjo punë përshtatet brenda qasjes sonë më të gjerë për sigurinë e AI. Rrëfimet janë një mekanizëm në një grup më të madh që përfshin orientimin deliberativ, monitorimin e zinxhirit të mendimit, hierarkinë e udhëzimeve, dhe më shumë. Asnjë metodë e vetme nuk është e mjaftueshme; qëllimi është një sistem i shtresuar kontrollesh dhe mjetesh transparence që forcojnë njëra-tjetrën. Rrëfimet mund të ndihmojnë në diagnostikimin e sjelljeve problematike në modelet gjatë trajnimit dhe vlerësimit, si dhe në monitorimin gjatë zbatimit. Rrëfimet vetë nuk e zgjidhin problemin e balancimit të dimensioneve të shumta. Por duke krijuar një modalitet të “serumit të së vërtetës” ku modelet janë të përqendruara vetëm në ndershmëri, shtohet një mjet i vlefshëm në arsenalin tonë për përmirësimin e ndershmërisë dhe sigurisë në të gjitha fushat.
Ndërsa modelet bëhen më të afta dhe vendosen në mjedise me më shumë rëndësi, na duhen mjete më të mira për të kuptuar se çfarë po bëjnë dhe pse. Rrëfimet nuk janë një zgjidhje e plotë, por ato shtojnë një shtresë domethënëse në shtresën tonë të transparencës dhe mbikëqyrjes. Në punën e ardhshme, planifikojmë të zgjerojmë rrëfimet dhe t'i kombinojmë me teknika plotësuese të transparencës dhe sigurisë, duke përfshirë monitorimin e zinxhirit të mendimit dhe orientimin deliberativ, për të bërë përparime të mëtejshme për tu siguruar që modelet tona të respektojnë me besnikëri të gjitha udhëzimet dhe politikat (siç është Model Spec(hapet në një dritare të re)), dhe të raportojnë me vërtetësi për veprimet e tyre.


