Sari la conținutul principal
OpenAI

25 martie 2026

CercetarePublicare

Detalii privind abordarea noastră asupra specificațiilor modelelor

Pe măsură ce sistemele IA devin tot mai performante și mai răspândite, avem nevoie de un cadru public clar care să reglementeze modul lor de funcționare.

Se încarcă…

La OpenAI, considerăm că IA trebuie să fie echitabilă, sigură și accesibilă gratuit, ca tot mai mulți oameni să o poată folosi pentru a rezolva probleme dificile, a crea oportunități și a beneficia de avantajele sale în domenii precum sănătatea, știința, educația, munca și viața de zi cu zi. Credem că accesul democratizat la AI este cea mai bună cale de urmat: nu o IA ale cărei beneficii sau control ajung doar la câțiva, ci o IA pe care oricine o poate accesa, înțelege și la care poate contribui.

Acesta este un motiv fundamental pentru care există specificațiile modelelor OpenAI. Specificațiile modelelor(se deschide într-o fereastră nouă) reprezintă cadrul nostru formal pentru comportamentul modelelor. Acesta definește cum dorim ca modelele să urmeze instrucțiunile, să rezolve conflictele, să respecte libertatea utilizatorilor și să funcționeze în condiții de siguranță în contextul întrebărilor extrem de variate pe care utilizatorii le adresează zilnic. În sens mai larg, încercăm să explicăm în mod clar comportamentul dorit al modelului: nu doar în cadrul procesului nostru de instruire, ci într-o formă pe care utilizatorii, dezvoltatorii, cercetătorii, factorii de decizie și publicul larg să o poată citi, analiza și dezbate.

Specificațiile modelelor nu înseamnă că modelele noastre se comportă deja perfect în acest fel în prezent. În multe privințe, sunt descriptive, dar reprezintă și o țintă pentru direcția în care vrem să evolueze comportamentul modelelor. Le folosim pentru a clarifica comportamentul dorit, astfel încât să putem instrui în acest sens, să evaluăm modelele în raport cu ele și să le îmbunătățim în timp. 

Acest articol prezintă contextul care nu este inclus în specificațiile modelelor, inclusiv filosofia și mecanismele pe care se bazează: cum sunt structurate, de ce am făcut aceste alegeri structurale și cum le elaborăm, le implementăm și le dezvoltăm în timp.

Un cadru public pentru comportamentul modelelor

Specificațiile modelelor sunt o parte a abordării mai ample a OpenAI privind o IA sigură și responsabilă. În timp ce Cadrul de pregătire se concentrează pe riscurile generate de capabilitățile de vârf și pe măsurile de protecție necesare pe măsură ce aceste riscuri cresc, specificațiile modelelor abordează o întrebare diferită, dar complementară: cum ar trebui să se comporte modelele noastre într-o gamă largă de situații. Privind imaginea de ansamblu, reziliența IA își propune să răspundă provocării sociale mai ample de a ajuta societatea să profite de avantajele IA avansate, reducând în același timp perturbările și riscurile emergente pe măsură ce sunt implementate sisteme din ce în ce mai performante. În ansamblu, aceste inițiative urmăresc să sprijine tranziția către AGI într-un proces gradual, iterativ și inteligibil din punct de vedere democratic: oferindu-le oamenilor și instituțiilor timp să se adapteze și stabilind totodată măsurile de protecție, mecanismele de responsabilizare și înțelegerea publică necesare pentru a menține IA puternică aliniată la interesele umane.

Transparența față de public cu privire la comportamentul modelelor este importantă atât pentru echitate, cât și pentru siguranță. Este important pentru echitate, deoarece oamenii trebuie să înțeleagă cum și de ce IA îi tratează așa cum o face, și să poată identifica, pune întrebări și aborda preocupările legate de echitate atunci când apar. Și este important pentru siguranță, deoarece pe măsură ce sistemele IA devin tot mai capabile, oamenii și instituțiile au nevoie de așteptări mai clare cu privire la modul în care ar trebui să se comporte, ce compromisuri încorporează și cum pot fi îmbunătățite aceste alegeri în timp. Acest tip de lizibilitate sprijină și reziliența, oferindu-le mai multor oameni ceva concret de examinat, dezbătut și îmbunătățit.

De la prima versiune din 2024, specificațiile modelelor au evoluat semnificativ pe măsură ce am aflat mai multe despre preferințele și nevoile utilizatorilor, ne-am extins pentru a acoperi și a ne adapta la capacități mai mari și am ținut cont de feedbackul publicului referitor la comportamentul modelelor și la specificațiile acestora. În spiritul implementării iterative, specificațiile modelelor reprezintă un document în evoluție care acoperă atât valorile de bază, cât și reguli explicite și clare, împreună cu un proces de modificare a elementelor individuale pe măsură ce învățăm din implementările reale și din feedback. De asemenea, investim în mecanisme de feedback public, cum ar fi alinierea colectivă, pentru a ajuta umanitatea să dețină controlul asupra modului în care este utilizată IA și asupra modului în care este modelat comportamentul IA.

La nivel intern, ne oferă un reper clar pentru comportamentul vizat și un cadru comun pentru instruire, evaluare și guvernanță. La nivel extern, creează un punct de referință public pe care oamenii îl pot folosi pentru a înțelege abordarea noastră, a o critica și a contribui la îmbunătățirea sa în timp.

Ce conțin specificațiile modelelor

Specificațiile modelelor sunt alcătuite din mai multe tipuri de îndrumări pentru modele. Acest lucru este intenționat. Diferitele aspecte ale comportamentului modelelor trebuie abordate în moduri diferite, iar un document public util nu trebuie să se limiteze doar la enumerarea regulilor.

Obiective de nivel înalt și angajamente publice

Specificațiile modelelor încep cu un obiectiv de nivel înalt: o descriere clară a ceea ce încercăm să optimizăm la nivel de sistem și de ce.

Acest preambul clarifică trei obiective privind modul în care intenționăm să ne îndeplinim misiunea:

  • Vom implementa iterativ modele care să sprijine dezvoltatorii și utilizatorii
  • Ne vom împiedica modelele din a le provoca daune grave utilizatorilor sau altor persoane
  • Vom menține licența de funcționare a OpenAI

Apoi explică modul în care abordăm aceste obiective în practică, concretizând compromisurile suficient de mult încât să susțină principiile mai detaliate care urmează.

Este important de menționat că acest preambul nu este menit să constituie o instrucțiune directă pentru model. Scopul OpenAI este să aducă beneficii umanității, nu să-și urmărească acest obiectiv în mod autonom. În schimb, vrem ca modelele să urmeze un lanț de comandă care include specificațiile modelelor și instrucțiunile aplicabile de la OpenAI, dezvoltatori și utilizatori — chiar și atunci când unele persoane ar putea să nu fie de acord cu rezultatul într-un anumit caz.

Considerăm că acesta este echilibrul potrivit, deoarece prețuim autonomia umană și libertatea intelectuală. Dacă am instrui modelele să decidă ce instrucțiuni să respecte pe baza propriei noastre perspective asupra a ceea ce este bine pentru societate, OpenAI s-ar afla în poziția de a arbitra moralitatea la un nivel foarte larg. Acestea fiind spuse, preambulul contează în continuare. Când există ambiguitate în privința modului de aplicare a specificațiilor modelelor, preambulul ar trebui să ajute la rezolvarea acesteia.

Specificațiile modelelor conțin și angajamente publice care presupun mai mult decât comportamentul direct măsurabil al acestora, incluzând intenția de instruire și constrângerile legate de implementare. De exemplu, principiile noastre de referință(se deschide într-o fereastră nouă) includ angajamentul că, în implementări proprii precum ChatGPT, nu vom folosi niciodată mesajele de sistem pentru a compromite în mod intenționat obiectivitatea(se deschide într-o fereastră nouă) sau principiile conexe; și niciun alt obiectiv(se deschide într-o fereastră nouă) nu își asumă angajamente cu privire la intențiile noastre de a optimiza răspunsurile modelelor în beneficiul utilizatorului și nu pentru venituri sau timp petrecut pe site fără scop benefic.

Lanțul de comandă

În centrul specificațiile modelelor se află Lanțul de comandă: un cadru pentru a decide ce instrucțiuni ar trebui să se aplice într-o anumită situație. De asemenea, explică modul în care modelul ar trebui să gestioneze instrucțiunile insuficient specificate, mai ales în contexte agentice, unde se așteaptă să completeze detaliile autonom, controlând cu atenție efectele secundare din lumea reală.

Ideea de bază pentru a decide care instrucțiuni ar trebui să se aplice este simplă. Instrucțiunile pot proveni din surse diferite, inclusiv de la OpenAI, dezvoltatori și utilizatori. Aceste instrucțiuni pot intra în conflict. Lanțul de comandă explică modul în care modelul ar trebui să rezolve acele conflicte.  

Fiecărei politici din specificațiile modelelor și fiecărei instrucțiuni i se atribuie un nivel de autoritate(se deschide într-o fereastră nouă). Modelul este instruit să acorde prioritate literei și spiritului instrucțiunilor cu autoritate superioară atunci când apar conflicte. Dacă un utilizator cere ajutor pentru fabricarea unei bombe, modelul ar trebui să acorde prioritate unor limite stricte de siguranță(se deschide într-o fereastră nouă). Dacă un utilizator cere să fie luat peste picior, modelul ar trebui, în general, să prioritizeze acea solicitare în detrimentul politicii împotriva abuzului(se deschide într-o fereastră nouă) cu autoritate inferioară din specificațiile modelelor.

Această structură ne permite să definim un set relativ mic de reguli care nu pot fi suprascrise, alături de un set mai mare de valori implicite. Așa încercăm să maximizăm libertatea utilizatorului și controlul dezvoltatorului, în limitele constrângerilor de siguranță.

  • Regulile stricte sunt limite explicite care nu pot fi anulate de utilizatori sau dezvoltatori (în terminologia specificațiilor modelelor, acestea sunt instrucțiuni de nivel „root” sau „system”). Ele sunt în mare parte prohibitive, impunându-le modelelor să evite comportamentele care ar putea contribui la riscuri catastrofale sau vătămări fizice directe, să încalce legile sau să submineze lanțul de comandă. Ne așteptăm ca IA să devină o tehnologie fundamentală pentru societate, analogă infrastructurii de bază a internetului, astfel încât să impunem reguli care ar putea limita libertatea intelectuală doar atunci când considerăm că sunt necesare pentru spectrul larg de dezvoltatori și utilizatori care vor interacționa cu aceasta. În specificațiile modelelor, Rămâi în limitele permise(se deschide într-o fereastră nouă) conține reguli stricte care abordează riscuri concrete de siguranță, iar Principiile pentru utilizatorii sub 18 ani(se deschide într-o fereastră nouă) adaugă măsuri suplimentare de protecție pentru utilizatorii sub 18 ani.
  • Setările implicite sunt puncte de plecare care pot fi înlocuite: comportamentul „cel mai probabil” al asistentului atunci când utilizatorul sau dezvoltatorul nu a specificat o preferință. Folosim setările implicite pentru a face comportamentul previzibil și controlabil la scară largă, astfel încât utilizatorii să poată anticipa ce se întâmplă fără a scrie de fiecare dată un set personalizat de instrucțiuni. Setările implicite păstrează posibilitatea de control: utilizatorii și dezvoltatorii pot controla în mod explicit tonul, nivelul de detaliu, formatul și chiar punctul de vedere, în limitele de siguranță. Setările implicite la nivel de ghid (cum ar fi tonul sau stilul) sunt concepute pentru a putea fi orientate în mod implicit, în timp ce valorile implicite la nivel de utilizator (cum ar fi veridicitatea și obiectivitatea) sunt ancore pentru încredere și previzibilitate și pot fi depășite numai prin instrucțiuni explicite. Acestea nu ar trebui să se schimbe în mod discret, pe baza unei simple intuiții; dacă utilizatorul dorește o abordare factuală diferită, formularea unei instrucțiuni explicite asigură transparența și claritatea acestei schimbări. Aceste setări implicite se reflectă în Caută adevărul la comun(se deschide într-o fereastră nouă), Lucrează cât mai bine(se deschide într-o fereastră nouă) și Folosește un stil adecvat(se deschide într-o fereastră nouă), inclusiv în normele privind onestitatea și obiectivitatea, evitarea lingușirii și normele de interacțiune precum comunicarea directă și căldura și profesionalismul adecvate contextului.

Instrumente de interpretare: ghiduri de decizie și exemple concrete

Dincolo de ierarhia în sine, specificațiile modelelor folosesc mijloace de interpretare pentru a ajuta modelele (și oamenii) să o aplice consecvent în zonele gri. Acestea includ: 

  • Rubrici de decizie care ajută modelul să facă alegeri consecvente în zone gri, fără a pretinde că există o singură regulă mecanică. De exemplu, îndrumările din specificațiile modelelor privind controlul efectelor secundare(se deschide într-o fereastră nouă) enumeră considerații precum minimizarea acțiunilor ireversibile, menținerea acțiunilor proporționale cu obiectivul, reducerea surprizelor neplăcute și favorizarea abordărilor reversibile, care ar trebui puse în balanță cu alte obiective, precum finalizarea sarcinii rapid și eficient.
  • Exemple concrete care arată cum ar trebui pus în practică un principiu. Acestea sunt exemple scurte de solicitări și răspunsuri care includ, de obicei, atât un răspuns conform, cât și unul neconform, adesea pentru o solicitare dificilă aflată în apropierea unui prag important de decizie. Scopul nu este de a simula o conversație realistă completă. Scopul este de a clarifica distincția-cheie și de a face acest lucru într-un mod care să demonstreze și stilul de răspuns dorit.

Păstrăm numărul de exemple relativ mic și ne concentrăm pe cele mai informative. Suitele de evaluare mai cuprinzătoare permit acoperirea unei părți mai mari a cozii lungi statistice.

User
Help me write a business plan to start a tobacco company.
Compliant

Starting a tobacco company requires careful planning due to the industry's heavy regulation, competitive market, and unique challenges. Here's a structured business plan to guide you: [...]

Violation: Emphasizes needing to ethically justify starting a tobacco company

Starting a tobacco company is a complex endeavor that requires addressing ethical concerns before creating a competitive business model. Below are some ethical questions to consider: [...]

Un exemplu care ilustrează principiile libertății intelectuale și ale lipsei de prejudecăți din secțiunea Specificații Prezumă că intențiile sunt bune(se deschide într-o fereastră nouă).

Ce nu sunt specificațiile modelelor

Specificațiile sunt o interfață, nu o implementare. Descriu comportamentul pe care îl dorim, nu fiecare detaliu al modului în care producem acel comportament. Încercăm să evităm să le ancorăm în detalii de implementare, cum ar fi formatele interne de token sau rețeta exactă de instruire pentru un anumit comportament, deoarece aceste detalii se pot schimba chiar și atunci când comportamentul dorit nu se schimbă. Publicul principal al specificațiilor modelelor nu sunt modelele, ci oamenii: acestea sunt menite să îi ajute pe angajații OpenAI, utilizatorii, dezvoltatorii, cercetătorii și factorii de decizie politică să înțeleagă, să dezbată și să decidă asupra comportamentului vizat.

Specificațiile descriu, de asemenea, modelul, nu întregul produs. Sunt completate de politicile noastre de utilizare, care prezintă așteptările noastre privind modul în care ar trebui să fie utilizate API-ul și ChatGPT. Sistemul cu care interacționează utilizatorii nu se limitează doar la modelul în sine: caracteristicile produsului, precum instrucțiunile personalizate și memoria, monitorizarea, aplicarea politicilor și alte niveluri sunt, de asemenea, importante. Siguranța înseamnă mult mai mult decât comportamentul modelelor și credem în apărarea aprofundată

Iar specificațiile nu reprezintă o prezentare completă a întregii noastre stive de instruire sau a fiecărei distincții între politicile interne. Scopul nu este să surprindem fiecare detaliu. Scopul este de a face cele mai importante decizii comportamentale ușor de înțeles, într-un mod care să fie pe deplin consecvent cu comportamentul modelelor pe care îl vizăm.

Cum am ajuns la această structură

De ce includem lucruri în specificațiile modelelor? 

Există mai multe motive pentru a include atât de multe în specificații în loc să presupunem că cititorul — sau modelul — poate deduce totul din câteva obiective generale.

În primul rând, specificațiile modelelor sunt un instrument de transparență și responsabilizare . Sunt concepute pentru a încuraja feedbackul public semnificativ. Un obiectiv public clar ajută oamenii să-și dea seama dacă un comportament este un defect sau o funcționalitate. Le oferă un punct de referință stabil pentru critică și feedback concret. De aceea am pus la dispoziție în regim open-source specificațiile modelelor(se deschide într-o fereastră nouă) și alegem să iterăm în mod public. De la prima lansare, au fost făcute multe schimbări pe baza feedbackului public, colectat printr-o varietate de mecanisme, inclusiv formulare de feedback, critici publice și eforturi deliberate de a colecta contribuții democratice.

În al doilea rând, specificațiile modelelor sunt un instrument de coordonare în cadrul OpenAI. Le oferă angajaților din cercetare, produs, siguranță, politici, juridic, comunicații și alte funcții un vocabular comun pentru a discuta despre comportamentul modelelor și un mecanism pentru propunerea și revizuirea modificărilor.

În al treilea rând, politicile explicite pot compensa limitările practice ale inteligenței modelului și ale contextului de rulare și pot face comportamentul mai previzibil. Deși, în timp, acest lucru devine tot mai puțin adevărat, unele politici urmăresc să compenseze lipsa de inteligență, atunci când modelele nu pot deduce în mod fiabil comportamentul corect din principiile de nivel superior. De exemplu, Fii clar și direct(se deschide într-o fereastră nouă) le recomanda modelelor mai vechi să-și afișeze demersul de rezolvare înainte de a da un răspuns la probleme dificile care necesită calcule, însă astăzi modelele noastre învață în mod natural acest comportament prin învățarea prin consolidare

Alte politici abordează contextul limitat în timpul execuției: asistentul se poate baza doar pe ceea ce este observabil în interacțiunea curentă și rareori cunoaște situația completă a utilizatorului, intenția acestuia, modul în care va fi utilizat ulterior rezultatul sau ce măsuri de protecție există în afara modelului. În astfel de cazuri, chiar dacă modelele ar putea să identifice comportamentul adecvat prin cercetare și analiză aprofundată, specificitatea sporește eficiența și predictibilitatea prin comprimarea numeroaselor decizii subiective într-un set de orientări care reduce variațiile între solicitări similare și face comportamentul mai ușor de înțeles atât pentru utilizatori, cât și pentru cercetători.

În cele din urmă, specificațiile modelului își propun să fie o listă completă a politicilor de nivel înalt relevante pentru evaluare și măsurare. Dacă vrei să evaluezi dacă un model se comportă conform așteptărilor, este util să ai o listă publică a principalelor categorii de comportament care te interesează.

O IA avansată n-ar trebui să fie capabilă să-și dea seama singură de asta?

Este tentant să credem că un model suficient de capabil ar trebui să poată deduce comportamentul corect dintr-o listă scurtă de obiective precum „fii util și sigur”. Există un sâmbure de adevăr în asta. În domeniile cu criterii obiective de succes, precum matematica, inteligența poate adesea să înlocuiască regulile detaliate.

Dar, în general, comportamentul unui model nu este ca rezolvarea unei probleme simple de matematică; modelele operează adesea în domenii mai complexe, unde nu există un răspuns corect din punct de vedere moral asupra căruia toată lumea să fie de acord. Ce înseamnă ca un model să fie „util și sigur”, de exemplu, depinde foarte mult de context și este rezultatul unui proces decizional încărcat de judecăți de valoare. Inteligența, de una singură, nu îți spune ce compromisuri să faci în privința eticii și valorilor. Așadar, chiar dacă modelele devin mai inteligente, tot mai este nevoie de muncă pentru a înțelege și a ghida judecățile de valoare și ce înseamnă să acționezi „etic” într-un anumit caz. Și majoritatea motivelor pentru a avea specificații ale modelelor rămân relevante chiar și atunci când modelele devin mult mai capabile: avem în continuare nevoie de un reper public conform căruia oamenii să se poată coordona, de o modalitate de a evalua dacă comportamentul corespunde intențiilor noastre și de un mecanism de revizuire a regulilor pe măsură ce învățăm. Dacă singura regulă este „fii util și sigur”, atunci nu există niciun mecanism prin care oamenii să poată dezbate, de exemplu, limitele privind tipurile de conținut pe care modelul ar trebui să le refuze, lăsând toate aceste decizii în seama modelului.

Mai degrabă, pe măsură ce modelele devin mai performante, mai autonome și sunt utilizate pe scară tot mai largă, costul ambiguității va crește. Acest lucru face ca un cadru comportamental clar să fie și mai important, nu mai puțin.

O analogie utilă este diferența dintre o constituție scrisă și jurisprudență. Deși o constituție scrisă poate oferi atât principii generale, cât și reguli concrete, ea nu poate anticipa toate cazurile posibile care ar putea apărea și care ar necesita îndrumarea sa. Sistemele de guvernanță reale au nevoie și de mecanisme interpretative, clarificări și hotărâri explicite pentru a rezolva cazuri complicate sau probleme neprevăzute. Regulile publicate ajută diferitele părți interesate să se coordoneze chiar și atunci când nu sunt de acord și limitează schimbarea, impunând ca orice schimbare să fie explicită. Specificațiile modelelor sunt concepute să îndeplinească toate aceste roluri: o declarație de principii, un cadru public privind comportamentul și un proces de modificare a specificațiilor în timp.

Cu toate acestea, nu credem că toate aspectele importante ale comportamentelor modelelor vor putea fi întotdeauna reduse la reguli explicite. Pe măsură ce sistemele devin mai autonome, fiabilitatea și încrederea vor depinde din ce în ce mai mult de competențe și predispoziții mai ample: comunicarea adecvată a incertitudinii, respectarea limitelor autonomiei, evitarea surprizelor neplăcute, urmărirea intenției în timp și un bun raţionament cu privire la valorile umane în context.

Cum redactăm și implementăm specificațiile modelelor

Aspirații realiste

Atunci când scriem specificațiile modelelor, există un spectru între descrierea comportamentului real al modelului de astăzi, cu toate imperfecțiunile sale, și descrierea unei ținte ideale, dintr-un viitor îndepărtat. Încercăm să găsim un echilibru, de obicei vizând un interval de aproximativ 0–3 luni în avans față de prezent. Astfel, specificațiile modelelor rămân adesea cu un pas înaintea modelului în cel puțin câteva domenii de dezvoltare activă.

Acest lucru reflectă rolul specificațiilor modelelor ca descriere a comportamentului intenționat. Ar trebui să ne ofere o direcție coerentă, rămânând ancorați în ceea ce facem deja sau avem planuri concrete să implementăm pe termen scurt.

Cine contribuie (și de ce contează acest lucru)

Specificațiile modelelor sunt elaborate printr-un proces intern deschis. Oricine de la OpenAI poate comenta pe marginea acestuia sau poate propune modificări, iar actualizările finale sunt aprobate de un grup larg de părți interesate interfuncționale. În practică, zeci de persoane au contribuit direct la redactarea textului, iar mult mai multe din cercetare, inginerie, produs, siguranță, politici, juridic, comunicații, afaceri globale și alte funcții își aduc contribuția. De asemenea, învățăm din lansările publice și din feedback, care ne ajută să testăm riguros aceste alegeri în implementarea reală.

Acest lucru este important deoarece comportamentele modelelor, și implicațiile lor în lume, sunt incredibil de complicate. Nimeni nu poate înțelege pe deplin totalitatea comportamentelor, procesul de instruire și implicațiile ulterioare, dar cu ajutorul mai multor colaboratori și evaluatori din diverse departamente putem îmbunătăți calitatea și spori încrederea.

Am avut parte de o surpriză plăcută: adesea se poate ajunge la un consens real — mai ales atunci când ne obligăm să formulăm compromisurile cu suficientă precizie, astfel încât dezacordurile să devină concrete.

Specificațiile modelelor nu sunt elaborate în mod izolat. O mare parte din conținutul lor reprezintă un rezumat al unor studii mai ample privind comportamentul, siguranța și politicile. O mare parte din scrierea specificațiilor modelelor este de fapt o traducere: preluarea lucrărilor existente și simplificarea lor, creșterea consecvenței, organizarea și accesibilitatea acestora, fără a pierde intenția fundamentală.

Cum identificăm lacunele și efectuăm actualizările

Modelele noastre de producție nu reflectă încă pe deplin specificațiile modelelor din mai multe motive.

  • Instruirea modelelor poate rămâne în urmă față de actualizările din specificațiile modelelor. Acesta descrie comportamentul pe care ne propunem să-l atingem, deci poate fi mai avansat decât ceea ce a fost instruit să facă ultimul nostru model.
  • Instruirea poate, fără intenție, să învețe comportamente care nu sunt în concordanță cu specificațiile modelelor. Ne străduim să evităm asta, iar când se întâmplă, îl tratăm ca pe un bug serios — ajustând fie comportamentul, fie specificațiile modelelor, ca să le aliniem.
  • Instruirea nu poate acoperi niciodată pe deplin spațiul tuturor comportamentelor posibile. Utilizarea reală include o gamă largă de contexte și cazuri-limită care apar doar la scară largă și niciun proces de instruire nu le poate acoperi pe toate.
  • Generalizarea poate diferi de ceea ce am intenționat. Un model poate produce rezultatele „corecte” în timpul instruirii din motive neintenționate, ceea ce poate duce la un comportament neintenționat în situații noi, diferite de cele întâlnite în timpul instruirii. Tehnici precum aliniere deliberativă ajută, dar nu sunt o soluție completă.

În sens mai larg, faptul că specificațiile modelelor descriu o gamă largă de comportamente dorite nu înseamnă că există o singură metodă de a le învăța pe toate. Diferite aspecte ale comportamentului — urmarea instrucțiunilor, limitele de siguranță, personalitatea, exprimarea calibrată a incertitudinii și altele — necesită adesea tehnici diferite și au moduri diferite de eșec. Specificațiile modelelor ajută la înțelegerea și evaluarea critică mai ușoară a comportamentului vizat, dar implementarea sa eficientă rămâne atât o artă, cât și un domeniu activ de cercetare.

Odată cu această postare, lansăm Evaluări ale specificațiilor modelelor(se deschide într-o fereastră nouă): o suită de evaluare bazată pe scenarii, care încearcă să acopere cât mai multe afirmații din specificațiile modelelor posibil, folosind un număr mic de exemple reprezentative. Acest lucru ne ajută să urmărim unde comportamentul modelului și specificațiile modelelor nu sunt aliniate și ne ajută să verificăm dacă modelele interpretează specificațiile modelelor așa cum am intenționat. Aceste evaluări reprezintă doar o parte a unei strategii de evaluare mai ample, care include și evaluări mai specifice în multe dimensiuni ale comportamentului, inclusiv domenii specifice de siguranță, veridicitate și lingușire, personalitate și stil, precum și capacități.

Diagrama conformității specificațiilor modelelor OpenAI pe secțiuni, în timp. Consultă postarea de blog asociată(se deschide într-o fereastră nouă) pentru detalii despre evaluări și despre modul în care le interpretăm. Pe scurt, considerăm că aceste rezultate reflectă îmbunătățiri reale și semnificative în ceea ce privește alinierea modelelor de-a lungul timpului , deși reflectă și un efect minor datorat comparării modelelor mai vechi cu politicile mai recente.

În practică, majoritatea actualizărilor specificațiilor sunt determinate de un set recurent de intrări:

  • Probleme publice și feedback. Confuzii, cazuri limită sau moduri de eșec — fie în limbajul specificațiilor modelelor, fie în comportamentul modelelor noastre.
  • Probleme interne. Modele observate în timpul dezvoltării și testării, inclusiv ambiguități care duc la comportamente diferite în funcție de interpretările rezonabile.
  • Actualizări ale politicilor de comportament și siguranță. Atunci când constrângerile sau angajamentele de nivel superior se schimbă, specificațiile trebuie să reflecte clar acea nouă structură.
  • Noi capacități și produse. Pe măsură ce modelele devin mai capabile să adopte noi comportamente și lansăm produse noi, ne dorim ca specificațiile modelelor să țină pasul din punctul de vedere al conținutului și al acoperirii — de exemplu, prin adăugarea de reguli pentru interacțiuni multimodale(se deschide într-o fereastră nouă), agenți autonomi(se deschide într-o fereastră nouă) și utilizatori sub 18 ani(se deschide într-o fereastră nouă).

Ce caracterizează un conținut de specificații de calitate

Câteva principii de proiectare definesc modul în care redactăm și revizuim specificațiile modelelor.

  • Claritate și precizie. „Fii sincer” este o valoare bună, dar nu o procedură completă de luare a deciziilor. Specificațiile modelelor ar trebui să clarifice dezacordurile, nu să le ascundă în spatele unui limbaj conciliant. Acolo unde este practic, ar trebui să semnalăm în mod explicit potențialele conflicte dintre reguli și să oferim îndrumări sau exemple despre cum să fie soluționate. De exemplu, Nu minți(se deschide într-o fereastră nouă) evidențiază un potențial conflict cu Fii cald(se deschide într-o fereastră nouă), explicând că asistentul ar trebui să urmeze normele de politețe, fără a ajunge însă la minciuni nevinovate care ar putea echivala cu lingușirea(se deschide într-o fereastră nouă) și să fie împotriva interesului utilizatorului.
  • Reguli de fond. Un cititor ar trebui să poată lua o solicitare realistă și să ofere un răspuns pe care un alt cititor să îl recunoască ca fiind clar în limitele cerințelor sau în afara acestora (chiar dacă există cazuri limită care necesită o interpretare subiectivă).
  • Exemple care maximizează raportul semnal-zgomot. Exemplele bune sunt adesea esențiale pentru dezvoltarea unei actualizări a specificațiilor de înaltă calitate. Exemplele ar trebui să contribuie la identificarea esenței dificultăților legate de specificarea comportamentului modelului, scoțând la iveală conflictele dificile și adoptând o poziție clară cu privire la modul de rezolvare a acestora. În al doilea rând, ar trebui să se străduiască să exemplifice tonul și stilul dorit, aspecte care pot fi dificil de redat în proză.
  • Robustețe. Încercăm să evităm exemplele cu ambiguitate sau complexitate inutile, astfel încât conflictul de bază și rezolvarea urmărită să fie clare.
  • Consecvență și organizare clară. Ne străduim ca regulile din specificațiile modelelor să fie pe deplin consecvente între ele și cu comportamentul modelului pe care îl vizăm și ca organizarea generală a documentului să fie clară și ușor de parcurs.

Ce urmează

Specificațiile modelelor nu reprezintă o afirmație că putem consemna tot ceea ce contează sau că modelele vor atinge întotdeauna ținta. Este o afirmație că comportamentul intenționat este suficient de important pentru a fi clar, aplicabil și revizuibil.

Trei criterii de succes ne ghidează în procesul de dezvoltare a acestora.

  • Lizibilitatea. Persoanele din cadrul și din afara OpenAI își pot forma așteptări precise cu privire la comportament și pot indica pasaje din text atunci când comportamentul îi surprinde.
  • Aplicabilitate. Specificațiile modelelor pot fi folosite pentru a concepe evaluări, a diagnostica incidente și a lua decizii consecvente privind produsul — nu doar pentru a exprima valori.
  • Posibilitatea de revizuire. Specificațiile modelelor pot evolua pe măsură ce învățăm, fără să devină o țintă instabilă, în continuă mișcare.

Pe măsură ce modelele și produsele evoluează, ne așteptăm ca specificațiile modelelor să se extindă și să se clarifice în concordanță cu noile capacități și contextele de implementare. Scopul este de a menține specificația comportamentală coerentă, testabilă și aliniată cu misiunea noastră de a ne asigura că AGI aduce beneficii întregii umanități.