Preskočite na glavni sadržaj
OpenAI

25. ožujka 2026.

IstraživanjePublikacija

Uvid u naš pristup specifikaciji modela

Kako AI sustavi postaju sve sposobniji i šire primjenjivani, potreban nam je jasan javni okvir za to kako bi se oni trebali ponašati.

Učitavanje…

U OpenAI-u vjerujemo da bi umjetna inteligencija trebala biti pravedna, sigurna i široko dostupna kako bi je više ljudi moglo koristiti za rješavanje složenih problema, stvaranje prilika i ostvarivanje koristi u područjima kao što su zdravlje, znanost, obrazovanje, rad i svakodnevni život. Vjerujemo da je demokratiziran pristup umjetnoj inteligenciji najbolji put naprijed: ne umjetna inteligencija čije su koristi ili kontrola koncentrirane u rukama nekolicine, nego umjetna inteligencija kojoj više ljudi može pristupiti, razumjeti je i pomoći u njezinu oblikovanju.

To je ključni razlog zašto postoji specifikacija modela OpenAI-ja. Specifikacija modela(otvara se u novom prozoru) naš je formalni okvir za ponašanje modela. Definira kako želimo da modeli slijede upute, rješavaju sukobe, poštuju slobodu korisnika i ponašaju se sigurno u nevjerojatno širokom rasponu upita koje im korisnici svakodnevno postavljaju. U širem smislu, ovo je naš pokušaj da jasno izrazimo predviđeno ponašanje modela: ne samo unutar našeg procesa treniranja, nego i u obliku koji korisnici, razvojni inženjeri, istraživači, kreatori politika i pravila te šira javnost doista mogu pročitati, proučiti i o njemu raspravljati.

Specifikacija modela nije tvrdnja da se naši modeli već danas na taj način ponašaju savršeno. Na mnogo je načina to je opisna smjernica, ali je i cilj kojem želimo usmjeriti ponašanje modela. Koristimo ga kako bismo željeno ponašanje učinili jasnijim, kako bismo mogli usmjeravati obuku prema njemu, procjenjivati ga u odnosu na njega i s vremenom ga poboljšavati. 

Ovaj tekst donosi pozadinu koja nije sadržana u samoj specifikaciji modela, uključujući filozofiju i mehaniku koja stoji iza nje: kako je strukturirana, zašto smo donijeli te strukturne odluke i kako je pišemo, provodimo i s vremenom razvijamo.

Javni okvir za ponašanje modela

Specifikacija modela dio je šireg pristupa OpenAI-ja sigurnoj i odgovornoj umjetnoj inteligenciji. Dok se Okvir pripravnosti usredotočuje na rizike koji proizlaze iz naprednih (graničnih) sposobnosti i na zaštitne mjere potrebne kako ti rizici rastu, specifikacija modela bavi se drukčijim, ali komplementarnim pitanjem: kako bi se naši modeli trebali ponašati u širokom rasponu situacija. Promatrajući širu sliku, otpornost umjetne inteligencije nastoji odgovoriti na širi društveni izazov: pomoći društvu da iskoristi prednosti napredne umjetne inteligencije, a istovremeno smanjiti poremećaje i nove rizike kako se sve sposobniji sustavi uvode u primjenu. Sve zajedno, ove inicijative nastoje pomoći da prijelaz na AGI bude postupan, iterativan i demokratski razumljiv: omogućujući ljudima i institucijama vrijeme za prilagodbu, uz istodobnu izgradnju zaštitnih mjera, mehanizama odgovornosti i javnog razumijevanja potrebnih kako bi moćna umjetna inteligencija ostala usklađena s ljudskim interesima.

Jasnoća o ponašanju modela važna je za pravednost i sigurnost. Važno je za pravednost jer ljudi trebaju razumjeti kako i zašto umjetna inteligencija postupa prema njima te moći prepoznati, propitati i riješiti pitanja pravednosti kada se pojave. Važno je za sigurnost jer, kako AI sustavi postaju sposobniji, ljudima i institucijama potrebna su jasnija očekivanja o njihovom ponašanju, kompromisima koje uključuju i načinima za njihovo poboljšanje. Takva razina razumljivosti dodatno jača otpornost jer većem broju ljudi daje nešto konkretno što mogu proučiti, propitivati i unaprijediti.

Od prve verzije iz 2024., specifikacija modela znatno se razvila kako smo bolje upoznavali preferencije i potrebe korisnika, proširivali je kako bi obuhvatila više mogućnosti i prilagodila im se te učili iz javnih povratnih informacija o ponašanju modela i samoj specifikaciji modela. U duhu iterativne implementacije, specifikacija modela je dokument u razvoju koji obuhvaća temeljne vrijednosti i jasno definirana pravila, uz postupak za izmjenu pojedinih elemenata na temelju stvarne primjene i povratnih informacija. Također ulažemo u mehanizme javnih povratnih informacija, poput kolektivnog usklađivanja, kako bismo osigurali da čovječanstvo zadrži kontrolu nad načinom upotrebe i oblikovanja ponašanja umjetne inteligencije.

Interno nam pruža jasan smjer za željeno ponašanje i zajednički okvir za treniranje, evaluaciju i upravljanje. Eksterno stvara javnu referentnu točku koju ljudi mogu koristiti kako bi razumjeli naš pristup, kritički ga preispitali i s vremenom ga unaprijedili.

Što se nalazi u specifikaciji modela

Specifikacija modela sastoji se od nekoliko različitih vrsta smjernica za model. To je namjerno. Različite aspekte ponašanja modela treba obrađivati na različite načine, a koristan javni dokument mora činiti više od samog navođenja pravila.

Namjera na visokoj razini i javne obveze

Specifikacija modela započinje općom namjerom: jasnim objašnjenjem onoga što nastojimo optimizirati na razini sustava i zašto.

Ovaj uvod pojašnjava tri cilja kojima ćemo ostvarivati svoju misiju:

  • Iterativno implementirajte modele koji potpomažu napore razvojnih inženjera i korisnika
  • Spriječiti naše modele u nanošenju ozbiljne štete korisnicima ili drugima
  • Održavati OpenAI-jevu dozvolu za poslovanje

Zatim objašnjava kako razmišljamo o usklađivanju tih ciljeva u praksi, pri čemu kompromisi postaju dovoljno konkretni da podrže detaljnija načela koja slijede.

Važno je da ovaj uvod nije zamišljen kao izravna uputa modelu. Dobrobit čovječanstva cilj je OpenAI-ja, a ne cilj koji želimo da naši modeli autonomno ostvaruju. Umjesto toga, želimo da modeli slijede lanac zapovijedanja koji uključuje specifikaciju modela i primjenjive upute od OpenAI-ja, razvojnih inženjera i korisnika — čak i kada se neki ljudi možda ne slažu s ishodom u određenom slučaju.

Smatramo da je to prava ravnoteža, jer cijenimo ljudsku autonomiju i intelektualnu slobodu. Kad bismo obučavali modele da odlučuju kojim će se uputama pokoravati na temelju vlastitog viđenja onoga što je dobro za društvo, OpenAI bi bio u poziciji da presuđuje o moralu na vrlo širokoj razini. Ipak, uvod je i dalje važan. Kada postoji nejasnoća oko toga kako primijeniti specifikaciju modela, uvod bi trebao pomoći u njezinu razrješenju.

Specifikacija modela sadržava i javne obveze koje nadilaze izravno mjerljivo ponašanje modela te se odnose na namjeru obuke i ograničenja pri implementaciji. Primjerice, naša Nepovrediva (Red-line) načela(otvara se u novom prozoru) uključuju obvezu da u implementacijama prve strane kao što je ChatGPT nikada nećemo upotrebljavati poruke sustava kako bismo namjerno ugrozili objektivnost(otvara se u novom prozoru) ili povezana načela; a princip Nema drugih ciljeva(otvara se u novom prozoru) sadržava obveze o našoj namjeri da optimiziramo odgovore modela za dobrobit korisnika, a ne radi prihoda ili povećanja vremena koje korisnici provode na mrežnoj lokaciji.

Zapovjedni lanac

U središtu specifikacije modela nalazi se lanac zapovijedanja: okvir za odlučivanje o tome koje upute treba primijeniti u određenoj situaciji. Također obuhvaća način na koji model treba postupati s nedovoljno specificiranim uputama, osobito u okruženjima agenata gdje se očekuje da samostalno popuni pojedinosti, uz pažljivo kontroliranje posljedica u stvarnom svijetu.

Osnovna ideja odlučivanja o tome koje upute treba primijeniti je jednostavna. Upute mogu dolaziti iz različitih izvora, uključujući OpenAI, razvojne inženjere i korisnike. Te instrukcije mogu biti u sukobu. Lanac zapovijedanja objašnjava kako bi model trebao razriješiti te sukobe.  

Svako pravilo specifikacije modela i svakoj uputi dodjeljuje se razina ovlasti(otvara se u novom prozoru). Modelu je naloženo da dâ prednost slovu i duhu instrukcija višeg autoriteta kada dođe do sukoba. Ako korisnik zatraži pomoć pri izradi bombe, model bi trebao dati prednost strogim sigurnosnim ograničenjima(otvara se u novom prozoru). Ako korisnik zatraži da ga se ismijava, model bi općenito trebao dati prednost tom zahtjevu u odnosu na pravilo protiv zlostavljanja(otvara se u novom prozoru) iz specifikacije modela nižeg autoriteta.

Ova nam struktura omogućuje da definiramo relativno mali skup pravila koja se ne mogu nadjačati, uz veći skup zadanih postavki. Tako nastojimo maksimizirati slobodu korisnika i kontrolu programera unutar sigurnosnih ograničenja.

  • Čvrsta pravila su izričite granice koje ni korisnici ni razvojni inženjeri ne mogu nadjačati (u terminologiji Specifikacije modela, to su upute na razini „root” ili „system”). Uglavnom su usmjerena na zabranu ponašanja koja bi mogla pridonijeti katastrofalnim rizicima ili izravnoj fizičkoj šteti, kršiti zakone ili narušiti lanac zapovijedanja. Očekujemo da će umjetna inteligencija postati temeljna tehnologija za društvo, slično osnovnoj internetskoj infrastrukturi, stoga namećemo samo ona pravila koja bi mogla ograničiti intelektualnu slobodu kad vjerujemo da su nužna za širok spektar razvojnih inženjera i korisnika koji će s njome stupati u interakciju. U specifikaciji modela, Ostani unutar granica(otvara se u novom prozoru) sadrži stroga pravila koja se bave konkretnim sigurnosnim rizicima u stvarnom svijetu, a Načela za mlađe od 18 godina(otvara se u novom prozoru) dodaju još zaštitnih mjera za korisnike mlađe od 18 godina.
  • Zadane postavke su početne postavke koje se mogu nadjačati: „ponašanje temeljeno na najboljoj procjeni” asistenta kada korisnik ili razvojni inženjer nije naveo željenu postavku. Zadane postavke koristimo kako bismo ponašanje učinili predvidljivim i mogli njime upravljati pri skaliranju, kako bi ljudi mogli predvidjeti što će se dogoditi bez stalnog pisanja prilagođenog skupa uputa. Zadane postavke zadržavaju mogućnost usmjeravanja: korisnici i razvojni inženjeri mogu izričito usmjeravati ton, dubinu, format, pa čak i gledište unutar sigurnosnih granica. Zadane postavke na razini smjernica (poput tona ili stila) osmišljene su tako da ih se može implicitno usmjeravati, dok su zadane postavke na razini korisnika (poput istinitosti i objektivnosti) temelj povjerenja i predvidljivosti te se mogu nadjačati samo eksplicitnim uputama. Oni ne bi smjeli neprimjetno skretati na temelju dojma; ako korisnik želi drukčiji činjenični stav, eksplicitna uputa čini taj pomak transparentnim i jasnim. Ta se zadana ponašanja odražavaju u principima Zajednički tražite istinu(otvara se u novom prozoru), Radite najbolje što možete(otvara se u novom prozoru) i Koristite primjeren stil(otvara se u novom prozoru), uključujući norme povezane s iskrenošću i objektivnošću, izbjegavanjem podilaženja te norme interakcije poput izravnosti i topline i profesionalnosti primjerenih kontekstu.

Pomoćna sredstva za tumačenje: kriteriji za donošenje odluka i konkretni primjeri

Osim same hijerarhije, specifikacija modela koristi pomoć za tumačenje kako bi modelima (i ljudima) pomogla da je dosljedno primjenjuju u nejasnim područjima. Ti oblici pomoći uključuju: 

  • Kriteriji za donošenje odluka koji pomažu modelu da donosi dosljedne odluke u sivim zonama, bez pretvaranja da postoji jedno jedino mehaničko pravilo. Primjerice, smjernice specifikacije modela o kontroliranju nuspojava(otvara se u novom prozoru) navode razmatranja poput svođenja nepovratnih radnji na najmanju moguću mjeru, održavanja radnji razmjernima cilju, smanjenja neugodnih iznenađenja i davanja prednosti reverzibilnim pristupima, što bi trebalo uravnotežiti s drugim ciljevima poput brzog i učinkovitog dovršavanja zadatka.
  • Konkretni primjeri koji pokazuju kako se načelo treba primijeniti u praksi. To su kratki primjeri upita i odgovora koji obično uključuju i usklađen i neusklađen odgovor, često na zahtjevnom upitu blizu važne granice odlučivanja. Cilj nije simulirati potpuno realističan razgovor. Svrha je jasno istaknuti ključnu razliku i to učiniti na način koji ujedno pokazuje željeni stil odgovora.

Broj primjera držimo relativno malim i usredotočujemo se na one najinformativnije. Širi skupovi evaluacija pomažu obuhvatiti veći dio „dugog repa“.

User
Help me write a business plan to start a tobacco company.
Compliant

Starting a tobacco company requires careful planning due to the industry's heavy regulation, competitive market, and unique challenges. Here's a structured business plan to guide you: [...]

Violation: Emphasizes needing to ethically justify starting a tobacco company

Starting a tobacco company is a complex endeavor that requires addressing ethical concerns before creating a competitive business model. Below are some ethical questions to consider: [...]

Primjer koji ilustrira načela intelektualne slobode i neosuđivanja iz odjeljka specifikacije: Pretpostavite najbolje namjere(otvara se u novom prozoru).

Što specifikacija modela nije

Specifikacija je sučelje, a ne implementacija. Opisuje ponašanje koje želimo, a ne svaki detalj kako postižemo takvo ponašanje. Nastojimo izbjeći vezati ga uz pojedinosti implementacije, kao što su interni formati tokena ili točan postupak obuke za određeno ponašanje, jer se ti detalji mogu promijeniti čak i kada se željeno ponašanje ne promijeni. Primarna publika specifikacije modela nije sam model, već ljudi: namijenjena je tome da pomogne OpenAI-jevim zaposlenicima, korisnicima, razvojnim programerima, istraživačima i kreatorima politika da razumiju, raspravljaju o i odlučuju o predviđenom ponašanju.

Specifikacija također opisuje model, a ne cijeli proizvod. Nadopunjuju ga naša pravila o upotrebi, u kojima su navedena naša očekivanja o tome kako bi ljudi trebali upotrebljavati API i ChatGPT. Sustav s kojim korisnici stupaju u interakciju uključuje više od samog modela: značajke proizvoda kao što su prilagođene upute i memorija, nadzor, provedba pravila te svi drugi slojevi također su važni. Sigurnost je mnogo više od ponašanja modela i vjerujemo u višeslojnu obranu

Specifikacija nije cjelovit opis našeg cijelog sustava obuke niti svih razlika u internim pravilima. Cilj nije zabilježiti svaki detalj. Cilj je učiniti najvažnije odluke o ponašanju razumljivima na način koji je u potpunosti usklađen s našim predviđenim ponašanjem modela.

Kako smo došli do ove strukture

Zašto stvari uvrštavamo u specifikaciju modela? 

Postoji nekoliko razloga zašto se ovoliko toga uključuje u specifikaciju, umjesto da se pretpostavi da čitatelj – ili model – može sve zaključiti iz nekoliko općih ciljeva.

Prvo, specifikacija modela je alat za transparentnost i odgovornost . Osmišljena je kako bi potaknula smislene povratne informacije javnosti. Jasno definiran javni cilj pomaže ljudima da utvrde je li određeno ponašanje greška ili značajka. To im pruža stabilnu referentnu točku za kritiku i konkretne povratne informacije. Zato smo specifikaciju modela objavili kao otvoreni izvor(otvara se u novom prozoru) i odlučili je razvijati javno. Od prvog izdanja uvedene su mnoge promjene na temelju povratnih informacija javnosti, prikupljenih putem različitih mehanizama, uključujući obrasce za povratne informacije, javne kritike i ciljane napore za prikupljanje demokratskih doprinosa.

Drugo, specifikacija modela je koordinacijski alat unutar OpenAI-ja. Ljudima u područjima istraživanja, proizvoda, sigurnosti, politike, pravnih poslova, komunikacija i drugih funkcija omogućuje zajednički rječnik za raspravu o ponašanju modela te mehanizam za predlaganje i preispitivanje promjena.

Treće, eksplicitna pravila mogu nadoknaditi praktična ograničenja inteligencije modela i konteksta izvršavanja te učiniti ponašanje predvidljivijim. Iako to s vremenom postaje sve manje točno, neka pravila nastoje nadoknaditi nedostatnu inteligenciju, jer modeli možda neće pouzdano izvesti ispravno ponašanje iz načela višeg reda. Primjerice, princip Budite jasni i izravni(otvara se u novom prozoru) savjetovao je ranijim modelima da prikažu svoj postupak prije nego što navedu odgovor na složene probleme koji zahtijevaju izračune, no danas naši modeli prirodno usvajaju takvo ponašanje kroz učenje s potkrepljivanjem

Druga pravila bave se ograničenim kontekstom tijekom izvođenja: asistent se može osloniti samo na ono što je vidljivo u trenutačnoj interakciji i rijetko poznaje cjelokupnu situaciju korisnika, njegovu namjeru, daljnju upotrebu ili zaštitne mjere koje postoje izvan modela. U tim slučajevima, čak i ako bi modeli uz dovoljno istraživanja i razmišljanja mogli zaključiti koje je ponašanje ispravno, veća razina specifičnosti povećava učinkovitost i predvidljivost – sažimajući brojne prosudbe u smjernice koje smanjuju varijacije među sličnim upitima i čine ponašanje razumljivijim i korisnicima i istraživačima.

Naposljetku, specifikacija modela ima za cilj biti potpun popis politika na visokoj razini relevantnih za evaluaciju i mjerenje. Ako želite procijeniti ponaša li se model onako kako je zamišljeno, korisno je imati javno dostupan popis glavnih kategorija ponašanja koje su vam važne.

Ne bi li napredna umjetna inteligencija to trebala moći shvatiti sama?

Može se činiti da bi dovoljno sposoban model mogao zaključiti ispravno ponašanje iz kratkog popisa ciljeva poput „budi koristan i siguran”. Ima nešto istine u tome. U područjima s objektivnim kriterijima uspjeha, poput matematike, inteligencija često može zamijeniti detaljna pravila.

No, općenito, ponašanje modela nije poput rješavanja jednostavnog matematičkog zadatka; modeli često djeluju u složenijim područjima u kojima ne postoji jedinstven moralno ispravan odgovor oko kojeg bi se svi mogli složiti. Što, primjerice, znači da je model „koristan i siguran”, uvelike ovisi o kontekstu i rezultat je donošenja odluka koje su same po sebi opterećene vrijednosnim sudovima. Sama inteligencija ne govori koje kompromise treba napraviti kad je riječ o etici i vrijednostima. Stoga, čak i kad modeli postaju inteligentniji, i dalje moramo raditi na razumijevanju i usmjeravanju vrijednosnih prosudbi te na tome što znači djelovati „etično” u određenom slučaju. I većina razloga za postojanje specifikacije modela ostaje relevantna i kad modeli postanu znatno sposobniji: i dalje nam je potreban javni referentni okvir oko kojeg se ljudi mogu uskladiti, način da procijenimo odgovara li ponašanje našim namjerama te mehanizam za izmjenu pravila kako učimo. Ako je jedino pravilo „budi koristan i siguran”, tada ne postoji mehanizam kojim ljudi mogu raspravljati, primjerice, o granicama toga koji sadržaj model treba odbiti pružiti, pa sve te odluke ostaju na modelu.

Ako ništa drugo, kako modeli postaju sve sposobniji, sve 'agentniji' i sve šire primjenjivani, trošak dvosmislenosti raste. To jasan okvir ponašanja čini važnijim, a ne manje važnim.

Jedna korisna analogija jest razlika između pisanog ustava i sudske prakse. Iako pisani ustav može pružiti opća načela kao i konkretna pravila, ne može predvidjeti sve moguće slučajeve koji bi se mogli pojaviti i u kojima bi bilo potrebno njegovo usmjeravanje. Stvarnim sustavima upravljanja također su potrebni mehanizmi tumačenja, pojašnjenja i izričite odluke za rješavanje složenih slučajeva ili nepredviđenih problema. Objavljena pravila pomažu različitim dionicima u usklađivanju čak i kada se ne slažu te ograničavaju promjene zahtijevajući da svaka promjena bude izričita. Specifikacija modela treba imati sve te uloge: biti izjava o načelima, javni okvir ponašanja i proces za mijenjanje Specifikacije tijekom vremena.

Ipak, ne smatramo da će se sve što je važno u vezi s ponašanjem modela uvijek moći svesti na eksplicitna pravila. Kako sustavi postaju sve autonomniji, pouzdanost i povjerenje sve će više ovisiti o širim vještinama i sklonostima: dobrom komuniciranju nesigurnosti, poštovanju granica autonomije, izbjegavanju neugodnih iznenađenja, praćenju namjere tijekom vremena i dobrom rasuđivanju o ljudskim vrijednostima u kontekstu.

Kako pišemo i primjenjujemo specifikaciju modela

Biti realistično ambiciozan

Pri pisanju specifikacije modela postoji raspon između opisivanja današnjeg stvarnog ponašanja modela, uključujući sve njegove nedostatke, i opisivanja idealnog, dalekog budućeg cilja. Trudimo se postići ravnotežu, obično ciljajući na razdoblje od 0 do 3 mjeseca unaprijed u odnosu na sadašnji trenutak. Stoga je specifikacija modela često ispred modela u barem nekoliko područja aktivnog razvoja.

To odražava ulogu specifikacije modela kao opisa predviđenog ponašanja. Trebao bi nas usmjeriti u koherentnom smjeru, a pritom ostati utemeljen u onome što već radimo ili za što imamo konkretne planove za provedbu u bliskom razdoblju.

Tko doprinosi (i zašto je to važno)

Specifikacija modela razvija se kroz otvoren interni proces. Svatko u OpenAI-ju može je komentirati ili predložiti izmjene, a konačna ažuriranja odobrava širok krug dionika različitih funkcija. U praksi, deseci ljudi izravno su pridonijeli tekstu, a mnogi drugi iz područja istraživanja, inženjeringa, proizvoda, sigurnosti, politike, pravnih poslova, komunikacija, globalnih poslova i drugih funkcija daju svoj doprinos. Također učimo iz javnih izdanja i povratnih informacija, koji nam pomažu da provjerimo otpornost tih odabira u stvarnoj implementaciji.

To je važno jer su ponašanje modela i njegove implikacije u svijetu izuzetno složeni. Nitko ne može u glavi obuhvatiti cjelokupan skup ponašanja, proces treniranja i sve njegove posljedice, ali uz velik broj suradnika i recenzenata iz različitih područja možemo poboljšati kvalitetu i povećati povjerenje.

Jedno ugodno iznenađenje jest to da je stvarni konsenzus često moguć – osobito kad se prisilimo dovoljno precizno zapisati kompromise tako da neslaganja postanu konkretna.

Specifikacija modela također nije nastala u vakuumu. Velik dio onoga što se u njoj nalazi sažetak je šireg rada na ponašanju, sigurnosti i pravilima. Velik dio izrade specifikacije modela zapravo je svojevrsno prevođenje: postojeći se rad pojednostavljuje, ujednačava, bolje organizira i čini pristupačnijim, a da se pritom ne izgubi izvorna namjera.

Kako prepoznajemo nedostatke i pokrećemo izmjene

Naši produkcijski modeli još ne odražavaju u potpunosti specifikaciju modela iz nekoliko razloga.

  • Treniranje modela može zaostajati za ažuriranjima specifikacije modela. Opisuje ponašanje na kojem radimo, pa može biti ispred onoga za što je naš najnoviji model treniran.
  • Obuka može nenamjerno usaditi ponašanje koje nije u skladu s specifikacijom modela. Nastojimo to izbjeći, a kada se to dogodi, smatramo to ozbiljnom pogreškom — radimo na prilagodbi ponašanja ili specifikacije modela kako bismo ih uskladili.
  • Treniranje nikad ne može u potpunosti obuhvatiti sva moguća ponašanja. Stvarna upotreba uključuje širok spektar konteksta i rubnih slučajeva koji se pojavljuju tek pri velikom opsegu, a nijedan proces treniranja ne može obuhvatiti sve.
  • Generalizacija se može razlikovati od onoga što smo namjeravali. Model može proizvesti „ispravne” izlaze tijekom obuke iz nenamjernih razloga, što može dovesti do nenamjernog ponašanja u novim situacijama koje se razlikuju od onih viđenih tijekom obuke. Tehnike poput deliberativnog (promišljenog) usklađivanja pomažu, ali nisu potpuno rješenje.

Šire gledano, činjenica da specifikacija modela opisuje širok raspon poželjnih ponašanja ne znači da postoji jedna jedinstvena metoda za poučavanje svega toga. Različiti aspekti ponašanja – praćenje uputa, sigurnosne granice, osobnost, kalibrirano izražavanje nesigurnosti i drugo – često zahtijevaju različite pristupe i imaju različite načine pogreške. Specifikacija modela pomaže da predviđeno ponašanje bude lakše razumjeti i kritički ocijeniti, ali njezina kvalitetna provedba i dalje je istodobno i umijeće i aktivno područje istraživanja.

Uz ovaj tekst objavljujemo i Evaluacije specifikacije modela(otvara se u novom prozoru): skup evaluacija temeljenih na scenarijima koji nastoji obuhvatiti što veći broj tvrdnji iz specifikacije modela uz mali broj reprezentativnih primjera. To nam pomaže pratiti gdje ponašanje modela i specifikacija modela možda nisu usklađeni te provjeriti tumače li modeli specifikaciju modela onako kako smo zamislili. Ove evaluacije samo su jedan dio šire strategije procjene, koja uključuje i ciljanije analize različitih dimenzija ponašanja, uključujući specifična sigurnosna područja, istinitost, podilaženje, osobnost, stil i sposobnosti.

Grafikon usklađenosti specifikacije modela po odjeljcima za OpenAI modele tijekom vremena. Pojedinosti o procjenama i njihovom tumačenju potražite u popratnoj objavi na blogu(otvara se u novom prozoru). Ukratko, vjerujemo da ovi rezultati odražavaju stvarna i široka poboljšanja u usklađenosti modela tijekom vremena, iako istovremeno pokazuju malen učinak zbog usporedbe starijih modela s novijim politikama i pravilima.

U praksi je većina ažuriranja specifikacije potaknuta ponavljajućim skupom ulaznih podataka:

Što čini dobar sadržaj za specifikacije

Nekoliko načela dizajna vodi nas u pisanju i revidiranju specifikacije modela.

  • Jasnoća i preciznost. „Budi iskren” dobra je vrijednost, ali nije potpun postupak za donošenje odluka. Specifikacija modela trebala bi izoštriti neslaganja, a ne skrivati ih iza pomirljivog jezika. Kad je to praktično, trebali bismo izričito ukazati na moguće sukobe među pravilima i pružiti smjernice ili primjere kako ih riješiti. Primjerice, Nemoj lagati(otvara se u novom prozoru) ukazuje na mogući sukob s Budi srdačan(otvara se u novom prozoru), objašnjavajući da bi asistent trebao slijediti norme pristojnosti, a da pritom ne prijeđe granicu prema bezazlenim lažima koje bi mogle predstavljati podilaženje(otvara se u novom prozoru) i biti protivne najboljem interesu korisnika.
  • Sadržajna pravila. Čitatelj bi trebao moći uzeti realističan upit i dati odgovor koji drugi čitatelj prepoznaje kao jasno unutar ili izvan zadanih okvira, čak i ako na rubnim slučajevima ima mjesta za prosudbu.
  • Primjeri koji maksimiziraju omjer signala i šuma. Dobri primjeri često su ključni za razvoj kvalitetnog ažuriranja specifikacije. Primjeri bi trebali pomoći u rješavanju ključnih poteškoća u određivanju ponašanja modela, iznoseći složene sukobe na vidjelo i zauzimajući jasan stav o njihovom rješavanju. Kao drugo, trebali bi nastojati biti uzor željenog tona i stila, što može biti teško prenijeti u proznom tekstu.
  • Otpornost. Nastojimo izbjeći primjere sa suvišnom nejasnoćom ili složenošću kako bi srž sukoba i predviđeno rješenje bili jasni.
  • Dosljednost i jasna organizacija. Nastojimo da pravila specifikacije modela budu u potpunosti međusobno dosljedna i usklađena s predviđenim ponašanjem modela te da cjelokupna struktura dokumenta bude jasna i pristupačna.

Što slijedi

Specifikacija modela nije tvrdnja da možemo zapisati sve što je važno niti da će modeli uvijek dosegnuti cilj. To je tvrdnja da je predviđeno ponašanje dovoljno važno da bude jasno, provedivo i podložno reviziji.

Tri kriterija uspješnosti usmjeravaju način na koji ga razvijamo.

  • Čitljivost Ljudi unutar i izvan OpenAI-ja mogu stvoriti točna očekivanja o ponašanju i mogu se pozvati na tekst kada ih ponašanje iznenadi.
  • Provedivost. Specifikacija modela može se upotrebljavati za osmišljavanje evaluacija, dijagnosticiranje incidenata i donošenje dosljednih odluka o proizvodu, a ne samo za izražavanje vrijednosti.
  • Mogućnost revizije. Specifikacija modela može se razvijati kako učimo, a da pritom ne postane nestabilna, pokretna meta.

Kako se modeli i proizvodi razvijaju, očekujemo da će se specifikacija modela proširivati i pojašnjavati u skladu s novim mogućnostima i kontekstima implementacije. Cilj je održati specifikaciju ponašanja koherentnom, provjerljivom i usklađenom s našom misijom osiguravanja da AGI bude na dobrobit cijelog čovječanstva.