Uvid u naš pristup Specifikaciji modela
Kako sistemi umjetne inteligencije postaju sposobniji i široko se koriste, potreban nam je jasan javni okvir za to kako bi trebali funkcionisati.
U OpenAI-u vjerujemo da umjetna inteligencija treba biti pravedna, sigurna i dostupna svima kako bi je više ljudi moglo koristiti za rješavanje složenih problema, stvaranje prilika i ostvarivanje koristi u oblastima poput Zdravlja, nauke, obrazovanja, rada i svakodnevnog života. Vjerujemo da je demokratiziran pristup umjetnoj inteligenciji najbolji put naprijed: ne umjetna inteligencija čije su koristi ili kontrola koncentrisane u rukama nekolicine, već umjetna inteligencija kojoj više ljudi može pristupiti, razumjeti je i učestvovati u njenom oblikovanju.
To je ključni razlog zašto postoji specifikacija modela OpenAI. Specifikacija modela(otvara se u novom prozoru) je naš formalni okvir za ponašanje modela. Ona definiše kako želimo da modeli slijede upute, rješavaju sukobe, poštuju slobodu korisnika i ponašaju se sigurno u nevjerovatno širokom rasponu upita koje im korisnici svakodnevno postavljaju. Šire gledano, to je naš pokušaj da namjeravano ponašanje modela učinimo eksplicitnim: ne samo unutar našeg procesa obuke, nego i u obliku koji korisnici, programeri, istraživači, kreatori politika i šira javnost mogu zaista pročitati, analizirati i o njemu raspravljati.
Specifikacija modela nije tvrdnja da se naši modeli već danas savršeno ponašaju na ovaj način. Na mnogo načina, on je deskriptivan, ali je također i cilj kojem želimo usmjeriti ponašanje modela. Koristimo ga da željeno ponašanje učinimo jasnijim, kako bismo obuku mogli usmjeravati ka njemu, procjenjivati ga u odnosu na njega i s vremenom ga poboljšavati.
Ova objava dijeli priču koja nije uključena u samu specifikaciju modela, uključujući filozofiju i mehaniku iza nje: kako je strukturirana, zašto smo odabrali te strukturne opcije i kako je pišemo, implementiramo i razvijamo s vremenom.
Specifikacija modela je dio šireg pristupa OpenAI-ja sigurnoj i odgovornoj umjetnoj inteligenciji. Dok se Okvir pripravnosti fokusira na rizike iz graničnih sposobnosti i zaštitne mjere potrebne kako ti rizici rastu, Specifikacija modela bavi se drugačijim, ali komplementarnim pitanjem: kako naši modeli trebaju ponašati u širokom rasponu situacija. Posmatrano iz šire perspektive, otpornost AI-a ima za cilj da odgovori na širi društveni izazov: pomoći društvu da ostvari koristi od napredne AI tehnologije, uz smanjenje poremećaja i novih rizika kako se sve sposobniji sistemi budu uvodili u primjenu. Sveukupno, ove inicijative imaju za cilj da prelazak na AGI bude postepen, iterativan i demokratski razumljiv: omogućavajući ljudima i institucijama vrijeme za prilagodbu, uz istovremenu izgradnju zaštitnih mjera, mehanizama odgovornosti i javnog razumijevanja potrebnih da se moćna AI tehnologija održi usklađenom s ljudskim interesima.
Jasnoća o ponašanju modela važna je za pravičnost i sigurnost. To je važno za pravednost jer ljudi trebaju razumjeti kako i zašto AI postupa prema njima na taj način — te biti u mogućnosti prepoznati, propitati i riješiti zabrinutosti u vezi s pravednošću kada se pojave. To je važno za sigurnost jer, kako AI sistemi postaju sve sposobniji, ljudima i institucijama su potrebna jasnija očekivanja o tome kako je predviđeno da se ponašaju, koje kompromise podrazumijevaju i kako se ti izbori mogu unaprijediti tokom vremena. Takva čitljivost također podržava otpornost tako što većem broju ljudi daje nešto konkretno za ispitivanje, preispitivanje i unapređenje.
Od prve verzije iz 2024. godine, Specifikacija modela je značajno evoluirala kako saznajemo više o preferencijama i potrebama korisnika, proširujemo njen obuhvat i prilagođavamo je sve većim mogućnostima te učimo iz javnih povratnih informacija o ponašanju modela i Specifikaciji modela. U duhu iterativne implementacije, Specifikacija modela je dokument koji se razvija i koji obuhvata i temeljne vrijednosti i eksplicitna, jasno formulirana pravila — uz proces za izmjenu pojedinačnih elemenata kako učimo iz implementacije u stvarnom svijetu i povratnih informacija. Također ulažemo u mehanizme za javne povratne informacije kao što je kolektivno usklađivanje kako bi čovječanstvo zadržalo kontrolu nad time kako se AI koristi i kako se oblikuje ponašanje AI-ja.
Interno, to nam pruža vodilju za željeno ponašanje i zajednički okvir za obuku, evaluaciju i upravljanje. Eksterno, to stvara javnu referentnu tačku koju ljudi mogu koristiti da razumiju naš pristup, kritikuju ga i pomognu u njegovom poboljšanju tokom vremena.
Specifikacija modela sastoji se od nekoliko različitih vrsta smjernica za model. To je namjerno. Različite dijelove ponašanja modela treba rješavati na različite načine, a koristan javni dokument mora raditi više od pukog navođenja pravila.
Specifikacija modela počinje namjerom na visokom nivou: jasnim prikazom onoga što nastojimo optimizirati na nivou sistema, i zašto.
Ovaj uvod pojašnjava tri cilja kako planiramo ostvariti našu misiju:
- Iterativno implementirajte modele koji omogućavaju programerima i korisnicima veću moć
- Spriječi naše modele da nanesu ozbiljnu štetu korisnicima ili drugima
- Održati OpenAI-jevu dozvolu za rad
Zatim objašnjava kako razmišljamo o usklađivanju ovih ciljeva u praksi, čineći kompromise dovoljno konkretnim da podrže detaljnije principe koji slijede.
Važno je da ova preambula nije namijenjena da bude direktna uputa modelu. Koristiti čovječanstvu cilj je OpenAI-a, a ne cilj kojem želimo da naši modeli autonomno teže. Umjesto toga, želimo da modeli slijede lanac komandovanja koji uključuje Specifikaciju modela i primjenjive upute od OpenAI, programera i korisnika — čak i kada se neki ljudi možda ne slažu s rezultatom u određenom slučaju.
Smatramo da je ovo prava ravnoteža jer cijenimo ljudsku autonomiju i intelektualnu slobodu. Ako bismo obučavali modele da odlučuju koje instrukcije da poštuju na osnovu našeg vlastitog viđenja onoga što je dobro za društvo, OpenAI bi bio u poziciji da presuđuje o moralu na vrlo širokom nivou. Ipak, uvod je i dalje važan. Kada postoji nejasnoća u vezi s tim kako primijeniti specifikaciju modela, preambula bi trebala pomoći da se to razriješi.
Specifikacija modela također uključuje javne obaveze koje nadilaze direktno mjerljivo ponašanje modela, a odnose se na namjeru obuke i ograničenja primjene. Na primjer, naši principi crvene linije(otvara se u novom prozoru) uključuju obavezu da u implementacijama prve strane, poput ChatGPT‑a, nikada nećemo koristiti sistemske poruke da namjerno ugrozimo objektivnost(otvara se u novom prozoru) ili povezane principe; dok Nema drugih ciljeva(otvara se u novom prozoru) sadrži obaveze o optimizaciji odgovora modela za dobrobit korisnika, a ne za prihod ili beskorisno vrijeme provedeno na stranici.
U središtu specifikacije modela nalazi se lanac komandovanja: okvir za odlučivanje o tome koje upute treba primijeniti u datoj situaciji. Također obuhvata i način na koji model treba da postupa s nedovoljno preciziranim uputama, posebno u agentskim okruženjima gdje se od njega očekuje da samostalno dopuni pojedinosti uz pažljivo kontrolisanje nuspojava u stvarnom svijetu.
Osnovna ideja iza odlučivanja koje upute bi se trebale primijeniti je jednostavna. Uputstva mogu dolaziti iz različitih izvora, uključujući OpenAI, programere i korisnike. Te upute mogu biti u sukobu. Lanac komandi objašnjava kako model treba riješiti te sukobe.
Svakoj politici specifikacije modela i svakom uputstvu dodjeljuje se nivo autoriteta(otvara se u novom prozoru). Model je upućen da daje prednost slovu i duhu uputstava višeg autoriteta kada dođe do sukoba. Ako korisnik zatraži pomoć u izradi bombe, model treba dati prednost čvrstim sigurnosnim granicama(otvara se u novom prozoru). Ako korisnik zatraži da ga se ispeče, model bi u pravilu trebao dati prednost tom zahtjevu u odnosu na politiku protiv zloupotrebe(otvara se u novom prozoru) nižeg autoriteta iz specifikacije modela.
Ova struktura nam omogućava da definišemo relativno mali skup pravila koja se ne mogu nadjačati, uz veći skup predodređenih postavki. Tako nastojimo maksimizirati slobodu korisnika i kontrolu programera u okviru sigurnosnih ograničenja.
- Stroga pravila su jasno definirane granice koje korisnici ni programeri ne mogu nadjačati (u terminologiji specifikacije modela, to su upute na nivou „root” ili „system”). Uglavnom su restriktivna, zahtijevaju da modeli izbjegavaju ponašanja koja bi mogla dovesti do katastrofalnih rizika ili direktne fizičke štete, kršenja zakona ili narušavanja lanca komandovanja. Očekujemo da će umjetna inteligencija (AI) postati temeljna tehnologija za društvo, slična osnovnoj internetskoj infrastrukturi, pa pravila koja bi mogla ograničiti intelektualnu slobodu uvodimo samo kada smatramo da su neophodna za širok spektar programera i korisnika koji će s njom stupati u interakciju. U Specifikaciji modela, Ostanite u granicama(otvara se u novom prozoru) sadrži stroga pravila koja se bave konkretnim sigurnosnim rizicima iz stvarnog svijeta, dok Principi za mlađe od 18 godina(otvara se u novom prozoru) dodaju dodatne mjere zaštite za korisnike mlađe od 18 godina.
- Podrazumijevane postavke su početne tačke koje se mogu prilagoditi: „najbolja procjena“ asistenta o tome kako da se ponaša kada korisnik ili programer nije naveo preferenciju. Koristimo podrazumijevane postavke kako bismo ponašanje učinili predvidljivim i upravljivim u većem obimu, tako da ljudi mogu predvidjeti šta će se desiti bez pisanja prilagođenih uputa svaki put. Podrazumijevane postavke čuvaju mogućnost usmjeravanja: korisnici i programeri mogu jasno usmjeravati ton, dubinu, format, pa čak i tačku gledišta unutar sigurnosnih granica. Postavke na nivou smjernica (poput tona ili stila) osmišljene su tako da se mogu implicitno prilagoditi, dok su postavke na nivou korisnika (poput istinitosti i objektivnosti) temelj za povjerenje i predvidljivost i mogu se promijeniti samo eksplicitnim uputama. One ne bi trebale neprimjetno odstupati na osnovu osjećaja; ako korisnik želi drugačiji činjenični stav, eksplicitno navođenje toga kao upute čini promjenu transparentnom i jasnom. Ove zadane postavke odražavaju se u Zajedno tražite istinu(otvara se u novom prozoru), Radite najbolje što možete(otvara se u novom prozoru) i Koristite odgovarajući stil(otvara se u novom prozoru), uključujući norme iskrenosti i objektivnosti, izbjegavanje ulizivanja te norme interakcije poput direktnosti, topline i profesionalnosti primjerenih kontekstu.
Osim same hijerarhije, specifikacija modela koristi interpretativna sredstva kako bi pomogla modelima (i ljudima) da je dosljedno primjenjuju u sivim zonama. Ova pomoć uključuje:
- Kriteriji za donošenje odluka koji pomažu modelu da donosi dosljedne odluke u sivim zonama, bez pretvaranja da postoji jedno jedinstveno mehaničko pravilo. Na primjer, smjernice Specifikacije modela o kontrolisanju nuspojava(otvara se u novom prozoru) navode razmatranja poput minimiziranja nepovratnih radnji, održavanja radnji srazmjernim cilju, smanjenja neugodnih iznenađenja i davanja prednosti reverzibilnim pristupima, što treba uravnotežiti s drugim ciljevima poput brzog i efikasnog izvršavanja zadatka.
- Konkretni primjeri koji pokazuju kako princip treba primijeniti u praksi. Ovo su kratki primjeri upita i odgovora koji obično uključuju i usklađen i neusklađen odgovor, često na teškom upitu blizu važne granice odlučivanja. Cilj nije simulirati potpuno realističan razgovor. To služi da se jasno istakne ključna razlika i da se to učini na način koji također pokazuje željeni stil odgovora.
Zadržavamo broj primjera relativno malim i fokusiramo se na one najinformativnije. Širi skupovi za evaluaciju pomažu da se obuhvati veći dio dugog repa.
Primjer koji ilustruje principe intelektualne slobode i neosuđivanja iz odjeljka Specifikacije Pretpostavite najbolje namjere(otvara se u novom prozoru).
Specifikacija je interfejs, a ne implementacija. Opisuje ponašanje koje želimo, a ne svaki detalj toga kako to ponašanje postižemo. Trudimo se da ga ne vezujemo za detalje implementacije, kao što su interni formati tokena ili tačan postupak treniranja za određeno ponašanje, jer se ti detalji mogu promijeniti čak i kada se željeno ponašanje ne promijeni. Primarna publika specifikacije modela nije model nego ljudi: namijenjena je da pomogne zaposlenima u OpenAI-u, korisnicima, programerima, istraživačima i kreatorima javnih politika da razumiju, raspravljaju i odlučuju o namjeravanom ponašanju.
Specifikacija također opisuje model, a ne cijeli proizvod. Dopunjena je našim pravilima upotrebe, koja opisuju naša očekivanja o tome kako ljudi trebaju koristiti API i ChatGPT. Sistem s kojim korisnici stupaju u interakciju uključuje više od samog modela: funkcije proizvoda kao što su prilagođene upute i memorija, praćenje, provođenje pravila i drugi slojevi također su važni. Sigurnost je mnogo više od ponašanja modela i vjerujemo u odbranu u dubini.
A Specifikacija nije potpun opis našeg cjelokupnog sistema obuke niti svake interne razlike među politikama. Cilj nije da zabilježite svaki detalj. To je kako bi se najvažnije odluke o ponašanju učinile razumljivim, na način koji je u potpunosti dosljedan našim namjeravanim ponašanjem modela.
Postoji nekoliko razloga da se ovoliko toga unese u Spec umjesto da se pretpostavi da čitalac — ili model — može sve zaključiti iz nekoliko opštih ciljeva.
Prvo, specifikacija modela je alat za transparentnost i odgovornost . Dizajniran je da podstakne smislene povratne informacije javnosti. Jasan javni cilj pomaže ljudima da utvrde da li je neko ponašanje greška ili funkcionalnost. To im daje stabilnu referentnu tačku za kritiku i konkretne povratne informacije. Zato smo specifikaciju modela objavili kao otvoreni kod(otvara se u novom prozoru) i odlučili da je razvijamo javno. Od prvog izdanja napravljene su mnoge promjene na osnovu povratnih informacija javnosti, prikupljenih putem različitih mehanizama, uključujući obrasce za povratne informacije, javne kritike i ciljane napore za prikupljanje demokratskih doprinosa.
Drugo, specifikacija modela je alat za koordinaciju unutar OpenAI-a. Ljudima u istraživanju, razvoju proizvoda, sigurnosti, politici, pravnim poslovima, komunikacijama i drugim funkcijama pruža zajednički rječnik za razgovor o ponašanju modela i mehanizam za predlaganje i razmatranje promjena.
Treće, eksplicitne politike mogu kompenzirati praktična ograničenja u inteligenciji modela i izvršnom kontekstu te učiniti ponašanje predvidljivijim. Iako to s vremenom postaje sve manje tačno, neke politike imaju za cilj kompenzirati nedovoljnu inteligenciju, u slučajevima kada modeli možda neće moći pouzdano izvesti ispravno ponašanje iz principa višeg nivoa. Na primjer, Budite jasni i direktni(otvara se u novom prozoru) savjetovao je ranije modele da prikažu svoj postupak prije nego što navedu odgovor za složene probleme koji zahtijevaju proračune, ali danas naši modeli prirodno usvajaju ovakvo ponašanje kroz učenje s potkrepljivanjem.
Druge politike bave se ograničenim kontekstom tokom izvršavanja: asistent se može osloniti samo na ono što je vidljivo u trenutnoj interakciji i rijetko zna cjelokupnu situaciju korisnika, njegovu namjeru, daljnju upotrebu ili koje mjere zaštite postoje izvan modela. U tim slučajevima, čak i ako bi modeli mogli dokučiti ispravno ponašanje uz dovoljno istraživanja i promišljanja, specifičnost poboljšava efikasnost i predvidljivost — sažimajući mnoge procjene u smjernice koje smanjuju varijacije među sličnim upitima i čine ponašanje lakšim za razumijevanje kako korisnicima tako i istraživačima.
Konačno, specifikacija modela ima za cilj da bude potpuna lista smjernica na visokom nivou relevantnih za procjenu i mjerenje. Ako želite procijeniti da li se model ponaša onako kako je zamišljeno, korisno je imati javno dostupan popis glavnih kategorija ponašanja koje su vam važne.
Primamljivo je pomisliti da bi dovoljno sposoban model trebao moći zaključiti koje je ispravno ponašanje na osnovu kratke liste ciljeva poput „budi koristan i siguran.” Ima istine u tome. U domenama s objektivnim kriterijima uspjeha, poput matematike, inteligencija često može zamijeniti detaljna pravila.
Ali općenito, ponašanje modela nije kao rješavanje jednostavnog matematičkog problema; modeli često djeluju u složenijim područjima gdje ne postoji jedan moralno ispravan odgovor s kojim bi se svi složili. Šta znači da je model „koristan i siguran“, na primjer, uveliko zavisi od konteksta i rezultat je donošenja odluka koje su po svojoj prirodi opterećene vrijednosnim sudovima. Sama inteligencija ne može vam reći koje kompromise trebate napraviti kada je riječ o etici i vrijednostima. Dakle, čak i kada modeli postanu inteligentniji, i dalje moramo raditi na razumijevanju i usmjeravanju vrijednosnih prosudbi / šta znači djelovati „etički” u određenom slučaju. I većina razloga za postojanje specifikacije modela ostaje relevantna čak i kada modeli postanu mnogo sposobniji: i dalje nam je potreban javni cilj oko kojeg se ljudi mogu usaglasiti, način da procijenimo odgovara li ponašanje našim namjerama i mehanizam za revidiranje pravila dok učimo. Ako je jedino pravilo „budi koristan i siguran”, onda ne postoji mehanizam kojim bi ljudi mogli raspravljati, na primjer, o granicama sadržaja koji bi model trebao odbiti pružiti, prepuštajući sve te odluke modelu.
Ako ništa drugo, kako modeli postaju sposobniji, sve više agentni i šire se primjenjuju, trošak dvosmislenosti raste. To čini jasan okvir ponašanja još važnijim, a ne manje važnim.
Jedna korisna analogija je razlika između pisanog ustava i sudske prakse. Iako pisani ustav može pružiti opća načela, kao i konkretna pravila, on ne može predvidjeti sve moguće slučajeve koji bi se mogli pojaviti i zahtijevati njegovo usmjeravanje. Stvarnim sistemima upravljanja također su potrebni mehanizmi za tumačenje, pojašnjenja i eksplicitne odluke kako bi se riješili neuredni slučajevi ili nepredviđena pitanja. Objavljena pravila pomažu različitim akterima da se usklađuju čak i kada se ne slažu, a ograničavaju promjene tako što zahtijevaju da svaka promjena bude izričita. Specifikacija modela treba da ima sve ove uloge: izjavu o principima, javni okvir ponašanja i proces za mijenjanje Specifikacije tokom vremena.
Ipak, ne mislimo da će se sve što je važno u vezi s ponašanjem modela uvijek moći svesti na eksplicitna pravila. Kako sistemi postaju autonomniji, pouzdanost i povjerenje će sve više zavisiti od širih vještina i sklonosti: dobrog komuniciranja neizvjesnosti, poštivanja granica autonomije, izbjegavanja neugodnih iznenađenja, praćenja namjere tokom vremena i dobrog rezonovanja o ljudskim vrijednostima u kontekstu.
Kada pišemo specifikaciju modela, postoji raspon između opisivanja današnjeg stvarnog ponašanja modela, sa svim manama, i opisivanja idealnog cilja u dalekoj budućnosti. Trudimo se postići ravnotežu, obično ciljajući na period od oko 0–3 mjeseca unaprijed. Zato Specifikacija modela često ostaje ispred modela u barem nekoliko oblasti aktivnog razvoja.
To odražava ulogu specifikacije modela kao opis namjeravanog ponašanja. Trebao bi nas usmjeravati u koherentnom smjeru, a istovremeno ostajati utemeljen na onome što već radimo ili za što imamo konkretne planove za implementaciju u bliskoj budućnosti.
Specifikacija modela razvija se kroz otvoreni interni proces. Svako u OpenAI-ju može komentarisati ili predložiti izmjene, a konačna ažuriranja odobrava širok krug međufunkcionalnih zainteresovanih strana. U praksi, desetine ljudi su direktno doprinijele tekstu, a mnogo više njih iz oblasti istraživanja, inženjeringa, proizvoda, sigurnosti, politike, pravnih poslova, komunikacija, globalnih poslova i drugih funkcija doprinosi. Također učimo iz javnih izdanja i povratnih informacija, koje nam pomažu da provjerimo ove izbore pod pritiskom u stvarnoj implementaciji.
Ovo je važno jer su ponašanje modela — i njegove implikacije u svijetu — nevjerovatno složeni. Niko ne može obuhvatiti cijeli skup ponašanja, proces obuke i posljedične implikacije u svojoj glavi, ali uz mnoge međufunkcionalne saradnike i recenzente možemo poboljšati kvalitet i povećati povjerenje.
Jedno ugodno iznenađenje bilo je to što je stvarni konsenzus često moguć—posebno kada se prisilimo da dovoljno precizno zapišemo kompromise kako bi neslaganja postala konkretna.
Specifikacija modela također nije napisana u vakuumu. Velik dio onoga što se nađe u tome predstavlja sažetak šireg rada o ponašanju, sigurnosti i politikama. Velik dio pisanja specifikacije modela zapravo je prevođenje: uzimanje postojećeg rada i njegovo činjenje jednostavnijim, konzistentnijim, organiziranijim i pristupačnijim bez gubitka osnovne namjere.
Naši produkcijski modeli još uvijek ne odražavaju u potpunosti specifikaciju modela iz nekoliko razloga.
- Obuka modela može kasniti za ažuriranjima specifikacije modela. Opisuje ponašanje na kojem radimo, tako da može biti ispred onoga za šta je naš najnoviji model obučen.
- Obuka može nenamjerno podučiti ponašanju koje nije u skladu sa specifikacijom modela. Trudimo se da ovo izbjegnemo, a kada se to dogodi, tretiramo to kao ozbiljnu grešku—tako što radimo na prilagođavanju ponašanja ili specifikacije modela kako bismo ih uskladili.
- Obuka nikada ne može u potpunosti obuhvatiti prostor svih mogućih ponašanja. Stvarna upotreba sadrži dug rep konteksta i rubnih slučajeva koji postaju vidljivi tek pri velikom obimu upotrebe, a nijedan proces obuke ne može obuhvatiti sve.
- Generalizacija se može razlikovati od onoga što smo zamislili. Model može proizvesti „ispravne” izlaze tokom obuke iz nenamjernih razloga, što može dovesti do nenamjernog ponašanja u novim situacijama koje se razlikuju od onih viđenih tokom obuke. Tehnike poput deliberativnog usklađivanja pomažu, ali nisu potpuno rješenje.
Šire gledano, činjenica da specifikacija modela opisuje širok raspon poželjnih ponašanja ne znači da postoji samo jedna metoda za njihovo podučavanje. Različiti aspekti ponašanja—praćenje uputa, sigurnosne granice, ličnost, kalibrirani izraz neizvjesnosti i drugo—često zahtijevaju različite tehnike i imaju različite vrste grešaka. Specifikacija modela olakšava razumijevanje i kritičko sagledavanje namjeravanog ponašanja, ali njena uspješna primjena ostaje i dalje umjetnost i aktivno područje istraživanja.
Uz ovu objavu objavljujemo i Model Spec Evals(otvara se u novom prozoru): skup evaluacija zasnovanih na scenarijima koji nastoji obuhvatiti što je moguće više tvrdnji iz Specifikacije modela uz mali broj reprezentativnih primjera. Ovo nam pomaže da pratimo gdje ponašanje modela i Specifikacija modela nisu usklađeni, a pomaže nam i da provjerimo da li modeli tumače Specifikaciju modela onako kako smo namjeravali. Ove evaluacije su samo jedan dio šire strategije evaluacije koja također uključuje ciljanije procjene kroz mnoge dimenzije ponašanja, uključujući specifična područja sigurnosti, istinitost i ulizivanje, ličnost i stil te sposobnosti.
Grafikon usklađenosti specifikacije modela po odjeljcima za OpenAI modele tokom vremena. Za detalje o evaluacijama i kako ih tumačimo, pogledaj prateću blog objavu(otvara se u novom prozoru). Ukratko, vjerujemo da ovi rezultati odražavaju stvarna i široka poboljšanja u usklađenosti modela tokom vremena—iako odražavaju i mali učinak koji proizlazi iz mjerenja starijih modela u odnosu na novije politike.
U praksi, većina ažuriranja specifikacije proizlazi iz ponavljajućeg skupa ulaznih podataka:
- Javni problemi i povratne informacije. Zabune, rubni slučajevi ili načini otkazivanja — bilo u jeziku specifikacije modela bilo u ponašanju naših modela.
- Interni problemi. Obrasci koje uočavamo tokom razvoja i testiranja, uključujući nejasnoće gdje različita razumna tumačenja dovode do različitog ponašanja.
- Ažuriranja pravila ponašanja i sigurnosti. Kada se promijene ograničenja ili obaveze višeg nivoa, specifikacija mora jasno odražavati tu novu strukturu.
- Nove mogućnosti i proizvodi. Kako modeli postaju sposobniji za nova ponašanja i kako objavljujemo nove proizvode, želimo da specifikacija modela prati promjene u sadržaju i obuhvatu — na primjer, dodavanjem pravila za multimodalne interakcije(otvara se u novom prozoru), autonomne agente(otvara se u novom prozoru) i korisnike mlađe od 18 godina(otvara se u novom prozoru).
Nekoliko dizajnerskih principa vodi kako pišemo i revidiramo specifikaciju modela.
- Jasnoća i preciznost. „Budi iskren“ je dobra vrijednost, ali nije potpuna procedura za donošenje odluka. Specifikacija modela treba da izoštri neslaganja, a ne da ih skriva iza ugodnog jezika. Gdje je to praktično, trebali bismo izričito ukazati na moguće sukobe između pravila i pružiti smjernice ili primjere kako ih riješiti. Na primjer, Ne lažite(otvara se u novom prozoru) ukazuje na mogući sukob s Budite srdačni(otvara se u novom prozoru), objašnjavajući da asistent treba slijediti norme učtivosti, ali bez prelaska u bezazlene laži koje bi mogle predstavljati ulizivanje(otvara se u novom prozoru) i biti protivne najboljem interesu korisnika.
- Suštinska pravila. Čitalac bi trebao moći uzeti realističan upit i dati odgovor za koji drugi čitalac prepoznaje da je jasno unutar ili izvan zadanih okvira (čak i ako na rubovima ima prostora za prosudbu).
- Primjeri koji maksimiziraju omjer signala i šuma. Dobri primjeri su često ključni za razvoj kvalitetnog ažuriranja specifikacije. Primjeri bi trebali pomoći da se dopre do srži poteškoća u definiranju ponašanja modela, iznoseći teške sukobe na površinu i zauzimajući jasan stav o njihovom rješavanju. Kao drugo, trebali bi nastojati biti uzori željenog tona i stila, što može biti teško prenijeti kroz prozu.
- Robusnost. Trudimo se izbjegavati primjere s nepotrebnom nejasnoćom ili složenošću, kako bi suštinski sukob i predviđeno rješenje bili jasni.
- Dosljednost i jasna organizacija. Nastojimo da pravila specifikacije modela budu u potpunosti dosljedna jedno s drugim i s našim namjeravanim ponašanjem modela, te da cjelokupna organizacija dokumenta bude jasna i pristupačna.
Specifikacija modela nije tvrdnja da možemo zapisati sve što je važno niti da će modeli uvijek pogoditi cilj. To je tvrdnja da je namjeravano ponašanje dovoljno važno da bude jasno, praktično i podložno izmjenama.
Tri kriterija uspjeha usmjeravaju kako ga razvijamo.
- Čitljivost. Ljudi unutar i izvan OpenAI-ja mogu formirati tačna očekivanja o ponašanju i mogu ukazati na tekst kada ih ponašanje iznenadi.
- Mogućnost primjene. Specifikacija modela može se koristiti za osmišljavanje evaluacija, dijagnosticiranje incidenata i donošenje dosljednih odluka o proizvodu—ne samo za izražavanje vrijednosti.
- Mogućnost revizije. Specifikacija modela može se razvijati kako učimo, a da pritom ne postane nestabilna i nejasna meta.
Kako se modeli i proizvodi razvijaju, očekujemo da će se specifikacija modela proširivati i pojašnjavati u skladu s novim mogućnostima i kontekstima primjene. Cilj je održati specifikaciju ponašanja koherentnom, provjerljivom i usklađenom s našom misijom osiguravanja da AGI koristi cijelom čovječanstvu.


