OpenAI-s usume, et tehisintellekt peaks olema õiglane, ohutu ja vabalt kättesaadav, et rohkem inimesi saaks seda kasutada keeruliste probleemide lahendamiseks, võimaluste loomiseks ja kasu saamiseks sellistes valdkondades nagu tervis, teadus, haridus, töö ja igapäevaelu. Usume, et demokraatlik juurdepääs TI-le on parim tee edasi: mitte TI, mille hüved või kontroll on koondunud väheste kätte, vaid TI, millele rohkem inimesi pääseb ligi, mida nad saavad mõista ja aidata kujundada.
See on üks peamisi põhjuseid, miks OpenAI mudeli spetsifikatsioon olemas on. Mudeli spetsifikatsioon(avaneb uues aknas) on meie ametlik raamistik mudeli käitumise jaoks. See määratleb, kuidas me soovime, et mudelid juhiseid järgiksid, konflikte lahendaksid, kasutaja vabadust austaksid ja kasutajate igapäevaselt esitatavate uskumatult laia päringute valiku puhul ohutult käituksid. Laiemalt võttes on see meie katse mudeli kavandatud käitumist selgesõnaliselt väljendada: mitte ainult meie koolitusprotsessi raames, vaid ka sellisel kujul, mida kasutajad, arendajad, teadlased, poliitikakujundajad ja laiem avalikkus saavad tegelikult lugeda, läbi vaadata ja arutada.
Mudeli spetsifikatsioon ei väida, et meie mudelid juba täna sel viisil täiuslikult käituvad. Paljuski on see kirjeldav, kuid see on ka siht selle jaoks, millise suunas me mudeli käitumist mõjutada soovime. Me kasutame seda selleks, et soovitud käitumist selgemaks teha, et saaksime selle suunas treenida, selle suhtes hindamisi teha ja seda aja jooksul täiustada.
See postitus jagab taustalugu, mida mudeli spetsifikatsioon ise ei sisalda, sealhulgas selle aluseks olevat filosoofiat ja mehhanisme: kuidas see on üles ehitatud, miks me tegime need struktuurivalikud ning kuidas me seda kirjutame, rakendame ja aja jooksul edasi arendame.
Mudeli spetsifikatsioon on üks osa OpenAI laiemast lähenemisest ohutule ja vastutustundlikule TI-le. Kuigi Valmisoleku raamistik keskendub tipptasemel võimekusest tulenevatele riskidele ja kaitsemeetmetele, mida on vaja nende riskide suurenedes, käsitleb mudeli spetsifikatsioon teistsugust, kuid täiendavat küsimust: kuidas meie mudelid peaksid väga erinevates olukordades käituma. Veelgi laiemalt vaadates püüab TI vastupidavus käsitleda laiemat ühiskondlikku väljakutset: aidata ühiskonnal arenenud TI hüvedest kasu saada, vähendades samal ajal häireid ja esilekerkivaid riske, kui üha võimekamaid süsteeme kasutusele võetakse. Kokkuvõttes on nende algatuste eesmärk aidata muuta üleminek AGI-le järkjärguliseks, iteratiivseks ja demokraatlikult mõistetavaks: andes inimestele ja institutsioonidele aega kohaneda ning luues samal ajal kaitsemeetmeid, vastutusmehhanisme ja avalikku arusaama, mida on vaja selleks, et hoida võimas TI inimeste huvidega kooskõlas.
Avalikkuse selgus mudeli käitumise osas on oluline nii õigluse kui ka ohutuse seisukohalt. See on õigluse seisukohalt oluline, sest inimesed peavad mõistma, kuidas ja miks TI neid nii kohtleb ning suutma tuvastada, kahtluse alla seada ja lahendada õiglusega seotud probleeme, kui need tekivad. Ja see on ohutuse seisukohalt oluline, sest kui TI-süsteemid muutuvad üha võimekamaks, vajavad inimesed ja institutsioonid selgemaid ootusi selle kohta, kuidas need peaksid toimima, milliseid kompromisse need endas kätkevad ja kuidas neid valikuid saab aja jooksul täiustada. Selline loetavus toetab ka vastupidavust, andes rohkematele inimestele midagi konkreetset, mida uurida, kahtluse alla seada ja parandada.
Alates esimesest versioonist 2024. aastal on mudeli spetsifikatsioon märkimisväärselt arenenud, kuna õpime üha rohkem kasutajate eelistuste ja vajaduste kohta, laiendame seda suuremate võimekuste hõlmamiseks ja nendega kohanemiseks ning õpime mudelite käitumise ja mudeli spetsifikatsiooni kohta saadud avalikust tagasisidest. Iteratiivse juurutamise vaimus on mudeli spetsifikatsioon arenev dokument, mis hõlmab nii taustväärtusi kui ka selgesõnalisi, arusaadavaid reegleid, koos protsessiga üksikute elementide muutmiseks, kui õpime reaalsest juurutamisest ja tagasisidest. Investeerime ka avaliku tagasiside mehhanismidesse, nagu kollektiivne joondamine, et aidata tagada inimkonna kontroll selle üle, kuidas TI-d kasutatakse ja kuidas selle käitumist kujundatakse.
Ettevõttesiseselt annab see meile soovitud käitumise jaoks suunanäitaja ning ühise raamistiku koolituse, hindamise ja juhtimise jaoks. Väljapoole loob see avaliku võrdluspunkti, mida inimesed saavad kasutada meie lähenemise mõistmiseks, selle kritiseerimiseks ja selle aja jooksul täiustamisele panustamiseks.
Mudeli spetsifikatsioon koosneb mitut tüüpi juhistest mudeli jaoks. See on tahtlik. Mudeli käitumise erinevaid aspekte tuleb käsitleda erinevalt ning kasulik avalik dokument peab tegema enamat kui lihtsalt reeglite loetlemine.
Mudeli spetsifikatsioon algab üldise eesmärgiga: selge kirjeldus sellest, mida me püüame süsteemi tasandil optimeerida ja miks.
See sissejuhatus selgitab kolme eesmärki selle kohta, kuidas me kavatseme oma missiooni ellu viia:
- Juurutame järk-järgult mudeleid, mis annavad arendajatele ja kasutajatele võimalusi
- Takistame meie mudelitel kasutajatele või teistele tõsise kahju põhjustamist
- Säilitame OpenAI loa tegutseda
Seejärel selgitatakse, kuidas me praktikas tasakaalustame neid eesmärke, muutes kompromissid piisavalt konkreetseks, et toetada järgnevaid üksikasjalikumaid põhimõtteid.
Oluline on märkida, et see preambul ei ole mõeldud otseseks juhiseks mudelile. Inimkonnale kasu toomine on OpenAI eesmärk, mitte eesmärk, mida me soovime, et meie mudel iseseisvalt järgiks. Selle asemel soovime, et mudelid järgiksid käsuliini, mis hõlmab mudeli spetsifikatsiooni ning OpenAI, arendajate ja kasutajate asjakohaseid juhiseid — isegi siis, kui mõned inimesed võivad konkreetsel juhul tulemusega mitte nõus olla.
Me arvame, et see on õige tasakaal, sest peame oluliseks inimeste autonoomiat ja mõttevabadust. Kui me treeniksime mudeleid otsustama, milliseid juhiseid järgida, lähtudes meie enda arusaamast sellest, mis on ühiskonnale hea, oleks OpenAI väga laial tasandil moraali üle otsustaja rollis. Seda öeldes on preambul siiski oluline. Kui mudeli spetsifikatsiooni rakendamises esineb ebaselgust, peaks preambul aitama seda lahendada.
Mudeli spetsifikatsioon sisaldab ka avalikke kohustusi, mis ulatuvad kaugemale otseselt mõõdetavast mudeli käitumisest, hõlmates koolituse eesmärki ja juurutuspiiranguid. Näiteks (avaneb uues aknas) hõlmavad meie punase joone põhimõtted kohustust, et esimese osapoole juurutustes, nagu ChatGPT, ei kasuta me kunagi süsteemisõnumeid tahtlikult objektiivsuse(avaneb uues aknas) või sellega seotud põhimõtete kahjustamiseks; ning mitte ükski teine eesmärk(avaneb uues aknas) ei sisalda kohustusi meie kavatsuste kohta optimeerida mudeli vastuseid kasutaja hüvanguks, mitte tulu suurendamiseks ega kasutajale kahjuliku saidil veedetud aja kasvatamiseks.
Mudeli spetsifikatsiooni keskmes on käsuliin: raamistik selle otsustamiseks, milliseid juhiseid tuleks konkreetses olukorras rakendada. See hõlmab ka seda, kuidas mudel peaks käsitlema ebapiisavalt täpsustatud juhiseid, eriti agentsetes olukordades, kus eeldatakse, et see täidab üksikasjad autonoomselt ja kontrollib hoolikalt tegeliku maailma kõrvalmõjusid.
Põhiidee, kuidas otsustada, millised juhised peaksid kehtima, on lihtne. Juhised võivad pärineda erinevatest allikatest, sealhulgas OpenAI-lt, arendajatelt ja kasutajatelt. Need juhised võivad omavahel vastuolus olla. Käsuliin selgitab, kuidas mudel peaks need konfliktid lahendama.
Igale mudeli spetsifikatsiooni poliitikale ja igale juhisele määratakse autoriteeditase(avaneb uues aknas). Mudelile on antud juhis seada vastuolu tekkides esikohale kõrgema autoriteediga juhiste sõnastus ja mõte. Kui kasutaja küsib abi pommi valmistamisel, peaks mudel seadma esikohale kindlad ohutuspiirid(avaneb uues aknas). Kui kasutaja palub, et teda sõbralikult maha tehtaks, peaks mudel üldjuhul pidama seda palvet olulisemaks kui mudeli spetsifikatsiooni madalama autoriteediga kuritarvitamise vastast poliitikat(avaneb uues aknas).
See struktuur võimaldab meil määratleda suhteliselt väikese hulga reegleid, mida ei saa üle kirjutada, koos suurema hulga vaikimisi seadistustega. Nii püüame maksimeerida kasutajate vabadust ja arendajate kontrolli ohutuspiirangute raames.
- Karmid reeglid on selged piirid, mida kasutajad ega arendajad ei saa muuta (mudeli spetsifikatsiooni terminoloogias on need „juur-“ või „süsteemitaseme“ juhised). Need on peamiselt keelavad, nõudes, et mudelid väldiksid käitumist, mis võib kaasa aidata katastroofilistele riskidele või otsesele füüsilisele kahjule, rikkuda seadusi või õõnestada käsuliini. Me eeldame, et TI-st saab ühiskonna alustehnoloogia, sarnaselt interneti põhitaristule, seega kehtestame reegleid, mis võiksid piirata intellektuaalset vabadust ainult siis, kui usume, et need on vajalikud laiale arendajate ja kasutajate ringile, kes sellega kokku puutuvad. Mudeli spetsifikatsioonis sisaldab Püsi piirides(avaneb uues aknas) karme reegleid, mis käsitlevad konkreetseid tegeliku maailma ohutusriske, ja Alla-18-aastaste põhimõtted(avaneb uues aknas) lisab alla 18-aastaste kasutajate jaoks täiendavaid kaitsemeetmeid.
- Vaikeväärtused on muudetavad lähtepunktid: assistendi „parima oletuse” käitumine, kui kasutaja või arendaja ei ole eelistust määranud. Kasutame vaikeseadeid, et muuta käitumine ennustatavaks ja hallatavaks ka suurel skaalal rakendamisel, nii et inimesed saaksid ette näha, mis juhtub, ilma et nad peaksid iga kord kirjutama kohandatud juhiste komplekti. Vaikeseaded säilitavad suunatavuse: kasutajad ja arendajad saavad ohutuspiiride raames sõnaselgelt suunata tooni, põhjalikkust, vormingut ja isegi vaatepunkti. Juhistasandi vaikeväärtused (nagu toon või stiil) on loodud olema kaudselt suunatavad, samas kui kasutajatasandi vaikeväärtused (nagu tõepärasus ja objektiivsus) on usalduse ja prognoositavuse ankrud ning neid saab tühistada ainult selgesõnaliste juhistega. Need ei tohiks kõhutunde järgi vaikselt triivida; kui kasutaja soovib teistsugust faktilist hoiakut, hoiab selle selgesõnaline juhisena sõnastamine nihke läbipaistva ja arusaadavana. Need vaikeseaded kajastuvad põhimõtetes otsida koos tõde(avaneb uues aknas), teha parimat tööd(avaneb uues aknas) ja kasutada sobivat stiili(avaneb uues aknas), sealhulgas aususe ja objektiivsusega seotud normid, lipitsemise vältimine ning suhtlusnormid, nagu otsekohesus ning kontekstile vastav soojus ja professionaalsus.
Lisaks hierarhiale kasutab mudeli spetsifikatsioon tõlgendusabivahendeid, et aidata mudelitel ja inimestel seda hallides olukordades järjepidevalt rakendada. Need abivahendid hõlmavad:
- Otsustusjuhised, mis aitavad mudelil teha hallides alades järjepidevaid valikuid, teeseldamata, et olemas on üksainus mehaaniline reegel. Näiteks loetleb mudeli spetsifikatsiooni juhis kõrvalmõjude ohjamise(avaneb uues aknas) kohta selliseid kaalutlusi nagu pöördumatute toimingute minimeerimine, toimingute hoidmine eesmärgiga proportsionaalsena, ebameeldivate üllatuste vähendamine ja tagasipööratavate lähenemiste eelistamine, mida tuleb tasakaalustada muude eesmärkidega, nagu ülesande kiire ja tõhus täitmine.
- Konkreetsed näited, mis näitavad, kuidas põhimõtet tuleks praktikas rakendada. Need on lühikesed viip- ja vastuse näited, mis sisaldavad tavaliselt nii nõuetele vastavat kui ka mittevastavat vastust, sageli keerulise viibi puhul olulise otsustuspiiri lähedal. Eesmärk ei ole simuleerida täielikult realistlikku vestlust. Selle eesmärk on teha oluline eristus selgeks ning teha seda viisil, mis ühtlasi demonstreerib soovitud vastamisstiili.
Hoiame näidete arvu suhteliselt väiksena ja keskendume kõige informatiivsematele. Laiemad hindamiskomplektid aitavad hõlmata suuremat osa pikast sabast.
Näide, mis illustreerib intellektuaalse vabaduse ja mittehinnangulise suhtumise põhimõtteid spetsifikatsioonide jaotisest Eelda häid kavatsusi(avaneb uues aknas).
Spetsifikatsioon on liides, mitte teostus. See kirjeldab käitumist, mida me soovime, mitte kõiki üksikasju selle kohta, kuidas me selle käitumiseni jõuame. Püüame vältida selle sidumist rakendusüksikasjade külge, nagu sisemised tokeni vormingud või konkreetse käitumise täpne treeningretsept, sest need üksikasjad võivad muutuda isegi siis, kui soovitud käitumine ei muutu. Mudeli spetsifikatsiooni esmane sihtrühm ei ole mitte mudel, vaid inimesed: see on mõeldud selleks, et aidata OpenAI töötajatel, kasutajatel, arendajatel, teadlastel ja poliitikakujundajatel mõista, arutada ja teha otsuseid kavandatud käitumise kohta.
Spetsifikatsioon kirjeldab samuti mudelit, mitte kogu toodet. Seda täiendavad meie kasutuspoliitikad, kus on kirjeldatud meie ootusi API ja ChatGPT kasutamise kohta. Süsteem, millega kasutajad suhtlevad, hõlmab enamat kui ainult mudelit: olulised on ka toote funktsioonid, nagu kohandatud juhised ja mälu, seire, poliitikate jõustamine ning muud kihid. Ohutus on palju enamat kui mudeli käitumine ning me usume süvitsi kaitsestrateegiasse.
Ja spetsifikatsioon ei ole meie kogu koolituspinu ega kõigi sisemiste poliitikate erisuste täielik kirjeldus. Eesmärk ei ole jäädvustada iga üksikasja. Selle eesmärk on muuta kõige olulisemad käitumist puudutavad otsused arusaadavaks viisil, mis on täielikult kooskõlas meie kavandatud mudeli käitumisega.
On mitu põhjust lisada spetsifikatsiooni nii palju üksikasju, selle asemel et eeldada, et lugeja – või mudel – suudab mõne üldise eesmärgi põhjal kõik järeldada.
Esiteks on mudeli spetsifikatsioon läbipaistvuse ja vastutuse tööriist. See on loodud selleks, et soodustada sisukat avalikku tagasisidet. Selge avalik siht aitab inimestel aru saada, kas mingi käitumine on viga või funktsioon. See annab neile kriitikaks ja konkreetse tagasiside jaoks stabiilse pidepunkti. Seepärast me muutsime mudeli spetsifikatsiooni avatud lähtekoodiga(avaneb uues aknas) ja otsustasime iteratsiooni teha avalikult. Alates esimesest väljalaskest on tehtud palju muudatusi avaliku tagasiside põhjal, mida on kogutud mitmesuguste mehhanismide kaudu, sealhulgas tagasisidevormide, avaliku kriitika ja teadlike pingutuste abil demokraatliku sisendi kogumiseks.
Teiseks, mudeli spetsifikatsioon on OpenAI-s koordineerimise vahend. See annab teadus-, toote-, ohutus-, poliitika-, õigus-, kommunikatsiooni- ja muude valdkondade inimestele ühise sõnavara mudeli käitumise arutamiseks ning mehhanismi muudatuste tegemiseks ja läbivaatamiseks.
Kolmandaks võivad selgesõnalised põhimõtted kompenseerida mudeli intelligentsuse ja käitusaja konteksti praktilisi piiranguid ning muuta käitumist etteaimatavamaks. Kuigi see muutub aja jooksul üha vähem tõeseks, on mõned põhimõtted suunatud ebapiisava intelligentsuse kompenseerimisele, kui mudelid ei pruugi kõrgema taseme põhimõtetest usaldusväärselt õiget käitumist tuletada. Näiteks Ole selge ja otsekohene(avaneb uues aknas) soovitas varasematel mudelitel keerukate arvutustega probleemide puhul näidata oma mõttekäiku enne vastuse esitamist, kuid tänapäeval õpivad meie mudelid selle käitumise kinnistava õppimise abil loomulikult selgeks.
Muud poliitikad käsitlevad käitusajal esinevat piiratud konteksti: assistent saab tugineda ainult sellele, mis on käesolevas suhtluses jälgitav, ning teab harva kasutaja täielikku olukorda, kavatsust, järgnevat kasutust või seda, millised kaitsemeetmed on olemas väljaspool mudelit. Neil juhtudel parandab täpsus tõhusust ja prognoositavust isegi siis, kui mudelid suudaksid piisava uurimise ja järelemõtlemise korral õige käitumise välja selgitada — koondades paljud kaalutlusotsused suuniseks, mis vähendab varieeruvust sarnaste viipade lõikes ning muudab käitumise nii kasutajatele kui ka teadlastele hõlpsamini mõistetavaks.
Lõpuks püüab mudeli spetsifikatsioon olla täielik loetelu kõrgetasemelistest põhimõtetest, mis on asjakohased hindamise ja mõõtmise jaoks. Kui soovid hinnata, kas mudel käitub ettenähtud viisil, on kasulik, kui sul on avalik loetelu peamistest käitumiskategooriatest, mis sulle korda lähevad.
On ahvatlev mõelda, et piisavalt võimekas mudel peaks suutma tuletada õige käitumise lühikesest eesmärkide loendist, näiteks „ole abivalmis ja ohutu“. Selles on omajagu tõtt. Valdkondades, kus edu kriteeriumid on objektiivsed, näiteks matemaatikas, võib intelligentsus sageli asendada üksikasjalikke reegleid.
Üldiselt ei ole mudeli käitumine võrreldav lihtsa matemaatikaülesande lahendamisega; mudelid tegutsevad sageli keerukamates valdkondades, kus puudub üksainus moraalselt õige vastus, millega kõik nõus saaksid olla. See, mida tähendab mudeli „abivalmis ja ohutu” olemus, sõltub suuresti kontekstist ning on väärtushinnangutest laetud otsustusprotsessi tulemus. Ainuüksi intelligentsus ei anna sulle juhiseid, milliseid kompromisse eetika ja väärtuste osas teha. Isegi kui mudelid muutuvad intelligentsemaks, on endiselt vaja teha tööd, et mõista ja suunata väärtushinnanguid ning selgitada, mida tähendab konkreetses olukorras „eetiliselt” tegutseda. Ja enamik põhjusi, miks mudeli spetsifikatsioon on vajalik, jäävad asjakohaseks ka siis, kui mudelid muutuvad palju võimekamaks: meil on endiselt vaja avalikku sihti, mille ümber inimesed saavad oma tegevust koordineerida, viisi, kuidas hinnata, kas käitumine vastab meie kavatsustele, ning mehhanismi reeglite läbivaatamiseks sellal, kui me õpime. Kui ainus reegel on „ole abivalmis ja ohutu“, siis puudub mehhanism, mille abil inimesed saaksid arutada näiteks selle üle, millise sisu pakkumisest mudel keelduma peaks, jättes kõik need otsused mudeli otsustada.
Kui üldse, siis sedamööda, kuidas mudelid muutuvad võimekamaks, agentlikumaks ja neid võetakse laialdasemalt kasutusele, suureneb mitmetimõistetavuse hind. See muudab selge käitumisraamistiku veelgi olulisemaks, mitte vähem oluliseks.
Üks kasulik analoogia on erinevus kirjaliku põhiseaduse ja kohtupraktika vahel. Kuigi kirjalik põhiseadus võib sisaldada nii üldpõhimõtteid kui ka konkreetseid reegleid, ei suuda see ette näha kõiki võimalikke juhtumeid, mis võivad tekkida ja vajada selle juhiseid. Ka tegelikud juhtimissüsteemid vajavad segaste juhtumite või ettenägematute probleemide lahendamiseks tõlgendusmehhanisme, täpsustusi ja selgesõnalisi otsuseid. Avaldatud reeglid aitavad eri huvirühmadel oma tegevust koordineerida isegi siis, kui nad on eriarvamusel, ning need piiravad muudatuste tegemist, nõudes, et iga muudatus oleks selgesõnaliselt määratletud. Mudeli spetsifikatsioon on mõeldud täitma kõiki neid rolle: põhimõtete sõnastus, avalik käitumisraamistik ja protsess spetsifikatsiooni ajas muutmiseks.
Seda arvestades ei usu me, et kõik, mis on mudeli käitumise juures oluline, oleks alati taandatav selgesõnalistele reeglitele. Kui süsteemid muutuvad autonoomsemaks, sõltuvad töökindlus ja usaldus üha enam laiematest oskustest ja hoiakutest: ebakindluse selge edastamine, autonoomia ulatuse austamine, ebameeldivate üllatuste vältimine, kavatsuste jälgimine aja jooksul ning inimväärtuste kontekstipõhine arutlus.
Mudeli spetsifikatsiooni kirjutamisel on skaala, mis ulatub tänase mudeli tegeliku käitumise kirjeldamisest koos kõigi puudustega kuni ideaalse kauge tuleviku sihi kirjeldamiseni. Püüame leida tasakaalu, seades sihiks tavaliselt 0-3 kuud praegusest hetkest ettepoole. Seega on mudeli spetsifikatsioon mudelist vähemalt mõnes aktiivse arenduse valdkonnas ees.
See kajastab mudeli spetsifikatsiooni rolli kavandatud käitumise kirjeldusena. See peaks suunama meid sidusas suunas, jäädes samal ajal kindlalt seotuks sellega, mida me juba teeme või mille rakendamiseks on meil lähiaja konkreetsed plaanid.
Mudeli spetsifikatsioon koostatakse avatud sisemise protsessi käigus. Igaüks OpenAI-s saab seda kommenteerida või teha muudatusettepanekuid ning lõplikud uuendused kiidab heaks lai valdkondadeülese sidusrühmade ring. Praktikas on teksti otseselt panustanud kümned inimesed ning oma arvamust avaldavad veel paljud teadustöö, inseneeria, tootearenduse, ohutuse, poliitika, juriidika, kommunikatsiooni, rahvusvaheliste suhete ja muude valdkondade spetsialistid. Me õpime ka avalikest väljalasetest ja tagasisidest, mis aitavad neid valikuid tegelikus kasutuses proovile panna.
See on oluline, sest mudeli käitumine ja selle mõjud maailmas on uskumatult keerulised. Keegi ei suuda korraga oma peas hoida kõiki käitumisviise, koolitusprotsessi ja edasisi mõjusid, kuid paljude valdkondadeüleste panustajate ja ülevaatajate abil saame kvaliteeti parandada ja kindlustunnet suurendada.
Üks meeldiv üllatus on olnud see, et tegelik konsensus on sageli võimalik — eriti siis, kui sunnime end kompromissid piisavalt täpselt kirja panema, nii et erimeelsused muutuvad konkreetseks.
Mudeli spetsifikatsioon ei ole samuti kirjutatud valmis vaakumis. Suur osa sellest, mis sinna jõuab, on kokkuvõte laiemast tööst käitumise, ohutuse ja põhimõtete vallas. Suur osa mudeli spetsifikatsiooni kirjutamisest on tegelikult tõlkimine: olemasoleva töö võtmine ja selle muutmine lihtsamaks, järjepidevamaks, paremini korrastatuks ja kättesaadavamaks, ilma et esialgne kavatsus kaoks.
Meie tootmiskasutuses olevad mudelid ei kajasta veel mitmel põhjusel täielikult mudeli spetsifikatsiooni.
- Mudeli koolitus võib jääda maha mudeli spetsifikatsiooni uuendustest. See kirjeldab käitumist, mille poole me püüdleme, seega võib see olla ees sellest, milleks meie uusimat mudelit on treenitud.
- Koolitus võib tahtmatult õpetada mudeli spetsifikatsiooniga vastuolus olevat käitumist. Me püüame seda igati vältida, ja kui see juhtub, käsitleme seda tõsise veana — töötades selle nimel, et kohandada kas käitumist või mudeli spetsifikatsiooni, et viia need omavahel kooskõlla.
- Koolitus ei saa kunagi täielikult hõlmata kõiki võimalikke käitumisviise. Tegelik kasutus hõlmab mitmesuguseid kontekste ja äärmusjuhtumeid, mis ilmnevad alles suuremas mastaabis, ning ükski treenimisprotsess ei suuda kõike hõlmata.
- Üldistamine võib erineda sellest, mida me kavatsesime. Mudel võib koolituse käigus anda „õigeid” väljundeid soovimatutel põhjustel, mis võib viia soovimatu käitumiseni uutes olukordades, mis erinevad koolituse käigus nähtutest. Tehnikad, nagu kaalutlev joondamine, aitavad, kuid need ei ole täielik lahendus.
Laiemalt ei tähenda asjaolu, et mudeli spetsifikatsioon kirjeldab laia valikut soovitud käitumisviise, et nende kõigi õpetamiseks oleks olemas üksainus meetod. Käitumise eri aspektid — juhiste järgimine, ohutuspiirid, isiksus, ebakindluse kalibreeritud väljendamine ja muud — nõuavad sageli erinevaid tehnikaid ning neil esineb erinevaid tõrkemustreid. Mudeli spetsifikatsioon aitab muuta kavandatud käitumise mõistmise ja kriitilise hindamise lihtsamaks, kuid selle hea rakendamine on endiselt nii kunst kui ka aktiivne uurimisvaldkond.
Koos selle postitusega avaldame mudeli spetsifikatsiooni hindamised(avaneb uues aknas): stsenaariumipõhise hindamiskomplekti, mis püüab väikese arvu esinduslike näidete abil hõlmata võimalikult paljusid mudeli spetsifikatsioonis toodud väiteid. See aitab meil jälgida, kus mudeli käitumine ja mudeli spetsifikatsioon võivad olla vastuolus, ning kontrollida, kas mudelid tõlgendavad mudeli spetsifikatsiooni nii, nagu me seda kavandasime. Need hindamised on vaid üks osa laiemast hindamisstrateegiast, mis hõlmab ka sihipärasemaid hindamisi paljude käitumise aspektide lõikes, sealhulgas konkreetseid ohutusvaldkondi, tõepärasust, lipitsemist, isiksust, stiili ja võimekust.
Diagramm OpenAI mudelite vastavusest mudeli spetsifikatsioonile jaotiste kaupa ajas. Vaata kaasnevat blogipostitust(avaneb uues aknas), et saada lisateavet hindamiste ja selle kohta, kuidas me neid tõlgendame. Lühidalt, usume, et need tulemused peegeldavad mudeli joondatuse tegelikke ja laiapõhjalisi edasiminekuid aja jooksul — kuigi neis kajastub ka väike mõju, mis tuleneb vanemate mudelite mõõtmisest uuemate põhimõtete alusel.
Praktikas on enamik spetsifikatsiooni uuendusi ajendatud korduvast sisendite kogumist:
- Avalikud probleemid ja tagasiside. Segadused, piirjuhud või tõrkerežiimid — kas mudeli spetsifikatsiooni keeles või meie mudelite käitumises.
- Sisemised probleemid. Mustrid, mida näeme arenduse ja testimise käigus, sealhulgas ebaselgused, kus erinevad mõistlikud tõlgendused viivad erineva käitumiseni.
- Käitumise ja ohutuspoliitika uuendused. Kui kõrgema taseme piirangud või kohustused muutuvad, peab spetsifikatsioon seda uut struktuuri selgelt kajastama.
- Uued võimalused ja tooted. Kui mudelid muutuvad võimekamaks ja me anname välja uusi tooteid, soovime, et mudeli spetsifikatsioon peaks sammu nii sisu kui ka ulatuse poolest – näiteks lisades reegleid multimodaalsete interaktsioonide jaoks(avaneb uues aknas), autonoomsete agentide jaoks(avaneb uues aknas) ja alla 18-aastaste kasutajate jaoks(avaneb uues aknas).
Mõned disainipõhimõtted juhivad seda, kuidas me mudeli spetsifikatsiooni koostame ja üle vaatame.
- Selgus ja täpsus. „Ole aus” on hea väärtus, kuid mitte täielik otsustusprotseduur. Mudeli spetsifikatsioon peaks erimeelsusi teravdama, mitte peitma neid leebelt kõlava keele taha. Kui see on otstarbekas, peaksime selgesõnaliselt välja tooma reeglite võimalikke vastuolusid ning andma juhiseid või näiteid nende lahendamise kohta. Näiteks osutab Ära valeta(avaneb uues aknas) võimalikule vastuolule põhimõttega Ole soe(avaneb uues aknas), selgitades, et abiline peaks järgima viisakusnorme, kuid hoiduma valedest, mis võiksid muutuda lipitsemine(avaneb uues aknas) ja olla vastuolus kasutaja parimate huvidega.
- Sisulised reeglid. Lugeja peaks suutma võtta realistliku viiba ja koostada vastuse, mille teine lugeja tunneb selgelt ära kui selgelt raamides oleva või neist väljuva (isegi kui piiripealsetel juhtudel on vaja teha kaalutlusotsuseid).
- Näited, mis maksimeerivad signaali ja müra suhet. Head näited on sageli keskse tähtsusega kvaliteetse spetsifikatsiooni uuenduse koostamisel. Näited peaksid aitama jõuda mudeli käitumise määratlemise raskuste tuumani, tuues keerulised konfliktid esile ja võttes selge seisukoha, kuidas neid lahendada. Teiseks peaksid nad püüdma olla soovitud toonile ja stiilile eeskujuks, mida võib olla keeruline proosas edasi anda.
- Vastupidavus. Me püüame vältida näiteid, mis sisaldavad tarbetut ebaselgust või keerukust, et põhikonflikt ja kavandatud lahendus oleksid selged.
- Järjepidevus ja selge korraldus. Me püüame tagada, et mudeli spetsifikatsiooni reeglid oleksid omavahel ja meie kavandatud mudeli käitumisega täielikult kooskõlas ning et dokumendi üldine ülesehitus oleks selge ja hõlpsasti mõistetav.
Mudeli spetsifikatsioon ei väida, et me suudame kirja panna kõike olulist või et mudelid tabavad alati märki. See on väide, et kavandatud käitumine on piisavalt oluline, et olla selge, rakendatav ja muudetav.
Kolm edukriteeriumi juhivad seda, kuidas me seda arendame.
- Loetavus. OpenAI-s ja väljaspool OpenAI-d olevad inimesed saavad kujundada täpseid ootusi käitumise kohta ning viidata tekstile, kui käitumine neid üllatab.
- Rakendatavus. Mudeli spetsifikatsiooni saab kasutada hindamiste kujundamiseks, intsidentide diagnoosimiseks ja järjepidevate tooteotsuste tegemiseks — mitte ainult väärtuste väljendamiseks.
- Muudetavus. Mudeli spetsifikatsioon saab areneda, kui me õpime juurde, muutumata ebastabiilseks liikuvaks sihtmärgiks.
Kuna mudelid ja tooted arenevad, eeldame, et mudeli spetsifikatsioon laieneb ja täpsustub kooskõlas uute võimekuste ja kasutuselevõtu kontekstidega. Eesmärk on hoida käitumuslik spetsifikatsioon sidus, testitav ja kooskõlas meie missiooniga tagada, et AGI tooks kasu kogu inimkonnale.


