Sa aming pamamaraan sa Spec ng Modelo
Habang nagiging mas may kakayahan at mas malawakang ginagamit ang mga system ng AI, kailangan natin ng malinaw na pampublikong balangkas kung paano dapat kumilos ang mga ito.
Sa OpenAI, naniniwala kami na dapat maging patas, ligtas, at malayang magamit ang AI para mas maraming tao ang makagamit nito sa pagresolba ng mahihirap na problema, paglikha ng mga oportunidad, at pagkuha ng benepisyo sa larangan ng kalusugan, agham, edukasyon, trabaho, at pang-araw-araw na buhay. Naniniwala kami na ang democratized access sa AI ang pinakamahusay na paraan pasulong: hindi AI na ang benepisyo o kontrol ay nasa kamay ng iilan, kundi AI na mas maraming tao ang may access, nakakaunawa, at nakakatulong humubog.
Iyan ang pangunahing dahilan kung bakit umiiral ang OpenAI spec ng modelo. Ang Spec ng Modelo(magbubukas sa bagong window) ay ang pormal naming balangkas para sa paggawi ng modelo. Ipinapakita nito kung paano namin gustong sumunod ang mga model sa mga instruction, mag-resolve ng conflict, igalang ang kalayaan ng user, at kumilos nang ligtas sa napakalawak na uri ng mga tanong na ibinibigay ng mga user araw-araw. Sa mas malawak na pananaw, ito ang aming pagsisikap na gawing malinaw ang inaasahang behavior ng mga model—hindi lang sa loob ng aming training process, kundi sa paraang mababasa, masusuri, at mapagtatalunan ng mga user, developer, researcher, policymaker, at ng mas malawak na publiko.
Ang Model Spec ay hindi nangangahulugang ganito na agad kumikilos nang perpekto ang aming mga model sa kasalukuyan. Sa maraming paraan, naglalarawan ito, pero nagsisilbi rin itong target kung saan natin gustong dalhin ang paggawi ng modelo. Ginagamit namin ito para gawing mas malinaw ang gustong pag-uugali, para maisanay kami tungo rito, masuri laban dito, at mapabuti ito sa paglipas ng panahon.
Ibinabahagi ng post na ito ang backstory na wala sa mismong Model Spec, kabilang ang pilosopiya at mekanika sa likod nito: kung paano ito naka-structure, bakit namin pinili ang ganitong structure, at kung paano namin ito sinusulat, ini-implement, at pinauunlad sa paglipas ng panahon.
Ang Model Spec ay isang bahagi ng mas malawak na approach ng OpenAI sa ligtas at accountable na AI. Habang ang Preparedness Framework ay nakatuon sa mga panganib mula sa mga frontier capability at sa mga safeguard na kailangan habang tumataas ang mga panganib na ito, tinutugunan naman ng Model Spec ang ibang pero complementary na tanong: kung paano dapat kumilos ang aming mga model sa iba’t ibang sitwasyon. Kung titingnan sa mas malawak na perspektibo, layunin ng AI resilience na tugunan ang mas malaking hamon sa lipunan—kung paano makuha ang benepisyo ng advanced AI habang binabawasan ang disruption at mga bagong panganib habang patuloy na dine-deploy ang mas capable na mga system. Sa kabuuan, layunin ng mga inisyatibong ito na gawing mas dahan-dahan, iterative, at madaling maunawaan ng publiko ang paglipat sa AGI—binibigyan ang mga tao at institusyon ng oras para mag-adapt, habang binubuo ang mga safeguard, mekanismo ng pananagutan, at pag-unawa ng publiko na kailangan para manatiling naka-align ang powerful na AI sa interes ng tao.
Mahalaga ang malinaw na pag-unawa ng publiko sa paggawi ng model para sa pagiging patas at kaligtasan. Mahalaga ito para sa pagiging patas dahil kailangang maunawaan ng mga tao kung paano at bakit sila tinatrato ng AI sa ganoong paraan—at upara matukoy, kuwestyunin, at matugunan ang mga alalahanin tungkol sa pagiging patas kapag lumitaw ang mga ito. At mahalaga ito para sa kaligtasan dahil habang nagiging mas may kakayahan ang mga AI system, kailangan ng mga tao at institusyon ng mas malinaw na mga inaasahan kung paano inaasahang kumilos ang mga ito, kung anong mga kapalit ang kinakatawan ng mga ito, at kung paano mapapahusay ang mga pagpiling iyon sa pagdaan ng panahon. Ang ganitong kalinawan ay sumusuporta rin sa katatagan dahil nagbibigay ito sa mas maraming tao ng konkretong bagay na masusuri, matatanong, at mapapahusay.
Mula nang ilabas ang unang bersyon noong 2024, malaki na ang naging pagbabago ng Model Spec habang mas natututo kami tungkol sa mga kagustuhan at pangangailangan ng user, pinalalawak ito para sumaklaw at maka-adapt sa mas advanced na kakayahan, at natututo mula sa feedback ng publiko tungkol sa paggawi ng modelo at sa Model Spec. Sa diwa ng iterative deployment, ang Model Spec ay isang patuloy na nagbabagong dokumento na sumasaklaw sa background values at malinaw, madaling maunawaang mga panuntunan—kasama ang proseso para baguhin ang mga partikular na bahagi habang natututo kami mula sa real-world deployment at feedback. Namumuhunan din kami sa mga mekanismo ng pampublikong feedback tulad ng kolektibong pagkakahanay para makatulong na mapanatili ang kontrol ng sangkatauhan sa kung paano ginagamit ang AI at kung paano hinuhubog ang paggawi ng AI.
Sa loob ng organisasyon, nagbibigay ito sa amin ng pangunahing gabay para sa nilalayong paggawi at ng iisang balangkas para sa pagsasanay, pagsusuri, at pamamahala. Sa panlabas, lumilikha ito ng pampublikong batayan ng sanggunian na magagamit ng mga tao para maunawaan ang aming diskarte, suriin ito nang kritikal, at tumulong na mapabuti ito sa paglipas ng panahon.
Ang spec ng modelo ay binubuo ng ilang iba’t ibang uri ng gabay para sa modelo. Sinasadya iyon. Magkakaiba ang paraan ng pag-handle sa iba’t ibang bahagi ng paggawi ng modelo, at ang kapaki-pakinabang na pampublikong dokumento ay dapat higit pa sa simpleng paglista ng mga panuntunan.
Nagsisimula ang Spec ng Modelo sa pangkalahatang layunin: malinaw na paliwanag kung ano ang gusto naming i-optimize sa system level, at kung bakit.
Nililinaw ng panimulang bahagi na ito ang tatlong layunin kung paano namin isusulong ang aming misyon:
- Paulit-ulit na i-deploy ang mga modelo na nagbibigay-lakas sa mga developer at user
- Pigilan ang aming mga modelo sa pagdulot ng malubhang pinsala sa mga user o iba pa
- Panatilihin ang lisensyang magpatakbo ng OpenAI
Pagkatapos, ipinapaliwanag nito kung paano namin binabalanse ang mga layuning ito sa aktwal na paggamit, para gawing sapat na malinaw ang mga tradeoff at masuportahan ang mas detalyadong mga prinsipyo na kasunod.
Mahalaga, hindi ito nilalayong maging direktang tagubilin sa model ang paunang salita. Kapakinabangan sa sangkatauhan ang layunin ng OpenAI, hindi layunin na gusto naming habulin ng mga model nang kusa. Sa halip, gusto naming sumunod ang mga model sa chain of command na kasama ang Model Spec at ang mga naaangkop na instruction mula sa OpenAI, developer, at user—kahit may mga hindi sumang-ayon sa resulta sa ilang sitwasyon..
Naniniwala kaming ito ang tamang balanse dahil pinahahalagahan namin ang human autonomy at intellectual freedom. Kung sasanayin namin ang mga modelo na magpasya kung aling mga instruction ang susundin batay sa sarili naming pananaw kung ano ang mabuti para sa lipunan, malalagay ang OpenAI sa posisyong magpasya tungkol sa moralidad sa napakalawak na antas. Gayunpaman, mahalaga pa rin ang paunang salita. Kapag may kalabuan sa kung paano ilapat ang Spec ng Modelo, dapat makatulong ang pambungad na lutasin ito.
Kasama rin sa Model Spec ang mga pampublikong commitment na lampas sa direktang nasusukat na paggawi ng model, tulad ng layunin ng pagsasanay at mga limitasyon sa pag-deploy. Halimbawa, kabilang sa aming mga prinsipyong red-line(magbubukas sa bagong window) ang pangakong sa mga first-party deployment tulad ng ChatGPT, hindi namin kailanman gagamitin ang mga system message para sadyang ikompromiso ang pagiging layunin(magbubukas sa bagong window) o mga kaugnay na prinsipyo; at ang Walang iba pang mga layunin(magbubukas sa bagong window) ay gumagawa ng mga pangako tungkol sa aming layuning i-optimize ang mga tugon ng modelo para sa kapakinabangan ng user at hindi para sa kita o hindi kapaki-pakinabang na oras sa site.
Sa core ng Model Spec ang Chain of Command: isang framework para matukoy kung aling mga instruction ang dapat sundin sa isang sitwasyon. Sinasaklaw din nito kung paano dapat pangasiwaan ng modelo ang mga tagubiling kulang sa detalye, lalo na sa mga agentic na sitwasyon kung saan inaasahang pupunan nito ang mga detalye nang awtonomo habang maingat na kinokontrol ang mga epekto sa totoong mundo.
Simple ang pangunahing ideya sa likod ng pagdedesisyon kung aling mga tagubilin ang dapat ilapat. Puwede manggaling ang mga tagubilin sa iba’t ibang pinagmulan, kabilang ang OpenAI, mga developer, at user. Puwedeng magkasalungat ang mga tagubilin na iyon. Ipinapaliwanag ng Chain of Command kung paano dapat i-resolve ng model ang mga conflict na iyon.
Bawat patakaran ng Model Spec at bawat tagubilin ay binibigyan ng antas ng awtoridad(magbubukas sa bagong window). Inaatasan ang model na unahin ang diwa at layunin ng mas mataas na awtoridad na mga tagubilin kapag may conflict. Kung humingi ng tulong ang user sa paggawa ng bomba, dapat unahin ng modelo ang mahigpit na mga hangganan sa kaligtasan(magbubukas sa bagong window). Kapag humiling ang user na i-roast siya, dapat karaniwang unahin ng model ang request na iyon kaysa sa mas mababang authority na patakaran laban sa abuso(magbubukas sa bagong window) sa Model Spec.
Binibigyang-daan kami ng istrukturang ito na tumukoy ng medyo maliit na hanay ng mga panuntunang hindi puwedeng i-override, kasabay ng mas malaking hanay ng mga default. Ganyan namin sinusubukang mapalaki ang kalayaan ng user at kontrol ng developer nang isinasaalang-alang ang mga limitasyong pangkaligtasan.
- Ang Mahihigpit na tuntunin ay malinaw na mga hangganan na hindi puwedeng i-override ng user o developer (sa terminolohiya ng Model Spec, tinatawag itong “root” o “system” level na mga tagubilin). Kadalasan, ito ay mga pagbabawal na nag-uutos sa model na iwasan ang mga paggawi na puwedeng magdulot ng malubhang panganib o direktang pisikal na pinsala, lumabag sa batas, o makasira sa chain of command. Inaasahan naming maging pundamental na teknolohiya ang AI para sa lipunan, katulad ng pangunahing imprastraktura ng internet, kaya naglalagay lang kami ng mga panuntunang puwedeng maglimita sa kalayaang intelektwal kapag talagang kailangan para sa malawak na hanay ng mga developer at user na makikipag-interact dito. Sa Spec ng Modelo, ang Manatili sa mga hangganan(magbubukas sa bagong window) ay naglalaman ng mahihigpit na tuntunin na tumutugon sa mga kongkretong panganib sa kaligtasan sa totoong mundo, at ang Mga Prinsipyo para sa mga wala pang 18 taong gulang(magbubukas sa bagong window) ay nagdaragdag ng mga karagdagang pananggalang para sa mga gumagamit na wala pang 18 taong gulang.
- Ang mga default ay mga panimulang puntong puwedeng i-override: ang “pinakamahusay na hula” na pag-uugali ng assistant kapag hindi nagtakda ng kagustuhan ang user o developer. Gumagamit kami ng mga default para gawing mahuhulaan at makontrol ang kilos nang malawakan, para mahulaan ng mga tao ang mangyayari nang hindi na kailangang magsulat ng pasadyang hanay ng mga tagubilin sa bawat pagkakataon. Pinapanatili ng mga default ang kakayahang magabayan: puwedeng tahasang gabayan ng mga user at developer ang tono, lalim, format, at maging pananaw, sa loob ng mga hangganan ng kaligtasan. Ang guideline-level na defaults (tulad ng tone o style) ay dinisenyo para madaling ma-adjust, habang ang user-level na mga default (tulad ng truthfulness at objectivity) ay nagsisilbing anchor para sa tiwala at predictability at puwede lang i-override sa pamamagitan ng malinaw na mga tagubilin. Hindi dapat basta nagbabago ang mga iyon batay lang sa “vibes”; kung gusto ng user ng ibang factual stance, mas maayos kung gagawin itong malinaw na tagubilin para maging transparent at madaling maunawaan ang pagbabago. Makikita ang mga default na ito sa Sama-samang hanapin ang katotohanan(magbubukas sa bagong window), Gawin ang pinakamahusay na gawain(magbubukas sa bagong window), at Gumamit ng angkop na estilo(magbubukas sa bagong window), kabilang ang mga pamantayan sa katapatan at obhetibidad, pag-iwas sa sycophancy, at mga pamantayan sa interaksyon tulad ng pagiging direkta at pagkamagiliw at propesyonalismong naaangkop sa konteksto.
Bukod sa mismong hierarchy, gumagamit ang spec ng modelo ng mga pantulong sa pagbibigay-kahulugan para matulungan ang mga modelo (at mga tao) na mailapat ito nang pare-pareho sa mga hindi malinaw na sitwasyon. Kabilang sa mga tulong na ito ang:
- Mga rubric sa pagdedesisyon na tumutulong sa modelo na gumawa ng mga pare-parehong pagpili sa mga hindi malinaw na sitwasyon, nang hindi nagpapanggap na may iisang mekanikal na tuntunin. Halimbawa, ang gabay ng Model Spec sa pagkontrol sa mga side effect(magbubukas sa bagong window) ay naglilista ng mga konsiderasyon tulad ng pag-minimize ng irreversible na mga aksyon, pagpapanatiling proporsyonal ang mga aksyon sa layunin, pagbawas ng mga hindi inaasahang problema, at pag-prioritize ng mga pamamaraang mababaligtad,—na dapat balansehin sa iba pang layunin tulad ng mabilis at epektibong pagtapos ng gawain.
- Konkretong halimbawa na nagpapakita kung paano i-apply ang isang prinsipyo sa aktwal na paggamit. Mga maiikling halimbawa ng prompt at sagot na karaniwang may kasamang sumusunod at hindi sumusunod na sagot, madalas para sa mahirap na prompt na malapit sa mahalagang hangganan ng desisyon. Hindi layunin na gayahin ang buong realistic na usapan. Layunin nitong gawing malinaw ang pangunahing pagkakaiba, at ipakita rin ang gustong istilo ng pagtugon.
Pinapanatili naming medyo maliit ang bilang ng mga halimbawa at nakatuon sa mga pinaka-nakapagtuturo.. Nakatutulong ang mas malalawak na suite ng pagsusuri na masaklaw ang mas malaking bahagi ng long tail.
Isang halimbawa na naglalarawan ng mga prinsipyo ng kalayaang intelektwal at hindi pagiging mapanghusga mula sa seksyon ng Spec na Ipalagay ang pinakamabubuting hangarin(magbubukas sa bagong window).
Ang Spec ay isang interface, hindi isang implementasyon. Inilalarawan nito ang pag-uugaling gusto namin, hindi ang bawat detalye kung paano namin ginagawa ang pag-uugalìng iyon. Sinusubukan naming iwasang iugnay ito sa mga detalye ng implementasyon, gaya ng mga internal na format ng token o ang eksaktong proseso ng pagsasanay para sa isang partikular na pag-uugali, dahil puwedeng magbago ang mga detalyeng iyon kahit hindi nagbabago ang gustong pag-uugali. Ang pangunahing audience ng Spec ng Modelo ay hindi ang model kundi ang mga tao: layunin nitong tulungan ang mga empleyado ng OpenAI, user, developer, researcher, at policymaker na maunawaan, mapag-usapan, at makapagdesisyon tungkol sa inaasahang paggawi.
Inilalarawan din ng Spec ang modelo, hindi ang buong produkto. Kinukumpleto ito ng aming mga patakaran sa paggamit, na naglalahad ng aming mga inaasahan sa kung paano dapat gamitin ng mga tao ang API at ChatGPT. Ang system na ginagamit mo ay hindi lang ang model: mahalaga rin ang mga feature tulad ng mga custom instruction at memory, pati monitoring, policy enforcement, at iba pang layer. Higit pa sa pag-uugali ng modelo ang kaligtasan, at naniniwala kami sa malalim na depensa.
At ang Spec ay hindi kumpletong paliwanag ng buong training stack namin o ng bawat pagkakaiba sa panloob na patakaran. Hindi layunin na ilahad ang bawat detalye. Layunin nitong gawing malinaw ang pinakamahahalagang desisyon sa pag-uugali, sa paraang ganap na tugma sa inaasahang pag-uugali ng modelo.
May ilang dahilan para maglagay ng ganito karaming detalye sa Spec sa halip na ipagpalagay na mahihinuha ng mambabasa—o ng modelo—ang lahat mula sa ilang mataas na antas na layunin.
Una, ang Spec ng Modelo ay isang tool para sa transparency at pananagutan . Dinisenyo ito para mahikayat ang makabuluhang pampublikong feedback. Ang malinaw na public target ay tumutulong para matukoy kung ang pag-uugali ay bug o feature. Nagbibigay ito sa kanila ng matatag na batayan para sa pamumuna at kongkretong puna. Iyon ang dahilan kung bakit ginawa naming open source(magbubukas sa bagong window) ang Spec ng Modelo at pinipili naming umulit nang hayagan. Mula noong unang paglabas, marami nang pagbabagong ginawa batay sa feedback ng publiko, na nakalap sa pamamagitan ng iba't ibang mekanismo kabilang ang mga feedback form, mga pampublikong kritika, at sinasadyang pagsisikap na mangalap ng mga demokratikong pananaw.
Pangalawa, ang Spec ng Modelo ay isang tool sa koordinasyon sa loob ng OpenAI. Nagbibigay ito sa mga tao sa pananaliksik, produkto, kaligtasan, patakaran, legal, komunikasyon, at iba pang mga tungkulin ng bokabularyo para sa pagtalakay sa gawi ng modelo at mekanismo para sa pagmumungkahi at pagrerepaso ng mga pagbabago.
Pangatlo, ang mga tahasang patakaran ay puwedeng bumawi sa mga praktikal na limitasyon sa intelihensiya ng modelo at konteksto ng runtime at gawing mas predictable ang paggawi. Bagaman unti-unting nagiging hindi gaanong totoo ito sa paglipas ng panahon, may ilang patakaran na naglalayong bumawi sa kakulangan sa intelihensiya, kung saan maaaring hindi mapagkakatiwalaang mahinuha ng mga modelo ang tamang paggawi mula sa mas mataas na antas ng mga prinsipyo. Halimbawa, ang Maging malinaw at direkta(magbubukas sa bagong window) ay nag-advise sa mga naunang model na ipakita muna ang proseso bago ibigay ang sagot para sa mahihirap na problem na may kalkulasyon, pero ngayon natutunan na ito ng aming mga modelo sa pamamagitan ng pagpapatibay ng pag-aaral.
Tinutugunan ng ibang mga patakaran ang limitadong konteksto habang tumatakbo ito: puwede lang umasa ang assistant sa kung ano ang naoobserbahan sa kasalukuyang interaksiyon, at bihira nitong malaman ang buong sitwasyon ng user, layunin, kasunod na paggamit, o kung anong mga pananggalang ang umiiral sa labas ng modelo. Sa mga kasong iyon, kahit na puwedeng matukoy ng mga modelo ang tamang gawi sa pamamagitan ng sapat na pananaliksik at pag-iisip, ang pagiging tiyak ay nagpapahusay sa kahusayan at pagiging mahuhulaan—isinisiksik ang maraming pagpapasyang nakabatay sa paghatol sa iisang gabay na nagbabawas ng pagkakaiba-iba sa magkakatulad na prompt at ginagawang mas madaling maunawaan ang gawi para sa mga user at mananaliksik.
Sa wakas, nilalayon ng Spec ng Modelo na maging kumpletong listahan ng mga mataas na antas na patakaran na may kaugnayan sa pagsusuri at pagsukat. Kung gusto mong masuri kung kumikilos ang modelo ayon sa nilalayon, kapaki-pakinabang na magkaroon ng pampublikong listahan ng mga pangunahing kategorya ng paggawi na mahalaga sa inyo.
Nakakaakit isipin na ang isang modelo na may sapat na kakayahan ay dapat na makapaghinuha ng tamang pag-uugali mula sa isang maikling listahan ng mga layunin tulad ng "maging matulungin at ligtas." May kaunting katotohanan iyan. Sa mga larangan na may mga olayuning pamantayan ng tagumpay, tulad ng matematika, madalas na maipalit ang talino sa mga detalyadong panuntunan.
Pero sa pangkalahatan, ang gawi ng modelo ay hindi tulad ng paglutas ng simpleng problema sa matematika; ang mga modelo ay madalas na gumagana sa mas masalimuot na mga sitwasyon kung saan walang iisang sagot na tama sa moral na maaaring mapagkasunduan ng lahat. Ang kahulugan, halimbawa, ng pagiging “kapaki-pakinabang at ligtas” ng isang modelo ay lubos na nakadepende sa konteksto at bunga ng likas na pagpapasya na may kalakip na mga pagpapahalaga. Hindi lang katalinuhan ang makapagsasabi sa iyo kung anong mga kompromiso ang gagawin pagdating sa etika at mga pinahahalagahan. Kaya kahit humuhusay sa katalinuhan ang mga modelo, kailangan pa rin nating magsikap para maunawaan at magabayan ang mga paghatol batay sa mga pagpapahalaga/kung ano ang ibig sabihin ng kumilos nang “etikal” sa isang partikular na pagkakataon. At karamihan sa mga dahilan para sa pagkakaroon ng Model Spec ay nananatiling may kaugnayan kahit na nagiging mas may kakayahan ang mga modelo na: kailangan pa rin natin ng pampublikong target na puwedeng pag-ugnayin ng mga tao, isang paraan para masuri kung ang pag-uugali ay naaayon sa ating mga intensyon, at isang mekanismo para sa pagbabago ng mga patakaran habang natututo tayo. Kung ang tanging tuntunin ay "maging matulungin at ligtas," walang mekanismo kung saan puwedeng pagtalunan ng mga tao, halimbawa, ang mga hangganan kung aling nilalaman ang dapat tanggihan ng modelo na ibigay, na iniiwan ang lahat ng mga desisyong ito sa modelo.
Sa katunayan, habang mas nagiging capable, mas agentic, at mas malawak ang deployment ng mga modelo, mas tumataas ang halaga ng kalabuan. Dahil dito, lalo pang nagiging mahalaga ang isang malinaw na balangkas ng pag-uugali, hindi kabaligtaran.
Isang kapaki-pakinabang na analohiya ang pagkakaiba sa pagitan ng nakasulat na konstitusyon at batas batay sa mga naunang pasya ng hukuman. Bagaman puwedeng magbigay ang nakasulat na konstitusyon ng mga prinsipyong may mataas na antas pati na rin ng mga konkretong tuntunin, hindi nito puwedeng mahulaan ang lahat ng posibleng mga kaso na puwedeng lumitaw at mangailangan ng gabay nito. Kailangan din ng mga tunay na governance system ng interpretive machinery, mga paglilinaw, at malilinaw na ruling para ma-resolba ang mga komplikadong kaso o hindi inaasahang isyu. Ang mga na-publish na panuntunan ay tumutulong sa iba’t ibang stakeholder na mag-coordinate kahit may hindi pagkakasundo, at nililimitahan din nito ang pagbabago dahil kailangan maging malinaw ang anumang pagbabago. Layunin ng spec ng modelo na gampanan ang lahat ng tungkuling ito: isang pahayag ng mga prinsipyo, ang pampublikong balangkas ng pag-uugali, at ang proseso para sa pagbabago ng spec sa paglipas ng panahon.
Gayunpaman, hindi namin iniisip na lahat ng mahalagang aspeto ng behavior ng model ay laging maipapaliwanag sa pamamagitan ng malinaw na mga panuntunan. Habang mas nagiging autonomous ang mga system, mas nakadepende ang reliability at tiwala sa mas malawak na kakayahan at disposisyon: malinaw na pag-communicate ng kawalang katiyakan, pagrespeto sa saklaw ng autonomy, pag-iwas sa mga hindi kanais-nais na sorpresa, pag-track ng intent sa paglipas ng panahon, at mahusay na pangangatwiran tungkol sa mga pagpapahalagang pantao sa tamang konteksto.
Kapag isinusulat ang Spec ng Modelo, may isang hanay sa pagitan ng paglalarawan sa aktuwal na paggawi ng modelo sa kasalukuyan, kasama ang lahat ng kapintasan nito, at ng paglalarawan sa ideal na target para sa malayong hinaharap. Sinusubukan naming panatilihin ang balanse, at karaniwang nilalayon ang humigit-kumulang 0–3 buwan mula sa kasalukuyan. Kaya, ang Spec ng Modelo ay madalas na nauuna sa modelo sa hindi bababa sa ilang larangan ng aktibong pag-develop.
Ipinapakita niyon ang papel ng spec ng modelo bilang paglalarawan ng layuing paggawi. Dapat nitong ituro tayo sa malinaw na direksyon habang nananatiling nakabatay sa ating mga ginagawa na o may mga konkretong plano sa malapit na hinaharap na panahon na ipatutupad.
Binubuo ang Spec ng Modelo sa pamamagitan ng bukas na internal na proseso. Sinuman sa OpenAI ay maaaring magkomento rito o magmungkahi ng mga pagbabago, at inaaprubahan ang mga pinal na pag-update ng isang malawak na hanay ng mga stakeholder mula sa iba't ibang tungkulin. Sa praktika, dose-dosenang tao ang direktang nag-ambag ng teksto, at mas marami pa mula sa pananaliksik, engineering, produkto, kaligtasan, patakaran, legal, komunikasyon, pandaigdigang ugnayan, at iba pang mga tungkulin ang nagbibigay ng kanilang pananaw. Natututo rin kami mula sa mga pampublikong paglulunsad at puna, na tumutulong upang masusing subukin ang mga pagpiling ito sa aktwal na paggamit.
Mahalaga ito dahil ang gawi ng modelo—at ang mga implikasyon nito sa mundo—ay napakakumplikado. Walang sinuman ang kayang maikintal sa isip ang buong hanay ng mga gawi, ang proseso ng pagsasanay, at ang mga downstream na implikasyon, pero sa tulong ng maraming cross-functional na contributor at reviewer, mapapabuti natin ang kalidad at mapapataas ang kumpiyansa.
Isang kaaya-ayang sorpresa ang naging na madalas na posible ang tunay na pagkakasundo—lalo na kapag pinipilit nating isulat nang sapat na tiyak ang mga kapalit para maging kongkreto ang mga hindi pagkakasundo.
Hindi rin isinulat nang hiwalay sa konteksto ang spec ng modelo. Karamihan sa mga napupunta rito ay isang buod ng mas malawak na gawain sa pag-uugali, kaligtasan, at patakaran. Karamihan sa pagsulat ng Spec ng Modelo ay talagang pagsasalin: pagkuha ng mga umiiral na gawain at paggawa nito na mas simple, mas pare-pareho, mas organisado, at mas madaling ma-access nang hindi nawawala ang pinagbabatayang layunin.
Hindi pa ganap na naipapakita ng aming mga production model ang Model Spec dahil sa ilang dahilan.
- Puwedeng mahuli ang pagsasanay ng modelo sa mga update ng spec ng modelo. Inilalarawan nito ang pag-uugali na pinagsisikapan naming maabot, kaya puwedei itong mas mauna kaysa sa kung ano ang sinanay na gawin ng aming pinakabagong modelo.
- Puwedeng hindi sinasadyang maituro sa training ang pag-uugali na hindi tugma sa Spec ng Modelo. Pinagsisikapan naming maiwasan ito, at kapag nangyari, tinuturing namin itong seryosong bug—inaayos namin ang behavior o ang Spec ng Modelo para mag-align ang dalawa.
- Hindi kailanman ganap na masasaklaw ng pagsasanay ang kabuuan ng lahat ng posibleng gawi. Sa aktwal na paggamit, napakaraming iba’t ibang context at edge case ang lumalabas lang kapag malaki na ang scale, at walang training process ang kayang masaklaw ang lahat.
- Puwedeng magkaiba ang pagpapalawak sa layunin natin. Puwedeng makagawa ang modelo ng mga “tamang” output sa pagsasanay dahil sa mga hindi nilalayong dahilan, na puwedeng humantong sa hindi layuning pag-uugali sa mga bagong sitwasyong naiiba sa mga nakita sa pagsasanay. Nakakatulong ang mga pamamaraan tulad ng maingat na pagsasaayos, pero hindi ito kumpletong solusyon.
Sa mas malawak na pananaw, ang katotohanang inilalarawan ng spec ng modelo ang malawak na hanay ng mga gustong gawi ay hindi nangangahulugang may iisang paraan para ituro ang lahat ng ito. Kadalasang nangangailangan ang iba't ibang aspeto ng gawi—pagsunod sa tagubilin, mga hangganan sa kaligtasan, personalidad, nakaangkop na pagpapahayag ng kawalang-katiyakan, at iba pa— ng iba't ibang pamamaraan at may magkakaibang mga paraan ng pagkabigo. Nakakatulong ang Spec ng Modelo para gawing mas madaling maunawaan at masuri ang nilalayong pag-uugali, pero nananatiling isang sining at aktibong larangan ng pananaliksik ang mahusay na pagpapatupad nito.
Kasabay ng post na ito, inilalabas namin ang Spec ng Modelong Evals(magbubukas sa bagong window): isang suite ng ebalwasyong nakabatay sa mga sitwasyon na sumusubok masaklaw ang pinakamaraming pahayag sa spec ng modelo hangga't posible gamit ang maliit na bilang ng mga halimbawang kumakatawan. Nakakatulong ito sa amin na matukoy kung saan puwedeng hindi magkatugma ang asal ng modelo at ang spec ng modelo, at nakakatulong din ito sa amin na suriin kung binibigyang-kahulugan ng mga modelo ang spec ng modelo sa paraang nilayon namin. Isang bahagi lang ng mas malawak na estratehiya sa pagsusuri ang mga pagsusuring ito na kinabibilangan din ng mas naka-target na mga pagtatasa sa maraming dimensyon ng paggawi, kabilang ang mga partikular na larangan ng kaligtasan, katotohanan at sycophancy, personalidad at estilo, at mga kakayahan.
Tsart ng pagsunod sa Spec ng Modelo ng OpenAI ayon sa seksyon para sa mga modelong OpenAI sa paglipas ng panahon. Para sa mga detalye tungkol sa mga pagsusuri at kung paano namin binibigyang-kahulugan ang mga ito, pakitingnan ang kasamang blog post(magbubukas sa bagong window). Sa madaling sabi, naniniwala kami na sumasalamin sa tunay at malawak na mga pagpapabuti sa pagkakatugma ng modelo ang mga resultang ito sa paglipas ng panahon—bagaman sumasalamin din ang mga ito sa maliit na epekto dahil sinusukat ang mas lumang mga modelo laban sa mas bagong mga patakaran.
Sa pagsasagawa, karamihan sa mga pag-update ng Spec ay hinihimok ng isang paulit-ulit na hanay ng mga input:
- Mga pampublikong isyu at feedback. Mga kalituhan, edge case, o failure mode—maging sa wika ng Spec ng Modelo o sa paggawi ng aming mga modelo.
- Mga internal na isyu. Mga pattern na nakikita namin sa panahon ng development at testing, kabilang ang mga kalabuan kung saan ang iba't ibang makatwirang interpretasyon ay humahantong sa magkaibang pag-uugali.
- Mga update sa patakaran sa asal at kaligtasan. Kapag nagbago ang mas mataas na antas na mga limitasyon o mga commitment, kailangang malinaw na maipakita ng Model Spec ang bagong istrukturang iyon.
- Mga bagong kakayahan at produkto. Habang nagiging mas may kakayahan ang mga modelo sa mga bagong paggawi at naglalabas kami ng mga bagong produkto, gusto naming makasabay ang Spec ng Modelo sa nilalaman at saklaw—halimbawa, sa pagdaragdag ng mga panuntunan para sa mga multimodal na pakikipag-ugnayan(magbubukas sa bagong window), awtonomong ahente(magbubukas sa bagong window), at user na wala pang 18 taong gulang(magbubukas sa bagong window).
Ilang prinsipyo sa disenyo ang gumagabay sa kung paano namin isinusulat at nirerebisa ang Spec ng Modelo.
- Kalinawan at precision. Magandang value ang “Be honest,” pero hindi ito sapat bilang kumpletong paraan ng pagdedesisyon. Dapat pinapalinaw ng Model Spec ang mga hindi pagkakasundo, hindi tinatakpan gamit ang mukhang kaaya-ayang wika. Kung isasagawal, dapat nating tahasang tukuyin ang mga posibleng salungatan sa pagitan ng mga tuntunin at magbigay ng gabay o mga halimbawa kung paano lulutasin ang mga ito. Halimbawa, itinuturo ng Huwag magsinungaling(magbubukas sa bagong window) ang posibleng salungatan sa Maging magiliw(magbubukas sa bagong window), na nagpapaliwanag na dapat sumunod ang assistant sa mga pamantayan ng pagiging magalang, pero hindi umaabot sa mga ‘white lie’ na maaaring mauwi sa sycophancy(magbubukas sa bagong window) at sumalungat sa pinakamabuting interes ng user.
- Makabuluhang mga panuntunan. Dapat na makasagot ang isang mambabasa nang makatotohanan at makapagbigay ng sagot na malinaw na nakikilala ng ibang mambabasa sa loob o labas ng linya (kahit na may mga paghuhusga sa hangganan ng sitwasyon).
- Mga halimbawang nama-maximize ang signal kumpara sa ingay. Ang mahuhusay na halimbawa ay kadalasang mahalaga sa pag-update ng de-kalidad na spec. Dapat makatulong ang mga halimbawa na matukoy ang pinakaugat ng mga kahirapan sa pagtukoy sa paggawi ng modelo, ilantad ang mahihirap na salungatan, at maglatag ng malinaw na paninindigan kung paano lulutasin ang mga ito. Pangalawa, dapat nilang sikaping maging mga huwaran ng gustong tono at istilo, na puwedeng mahirap ipahayag sa prosa.
- Katatagan. Sinusubukan naming iwasan ang mga halimbawang may hindi kailangang kalabuan o sobrang komplikasyon, para maging malinaw ang pangunahing salungatan at ang inaasahang paglutas.
- Pagkakapare-pareho at malinaw na organisasyon. Sinisikap naming maging ganap na naaayon ang mga tuntunin ng Spec ng Modelo sa isa't isa at sa aming nilalayong pag-uugali ng modelo, at para gawing malinaw at madaling maunawaan ang pangkalahatang organisasyon ng dokumento.
Ang Spec ng Modelo ay hindi pahayag na kaya naming maisulat ang lahat ng mahalaga, o na laging matatamaan ng mga modelo ang target. Ipinapakita nito na mahalagang maging malinaw, maisasagawa, at puwedeng i-revise ang inaasahang paggawi.
Tatlong pamantayan ng tagumpay ang gumagabay sa kung paano namin ito pinauunlad.
- Kadaliang basahin. Ang mga tao sa loob at labas ng OpenAI ay makabubuo ng tumpak na mga inaasahan tungkol sa paggawi at puwedeng tumukoy sa text kapag may paggawing ikinagugulat nila.
- Maisasagawa. Ang spec ng modelo ay maaaring gamitin upang magdisenyo ng mga ebalwasyon, mag-diagnose ng mga insidente, at gumawa ng pare-parehong mga desisyon sa produkto—hindi lamang upang magpahayag ng mga pinahahalagahan.
- Kakayahang i-revise. Puwedeng mag-evolve ang Spec ng Modelo habang natututo kami, nang hindi nagiging pabago-bagong target.
Habang umuunlad ang mga modelo at produkto, inaasahan naming lalawak at magiging mas malinaw ang Spec ng Modelo kasabay ng mga bagong kakayahan at konteksto ng pag-deploy. Layunin naming panatilihing magkakaugnay, masusubok, at naka-align sa aming misyon na tiyaking nakikinabang ang buong sangkatauhan sa AGI ang ispesipikasyon ng pag-uugali.


