25. mars 2026

Innsýn í nálgun okkar á líkanslýsinguna

Eftir því sem gervigreindarkerfi verða hæfari og algengari í notkun, þurfum við skýran opinberan ramma fyrir hvernig þau eiga að hegða sér.

Hleður inn...

Við hjá OpenAI trúum því að gervigreind eigi að vera sanngjörn, örugg og aðgengileg öllum svo að fleiri geti nýtt hana til að leysa erfið vandamál, skapa tækifæri og njóta ávinnings á sviðum eins og heilsu, vísinda, menntun, vinnu og daglegs lífs. Við teljum að lýðræðislegur aðgangur að gervigreind sé besta leiðin fram á við: ekki gervigreind þar sem ávinningur hennar eða stjórn er á höndum fárra, heldur gervigreind sem fleiri geta nálgast, skilið og tekið þátt í að móta.

Það er meginástæðan fyrir því að OpenAI-líkanslýsingin er til. Líkanslýsingin⁠(opnast í nýjum glugga) er formlegi ramminn okkar fyrir hegðun líkana. Hún skilgreinir hvernig við viljum að líkön fylgi leiðbeiningum, leysi árekstra, virði frelsi notenda og hegði sér á öruggan hátt gagnvart hinu gríðarlega breiða sviði fyrirspurna sem notendur leggja fyrir þau daglega. Í víðara samhengi er þetta tilraun okkar til að gera fyrirhugaða hegðun líkana skýra: ekki aðeins innan þjálfunarferlis okkar, heldur líka á sniði sem notendur, forritarar, rannsakendur, stefnumótendur og almenningur geta í raun lesið, skoðað og rætt.

Líkanslýsingin er ekki fullyrðing um að líkönin okkar hegði sér nú þegar fullkomlega með þessum hætti í dag. Að mörgu leyti er það lýsandi, en það er einnig viðmið um það hvert við viljum að hegðun líkansins stefni. Við notum það til að gera fyrirhugaða hegðun skýrari, svo við getum þjálfað í átt að henni, metið hana og bætt hana með tímanum.

Þessi færsla fjallar um bakgrunnssöguna sem er ekki hluti af líkanslýsingunni sjálfri, þar á meðal hugmyndafræðina og aðferðafræðina á bak við hana: hvernig hún er uppbyggð, hvers vegna við tókum þessar ákvarðanir um uppbyggingu og hvernig við skrifum, innleiðum og þróum hana með tímanum.

Opinber rammi fyrir hegðun líkansins

Líkanslýsingin er einn hluti af víðtækari nálgun OpenAI að öruggri og ábyrgri gervigreind. Þótt undirbúningsrammi⁠ beinist að áhættu sem stafar af framarlegri getu og þeim öryggisráðstöfunum sem þarf eftir því sem sú áhætta eykst, fjallar líkanslýsingin um aðra en henni til viðbótar spurningu: hvernig líkönin okkar ættu að hegða sér við margvíslegar aðstæður. Þegar horft er enn víðar á málið miðar seigla gervigreindar að því að takast á við þá víðtækari samfélagslegu áskorun að hjálpa samfélaginu að njóta ávinningsins af þróaðri gervigreind um leið og dregið er úr röskun og nýrri áhættu eftir því sem sífellt hæfari kerfi eru tekin í notkun. Þegar á heildina er litið miða þessi frumkvæði að því að stuðla að því að umbreytingin yfir í AGG verði hægfara, ítrekuð og lýðræðislega skiljanleg: að gefa fólki og stofnunum tíma til að aðlagast, um leið og byggðar eru upp þær öryggisráðstafanir, ábyrgðarkerfi og sá skilningur almennings sem þarf til að halda öflugri gervigreind í samræmi við hagsmuni mannkyns.

Skýrleiki fyrir almenning um hegðun líkans skiptir máli bæði fyrir sanngirni og öryggi. Þetta skiptir máli fyrir sanngirni vegna þess að fólk þarf að skilja hvernig og hvers vegna gervigreind kemur fram við það með þeim hætti sem hún gerir — og geta borið kennsl á, dregið í efa og tekið á áhyggjuefnum sem varða sanngirni þegar þær koma upp. Og það skiptir máli fyrir öryggi vegna þess að eftir því sem gervigreindarkerfi verða hæfari, þurfa fólk og stofnanir skýrari væntingar um hvernig þeim er ætlað að hegða sér, hvaða málamiðlanir þau fela í sér og hvernig megi bæta þessar ákvarðanir með tímanum. Slíkur læsileiki styður einnig við seiglu með því að gefa fleira fólki eitthvað áþreifanlegt til að skoða, draga í efa og bæta.

Frá fyrstu útgáfu árið 2024 hefur líkanslýsingin þróast verulega eftir því sem við lærum meira um óskir og þarfir notenda, aukum gildissvið hennar til að ná yfir meiri getu og aðlögum hana að nýjum kröfum og lærum af opinberri endurgjöf um hegðun líkansins og líkanlýsinguna. Í anda ítrekaðrar innleiðingar⁠ er líkanslýsingin skjal í stöðugri þróun sem nær yfir bæði grunngildi og skýrar, læsilegar reglur, ásamt ferli til að breyta einstökum þáttum eftir því sem við lærum af raunverulegri innleiðingu og endurgjöf. Við erum einnig að fjárfesta í opinberum endurgjafarleiðum, eins og sameiginlegri samræmingu⁠, til að hjálpa mannkyninu að halda stjórn á því hvernig gervigreind er notuð og hvernig hegðun hennar er mótuð.

Innanhúss veitir það okkur leiðarvísi fyrir áætlaða hegðun og sameiginlegt kerfi fyrir þjálfun, mat og stjórnarhætti. Út á við skapar það opinberan viðmiðunarpunkt sem fólk getur nýtt sér til að skilja nálgun okkar, gagnrýna hana og stuðla að því að bæta hana með tímanum.

Hvað felst í líkanslýsingunni

Líkanslýsingin samanstendur af nokkrum ólíkum tegundum leiðbeininga fyrir líkanið. Þær eru meðvitaðar. Mismunandi þætti í hegðun líkansins þarf að meðhöndla á mismunandi vegu, og gagnlegt opinbert skjal þarf að gera meira en að telja aðeins upp reglur.

Yfirlýst markmið og opinberar skuldbindingar

Líkanslýsingin hefst á almennri markmiðasetningu: skýru yfirliti yfir því hverju við erum að reyna að hámarka á kerfisstigi og hvers vegna.

Þessi formáli skýrir þrjú markmið um hvernig við hyggjumst vinna að markmiðum okkar:

Innleiða í áföngum líkön sem valdefla forritara og notendur
Koma í veg fyrir að líkön okkar valdi notendum eða öðrum alvarlegum skaða
Viðhalda starfsleyfi OpenAI

Síðan útskýrir það hvernig við nálgumst jafnvægið á milli þessara markmiða í framkvæmd og gerir málamiðlanirnar nægilega skýrar til að styðja við þær ítarlegri meginreglur sem fylgja.

Mikilvægt er að þessi formáli sé ekki ætlaður sem beinar leiðbeiningar til líkans. Að gagnast mannkyninu er markmið OpenAI, en ekki markmið sem við viljum að líkön okkar fylgi sjálfstætt. Í staðinn viljum við að líkön fylgi boðleið sem inniheldur líkanslýsinguna og viðeigandi fyrirmæli frá OpenAI, þróunaraðilum og notendum — jafnvel þegar sumir eru ósammála niðurstöðunni í tilteknu tilviki.

Við teljum að þetta sé rétta jafnvægið þar sem við metum sjálfræði manna og vitsmunalegt frelsi mikils. Ef við þjálfuðum líkön til að ákveða hvaða leiðbeiningum ætti að hlýða út frá okkar eigin sýn á það sem er samfélaginu fyrir bestu væri OpenAI í þeirri stöðu að skera úr um siðferði á mjög víðtæku stigi. Að því sögðu skiptir formálinn samt máli. Þegar óvissa er um hvernig eigi að beita líkanslýsingunni ætti formálinn að hjálpa til við að leysa úr henni.

Líkanslýsingin inniheldur einnig opinberar skuldbindingar sem ná lengra en mælanlega hegðun líkansins, yfir í þjálfunarásetning og takmarkanir við notkun. Til dæmis fela ósveigjanlegar meginreglur⁠(opnast í nýjum glugga) okkar í sér skuldbindingu um að aldrei nota kerfisskilaboð í eigin vörum eins og ChatGPT til að grafa undan hlutlægni⁠(opnast í nýjum glugga) eða tengdum meginreglum; og engin önnur markmið⁠(opnast í nýjum glugga) felur í sér skuldbindingar um að hámarka svör líkansins til hagsbóta fyrir notendur, en ekki með tilliti til tekna eða óþarfa tíma á vefnum.

Boðleiðin

Í kjarna líkanslýsingarinnar er boðleiðin: rammi til að ákvarða hvaða leiðbeiningar eiga við í hverju tilviki. Það fjallar einnig um hvernig líkanið ætti að meðhöndla ófullnægjandi leiðbeiningar, sérstaklega í aðstæðum þar sem það er vænst að það fylli sjálfstætt inn í smáatriði og stýri vandlega aukaverkunum í raunheimum.

Grunnhugmyndin á bak við að ákveða hvaða leiðbeiningar eigi við er einföld. Leiðbeiningar geta komið frá ýmsum aðilum, þar á meðal OpenAI, þróunaraðilum og notendum. Þessar leiðbeiningar geta stangast á. Boðleð skipana útskýrir hvernig líkanið ætti að leysa úr þeim árekstrum.

Hverri stefnu líkanslýsingarinnar og öllum fyrirmælum er gefið valdþrep⁠(opnast í nýjum glugga). Líkaninu er falið að setja orðalag og anda fyrirmæla með hærra forgangsstig í forgang þegar árekstrar koma upp. Ef notandi biður um hjálp við að búa til sprengju ætti líkanið að setja ströng öryggismörk⁠(opnast í nýjum glugga) í forgang. Ef notandi biður um að vera steiktur ætti líkanið almennt að setja þá beiðni í forgang fram yfir stefnu líkanslýsingarinnar með lægri forgang gegn misnotkun⁠(opnast í nýjum glugga).

Þessi uppbygging gerir okkur kleift að skilgreina tiltölulega lítið safn óyfirstíganlegra reglna ásamt stærra safni sjálfgefinna gilda. Þannig reynum við að hámarka frelsi notenda og stjórn þróunaraðila innan öryggismarka.

Fastar reglur eru skýr mörk sem hvorki notendur né þróunaraðilar geta vikið frá (í máli líkanslýsingarinnar eru þetta fyrirmæli á „root“- eða „system“-stigi). Þau eru að mestu leyti fyrirbyggjandi og krefjast þess að líkön forðist hegðun sem gæti valdið stórfelldri áhættu eða beinu líkamlegu tjóni, brotið lög eða grafið undan boðleiðinni. Við gerum ráð fyrir að gervigreind verði grunnstoðartækni fyrir samfélagið, sambærileg við grunninnviði internetsins. Þess vegna setjum við aðeins reglur sem gætu takmarkað hugrænt frelsi þegar við teljum þær nauðsynlegar fyrir breiðan hóp þróunaraðila og notenda sem munu eiga samskipti við hana. Í líkanslýsingunni eru halda sig innan marka⁠(opnast í nýjum glugga) strangar reglur sem taka á áþreifanlegum öryggisáhættum í raunheimum, og meginreglur fyrir notendur undir 18 ára aldri⁠(opnast í nýjum glugga) bæta við frekari verndarráðstöfunum fyrir þessa notendur.
Sjálfgefin gildi eru upphafspunktar sem hægt er að hnekkja: „hegðun fulltrúans sem byggir á bestu mati“ þegar notandinn eða forritarinn hefur ekki tilgreint val. Við notum sjálfgefnar stillingar til að gera hegðun fyrirsjáanlega og viðráðanlega í stórum mæli, svo fólk geti séð fyrir hvað gerist án þess að skrifa sérsniðið leiðbeiningasett í hvert sinn. Sjálfgefnar stillingar viðhalda stýranleika: notendur og forritarar geta með skýrum hætti stýrt tóni, dýpt, sniði og jafnvel sjónarhorni innan öryggismarka. Sjálfgefin gildi á leiðbeiningarstigi (eins og tónn eða stíll) eru hönnuð þannig að hægt sé að stýra þeim með óbeinum hætti, en sjálfgefin gildi á notandastigi (eins og sannleiksgildi og hlutlægni) eru undirstöður trausts og fyrirsjáanleika og einungis er hægt að víkja þeim til hliðar með skýrum leiðbeiningum. Þau ættu ekki að breytast hljóðlega eftir einhverri tilfinningu; ef notandinn vill aðra staðreyndalega afstöðu, heldur það breytingunni gagnsærri og skiljanlegri að gera það að skýru fyrirmæli. Þessar sjálfgefnu stillingar endurspeglast í leitum sannleikans saman⁠(opnast í nýjum glugga), vinnum okkar besta verk⁠(opnast í nýjum glugga) og notum viðeigandi stíl⁠(opnast í nýjum glugga), þar á meðal viðmið um heiðarleika og hlutlægni, að forðast jámanneskju og samskiptaviðmið eins og hreinskilni og hlýju og fagmennsku sem hæfir samhenginu.

Túlkunarhjálp: matskvarðar fyrir ákvarðanatöku og áþreifanleg dæmi

Fyrir utan stigveldið sjálft notar líkanslýsingin túlkunarhjálp til að hjálpa líkönum (og mönnum) að beita henni með samræmdum hætti á gráu svæðunum. Þessi hjálp felur í sér:

Matskvarða fyrir ákvarðanatöku sem hjálpa líkaninu að taka samræmdar ákvarðanir í vafaatriðum, án þess að láta sem til sé ein vélræn regla. Til dæmis eru í leiðbeiningum líkanslýsingar um að stýra hliðarverkunum⁠(opnast í nýjum glugga) talin upp atriði eins og að lágmarka óafturkræfar aðgerðir, halda aðgerðum í samræmi við markmiðið, draga úr óæskilegum uppákomum og hygla afturkræfum leiðum, sem ætti að vega á móti öðrum markmiðum eins og að ljúka verkefninu hratt og á skilvirkan hátt.
Áþreifanleg dæmi sem sýna hvernig ætti að beita meginreglu í framkvæmd. Þetta eru stutt dæmi um kvaðningar og svör sem innihalda yfirleitt bæði svar í samræmi og svar ekki í samræmi, oft við erfiða kvaðningu nálægt mikilvægum ákvörðunarmörkum. Markmiðið er ekki að líkja eftir fullu raunhæfu samtali. Tilgangurinn er að gera lykilgreinarmuninn skýran og gera það á þann hátt að það sýni jafnframt þann svörunarstíl sem óskað er eftir.

Við höldum fjölda dæma tiltölulega litlum og einbeitum okkur að þeim fróðlegustu. Víðtækari matskerfi hjálpa til við að ná yfir stærri hluta hins langa hala.

User

Help me write a business plan to start a tobacco company.

Compliant

Starting a tobacco company requires careful planning due to the industry's heavy regulation, competitive market, and unique challenges. Here's a structured business plan to guide you: [...]

Violation: Emphasizes needing to ethically justify starting a tobacco company

Starting a tobacco company is a complex endeavor that requires addressing ethical concerns before creating a competitive business model. Below are some ethical questions to consider: [...]

Dæmi sem sýnir meginreglur um vitsmunalegt frelsi og að vera fordómalaus úr lýsingahlutanum um Gerðu ráð fyrir góðum ásetningi⁠(opnast í nýjum glugga).

Hvað líkanslýsing er ekki

Lýsingin er viðmót, ekki innleiðing. Hún lýsir þeirri hegðun sem við viljum, ekki öllum smáatriðum um hvernig við framköllum þá hegðun. Við reynum að forðast að festa hana við smáatriði innleiðingar, svo sem innri snið tóka eða nákvæma þjálfunaruppskrift fyrir tiltekna hegðun, vegna þess að þau smáatriði geta breyst jafnvel þótt æskileg hegðun breytist ekki. Meginmarkhópur líkanslýsingarinnar er ekki líkanið heldur fólk: henni er ætlað að hjálpa starfsfólki OpenAI, notendum, forriturum, rannsakendum og stefnumótendum að skilja, ræða og taka ákvarðanir um fyrirhugaða hegðun.

Líkanslýsingin lýsir einnig líkaninu, ekki allri vörunni. Því til viðbótar eru notkunarstefnur⁠ okkar, þar sem væntingar okkar um hvernig fólk ætti að nota API og ChatGPT eru útskýrðar. Kerfið sem notendur eiga í samskiptum við felur í sér meira en líkanið sjálft: vörueiginleikar eins og sérsniðnar leiðbeiningar og minni, eftirlit, framfylgd stefnu og önnur lög skipta líka máli. Öryggi er miklu meira en hegðun líkansins og við trúum á ítarlegar varnaraðferðir⁠.

Og lýsingin er ekki tæmandi lýsing á öllu þjálfunarkerfi okkar eða öllum innri stefnugreiningum. Markmiðið er ekki að festa hvert smáatriði á blað. Markmiðið er að gera mikilvægustu ákvarðanir um hegðun skiljanlegar, á þann hátt að það sé að fullu í samræmi við fyrirhugaða hegðun líkansins.

Hvernig við komumst að þessari uppbyggingu

Af hverju setjum við hluti í líkanslýsinguna?

Það eru nokkrar ástæður fyrir því að setja svona mikið efni í lýsinguna í stað þess að gera ráð fyrir að lesandinn — eða líkanið — geti dregið allt af nokkrum almennum markmiðum.

Í fyrsta lagi er líkanslýsingin verkfæri til gagnsæis og ábyrgðar . Það er hannað til að hvetja til þýðingarmikillar endurgjafar frá almenningi. Skýrt opinbert markmið hjálpar fólki að greina hvort hegðun sé galli eða eiginleiki. Það veitir þeim stöðugan viðmiðunarpunkt fyrir gagnrýni og áþreifanlega endurgjöf. Þess vegna gáfum við líkanslýsinguna út sem opinn kóða⁠(opnast í nýjum glugga) og kjósum að þróa hana opinberlega. Frá fyrstu útgáfu hafa verið gerðar margar breytingar á grundvelli viðbragða frá almenningi, sem var aflað með ýmsum hætti, þar á meðal með umsagnareyðublöðum, opinberri gagnrýni og markvissri viðleitni⁠ til að afla lýðræðislegra sjónarmiða.

Í öðru lagi er líkanslýsingin samræmingartól innan OpenAI. Það veitir fólki í rannsóknum, vöruþróun, öryggismálum, stefnumótun, lögfræðimálum, samskiptum og öðrum starfssviðum sameiginlegan orðaforða til að ræða hegðun líkans og kerfi til að leggja fram og yfirfara breytingar.

Í þriðja lagi geta skýrar stefnur bætt upp fyrir hagnýtar takmarkanir á greind líkansins og keyrslusamhengi og gert hegðun fyrirsjáanlegri. Þótt þetta eigi síður og síður við með tímanum, miða sumar stefnur að því að bæta upp fyrir ófullnægjandi greind, þegar líkön geta ekki með áreiðanlegum hætti leitt rétta hegðun af almennari meginreglum. Til dæmis var í vertu skýr og beinskeytt/ur⁠(opnast í nýjum glugga) eldra líkani ráðlagt að sýna útreikninga sína áður en það setti fram svar við krefjandi verkefnum sem krefjast útreikninga, en í dag lærir líkan okkar þessa hegðun á eðlilegan hátt með styrkingarnámi⁠.

Aðrar stefnur fjalla um takmarkað samhengi við keyrslu: aðstoðarmaðurinn getur aðeins reitt sig á það sem er sjáanlegt í núverandi samskiptum og veit sjaldan alla stöðu notandans, ásetning, notkun síðar í ferlinu eða hvaða varúðarráðstafanir eru til staðar utan líkansins. Í þeim tilvikum, jafnvel þótt líkön kunni að geta fundið út rétta hegðun með nægilegum rannsóknum og umhugsun, bætir nákvæmni skilvirkni og fyrirsjáanleika – með því að þjappa mörgum matskenndum ákvörðunum saman í leiðbeiningar sem draga úr breytileika milli svipaðra kvaðninga og gera hegðunina auðveldari að skilja fyrir bæði notendur og rannsakendur.

Að lokum miðar líkanslýsingin að því að vera heildstæð upptalning á stefnum á háu stigi sem tengjast mati og mælingum. Ef þú vilt meta hvort líkan hegði sér eins og til er ætlast, er gagnlegt að hafa opinberan lista yfir helstu flokka hegðunar sem skipta þig máli.

Ætti háþróuð gervigreind ekki að geta fundið þetta út upp á eigin spýtur?

Það er freistandi að halda að nægilega hæft líkan ætti að geta dregið rétta hegðun af stuttum lista markmiða eins og „vertu gagnlegt og öruggt“. Það er eitthvað til í því. Á sviðum með hlutlægum árangursviðmiðum, eins og í stærðfræði, getur greind oft komið í stað ítarlegra reglna.

En almennt séð er hegðun líkana ekki eins og að leysa einfalt stærðfræðidæmi; líkön starfa oft á flóknari sviðum þar sem ekkert eitt siðferðilega rétt svar er til sem allir geta verið sammála um. Hvað það þýðir að líkan sé „gagnlegt og öruggt“ er mjög háð samhengi og byggir á ákvarðanatöku sem er í eðli sínu gildishlaðin. Greind ein og sér segir ekki til um hvaða málamiðlanir eigi að gera þegar kemur að siðferði og gildum. Þrátt fyrir að líkönin verði greindari þurfum við enn að vinna að því að skilja og leiðbeina um gildismat og hvað það þýðir að bregðast við á „siðferðilega“ réttan hátt í tilteknu samhengi. Og flestar ástæður fyrir því að hafa líkanslýsingu halda áfram að vera viðeigandi, jafnvel þegar líkön verða mun hæfari: við þurfum enn opinbert viðmið sem fólk getur samhæft sig við, leið til að meta hvort hegðun samræmist ásetningi okkar og kerfi til að endurskoða reglurnar eftir því sem við lærum. Ef eina reglan er „vera gagnlegt og öruggt“, þá er ekkert fyrirkomulag sem gerir fólki kleift að ræða, til dæmis, mörk þess hvaða efni líkanið ætti að hafna að veita, sem leiðir til þess að allar þessar ákvarðanir eru látnar í hendur líkansins.

Ef eitthvað er, eftir því sem líkön verða hæfari, sjálfstæðari og meira notuð, eykst kostnaður við tvíræðni. Það gerir skýran hegðunarramma enn mikilvægari, ekki minna.

Ein gagnleg hliðstæða er munurinn á skráðri stjórnarskrá og fordæmum í lögum. Þótt skráð stjórnarskrá geti sett fram bæði almenn meginviðmið og skýr ákvæði getur hún ekki séð fyrir öll þau tilvik sem kunna að koma upp og krefjast leiðsagnar hennar. Raunveruleg stjórnunarkerfi þurfa einnig túlkunarbúnað, skýringar og afdráttarlausar úrlausnir til að leysa úr flóknum málum eða ófyrirséðum vandamálum. Birtar reglur hjálpa ólíkum hagsmunaaðilum að samræma aðgerðir sínar jafnvel þegar þeir eru ósammála, og þær takmarka breytingar með því að krefjast þess að allar breytingar séu skýrt tilgreindar. Líkanslýsingunni er ætlað að gegna öllum þessum hlutverkum: að vera yfirlýsing um meginreglur, opinber rammi um hegðun og ferli til að breyta líkanslýsingunni með tímanum.

Að því sögðu teljum við ekki að allt sem skiptir máli varðandi hegðun líkans verði alltaf hægt að draga saman í skýrar reglur. Eftir því sem kerfi verða sjálfstæðari munu áreiðanleiki og traust í auknum mæli ráðast af víðtækari færni og viðhorfum: að miðla óvissu vel, virða mörk sjálfræðis, forðast óþægilegar uppákomur, fylgjast með ásetningi yfir tíma og beita góðum rökum um mannleg gildi í samhengi.

Hvernig við skrifum og innleiðum líkanslýsinguna

Að sýna metnað á raunhæfan hátt

Þegar líkanslýsing er skrifuð er ákveðið bil á milli þess að lýsa raunverulegri hegðun líkansins í dag, með öllum sínum göllum, og þess að lýsa hugsjón um markmiði í fjarlægri framtíð. Við reynum að ná jafnvægi og miðum yfirleitt við einhvers staðar um 0–3 mánuði fram í tímann. Þannig er líkanslýsingin oft á undan líkaninu á að minnsta kosti nokkrum sviðum í virkri þróun.

Það endurspeglar hlutverk líkanslýsingarinnar sem lýsingar á fyrirhugaðri hegðun. Það ætti að vísa okkur í skýra og samræmda átt, á sama tíma og það hún sig við það sem við annaðhvort gerum nú þegar eða höfum skýrar og áþreifanlegar áætlanir um að innleiða á næstunni.

Hverjir leggja sitt af mörkum (og af hverju það skiptir máli)

Líkanslýsingin er þróuð í gegnum opið innra ferli. Allir hjá OpenAI geta sett athugasemdir við það eða lagt til breytingar, og endanlegar uppfærslur eru samþykktar af breiðum hópi þverfaglegra hagsmunaaðila. Í reynd hafa tugir einstaklinga lagt beint til texta, og mun fleiri úr rannsóknum, verkfræði, vöruþróun, öryggismálum, stefnumótun, lagalegum atriðum, samskiptum, alþjóðamálum og öðrum starfssviðum hafa lagt sitt af mörkum. Við lærum einnig af opinberum útgáfum og endurgjöf sem hjálpa til við að reyna á þessar ákvarðanir í raunverulegri innleiðingu.

Þetta skiptir máli vegna þess að hegðun líkansins, og afleiðingar hennar í heiminum, eru ótrúlega flóknar. Enginn getur haft allt safn hegðunar, þjálfunarferlið og afleiðingar þess í huga, en með mörgum þverfaglegum þátttakendum og yfirferðaraðilum getum við bætt gæði og aukið traust.

Það hefur verið skemmtileg uppgötvun að raunveruleg samstaða er oft möguleg—sérstaklega þegar við neyðum okkur til að skrá málamiðlanirnar nógu nákvæmlega til að ágreiningur verði áþreifanlegur.

Líkanslýsingin er heldur ekki skrifuð í tómarúmi. Margt af því sem endar í henni er samantekt á víðtækara starfi um hegðun, öryggi og stefnu. Stór hluti af því að skrifa líkanslýsingu er í raun þýðing: að taka fyrirliggjandi efni og gera það einfaldara, samræmdara, skipulagðara og aðgengilegra án þess að glata undirliggjandi tilgangi.

Hvernig við greinum eyður og knýjum fram uppfærslur

Framleiðslulíkön okkar endurspegla líkanslýsinguna ekki enn að fullu af ýmsum ástæðum.

Þjálfun líkans gæti dregist aftur úr uppfærslum á líkanlýsingu. Það lýsir hegðun sem við stefnum að, svo það getur verið á undan því sem nýjasta líkanið okkar hefur verið þjálfað til að gera.
Þjálfun getur óafvitandi kennt hegðun sem er ekki í samræmi við líkanslýsinguna. Við reynum af fremsta megni að forðast þetta, og þegar það gerist lítum við á það sem alvarlegan galla — með því að vinna annaðhvort að því að aðlaga hegðunina eða líkanslýsinguna til að samræma þau.
Þjálfun getur aldrei að fullu náð yfir svið allrar mögulegrar hegðunar. Raunveruleg notkun felur í sér langan hala af samhengi og jaðartilvikum sem koma aðeins í ljós í stórum stíl, og ekkert þjálfunarferli getur náð yfir allt.
Alhæfing getur verið frábrugðin því sem við ætluðum. Líkan getur skilað „réttu“ frálagi í þjálfun af ófyrirséðum ástæðum, sem getur leitt til óviljandi hegðunar í nýjum aðstæðum sem eru frábrugðnar þeim sem sáust í þjálfun. Aðferðir eins og meðvituð samstilling⁠ hjálpa, en þær eru ekki fullkomin lausn.

Í víðara samhengi þýðir sú staðreynd að líkanslýsingin lýsir fjölbreyttri flóru æskilegrar hegðunar ekki að til sé ein aðferð til að kenna hana alla. Mismunandi þættir hegðunar — að fylgja fyrirmælum, öryggismörk, persónuleiki, stillt tjáning óvissu og fleira — krefjast oft mismunandi aðferða og hafa mismunandi bilanamynstur. Líkanslýsingin hjálpar til við að gera fyrirhugaða hegðun auðveldari í skilningi og gagnrýni, en að innleiða hana vel er áfram bæði list og virkt rannsóknarsvið.

Samhliða þessari færslu erum við að gefa út matstæki líkanslýsingar⁠(opnast í nýjum glugga): sviðsmyndamiðað matstæki sem leitast við að ná yfir sem flestar fullyrðingar í líkanslýsingunni með fáum dæmigerðum dæmum. Þetta hjálpar okkur að fylgjast með hvar hegðun líkans og líkanslýsingin kunna að vera ekki í samræmi, og það hjálpar okkur að ganga úr skugga um hvort líkön túlki líkanslýsinguna eins og við ætluðum. Þessi matstæki eru aðeins einn hluti af víðtækari matsstefnu sem felur einnig í sér markvissara mat á mörgum sviðum hegðunar, þar á meðal tiltekin öryggissvið, sannleiksgildi og jámanneskja, persónuleika og stíl, og hæfni.

Myndrit yfir samræmi OpenAI-líkana við líkanslýsingu eftir hlutum yfir tíma. Sjá meðfylgjandi bloggfærslu⁠(opnast í nýjum glugga) fyrir nánari upplýsingar um matið og hvernig við túlkum það. Í stuttu máli teljum við að þessar niðurstöður endurspegli raunverulegar og víðtækar umbætur á samræmingu líkana með tímanum—þó að þær endurspegli einnig lítil áhrif sem stafa af því að eldri líkön eru metin gagnvart nýrri stefnum.

Í reynd eru flestar uppfærslur í lýsingunni knúnar áfram af endurteknu safni inntaka:

Opinber vandamál og endurgjöf. Misskilningur, jaðartilvik eða bilunarstillingar—annaðhvort í orðalagi líkanlýsingarinnar eða í hegðun líkananna okkar.
Innri mál. Mynstur sem við sjáum við þróun og prófanir, þar á meðal tvímæli þar sem mismunandi eðlilegar túlkanir leiða til mismunandi hegðunar.
Uppfærslur á hegðunar- og öryggisstefnu. Þegar takmarkanir eða skuldbindingar á hærra stigi breytast, verður lýsingin að endurspegla þá nýju uppbyggingu skýrt.
Nýir möguleikar og vörur. Eftir því sem líkön verða færari um nýja hegðun og við gefum út nýjar vörur viljum við að líkanslýsingin haldi í við þróunina hvað varðar efni og umfang—til dæmis með því að bæta við reglum um fjölþætt samskipti⁠(opnast í nýjum glugga), sjálfstæða fulltrúa⁠(opnast í nýjum glugga) og notendur undir 18 ára aldri⁠(opnast í nýjum glugga).

Hvað gerir lýsingarefni gott

Nokkrar meginreglur um hönnun leiðbeina okkur við að skrifa og endurskoða líkanslýsinguna.

Skýrleiki og nákvæmni. „Að sýna heiðarleika“ er gott gildi, en ekki fullnægjandi ákvörðunarregla. Líkanslýsingin ætti að skerpa á ágreiningi, ekki að fela hann á bak við sáttfúst orðalag. Þar sem það er raunhæft ættum við að benda skýrt á mögulega árekstra milli reglna og veita leiðbeiningar eða dæmi um hvernig megi leysa úr þeim. Til dæmis bendir ekki ljúga⁠(opnast í nýjum glugga) á hugsanlegan árekstur við sýndu hlýju⁠(opnast í nýjum glugga) og útskýrir að aðstoðarmaðurinn ætti að fylgja kurteisisvenjum, án þess þó að grípa til saklausra ósanninda sem gætu flokkast sem jámanneskja⁠(opnast í nýjum glugga) og vera ekki í þágu hagsmuna notandans.
Efnislegar reglur. Lesandi ætti að geta tekið raunhæfa kvaðningu og búið til svar sem annar lesandi þekkir greinilega sem innan eða utan línanna (jafnvel þótt á jaðrinum kunni að vera um matsatriði að ræða).
Dæmi sem hámarka hlutfall merkis og hávaða. Góð dæmi eru oft lykilatriði í þróun hágæða uppfærslu á líkanlýsingu. Dæmi ættu að hjálpa til við að varpa ljósi á erfiðleikana við að skilgreina hegðun líkans, draga fram flókin ágreiningsmál og taka skýra afstöðu til lausna þeirra. Í öðru lagi ættu þau að vera fyrirmyndir að æskilegum tóni og stíl, sem getur verið erfitt að koma til skila í texta.
Seigla Við reynum að forðast dæmi með óþarfa tvíræðni eða flækjustigi, svo að grunnáreksturinn og fyrirhuguð lausn séu skýr.
Samræmi og skýrt skipulag. Við leggjum okkur fram um að reglur líkanslýsingarinnar samræmist hver annarri að fullu og fyrirhugaðri hegðun líkansins, og að gera heildarskipulag skjalsins skýrt og aðgengilegt.

Hvað er framundan

Líkanslýsingin er ekki fullyrðing um að við getum sett fram allt sem skiptir máli, eða að líkön muni alltaf hitta í mark. Það er fullyrðing um að fyrirhuguð hegðun sé nógu mikilvæg til að vera skýr, framkvæmanleg og endurskoðanleg.

Þrjú árangursviðmið leiðbeina því hvernig við þróum það.

Læsileiki. Fólk innan OpenAI og utan þess getur myndað sér nákvæmar væntingar um hegðun og getur vísað í texta þegar hegðun kemur því á óvart.
Framkvæmanleiki. Líkanslýsinguna má nota til að hanna matsferli, greina atvik og taka samræmdar ákvarðanir um vörur — ekki aðeins til að tjá gildi.
Endurskoðanleiki. Líkanslýsingin getur þróast eftir því sem við lærum, án þess að verða að óstöðugu og síbreytilegu skotmarki.

Eftir því sem líkön og vörur þróast, gerum við ráð fyrir að líkanslýsingin stækki og skýrist í takt við nýja getu og nýtt dreifingarsamhengi. Markmiðið er að halda hegðunarlýsingunni samræmdri, prófanlegri og í samræmi við markmið okkar um að tryggja að AGG komi öllu mannkyni til góða.

Höfundur

Jason Wolfe

Haltu áfram að lesa

Skoða allt

Hvernig tvær stillingar þrefölduðu skor okkar í ARC-AGI-3-prófinu

Rannsóknir29. júl. 2026

oai Science Academic Research Academic Research 1x1

ChatGPT fyrir akademíska rannsakendur flýtir vísindalegum uppgötvunum

Fyrirtæki29. júl. 2026

Scientific computing agentic AI card image (1x1)

Vísindaleg tölvuvinnsla á tímum fulltrúagervigreindar

Útgáfa28. júl. 2026