Inde i vores tilgang til modelspecifikationer
Efterhånden som AI-systemer bliver mere avancerede og udbredt anvendt, har vi brug for en klar offentlig ramme for, hvordan de bør opføre sig.
Hos OpenAI mener vi, at AI bør være retfærdig, sikker og frit tilgængelig, så flere mennesker kan bruge den til at løse vanskelige problemer, skabe muligheder og få gavn af den inden for områder som sundhed, videnskab, uddannelse, arbejde og hverdagsliv. Vi mener, at demokratiseret adgang til AI er den bedste vej frem: ikke AI, hvis fordele eller kontrol er koncentreret i hænderne på nogle få, men AI, som flere mennesker kan få adgang til, forstå og være med til at forme.
Det er en grundlæggende årsag til, at OpenAI-modelspecifikationer findes. Modelspecifikationer(åbner i et nyt vindue) er vores formelle ramme for modeladfærd. De definerer, hvordan vi ønsker, at modellerne skal følge instruktioner, løse konflikter, respektere brugernes frihed og opføre sig sikkert på tværs af det utroligt brede spektrum af forespørgsler, som brugerne stiller dem hver dag. Mere bredt set er det vores forsøg på at tydeliggøre den tilsigtede modeladfærd: ikke kun internt i vores træningsproces, men også i en form, som brugere, udviklere, forskere, beslutningstagere og den brede offentlighed kan læse, gennemgå og debattere.
Modelbeskrivelsen er ikke en påstand om, at vores modeller allerede i dag fungerer perfekt på denne måde. På mange måder er det deskriptivt, men det er også et mål for, hvor vi ønsker, at adfærden skal bevæge sig hen. Vi bruger det til at gøre den ønskede adfærd tydeligere, så vi kan træne hen imod den, vurdere resultaterne i forhold til den og forbedre den over tid.
Dette indlæg deler baggrunden, som ikke fremgår af selve modelspecifikationerne, herunder filosofien og mekanikken bag den: hvordan den er struktureret, hvorfor vi traf disse strukturelle valg, og hvordan vi skriver, implementerer og videreudvikler den over tid.
Modelspecifikationer er en del af OpenAI’s bredere tilgang til sikker og ansvarlig AI. Mens Preparedness Framework fokuserer på risici forbundet med banebrydende teknologier og de sikkerhedsforanstaltninger, der er nødvendige, når disse risici stiger, behandler modelspecifikationen et andet, men supplerende spørgsmål: Hvordan vores modeller bør opføre sig i en lang række forskellige situationer. Set i et bredere perspektiv har AI's modstandsdygtighed til formål at tackle den større samfundsmæssige udfordring med at hjælpe samfundet med at udnytte fordelene ved avanceret AI, samtidig med at forstyrrelser og nye risici reduceres, når stadig mere kapable systemer implementeres. Samlet set har disse initiativer til formål at gøre overgangen til AGI gradvis, iterativ og demokratisk forståelig: at give mennesker og institutioner tid til at tilpasse sig, samtidig med at de nødvendige sikkerhedsforanstaltninger, ansvarlighedsmekanismer og den offentlige forståelse opbygges for at holde kraftfuld AI på linje med menneskelige interesser.
Offentlig klarhed omkring modeladfærd er vigtig for både retfærdighed og sikkerhed. Det er vigtigt af hensyn til retfærdigheden, fordi folk skal forstå, hvordan og hvorfor kunstig intelligens behandler dem, som den gør – og være i stand til at erkende, stille spørgsmålstegn ved og håndtere bekymringer om retfærdighed, når de opstår. Og det har betydning for sikkerheden, for i takt med at AI-systemerne bliver mere avancerede, har mennesker og institutioner brug for klarere forventninger til, hvordan de skal fungere, hvilke afvejninger de indebærer, og hvordan disse valg kan forbedres over tid. Denne form for læsbarhed understøtter også robusthed ved at give flere mennesker noget konkret at undersøge, stille spørgsmålstegn ved og forbedre.
Siden den første version i 2024 har modelspecifikationerne udviklet sig betydeligt, efterhånden som vi lærer mere om brugernes præferencer og behov, udvider dem til at omfatte og tilpasse sig større muligheder og lærer af offentlig feedback om modeladfærd og modelspecifikationerne. I tråd med iterativ implementering er Modelspecifikationer et dokument, der løbende udvikles og omfatter både baggrundsværdier og eksplicitte, letforståelige regler – kombineret med en proces til ændring af enkelte elementer, efterhånden som vi lærer af implementeringer i praksis og feedback. Vi investerer også i offentlige feedbackmekanismer som kollektiv tilpasning for at sikre, at menneskeheden bevarer kontrollen over, hvordan AI bruges, og hvordan AI’s adfærd formes.
Internt giver det os en ledestjerne for den tilsigtede adfærd og en fælles ramme for træning, evaluering og styring. Udadtil skaber det et offentligt referencepunkt, som folk kan bruge til at forstå vores tilgang, kritisere den og hjælpe med at forbedre den over tid.
Modelspecifikationerne består af flere forskellige former for modelvejledning. Det er bevidst. Forskellige dele af modeladfærden skal håndteres på forskellige måder, og et nyttigt offentligt dokument skal gøre mere end blot at opremse regler.
Modelspecifikationerne begynder med et overordnet formål: en tydelig redegørelse for, hvad vi forsøger at optimere på systemniveau, og hvorfor.
Denne indledning præciserer tre mål for, hvordan vi planlægger at forfølge vores mission:
- Implementer gradvist modeller, der giver udviklere og brugere større handlekraft
- Undgå, at vores modeller forvolder alvorlig skade på brugere eller andre
- Oprethold OpenAI’s licens til at drive virksomhed
Derefter forklarer den, hvordan vi tænker på at afveje disse mål i praksis, og gør afvejningerne tilstrækkeligt konkrete til at understøtte de mere detaljerede principper, der følger.
Det er vigtigt, at denne indledning ikke er tænkt som en direkte instruktion til modellen. At gavne menneskeheden er OpenAI’s mål, ikke et mål, vi ønsker, at vores model selvstændigt forfølger. I stedet ønsker vi, at modeller følger en kommandokæde, der omfatter modelspecifikationerne og relevante instruktioner fra OpenAI, udviklere og brugere – selv når nogle måske er uenige i resultatet i et bestemt tilfælde.
Vi mener, at dette er den rette balance, fordi vi værdsætter menneskelig autonomi og intellektuel frihed. Hvis vi trænede modeller til at afgøre, hvilke instruktioner de skal følge, ud fra vores egen opfattelse af, hvad der er godt for samfundet, ville OpenAI komme til at afgøre moralske spørgsmål på et meget overordnet plan. Når det er sagt, er indledningen stadig vigtig. Når der er uklarhed om, hvordan modelspecifikationer skal anvendes, bør indledningen hjælpe med at afklare det.
Modelspecifikationerne indeholder også offentlige forpligtelser, der rækker ud over direkte målbar modeladfærd, til også at omfatte hensigten med træningen og begrænsninger for implementering. For eksempel omfatter vores red line-principper(åbner i et nyt vindue) en forpligtelse til, at vi i førstepartsimplementeringer som ChatGPT aldrig vil bruge systemmeddelelser til bevidst at kompromittere objektivitet(åbner i et nyt vindue) eller relaterede principper; og Ingen andre målsætninger(åbner i et nyt vindue) indeholder forpligtelser vedrørende vores hensigter om at optimere model-svar til gavn for brugeren og ikke for omsætning eller ikke-gavnlig tid på webstedet.
Kernen i modelspecifikationer er kommandokæden: en ramme for at afgøre, hvilke instruktioner der skal gælde i en given situation. Den beskriver også, hvordan modellen skal håndtere utilstrækkeligt specificerede instruktioner, især i agentiske kontekster, hvor den forventes at udfylde detaljer autonomt og samtidig nøje kontrollere bivirkninger i den virkelige verden.
Den grundlæggende idé bag at beslutte, hvilke instruktioner der skal gælde, er enkel. Instruktioner kan komme fra forskellige kilder, herunder OpenAI, udviklere og brugere. Disse instruktioner kan være i konflikt. Kommandokæden forklarer, hvordan modellen skal løse disse konflikter.
Hver politik i modelspecifikationer og hver instruktion får et autoritetstrin(åbner i et nyt vindue). Modellen instrueres til at prioritere både ordlyden og hensigten i instruktioner med højere autoritet, når der opstår konflikter. Hvis en bruger beder om hjælp til at fremstille en bombe, bør modellen prioritere stramme sikkerhedsgrænser(åbner i et nyt vindue). Hvis en bruger beder om at blive roasted, bør modellen generelt prioritere den anmodning frem for modelspecifikationens politik mod misbrug(åbner i et nyt vindue), som har lavere autoritet.
Denne struktur gør det muligt at definere et relativt lille sæt regler, der ikke kan overstyres, sideløbende med et større sæt standardindstillinger. Det er sådan, vi forsøger at maksimere brugerfrihed og udviklerkontrol inden for sikkerhedsbegrænsninger.
- Hårde regler er udtrykkelige grænser, som ikke kan tilsidesættes af brugere eller udviklere (i modelspecifikationernes terminologi er disse instruktioner på “root”- eller “system”-niveau). De er for det meste forbudsprægede og kræver, at modellerne undgår adfærd, der kan bidrage til katastrofale risici eller direkte fysisk skade, overtræde love eller undergrave kommandovejen. Vi forventer, at AI vil blive en grundlæggende teknologi for samfundet, på linje med grundlæggende internetinfrastruktur, så vi indfører kun regler, der kan begrænse den intellektuelle frihed, når vi mener, at de er nødvendige for det brede spektrum af udviklere og brugere, som vil interagere med den. I modelspecifikationerne indeholder Oprethold rammerne(åbner i et nyt vindue) ufravigelige regler, der adresserer konkrete sikkerhedsrisici i den virkelige verden, og Principper for personer under 18 år(åbner i et nyt vindue) tilføjer yderligere sikkerhedsforanstaltninger for brugere under 18 år.
- Standardindstillinger er udgangspunkter, der kan tilsidesættes: assistentens bedste bud på adfærd, når brugeren eller udvikleren ikke har angivet en præference. Vi bruger standardindstillinger til at gøre adfærd forudsigelig og kontrollerbar i stor skala, så folk kan forudse, hvad der sker, uden at skulle skrive et skræddersyet sæt instruktioner hver gang. Standardindstillinger bevarer styrbarheden: Brugere og udviklere kan eksplicit styre tone, dybde, format og endda synsvinkel inden for sikkerhedsgrænserne. Standardindstillinger på retningslinjeniveau (som tone eller stil) er designet til at kunne styres implicit, mens standardindstillinger på brugerniveau (som sandfærdighed og objektivitet) fungerer som ankre for tillid og forudsigelighed og kan kun tilsidesættes ved eksplicitte instruktioner. De bør ikke umærkeligt skifte baseret på mavefornemmelser; hvis brugeren ønsker en anden faktuel holdning, gør en eksplicit instruktion skiftet gennemsigtigt og tydeligt. Disse standardindstillinger afspejles på tværs af Søg sandheden sammen(åbner i et nyt vindue), Gør det bedste, du kan(åbner i et nyt vindue) og Brug en passende stil(åbner i et nyt vindue), herunder normer omkring ærlighed og objektivitet, undgåelse af smiger samt interaktionsnormer som direkte kommunikation og kontekstmæssig varme og professionalisme.
Ud over selve hierarkiet anvender modelspecifikationerne fortolkningsværktøjer, der hjælper modeller (og mennesker) med at anvende det konsekvent i gråzonerne. Disse værktøjer omfatter:
- Beslutningskriterier, der hjælper modellen med at træffe konsistente valg i gråzoner uden at foregive, at der findes en enkelt mekanisk regel. For eksempel indeholder vejledningen i modelspecifikationerne om håndtering af bivirkninger(åbner i et nyt vindue) overvejelser som at minimere irreversible handlinger, sikre, at handlinger står i rimeligt forhold til målet, reducere ubehagelige overraskelser og foretrække reversible tilgange, hvilket skal afvejes i forhold til andre mål, såsom at udføre opgaven hurtigt og effektivt.
- Konkrete eksempler, der viser, hvordan et princip bør anvendes i praksis. Dette er korte eksempler på prompt og svar, som normalt inkluderer både et overensstemmende og et ikke-overensstemmende svar, ofte for en vanskelig prompt tæt på en vigtig beslutningsgrænse. Målet er ikke at simulere en fuld, realistisk samtale. Det er for at tydeliggøre den vigtige skelnen og gøre det på en måde, der også demonstrerer den ønskede svarstil.
Vi holder antallet af eksempler relativt lavt og fokuserer på de mest informative. Bredere evalueringssæt hjælper med at dække en større del af den lange hale.
Et eksempel, der illustrerer principperne om intellektuel frihed og ikke at dømme, fra afsnittet i modelspecifikationen Hav de bedste hensigter(åbner i et nyt vindue).
Specifikationer er en grænseflade, ikke en implementering. Den beskriver den adfærd, vi ønsker, ikke alle detaljer i, hvordan vi frembringer denne adfærd. Vi forsøger at undgå at forankre det til implementeringsdetaljer, såsom interne tokenformater eller den nøjagtige træningsopskrift for en bestemt adfærd, fordi disse detaljer kan ændre sig, selv når den ønskede adfærd ikke gør det. Modelspecifikationernes primære målgruppe er ikke modellen, men mennesker: De skal hjælpe OpenAI-medarbejdere, brugere, udviklere, forskere og beslutningstagere med at forstå, debattere og træffe beslutninger om den tilsigtede adfærd.
Specifikationen beskriver også modellen, ikke hele produktet. Det suppleres af vores brugspolitikker, som beskriver vores forventninger til, hvordan API'et og ChatGPT bør anvendes. Det system, som brugerne interagerer med, omfatter mere end selve modellen: produktfunktioner som tilpassede instruktioner og hukommelse, overvågning, politikhåndhævelse og andre lag er også vigtige. Sikkerhed handler om mere end modellens adfærd, og vi tror på forsvar i dybden.
Og specifikationen er ikke en fuldstændig beskrivelse af hele vores træningsstack eller af enhver intern politisk sondring. Målet er ikke at fange hver eneste detalje. Det er at gøre de vigtigste adfærdsmæssige beslutninger forståelige på en måde, der er fuldt ud i overensstemmelse med vores tilsigtede modeladfærd.
Der er flere grunde til at lægge så meget i specifikationen i stedet for at antage, at læseren – eller modellen – kan udlede alt ud fra et par overordnede mål.
For det første er modelspecifikationer et værktøj til gennemsigtighed og ansvarlighed . Det er designet til at fremme meningsfuld offentlig feedback. Et tydeligt offentligt mål hjælper folk med at afgøre, om en adfærd er en fejl eller en funktion. Det giver dem et stabilt referencepunkt for kritik og konkret feedback. Derfor har vi gjort modelspecifikationer til open source(åbner i et nyt vindue) og valgt at videreudvikle den offentligt. Siden den første udgivelse er der blevet foretaget mange ændringer på baggrund af offentlig feedback, indsamlet gennem en række forskellige mekanismer, herunder feedbackformularer, offentlig kritik og bevidste indsatser for at indsamle demokratiske input.
For det andet er modelspecifikationer et koordineringsværktøj internt i OpenAI. Det giver personer på tværs af forskning, produktudvikling, sikkerhed, politik, jura, kommunikation og andre funktioner et fælles ordforråd til at diskutere modellens adfærd og en mekanisme til at foreslå og gennemgå ændringer.
For det tredje kan eksplicitte politikker kompensere for praktiske begrænsninger i modellens intelligens og kontekst for køretid og gøre adfærden mere forudsigelig. Selvom dette med tiden bliver mindre og mindre sandt, har nogle retningslinjer til formål at kompensere for utilstrækkelig intelligens, hvor modellerne ikke pålideligt kan udlede den korrekte adfærd ud fra principper på et højere niveau. For eksempel rådede Vær tydelig og direkte(åbner i et nyt vindue) tidligere modeller til at vise deres mellemregninger, før de gav et svar på udfordrende problemer, der kræver beregninger, men i dag lærer vores modeller naturligt denne adfærd gennem forstærkende læring.
Andre politikker omhandler begrænset kontekst under kørsel: assistenten kan kun stole på, hvad der kan observeres i den aktuelle interaktion, og kender sjældent brugerens fulde situation, hensigt, downstream-brug eller hvilke sikkerhedsforanstaltninger der findes uden for modellen. I sådanne tilfælde forbedrer specificitet effektiviteten og forudsigeligheden, selvom modellerne måske ville kunne finde frem til den rette adfærd ved hjælp af tilstrækkelig research og refleksion. Specificiteten sammenfatter nemlig mange skønsmæssige vurderinger i en vejledning, der mindsker variationen mellem lignende input og gør adfærden lettere at forstå for både brugere og forskere.
Endelig har modelspecifikationerne til formål at være en komplet liste over overordnede politikker, der er relevante for evaluering og måling. Hvis du vil vurdere, om en model opfører sig som tilsigtet, er det nyttigt at have en offentlig liste over de vigtigste adfærdskategorier, du lægger vægt på.
Det er fristende at tænke, at en tilstrækkeligt kompetent model burde kunne udlede korrekt adfærd fra en kort liste over mål som "at være hjælpsom og sikker". Der er en vis sandhed i det. Inden for områder med objektive succeskriterier, som matematik, kan intelligens ofte erstatte detaljerede regler.
Men generelt er modeladfærd ikke som at løse et simpelt matematikproblem; modeller opererer ofte i de mere komplekse områder, hvor der ikke findes ét moralsk korrekt svar, som alle kan blive enige om. Hvad det vil sige, at en model er "hjælpsom og sikker", er i høj grad kontekstafhængigt og et resultat af beslutningstagning, der naturligt er værdiladet. Intelligens alene fortæller dig ikke, hvilke afvejninger du skal foretage, når det gælder etik og værdier. Så selv om modellerne bliver mere intelligente, har vi stadig brug for at arbejde med at forstå og vejlede værdimæssige vurderinger, og hvad det vil sige at handle "etisk" i en given situation. Og de fleste af grundene til at have en modelspecifikation forbliver relevante, selv når modellerne bliver meget mere kapable: Vi har stadig brug for et offentligt mål, som folk kan koordinere sig omkring, en måde at evaluere, om adfærd stemmer overens med vores intentioner, og en mekanisme til at revidere reglerne, efterhånden som vi lærer. Hvis den eneste regel er "vær hjælpsom og sikker", findes der ingen mekanisme, hvormed mennesker kan debattere for eksempel grænserne for, hvilket indhold modellen bør afvise at levere, så alle disse beslutninger overlades til modellen.
Om noget stiger omkostningerne ved tvetydighed, efterhånden som modellerne bliver mere kapable, mere agentiske og udrulles bredt. Det gør en tydelig adfærdsramme vigtigere, ikke mindre vigtig.
En nyttig analogi er forskellen mellem en skrevet forfatning og retspraksis. Selvom en skriftlig forfatning kan fastlægge både overordnede principper og konkrete regler, kan den ikke forudse alle de mulige tilfælde, der kan opstå og kræve dens vejledning. Reelle styringssystemer har også brug for fortolkningsmekanismer, præciseringer og udtrykkelige afgørelser for at løse komplicerede sager eller uforudsete problemer. Offentliggjorte regler hjælper forskellige interessenter med at koordinere, selv når de er uenige, og de begrænser de ændringer, der kan foretages, ved at kræve, at enhver ændring er eksplicit. Modelspecifikationen er tænkt til at udfylde alle disse roller: en principerklæring, et offentligt adfærdsrammeværk og en proces til at ændre specifikationen over tid.
Når det er sagt, mener vi ikke, at alt det, der er vigtigt ved modeladfærd, altid vil kunne reduceres til eksplicitte regler. I takt med at systemerne bliver mere autonome, vil pålidelighed og tillid i stigende grad afhænge af bredere kompetencer og holdninger: evnen til at formidle usikkerhed på en god måde, respektere grænserne for autonomi, undgå ubehagelige overraskelser, følge med i hensigterne over tid og ræsonnere fornuftigt om menneskelige værdier i den konkrete sammenhæng.
Når vi udarbejder modelspecifikationerne, er der et spænd mellem at beskrive modellens faktiske adfærd i dag, med alle dens fejl og mangler, og at beskrive et ideelt mål langt ude i fremtiden. Vi forsøger at finde en balance og sigter typisk mod et sted omkring 0-3 måneder frem i tiden. Således forbliver modelspecifikationen ofte foran modellen på mindst et par områder med aktiv udvikling.
Det afspejler modelspecifikationens rolle som en beskrivelse af den tilsigtede adfærd. Det bør pege os i en sammenhængende retning, samtidig med at det forbliver forankret i det, vi enten allerede gør eller har konkrete planer om at implementere på kort sigt.
Modelspecifikationerne udvikles gennem en åben intern proces. Alle i OpenAI kan kommentere det eller foreslå ændringer, og de endelige opdateringer godkendes af en bred gruppe tværfunktionelle interessenter. I praksis har snesevis af mennesker bidraget direkte med tekst, og langt flere på tværs af forskning, ingeniørarbejde, produkt, sikkerhed, retningslinjer, jura, kommunikation, globale anliggender og andre funktioner byder ind. Vi lærer også af offentlige lanceringer og feedback, som hjælper med at afprøve disse valg i reel implementering.
Dette er vigtigt, fordi modeladfærd – og dens konsekvenser i verden – er utrolig kompliceret. Ingen kan rumme hele sættet af adfærd, træningsprocessen og de afledte konsekvenser i hovedet, men med mange tværfunktionelle bidragydere og gennemlæsere kan vi forbedre kvaliteten og øge tilliden.
En behagelig overraskelse har været, at reel konsensus ofte er mulig – især når vi tvinger os selv til at nedskrive afvejningerne præcist nok til, at uenigheder bliver konkrete.
Modelspecifikationerne er heller ikke skrevet i et vakuum. Meget af det, der ender i dem, er et resumé af et bredere arbejde med adfærd, sikkerhed og politik. En stor del af arbejdet med at skrive modelspecifikationer er i virkeligheden oversættelse: at tage eksisterende arbejde og gøre det enklere, mere konsistent, mere organiseret og mere tilgængeligt uden at miste den underliggende intention.
Vores produktionsmodeller afspejler endnu ikke fuldt ud modelspecifikationerne af flere årsager.
- Modeltræning kan halte bagefter i forhold til opdateringer af modelspecifikationer. Den beskriver den adfærd, vi arbejder hen imod, så den kan ligge foran det, vores seneste model er blevet trænet til at gøre.
- Træning kan utilsigtet lære adfærd, der er i strid med modelspecifikationerne. Vi gør os umage for at undgå dette, og når det sker, betragter vi det som en alvorlig fejl – ved enten at arbejde på at justere adfærden eller modelspecifikationerne for at bringe dem på linje med hinanden.
- Træning kan aldrig fuldt ud dække alle mulige former for adfærd. Reel brug indeholder en lang række kontekster og edge cases, som kun viser sig i stor skala, og ingen træningsproces kan dække alt.
- Generalisering kan afvige fra det, vi havde til hensigt. En model kan producere de “rigtige” output under træning af utilsigtede årsager, hvilket kan føre til utilsigtet adfærd i nye situationer, der adskiller sig fra dem, modellen har set under træning. Teknikker som deliberativ tilpasning hjælper, men de er ikke en fuldstændig løsning.
Mere overordnet betyder det forhold, at modelspecifikationerne beskriver en bred vifte af ønsket adfærd, ikke at der findes én enkelt metode til at lære dem alle. Forskellige aspekter af adfærd – evnen til at følge instrukser, sikkerhedsgrænser, personlighed, afstemt udtryk for usikkerhed og meget mere – kræver ofte forskellige teknikker og medfører forskellige former for fejl. Modelspecifikationerne gør det lettere at forstå og vurdere den tilsigtede adfærd, men at implementere dem godt er det stadig både en kunst og et aktivt forskningsområde.
Sideløbende med dette indlæg udgiver vi Model Spec Evals(åbner i et nyt vindue): en scenariebaseret evalueringssuite, der forsøger at dække så mange udsagn i modelspecifikationer som muligt med et lille antal repræsentative eksempler. Dette hjælper os med at spore, hvor modeladfærd og modelspecifikationer muligvis ikke stemmer overens, og det hjælper os med at kontrollere, om modeller fortolker modelspecifikationer på den måde, vi havde til hensigt. Disse evalueringer er kun én del af en bredere evalueringsstrategi, som også omfatter mere målrettede vurderinger på tværs af mange dimensioner af adfærd, herunder specifikke sikkerhedsområder, sandfærdighed og smiger, personlighed og stil samt kapaciteter.
Diagram over overholdelse af modelspecifikationer opdelt efter afsnit for OpenAI-modeller over tid. Se det tilhørende blogindlæg(åbner i et nyt vindue) for detaljer om evalueringerne og om, hvordan vi fortolker dem. Kort sagt mener vi, at disse resultater afspejler reelle og brede forbedringer i modeltilpasning over tid – selvom de også afspejler en mindre effekt, der skyldes målingen af ældre modeller mod nyere politikker.
I praksis er de fleste specifikationsopdateringer drevet af et tilbagevendende sæt af input:
- Offentlige spørgsmål og feedback. Uklarheder, edge cases eller fejltilstande – enten i sproget i modelspecifikationerne eller i vores modellers adfærd.
- Interne problemer. Mønstre, vi observerer under udvikling og test, herunder uklarheder, hvor forskellige rimelige fortolkninger kan føre til forskellig adfærd.
- Opdateringer af adfærds- og sikkerhedspolitik. Når begrænsninger eller forpligtelser på højere niveau ændres, skal specifikationen tydeligt afspejle den nye struktur.
- Nye funktioner og produkter. Efterhånden som modeller bliver mere kapable med nye former for adfærd, og vi lancerer nye produkter, ønsker vi, at modelspecifikationerne følger med både indholdsmæssigt og dækningsmæssigt – for eksempel ved at tilføje regler for multimodale interaktioner(åbner i et nyt vindue), autonome agenter(åbner i et nyt vindue) og brugere under 18(åbner i et nyt vindue).
Nogle få designprincipper vejleder, hvordan vi skriver og reviderer modelspecifikationer.
- Klarhed og præcision. “Vær ærlig” er en god værdi, men ikke en fuldstændig beslutningsprocedure. Modelspecifikationerne bør tydeliggøre uenigheder, ikke skjule dem bag imødekommende sprog. Hvor det er praktisk muligt, bør vi udtrykkeligt påpege potentielle konflikter mellem regler og give vejledning eller eksempler på, hvordan de kan løses. For eksempel peger Lad være med at lyve(åbner i et nyt vindue) på en potentiel konflikt med Vær varm(åbner i et nyt vindue) og forklarer, at assistenten bør følge høflighedsnormer, uden at gå så langt som til hvide løgne, der kan udgøre smiger(åbner i et nyt vindue) og være imod brugerens bedste interesse.
- Materielle regler. En læser bør kunne tage en realistisk prompt og producere et svar, som en anden læser tydeligt kan genkende som inden for eller uden for rammerne (selv om grænsetilfælde kræver skøn).
- Eksempler, der maksimerer signal i forhold til støj. Gode eksempler er ofte centrale for at udvikle en specifikationsopdatering af høj kvalitet. Eksempler bør hjælpe med at komme ind til kernen af vanskelighederne ved at specificere modellens adfærd, bringe vanskelige konflikter frem i lyset og tage klar stilling til, hvordan de skal løses. For det andet bør de stræbe efter at være eksempler på den ønskede tone og stil, hvilket kan være svært at formidle på skrift.
- Robusthed Vi forsøger at undgå eksempler med unødig tvetydighed eller kompleksitet, så den centrale konflikt og den tilsigtede løsning fremstår tydeligt.
- Ensartethed og tydelig organisering. Vi bestræber os på at sikre, at reglerne i modelspecifikationerne fuldt ud er indbyrdes konsistente og stemmer overens med vores tilsigtede modeladfærd, og at dokumentets overordnede struktur er tydelig og lettilgængelig.
Modelspecifikationerne er ikke en påstand om, at vi kan nedskrive alt det, der betyder noget, eller at modellerne altid vil ramme plet. Det er en påstand om, at tilsigtet adfærd er vigtig nok til at være tydelig, handlingsanvisende og reviderbar.
Tre succeskriterier styrer, hvordan vi videreudvikler det.
- Læsbarhed. Personer både i og uden for OpenAI kan danne præcise forventninger til adfærd og kan henvise til tekst, når adfærden overrasker dem.
- Mulighed for handling. Modelspecifikationer kan bruges til at udforme evalueringer, diagnosticere hændelser og træffe konsistente produktbeslutninger – ikke kun til at udtrykke værdier.
- Reviderbarhed. Modelspecifikationer kan udvikle sig, efterhånden som vi lærer, uden at blive et ustabilt mål, der hele tiden flytter sig.
Efterhånden som modeller og produkter udvikler sig, forventer vi, at modelspecifikationen vil udvides og præciseres i takt med nye funktioner og implementeringskontekster. Målet er at holde adfærdsspecifikationen sammenhængende, testbar og i overensstemmelse med vores mission om at sikre, at AGI gavner hele menneskeheden.


