I vår tilnærming til modellspesifikasjonene
Etter hvert som AI-systemer blir mer avanserte og utbredte, trenger vi et tydelig offentlig rammeverk for hvordan de skal oppføre seg.
Hos OpenAI mener vi at AI bør være rettferdig, trygg og fritt tilgjengelig, slik at flere kan bruke det til å løse vanskelige problemer, skape muligheter og dra nytte av det innen områder som helse, vitenskap, utdanning, arbeid og hverdagsliv. Vi mener at den beste veien fremover er å demokratisere tilgangen til AI: ikke en AI hvor fordelene eller kontrollen kun gjelder for noen få, men en AI som flere kan få tilgang til, forstå og bidra til å forme.
Det er en viktig grunn til at OpenAI-modellspesifikasjoner finnes. Modellspesifikasjoner(åpnes i et nytt vindu) er vårt formelle rammeverk for modellatferd. De definerer hvordan vi vil at modeller skal følge instruksjoner, løse konflikter, respektere brukerfrihet og opptre trygt på tvers av det utrolig brede spekteret av spørsmål som brukere stiller dem hver dag. Mer generelt er det vårt forsøk på å gjøre tiltenkt modellatferd eksplisitt: ikke bare i opplæringsprosessen, men i et format som brukere, utviklere, forskere, beslutningstakere og offentligheten faktisk kan lese, undersøke og diskutere.
Modellspesifikasjoner er ikke en påstand om at modellene våre allerede oppfører seg perfekt på denne måten i dag. På mange måter er de beskrivende, men de er også et mål for hvordan vi ønsker at modellatferden skal se ut. Vi bruker de for å gjøre den tiltenkte atferden tydeligere, slik at vi kan trene mot den, evaluere opp mot den og forbedre den over tid.
Med dette innlegget deler vi bakgrunnshistorien som ikke står i selve modellspesifikasjonene, inkludert filosofien og mekanismene bak dem: hvordan de er strukturert, hvorfor vi tok disse strukturelle valgene, og hvordan vi skriver, implementerer og utvikler dem over tid.
Modellspesifikasjonene er én del av OpenAIs bredere tilnærming til trygg og ansvarlig AI. Mens Preparedness Framework fokuserer på risikoer knyttet til banebrytende kapabiliteter og sikkerhetstiltakene som kreves etter hvert som disse risikoene øker, tar modellspesifikasjoner for seg et annet, men utfyllende spørsmål: hvordan modellene våre skal oppføre seg i et bredt spekter av situasjoner. Når vi zoomer ut mer, er målet med AI-robusthet å håndtere den bredere samfunnsutfordringen med å hjelpe samfunnet med å dra nytte av fordelene ved avansert AI, samtidig som man reduserer forstyrrelser og nye risikoer etter hvert som stadig mer kapable systemer tas i bruk. Samlet har disse initiativene som mål å bidra til å gjøre overgangen til AGI gradvis, iterativ og demokratisk forståelig: gi mennesker og institusjoner tid til å tilpasse seg, samtidig som man bygger sikkerhetstiltakene, ansvarlighetsmekanismene og den offentlige forståelsen som trengs for å holde kraftig AI i tråd med menneskelige interesser.
Offentlig klarhet om modellatferd er viktig både for rettferdighet og sikkerhet. Det er viktig for rettferdigheten fordi folk må forstå hvordan og hvorfor AI behandler dem slik den gjør – og for å kunne identifisere, stille spørsmål ved og ta tak i bekymringer knyttet til rettferdighet når de oppstår. Det er også viktig for sikkerheten fordi etter hvert som AI-systemer blir stadig mer kapable, trenger folk og institusjoner klarere forventninger til hvordan de er ment å oppføre seg, hvilke avveininger de innebærer, og hvordan disse valgene kan forbedres over tid. Denne typen forståelse bidrar også til robusthet ved å gi flere personer noe konkret å undersøke, stille spørsmål ved og forbedre.
Siden den første versjonen i 2024 har modellspesifikasjonene utviklet seg betydelig etter hvert som vi lærer mer om brukernes ønsker og behov, utvider de til å dekke større kapabiliteter, og lærer fra tilbakemeldinger fra publikum om modellatferd og modellspesifikasjonene. I tråd med gradvis implementering er modellspesifikasjoner et dokument under utvikling som omfatter både grunnleggende verdier og tydelige regler, kombinert med en prosess for å endre elementer etter hvert som vi lærer av erfaringer og tilbakemeldinger. Vi investerer også i tilbakemeldingsmekanismer som kollektiv tilpasning for å sikre at mennesker beholder kontrollen over hvordan AI brukes og hvordan AI-atferd formes.
Internt gir det oss en veiledning for tilsiktet atferd og et felles rammeverk for opplæring, evaluering og styring. Eksternt skaper det et offentlig referansepunkt som personer kan bruke til å forstå tilnærmingen vår, kritisk vurdere og bidra til å forbedre den over tid.
Modellspesifikasjonene består av flere ulike typer modellveiledninger. Dette er bevisst. Ulike deler av modellatferd må håndteres på forskjellige måter, og et nyttig offentlig dokument må gjøre mer enn bare å liste opp regler.
Modellspesifikasjonene begynner med en overordnet intensjon: en tydelig redegjørelse for hva vi prøver å optimalisere for på systemnivå og hvorfor.
Denne innledningen tydeliggjør tre mål for hvordan vi planlegger å jobbe mot målet vårt:
- Iterativ utrulling av modeller som styrker utviklere og brukere
- Forhindre at modellene våre forårsaker alvorlig skade på brukere eller andre
- Opprettholde OpenAIs lisens til å drive virksomhet
Deretter forklarer dem hvordan vi har tenkt å balansere disse målene i praksis, slik at avveiningene blir konkrete nok til å støtte de mer detaljerte prinsippene som følger.
Det er viktig å merke seg at denne innledningen ikke er ment som en direkte instruksjon til modellen. Det er OpenAIs mål å være til nytte for menneskeheten. Dette er ikke et mål som vi ønsker at modellene våre skal forfølge på egen hånd. I stedet ønsker vi at modellene skal følge en kommandokjede som inkluderer modellspesifikasjonene og gjeldende instruksjoner fra OpenAI, utviklere og brukere, selv om noen kanskje er uenige i resultatet i et bestemt tilfelle.
Vi mener dette er den rette balansen fordi vi verdsetter menneskelig autonomi og intellektuell frihet. Hvis vi trente modeller til å avgjøre hvilke instruksjoner de skal følge basert på vårt eget syn på hva som er bra for samfunnet, ville OpenAI være i stand til å avgjøre moral på et svært bredt nivå. Når det er sagt, så er innledningen fortsatt viktig. Når det er uklarhet i hvordan modellspesifikasjonene skal brukes, bør innledningen hjelpe til med å avklare dette.
Modellspesifikasjonene inneholder også offentlige forpliktelser som går utover direkte målbar modellatferd, og som omfatter treningsintensjon og begrensninger for utrulling. For eksempel inkluderer våre red-line-prinsipper(åpnes i et nytt vindu) en forpliktelse om at vi i førstepartsutrullinger som ChatGPT aldri vil bruke systemmeldinger til å bevisst kompromittere objektivitet(åpnes i et nytt vindu) eller relaterte prinsipper, og Ingen andre mål(åpnes i et nytt vindu) forplikter oss til å optimalisere modellsvar til fordel for brukerne, og ikke for inntekter eller ikke-nyttig tid på stedet.
Kjernen i modellspesifikasjonene er kommandokjeden: et rammeverk for å avgjøre hvilke instruksjoner som skal gjelde i en gitt situasjon. Den dekker også hvordan modellen skal håndtere underspesifiserte instruksjoner, spesielt i agentiske omstendigheter der den forventes å fylle inn detaljer på egen hånd, samtidig som den nøye kontrollerer effekter i den virkelige verden.
Den grunnleggende ideen bak avgjørelsen om hvilke instruksjoner som skal gjelde, er enkel. Instruksjoner kan komme fra ulike kilder, inkludert OpenAI, utviklere og brukere. Disse instruksjonene kan være i konflikt med hverandre. Kommandokjeden forklarer hvordan modellen skal løse disse konfliktene.
Hver retningslinje i modellspesifikasjonene og hver instruksjon gis et autoritetsnivå(åpnes i et nytt vindu). Modellen instrueres til å prioritere ordlyden og intensjonen i instruksjoner med høyere autoritet når det oppstår konflikter. Hvis en bruker ber om hjelp til å lage en bombe, skal modellen prioritere harde sikkerhetsgrenser(åpnes i et nytt vindu). Hvis en bruker ber om å bli ertet, skal modellen generelt prioritere denne forespørselen over modellspesifikasjonenes retningslinjer mot misbruk(åpnes i et nytt vindu) med lavere autoritet.
Denne strukturen gjør det mulig å definere et relativt lite sett med regler som ikke kan overstyres, sammen med et større sett med standardverdier. Slik prøver vi å maksimere brukerfrihet og utviklerkontroll innenfor sikkerhetsbegrensningene.
- Harde regler er uttrykkelige grenser som ikke kan overstyres av brukere eller utviklere (i modellspesifikasjonenes språkbruk er dette instruksjoner på «root»- eller «system»-nivå). De er for det meste uoverkommelige og krever at modellene unngår atferd som kan bidra til katastrofale risikoer eller direkte fysisk skade, bryter lover eller undergraver kommandokjeden. Vi forventer at AI vil bli en grunnleggende teknologi for samfunnet, på linje med grunnleggende Internett-infrastruktur, så vi innfører bare regler som kan begrense den intellektuelle friheten når vi mener de er nødvendige for det brede spekteret av utviklere og brukere som vil samhandle med den. I modellspesifikasjonene inneholder Hold deg innenfor grensene(åpnes i et nytt vindu) strenge regler som tar for seg konkrete sikkerhetsrisikoer i den virkelige verden, og Prinsipper for personer under 18 år(åpnes i et nytt vindu) legger til ekstra sikkerhetstiltak for brukere under 18 år.
- Standardinnstillinger er utgangspunkter som kan endres: assistentens «beste gjetning»-atferd når brukeren eller utvikleren ikke har spesifisert en preferanse. Vi bruker standardinnstillinger for å gjøre atferden forutsigbar og kontrollerbar i stor skala, slik at personer kan forutse hva som skjer uten å skrive et skreddersydd instruksjonssett hver gang. Standardinnstillinger bevarer styrbarheten: du og utviklere kan eksplisitt styre tone, dybde, format og til og med synsvinkel innenfor sikkerhetsgrensene. Standardinnstillinger på retningslinjenivå (som tone eller stil) er utformet for å være implisitt styrbare, mens standardinnstillinger på brukernivå (som sannferdighet og objektivitet) er forankringspunkter for tillit og forutsigbarhet og kan bare overstyres av eksplisitte instruksjoner. Disse bør ikke endres ubemerket basert på energien. Hvis brukeren ønsker en annen faktaposisjon, vil en eksplisitt instruksjon holde endringen transparent og tydelig. Disse standardinnstillingene gjenspeiles i Søk sannheten sammen(åpnes i et nytt vindu), Gjør ditt beste arbeid(åpnes i et nytt vindu) og Bruk passende stil(åpnes i et nytt vindu), inkludert normer for ærlighet og objektivitet, unngå smiger og interaksjonsnormer som direkte kommunikasjon og varme og profesjonalitet tilpasset konteksten.
Utover selve hierarkiet bruker modellspesifikasjonene tolkningshjelpemidler for å hjelpe modeller (og mennesker) med å bruke dem konsekvent i gråsonene. Disse hjelpemidlene inkluderer:
- Beslutningsrubrikker som hjelper modellen med å ta konsekvente valg i gråsoner, uten å late som om det finnes én enkelt mekanisk regel. For eksempel viser modellspesifikasjonene veiledning om kontroll av bivirkninger(åpnes i et nytt vindu) en liste over hensyn som å minimere irreversible handlinger, sørge for at handlinger er proporsjonale med målet, redusere ubehagelige overraskelser og foretrekke reversible tilnærminger, som bør veies opp mot andre mål som å fullføre oppgaven raskt og effektivt.
- Konkrete eksempler som viser hvordan et prinsipp bør anvendes i praksis. Dette er korte eksempler på prompt og svar som vanligvis inkluderer både et samsvarende svar og et ikke-samsvarende svar, ofte for en vanskelig prompt nær en viktig beslutningsgrense. Målet er ikke å simulere en helt realistisk samtale. Det er for å gjøre det viktigste skillet tydelig, og å gjøre det på en måte som også demonstrerer den ønskede svarstilen.
Vi holder antallet eksempler relativt lavt og fokuserer på de mest informative. Bredere evalueringspakker bidrar til å dekke mer av den lange halen.
Et eksempel som illustrerer prinsippene om intellektuell frihet og ikke-dømmende holdning fra seksjonen Anta beste intensjoner(åpnes i et nytt vindu) i spesifikasjonene.
Spesifikasjonene er et grensesnitt, ikke en implementering. De beskriver atferden vi ønsker, ikke alle detaljer om hvordan vi produserer denne atferden. Vi prøver å unngå å knytte dem til implementeringsdetaljer, som interne tokenformater eller den nøyaktige treningsoppskriften for en bestemt atferd, fordi disse detaljene kan endres selv når den ønskede atferden ikke gjør det. Modellspesifikasjonenes primære målgruppe er ikke modellen, men mennesker: de er ment å hjelpe OpenAI-ansatte, brukere, utviklere, forskere og beslutningstakere med å forstå, diskutere og ta beslutninger om tiltenkt atferd.
Spesifikasjonene beskriver også modellen, ikke hele produktet. De suppleres av retningslinjene våre for bruk, som beskriver våre forventninger til hvordan folk bør bruke API-et og ChatGPT. Systemet som brukere samhandler med, omfatter mer enn bare selve modellen: produktfunksjoner som egendefinerte instruksjoner og minne, overvåking, håndhevelse av retningslinjer og andre lag er også viktige. Sikkerhet er mye mer enn modellatferd, og vi tror på forsvar i dybden.
Spesifikasjonene er ikke en fullstendig oversikt over hele opplæringspakken vår eller alle skiller mellom interne retningslinjer. Målet er ikke å få med hver eneste detalj. Det er å gjøre de viktigste atferdsavgjørelsene forståelige, på en måte som er helt i samsvar med vår tiltenkte modellatferd.
Det er flere grunner til å ta med så mye i spesifikasjonene i stedet for å anta at leseren – eller modellen – kan trekke en konklusjon fra noen få overordnede mål.
For det første er modellspesifikasjonene et verktøy for åpenhet og ansvarlighet. De er utformet for å oppmuntre til meningsfulle tilbakemeldinger fra publikum. Et tydelig offentlig mål hjelper folk å avgjøre om en atferd er en feil eller en funksjon. Det gir dem et stabilt referansepunkt for kritikk og konkrete tilbakemeldinger. Derfor har vi gjort modellspesifikasjonene offentlig tilgjengelig(åpnes i et nytt vindu) og har valgt å iterere offentlig. Siden den første utgivelsen er det gjort mange endringer basert på tilbakemeldinger fra publikum, som er innhentet gjennom en rekke ulike metoder, inkludert tilbakemeldingsskjemaer, offentlig kritikk og bevisste tiltak for å innhente demokratiske innspill.
For det andre er modellspesifikasjonene et koordineringsverktøy internt i OpenAI. De gir personer på tvers av roller som forskning, produkt, sikkerhet, retningslinjer, juridisk, kommunikasjon og andre et felles vokabular for å diskutere modellatferd og en mekanisme for å foreslå og gjennomgå endringer.
For det tredje kan eksplisitte retningslinjer kompensere for praktiske begrensninger i modellintelligens og kjøretidskontekst, og gjøre atferden mer forutsigbar. Selv om dette blir mindre sant over tid, har noen retningslinjer som mål å kompensere for utilstrekkelig intelligens, der modeller kanskje ikke pålitelig kan utlede riktig atferd fra prinsipper på høyere nivå. Vær tydelig og direkte(åpnes i et nytt vindu) ga for eksempel tidligere modeller råd om å vise hvordan de kom frem til svaret før de oppga et svar på utfordrende problemer som krever beregninger. I dag lærer modellene våre naturlig denne atferden gjennom forsterkende læring.
Andre retningslinjer tar hensyn til begrenset kontekst under kjøring: assistenten kan bare basere seg på det som er synlig i den aktuelle interaksjonen, og kjenner sjelden brukerens fulle situasjon, hensikt, videre bruk eller hvilke sikkerhetsmekanismer som finnes utenfor modellen. I slike tilfeller, selv om modell kanskje kan finne ut hva som er riktig atferd med nok forskning og tenkning, forbedrer spesifisitet effektiviteten og forutsigbarheten – ved å komprimere mange vurderinger til veiledning som reduserer variasjon på tvers av lignende prompter og gjør atferden lettere å forstå for både brukere og forskere.
Til slutt har modellspesifikasjonene som mål å være en fullstendig liste over overordnede retningslinjer som er relevante for evaluering og måling. Hvis du vil vurdere om en modell oppfører seg som tiltenkt, er det nyttig å ha en offentlig liste over de viktigste kategoriene av atferd du bryr deg om.
Det er fristende å tenke at en tilstrekkelig dyktig modell bør kunne finne ut riktig atferd fra en kort liste med mål som «vær hjelpsom og trygg». Det er noe sant i det. På områder med objektive suksesskriterier, som i matematikk, kan intelligens ofte erstatte detaljerte regler.
Men generelt er ikke modellatferd som å løse et enkelt matematisk problem. Modeller opererer ofte i vanskeligere områder der det ikke finnes ett moralsk riktig svar som alle kan bli enige om. Hva det betyr at en modell for eksempel er «hjelpsom og trygg», er i stor grad avhengig av konteksten og et resultat av verdiladede beslutninger. Intelligens alene forteller deg ikke hvilke avveininger du bør gjøre når det gjelder etikk og verdier. Så selv om modellene blir mer intelligente, må vi fortsatt jobbe med å forstå og styre verdivurderinger / hva det betyr å være «etisk» i et gitt tilfelle. Og de fleste av grunnene til å ha modellspesifikasjoner er fortsatt relevante selv når modeller blir mye mer kapable: vi trenger fortsatt et offentlig mål som folk kan koordinere seg rundt, en måte å evaluere om atferden samsvarer med intensjonene våre, og en mekanisme for å revidere reglene etter hvert som vi lærer. Hvis den eneste regelen er «vær hjelpsom og trygg», finnes det ingen mekanisme som gjør det mulig for person å diskutere for eksempel grensene for hvilket innhold modellen skal nekte å levere, og alle disse beslutningene overlates til modellen.
Kostnaden til tvetydighet øker heller etter hvert som modellene blir mer kapable, mer handlingsorienterte og mer utbredte. Det gjør et tydelig rammeverk for oppførsel viktigere, ikke mindre viktig.
En nyttig analogi er forskjellen mellom en skriftlig grunnlov og rettspraksis. Selv om en skriftlig grunnlov kan gi både overordnede prinsipper og konkrete regler, kan den ikke forutse alle mulige tilfeller som kan oppstå og kreve veiledning. Reelle styringssystemer trenger også tolkningsmekanismer, avklaringer og eksplisitte avgjørelser for å løse vanskelige saker eller uforutsette problemer. Publiserte regler hjelper ulike interessenter med å koordinere seg selv når de er uenige, og de begrenser endringer ved å kreve at enhver endring er eksplisitt. Modellspesifikasjonene er ment å spille alle disse rollene: en prinsipperklæring, et offentlig rammeverk for atferd og en prosess for å endre spesifikasjonene over tid.
Når det er sagt, tror vi ikke at alt som er viktig når det gjelder modellatferd, alltid kan reduseres til eksplisitte regler. Etter hvert som systemer blir mer autonome, vil pålitelighet og tillit i økende grad være avhengig av bredere ferdigheter og disposisjoner: å kommunisere usikkerhet på en god måte, respektere grensene for autonomi, unngå ubehagelige overraskelser, spore intensjoner over tid og resonnere godt om menneskelige verdier i kontekst.
Når modellspesifikasjonene skrives, er det et spekter mellom å beskrive dagens faktiske modellatferd, med alle feil og mangler, og å beskrive et ideelt mål for en fjern fremtid. Vi prøver å finne en balanse, og sikter vanligvis mot et sted rundt 0–3 måneder frem i tid. Dermed ligger modellspesifikasjonene ofte foran modellen på i hvert fall noen få områder av den aktive utviklingen.
Det gjenspeiler rollen til modellspesifikasjonene som en beskrivelse av tiltenkt atferd. De skal peke oss i en helhetlig retning, samtidig som de fortsatt er forankret i det vi enten allerede gjør eller har konkrete planer om å implementere på kort sikt.
Modellspesifikasjonene utvikles gjennom en åpen intern prosess. Alle i OpenAI kan kommentere eller foreslå endringer, og de endelige oppdateringene godkjennes av et bredt sett av tverrfaglige interessenter. I praksis har flere titalls personer bidratt direkte med tekst, og mange flere på tvers av forskning, teknologi, produkt, sikkerhet, retningslinjer, juridisk, kommunikasjon, globale forhold og andre funksjoner har bidratt. Vi lærer også av offentlige utgivelser og tilbakemeldinger, som bidrar til å stressteste disse valgene i reell bruk.
Dette er viktig fordi modellatferd – og dens implikasjoner i verden – er utrolig komplisert. Ingen kan få plass til alle atferdsmønstre, opplæringsprosessen og de videre implikasjonene i hodet sitt, men med mange tverrfaglige bidragsytere og vurderere kan vi forbedre kvaliteten og øke tilliten.
En hyggelig overraskelse har vært at reell enighet ofte er mulig å oppnå, spesielt når vi tvinger oss selv til å skrive ned avveiningene presist nok til at uenighetene blir konkrete.
Modellspesifikasjonene er heller ikke skrevet i et vakuum. Mye av det som kommer med i dem, er et sammendrag av bredere arbeid om atferd, sikkerhet og policy. Mye av arbeidet med å skrive modellspesifikasjonene er egentlig oversettelse: å ta eksisterende arbeid og gjøre det enklere, mer konsistent, mer organisert og mer tilgjengelig uten å miste den underliggende intensjonen.
Produksjonsmodellene våre gjenspeiler ennå ikke modellspesifikasjonene fullt ut og det er flere grunner til det.
- Modelltrening kan henge etter oppdateringer i modellspesifikasjonene. De beskriver atferd vi jobber mot, så de kan ligge foran det den nyeste modellen vår er trent til å gjøre.
- Trening kan utilsiktet lære bort atferd som ikke er i samsvar med modellspesifikasjonene. Vi jobber hardt med å unngå dette, og når det skjer, behandler vi det som en alvorlig feil, ved å enten justere atferden eller modellspesifikasjonene for å få dem i samsvar med hverandre.
- Trening kan aldri helt dekke alle mulige atferder. Reell bruk inneholder en lang hale av kontekster og grensetilfeller som bare viser seg i stor skala, og ingen treningsprosess kan dekke alt.
- Generalisering kan avvike fra det vi hadde tenkt. En modell kan gi de «riktige» resultatene under trening av utilsiktede årsaker, noe som kan føre til utilsiktet atferd i nye situasjoner som avviker fra de som ble observert under treningen. Teknikker som deliberativ tilpasning hjelper, men de er ikke en komplett løsning.
Det at modellspesifikasjonene beskriver et bredt spekter av ønsket atferd, betyr ikke at det finnes én enkelt metode for å lære bort alle disse. Ulike aspekter ved atferd – følge instruksjoner, sikkerhetsgrenser, personlighet, kalibrert uttrykk for usikkerhet og mer – krever ofte ulike teknikker og har ulike feilmoduser. Modellspesifikasjonene gjør det lettere å forstå og kritisere tiltenkt atferd, men å implementere dem er fortsatt både en kunst og et aktivt forskningsområde.
Sammen med dette innlegget lanserer vi Evalueringer av modellspesifikasjoner(åpnes i et nytt vindu): en scenariobasert evalueringspakke som forsøker å dekke så mange påstander i modellspesifikasjonene som mulig med et lite antall representative eksempler. Dette hjelper oss med å spore hvor modellatferd og modellspesifikasjonene kanskje ikke samsvarer, og det hjelper oss med å sjekke om modeller tolker modellspesifikasjonene slik vi hadde tenkt. Disse evalueringene er bare én del av en bredere evalueringsstrategi som også inkluderer mer målrettede vurderinger av mange atferdsdimensjoner, inkludert spesifikke sikkerhetsområder, sannferdighet og smiger, personlighet og stil samt kapabiliteter.
Diagram over samsvar med modellspesifikasjoner etter seksjon for OpenAI-modeller over tid. Se det tilhørende blogginnlegget(åpnes i et nytt vindu) for mer informasjon om evalueringene og hvordan vi tolker dem. Kort sagt mener vi at disse resultatene gjenspeiler reelle og brede forbedringer i modelltilpasning over tid – selv om de også gjenspeiler en liten effekt fordi eldre modeller måles opp mot nyere retningslinjer.
I praksis drives de fleste oppdateringer av spesifikasjonene av et tilbakevendende sett med inndata:
- Offentlige spørsmål og tilbakemeldinger. Uklarheter, grensetilfeller eller feilmoduser – enten i språket til modellspesifikasjonene eller i atferden til modellene våre.
- Interne problemer. Mønstre vi ser under utvikling og testing, inkludert uklarheter der ulike rimelige tolkninger fører til ulik atferd.
- Oppdateringer av retningslinjer for atferd og sikkerhet. Når begrensninger eller forpliktelser på høyere nivå endres, må spesifikasjonene gjenspeile den nye strukturen på en tydelig måte.
- Nye kapabiliteter og produkter. Etter hvert som modeller blir mer i stand til nye atferder og vi lanserer nye produkter, ønsker vi at modellspesifikasjonene skal holde tritt både innholdsmessig og i omfang – for eksempel ved å legge til regler for multimodale interaksjoner(åpnes i et nytt vindu), autonome agenter(åpnes i et nytt vindu) og brukere under 18 år(åpnes i et nytt vindu).
Noen få designprinsipper styrer hvordan vi skriver og reviderer modellspesifikasjonene.
- Klarhet og presisjon. «Vær ærlig» er en god verdi, men ikke en fullstendig beslutningsprosedyre. Modellspesifikasjonene bør skjerpe uenigheter, ikke skjule dem bak et imøtekommende språk. Der det er praktisk mulig, bør vi eksplisitt påpeke potensielle konflikter mellom regler og gi veiledning eller eksempler på hvordan de kan løses. For eksempel peker Ikke lyv(åpnes i et nytt vindu) på en potensiell konflikt med Vær varm(åpnes i et nytt vindu), og forklarer at assistenten bør følge normer for høflighet, uten å bruke hvite løgner som kan oppleves som smiger(åpnes i et nytt vindu) og være i strid med brukerens beste interesse.
- Vesentlige regler. En leser bør kunne ta en realistisk prompt og produser et svar som en annen leser tydelig gjenkjenner som innenfor eller utenfor linjene (selv om det kan være rom for skjønn i grensetilfeller).
- Eksempler som maksimerer signal/støyforholdet. Gode eksempler er ofte avgjørende for å utvikle en spesifikasjonsoppdatering av høy kvalitet. Eksemplene skal bidra til å sette fingeren på vanskelighetene med å spesifisere modellatferd, bringe vanskelige konflikter opp til overflaten og ta et klart standpunkt til hvordan de skal løses. For det andre bør de jobbe mot å være eksempler på ønsket tone og stil, noe som kan være vanskelig å formidle skriftlig.
- Robusthet. Vi prøver å unngå eksempler med uklarheter eller kompleksitet, slik at den sentrale konflikten og den tiltenkte løsningen kommer tydelig frem.
- Konsistens og tydelig organisering. Vi jobber mot å gjøre reglene i modellspesifikasjonene helt konsistente med hverandre og med vår tiltenkte modellatferd, og for å gjøre den overordnede organiseringen av dokumentet tydelig og lett tilgjengelig.
Modellspesifikasjonene er ikke en påstand om at vi kan skrive ned alt som betyr noe, eller at modeller alltid vil treffe målet. Det er en påstand om at tilsiktet atferd er viktig nok til å være tydelig, handlingsrettet og reviderbar.
Tre suksesskriterier styrer hvordan vi utvikler den.
- Lesbarhet. Personer i og utenfor OpenAI kan danne seg presise forventninger om atferd og kan vise til tekst når atferden overrasker dem.
- Handlingsevne. Modellspesifikasjonene kan brukes til å utforme evalueringer, diagnostisere hendelser og ta konsekvente produktbeslutninger – ikke bare for å uttrykke verdier.
- Mulighet for revisjon. Modellspesifikasjonene kan utvikle seg etter hvert som vi lærer, uten å bli et ustabilt, bevegelig mål.
Etter hvert som modeller og produkter utvikler seg, forventer vi at modellspesifikasjonene utvides og tydeliggjøres i takt med nye kapabiliteter og brukskontekster. Målet er at atferdsspesifikasjonen skal være sammenhengende, testbar og i tråd med vårt mål om å sikre at AGI kommer hele menneskeheten til gode.


