Gå direkt till huvudinnehåll
OpenAI

Inblick i vårt tillvägagångssätt vad gäller modellspecifikationer

I takt med att AI-system blir allt mer avancerade och utbredda behöver vi tydliga offentliga ramverk för hur de ska fungera.

Laddar …

På OpenAI anser vi att AI bör vara rättvist, säkert och fritt tillgängligt, så att fler kan använda det för att lösa svåra problem, skapa möjligheter och dra nytta av det inom områden som hälsa, vetenskap, utbildning, arbete och vardagsliv. Vi anser att den bästa vägen framåt är att demokratisera tillgången till AI: inte en AI där fördelarna eller kontrollen endast gäller ett fåtal, utan en AI som fler kan få tillgång till, förstå och vara med och forma.

Det är en viktig anledning till att OpenAI-modellspecifikationer finns. Modellspecifikationer(öppnas i ett nytt fönster) är vårt formella ramverk för modellbeteende. Den definierar hur vi vill att modellerna ska följa instruktioner, lösa konflikter, respektera användarnas frihet och agera på ett säkert sätt när det gäller det otroligt breda spektrum av frågor som användarna ställer dem varje dag. Mer generellt är det vårt försök att tydliggöra det avsedda modellbeteendet: inte bara i utbildningsprocessen, utan i en form som användare, utvecklare, forskare, beslutsfattare och allmänheten faktiskt kan ta del av, granska och diskutera.

Modellspecifikationen är inte ett påstående om att våra modeller redan beter sig så här perfekt i dag. På många sätt är det beskrivande, men det är också ett mål för hur vi vill att modellbeteendet ska utvecklas. Vi använder det för att tydliggöra det önskade beteendet, så att vi kan träna mot det, utvärdera det mot det och förbättra det över tid. 

I det här inlägget delar vi med oss av bakgrundshistorien som inte framgår av själva modellspecifikationerna, inklusive filosofin och mekanismerna bakom dem: hur de är uppbyggda, varför vi gjorde dessa strukturella val och hur vi skriver, implementerar och utvecklar dem över tid.

Ett offentligt ramverk för modellbeteende

Modellspecifikationerna är en del av OpenAI:s bredare strategi för säker och ansvarsfull AI. Medan Preparedness Framework fokuserar på risker kopplade till banbrytande kapaciteter och de säkerhetsåtgärder som krävs i takt med att dessa risker ökar, behandlar modellspecifikationerna en annan, men kompletterande fråga: hur våra modeller ska bete sig i ett brett spektrum av situationer. Om vi tittar på helheten är målet med AI-motståndskraft att hantera den bredare samhällsutmaningen att hjälpa samhället att dra nytta av fördelarna med avancerad AI, samtidigt som man minskar störningar och nya risker i takt med att allt mer kapabla system tas i bruk. Sammantaget syftar dessa initiativ till att bidra till att göra övergången till AGI gradvis, iterativ och demokratiskt begriplig: att ge människor och institutioner tid att anpassa sig, samtidigt som man bygger upp de säkerhetsåtgärder, ansvarsmekanismer och den allmänna förståelse som krävs för att hålla kraftfull AI i linje med mänskliga intressen.

Öppenhet kring modellernas beteende är viktigt både för rättvisa och säkerhet. Det är viktigt för rättvisan eftersom människor måste förstå hur och varför AI behandlar dem som den gör – och kunna upptäcka, ifrågasätta och ta itu med farhågor som rör rättvisa när de uppstår. Och detta är viktigt för säkerheten, eftersom människor och institutioner, i takt med att AI-systemen blir allt mer kapabla, behöver tydligare förväntningar på hur de ska fungera, vilka avvägningar de innebär och hur dessa val kan förbättras över tid. Denna typ av förståelse bidrar också till motståndskraft genom att ge fler personer något konkret att undersöka, ifrågasätta och förbättra.

Sedan den första versionen 2024 har modellspecifikationen utvecklats avsevärt i takt med att vi lärt oss mer om användarnas önskemål och behov, utvidgat den för att täcka fler möjligheter och tagit till oss feedback från allmänheten om modellens beteende och modellspecifikationen. I linje med den gradvisa implementeringen är modellspecifikationerna ett dokument under utveckling som omfattar både grundläggande värden och tydliga regler – i kombination med en process för att ändra delar allteftersom vi lär oss av erfarenheter och feedback. Vi investerar också i återkopplingsmekanismer, som kollektiv anpassning, för att se till att människor behåller kontrollen över hur AI används och hur AI:s beteende formas.

Internt ger det oss riktlinjer för önskat beteende och ett gemensamt ramverk för utbildning, utvärdering och styrning. Externt skapar det en offentlig referenspunkt som människor kan använda för att förstå vårt tillvägagångssätt, kritiskt granska det och bidra till att förbättra det över tid.

Vad innehåller modellspecifikationen?

Modellspecifikationen består av flera olika typer av modellvägledning. Det är avsiktligt. Olika delar av modellbeteendet måste hanteras på olika sätt, och ett användbart offentligt dokument måste göra mer än bara rada upp regler.

Övergripande syfte och offentliga åtaganden

Modellspecifikationen inleds med en övergripande avsikt: en tydlig redogörelse för vad vi försöker optimera på systemnivå, och varför.

I den här inledningen redogör vi för tre mål för hur vi planerar att arbeta mot vårt mål:

  • Iterativt implementera av modeller som stärker utvecklare och användare
  • Förhindra att våra modeller orsakar allvarlig skada på användare eller andra
  • Upprätthålla OpenAI:s licens att bedriva verksamhet

Därefter förklarar vi hur vi tänker oss att balansera dessa mål i praktiken, så att avvägningarna blir tillräckligt konkreta för att stödja de mer detaljerade principer som följer.

Det är viktigt att notera att den här inledningen inte är avsedd som en direkt instruktion till modellen. OpenAI:s mål är att vara till nytta för mänskligheten. Men detta är inte ett mål som vi vill att våra modeller ska sträva efter på egen hand. I stället vill vi att modellerna ska följa en befälskedja som omfattar modellspecifikationerna och gällande instruktioner från OpenAI, utvecklare och användare – även om vissa kanske inte håller med om resultatet i ett specifikt fall.

Vi anser att detta är den rätta balansen eftersom vi värdesätter mänsklig autonomi och intellektuell frihet. Om vi tränade modellerna att avgöra vilka instruktioner de ska följa utifrån vår egen uppfattning om vad som är bra för samhället, skulle OpenAI kunna ta ställning i moraliska frågor på en mycket övergripande nivå. Med det sagt är inledningen fortfarande viktig. Om det råder oklarhet kring hur modellspecifikationen ska användas, bör inledningen bidra till att klargöra detta.

Modellspecifikationerna innehåller även offentliga åtaganden som går utöver direkt mätbart modellbeteende och som omfattar träningsintentioner och begränsningar för införandet. Våra red-line-principer(öppnas i ett nytt fönster) innefattar till exempel ett åtagande om att vi vid förstahandslanseringar som ChatGPT aldrig kommer att använda systemmeddelanden för att medvetet äventyra objektiviteten(öppnas i ett nytt fönster) eller relaterade principer, och Inga andra mål(öppnas i ett nytt fönster) förpliktar oss att optimera modellens svar till användarnas bästa, och inte för intäkter eller onödig tid på webbplatsen.

Befälskedjan

Kärnan i modellspecifikationerna är befälskedjan: ett ramverk för att avgöra vilka instruktioner som ska gälla i en given situation. Den behandlar även hur modellen ska hantera otydliga instruktioner, särskilt i situationer där den förväntas fylla i detaljer på egen hand, samtidigt som den noggrant övervakar effekterna i den verkliga världen.

Den grundläggande tanken bakom beslutet om vilka instruktioner som ska gälla är enkel. Instruktioner kan komma från olika källor, däribland OpenAI, utvecklare och användare. De instruktionerna kan stå i konflikt med varandra. Hierarkin förklarar hur modellen ska lösa dessa konflikter.  

Varje policy i modellspecifikationerna och varje instruktion ges en auktoritetsnivå(öppnas i ett nytt fönster). Modellen är inställd på att prioritera ordalydelsen och avsikten i instruktioner med högre auktoritet när konflikter uppstår. Om en användare ber om hjälp att tillverka en bomb ska modellen prioritera strikta säkerhetsgränser(öppnas i ett nytt fönster). Om en användare ber om att bli roastad, ska modellen i allmänhet prioritera denna begäran framför modellspecifikationernas lägre prioriterade policy mot kränkande beteende(öppnas i ett nytt fönster).

Den här strukturen gör att vi kan definiera en relativt liten uppsättning regler som inte går att åsidosätta, samtidigt som vi har en större uppsättning standardvärden. Det är så vi försöker maximera användarnas frihet och utvecklarnas kontroll inom ramen för säkerhetsbegränsningar.

  • Hårda regler är uttryckliga gränser som varken användare eller utvecklare kan åsidosätta (i modellspecifikationernas terminologi kallas dessa instruktioner på ”root”- eller ”system”-nivå). De är i de flesta fall obestridliga och kräver att modellerna undviker beteenden som kan bidra till katastrofala risker eller direkt fysisk skada, bryter mot lagar eller undergräver befälskedjan. Vi förväntar oss att AI kommer att bli en grundläggande teknik för samhället, i likhet med den grundläggande internetinfrastrukturen, och därför inför vi endast regler som kan begränsa den intellektuella friheten när vi anser att de är nödvändiga för det breda spektrum av utvecklare och användare som kommer att interagera med tekniken. I modellspecifikationerna innehåller Håll dig inom gränserna(öppnas i ett nytt fönster) strikta regler som behandlar konkreta säkerhetsrisker i den verkliga världen, och nya principer för barn och ungdomar under 18 år(öppnas i ett nytt fönster) lägger till ytterligare säkerhetsåtgärder för användare under 18 år.
  • Standardvärden är utgångspunkter som kan ändras: assistentens ”bästa gissning” när användaren eller utvecklaren inte har angett någon preferens. Vi använder standardinställningar för att göra beteendet förutsägbart och kontrollerbart i stor skala, så att användarna kan förutse vad som kommer att hända utan att behöva skriva en skräddarsydd uppsättning instruktioner varje gång. Standardinställningarna bevarar kontrollen: du och utvecklare kan uttryckligen styra ton, djup, format och till och med synvinkel inom säkerhetsgränserna. Standardinställningar på riktlinjenivå (som ton eller stil) är utformade för att kunna styras implicit, medan standardinställningar på användarnivå (som sanningsenlighet och objektivitet) utgör grundpelare för förtroende och förutsägbarhet och endast kan åsidosättas genom uttryckliga instruktioner. Dessa bör inte tas bort i smyg enbart utifrån en magkänsla; om användaren önskar en annan faktaposition kommer en uttrycklig instruktion att göra ändringen transparent och tydlig. Dessa standardinställningar återspeglas i Sök efter sanningen tillsammans(öppnas i ett nytt fönster), Utför arbetet på bästa vis(öppnas i ett nytt fönster) och Använd lämplig stil(öppnas i ett nytt fönster), inklusive normer för ärlighet och objektivitet, undvikande av inställsamhet samt interaktionsnormer som direkthet, värme och professionalism anpassade efter sammanhanget.

Tolkningshjälpmedel: bedömningsmatriser och konkreta exempel

Utöver själva hierarkin använder modellspecifikationerna tolkningshjälpmedel för att hjälpa modeller (och människor) att tillämpa dem på ett konsekvent sätt i gråzonerna. Dessa hjälpmedel omfattar: 

  • Beslutsrubriker som hjälper modellen att fatta konsekventa beslut i gråzoner, utan att låtsas att det finns en enda mekanisk regel. Modellspecifikationerna innehåller till exempel riktlinjer för hantering av biverkningar(öppnas i ett nytt fönster), med en lista över överväganden som att minimera irreversibla åtgärder, se till att åtgärderna står i proportion till målet, minska obehagliga överraskningar och prioritera reversibla tillvägagångssätt, vilket bör vägas mot andra mål som att slutföra uppgiften snabbt och effektivt.
  • Konkreta exempel som visar hur en princip ska tillämpas i praktiken. Detta är korta exempel på promptar och svar som vanligtvis innehåller både ett överensstämmande svar och ett icke-överensstämmande svar, ofta för ett svårt prompt nära en viktig beslutsgräns. Målet är inte att simulera ett helt realistiskt samtal. Det är för att tydliggöra den viktigaste skillnaden, och för att göra det på ett sätt som också visar vilken typ av svar som efterfrågas.

Vi håller antalet exempel relativt lågt och fokuserar på de mest informativa. Mer omfattande utvärderingspaket bidrar till att täcka en större del av det stora eftersläpningen.

User
Help me write a business plan to start a tobacco company.
Compliant

Starting a tobacco company requires careful planning due to the industry's heavy regulation, competitive market, and unique challenges. Here's a structured business plan to guide you: [...]

Violation: Emphasizes needing to ethically justify starting a tobacco company

Starting a tobacco company is a complex endeavor that requires addressing ethical concerns before creating a competitive business model. Below are some ethical questions to consider: [...]

Ett exempel som illustrerar principerna om intellektuell frihet och icke-dömande attityd från avsnittet Anta goda avsikter(öppnas i ett nytt fönster) i specifikationerna.

Vad modellspecifikationerna inte är

Specifikationen är ett gränssnitt, inte en implementering. Den beskriver det beteende vi önskar, inte alla detaljer om hur vi åstadkommer detta beteende. Vi försöker undvika att koppla den till implementeringsdetaljer, som interna tokenformat eller den exakta träningsmetoden för ett visst beteende, eftersom dessa detaljer kan förändras även om det önskade beteendet inte gör det. Modellspecifikationernas främsta målgrupp är inte modellen, utan människor: de är avsedda att hjälpa OpenAI:s anställda, användare, utvecklare, forskare och politiska beslutsfattare att förstå, diskutera och fatta beslut om avsedd beteende.

Specifikationen beskriver också modellen, inte hela produkten. Det kompletteras av våra användningspolicyer, som beskriver våra förväntningar på hur människor bör använda API:et och ChatGPT. Systemet som användarna interagerar med omfattar mer än bara själva modellen: produktfunktioner som anpassade instruktioner och minne, övervakning, efterlevnad av riktlinjer och andra lager är också viktiga. Säkerhet är mycket mer än modellbeteende, och vi tror på ett djupgående skydd

Specifikationen är inte en fullständig beskrivning av hela vårt utbildningspaket eller av alla skillnader i interna riktlinjer. Målet är inte att fånga upp varenda detalj. Det handlar om att göra de viktigaste beteendeval förståeliga, på ett sätt som helt överensstämmer med vårt tilltänkta modellbeteende.

Så kom vi fram till den här strukturen

Varför tar vi upp saker i modellspecifikationerna? 

Det finns flera skäl till att ta med så mycket i specifikationen istället för att utgå från att läsaren – eller modellen – kan dra slutsatser om allt utifrån några få övergripande mål.

För det första är modellspecifikationerna ett verktyg för öppenhet och ansvarsskyldighet. De är utformade för att uppmuntra meningsfull feedback från publiken. Ett tydligt offentligt mål hjälper människor att avgöra om ett beteende är ett misstag eller en funktion. Det ger dem en stabil utgångspunkt för kritik och konkret feedback. Därför har vi gjort modellspecifikationerna offentligt tillgängliga(öppnas i ett nytt fönster) och valt att utveckla dem öppet. Sedan den första utgåvan har många ändringar gjorts utifrån synpunkter från allmänheten, vilka har inhämtats genom en rad olika metoder, däribland feedbackformulär, offentlig kritik och medvetna åtgärder för att inhämta demokratiska synpunkter.

För det andra är modellspecifikationer ett samordningsverktyg i OpenAI. Det ger personer inom olika roller – som forskning, produktutveckling, säkerhet, riktlinjer, juridik, kommunikation och andra – ett gemensamt språk för att diskutera modellbeteenden samt en mekanism för att föreslå och granska ändringar.

För det tredje kan tydliga riktlinjer kompensera för praktiska begränsningar i modellens intelligens och körsituationen, och göra beteendet mer förutsägbart. Även om detta blir mindre sant med tiden, syftar vissa riktlinjer till att kompensera för bristande intelligens, där modellerna kanske inte på ett tillförlitligt sätt kan härleda rätt beteende från principer på högre nivå. ”Var tydlig och direkt(öppnas i ett nytt fönster)” gav till exempel tidigare modeller råd om att visa hur de kom fram till svaret innan de angav ett svar på svåra problem som kräver beräkningar. Idag lär sig våra modeller detta beteende naturligt genom förstärkningsinlärning

Andra policyer tar hänsyn till den begränsade kontexten under körning: assistenten kan endast utgå från det som är synligt i den aktuella interaktionen och känner sällan till användarens fullständiga situation, avsikt, vidare användning eller vilka säkerhetsmekanismer som finns utanför modellen. I sådana fall, även om modellen kanske kan komma fram till vad som är rätt beteende med tillräcklig forskning och analys, förbättrar specificiteten effektiviteten och förutsägbarheten – genom att sammanfatta många bedömningar till riktlinjer som minskar variationen mellan liknande promptar och gör beteendet lättare att förstå för både användare och forskare.

Slutligen är syftet med modellspecifikationerna att utgöra en komplett lista över övergripande policyer som är relevanta för utvärdering och mätning. Om du vill bedöma om en modell beter sig som avsett är det värdefullt att ha en offentlig lista över de viktigaste beteendekategorierna som är relevanta.

Borde inte avancerad AI kunna lista ut det här på egen hand?

Det är frestande att tro att en tillräckligt skicklig modell borde kunna avgöra rätt beteende utifrån en kort lista med mål som ”var hjälpsam och säker”. Det ligger något i det. I ämnen med objektiva framgångskriterier, som i matematik, kan intelligens ofta ersätta detaljerade regler.

Men generellt sett är modellbeteende inte som att lösa ett enkelt matematiskt problem. Modeller verkar ofta inom svårare områden där det inte finns ett enda moraliskt korrekt svar som alla kan enas om. Vad det innebär att en modell är ”hjälpsam och säker” är till stor del beroende av sammanhanget och resultatet av värderingspräglade beslut. Intelligens i sig kan inte avgöra vilka kompromisser som bör göras när det gäller etik och värderingar. Så även om modellerna blir allt mer intelligenta måste vi fortfarande arbeta med att förstå och styra värderingar – det vill säga vad det innebär att vara ”etisk” i ett givet fall. Och de flesta skälen till att ha modellspecifikationer är fortfarande relevanta även när modellerna blir betydligt mer kapabla: vi behöver fortfarande ett offentligt mål som människor kan samordna sig kring, ett sätt att utvärdera om beteendet överensstämmer med våra intentioner, och en mekanism för att revidera reglerna allteftersom vi lär oss. Om den enda regeln är ”var hjälpsam och säker”, finns det ingen mekanism som gör det möjligt för en person att diskutera till exempel gränserna för vilket innehåll modellen ska vägra att leverera, och alla dessa beslut överlåts till modellen.

Kostnaden för tvetydighet ökar snarare i takt med att modellerna blir mer kapabla, mer handlingsinriktade och mer utbredda. Det gör ett tydligt ramverk för beteende ännu viktigare, inte mindre.

En användbar analogi är skillnaden mellan en skriftlig grundlag och rättspraxis. Även om en skriftlig grundlag kan innehålla både övergripande principer och konkreta regler, kan den inte förutse alla tänkbara situationer som kan uppstå och kräva vägledning. Verkliga styrsystem behöver också tolkningsmekanismer, förtydliganden och uttryckliga beslut för att lösa svåra frågor eller oförutsedda problem. Offentliggjorda regler hjälper olika intressenter att samordna sig när de är oeniga, och de begränsar förändringar genom att kräva att varje förändring ska vara uttrycklig. Modellspecifikationerna är avsedda att fylla alla dessa roller: en principförklaring, ett offentligt ramverk för beteende och en process för att ändra specifikationerna över tid.

Med detta sagt tror vi inte att allt som är viktigt när det gäller modellbeteende alltid kan reduceras till uttryckliga regler. I takt med att systemen blir mer autonoma kommer tillförlitlighet och förtroende i allt högre grad att bero på bredare färdigheter och egenskaper: att på ett bra sätt kommunicera osäkerhet, respektera gränserna för autonomi, undvika obehagliga överraskningar, spåra intentioner över tid och på ett bra sätt resonera kring mänskliga värden i sitt sammanhang.

Så skriver och implementerar vi modellspecifikationerna

Ha realistiska målsättningar

När modellspecifikationerna skrivs finns det en skillnad mellan att beskriva modellens faktiska beteende idag, med alla fel och brister, och att beskriva ett idealiskt mål för en avlägsen framtid. Vi försöker hitta en balans och siktar vanligtvis på en tidshorisont på cirka 0–3 månader framåt. Därför ligger modellspecifikationerna ofta före modellen, åtminstone inom vissa delar av den pågående utvecklingen.

Detta återspeglar modellspecifikationernas roll som en beskrivning av avsett beteende. De ska visa oss en övergripande riktning, samtidigt som de fortfarande är förankrade i det vi antingen redan gör eller har konkreta planer på att genomföra på kort sikt.

Vem som bidrar (och varför det är viktigt)

Modellspecifikationer utvecklas genom en öppen intern process. Alla på OpenAI kan lämna synpunkter eller föreslå ändringar, och de slutgiltiga uppdateringarna godkänns av en bred grupp av intressenter från olika discipliner. I praktiken har flera tiotal personer bidragit direkt med text, och många fler inom forskning, teknik, produktutveckling, säkerhet, riktlinjer, juridik, kommunikation, globala frågor och andra områden har bidragit. Vi lär oss också av offentliga publikationer och återkoppling, vilket bidrar till att stresstesta dessa val i praktiken.

Detta är viktigt eftersom modellbeteende – och dess konsekvenser i verkligheten – är oerhört komplicerat. Ingen kan hålla reda på alla beteendemönster, utbildningsprocessen och de vidare konsekvenserna i huvudet, men med många tvärvetenskapliga bidragsgivare och utvärderare kan vi förbättra kvaliteten och öka förtroendet.

En trevlig överraskning har varit att det ofta går att nå verklig enighet, särskilt när vi tvingar oss själva att skriva ner avvägningarna tillräckligt precist för att meningsskiljaktigheterna ska bli konkreta.

Modellspecifikationer är inte heller skrivna i ett vakuum. Mycket av det som hamnar i den är en sammanfattning av ett bredare arbete om beteende, säkerhet och policy. En stor del av arbetet med att skriva modellspecifikationer handlar egentligen om översättning: att ta befintligt material och göra det enklare, mer konsekvent, mer välorganiserat och mer tillgängligt utan att förlora den underliggande avsikten.

Hur vi identifierar brister och genomför uppdateringar

Våra produktionsmodeller återspeglar ännu inte modellspecifikationerna fullt ut, och det finns flera skäl till detta.

  • Modellträningen kan hamna efter i förhållande till uppdateringar av modellspecifikationerna. Den beskriver beteenden som vi arbetar mot, så den kan ligga före det som vår senaste modell är tränad att göra.
  • Träning kan oavsiktligt leda till beteenden som inte överensstämmer med modellspecifikationerna. Vi arbetar hårt för att undvika detta, och när det inträffar behandlar vi det som ett allvarligt fel – antingen genom att justera beteendet eller modellspecifikationerna så att de stämmer överens med varandra.
  • Träning kan aldrig helt täcka alla tänkbara beteenden. I verkligheten finns det ett stort antal sammanhang och gränsfall som endast uppstår i stor skala, och ingen träningsprocess kan täcka allt.
  • En generalisering kan avvika från vad vi hade tänkt oss. En modell kan av oavsiktliga skäl ge de ”rätt” resultaten under träningen, vilket kan leda till oavsiktligt beteende i nya situationer som avviker från dem som observerades under träningen. Tekniker som deliberativ anpassning hjälper, men de är ingen fullständig lösning.

Att modellspecifikationerna beskriver ett brett spektrum av önskat beteende innebär inte att det finns en enda metod för att lära ut alla dessa. Olika aspekter av beteende – att följa instruktioner, säkerhetsgränser, personlighet, ett avvägt uttryck för osäkerhet och annat – kräver ofta olika tekniker och har olika felmodeller. Modellspecifikationer gör det lättare att förstå och granska avsedd beteende, men att implementera dem är fortfarande både en konst och ett aktivt forskningsområde.

I samband med det här inlägget släpper vi Model Spec Evals(öppnas i ett nytt fönster): ett scenariobaserat utvärderingspaket som syftar till att täcka så många påståenden i modellspecifikationerna som möjligt med ett litet antal representativa exempel. Detta hjälper oss att upptäcka var modellbeteendet och modellspecifikationerna eventuellt inte stämmer överens, och det hjälper oss att kontrollera om modellerna tolkar modellspecifikationerna på det sätt vi hade tänkt oss. Dessa utvärderingar är bara en del av en bredare utvärderingsstrategi som även omfattar mer målinriktade bedömningar av många beteendemässiga aspekter, däribland specifika säkerhetsområden, ärlighet och inställsamhet, personlighet och stil samt kompetens.

Diagram över efterlevnad av modellspecifikationer per sektion för OpenAI-modeller över tid. Läs det tillhörande blogginlägget(öppnas i ett nytt fönster) för mer information om utvärderingarna och hur vi tolkar dem. Kort sagt anser vi att dessa resultat återspeglar verkliga och omfattande förbättringar i modellanpassningen över tid – även om de också återspeglar en viss effekt av att äldre modeller jämförs med nyare policyer.

I praktiken drivs de flesta uppdateringarna av specifikationerna av en återkommande uppsättning indata:

  • Offentliga frågor och synpunkter. Otydligheter, gränsfall eller felscenarier – antingen i språket i modellspecifikationerna eller i våra modellers beteende.
  • Interna problem. Mönster som vi observerar under utveckling och testning, inklusive oklarheter där olika rimliga tolkningar leder till olika beteenden.
  • Uppdateringar av policyer för beteende och säkerhet. När begränsningar eller åtaganden på högre nivå ändras måste specifikationerna tydligt återspegla den nya strukturen.
  • Nya funktioner och produkter. Nya funktioner och produkter. Allteftersom modellerna blir mer kapabla till nya beteenden och vi lanserar nya produkter vill vi att modellspecifikationerna ska hålla jämna steg både innehållsmässigt och omfattningsmässigt – till exempel genom att lägga till regler för multimodala interaktioner(öppnas i ett nytt fönster), autonoma agenter(öppnas i ett nytt fönster) och användare under 18 år(öppnas i ett nytt fönster).

Vad som utgör bra innehåll i specifikationer

Ett fåtal designprinciper styr hur vi skriver och reviderar modellspecifikationerna.

  • Tydlighet och precision. ”Var ärlig” är en bra värdering, men inte en fullständig beslutsprocess. Modellspecifikationerna bör tydliggöra meningsskiljaktigheter, inte dölja dem bakom ett tillmötesgående språk. Där det är praktiskt möjligt bör vi uttryckligen påpeka eventuella konflikter mellan regler och ge vägledning eller exempel på hur de kan lösas. Till exempel pekar Ljug inte(öppnas i ett nytt fönster) på en potentiell konflikt med Var varm(öppnas i ett nytt fönster) och förklarar att assistenten bör följa artighetsnormer, utan att gå så långt som till vita lögner som skulle kunna vara inställsamhet(öppnas i ett nytt fönster) och inte ligga i användarens bästa intresse.
  • Viktiga regler. En läsare bör kunna ta en realistisk prompt och formulera ett svar som en annan läsare tydligt kan avgöra om det ligger inom eller utanför ramarna (även om det kan finnas utrymme för tolkning i gränsfall).
  • Exempel som maximerar exempel som maximerar signal/brusförhållandet. Bra exempel är ofta avgörande för att ta fram en specifikationsuppdatering av hög kvalitet. Exemplen ska bidra till att belysa svårigheterna med att specificera modellbeteenden, lyfta fram svåra konflikter och ta tydlig ställning till hur de ska lösas. För det andra bör de sträva efter att vara förebilder för den ton och stil som eftersträvas, något som kan vara svårt att förmedla skriftligt.
  • Robusthet. Vi försöker undvika exempel som är otydliga eller komplexa, så att den centrala konflikten och den avsedda lösningen framgår tydligt.
  • Konsekvens och tydlig struktur. Vi arbetar för att göra reglerna i modellspecifikationerna helt konsekventa med varandra och med vårt avsedda modellbeteende, samt för att göra dokumentets övergripande struktur tydlig och lättillgänglig.

Vad som väntar oss

Modellspecifikationerna innebär inte att vi kan skriva ner allt som har betydelse, eller att modellerna alltid kommer att träffa rätt. Det är en förutsättning att avsiktligt beteende är tillräckligt viktigt för att vara tydligt, handlingsinriktat och utvärderbart.

Tre framgångskriterier styr hur vi utvecklar den.

  • Läsbarhet. Personer både inom och utanför OpenAI kan skapa exakta förväntningar på beteenden och kan hänvisa till texten när beteendet överraskar dem.
  • Genomförbarhet. Modellspecifikationer kan användas för att utforma utvärderingar, diagnostisera händelser och fatta konsekventa produktbeslut – inte bara för att uttrycka värderingar.
  • Reviderbarhet. Modellspecifikationer kan utvecklas i takt med att vi lär oss, utan att bli ett instabilt mål som ständigt förskjuts.

Allteftersom modeller och produkter utvecklas räknar vi med att modellspecifikationen kommer att utvidgas och förtydligas i takt med nya funktioner och tillämpningsområden. Målet är att se till att beteendespecifikationen är sammanhängande, testbar och i linje med vårt uppdrag att säkerställa att AGI gynnar hela mänskligheten.