14. marts 2023

GPT‑4

Læs artikel Se systemkort Prøv på ChatGPT Plus

Flere ressourcer

Prøv i Playground Se demo-livestream igen Bidrag til OpenAI-evalueringer

Indlæser ...

Vi har skabt GPT‑4, den seneste milepæl i OpenAI's indsats for at opskalere grundig læring. GPT‑4 er en stor multimodal model (accepterer billed- og tekstinput og udsender tekstoutput), der, selvom den er mindre dygtig end mennesker i mange virkelighedsscenarier, præsterer på menneskeligt niveau på forskellige professionelle og akademiske områder. For eksempel består den en simuleret juraeksamen med et resultat blandt de bedste 10 % af testpersonerne. I kontrast hertil var GPT‑3.5's resultat blandt de dårligste 10 %. Vi har brugt seks måneder på løbende at tilpasse⁠ GPT‑4 ved hjælp af erfaringer fra vores udfordrende testprogram samt ChatGPT, hvilket har resulteret i vores bedste resultater til dato (selvom det stadig ikke er perfekt) inden for faktuel korrekthed, styrbarhed og evnen til at holde sig inden for sikkerhedsrammerne.

De seneste to år har vi genopbygget hele vores grundig læring-teknologi og, i samarbejde med Azure, designet en supercomputer helt fra bunden, skræddersyet til vores behov. For et år siden trænede vi GPT‑3.5 som en første "testkørsel" af systemet. Vi fandt og rettede nogle fejl og forbedrede vores teoretiske grundlag. Resultatet blev, at vores GPT‑4‑træning (i hvert fald for os!) forløb usædvanligt stabilt og blev den første store model, hvor vi på forhånd præcist kunne forudsige, hvordan træningen ville gå. I takt med at vi fortsat har fokus på pålidelig skalering, arbejder vi på at finpudse vores metode, så vi i stigende grad kan forudsige og forberede os på fremtidige kapaciteter i god tid – noget vi ser som afgørende for sikkerheden.

Vi lancerer GPT‑4's tekstinput-evner via ChatGPT og API'en (med venteliste⁠). For at gøre billedinput-funktionen bredere tilgængelig samarbejder vi i første omgang tæt med én enkelt partner⁠(åbner i et nyt vindue). Vi har også gjort OpenAI Evals⁠(åbner i et nyt vindue), vores ramme for automatisk evaluering af AI-modellers præstation, open source, så alle kan rapportere mangler i vores modeller og dermed hjælpe med at styre fremtidige forbedringer.

Evner

I en almindelig samtale kan forskellen mellem GPT‑3.5 og GPT‑4 være ganske lille. Forskellen kommer frem, når opgavens kompleksitet når en tilstrækkelig tærskel – GPT‑4 er mere pålidelig, kreativ og i stand til at håndtere meget mere nuancerede instruktioner end GPT‑3.5.

For at forstå forskellen mellem de to modeller testede vi dem på en række benchmarks – blandt andet ved at simulere eksamener, der oprindeligt er lavet til mennesker. Vi brugte de nyeste offentligt tilgængelige tests (som f.eks. i tilfælde af olympiaderne og AP-spørgsmål med frie svar) eller ved at købe øvelseseksamener fra 2022–2023. Vi lavede ingen specifik træning op til eksamenerne. En mindre del af opgaverne i eksamenerne indgik i modellens træningsdata, men vi mener, at resultaterne stadig er repræsentative – se vores tekniske rapport⁠(åbner i et nyt vindue) for flere detaljer.

intern reference ¹

Indlæser ...

Vi evaluerede også GPT‑4 på traditionelle benchmarks, der er designet til maskinlæringsmodeller. GPT‑4 overgår i høj grad eksisterende store sprogmodeller samt de fleste topmoderne (SOTA) modeller, selv når disse er optimeret specifikt til bestemte benchmarks eller har fået ekstra træning:

Indlæser ...

Mange eksisterende ML-benchmarks er skrevet på engelsk. For at få en indledende fornemmelse af kapaciteten på andre sprog oversatte vi MMLU-benchmarket – en pakke med 14.000 multiple choice-opgaver i 57 fag – til en række forskellige sprog ved hjælp af Azure Translate (se Appendiks⁠). På 24 ud af 26 testede sprog klarede GPT‑4 sig bedre end GPT‑3.5 og andre LLM'er (Chinchilla, PaLM) på engelsk, også på sprog med få ressourcer som lettisk, walisisk og swahili:

Indlæser ...

Vi har også brugt GPT‑4 internt, og det har haft stor betydning for funktioner som support, salg, indholdsmoderation og programmering. Vi bruger den også til at hjælpe mennesker med at evaluere AI-output, hvilket er starten på anden fase i vores tilpasningsstrategi⁠.

Visuelle input

GPT‑4 kan tage imod en forespørgsel med tekst og billeder, hvilket – parallelt med den rene tekstindstilling – giver brugeren mulighed for at specificere en hvilken som helst syns- eller sprogopgave. Helt konkret genererer den tekstoutput (naturligt sprog, kode etc.) ud fra input, der består af blandet tekst og billeder. I en række domæner – herunder dokumenter med tekst og fotografier, diagrammer eller skærmbilleder – udviser GPT‑4 lignende evner som ved input, der kun består af tekst. Desuden kan den udvides med testtidsteknikker, der blev udviklet til tekstbaserede sprogmodeller, herunder few-shot og chain-of-thought⁠(åbner i et nyt vindue) prompting. Billedinput er stadig et forskningsmæssigt eksempel og ikke offentligt tilgængeligt.

Indlæser ...

Vi giver en forhåndsvisning af GPT‑4's ydeevne ved at evaluere den på en snæver række standardiserede akademiske vision-benchmarks. Disse tal repræsenterer dog ikke fuldt ud omfanget af dens evner, da vi hele tiden opdager nye og spændende opgaver, som modellen er i stand til at tackle. Vi planlægger snart at offentliggøre flere analyser og evalueringsresultater samt en grundig undersøgelse af effekten af testtidsteknikker.

intern fodnote^A

Indlæser ...

Styrbarhed

Vi har arbejdet på hvert aspekt af den plan, der er skitseret i vores indlæg om at definere AI'ers adfærd⁠, herunder styrbarhed. I stedet for den klassiske ChatGPT‑personlighed med en fast ordlyd, tone og stil kan udviklere (og snart ChatGPT‑brugere) nu foreskrive deres AI's stil og opgave ved at beskrive disse anvisninger i "system"-beskeden. Systembeskeder giver API-brugere mulighed for at tilpasse deres brugeres oplevelse betydeligt inden for grænserne⁠(åbner i et nyt vindue). Vi vil fortsat arbejde på forbedringer her (og ved især, at systembeskeder er den nemmeste måde at “jailbreake” den nuværende model på, altså at overholdelsen af grænserne ikke er perfekt), men vi opfordrer dig til at prøve den og give os din feedback.

Indlæser ...

Begrænsninger

På trods af sine evner har GPT‑4 de samme begrænsninger som tidligere GPT‑modeller. Vigtigst af alt er, at den stadig ikke er helt pålidelig (den "hallucinerer" fakta og laver ræsonneringsfejl). Der bør udvises stor forsigtighed ved brug af sprogmodeloutput, især i situationer med høj risiko. Den præcise protokol – for eksempel menneskelig gennemgang, understøttelse med ekstra kontekst eller helt at undgå brug i højrisikoområder – bør tilpasses det konkrete anvendelsesbehov.

Selv om det stadig er et reelt problem, reducerer GPT‑4 hallucinationer betydeligt i forhold til tidligere modeller (som i sig selv er blevet gradvist bedre). GPT‑4 scorer 40 % højere end vores seneste GPT‑3.5 på vores interne udfordrende faktualitetsevalueringer:

Indlæser ...

Vi har gjort fremskridt med eksterne benchmarks som TruthfulQA, der tester modellens evne til at adskille fakta fra et udvalgt sæt af forkerte udsagn. Disse spørgsmål er parret med faktuelt forkerte svar, som er statistisk tiltalende.

Indlæser ...

GPT‑4‑basismodellen er kun lidt bedre til denne opgave end GPT‑3.5, men efter RLHF⁠-eftertræning (med samme proces, som vi brugte med GPT‑3.5⁠) er der en stor forskel. Hvis man ser på nogle af eksemplerne nedenfor, modstår GPT‑4 at vælge almindelige talemåder (man kan ikke lære en gammel hund nye tricks), men den kan stadig overse subtile detaljer (Elvis Presley var ikke søn af en skuespiller).

Indlæser ...

Modellen kan have forskellige bias i sine output – vi har gjort fremskridt her, men der er stadig mere at gøre. I henhold til vores seneste blogindlæg⁠ sigter vi mod at få de AI-systemer, vi bygger, til at have en rimelig standardadfærd, der afspejler en bred vifte af brugernes værdier, at give disse systemer mulighed for at blive tilpasset inden for brede grænser og at få offentligt input til, hvad disse grænser skal være.

GPT‑4 mangler generelt viden om begivenheder, der er sket, efter at langt størstedelen af dens data stopper (september 2021), og lærer ikke af sine erfaringer. Den kan nogle gange begå simple ræsonneringsfejl, som ikke synes at stemme overens med dens kompetencer på mange andre områder, eller være alt for godtroende, når den accepterer åbenlyst falske udsagn fra en bruger. Og nogle gange kan den fejle ved svære problemer på samme måde som mennesker, f.eks. ved at introducere sikkerhedshuller i den kode, den producerer.

GPT‑4 kan også med vished tage fejl i sine forudsigelser og ikke sørge for at dobbelttjekke arbejdet, når det er sandsynligt, at den begår en fejl. Interessant nok er den grundlæggende prætrænede model meget velkalibreret (dens forventede sikkerhed i et svar stemmer generelt overens med sandsynligheden for, at svaret faktisk er korrekt). Men med vores nuværende eftertræningsproces er kalibreringen reduceret.

Indlæser ...

Risici og afbødninger

Vi har løbende videreudviklet GPT‑4 for at gøre den mere sikker og bedre tilpasset fra starten af træningen. Det har blandt andet omfattet udvælgelse og filtrering af prætræningsdata, evalueringer og inddragelse af eksperter, forbedringer af modelsikkerhed samt overvågning og håndhævelse.

GPT‑4 udgør lignende risici som tidligere modeller, såsom at generere skadelig rådgivning, fejlbehæftet kode eller unøjagtige oplysninger. Men de ekstra muligheder i GPT‑4 fører til nye risikoflader. For at forstå omfanget af disse risici involverede vi over 50 eksperter fra domæner som AI-tilpasningsrisici, cybersikkerhed, biorisiko, tillid og sikkerhed og international sikkerhed til at udsætte modellen for konfliktmæssige tests. Deres resultater gjorde det muligt for os at teste modelens adfærd inden for højrisikoområder, som kræver særlig ekspertise at vurdere. Feedback og data fra disse eksperter indgik i vores afbødninger og forbedringer af modellen; for eksempel har vi indsamlet yderligere data for at forbedre GPT‑4's evne til at afvise anmodninger om, hvordan man syntetiserer farlige kemikalier.

GPT‑4 indarbejder et ekstra sikkerhedsbelønningssignal under RLHF-træning for at reducere skadelige outputs (som defineret i vores retningslinjer for brug⁠(åbner i et nyt vindue)) ved at træne modellen til at afvise anmodninger om sådant indhold. Belønningen leveres af en GPT‑4 zero-shot klassifikator, der bedømmer sikkerhedsgrænser og gennemførelsesstil på sikkerhedsrelaterede forespørgsler. For at forhindre modellen i at afvise gyldige anmodninger indsamler vi et forskelligt datasæt fra forskellige kilder (f.eks. mærkede produktionsdata, menneskelig red teaming, modelgenererede forespørgsler) og anvender sikkerhedsbelønningssignalet (med en positiv eller negativ værdi) på både tilladte og ikke-tilladte kategorier.

Vores afbødninger har forbedret mange af GPT‑4's sikkerhedsegenskaber betydeligt i forhold til GPT‑3.5. Vi har reduceret modellens tendens til at reagere på anmodninger om ikke-tilladt indhold med 82 % sammenlignet med GPT‑3.5, og GPT‑4 reagerer 29 % oftere på følsomme anmodninger (f.eks. medicinsk rådgivning og selvskade) i overensstemmelse med vores retningslinjer.

Indlæser ...

Samlet set gør vores indgreb på modelniveau det sværere at fremkalde dårlig opførsel, men det er stadig muligt. Derudover findes der stadig “jailbreaks”, som kan generere indhold, der overtræder vores retningslinjer for brug⁠. Efterhånden som "risiko pr. token" i AI-systemer øges, vil det blive afgørende at opnå ekstremt høje grader af pålidelighed i disse interventioner. Indtil videre er det vigtigt at supplere begrænsningerne med sikkerhedsteknikker, der kan anvendes i driftstiden, som f.eks. monitorering af misbrug.

GPT‑4 og efterfølgende modeller har potentiale til at påvirke samfundet betydeligt på både gavnlige og skadelige måder. Vi samarbejder med eksterne forskere for at forbedre vores forståelse og vurdering af potentielle konsekvenser og for at opbygge evalueringer af farlige funktioner, der kan opstå i fremtidige systemer. Vi vil snart dele flere af vores tanker om de potentielle sociale og økonomiske konsekvenser af GPT‑4 og andre AI-systemer.

Træningsproces

Ligesom tidligere GPT‑modeller blev GPT‑4‑basismodellen trænet til at forudsige det næste ord i et dokument og blev trænet ved hjælp af offentligt tilgængelige data (f.eks. internetdata) samt data, som vi har licens til. Dataene er et datakorpus i internetskala, der omfatter korrekte og forkerte løsninger på matematiske problemer, svag og stærk argumentation, selvmodsigende og konsistente udsagn, og som repræsenterer en lang række ideologier og ideer.

Så når den får et spørgsmål eller en forespørgsel, kan basismodellen svare på en lang række måder, der kan være langt fra brugerens hensigt. For at tilpasse den til brugerens hensigt inden for sikkerhedsforanstaltningerne finjusterer vi modellens adfærd ved hjælp af forstærkningslæring med menneskelig feedback (RLHF⁠).

Bemærk at modellens evner primært ser ud til at komme fra prætræningsprocessen – RLHF forbedrer ikke eksamenspræstationen (uden aktiv indsats forringes den faktisk). Men styring af modellen kommer fra eftertræningsprocessen – basismodellen kræver hurtig udvikling for overhovedet at vide, at den skal besvare spørgsmålene.

Forudsigelig skalering

Et stort fokus i GPT‑4‑projektet har været at opbygge en grundig lærings stack, der kan skaleres på en forudsigelig måde. Det skyldes primært, at det ved meget store træningskørsler som GPT‑4 ikke er muligt at foretage omfattende modelspecifik finjustering. Vi har udviklet infrastruktur og optimering, der har en meget forudsigelig adfærd på tværs af flere skalaer. For at verificere denne skalerbarhed forudsagde vi nøjagtigt GPT‑4's endelige tab på vores interne kodebase (ikke en del af træningssættet) ved at ekstrapolere fra modeller, der var trænet med den samme metode, men som brugte 10.000 gange mindre beregning:

Indlæser ...

Nu hvor vi præcist kan forudsige den metrik, vi optimerer under træningen (tab), begynder vi at udvikle metoder til at forudsige mere fortolkelige metrikker. For eksempel lykkedes det os at forudsige beståelsesprocenten på en del af HumanEval⁠(åbner i et nyt vindue)-datasættet ved at ekstrapolere fra modeller med 1.000 gange mindre beregning:

Indlæser ...

Nogle evner er stadig svære at forudsige. For eksempel var Inverse Scaling Prize en konkurrence om at finde en metrik, der bliver værre, når modelberegningen øges, og hindsight neglect⁠(åbner i et nyt vindue) var en af vinderne. Ligesom med et andet nyligt resultat⁠(åbner i et nyt vindue) vender GPT‑4 tendensen:

Indlæser ...

Vi tror på, at nøjagtig forudsigelse af fremtidige maskinlæringsevner er en vigtig del af sikkerhedsarbejdet, som ikke får tilstrækkelig opmærksomhed i forhold til den potentielle indvirkning (selvom vi er blevet opmuntret af initiativer på tværs af flere institutioner). Vi øger vores indsats for at udvikle metoder, der giver samfundet bedre vejledning om, hvad vi kan forvente af fremtidige systemer, og vi håber, at det bliver et fælles mål på området.

OpenAI-evalueringer

Vi open-sourcer OpenAI Evals⁠(åbner i et nyt vindue), vores softwareramme til at skabe og køre benchmarks til evaluering af modeller som GPT‑4, mens vi inspicerer deres ydeevne prøve for prøve. Vi bruger Evals til at vejlede udviklingen af vores modeller (både til at identificere mangler og forhindre tilbagegang), og vores brugere kan anvende det til at spore performance på tværs af modelversioner (som nu vil blive udgivet regelmæssigt) og udvikle produktintegrationer. For eksempel har Stripe brugt Evals til at supplere deres menneskelige evalueringer for at måle nøjagtigheden af deres GPT‑drevne dokumentationsværktøj.

Da hele koden er open source, understøtter Evals skrivning af nye klasser til implementering af brugerdefineret evalueringslogik⁠(åbner i et nyt vindue). Vores egen erfaring er dog, at mange benchmarks følger en af nogle få "skabeloner", så vi har også inkluderet de skabeloner⁠(åbner i et nyt vindue), der har været mest nyttige internt (inklusiv en skabelon til "model-graded evals" – vi har fundet ud af, at GPT‑4 i overraskende grad er i stand til at kontrollere sit eget arbejde). Den mest effektive måde at bygge en ny evaluering⁠(åbner i et nyt vindue) på vil generelt være at tage udgangspunkt i en af disse skabeloner og tilføje relevant data. Vi glæder os til at se, hvad andre kan bygge med skabelonerne og med Evals mere generelt.

Vi håber, at Evals bliver et middel til at dele og crowdsource benchmarks, der repræsenterer et maksimalt bredt udsnit af fejltilstande og vanskelige opgaver. Som et eksempel har vi lavet en evaluering med logiske puslespil⁠(åbner i et nyt vindue), som indeholder ti spørgsmål, hvor GPT‑4 fejler. Evals er også kompatibel med implementering af eksisterende benchmarks. Vi har inkluderet flere notesbøger⁠(åbner i et nyt vindue), der implementerer akademiske benchmarks og et par variationer af at integrere (små delmængder af) CoQA⁠(åbner i et nyt vindue) som et eksempel.

Vi opfordrer alle til at bruge Evals til at teste vores modeller og indsende de mest interessante eksempler. Vi tror på, at Evals bliver en integreret del af processen med at bruge og bygge videre på vores modeller, og vi er meget åbne for direkte bidrag, spørgsmål og feedback.

ChatGPT Plus

ChatGPT Plus-abonnenter får GPT‑4‑adgang på chatgpt.com⁠(åbner i et nyt vindue) med begrænset brug. Vi vil justere den nøjagtige brugsgrænse afhængigt af efterspørgslen og systemets ydeevne i praksis, men vi forventer, at der vil være stærkt begrænset kapacitet (selvom vi vil opskalere og optimere i løbet af de kommende måneder).

Afhængigt af de trafikmønstre, vi ser, introducerer vi måske et nyt abonnementsniveau for GPT‑4‑brug med større volumen. Vi håber også på et tidspunkt at kunne tilbyde en vis mængde gratis GPT‑4‑forespørgsler, så dem, der ikke har et abonnement, også kan prøve den.

API

For at få adgang til GPT‑4 API (som bruger den samme ChatCompletions API⁠(åbner i et nyt vindue) som gpt-3.5-turbo), skal du skrive dig på vores venteliste⁠. Vi begynder at invitere enkelte udviklere i dag og opskalerer gradvist for at balancere kapacitet med efterspørgsel. Hvis du er forsker med fokus på AI’s samfundsmæssige indvirkning eller udfordringer relateret til AI-tilpasning, kan du ansøge om subsidieret adgang gennem vores Researcher Access Program⁠.

Når du har adgang, kan du sende tekstbaserede forespørgsler til gpt-4-modellen (billedinput er stadig i begrænset alfa), som vi automatisk opdaterer til vores anbefalede stabile model, når vi laver nye versioner over tid (du kan finde den aktuelle version ved at ringe til gpt-4-0314, som vi understøtter indtil 14. juni). Prisen er 0,03 USD pr. 1.000 forespørgsels-tokens og 0,06 USD pr. 1.000 completion-tokens. Standardhastighedsgrænserne er 40.000 tokens pr. minut og 200 anmodninger pr. minut.

gpt-4 har en kontekstlængde på 8.192 tokens. Vi giver også begrænset adgang til vores version med 32.768 kontekster (ca. 50 siders tekst), gpt-4-32k, som også vil blive opdateret automatisk med tiden (nuværende version, gpt-4-32k-0314, understøttes også indtil 14. juni). Prisen er 0,06 USD pr. 1.000 forespørgsels-tokens og 0,12 USD pr. 1.000 completion-tokens. Vi arbejder stadig på at forbedre modelkvaliteten for længere kontekster og vil meget gerne have feedback på, hvordan den fungerer i din brugssituation. Vi behandler anmodninger om 8K- og 32K-motorerne i forskellige hastigheder baseret på kapacitet, så du kan få adgang til dem på forskellige tidspunkter.

Konklusion

Vi ser frem til, at GPT‑4 vil blive et værdifuldt værktøj, der kan forbedre menneskers liv ved at understøtte mange forskellige anvendelser. Der er stadig meget arbejde foran os, og vi ser frem til at forbedre modellen gennem det fælles arbejde fra det community, der bygger videre på, udforsker og bidrager til modellen.

For mere: Læs artikel⁠(åbner i et nyt vindue) / Se systemkort⁠(åbner i et nyt vindue) / Prøv i ChatGPT Plus⁠(åbner i et nyt vindue) / Prøv i Playground⁠(åbner i et nyt vindue) / Se demo-livestream igen⁠(åbner i et nyt vindue) / Bidrag til OpenAI-evalueringer⁠(åbner i et nyt vindue)

Appendiks

Eksempel på MMLU-spørgsmål, oversat til andre sprog. Bemærk, at vi bruger konsistente valgmærker (A-D):

Indlæser ...

Fodnoter

A
Vi evaluerer dette benchmark ved brug af tankerække-prompting (Chain-Of-Thought) med fire eksempler fra træningsættet i kontekst. Den specifikke prompt blev justeret i forhold til valideringssættet.

Litteraturhenvisninger

1
P. Arredondo (Casetext/Stanford CodeX), D. Katz (Stanford CodeX), M. Bommarito (Stanford CodeX), S. Gao (Casetext). Yderligere analyse er tilgængelig i artiklen⁠(åbner i et nyt vindue).