Vi har utviklet GPT‑4, den nyeste milepælen i OpenAIs satsing på å skalere dyp læring. GPT‑4 er en stor multimodal modell (som aksepterer bilde- og tekstinndata, og gir tekstutdata) som, selv om den er mindre kapabel enn mennesker i mange virkelige situasjoner, viser menneskelig nivå av ytelse på ulike profesjonelle og akademiske referansemålinger. For eksempel består den en simulert advokateksamen med en poengsum blant de øverste 10 % av deltakerne. Til sammenligning lå GPT‑3.5 sin poengsum blant de nederste 10 %. Vi har brukt seks måneder på å iterativt tilpasse GPT‑4 ved å bruke lærdom fra vårt program for fiendtlig testing samt ChatGPT, noe som har gitt våre beste resultater noensinne (selv om de langt fra er perfekte) når det gjelder faktanøyaktighet, styrbarhet og evnen til å nekte å gå utenfor fastsatte rammer.
I løpet av de siste to årene har vi bygget opp hele vår dyplæringsstabel på nytt, og sammen med Azure har vi vært med på å utvikle en superdatamaskin fra bunnen av, tilpasset våre arbeidsbelastninger. For et år siden trente vi GPT‑3.5 som en første «testkjøring» av systemet. Vi fant og fikset noen feil og forbedret det teoretiske grunnlaget vårt. Som et resultat var opplæringskjøringen av GPT‑4 (i hvert fall for oss!) usedvanlig stabil, og ble vår første store modell der vi kunne forutsi opplæringsytelsen nøyaktig på forhånd. Etter hvert som vi fortsetter å fokusere på pålitelig skalering, har vi som mål å finpusse metodologien vår for å kunne forutsi og forberede oss på fremtidige funksjoner stadig lenger frem i tid, noe vi anser som kritisk for sikkerheten.
Vi lanserer tekstinntastingsfunksjonen via GPT‑4 og API-en (med en venteliste). For å forberede bildeinndatafunksjonen for bredere tilgjengelighet, samarbeider vi tett med én enkelt partner(åpnes i et nytt vindu) til å begynne med. Vi bruker også OpenAI Evals(åpnes i et nytt vindu), vårt rammeverk for automatisert evaluering av KI-modellers ytelse, med åpen kildekode for å gjøre det mulig for alle å rapportere mangler i modellene våre for å bidra til videre utvikling.
I en uformell samtale kan forskjellen mellom GPT‑3.5 og GPT‑4 være små. Forskjellen kommer til syne når oppgavens kompleksitet når et tilstrekkelig nivå. GPT‑4 er mer pålitelig, kreativ og i stand til å håndtere langt mer nyanserte instruksjoner enn GPT‑3.5.
For å forstå forskjellen mellom de to modellene testet vi dem på en rekke referansemålinger, inkludert simulering av eksamener som opprinnelig var utformet for mennesker. Vi brukte de nyeste offentlig tilgjengelig prøvene (i form av Olympiader og AP-oppgaver med fritekstsvar), eller ved å kjøpe prøveeksamener fra 2022–2023. Vi ga ingen spesifikk opplæring for disse eksamenene. Et mindretall av problemene i eksamenene ble observert av modellen under opplæring, men vi mener resultatene er representative. Se vår tekniske rapport(åpnes i et nytt vindu) for detaljer.
intern referanse 1
Vi evaluerte også GPT‑4 på tradisjonelle referansemålinger utformet for maskinlæringsmodeller. GPT‑4 presterer betydelig bedre enn eksisterende store språkmodeller, sammen med de fleste toppmoderne (SOTA) modellene som kan inkludere spesialtilpasning for bestemte referansemålinger eller ekstra opplæringsprotokoller.
Mange eksisterende ML-referansemålinger er skrevet på engelsk. For å få en innledende forståelse av evner i andre språk, oversatte vi MMLU-referansepunktet, en samling av 14 000 flervalgsoppgaver i 57 fag, til en rekke språk ved hjelp av Azure Translate (se vedlegg). I 24 av de 26 testede språkene overgår GPT‑4 den engelskspråklige ytelsen til GPT‑3.5 og andre LLM-er (Chinchilla, PaLM), inkludert for språk med lav ressursbruk som latvisk, walisisk og swahili:
Vi har også brukt GPT‑4 internt, med stor innvirkning på funksjoner som støtte, salg, innholdsmoderering og programmering. Vi bruker det også til å hjelpe mennesker med å evaluere KI-utdata, og starter dermed den andre fasen i vår tilpasningsstrategi.
GPT‑4 kan ta imot en melding med tekst og bilder, som – parallelt med innstillingen for kun tekst – lar brukeren spesifisere hvilken som helst syns- eller språkrelatert oppgave. Nærmere bestemt genererer den tekstutdata (naturlig språk, kode osv.) gitt inndata som består av en kombinasjon av tekst og bilder. Over en rekke domener – inkludert dokumenter med tekst og bilder, diagrammer eller skjermbilder – viser GPT‑4 lignende funksjoner som den gjør på kun tekstbaserte inndata. Videre kan den utvides med teknikker for bruk under testing som ble utviklet for språkmodeller med kun tekst, inkludert few-shot og tankerekke(åpnes i et nytt vindu)-meldinger. Bildeinndata er fortsatt i en forskningsversjon og ikke offentlig tilgjengelig.
Vi forhåndsvurderer GPT‑4s ytelse ved å evaluere den på en begrenset samling av standard akademiske referansemålinger. Disse tallene representerer imidlertid ikke fullt ut omfanget av modellens funksjoner ettersom vi stadig oppdager nye og spennende oppgaver den er i stand til å håndtere. Vi planlegger å publisere ytterligere analyser og evalueringstall, samt en grundig undersøkelse av effekten av teknikker for bruk under teksting snart.
intern fotnoteA
Vi har jobbet med alle aspekter av planen som er skissert i innlegget vårt om definering av KIs atferd, inkludert styrbarhet. I stedet for den klassiske ChatGPT‑personligheten med en fast ordrikhet, tone og stil, kan utviklere (og snart ChatGPT‑brukere) nå angi KI-ens stil og oppgave ved å beskrive disse som instruksjoner i «system»-meldingen. Systemmeldinger lar API-brukere tilpasse brukeropplevelsen betydelig innenfor visse grenser(åpnes i et nytt vindu). Vi vil fortsette å gjøre forbedringer på dette området (og vi vet spesielt at systemmeldinger er den enkleste måten å «jailbreake» den nåværende modellen på, dvs. at overholdelsen av grensene ikke er perfekt), men vi oppfordrer deg til å prøve det ut og gi oss beskjed om hva du synes.
Til tross for sine funksjoner, har GPT‑4 lignende begrensninger som tidligere GPT‑modeller. Viktigst av alt: den er fortsatt ikke helt pålitelig (den «hallusinerer»/dikter opp fakta og gjør feil resonnementer). Stor forsiktighet må utvises når man bruker resultater fra språkmodeller, spesielt i kontekster med høy risiko, der den nøyaktige protokollen (som menneskelig gjennomgang, forankring med tilleggskontekst eller å unngå bruk med høy risiko helt) samsvarer med behovene til en spesifikk brukssituasjon.
Selv om det fortsatt er et reelt problem, reduserer GPT‑4 hallusinasjoner betydelig sammenlignet med tidligere modeller (som i seg selv har blitt bedre for hver iterasjon). GPT‑4 scorer 40 % høyere enn vår nyeste GPT‑3.5 i våre interne faktasjekker med motstandstesting:
Vi har gjort fremskritt med eksterne referansemålinger som TruthfulQA, som tester modellens evne til å skille fakta og utvalgte feilaktige utsagn.» Disse spørsmålene er koblet med uriktige svar som er statistisk tiltalende.
GPT‑4‑basismodellen er bare litt bedre på denne oppgaven enn GPT‑3.5. Etter RLHF-etteropplæring (ved bruk av samme prosess som vi brukte med GPT‑3.5), er det imidlertid stor forskjell. I eksemplene nedenfor unngår GPT‑4 å velge vanlige uttrykk (som «du kan ikke lære en gammel hund nye triks»). Den kan imidlertid fortsatt overse små detaljer (Elvis Presley var ikke sønn av en skuespiller).
Modellen kan ha ulike skjevheter i resultatene sine. Vi har gjort fremskritt på dette området, men det er fortsatt mer å gjøre. I henhold til vårt nylige blogginnlegg, har vi som mål å utvikle KI-systemer med fornuftig standardatferd som gjenspeiler et bredt spekter av brukernes verdier, samtidig som de kan tilpasses innenfor brede rammer, og få offentlige innspill om hva disse rammene bør være.
GPT‑4 mangler generelt kunnskap om hendelser som har funnet sted etter at hoveddelen av modellens data stopper (september 2021), og den lærer ikke av egen erfaring. Den kan noen ganger gjøre enkle resonneringsfeil som ikke ser ut til å stemme overens med modellens kompetanse på tvers av ulike fagområder, eller være altfor naiv ved å akseptere åpenbart feilaktige påstander fra en bruker. Og noen ganger kan den mislykkes med vanskelige problemer på samme måte som mennesker, for eksempel ved å introdusere sikkerhetssårbarheter i koden den produserer.
GPT‑4 kan også være skråsikker i sine feilaktige forutsigelser, uten å være nøye med å dobbeltsjekke arbeidet sitt når det er sannsynlig at den gjør en feil. Interessant nok er den forhåndstrente basismodellen svært godt kalibrert (dens forutsagte selvtillit til et svar samsvarer generelt med sannsynligheten for at det er korrekt). Gjennom vår nåværende etteropplæringprosess er imidlertid kalibreringen redusert.
Vi har kontinuerlig forbedret GPT‑4 for å gjøre den tryggere og bedre tilpasset fra første opplæring, med tiltak som valg og filtrering av forhåndstreningsdata, evalueringer og involvering av eksperter, forbedringer av modelsikkerhet, samt overvåking og håndheving.
GPT‑4 utgjør lignende risikoer som tidligere modeller, som å generere skadelige råd, feilkode eller unøyaktig informasjon. De nye funksjonene til GPT‑4 fører imidlertid til nye risikoområder. For å forstå omfanget av disse risikoene, engasjerte vi over 50 eksperter i KI-tilpasningsrisiko, cybersikkerhet, biologisk risiko, tillit og sikkerhet, samt internasjonal sikkerhet for å gjennomføre motstandstesting av modellen. Funnene deres gjorde det spesifikt mulig for oss å teste modellens atferd i områder med høy risiko som krever ekspertise for å evaluere. Tilbakemeldinger og data fra disse ekspertene ble brukt i våre tiltak og forbedringer for modellen. Vi har for eksempel samlet inn ytterligere data for å forbedre GPT‑4s evne til å avvise forespørsler om hvordan man fremstiller farlige kjemikalier.
GPT‑4 inkluderer et ekstra sikkerhetsbelønningssignal under RLFH-opplæring for å redusere skadelige utdata (som definert i våre retningslinjer for bruk(åpnes i et nytt vindu)) ved å trene modellen til å avvise forespørsler om slikt innhold. Belønningen gis av en GPT‑4 zero-shot-klassifikator som bedømmer sikkerhetsgrenser og fullføringsstil for sikkerhetsrelaterte meldinger. For å forhindre at modellen avslår gyldige forespørsler, samler vi inn et mangfoldig datasett fra ulike kilder (f.eks. merkede produksjonsdata, menneskelige red team-øvelser, modellgenererte meldinger) og bruker sikkerhetsbelønningssignalet (med en positiv eller negativ verdi) på både tillatte og ikke tillatte kategorier.
Tiltakene våre har forbedret mange av GPT‑4s sikkerhetsegenskaper betydelig sammenlignet med GPT‑3.5. Vi har redusert modellens tendens til å svare på forespørsler om ikke tillatt innhold med 82 % sammenlignet med GPT‑3.5. Samtidig svarer GTP-4 på sensitive forespørsler (f.eks. medisinske råd og selvskading) i samsvar med retningslinjene våre 29 % oftere.
Totalt sett gjør våre inngrep på modellnivå det vanskeligere å fremkalle uønsket atferd, men det er fortsatt mulig å gjøre det. Det finnes også fortsatt «jailbreaks» som kan generere innhold som bryter med våre retningslinjer for bruk. Etter hvert som «risiko per token» i KI-systemer øker, vil det bli avgjørende å oppnå svært høy grad av pålitelighet i slike inngrep. Foreløpig er det viktig å kompensere for disse begrensningene med sikkerhetstiltak ved utrulling, som overvåking for misbruk.
GPT‑4 og etterfølgere har potensial til å påvirke samfunnet betydelig på både fordelaktige og skadelige måter. Vi samarbeider med eksterne forskere for å forbedre hvordan vi forstår og vurderer potensielle påvirkninger, samt for å utvikle evalueringer av farlige funksjoner som kan oppstå i fremtidige systemer. Vi vil snart dele mer av våre tanker om de potensielle sosiale og økonomiske påvirkningene av GPT‑4 og andre KI-systemer.
I likhet med tidligere GPT‑modeller ble GPT‑4‑basismodellen opplært til å forutsi det neste ordet i et dokument, og ble opplært ved hjelp av offentlig tilgjengelige data (som internettdata) samt data vi har lisensiert. Dataene er en nettbasert samling av data som inkluderer riktige og uriktige løsninger på matteproblemer, svake og sterke resonnementer, selvmotsigende og konsistente påstander, og representerer et stort utvalg av ideologier og idéer.
Når basismodellen mottar en melding med et spørsmål, kan den svare på en rekke måter som kan være langt unna brukerens intensjon. For å tilpasse modellen til brukerens hensikt med rammer, finjusterer vi modellens atferd ved å bruke forsterkende læring med menneskelig tilbakemelding (RLHF).
Merk at modellens funksjoner ser ut til å stamme hovedsakelig fra forhåndsopplæringen. RLHF forbedrer ikke eksamensprestasjoner (uten målrettet innsats svekker det faktisk ytelsen). Styringen av modellen kommer derimot fra etteropplæringsprosessen. Basismodellen krever spørreteknikk for å i det hele tatt vite at den skal svare på spørsmålene.
Et stort fokus i GPT‑4‑prosjektet har vært å bygge en dyp læringsstabel som skalerer på en forutsigbar måte. Hovedårsaken er at det, for svært omfattende opplæringer av modeller som GPT‑4, ikke er gjennomførbart å gjøre omfattende modellspesifikk finjusteringer. Vi utviklet en infrastruktur og optimalisering som har svært forutsigbar atferd på tvers av flere skalaer. For å bekrefte denne skalerbarheten forutså vi nøyaktig på forhånd GPT‑4s endelige tap på vår interne kodebase (ikke en del av opplæringsdatasettet) ved å ekstrapolere fra modeller opplært med samme metodikk, men med 10 000 ganger mindre beregningskraft:
Nå som vi nøyaktig kan forutsi hvilken metrikk vi optimaliserer under opplæring (tap), begynner vi å utvikle en metodikk for å forutsi mer tolkbare måleparametere. For eksempel klarte vi å forutsi beståttprosenten på et delsett av HumanEval(åpnes i et nytt vindu)-datasettet, ved å ekstrapolere fra modeller med 1000 ganger mindre beregningskraft:
Noen funksjoner er fortsatt vanskelige å forutsi. For eksempel var Inverse Scaling Prize en konkurranse for å finne et måleparameter som blir dårligere etter hvert som modellens beregningskapasitet øker, og etterpåklokskap(åpnes i et nytt vindu) var en av vinnerne. Akkurat som med et annet nylig resultat,(åpnes i et nytt vindu) snur GPT‑4 trenden:
Vi mener at det å forutsi fremtidige maskinlæringsevner nøyaktig er en viktig del av sikkerheten som ikke får nær nok oppmerksomhet i forhold til sitt potensielle omfang (selv om vi har blitt oppmuntret av innsatsen ved flere institusjoner). Vi øker innsatsen for å utvikle metoder som gir samfunnet bedre veiledning om hva man kan forvente av fremtidige systemer, og vi håper dette blir en felles satsing i feltet.
Vi bruker åpen kildekode på OpenAI Evals(åpnes i et nytt vindu), vårt programvarerammeverk for å lage og kjøre referansetester ved evaluering av modeller som GPT‑4, mens vi inspiserer ytelsen til modellene prøve for prøve. Vi bruker Evals til å styre utviklingen av modellene våre (både for å identifisere mangler og forhindre tilbakeslag), og brukerne våre kan bruke det til å spore ytelse på tvers av modellversjoner (som nå vil bli lansert regelmessig) og utviklende produktintegrasjoner. For eksempel har Stripe brukt Evals som et supplement til sine menneskelige evalueringer for å måle nøyaktigheten til sitt GPT‑drevne dokumentasjonsverktøy.
Siden koden er utelukkende åpen kildekode, støtter Evals skriving av nye klasser for å implementere tilpasset evalueringslogikk(åpnes i et nytt vindu). Etter vår egen erfaring følger imidlertid mange referansemålinger én av noen få «maler», så vi har også inkludert de malene(åpnes i et nytt vindu) som har vært mest nyttige internt (inkludert en mal for «modellvurderte evalueringer» – vi har funnet ut at GPT‑4 er overraskende kapabel til å kontrollere sitt eget arbeid). Vanligvis vil den mest effektive måten å bygge en ny evaluering på(åpnes i et nytt vindu), være å instansiere en av disse malene og samtidig oppgi data. Vi gleder oss til å se hva andre kan bygge med disse malene og med Evals generelt.
Vi håper også at Evals blir et verktøy for å dele og samle inn referansemålinger fra fellesskapet, som representerer et så bredt spekter som mulig av feilmoduser og vanskelige oppgaver. Som et eksempel har vi laget en evaluering av logiske oppgaver(åpnes i et nytt vindu) som inneholder ti spørsmål der GPT‑4 mislykkes. Evals er også kompatibel med implementering av eksisterende referansemålinger. Vi har inkludert flere notatbøker(åpnes i et nytt vindu) som implementerer akademiske referansemålinger og noen få varianter av integrering av (små delsett av) CoQA(åpnes i et nytt vindu) som et eksempel.
Vi inviterer alle til å bruke Evals til å teste modellene våre og sende inn de mest interessante eksemplene. Vi tror at Evals vil være en integrert del av prosessen med å bruke og bygge videre på modellene våre, og vi ønsker bidrag, spørsmål og tilbakemelding(åpnes i et nytt vindu) velkommen.
ChatGPT Plus-abonnenter vil få tilgang til GPT‑4 på chatgpt.com(åpnes i et nytt vindu) med en bruksbegrensning. Vi vil justere den nøyaktige bruksbegrensningen avhengig av etterspørsel og systemytelse i praksis, men vi forventer å være svært kapasitetsbegrenset (selv om vi vil oppskalere og optimalisere i de kommende månedene).
Avhengig av trafikkmønstrene vi ser, kan det hende vi introduserer et nytt abonnementsnivå for GPT‑4‑bruk med høyere volum. Vi håper også på et tidspunkt å kunne tilby et visst antall gratis GPT‑4‑meldinger, slik at de uten abonnementer også kan prøve det.
For å få tilgang til GPT‑4 API-en (som bruker den samme ChatCompletions API-en(åpnes i et nytt vindu) som gpt-3.5-turbo), må du registrere deg på ventelisten. Vi begynner å invitere noen utviklere i dag og oppskalerer gradvis for å balansere kapasitet med etterspørsel. Hvis du er en forsker som studerer samfunnsmessig påvirkning av kunstig intelligens eller spørsmål knyttet til KI-tilpasning, kan du også søke om subsidiert tilgang gjennom vårt Researcher Access Program..
Når du har fått tilgang, kan du sende tekstbaserte forespørsler til GPT‑4‑modellen (bildeinndata er fortsatt i begrenset alfa). Vi vil automatisk oppdatere til vår anbefalte stabile modell etter hvert som vi lanserer nye versjoner over tid (du kan låse gjeldende versjon ved å bruke gpt-4-0314, som vi vil støtte frem til 14. juni). Prisen er 0,03 $ per 1000 prompt tokens og 0,06 $ per 1000 completion tokens. Standard hastighetsgrenser er 40 000 tokens per minutt og 200 forespørsler per minutt.
gpt-4 har en kontekstlengde på 8192 tokens. Vi tilbyr også begrenset tilgang til vår versjon kontekstlengde på 32 768 tokens (omtrent 50 sider med tekst), gpt-4-32k, som også vil bli automatisk oppdatert over tid (gjeldende versjon er gpt-4-32k-0314, som støttes frem til 14. juni). Prisen er 0,06 $ per 1000 prompt tokens og 0,12 $ per 1000 completion tokens. Vi jobber fortsatt med å forbedre modellkvaliteten for lange kontekster og vil gjerne ha tilbakemeldinger på hvordan den fungerer for ditt brukstilfelle. Vi behandler forespørsler for 8K- og 32K-motorene med ulik hastighet basert på kapasitet, så du kan få tilgang til dem på forskjellige tidspunkt.
Vi ser frem til at GPT‑4 blir et verdifullt verktøy for å forbedre menneskers liv på mange ulike områder. Det er fortsatt mye jobb å gjøre, og vi ser frem til å forbedre denne modellen gjennom den kollektive innsatsen fra fellesskapet som bygger videre på, utforsker og bidrar til modellen.
Eksempel på MMLU-spørsmål, oversatt til andre språk. Merk at vi bruker konsistente choice tokens (A–D):
Fotnoter
- A
Vi evaluerer denne referansemålingen ved hjelp av tankerekke-meldinger med fire eksempler fra opplæringssettet i kontekst. Den spesifikke meldingen ble justert i forhold til valideringssettet.
Referanser
- 1
P. Arredondo (Casetext/Stanford CodeX), D. Katz (Stanford CodeX), M. Bommarito (Stanford CodeX), S. Gao (Casetext). Ytterligere analyse er tilgjengelig i artikkelen(åpnes i et nytt vindu).


