14 mars 2023

GPT‑4

Läs rapport Visa systemkort Prova på ChatGPT Plus

Fler resurser

Prova i Playground Se demo-livestream igen Bidra till OpenAI Evals

Laddar …

Vi har skapat GPT‑4, den senaste milstolpen i OpenAI:s försök till att skala upp djupinlärning. GPT‑4 är en stor multimodal modell (som accepterar bild- och textindata och svarar med textutdata) som, fastän den är mindre kapabel än människor i många verkliga scenarier, uppvisar prestanda på mänsklig nivå vid olika professionella och akademiska riktmärken. Den får t.ex. godkänt på ett simulerat advokatexamensprov med poäng inom de bästa 10 % av provtagarna, i jämförelse med GPT‑3.5 som fick poäng bland de sämsta 10 %. Vi har spenderat sex månader med att iterativt justera⁠ GPT‑4 genom att använda lektioner från vårt kontradiktoriska testningsprogram och ChatGPT, vilket har lett till våra bästa resultat någonsin (men långt ifrån perfekta) på fakta, styrbarhet och vägran att överskrida skyddsbarriärerna.

Under de senaste två åren har vi byggt om hela vår djupinlärningsstack, och samarbete med Azure har vi skapat en superdator för vår arbetsbelastning från grunden. För ett år sedan tränade vi GPT‑3.5 som en första ”provkörning” av systemet. Vi upptäckte och åtgärdade några buggar och förbättrade våra teoretiska grunder. Som resultat blev vår provkörning av GPT‑4 (åtminstone för oss!) otroligt stabil och blev den första större modellen vars träningsprestanda vi noggrant kunde förutse på förhand. Medan vi fortsätter att fokusera på tillförlitlig skalning försöker vi finslipa vår metodik så att vi kan förutse och förbereda oss för framtida funktioner allt tidigare, något vi anser vara väsentligt för säkerheten.

Vi lanserar GPT‑4:s textindatafunktion via ChatGPT och API:et (med en väntelista⁠). I förberedelse inför tillgängliggörandet av bildindatafunktionen till en bredare publik samarbetar vi med en enda partner⁠(öppnas i ett nytt fönster) till att börja med. Vi låter också OpenAI Evals⁠(öppnas i ett nytt fönster), vårt ramverk för automatiserad utvärdering av AI-modellernas prestanda, ha öppen källkod så att vem som helst kan rapportera om modellernas brister och vägleda oss i våra förbättringar.

Funktioner

I allmänna diskussioner kan skillnaderna mellan GPT‑3.5 och GPT‑4 verka minimala. Skillnaden visar sig när uppgiftens komplexitet når en tillräcklig gränsnivå. GPT‑4 är mer pålitlig och kreativ och kan hantera mycket mer nyanserade instruktioner än GPT‑3.5.

För att förstå skillnaderna mellan de två modellerna testade vi för olika riktmärken, inklusive simulerade prov som ursprungligen var skapade för människor. Vi började med att använda de senast publicerade proven (gällande olympiaderna och AP-frågor med fria svar) eller genom att köpa övningsproven i 2022-2023 utgåva. Vi utförde ingen särskild träning för dessa prov. Några få problem i proven sågs av modellen under träning men vi anser att resultaten är representativa. Se vår tekniska rapport⁠(öppnas i ett nytt fönster) för mer information.

intern referens ¹

Laddar …

Vi utvärderade även GPT‑4 för traditionella riktmärken som utformats för maskininlärningsmodeller. GPT‑4 överträffar större språkmodeller väsentligt, samt de flesta toppmoderna (SOTA) modeller, vilka kan omfatta riktmärkesspecifikt skapande eller ytterligare träningsprotokoller:

Laddar …

Många befintliga ML-milstolpar har skrivits på engelska. För att få en första förståelse för funktionen i andra språk översatte vi MMLU-riktmärket, en uppsättning problem på 14 000 flervalsfrågor inom 57 ämnen, till olika språk med Azure Translate (se Bilaga⁠). I 24 av 26 språk som testades överträffade GPT‑4 den engelskspråkiga prestandan för GPT‑3.5 och andra LLM:er (Chinchilla, PaLM), inklusive för två lågresursspråk såsom lettiska, welshiska och swahili:

Laddar …

Vi har även använt GPT‑4 internt, med stor inverkan på funktioner såsom support, försäljning, innehållsmoderering och programmering. Vi använder den även till att hjälpa människor att utvärdera AI-utdata, som är den andra fasen i vår justeringsstrategi⁠.

Visuella indata

GPT‑4 kan ta emot text- och bildprompter, som, jämfört med inställningen för endast text, låter användaren specificera vilken visuell eller språkuppgift som helst. Specifikt genererar den textutdata (naturligt språk, kod, osv.) från indata som består av både text och bilder. GPT‑4 uppvisar liknande funktioner som den gör för indata med endast text inom ett brett område domäner, inklusive dokument med text och fotografier, diagram och skärmdumpar. Dessutom kan den justeras med metoder under testperioden som har utvecklats till språkmodeller för endast text, inklusive prompter med några exempel och tankekedja⁠(öppnas i ett nytt fönster). Bildindata befinner sig fortfarande i forskningsförhandsgranskning och är inte offentligt tillgängligt.

Laddar …

Vi granskar GPT‑4:s prestanda genom att utvärdera den på en mindre uppsättning standard akademiska visionsriktmärken. Siffrorna representerar dock inte bredden av dess funktioner eftersom vi hela tiden upptäcker nya och spännande uppgifter som modellen klarar av att hantera. Vi planerar att snart publicera ytterligare analyser och utvärderingsstatistik samt en grundlig utredning av effekterna från testperiodens metoder.

internal footnote^A

Laddar …

Styrbarhet

Vi har jobbat på planens alla aspekter som beskrivs i vårt inlägg om hur man definierar AI-beteende⁠, inklusive styrbarhet. Istället för den klassiska ChatGPT‑personligheten med en enda verbositet, ton och stil kan nu utvecklare (och snart även ChatGPT‑användare) anpassa deras AI:s stil och uppgift genom att ge instruktioner i “systemets” meddelande. Systemmeddelanden låter API-användare väsentligt anpassa sina användares upplevelse inom vissa ramar⁠(öppnas i ett nytt fönster). Vi fortsätter att göra förbättringar här (och vet specifikt att systemmeddelanden är det enklaste sättet att utföra en ”jailbreak” på den nuvarande modellen, t.ex. hålla sig inom vissa ramar fungerar inte perfekt), men vi uppmanar dig att prova på den och tala om för oss vad du tycker.

Laddar …

Begränsningar

Trots sina funktioner har GPT‑4 liknande begränsningar som tidigare GPT‑modeller. Viktigast av allt är att den fortfarande inte är helt tillförlitlig (den ”hallucinerar” fakta och gör fel i sina resonemang. Stor försiktighet måste iakttas när man använder språkmodellens utdata, särskilt i viktiga sammanhang, med exakta protokoll (såsom mänsklig granskning, med ytterligare sammanhang som grund, eller undvika användningar i viktiga sammanhang över huvud taget) som matchar behovet för ett särskilt användningsfall.

Fastän hallucinationer fortfarande är ett riktigt problem hallucinerar GPT‑4 mycket mindre än tidigare modeller (som även de har förbättrats för varje iteration). GPT‑4 får 40 % bättre poäng än vår senaste GPT‑3.5‑modell på våra interna kontradiktoriska faktautvärderingar:

Laddar …

Vi har gjort framsteg på externa riktmärken såsom TruthfulQA, som testar modellens förmåga att skilja på fakta från en uppsättning kontradiktoriskt utvalda uttalanden. Frågorna paras ihop med svar som består av felaktiga fakta men som är statistiskt tilltalande.

Laddar …

GPT‑4:s grundmodell är endast en aning bättre på den här uppgiften än GPT‑3.5, men efter RLHF⁠ efterträning (med samma process som vi använde för GPT‑3.5⁠) ser vi en stor skillnad. När GPT‑4 granskar exemplen nedan motstår den sig att välja vardagliga uttryck (man kan inte lära gamla hundar att sitta), men den missar ändå små detaljer (Elvis Presley var inte son till en skådespelare).

Laddar …

Modellens utdata kan bestå av flera fördomar i dess utdata. Vi har gjort framsteg i detta men vi behöver göra mer. Som vi berättade i vårt blogginlägg nyligen⁠ syftar vi att ge AI-systemen vi skapar rimliga standardbeteenden som återspeglar ett brett utbud av användares värderingar, låta de systemen anpassas inom större ramar och få allmänhetens synpunkter på hur de ramarna ska se ut.

GPT‑4 har vanligtvis ingen kunskap om händelser som har skett efter att huvuddelen av dess data stängs av (september 2021) och lär sig inte av sina erfarenheter. Ibland kan den resonera felaktigt om något enkelt, vilket inte verkar överensstämma med kompetensen över så många domäner, eller vara överdrivet lättlurad och godta uppenbara falska uttalanden från en användare. Och ibland kan den misslyckas med att lösa svåra problem på samma sätt som människor, som att introducera säkerhetsrisker in i kod den skriver.

GPT‑4 kan också självsäkert ha fel i sina förutsägelser utan att kontrollera sitt arbete när det är sannolikt att den kan begå ett misstag. Intressant nog är den förtränade grundmodellen högkalibrerad (dess förutsagda självförtroende i sina svar matchar sannolikheten av att den har rätt). Men genom vår nuvarande efterträningsprocess har kalibreringen minskat.

Laddar …

Risker och reducerande åtgärder

Vi har uppdaterat GPT‑4 för att göra den säkrare och bättre justerad från början av träningen, med insatser som val och filtrering av förträningsdata, utvärderingar och expertengagemang, säkerhetsförbättringar i modellen samt övervakning och genomdrivande.

GPT‑4 utgör liknande risker som tidigare modeller, såsom generering av skadliga råd, buggig kod och felaktig information. Med GPT‑4:s ytterligare funktioner uppstår dock nya risker. För att förstå vidden av dessa risker har vi engagerat över 50 experter från domäner såsom AI-anpassningsrisker, cybersäkerhet, biorisker, tillit och säkerhet och internationell säkerhet för att kontradiktoriskt testa modellen. Deras resultat gjorde det möjligt för oss att testa modellens beteende inom högriskområden som kräver expertis för att utvärdera. Vi använde dessa experters feedback och data i våra reduceringsåtgärder och förbättringar för modellen. Vi samlade t.ex. in ytterligare data för att förbättra GPT‑4:s förmåga att vägra uppfylla förfrågningar om hur man syntetiserar farliga kemikalier.

GPT‑4 använder sig av en ytterligare signal för säkerhetsbelöning under RLHF-träningen för att reducera skadlig utdata (som beskrivs i våra användningsriktlinjer⁠(öppnas i ett nytt fönster)) genom att träna modellen till att avvisa förfrågningar om sådant innehåll. Belöningen tillhandahålls av en GPT‑4 klassificerare utan exempel som bedömer säkerhetsgränser och stilen på slutföranden för säkerhetsrelaterade prompter. För att förhindra modellen från att avvisa giltiga förfrågningar samlar vi in ett brett sortiment med datamängder från olika källor (t.ex. märkta produktionsdata, mänsklig red teaming, modellgenererade prompter) och tillämpar signalen för säkerhetsbelöning (med ett positivt eller negativt värde) för både tillåtna och förbjudna kategorier.

Våra reduceringsåtgärder har förbättrat många av GPT‑4:s säkerhetsegenskaper väsentligt jämfört med GPT‑3.5. Vi har förminskat modellens tendens att besvara förfrågningar om förbjudet innehåll med 82 % i jämförelse med GPT‑3.5 och GPT‑4 besvarar känsliga förfrågningar (t.ex. medicinsk rådgivning och självskadebeteende) 29 % oftare, i enlighet med våra policyer.

Laddar …

I allmänhet försvårar våra interventioner på modellnivå möjligheten till att locka fram dåligt beteende men det är ändå möjligt att göra det. Dessutom existerar fortfarande ”jailbreaks” för att generera innehåll som bryter mot våra användningsriktlinjer⁠. Allt eftersom AI-systemens ”risk per token” ökar kommer det att bli väsentligt att uppnå extremt hög tillförlitlighetsnivå i dessa interventioner. För tillfället är det viktigt att komplettera dessa begränsningar med säkerhetsmetoder vid lansering, såsom missbruksövervakning.

GPT‑4 och modeller därefter har potentialen att påverka samhället betydligt både på positiva och negativa sätt. Vi samarbetar med externa forskare för att förbättra hur vi förstår och bedömer potentiell inverkan, samt skapar utvärderingar för farliga funktioner som kan uppkomma i framtida system. Vi kommer snart att dela mer om hur vi tänker om den potentiella sociala och ekonomiska inverkan från GPT‑4 och andra AI-system.

Träningsprocesser

Precis som tidigare GPT‑modeller har GPT‑4:s grundmodell tränats till att förutse efterföljande ord i ett dokument, och har tränats på offentligt tillgängliga data (såsom internetdata) samt data som vi har licenserat. Informationen är en webbskalig datakorpus med rätt och fel lösningar till matematikproblem, svaga och starka resonemang, självmotsägande och konsekventa uttalanden som representerar många olika ideologier och idéer.

Så när grundmodellen får en fråga kan den svara på många olika sätt som kan vara långt från vad användaren hade i tankarna. För att anpassa det med användarens avsikter inom skyddsgränserna har vi finjusterat modellens beteende med förstärkningsinlärning med mänsklig feedback (RLHF⁠).

Observera att modellens funktioner verkar huvudsakligen härstamma från förträningsprocessen. RLHF förbättrar inte prestandan vid examensprov (utan aktiv ansträngning försämras den faktiskt). Men styrningen av modellen härstammar från efterträningsprocessen. Grundmodellen kräver promptutformning för att ens förstå att den ska besvara frågorna.

Förutsägbar skalning

Ett stort fokus för GPT‑4‑projektet har varit att skapa en djupinlärningsstack som skalar förutsägbarhet. Detta beror huvudsakligen på att det är orimligt att utföra större modellspecifika finjusteringar vid större träningskörningar såsom GPT‑4. Vi har utvecklat infrastruktur och optimering som uppvisar väldigt förutsägbart beteende över flera olika skalor. För att verifiera skalbarheten förutsåg vi korrekt GPT‑4:s slutliga förlust på vår interna kodbas (inte en del av träningsmängden) genom att extrapolera från modeller som tränats med samma metodik men med 10 000 x färre beräkningar:

Laddar …

Nu när vi kan korrekt förutse metriken vi optimerar under träning (förlust) har vi börjat utveckla en metodik för att förutse mer tolkningsbara mätvärden. Vi har t.ex. framgångsrikt förutsett godkännandefrekvensen på en delmängd av mänskliga utvärderingens⁠(öppnas i ett nytt fönster) datamängd genom att extrapolera från modeller med 1 000 x färre beräkningar.

Laddar …

Vissa funktioner är fortfarande svåra att förutse. Tävlingen ”Inverse Scaling Prize” avsåg t.ex. att hitta en metrik som blir sämre ju större beräkningar modellen utför och försummelse i efterhand⁠(öppnas i ett nytt fönster) var en av vinnarna. Precis som med ett annat resultat⁠(öppnas i ett nytt fönster) nyligen omvänder GPT‑4 trenden:

Laddar …

Vi anser att korrekt förutse framtida maskininlärningsfunktioner är en viktig del av säkerheten som inte får tillräcklig mycket uppmärksamhet relativt till dess potentiella inverkan (men vi har uppmuntrats av ansträngningarna från flera olika institutioner). Vi skalar upp våra ansträngningar för att utveckla metoder som ger samhället bättre vägledning om vad man kan förvänta sig från framtida system och vi hoppas att detta blir ett gemensamt mål inom branschen.

OpenAI Evals

Vi har öppen källkod till OpenAI Evals⁠(öppnas i ett nytt fönster), vårt programvaruramverk för att skapa och köra riktmärken för utvärderingsmodeller såsom GPT‑4, medan vi inspekterar deras prestanda del för del. Vi använder Evals till att vägleda våra modellers utveckling (både i att identifiera brister och förhindra regressioner). Våra användare kan tillämpa dem för att spåra prestandan över olika modellversioner (som nu kommer att släppas regelbundet) och utvecklande produktintegrationer. Stripe har t.ex. använt Evals till att komplettera deras mänskliga utvärderingar för att mäta riktigheten i deras GPT‑drivna dokumentverktyg.

Eftersom koden är öppen källa stödjer Evals skrivandet av nya klasser för att implementera anpassad utvärderingslogik⁠(öppnas i ett nytt fönster). Enligt vår egen erfarenhet följer dock många riktmärken en av några få ”mallar”, så vi har även inkluderat mallarna⁠(öppnas i ett nytt fönster) som har varit väldigt användbara internt (inklusive en mall till ”modellgraderade” Evals. Vi har märkt att GPT‑4 är förvånansvärt kapabel att kontrollera sitt eget arbete. Det mest effektiva sättet att skapa en ny eval⁠(öppnas i ett nytt fönster) är vanligtvis att instansiera en av dessa mallar samt att tillhandahålla data. Vi ser fram emot vad andra kan skapa med dessa mallar och med Evals mer i allmänhet.

Vi hoppas att Evals blir ett redskap till att dela och crowdsourca riktmärken som representerar en maximalt bred uppsättning fellägen och svåra uppgifter. Som ett exempel att följa har vi skapat ett logikpussel⁠(öppnas i ett nytt fönster)-eval som består av prompter där GPT‑4 misslyckas. Evals är också förenlig med att implementera befintliga riktmärken. Vi har inkluderat flera anteckningsböcker⁠(öppnas i ett nytt fönster) som implementerar akademiska riktmärken och några få variationer på integrering (mindre delmängder av) CoQA⁠(öppnas i ett nytt fönster) som ett exempel.

Vi uppmanar alla att använda Evals för att testa våra modeller och skicka in de intressantaste exemplen. Vi anser att Evals kommer att bli en väsentlig del av processen för att använda och utveckla våra modeller och vi välkomnar direkta bidrag, frågor och feedback⁠(öppnas i ett nytt fönster).

ChatGPT Plus

ChatGPTPlus-abonnenter kommer att få GPT‑4‑åtkomst på chatgpt.com⁠(öppnas i ett nytt fönster) med användningsgräns. Vi kommer att justera den exakta användningsgränsen beroende på efterfrågan och systemprestanda i praktiken, men förväntar oss kraftig kapacitetsbegränsning (men vi kommer att skala upp och optimera under de kommande månaderna).

Beroende på vilka trafikmönster vi får se kan vi introducera en ny abonnemangsnivå för högre volymanvändning av GPT‑4. Vi hoppas även att vid någon tidpunkt kunna erbjuda gratis GPT‑4‑frågor så att personer utan abonnemang också får prova på det.

API

Registrera dig på vår väntelista⁠ för att få åtkomst till GPT‑4:s API (som använder samma ChatCompletions API⁠(öppnas i ett nytt fönster) som gpt-3.5-turbo). Vi kommer att börja bjuda in vissa utvecklare idag och sedan skala upp gradvis för att balansera kapaciteten med efterfrågan. Om du är forskare som studerar AI:s inverkan på samhället eller AI justeringsproblem kan du också ansöka om subventionerad åtkomst via vårt Program för forskaråtkomst⁠.

När du väl har fått åtkomst kan du göra förfrågningar endast med text till gpt-4-modellen (bildindata är fortfarande begränsat till endast alfa), som vi automatiskt kommer att uppdatera till vår rekommenderade stabila modell när vi skapar nya versioner med tiden (du kan frysa den nuvarande versionen genom att ringa gpt-4-0314, som vi stödjer t.o.m. 14 juni. Priset är 0,03 $ per 1 000 prompt-token och 0,06 $ per 1 000 slutförande token. Standard prisgränser är 40 000 token per minut och 200 förfrågningar per minut.

gpt-4 har en sammanhangslängd på 8 192 token. Vi ger också begränsad åtkomst till våra 32 768 sammanhangsversion (cirka 50 sidor med text), gpt-4-32k, som också kommer att uppdateras automatiskt med tiden (nuvarande version gpt-4-32k-0314 stöds också t.o.m. 14 juni). Priset är 0,06 $ per 1 000 prompt-token och 0,12 $ per 1 000 slutförande token. Vi fortsätter att förbättra modellkvaliteten för långa sammanhang och vill gärna få feedback på hur den presterar på ditt användningsfall. Vi behandlar förfrågningar för motorerna 8K och 32K i olika takt beroende på kapacitet så du kan få åtkomst till dem vid olika tidpunkter.

Slutsats

Vi ser fram emot att GPT‑4 ska bli ett värdefullt verktyg som kan förbättra människors liv och kunna användas inom många tillämpningsområden. Vi har fortfarande mycket arbete kvar att göra och vi ser fram emot att förbättra modellen genom samarbetet där allmänheten kan vidareutveckla, utforska och bidra till modellen.

För mer information: Läs rapport⁠(öppnas i ett nytt fönster) / Visa systemkort⁠(öppnas i ett nytt fönster) / Prova på ChatGPT Plus⁠(öppnas i ett nytt fönster) / Prova i Playground⁠(öppnas i ett nytt fönster) / Titta på demo-livestream igen⁠(öppnas i ett nytt fönster) / Bidra till OpenAI Evals⁠(öppnas i ett nytt fönster)

Bilaga

Exempel på MMLU-frågor som har översatts till andra språk. Observera att vi använder token med konsekventa val (A-D).

Laddar …

Fotnoter

A
Vi utvärderar detta riktmärke med hjälp av prompting med tankekedja med fyra exempel från uppsättningen som används för kontextuell träning. Den specifika prompten justerades på valideringsuppsättningen.

Referenser

1
P. Arredondo (Casetext/Stanford CodeX), D. Katz (Stanford CodeX), M. Bommarito (Stanford CodeX), S. Gao (Casetext). Fler analyser finns i tidskriften⁠(öppnas i ett nytt fönster).