14 maart 2023

GPT‑4

Artikel lezen Systeemkaart weergeven Probeer het uit op ChatGPT Plus

Meer bronnen

Uitproberen in Playground Demonstratie livestream terugkijken Bijdragen aan OpenAI Evals

Bezig met laden...

We hebben GPT‑4 gebouwd, de nieuwste mijlpaal in het streven van OpenAI om deep learning op te schalen. GPT‑4 is een omvangrijk multimodaal model (dat invoer van afbeeldingen en tekst accepteert en uitvoer van tekst genereert) dat, hoewel het minder capabel is dan mensen in veel echte scenario's, prestaties op menselijk niveau laat zien in verschillende professionele en academische benchmarks. Het slaagt bijvoorbeeld voor een gesimuleerd advocatuurexamen met een score in de buurt van de top-10% van de deelnemers aan de test; de score van GPT‑3.5 daarentegen lag in de buurt van de onderste 10%. We hebben zes maanden besteed aan het iteratief afstemmen⁠ van GPT‑4, waarbij we gebruik hebben gemaakt van de uitkomsten van een indringend testprogramma en van wat we hebben geleerd van ChatGPT. Dit heeft geresulteerd in de beste resultaten ooit (hoewel verre van perfect) op het gebied van feitelijkheid, bestuurbaarheid en het binnen de vangrails blijven.

De afgelopen twee jaar hebben we onze hele deep learning-stack opnieuw opgebouwd en samen met Azure een supercomputer vanaf de grond af aan voor onze werklast ontworpen. Een jaar geleden hebben we GPT‑3.5 getraind als een eerste 'testronde' van het systeem. We hebben een aantal bugs gevonden en opgelost en onze theoretische fundamenten verbeterd. Als gevolg daarvan was (voor ons althans!) de GPT‑4 trainingsronde ongekend stabiel en werd dit het eerste grote model waarvan we de trainingsprestaties van tevoren nauwkeurig konden voorspellen. We blijven ons richten op betrouwbare opschaling en streven ernaar onze methodologie aan te scherpen, zodat we toekomstige mogelijkheden steeds verder van tevoren kunnen voorspellen en ons op ze kunnen voorbereiden. Dat is volgens ons cruciaal voor de veiligheid.

We geven de tekstinvoermogelijkheid van GPT‑4 vrij via ChatGPT en de API (met een wachtlijst⁠). Om de beeldinvoermogelijkheid voor te bereiden op een bredere beschikbaarheid, werken we om te beginnen nauw samen met één partner⁠(opent in een nieuw venster). We zijn ook bezig OpenAI Evals⁠(opent in een nieuw venster), ons kader voor geautomatiseerde evaluatie van AI-modelprestaties, als opensourcesoftware beschikbaar te maken, zodat iedereen tekortkomingen in onze modellen kan rapporteren om verdere verbeteringen mogelijk te maken.

Mogelijkheden

In een gewone conversatie is het onderscheid tussen GPT‑3.5 en GPT‑4 soms subtiel. Het verschil komt naar voren wanneer de complexiteit van de taak een voldoende hoge drempel bereikt. GPT‑4 is betrouwbaarder, creatiever en kan veel genuanceerdere instructies aan dan GPT‑3.5.

Om het verschil tussen de twee modellen te begrijpen, hebben we verschillende benchmarks getest, waaronder simulaties van examens die oorspronkelijk voor mensen werden ontworpen. We hebben gebruik gemaakt van de meest recente openbaar beschikbare toetsen (in het geval van de Olympiades en schoolexamens met open vragen) en we hebben oefenexamens voor 2022-2023 gekocht. We hebben voor deze examens geen specifieke training uitgevoerd. Een klein aantal problemen in de examens werd door het model gezien tijdens de training, maar we geloven dat de resultaten representatief zijn; zie ons technisch rapport⁠(opent in een nieuw venster) voor details.

interne referentie ¹

Bezig met laden...

We hebben GPT‑4 ook geëvalueerd op traditionele benchmarks die bedoeld zijn voor modellen voor machinaal leren. GPT‑4 presteert aanzienlijk beter dan bestaande grote taalmodellen, en ook dan de meeste state-of-the-art modellen, waaronder ook benchmark-specifieke protocollen voor het maken van producten of aanvullende training kunnen vallen:

Bezig met laden...

Veel bestaande ML-benchmarks zijn geschreven in het Engels. Om een eerste indruk te krijgen van de mogelijkheden in andere talen, hebben we de MMLU-benchmark, een reeks van 14.000 meerkeuzevragen over 57 onderwerpen, met behulp van Azure Translate (zie Appendix⁠) vertaald naar verschillende talen. In 24 van de 26 geteste talen presteert GPT‑4 beter dan GPT‑3.5 en andere LLM's (Chinchilla, PaLM) in het Engels, ook voor talen met weinig bronnen zoals Lets, Welsh en Swahili:

Bezig met laden...

We gebruiken GPT‑4 ook intern, met een grote impact op functies zoals support, verkoop, contentmoderatie en programmering. We gebruiken het ook om mensen te helpen bij het evalueren van AI-uitvoer, waarmee we de tweede fase in onze afstemmingsstrategie⁠starten.

Visuele invoer

GPT‑4 kan een prompt van tekst en afbeeldingen accepteren, waarbij de gebruiker, net als bij de instelling met alleen tekst, taken op het gebied van visie of taal kan specificeren. Om precies te zijn wordt tekstuitvoer (natuurlijke taal, code, enz.) gegenereerd op basis van invoer die bestaat uit tekst en afbeeldingen. In een reeks domeinen, waaronder documenten met tekst en foto's, diagrammen of schermafbeeldingen, vertoont GPT‑4 capaciteiten die vergelijkbaar zijn met die bij invoer van alleen tekst. Bovendien kan het worden uitgebreid met testtijdtechnieken die zijn ontwikkeld voor taalmodellen die alleen uit tekst bestaan, waaronder zogenoemde 'few-shot'- en 'chain-of-thought'⁠(opent in een nieuw venster)-prompts. De beeldinvoer is nu alleen nog in de onderzoeksversie aanwezig en niet openbaar beschikbaar.

Bezig met laden...

We bekijken vooraf de prestaties van GPT‑4 door deze te evalueren met behulp van een kleine reeks standaard academische visie-benchmarks. Deze cijfers geven echter niet een volledig beeld van de mogelijkheden, omdat we voortdurend nieuwe en spannende taken ontdekken die het model aankan. We zijn van plan om binnenkort verdere analyses, evaluatiecijfers en gedetailleerd onderzoek naar het effect van testtijdtechnieken te publiceren.

interne voetnoot^A

Bezig met laden...

Stuurbaarheid

We hebben gewerkt aan elk aspect van het plan, dat staat beschreven in ons bericht over het definiëren van het gedrag van AI's⁠, inclusief stuurbaarheid. In plaats van de klassieke ChatGPT‑persoonlijkheid met een vaste spraaklengte, toon en stijl, kunnen ontwikkelaars (en binnenkort ChatGPT‑gebruikers) nu de stijl en taak van AI voorschrijven door die aanwijzingen te beschrijven in het 'systeem'-bericht. Met systeemberichten kunnen API-gebruikers hun gebruikservaring binnen bepaalde grenzen⁠(opent in een nieuw venster) aanzienlijk aanpassen. We zullen hier verbeteringen blijven aanbrengen (en we weten vooral dat systeemberichten de eenvoudigste manier zijn om aan het huidige model te ontsnappen, d.w.z. dat de naleving van de grenzen niet perfect is), maar we moedigen je aan om het uit te proberen en ons te laten weten wat je ervan vindt.

Bezig met laden...

Beperkingen

Ondanks de mogelijkheden heeft GPT‑4 dezelfde beperkingen als eerdere GPT‑modellen. Het belangrijkste is dat het nog steeds niet volledig betrouwbaar is (het 'hallucineert' over feiten en maakt redeneringsfouten). Er moet zeer zorgvuldig worden omgegaan met het gebruik van taalmodelresultaten, met name in contexten waar veel op het spel staat, waarbij het exacte protocol (zoals menselijke beoordeling, verankering met extra context, of het geheel vermijden van het gebruik als er veel op het spel staat) moet aansluiten bij de behoeften van een specifieke toepassing.

Hoewel het nog steeds een echt probleem is, zijn in GPT‑4 hallucinaties aanzienlijk minder dan bij eerdere modellen (die zelf met elke ronde beter werden). GPT‑4 scoort bij onze interne indringende evaluaties van de feitelijkheid 40% hoger dan de meest recente versie van GPT‑3.5:

Bezig met laden...

We hebben vooruitgang geboekt met externe benchmarks zoals TruthfulQA, die het vermogen van het model test om feiten te scheiden van een op indringendheid geselecteerde verzameling onjuiste beweringen. Deze vragen worden gekoppeld aan feitelijk onjuiste antwoorden die statistisch aantrekkelijk zijn.

Bezig met laden...

Het GPT‑4 basismodel is slechts iets beter in deze taak dan GPT‑3.5; na RLHF⁠-training achteraf (waarbij hetzelfde proces wordt toegepast als bij GPT‑3.5⁠) is er echter een groot verschil. Als we kijken naar enkele voorbeelden hieronder, dan blijkt dat GPT‑4 weerstand biedt tegen het selecteren van veelgebruikte gezegden (je kunt een oude hond geen nieuwe trucjes leren), maar het kan nog steeds subtiele details missen (Elvis Presley was niet de zoon van een acteur).

Bezig met laden...

Het model kan verschillende vertekeningen hebben in de uitvoer. We hebben vooruitgang geboekt op dit gebied, maar er is nog meer te doen. Zoals in onze recente blogpost⁠ staat, willen we ervoor zorgen dat AI-systemen die we bouwen redelijk standaardgedrag vertonen dat een breed scala aan waarden van gebruikers weerspiegelt, dat deze systemen binnen ruime grenzen kunnen worden aangepast en dat het publiek kan meedenken over wat die grenzen zouden moeten zijn.

GPT‑4 heeft over het algemeen geen kennis van gebeurtenissen die hebben plaatsgevonden nadat de toevoer van gegevens is gestopt (september 2021), en het leert niet van zijn ervaringen. Het kan soms eenvoudige redeneerfouten maken die niet lijken te stroken met de competentie op zoveel gebieden, of te goedgelovig zijn in het accepteren van duidelijk onjuiste beweringen van een gebruiker. En soms kan het falen bij moeilijke problemen op dezelfde manier als mensen dat doen, zoals het inbrengen van zwakke plekken in de beveiliging in code die het maakt.

GPT‑4 kan ook in het volste vertrouwen fout zijn in zijn voorspellingen, door te verzuimen om een extra controle te doen als een fout makkelijk kan zijn gemaakt. Interessant is dat het vooraf getrainde basismodel in hoge mate is gekalibreerd (het voorspelde vertrouwen in een antwoord komt over het algemeen overeen met de waarschijnlijkheid dat het antwoord juist is). Door de training achteraf in het huidige proces wordt de kalibratie echter gereduceerd.

Bezig met laden...

Risico's en risicobeperkingen

We hebben GPT‑4 vanaf het begin van de training steeds weer aangepast om het veiliger en beter afgestemd te maken, onder andere door het selecteren en filteren van de gegevens in de training vooraf, evaluaties en de inzet van deskundigen, verbeteringen van het modelveiligheid en monitoring en handhaving.

GPT‑4 brengt vergelijkbare risico's met zich mee als eerdere modellen, zoals het genereren van schadelijk advies, foutieve code of onnauwkeurige informatie. De nieuwe mogelijkheden van GPT‑4 leiden echter tot nieuwe risicogebieden. Om de omvang van deze risico's te begrijpen, hebben we meer dan 50 experts uit domeinen zoals AI-afstemmingsrisico's, cyberbeveiliging, biologische risico's, vertrouwen, beveiliging en internationale veiligheid gevraagd om het model indringend te testen. In het bijzonder stelden hun bevindingen ons in staat om modelgedrag dat alleen met expertise kan worden geëvalueerd, te testen in gebieden met een hoog risico. Feedback en gegevens van deze experts zijn gebruikt om het model te verbeteren; we hebben bijvoorbeeld extra gegevens verzameld om GPT‑4 beter in staat te stellen om verzoeken te weigeren voor het synthetiseren van gevaarlijke chemicaliën.

GPT‑4 bevat een extra veiligheidsbeloningssignaal tijdens de RLHF-training om schadelijke uitvoer (zoals gedefinieerd door onze gebruiksrichtlijnen⁠(opent in een nieuw venster)) te verminderen door het model te trainen om verzoeken voor dergelijke inhoud te weigeren. De beloning wordt gegeven door een GPT‑4 zero-shot classificator die veiligheidsgrenzen en voltooiingsstijl beoordeelt bij veiligheidsgerelateerde prompts. Om te voorkomen dat het model geldige verzoeken weigert, verzamelen we een diverse dataset uit verschillende bronnen (bijv. gelabelde productiegegevens, menselijke red-teaming, door het model gegenereerde prompts) en passen we het veiligheidsbeloningssignaal (met een positieve of negatieve waarde) toe op zowel toegestane als afgekeurde categorieën.

Onze aanpassingen hebben veel van de veiligheidseigenschappen van GPT‑4 aanzienlijk verbeterd ten opzichte van GPT‑3.5. We hebben de neiging van het model om te reageren op verzoeken voor afgekeurde inhoud met 82% verminderd vergeleken met GPT‑3.5, en op gevoelige verzoeken (bijv. medisch advies en zelfbeschadiging) reageert GPT‑4 29% vaker in overeenstemming met ons beleid.

Bezig met laden...

Over het algemeen maken onze interventies op modelniveau het moeilijker om slecht gedrag uit te lokken, maar het is nog steeds mogelijk. Daarnaast bestaan er nog steeds 'modeluitbraken' om inhoud te genereren die onze gebruiksrichtlijnen⁠ schenden. Naarmate het 'risico per token' van AI-systemen toeneemt, zal het cruciaal worden om extreem hoge betrouwbaarheidsgraden te bereiken bij deze interventies; voorlopig is het belangrijk om deze beperkingen te compenseren met veiligheidstechnieken tijdens het gebruik, zoals het controleren op misbruik.

GPT‑4 en opvolgende modellen hebben het potentieel om de samenleving op zowel gunstige als schadelijke manieren sterk te beïnvloeden. We werken samen met externe onderzoekers om de manier waarop we potentiële gevolgen begrijpen en beoordelen te verbeteren, en om evaluaties op te stellen voor gevaarlijke mogelijkheden die misschien in toekomstige systemen zullen ontstaan. We zullen binnenkort meer van onze ideeën over de mogelijke sociale en economische gevolgen van GPT‑4 en andere AI-systemen delen.

Trainingsproces

Net als eerdere GPT‑modellen is het GPT‑4 basismodel getraind om het volgende woord in een document te voorspellen en is het getraind met behulp van openbaar beschikbare gegevens (zoals internetgegevens) en gegevens waarvoor we een licentie hebben. De gegevens zijn een corpus van van het gehele internet afkomstige gegevens, inclusief correcte en incorrecte oplossingen voor wiskundige problemen, zwakke en sterke redeneringen, in zichzelf tegenstrijdige en consistente uitspraken. Ze vertegenwoordigen een grote verscheidenheid aan ideologieën en ideeën.

Dus als er een vraag wordt gesteld, zijn er allerlei manieren waarop het basismodel zou kunnen reageren die ver afstaan van de bedoeling van de gebruiker. Om het binnen de vangrails af te stemmen op de intentie van de gebruiker, verfijnen we het gedrag van het model met behulp van leren door versterking met menselijke feedback (RLHF⁠).

De capaciteiten van het model lijken voornamelijk voort te komen uit de training vooraf. RLHF verbetert de examenprestaties niet (zonder actieve inspanning verslechteren ze zelfs). Maar de sturing van het model ligt bij het posttrainingsproces. Voor het basismodel is promptengineering nodig om het te leren dat het de vragen moet beantwoorden.

Voorspelbare schaling

Een grote focus van het GPT‑4 project is het bouwen van een deep learning-stack die voorspelbaar schaalt. De belangrijkste reden is dat het voor zeer grote trainingsreeksen zoals GPT‑4 niet haalbaar is om uitgebreide modelspecifieke verfijning uit te voeren. We hebben infrastructuur en optimalisatie ontwikkeld die op meerdere schalen zeer voorspelbaar gedrag vertonen. Om deze schaalbaarheid te verifiëren, hebben we het uiteindelijke verlies van GPT‑4 op onze interne codebase (die geen deel uitmaakt van de trainingsset) van tevoren nauwkeurig voorspeld door extrapolatie van modellen die met dezelfde methodologie zijn getraind, maar waarvoor 10.000 maal minder rekenkracht is gebruikt:

Bezig met laden...

Nu we de eenheid die we tijdens de training optimaliseren (verlies) nauwkeurig kunnen voorspellen, beginnen we methodologie te ontwikkelen waarmee we voorspellingen kunnen doen voor beter interpreteerbare eenheden. We hebben bijvoorbeeld met succes het slagingspercentage voorspeld op een subset van de HumanEval⁠(opent in een nieuw venster) gegevensset, door extrapolatie van modellen met 100 maal minder rekenkracht:

Bezig met laden...

Sommige mogelijkheden zijn nog steeds moeilijk te voorspellen. De Inverse Scaling Prize was bijvoorbeeld een wedstrijd om een eenheid te vinden die slechter wordt naarmate het rekenwerk van het model toeneemt: 'hindsight neglect'⁠(opent in een nieuw venster) was een van de winnaars. Net als bij een ander recent resultaat,⁠(opent in een nieuw venster) keert GPT‑4 de trend om:

Bezig met laden...

Wij zijn van mening dat het nauwkeurig voorspellen van toekomstige mogelijkheden van machinaal leren een belangrijk onderdeel van veiligheid is dat in verhouding tot de potentiële impact lang niet genoeg aandacht krijgt (hoewel de inspanningen van verschillende instellingen bemoedigend zijn). We zijn onze inspanningen aan het opschalen om methodes te ontwikkelen waarmee in de maatschappij beter wordt begrepen wat we kunnen verwachten van toekomstige systemen. We hopen dat dit in het veld een gemeenschappelijk doel wordt.

OpenAI Evals

We zijn bezig OpenAI Evals⁠(opent in een nieuw venster), het software-framework voor het creëren en gebruiken van benchmarks voor het evalueren van modellen zoals GPT‑4, als open software beschikbaar te maken. De prestaties ervan worden steekproefsgewijs geïnspecteerd. We gebruiken Evals om de ontwikkeling van onze modellen te sturen (zowel om tekortkomingen op te sporen als om regressies te voorkomen) en onze gebruikers kunnen het gebruiken om de prestaties van verschillende modelversies (die nu regelmatig zullen verschijnen) en evoluerende productintegraties te monitoren. Zo heeft Stripe Evals gebruikt als aanvulling op hun menselijke evaluaties om de nauwkeurigheid van hun GPT‑documentatietool te meten.

Omdat de code volledig opensource is, ondersteunt Evals het schrijven van nieuwe klassen om eigen evaluatielogica⁠(opent in een nieuw venster) te implementeren. Onze eigen ervaring is echter dat veel benchmarks één van een klein aantal 'sjablonen' volgen, dus hebben we ook de sjablonen opgenomen⁠(opent in een nieuw venster) die intern het nuttigst zijn gebleken (inclusief een sjabloon voor 'door het model uitgevoerde evaluaties', want we hebben gemerkt dat GPT‑4 verrassend goed in staat is om zijn eigen werk te controleren). Over het algemeen is de meest effectieve manier om een nieuwe eval⁠(opent in een nieuw venster) te bouwen het instantiëren van een van deze sjablonen samen met het leveren van gegevens. We zijn benieuwd wat anderen kunnen bouwen met deze sjablonen en met Evals in het algemeen.

We hopen dat Evals een middel wordt om benchmarks te delen en te crowdsourcen, en dat dat een zo breed mogelijke set van foutmodi en moeilijke taken vertegenwoordigt. Als voorbeeld hebben we een logische puzzels⁠(opent in een nieuw venster)-eval gemaakt die tien prompts bevat waar GPT‑4 faalt. Evals is ook compatibel met het implementeren van bestaande benchmarks; we hebben bij wijze van voorbeeld verschillende notebooks⁠(opent in een nieuw venster) opgenomen die academische benchmarks implementeren, en ook een paar variaties op het integreren van (kleine sub-sets van) CoQA⁠(opent in een nieuw venster).

We nodigen iedereen uit om Evals te gebruiken om onze modellen te testen en de meest interessante voorbeelden in te sturen. We geloven dat Evals een integraal onderdeel zal zijn van het proces om onze modellen te gebruiken en erop voort te bouwen, en we verwelkomen directe bijdragen, vragen en feedback.⁠(opent in een nieuw venster).

ChatGPT Plus

ChatGPT Plus-abonnees krijgen toegang tot GPT‑4 op chatgpt.com⁠(opent in een nieuw venster). Er geldt een gebruikslimiet. We zullen het exacte gebruiksplafond aanpassen aan de hand van de vraag en de systeemprestaties in de praktijk, maar we verwachten een grote capaciteitsbeperking (hoewel we de komende maanden zullen opschalen en optimaliseren).

Afhankelijk van de verkeerspatronen die we zien, introduceren we misschien een nieuw abonnementsniveau voor hoog GPT‑4‑gebruik; ook hopen we op een bepaald moment een aantal gratis GPT‑4‑query's aan te bieden, zodat mensen zonder abonnement het ook kunnen proberen.

API

Om toegang te krijgen tot de API van GPT‑4 (die dezelfde ChatCompletions API⁠(opent in een nieuw venster) gebruikt als gpt-3.5-turbo), kun je je inschrijven op onze wachtlijst⁠. We beginnen nu met het uitnodigen van een aantal ontwikkelaars en schalen geleidelijk op om de capaciteit in balans te brengen met de vraag. Als je een onderzoeker bent die de maatschappelijke impact van AI bestudeert of kwesties rond de afstemming van AI, kun je ook gesubsidieerde toegang aanvragen via het Researcher Access Program.⁠.

Als je toegang hebt gekregen, kun je met tekst aanvragen doen bij het GPT‑4‑model (beeldinvoer is nog in beperkte alfa), dat we automatisch zullen omzetten in ons aanbevolen stabiele model als we weer een nieuwe versie hebben gemaakt (vastzetten van de huidige versie, die we tot 14 juni ondersteunen, is mogelijk door GPT‑4‑0314 aan te roepen). De prijs is $ 0,03 per 1000 prompttokens en $ 0,06 per 1000 voltooiingstokens. De standaardlimieten zijn 40.000 tokens per minuut en 200 aanvragen per minuut.

GPT‑4 heeft een contextlengte van 8.192 tokens. We bieden ook beperkte toegang tot de versie met context met een lengte van 32.768 tokens (ongeveer 50 pagina's tekst), GPT‑4‑32k, die na verloop van tijd ook automatisch wordt bijgewerkt (huidige versie GPT‑4‑32k‑0314, ook ondersteund tot 14 juni). De prijs is $0,06 per 1000 prompttokens en $0,12 per 1000 voltooiingstokens. We zijn nog steeds bezig met het verbeteren van de modelkwaliteit voor lange context en zouden graag feedback krijgen over hoe het presteert in jouw gebruikssituatie. We verwerken aanvragen voor de 8K- en 32K-engines met verschillende snelheden al naar gelang de capaciteit, dus je krijgt mogelijk toegang op verschillende tijden.

Conclusie

Nog even, en GPT‑4 zal een waardevol hulpmiddel zijn dat als drijvende kracht achter veel toepassingen het leven van mensen zal verbeteren. Er is nog veel werk te doen en we zien uit naar de verbetering van dit model door de collectieve inspanning van de gemeenschap om op het model voort te bouwen, het te verkennen en eraan bij te dragen.

Meer: Artikel lezen⁠(opent in een nieuw venster) / Systeemkaart bekijken⁠(opent in een nieuw venster) / Op ChatGPT Plus proberen⁠(opent in een nieuw venster) / In Playground proberen⁠(opent in een nieuw venster) / Demonstratie livestream terugkijken⁠(opent in een nieuw venster) / Aan OpenAI Evals bijdragen⁠(opent in een nieuw venster)

Bijlage

Voorbeeld van MMLU-vragen, vertaald in andere talen. We gebruiken consistente keuzetokens (A-D):

Bezig met laden...

Voetnoten

A
We evalueren deze benchmark met Chain-Of-Thought-prompting. Daarbij krijgt het model vier voorbeelden uit de trainingsset als context mee. De specifieke prompt is afgestemd met behulp van de validatieset.

Literatuur

1
P. Arredondo (Casetext/Stanford CodeX), D. Katz (Stanford CodeX), M. Bommarito (Stanford CodeX), S. Gao (Casetext). Raadpleeg het wetenschappelijke artikel⁠(opent in een nieuw venster) voor meer analyses.