18 juli 2024

GPT‑4o mini: op weg naar kostenefficiënte intelligentie

Introductie van ons meest kostenefficiënte kleine model

Bezig met laden...

OpenAI zet zich in om intelligentie zo breed mogelijk toegankelijk te maken. Vandaag kondigen we de GPT‑4o mini aan, ons meest kostenefficiënte kleine model. We verwachten dat GPT‑4o mini het aantal toepassingen met AI aanzienlijk zal uitbreiden door intelligentie veel betaalbaarder te maken. GPT‑4o mini scoort 82% op MMLU en presteert momenteel beter dan GPT‑4¹ op chatvoorkeuren in LMSYS leaderboard⁠(opent in een nieuw venster). De prijs is 15 cent per miljoen invoertokens en 60 cent per miljoen uitvoertokens, een prijsniveau dat betaalbaarder dan eerdere grensmodellen en meer dan 60% goedkoper dan GPT‑3.5 Turbo.

Door de lage kosten en latentie maakt GPT‑4o mini een breed scala aan taken mogelijk, zoals toepassingen die meerdere modelaanroepen koppelen of parallelliseren (bijv. meerdere API's aanroepen), een grote hoeveelheid context doorgeven aan het model (bijv. volledige broncode of conversatiegeschiedenis), of communiceren met klanten via snelle, realtime tekstreacties (bijv. chatbots voor klantenondersteuning).

Op dit moment ondersteunt GPT‑4o mini tekst en beeld in de API. In de toekomst zal er ondersteuning komen voor tekst-, afbeeldingen, video- en audio-invoer en -uitvoer. Het model heeft een contextvenster van 128K tokens, ondersteunt tot 16K uitvoertokens per verzoek en beschikt over kennis tot oktober 2023. Dankzij de met GPT‑40 gedeelde verbeterde tokenizer is het verwerken van niet-Engelse tekst nu nog kosteneffectiever.

Een klein model met superieure tekstuele intelligentie en multimodaal redeneren

GPT‑4o mini overtreft GPT‑3.5 Turbo en andere kleine modellen op academische benchmarks voor zowel tekstuele intelligentie als multimodaal redeneren en ondersteunt dezelfde reeks talen als GPT‑4o. Het laat ook sterke prestaties zien bij het aanroepen van functies, waardoor ontwikkelaars toepassingen kunnen bouwen die gegevens ophalen of acties ondernemen met externe systemen, en de prestaties bij lange contexten zijn beter dan die van GPT‑3.5 Turbo.

GPT‑4o mini is geëvalueerd voor verschillende belangrijke benchmarks².

Redeneertaken: GPT‑4o mini is beter dan andere kleine modellen in redeneertaken waarbij zowel tekst als beeld een rol spelen, met een score op MMLU, een benchmark voor tekstuele intelligentie en redeneren, van 82,0%, vergeleken met 77,9% voor Gemini Flash en 73,8% voor Claude Haiku.

Goed in wiskunde en programmeren: GPT‑4o mini is erg goed in wiskundige redeneringen en programmeertaken en doet het beter dan eerdere kleine modellen op de markt. Op MGSM, een maatstaf voor wiskundig redeneren, scoorde GPT‑4o mini 87,0%, vergeleken met 75,5% voor Gemini Flash en 71,7% voor Claude Haiku. Op HumanEval, dat programmeerprestaties meet, scoorde GPT‑4o mini 87,2%, vergeleken met 71,5% voor Gemini Flash en 75,9% voor Claude Haiku.

Multimodaal redeneren: GPT‑4o mini laat ook sterke prestaties zien op MMMU, een multimodale redeneringsmaatstaf, met een score van 59,4% vergeleken met 56,1% voor Gemini Flash en 50,2% voor Claude Haiku.

Model evaluatiescores

Als onderdeel van ons modelontwikkelingsproces hebben we samengewerkt met een handvol vertrouwde partners om de gebruikssituaties en beperkingen van GPT‑4o mini beter te begrijpen. We werkten samen met ondernemingen als Ramp⁠(opent in een nieuw venster) en Superhuman⁠(opent in een nieuw venster), die erachter kwamen dat GPT‑4o mini aanzienlijk beter presteerde dan GPT‑3.5 Turbo bij taken als het extraheren van gestructureerde gegevens uit ontvangstbestanden of het genereren van e-mailreacties van hoge kwaliteit op basis van de eerdere correspondentie.

Ingebouwde veiligheidsmaatregelen

Veiligheid is vanaf het begin in onze modellen ingebouwd en wordt bij elke stap van ons ontwikkelingsproces verder versterkt. Bij het vooraf trainen filteren we informatie weg⁠(opent in een nieuw venster) waarvan we niet willen dat onze modellen ervan leren of deze uitvoeren, zoals haatdragende taal, seksueel getinte inhoud, sites die voornamelijk persoonlijke informatie verzamelen en spam. In post-training stemmen we het gedrag van het model af op ons beleid met behulp van technieken zoals leren door versterking met menselijke feedback (reinforcement learning with human feedback, RLHF)⁠. Zo verbeteren we de nauwkeurigheid en betrouwbaarheid van de reacties van de modellen.

GPT‑4o mini heeft dezelfde ingebouwde veiligheidsbeperkingen als GPT‑4o⁠, die we zorgvuldig hebben beoordeeld met behulp van zowel geautomatiseerde als menselijke evaluaties volgens ons Preparedness Framework⁠ en in lijn met onze eigen uitgangspunten⁠. Meer dan 70 externe experts op het gebied van sociale psychologie en misinformatie hebben GPT‑4o getest om potentiële risico's te achterhalen. Deze risico's hebben we aangepakt en we zijn van plan om gegevens erover te delen in de komende GPT‑4o‑systeemkaart en Preparedness-scorekaart. Inzichten uit deze evaluaties door deskundigen hebben geholpen om de veiligheid van zowel GPT‑4o als GPT‑4o mini te verbeteren.

Voortbouwend op deze lessen hebben onze teams ook gewerkt aan het verbeteren van de veiligheid van GPT‑4o mini. Daarbij maken ze gebruik van nieuwe technieken die zijn gebaseerd op ons onderzoek. GPT‑4o mini in de API is het eerste model dat onze instructiehiërarchie⁠(opent in een nieuw venster)-methode toepast, waardoor het model beter bestand is tegen jailbreaks, promptinjecties en systeempromptextracties. Daardoor zijn de reacties van het model betrouwbaarder en kan het veiliger worden gebruikt in toepassingen op schaal.

We zullen doorgaan met bewaken hoe GPT‑4o mini wordt gebruikt en de veiligheid van het model verbeteren als we nieuwe risico's tegenkomen.

Beschikbaarheid en prijzen

GPT‑4o mini is nu beschikbaar als tekst- en visiemodel in de Assistants API, Chat Completions API en Batch API. Ontwikkelaars betalen 15 cent per miljoen invoertokens en 60 cent per miljard uitvoertokens (ruwweg het equivalent van 2500 pagina's in een standaard boek). We zijn van plan om de komende dagen de fijnafstemming voor GPT‑4o mini uit te rollen.

In ChatGPT hebben Free-, Plus- en Team-gebruikers vanaf heden toegang tot GPT‑4o mini, in plaats van GPT‑3.5. Enterprise-gebruikers krijgen vanaf volgende week ook toegang, in lijn met onze missie om de voordelen van AI voor iedereen toegankelijk te maken.

Wat nu

De afgelopen jaren zijn we getuige geweest van een opmerkelijke vooruitgang in AI-intelligentie in combinatie met een aanzienlijke verlaging van de kosten. De kosten per token van GPT‑4o mini zijn bijvoorbeeld met 99% gedaald sinds text-davinci-003, een minder krachtig model dat in 2022 werd geïntroduceerd. We blijven ons inzetten om de kosten te verlagen en tegelijkertijd de mogelijkheden van modellen te verbeteren.

We zien een toekomst voor ons waarin modellen naadloos worden geïntegreerd in elke app en op elke website. GPT‑4o mini maakt de weg vrij voor ontwikkelaars om krachtige AI-toepassingen efficiënter en betaalbaarder te bouwen en op te schalen. AI wordt in de toekomst steeds toegankelijker en betrouwbaarder en steeds verder ingebed in onze dagelijkse digitale ervaring, en we zijn verheugd om daarbij voorop te blijven lopen.

Auteur

OpenAI

Dankbetuigingen

Hoofden: Jacob Menick, Kevin Lu, Shengjia Zhao, Eric Wallace, Hongyu Ren, Haitang Hu, Nick Stathas, Felipe Petroski Such

Programmaleider: Mianna Chen

Bijdragen genoteerd in https://openai.com/gpt-4o-contributions/⁠

Voetnoten

1
Vanaf 18 juli 2024 presteert een eerdere versie van GPT-4o mini beter dan GPT-4T 01-25.
2
Eval-resultaten voor GPT-4o mini zijn berekend met behulp van onze simple-evals⁠(opent in een nieuw venster)-repository en de system prompt van de API-assistent. Voor concurrerende modellen nemen we het maximum aantal over hun gerapporteerde aantal (indien beschikbaar), het HELM⁠(opent in een nieuw venster)-klassement en onze eigen reproductie via simple-evals.