GPT-4o mini: forbedring av kostnadseffektiv intelligens
Vi introduserer den mest kostnadseffektive lille modellen
OpenAI er forpliktet til å gjøre intelligens så bredt tilgjengelig som mulig. I dag annonserer vi GPT‑4o mini, den mest kostnadseffektive lille modellen vår. Vi forventer at GPT‑4o mini i betydelig grad utvider omfanget av applikasjoner som bygges med AI, ved å gjøre intelligens mye rimeligere. GPT‑4o mini får 82 % på MMLU og overgår nå GPT‑41 innen chatpreferanser på LMSYS-resultatlisten(åpnes i et nytt vindu). Prisen er 15 cent per million inndatatokener og 60 cent per million utdatatokener, en størrelsesorden som er rimeligere enn tidligere grensemodeller og mer enn 60 % billigere enn GPT‑3.5 Turbo.
GPT‑4o mini muliggjør en rekke oppgaver med den lave prisen og forsinkelsen, for eksempel applikasjoner som kjeder eller parallelliserer flere modellkall (f.eks. kall til flere API-er), sending av et stort kontekstvolum til modellen (f.eks. full kodebase eller samtalelogg) eller samhandling med kunder via raske tekstsvar i sanntid (f.eks. chatboter for kundestøtte).
I dag støtter GPT‑4o mini tekst og syn i API-et, med støtte for tekst-, bilde-, video- og lydinndata og -utdata i fremtiden. Modellen har et kontekstvindu på 128K tokener, støtter opptil 16K utdatatokener per forespørsel og har kunnskap frem til oktober 2023. Takket være den forbedrede tokeniseringsfunksjonen som deles med GPT‑4o, er håndtering av ikke-engelsk tekst enda mer kostnadseffektivt nå.
En liten modell med overlegen tekstintelligens og multimodal resonnering
GPT‑4o mini overgår GPT‑3.5 Turbo og andre små modeller på akademiske referansemålinger for både tekstintelligens og multimodal resonnering, og støtter det samme språkområdet som GPT‑4o. Den demonstrerer også sterk ytelse for funksjonskall, som kan la utviklere bygge applikasjoner som henter data eller utfører handlinger med eksterne systemer, og forbedret ytelse med lang kontekst sammenlignet med GPT‑3.5 Turbo.
GPT‑4o mini har blitt evaluert etter flere nøkkelreferansemålinger2.
Resonnementoppgaver: GPT‑4o mini er bedre enn andre små modeller til resonnementoppgaver som involverer både tekst og syn, med 82,0 % på MMLU, en referansemåling for tekstintelligens og resonnement, sammenlignet med 77,9 % for Gemini Flash og 73,8 % for Claude Haiku.
Matte- og kodeferdighet: GPT‑4o mini utmerker seg innen matematisk resonnement og kodeoppgaver og overgår tidligere små modeller på markedet. På MGSM, ved måling av matteresonnement, fikk GPT‑4o mini 87,0 %, sammenlignet med 75,5 % for Gemini Flash og 71,7 % for Claude Haiku. GPT‑4o mini fikk 87,2 % på HumanEval, som måler kodeytelse, sammenlignet med 71,5 % for Gemini Flash og 75,9 % for Claude Haiku.
Multimodal resonnering: GPT‑4o mini viser også sterk ytelse på MMMU, en evaluering av multimodal resonnering, med 59,4 % sammenlignet med 56,1 % for Gemini Flash og 50,2 % for Claude Haiku.
Poengsummer for modellevaluering
Som en del prosessen vår for modellutvikling jobbet vi med noen få betrodde partnere for å få en bedre forståelse av bruksområdene og begrensningene til GPT‑4o mini. Vi samarbeidet med bedrifter som Ramp(åpnes i et nytt vindu) og Superhuman(åpnes i et nytt vindu), som fant at GPT‑4o mini presterer betydelig bedre enn GPT‑3.5 Turbo for oppgaver som å hente ut strukturerte data fra kvitteringsfiler eller generere e-postsvar av høy kvalitet når den får trådhistorikk.
Innebygde sikkerhetstiltak
Sikkerhet er innebygd i modellene våre fra starten og forsterkes i hvert trinn av utviklingsprosessen. I forhåndsopplæring filtrerer vi ut(åpnes i et nytt vindu) informasjon vi ikke vil at modellene våre skal lære fra eller bruke i utdata, for eksempel hatefulle ytringer, seksuelt innhold, nettstedet som primært aggregerer personopplysninger og nettsøppel. I etteropplæring tilpasser vi modellens atferd etter retningslinjer med teknikker som forsterkende læring med menneskelig tilbakemelding (RLHF) for å forbedre nøyaktigheten og påliteligheten til modellsvarene.
GPT‑4o mini har de samme sikkerhetstiltakene innebygd som GPT‑4o, som vi evaluerte nøye med både automatiserte og menneskelige evalueringer i henhold til beredskapsrammeverket vårt og i tråd med de frivillige forpliktelsene våre. Mer enn 70 eksperter innen områder som sosial psykologi og feilinformasjon testet GPT‑4o for å identifisere potensielle risikoer, som vi har håndtert og planlegger å dele detaljer om i det kommende GPT‑4o-systemkortet og resultatkortet for beredskap. Innsikt fra disse ekspertevalueringene har bidratt til å forbedre sikkerheten til både GPT‑4o og GPT‑4o mini.
Basert på denne lærdommen jobbet teamene våre også med å forbedre sikkerheten for GPT‑4o mini med nye teknikker informert av forskningen vår. GPT‑4o mini i API-et er den første modellen som bruker metoden vår for instruksjonshierarki(åpnes i et nytt vindu), som bidrar til å forbedre modellens evne til å motstå jailbreaking, meldingsinjeksjoner og uthenting av systemmeldinger. Dette gjør modellsvarene mer pålitelige og bidrar til å gjøre den tryggere å bruke i applikasjoner i stor skala.
Vi fortsetter å overvåke hvordan GPT‑4o mini brukes, og forbedre modellens sikkerhet når vi identifiserer nye risikoer.
Tilgjengelighet og priser
Nå er GPT‑4o mini tilgjengelig som en tekst- og synsmodell i Assistants API, Chat Completions API (API for samtalesvar) og Batch API. Utviklere betaler 15 cent per 1M inndatatokener og 60 cent per 1M utdatatokener (omtrent tilsvarende 2500 sider i en vanlig bok). Vi planlegger å rulle ut finjustering for GPT‑4o mini i løpet av de neste dagene.
I ChatGPT, Free, Plus og Team får brukere tilgang til GPT‑4o mini fra og med i dag i stedet for GPT‑3.5. Enterprise-brukere får også tilgang fra og med neste uke, i tråd med målet vårt om å gjøre fordelene med AI tilgjengelig for alle.
Hva skjer videre?
I løpet av de siste årene har vi vært vitne til bemerkelsesverdig utvikling innen AI-intelligens sammen med betydelig reduksjon av kostnad. For eksempel har kostnaden per token for GPT‑4o mini gått ned 99 % siden text-davinci-003, en mindre dyktig modell som ble introdusert i 2022. Vi er forpliktet til å fortsette dette forløpet med å redusere kostnader mens modellfunksjonalitet forbedres.
Vi ser for oss en fremtid der modeller blir sømløst integrert i alle apper og på alle nettsteder. GPT‑4o mini baner veien for at utviklere kan bygge og skalere kraftige AI-applikasjonen mer effektivt og rimeligere. Fremtiden til AI blir mer tilgjengelig, pålitelig og integrert i de daglige digitale opplevelsene våre, og vi gleder oss til å lede veien.
Forfatter
OpenAIAnerkjennelse
Ledere: Jacob Menick, Kevin Lu, Shengjia Zhao, Eric Wallace, Hongyu Ren, Haitang Hu, Nick Stathas, Felipe Petroski Such
Programleder: Mianna Chen
Bidrag nevnt i https://openai.com/gpt-4o-contributions/
Fotnoter
- 1
Per 18. juli 2024 overgår en tidligere versjon av GPT-4o mini GPT-4T 01-25.
- 2
Evalueringstall for GPT-4o mini beregnes ved hjelp av simple-evals(åpnes i et nytt vindu)-repositoriet vårt med systemmelding fra API-assistenten. For konkurrerende modeller tar vi det høyeste tallet over det rapporterte tallet (hvis tilgjengelig), HELM(åpnes i et nytt vindu)-ledertavlen og vår egen reproduksjon via simple-evals.