18. juli 2024

GPT‑4o mini: Omkostningseffektiv intelligens

Vi præsenterer vores mest omkostningseffektive lille model

Indlæser ...

OpenAI arbejder for at gøre intelligens så bredt tilgængelig som muligt. I dag præsenterer vi GPT‑4o mini, vores mest omkostningseffektive lille model. Vi forventer, at GPT‑4o mini vil medføre en betydelig udvidelse af udvalget af applikationer, der er bygget med AI, ved at gøre intelligens langt mere økonomisk overkommelig. GPT‑4o mini scorer 82 % på MMLU og overgår i øjeblikket GPT‑4¹ i chatpræferencer på LMSYS-leaderboardet⁠(åbner i et nyt vindue). Den koster 15 cent pr. million input-tokens og 60 cent pr. million output-tokens – en størrelsesorden, der er billigere end tidligere avancerede modeller og over 60 % billigere end GPT‑3.5 Turbo.

Med sin lave pris og ventetid muliggør GPT‑4o mini en bred vifte af opgaver, f.eks. programmer, der kæder eller paralleliserer flere modelkald (f.eks. kalder flere API'er), sender en stor mængde kontekst til modellen (f.eks. fuld kodebase eller samtalehistorik) eller interagerer med kunder gennem hurtige tekstsvar i realtid (f.eks. chatbots til kundesupport).

I dag understøtter GPT‑4o mini tekst og synsevne i API'en, og i fremtiden vil der komme understøttelse af tekst-, billed-, video- og lydinput og -output. Modellen har et kontekstvindue på 128.000 tokens, den understøtter op til 16.000 output-tokens pr. anmodning og har viden frem til oktober 2023. Takket være den forbedrede tokenizer, som den deler med GPT‑4o, er det nu endnu mere omkostningseffektivt at håndtere ikke-engelsk tekst.

En lille model med overlegen tekstuel intelligens og multimodal ræsonnering

GPT‑4o mini overgår GPT‑3.5 Turbo og andre små modeller på akademiske benchmarks på tværs af både tekstuel intelligens og multimodal ræsonnering og understøtter det samme udvalg af sprog som GPT‑4o. Den viser også en stærk ydeevne i funktionskald, som kan gøre det muligt for udviklere at bygge programmer, der henter data eller foretager handlinger med eksterne systemer, og en forbedret ydeevne i lange kontekster sammenlignet med GPT‑3.5 Turbo.

GPT‑4o mini er blevet evalueret på tværs af flere vigtige benchmarks².

Ræsonneringsopgaver: GPT‑4o mini er bedre end andre små modeller til ræsonneringsopgaver, der involverer både tekst og syn, og scorer 82,0 % på MMLU, et benchmark for tekstlig intelligens og ræsonnering, sammenlignet med 77,9 % for Gemini Flash og 73,8 % for Claude Haiku.

Færdigheder i matematik og kodning: GPT‑4o mini udmærker sig i matematisk ræsonnering og kodningsopgaver og overgår tidligere små modeller på markedet. På MGSM, der måler matematisk ræsonnering, scorede GPT‑4o mini 87,0 % sammenlignet med 75,5 % for Gemini Flash og 71,7 % for Claude Haiku. GPT‑4o mini scorede 87,2 % på HumanEval, som måler ydeevnen ved kodning, sammenlignet med 71,5 % for Gemini Flash og 75,9 % for Claude Haiku.

Multimodal ræsonnering: GPT‑4o mini viser også en stærk præstation i MMMU, en multimodal ræsonneringsevaluering, med en score på 59,4 % sammenlignet med 56,1 % for Gemini Flash og 50,2 % for Claude Haiku.

Evalueringsscore for modellen

Som en del af vores modeludviklingsproces arbejdede vi sammen med en håndfuld betroede partnere for bedre at forstå GPT‑4o minis anvendelsesmuligheder og begrænsninger. Vi har indgået partnerskaber med virksomheder som Ramp⁠(åbner i et nyt vindue) og Superhuman⁠(åbner i et nyt vindue), som har erfaret, at GPT‑4o mini præsterer markant bedre end GPT‑3.5 Turbo til opgaver som at udtrække strukturerede data fra kvitteringsfiler eller generere e-mailsvar af høj kvalitet, når den får en trådhistorik.

Indbyggede sikkerhedsforanstaltninger

Sikkerhed er indbygget i vores modeller fra begyndelsen og forstærkes på hvert trin i vores udviklingsproces. I prætræningen filtrerer⁠(åbner i et nyt vindue) vi oplysninger fra, som vi ikke ønsker, at vores modeller skal lære af eller sende ud, som f.eks. hadefuld tale, voksenindhold, websteder, der primært samler personlige oplysninger, og spam. I eftertræningen tilpasser vi modellens adfærd til vores retningslinjer ved hjælp af teknikker som forstærkningslæring med menneskelig feedback (RLHF)⁠ for at forbedre nøjagtigheden og pålideligheden af modellernes responser.

GPT‑4o mini har de samme indbyggede sikkerhedsforanstaltninger som GPT‑4o⁠, som vi omhyggeligt har vurderet ved hjælp af både automatiserede og menneskelige evalueringer i henhold til vores beredskabsramme⁠ og i overensstemmelse med vores frivillige forpligtelser⁠. Mere end 70 eksterne eksperter inden for områder som socialpsykologi og fejlinformation testede GPT‑4o for at identificere potentielle risici, som vi har taget hånd om og planlægger at dele detaljerne om i det kommende GPT‑4o‑systemkort og beredskabs-scorecard. Indsigterne fra disse ekspertevalueringer har bidraget til at forbedre sikkerheden ved både GPT‑4o og GPT‑4o mini.

På baggrund af disse erfaringer arbejdede vores teams også på at forbedre sikkerheden ved GPT‑4o mini ved hjælp af nye teknikker baseret på vores forskning. GPT‑4o mini i API'en er den første model, der anvender vores instruktionshierarki⁠(åbner i et nyt vindue)-metode, hvilket er med til at forbedre modellens evne til at modstå jailbreaks, forespørgsels-injektioner og udtræk af systemprompter. Det gør modellens svar mere pålidelige og hjælper med at gøre den mere sikker at bruge i applikationer i større skala.

Vi vil fortsætte med at monitorere, hvordan GPT‑4o mini bliver brugt, og forbedre modellens sikkerhed, efterhånden som vi identificerer nye risici.

Tilgængelighed og priser

GPT‑4o mini er nu tilgængelig som en tekst- og synsmodel i Assistants API, Chat Completions API og Batch API. Udviklere betaler 15 cent pr. 1 mio. input-tokens og 60 cent pr. 1 mio. output-tokens (svarende til ca. 2500 sider i en standardbog). Vi forventer at implementere finjusteringer af GPT‑4o mini i løbet af de kommende dage.

I ChatGPT vil Free-, Plus- og Team-brugere fra i dag kunne få adgang til GPT‑4o mini i stedet for GPT‑3.5. Enterprise-brugere vil også få adgang fra næste uge, i tråd med vores mission om at gøre fordelene ved AI tilgængelige for alle.

Kommende tiltag

I løbet af de sidste par år har vi været vidne til markante fremskridt inden for AI-intelligens kombineret med betydelige omkostningsreduktioner. For eksempel er prisen pr. token for GPT‑4o mini faldet med 99 % siden text-davinci-003, en mindre effektiv model, der blev introduceret i 2022. Vi arbejder målrettet på at fortsætte med at nedbringe omkostningerne og samtidig forbedre modellernes kapacitet.

Vi forestiller os en fremtid, hvor modeller nemt integreres i alle apps og på alle hjemmesider. GPT‑4o mini baner vejen for, at udviklere kan bygge og skalere avancerede AI-applikationer mere effektivt og til en overkommelig pris. Fremtiden for kunstig intelligens bliver mere tilgængelig, pålidelig og integreret i vores daglige digitale oplevelser, og vi glæder os til at fortsætte med at vise vejen fremad.

Skrevet af

OpenAI

Tak til

Ansvarlige: Jacob Menick, Kevin Lu, Shengjia Zhao, Eric Wallace, Hongyu Ren, Haitang Hu, Nick Stathas, Felipe Petroski Such

Programansvarlig: Mianna Chen

Bidrag noteret på https://openai.com/gpt-4o-contributions/⁠

Fodnoter

1
Fra 18. juli 2024 er en tidligere version af GPT-4o mini bedre end GPT-4T 01-25.
2
Evalueringstal for GPT-4o mini beregnes ved hjælp af vores enkle evalueringer⁠(åbner i et nyt vindue) med forspørgslen fra API-assistentsystemet. For konkurrerende modeller tager vi det største tal over deres rapporterede tal (hvis tilgængeligt), HELM⁠(åbner i et nyt vindue)-panelet og vores egen reproduktion via enkle evalueringer.