18 juli 2024

GPT‑4o mini: Vi utvecklar kostnadseffektiv intelligens

Vi presenterar vår mest kostnadseffektiva mindre modell

Laddar …

OpenAI har åtagit sig att göra intelligens så brett tillgänglig som möjligt. I dag presenterar vi GPT‑4o mini, vår mest kostnadseffektiva mindre modell. Vi räknar med att GPT‑4o mini avsevärt kommer att utöka utbudet av applikationer som byggs med AI genom att göra intelligens mycket mer överkomligt. GPT‑4o mini får 82 % på MMLU och överträffar för närvarande GPT‑4¹ när det gäller chattpreferenser på LMSYS resultattavla⁠(öppnas i ett nytt fönster). Priset är 15 cent per miljon indatatokens och 60 cent per miljon utdatatokens, vilket är en storleksordning billigare än tidigare avancerade modeller och mer än 60 % billigare än GPT‑3.5 Turbo.

GPT‑4o mini möjliggör ett brett spektrum av uppgifter tack vare sin låga kostnad och latens, till exempel applikationer som kedjar ihop eller parallelliserar flera modellanrop (t.ex. anrop av flera API:er), skickar en stor volym kontext till modellen (t.ex. fullständig kodbas eller samtalshistorik) eller interagerar med kunder genom snabba textsvar i realtid (t.ex. kundtjänstchattbotar).

I dag stöder GPT‑4o mini text och bild (vision) i API:et, och stöd för indata och utdata i form av text, bild, video och ljud kommer längre fram. Modellen har ett kontextfönster på 128 000 tokens, har stöd för upp till 16 000 utdatatokens per begäran, och har kunskaper fram till oktober 2023. Tack vare den förbättrade tokeniseraren som delas med GPT‑4o är det nu ännu mer kostnadseffektivt att hantera text på andra språk än engelska.

En liten modell med överlägsen textuell intelligens och förmåga till multimodala resonemang

GPT‑4o mini överträffar GPT‑3.5 Turbo och andra små modeller vad gäller akademiska riktmärken inom såväl textuell intelligens som förmåga till multimodala resonemang, och stöder samma språkspektrum som GPT‑4o. Den uppvisar också stark prestanda för funktionsanrop, vilket kan göra det möjligt för utvecklare att bygga applikationer som hämtar data eller vidtar åtgärder med externa system, och förbättrad prestanda för långa kontexter jämfört med GPT‑3.5 Turbo.

GPT‑4o mini har utvärderats i flera viktiga riktmärkestester².

Resonemangsuppgifter: GPT‑4o mini är bättre än andra små modeller på att resonera kring uppgifter som involverar både text och bild, och fick 82,0 % på MMLU, ett riktmärke för textuell intelligens och resonemang, jämfört med 77,9 % för Gemini Flash och 73,8 % för Claude Haiku.

Matematik- och kodningskunskaper: GPT‑4o mini utmärker sig vad gäller matematiska resonemang och kodningsuppgifter och överträffar tidigare små modeller på marknaden. På MGSM, som mäter matematiska resonemang, fick GPT‑4o mini 87,0 %, jämfört med 75,5 % för Gemini Flash och 71,7 % för Claude Haiku. GPT‑4o mini fick 87,2 % on HumanEval, som mäter kodningsresultat, jämfört med 71,5 % för Gemini Flash och 75,9 % för Claude Haiku.

Multimodala resonemang: GPT‑4o mini presterar även bra på MMMU, en utvärdering av multimodala resonemang: 59,4 % jämfört med 56,1 % för Gemini Flash och 50,2 % för Claude Haiku.

Modellutvärderingspoäng

Som en del i modellutvecklingsprocessen har vi samarbetat med en handfull betrodda partner för att få en bättre förståelse för användningsfall och GPT‑4o minis begränsningar. Vi har samarbetat med företag som Ramp⁠(öppnas i ett nytt fönster) och Superhuman⁠(öppnas i ett nytt fönster), som konstaterade att GPT‑4o mini presterade betydligt bättre än GPT‑3.5 Turbo i uppgifter som att extrahera strukturerade data från kvittofiler eller generera e-postsvar av hög kvalitet när de förses med trådhistorik.

Inbyggda säkerhetsåtgärder

Säkerheten är inbyggd i våra modeller redan från början och stärks i varje steg i utvecklingsprocessen. Under förträningen filtrerar vi ut⁠(öppnas i ett nytt fönster) information som vi inte vill att våra modeller ska lära sig av eller utdata som utgör hets mot folkgrupp, barnförbjudet innehåll, webbplatser som främst samlar in personuppgifter och skräppost. Under efterträningen anpassar vi modellens beteende till våra policyer med hjälp av tekniker som förstärkningsinlärning med mänsklig feedback (RLHF)⁠ för att göra modellens svar riktigare och tillförlitligare.

GPT‑4o mini har samma inbyggda säkerhetsåtgärder som GPT‑4o⁠. Vi har utvärderat dessa åtgärder noggrant med hjälp av såväl automatiserade som mänskliga utvärderingar i enlighet med vårt Förberedelseramverk⁠ och i linje med våra frivilliga åtaganden⁠. Fler än 70 externa experter inom områden som socialpsykologi och desinformation testade GPT‑4o för att identifiera potentiella risker. Dessa har vi tagit itu med och planerar att dela med oss av detaljerna i det kommande GPT‑4o‑systemkortet och styrkortet för Förberedelse. Insikter från dessa experters utvärderingar har hjälpt oss att göra både GPT‑4o och GPT‑4o mini säkrare.

Våra team bygger vidare på dessa lärdomar i arbetet med att göra GPT‑4o mini säkrare med hjälp av nya tekniker som baseras på vår forskning. GPT‑4o mini i API:et är den första modellen som använder vår metod för instruktionshierarki⁠(öppnas i ett nytt fönster), vilket bidrar till att förbättra modellens förmåga att motstå jailbreaks, promptinjektioner och extraktioner av systemprompt. Det gör modellens svar mer tillförlitliga och bidrar till att göra den säkrare att använda i applikationer i stor skala.

Vi fortsätter att övervaka hur GPT‑4o mini används och gör modellen säkrare i takt med att vi identifierar nya risker.

Tillgänglighet och priser

GPT‑4o mini finns nu som text- och visionsmodell i Assistants API, API:et för slutförda chattar och Batch API. Utvecklarna betalar 15 cent per 1 miljon indatatokens och 60 cent per 1 miljon utdatatokens (vilket ungefär motsvarar 2 500 sidor i en vanlig bok). Vi planerar att lansera finjustering för GPT‑4o mini under de kommande dagarna.

I ChatGPT har Free-, Plus- och Team-användare åtkomst till GPT‑4o mini från och med i dag, istället för GPT‑3.5. Enterprise-användare får åtkomst från och med nästa vecka, i linje med vår målsättning att göra fördelarna med AI tillgängliga för alla.

Vad händer härnäst?

Under de senaste åren har AI-intelligens gjort anmärkningsvärda framsteg, samtidigt som kostnaderna har minskat avsevärt. Till exempel har kostnaden per token för GPT‑4o mini sjunkit med 99 % sedan text-davinci-003, en mindre kraftfull modell som introducerades 2022. Vi är fast beslutna att fortsätta på den inslagna vägen och sänka kostnaderna, samtidigt som vi förbättrar modellernas kapacitet.

Vi ser framför oss en framtid där modellerna integreras sömlöst i alla appar och på alla webbplatser. GPT‑4o mini banar vägen för utvecklarna att bygga och skala upp kraftfulla AI-applikationer på ett effektivare sätt och till ett överkomligt pris. AI:ns framtid blir alltmer tillgänglig, tillförlitlig och inbäddad i våra dagliga digitala upplevelser, och vi är glada över att få fortsätta att leda vägen.

Författare

OpenAI

Erkännanden

Ansvariga: Jacob Menick, Kevin Lu, Shengjia Zhao, Eric Wallace, Hongyu Ren, Haitang Hu, Nick Stathas, Felipe Petroski Such

Programansvarig: Mianna Chen

Medarbetarna hittar du på https://openai.com/gpt-4o-contributions/⁠

Fotnoter

1
Från och med 18 juli 2024 överträffar en tidigare version av GPT-4o mini GPT-4T 01-25. .
2
Utvärderingsresultatet för GPT-4o mini beräknas med hjälp av vårt arkiv för enkla utvärderingar⁠(öppnas i ett nytt fönster) med API-assistentens systemmeddelandeprompt. För konkurrerande modeller tar vi det högsta resultatet över deras rapporterade resultat (om tillgängligt), HELM⁠(öppnas i ett nytt fönster):s topplista och vår egen reproduktion via enkla utvärderingar.