Idag lanserar vi GPT‑5 på vår API-plattform – vår bästa modell hittills för kodning och agentiska uppgifter.
GPT‑5 får toppresultat på viktiga riktmärken för kodning, med 74,9 % på SWE-bench Verifierad och 88 % på Aider polyglot. Vi tränade GPT‑5 att bli en riktig samarbetspartner för kodning. Den utmärker sig i att producera kod av hög kvalitet och hantera uppgifter som att åtgärda buggar, redigera kod och svara på frågor om komplexa kodbaser. Modellen är styrbar och samarbetsvillig – den kan följa mycket detaljerade instruktioner med hög precision och kan ge förklaringar till sina åtgärder före och mellan verktygsanrop. Modellen utmärker sig även inom frontend-kodning och slår OpenAI o3 inom frontend-webbutveckling i 70 % av fallen vid intern testning.
Vi tränade GPT‑5 på verkliga kodningsuppgifter i samarbete med tidiga testare från startup-företag och storföretag. Cursor säger att GPT‑5 är ”den smartaste modellen [de har] använt” och att den är ”märkbart intelligent, lätt att styra och har till och med en personlighet som [de] inte har sett i andra modeller”. Windsurf meddelade att GPT‑5 får toppresultat under deras utvärderingar och ”har halverad felprocent vid verktygsanrop jämfört med andra banbrytande modeller.” Vercel anser att ”det är den bästa AI-modellen för frontend-utveckling, som uppnår topprestanda både vad gäller estetik och kodkvalitet, vilket gör att den hamnar i en klass för sig”.
GPT‑5 utmärker sig även i långvariga agentbaserade uppgifter – och uppnår toppresultat på τ2-bench telecom (96,7 %), ett jämförelsetest för verktygsanrop som lanserades för bara två månader sedan. Med GPT‑5:s förstärkta verktygsintelligens kan den pålitligt koppla samman tiotals verktygsanrop – både i serie och parallellt – utan att förlora orienteringen. Detta gör den avsevärt bättre på att slutföra komplexa, verkliga uppgifter från start till mål. Den följer också verktygsinstruktioner mer exakt, är bättre på att hantera verktygsfel och utmärker sig när det gäller inhämtning av innehåll från långa kontexter. Manus säger att ”GPT‑5 uppnådde den bästa prestanda [de] någonsin sett från en enskild modell i [deras] interna riktmärkestester”. Notion berättar att ”[modellens] snabba svar, särskilt i läget för låg resonemangsinsats, gör GPT‑5 till en idealisk modell när man behöver komplexa uppgifter lösta på en gång”. Inditex meddelade att ”det som verkligen skiljer [GPT‑5] från mängden är djupet i dess resonemang: nyanserade, mångfacetterade svar som speglar en verklig ämneskunskap.”
Vi introducerar nya funktioner i vårt API för att ge utvecklare mer kontroll över modellsvaren. GPT‑5 har stöd för en ny verbosity-parameter (värden: low, medium, high) som hjälper till att reglera om svaren ska vara korta och koncisa eller långa och omfattande. GPT‑5:s parameter reasoning_effort kan nu använda ett minsta värde för att få ett svar snabbt, utan ett omfattande resonemang först. Vi har även lagt till en ny typ av verktyg – anpassade verktyg – som gör att GPT‑5 kan anropa verktyg med oformaterad text istället för JSON. Anpassade verktyg har stöd för begränsning genom kontextfri grammatik som ges av utvecklaren.
Vi lanserar GPT‑5 i tre storlekar i API:et – gpt-5, gpt-5-mini och gpt-5-nano – för att ge utvecklare mer flexibilitet när det gäller att balansera prestanda, kostnad och latens. Medan GPT‑5 i ChatGPT är ett system av resonemangs-, icke-resonemangs- och routermodeller är GPT‑5 i API-plattformen den resonemangsmodell som möjliggör maximal prestanda i ChatGPT. Det är värt att notera att GPT‑5 med minimalt resonemang är en annan modell än icke-resonemangsmodellen i ChatGPT, och är bättre anpassad för utvecklare. Icke-resonemangsmodellen som används i ChatGPT finns tillgänglig som gpt-5-chat-latest.
Du kan läsa mer om GPT‑5 i ChatGPT och lära dig om andra förbättringar i ChatGPT i vår forskningsblogg. Mer information om hur företag ser fram emot att använda GPT‑5, se vår företagsblogg.
GPT‑5 är den starkaste kodningsmodellen vi någonsin har släppt. Den överträffar o3 i både riktmärkestester för kodning och verkliga användningsfall och har finjusterats för att glänsa i agentiska kodningsprodukter som Cursor, Windsurf, GitHub Copilot och Codex CLI. GPT‑5 imponerade på våra alfatestare och satte rekord i många av deras interna slutna utvärderingar.
Tidig feedback för GPT‑5 för verkliga kodningsuppgifter
”GPT-5 är den smartaste kodningsmodellen vi har använt. Vårt team har observerat att GPT-5 är märkbart intelligent, lätt att styra och har till och med en personlighet som vi inte har sett i några andra modeller. Den upptäcker inte bara knepiga, djupt dolda buggar, utan kan också köra agenter i bakgrunden i flera omgångar för att lösa komplexa uppgifter ända till slutet – den typ av problem som brukade få andra modeller att fastna. Den har blivit vårt dagliga verktyg för allt från omfångsstudier och planering av PR-aktiviteter till att skapa heltäckande lösningar.”
På SWE-bench Verified, en utvärdering baserad på verkliga programvarutekniska uppgifter, uppnår GPT‑5 74,9 %, en ökning från 69,1 % för o3. Noterbart är att GPT‑5 uppnår sitt höga resultat snabbare och med större effektivitet: jämfört med o3 vid hög resonemangsinsats använder GPT‑5 22 % färre utdatatoken och 45 % färre verktygsanrop.
I SWE-bench Verified ges en modell ett kodlager och en beskrivning av problemet och måste generera en patch som åtgärdar problemet. Textetiketter indikerar resonemangsnivån. Våra resultat exkluderar 23 av 500 problem vars lösningar inte pålitligt kunde köras på vår infrastruktur. GPT‑5 fick en kort prompt som betonade att lösningarna skulle verifieras noggrant. Samma prompt var inte till någon nytta för o3.
I Aiders polyglot, en utvärdering av kodredigering, uppnår GPT‑5 ett nytt rekord på 88 %, vilket är en tredjedel lägre felfrekvens jämfört med o3.
I Aider polygot(öppnas i ett nytt fönster) (diff), ges en modell en kodningsövning från Exercism och måste skriva lösningen som en koddiff. Resonemangsmodellerna kördes med hög nivå av resonemang.
Vi har också observerat att GPT‑5 är utmärkt på att gräva djupt i kodbaser för att svara på frågor om hur olika delar fungerar eller samverkar. I en kodbas så komplicerad som OpenAI:s förstärkningsinlärningsstack ser vi att GPT‑5 kan hjälpa oss att resonera kring och besvara frågor om koden, vilket påskyndar det dagliga arbetet.
När det gäller att producera frontendkod för webbappar är GPT‑5 mer estetisk, ambitiös och korrekt. I jämförelser sida vid sida med o3 föredrog våra testare GPT‑5 i 70 % av fallen.
Här är några roliga, handplockade exempel på vad GPT‑5 kan göra med en enda prompt:
Prompt: Skapa en vacker och realistisk landningssida för en tjänst som erbjuder kaffeentusiaster ett abonnemang på 200 dollar/månad. I tjänsten ingår uthyrning av utrustning och coachning för att rosta kaffe och skapa den ultimata espresson. Målgruppen är en medelålders person från Stockholm som arbetar inom teknik, är utbildad, har disponibel inkomst och brinner för kaffets konst och vetenskap. Optimera för konvertering för ett abonnemang på sex månader.
Se fler exempel från GPT‑5 i vårt galleri här(öppnas i ett nytt fönster).
GPT‑5 är en bättre samarbetspartner, särskilt i agentiska kodningsprodukter som Cursor, Windsurf, GitHub Copilot och Codex CLI. Samtidigt som den arbetar kan GPT‑5 upprätta planer, uppdateringar och sammanfattningar mellan verktygsanrop. Jämfört med våra tidigare modeller är GPT‑5 mer proaktiv när det gäller att slutföra ambitiösa uppgifter utan att pausa för ditt godkännande eller tveka inför hög komplexitet.
Här är ett exempel på hur GPT‑5 kan se ut när den tacklar en komplex uppgift (i det här fallet att skapa en webbplats för en restaurang):
Efter att användaren har bett om en webbplats för sin restaurang skapar GPT‑5 en snabb plan, konfigurerar appen, installerar bibliotek, skapar webbplatsens innehåll, kör ett bygge för att kontrollera kompileringsfel, sammanfattar arbetet och föreslår potentiella nästa steg. Den här videon har ökat hastigheten drygt tre gånger så att du slipper vänta. Det tog ungefär tre minuter att skapa webbplatsen.
Utöver agentbaserad kodning är GPT‑5 generellt sett bättre på agentbaserade uppgifter. GPT‑5 sätter nya rekord på benchmarks för instruktionsföljsamhet (69,6 % på Scale MultiChallenge, bedömt av o3‑mini) och verktygskörning (96,7 % on τ2-bench telecom). Förbättrad verktygsintelligens gör att GPT‑5 mer tillförlitligt kan skapa en kedja av åtgärder för att utföra verkliga uppgifter.
Tidig feedback om agentiska uppgifter med GPT‑5
”GPT-5 är en stor förbättring. Den uppnådde den bästa prestanda vi någonsin sett från en enskild modell i våra interna prestandatester. GPT-5 presterade enastående i diverse agentuppgifter – redan innan vi ändrade en enda rad kod eller anpassade en prompt. De nya inledningarna och mer exakta kontroller över verktygsanvändningen möjliggjorde ett betydande framsteg i våra agenters stabilitet och styrbarhet.”
GPT‑5 följer instruktioner mer tillförlitligt än någon av sina föregångare, och får höga resultat på COLLIE, Scale MultiChallenge och vår interna utvärdering för instruktionsföljsamhet.
I COLLIE(öppnas i ett nytt fönster) måste modeller skriva text som uppfyller olika begränsningar. I Scale MultiChallenge(öppnas i ett nytt fönster) utmanas modeller att korrekt använda fyra typer av information från tidigare meddelanden i flerstegssamtal. Vi har använt o3‑mini som betygsinstrument, vilket var mer exakt än GPT‑4o. I vår interna utvärdering av instruktionsföljsamhet för OpenAI API måste modeller följa svåra instruktioner som kommer från verklig feedback från utvecklare. Resonemangsmodellerna kördes med hög nivå av resonemang.
Vi har arbetat hårt för att förbättra verktygsanrop på de sätt som är viktiga för utvecklare. GPT‑5 är bättre på att följa verktygsinstruktioner, bättre på att hantera verktygsfel och bättre på att proaktivt göra många verktygsanrop i serie eller parallellt. När GPT‑5 instrueras kan den också mata ut inledningar före och mellan verktygsanrop för att uppdatera användare om framsteg under längre agentbaserade uppgifter.
För två månader sedan publicerades τ2-bench telecom av Sierra.ai som ett utmanande benchmark för verktygsanvändning, vilket belyste hur språkmodellers prestanda sjunker markant när de interagerar med ett miljötillstånd som kan ändras av användare. I deras publikation(öppnas i ett nytt fönster) har ingen modell fått högre poäng än 49 %. GPT‑5 uppnådde 97 %.
I τ2-bench(öppnas i ett nytt fönster) måste en modell använda verktyg för att utföra en kundtjänstuppgift, där det kan finnas en användare som kan kommunicera och vidta åtgärder baserat på världens tillstånd. Resonemangsmodellerna kördes med hög nivå av resonemang.
GPT‑5 visar även utmärkta förbättringar av prestandan för långa kontexter. På OpenAI-MRCR, ett mått på informationsinhämtning från lång kontext, överträffar GPT‑5 o3 och GPT‑4.1, med en marginal som ökar betydligt vid längre inmatningslängder.
I OpenAI-MRCR(öppnas i ett nytt fönster) (multi-round co-reference resolution) infogas flera identiska ”nålförfrågningar” från användare i långa ”höstackar” av liknande förfrågningar och svar, och modellen ombes att återge den i:te nålen. Antalet matchningar i snitt mäter det genomsnittliga antalet matchade strängar mellan modellens svar och det korrekta svaret. Punkterna vid max 256 000 indatatoken representerar medelvärden över 128 000–256 000 indatatoken, och så vidare. Här representerar 256 000 256 x 1 024 = 262 114 token. Resonemangsmodellerna kördes med hög nivå av resonemang.
Vi öppnar även källkoden för BrowseComp Long Context(öppnas i ett nytt fönster), ett nytt riktmärke för att utvärdera frågor och svar för långa kontexter. I detta riktmärke får modellen en användarfråga, en lång lista med relevanta sökresultat och måste besvara frågan baserat på sökresultaten. Vi utformade BrowseComp Long Context att vara realistiskt, svårt och ha pålitliga, korrekta svar. För indata som uppgår till 128 000–256 000 token ger GPT‑5 rätt svar i 89 % av fallen.
I API:et kan alla GPT‑5‑modeller ta emot maximalt 272 000 indatatoken och generera maximalt 128 000 resonemangs- och utdatatoken, vilket ger en total kontextlängd på 400 000 token.
GPT‑5 är mer pålitlig än våra tidigare modeller. För prompter från LongFact- och FactScore-riktmärken orsakar GPT‑5 omkring 80 % färre sakfel än o3. Det gör den bättre lämpad för agentbaserade användningsområden där korrekthet är avgörande – särskilt inom kodning, databehandling och beslutsfattande.
Höga poäng är sämre. LongFact(öppnas i ett nytt fönster) och FActScore(öppnas i ett nytt fönster) består av öppna faktasökande frågor. Vi använder en LLM-baserad bedömare med webbsökning för att faktagranska svar på frågor från dessa riktmärken och mäta andelen påståenden med sakfel. Detaljer om implementering och bedömning finns i systemkortet. Resonemangsmodellerna använde hög resonemangsinsats. Sökning var inaktiverad.
Generellt sett har GPT‑5 tränats för att vara mer självmedveten om sina egna begränsningar och bättre kunna hantera oväntade utmaningar. Vi har också tränat GPT‑5 att bli mycket mer exakt när det gäller hälsofrågor (läs mer i vår forskningsblogg). Som med alla språkmodeller rekommenderar vi att du verifierar GPT‑5:s arbete i situationer där misstag kan få allvarliga konsekvenser.
Utvecklare kan kontrollera GPT‑5:s betänketid via parametern reasoning_effort i API:et. Utöver de tidigare värdena – low, medium (standard) och high – har GPT‑5 även stöd för minimal, vilket minimerar GPT‑5:s resonemangsinsats och ger ett snabbt svar.
Högre värden för reasoning_effortger en högre kvaliteten och lägre värden ger snabbare svar. Alla uppgifter får inte lika stor nytta av ytterligare resonemang, så vi rekommenderar att du experimenterar för att se vad som fungerar bäst för de olika användningsområden som du är intresserad av.
Till exempel tillför resonemang över low föga vid relativt enkel hämtning från långa kontexter, men förbättrar resultatet med flera procentenheter i CharXiv Reasoning(öppnas i ett nytt fönster), ett riktmärke för visuellt resonemang.
Resonemangsinsatsen för GPT‑5 ger olika fördelar vid olika typer av uppgifter. För CharXiv Reasoning fick GPT‑5 tillgång till ett Python-verktyg.
För att hjälpa till att reglera standardlängden för GPT‑5:s svar har vi introducerat den nya API-parametern verbosity, som kan använda värdena low, medium (standard) och high. Om uttryckliga instruktioner strider mot parametrarna för verbosity har de uttryckliga instruktionerna företräde. Om du till exempel ber GPT‑5 ”Skriv en uppsats med fem stycken” kommer modellens svar alltid att innehålla fem stycken, oavsett verbositetsnivå (men varje enskilt stycke kan vara längre eller kortare).
Verbosity=low
Verbosity=medium
Verbosity=high
Om instruerad kommer GPT‑5 att skicka inledningar synliga för användaren före och mellan verktygsanrop. Till skillnad från dolda resonemangsmeddelanden gör dessa synliga meddelanden att GPT‑5 kan visa planer och framsteg för användaren, vilket hjälper denne att förstå metoden och avsikten bakom verktygsanropen.
Vi lanserar en ny typ av verktyg – anpassade verktyg – som gör att GPT‑5 kan anropa verktyg med oformaterad text istället för JSON. För att se till att GPT‑5 följer format för anpassade verktyg kan utvecklare mata in reguljära uttryck eller till och med en mer specificerad kontextfri grammatik(öppnas i ett nytt fönster).
Tidigare krävde vårt gränssnitt för utvecklardefinierade verktyg att de anropades med JSON, ett vanligt format som används av webb-API:er och utvecklare i allmänhet. Dock kräver det att modellen felfritt hanterar citationstecken, snedstreck, radbrytningar och andra kontrolltecken för att producera giltig JSON. Även om våra modeller är vältränade att generera JSON ökar risken för fel vid långa indata, till exempel flera hundra rader kod eller en fem sidor lång rapport. Med anpassade verktyg kan GPT‑5 skriva verktygsindata som oformaterad text, utan att behöva använda alla escape-tecken som annars skulle krävas.
Att använda anpassade verktyg istället för JSON-verktyg på SWE-bench verifierad gör att GPT‑5 får ungefär samma poäng.
GPT‑5 flyttar gränserna för säkerhet och är en mer robust, pålitlig och hjälpsam modell. GPT‑5 är mindre benägen att hallucinera än våra tidigare modeller, den kommunicerar mer ärligt till användaren om vilka åtgärder och funktioner den använder och ger det mest hjälpsamma svaret där det är möjligt, samtidigt som den håller sig inom säkerhetsgränserna. Du kan läsa mer i vår forskningsblogg.
GPT‑5 finns nu tillgängligt i API-plattformen i tre storlekar: gpt-5, gpt-5-mini och gpt-5-nano. Den är tillgänglig i Responses API, Chat Completions API och är standard i Codex CLI. GPT‑5 kostar 1,25 $/1 miljon indatatoken och 10 $/1 miljon utdatatoken. GPT‑5 mini kostar 0,25 $/1 miljon indatatoken och 2 $/1 miljon utdatatoken. GPT‑5 nano kostar 0,05 $/1 miljon indatatoken och 0,40 1 miljon utdatatoken.
Modellerna har stöd för API-parametrarna reasoning_effort och verbosity, samt anpassade verktyg. De har även stöd för parallella verktygsanrop, inbyggda verktyg (webbsökning, filsökning, bildgenerering med mera), grundläggande API-funktioner (strömning, strukturerade utdata med mera) och kostnadsbesparande funktioner som prompt caching och Batch API.
Icke-resonemangsversionen av GPT‑5 som används i ChatGPT finns tillgänglig i API:et som gpt-5-chat-latest, och kostar 1,25 $/1 miljon indatatoken och 10 $/1 miljon utdatatoken.
GPT‑5 lanseras också på alla Microsoft-plattformar, inklusive Microsoft 365 Copilot, Copilot, GitHub Copilot och Azure AI Foundry.
Ta en titt på dokumentationen(öppnas i ett nytt fönster), prisinformationen(öppnas i ett nytt fönster) och prompting-guiden(öppnas i ett nytt fönster) för GPT‑5 för att komma igång.
Intelligens
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| AIME ’25(no tools) | 94,6 % | 91,1 % | 85,2 % | 88,9 % | 92,7 % | 46,4 % | 40,2 % | - |
| FrontierMath(with python tool only) | 26,3 % | 22,1 % | 9,6 % | 15,8 % | 15,4 % | - | - | - |
| GPQA diamond(no tools) | 85,7 % | 82,3 % | 71,2 % | 83,3 % | 81,4 % | 66,3 % | 65,0 % | 50,3 % |
| HLE[1](no tools) | 24,8 % | 16,7 % | 8,7 % | 20,2 % | 14,7 % | 5,4 % | 3,7 % | - |
| HMMT 2025(no tools) | 93,3 % | 87,8 % | 75,6 % | 81,7 % | 85,0 % | 28,9 % | 35,0 % | - |
[1] Det finns en liten avvikelse med nummer som rapporterats i vårt tidigare blogginlägg då dessa kördes på en tidigare version av HLE.
Multimodal
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| MMMU | 84,2 % | 81,6 % | 75,6 % | 82,9 % | 81,6 % | 74,8 % | 72,7 % | 55,4 % |
| MMMU-Pro(avg across standard and vision sets) | 78,4 % | 74,1 % | 62,6 % | 76,4 % | 73,4 % | 60,3 % | 58,9 % | 33,0 % |
| CharXiv reasoning(python enabled) | 81,1 % | 75,5 % | 62,7 % | 78,6 % | 72,0 % | 56,7 % | 56,8 % | 40,5 % |
| VideoMMMU, max frame 256 | 84,6 % | 82,5 % | 66,8 % | 83,3 % | 79,4 % | 60,9 % | 55,1 % | 30,2 % |
| ERQA | 65,7 % | 62,9 % | 50,1 % | 64,0 % | 56,5 % | 44,3 % | 42,3 % | 26,5 % |
Kodning
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| SWE-Lancer: IC SWE Diamond Freelance Coding Tasks | 112 tn US$ | 75 tn US$ | 49 tn US$ | 86 tn US$ | 66 tn US$ | 34 tn US$ | 31 tn US$ | 9 tn US$ |
| SWE-bench Verified[2] | 74,9 % | 71,0 % | 54,7 % | 69,1 % | 68,1 % | 54,6 % | 23,6 % | - |
| Aider polyglot(diff) | 88,0 % | 71,6 % | 48,4 % | 79,6 % | 58,2 % | 52,9 % | 31,6 % | 6,2 % |
[2] Vi utelämnade 23/500 problem som inte kunde köras på vår infrastruktur. En lista på de 23 uppgifter som utelämnats: 'astropy__astropy-7606', 'astropy__astropy-8707', 'astropy__astropy-8872', 'django__django-10097', 'django__django-7530', 'matplotlib__matplotlib-20488', 'matplotlib__matplotlib-20676', 'matplotlib__matplotlib-20826', 'matplotlib__matplotlib-23299', 'matplotlib__matplotlib-24970', 'matplotlib__matplotlib-25479', 'matplotlib__matplotlib-26342', 'psf__requests-6028', 'pylint-dev__pylint-6528', 'pylint-dev__pylint-7080', 'pylint-dev__pylint-7277', 'pytest-dev__pytest-5262', 'pytest-dev__pytest-7521', 'scikit-learn__scikit-learn-12973', 'sphinx-doc__sphinx-10466', 'sphinx-doc__sphinx-7462', 'sphinx-doc__sphinx-8265', and 'sphinx-doc__sphinx-9367'.
Instruktionsföljsamhet
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| Scale multichallenge[3](o3-mini grader) | 69,6 % | 62,3 % | 54,9 % | 60,4 % | 57,5 % | 46,2 % | 42,2 % | 31,1 % |
| Internal API instruction following eval(hard) | 64,0 % | 65,8 % | 56,1 % | 47,4 % | 44,7 % | 49,1 % | 45,1 % | 31,6 % |
| COLLIE | 99,0 % | 98,5 % | 96,9 % | 98,4 % | 96,1 % | 65,8 % | 54,6 % | 42,5 % |
[3] Obs! Vi märker att standardbedömaren i MultiChallenge (GPT-4o) ofta ger modellsvar fel poäng. Om vi byter ut bedömaren till en resonemangsmodell, som o3-mini, förbättras riktigheten vid bedömning avsevärt på exempel vi har inspekterat.
Funktionsanrop
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| Tau2-bench airline | 62,6 % | 60,0 % | 41,0 % | 64,8 % | 60,2 % | 56,0 % | 51,0 % | 14,0 % |
| Tau2-bench retail | 81,1 % | 78,3 % | 62,3 % | 80,2 % | 70,5 % | 74,0 % | 66,0 % | 21,5 % |
| Tau2-bench telecom | 96,7 % | 74,1 % | 35,5 % | 58,2 % | 40,5 % | 34,0 % | 44,0 % | 12,1 % |
Lång kontext
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| OpenAI-MRCR: 2 needle 128k | 95,2 % | 84,3 % | 43,2 % | 55,0 % | 56,4 % | 57,2 % | 47,2 % | 36,6 % |
| OpenAI-MRCR: 2 needle 256k | 86,8 % | 58,8 % | 34,9 % | - | - | 56,2 % | 45,5 % | 22,6 % |
| Graphwalks bfs <128k | 78,3 % | 73,4 % | 64,0 % | 77,3 % | 62,3 % | 61,7 % | 61,7 % | 25,0 % |
| Graphwalks parents <128k | 73,3 % | 64,3 % | 43,8 % | 72,9 % | 51,1 % | 58,0 % | 60,5 % | 9,4 % |
| BrowseComp Long Context 128k | 90,0 % | 89,4 % | 80,4 % | 88,3 % | 80,0 % | 85,9 % | 89,0 % | 89,4 % |
| BrowseComp Long Context 256k | 88,8 % | 86,0 % | 68,4 % | - | - | 75,5 % | 81,6 % | 19,1 % |
| VideoMME(long, with subtitle category) | 86,7 % | 78,5 % | 65,7 % | 84,9 % | 79,5 % | 78,7 % | 68,4 % | 55,2 % |
Hallucinationer
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| LongFact-Concepts hallucination rate(no tools)[lower is better] | 1,0 % | 0,7 % | 1,0 % | 5,2 % | 3,0 % | 0,7 % | 1,1 % | - |
| LongFact-Objects hallucination rate(no tools)[lower is better] | 1,2 % | 1,3 % | 2,8 % | 6,8 % | 8,9 % | 1,1 % | 1,8 % | - |
| FActScore hallucination rate(no tools)[lower is better] | 2,8 % | 3,5 % | 7,3 % | 23,5 % | 38,7 % | 6,7 % | 10,9 % | - |


