Gå direkt till huvudinnehåll
OpenAI

7 augusti 2025

Produkt

Vi presenterar GPT‑5 för utvecklare

Den bästa modellen för kodning och agentiska uppgifter.

Laddar …

Introduktion

Idag lanserar vi GPT‑5 på vår API-plattform – vår bästa modell hittills för kodning och agentiska uppgifter.

GPT‑5 får toppresultat på viktiga riktmärken för kodning, med 74,9 % på SWE-bench Verifierad och 88 % på Aider polyglot. Vi tränade GPT‑5 att bli en riktig samarbetspartner för kodning. Den utmärker sig i att producera kod av hög kvalitet och hantera uppgifter som att åtgärda buggar, redigera kod och svara på frågor om komplexa kodbaser. Modellen är styrbar och samarbetsvillig – den kan följa mycket detaljerade instruktioner med hög precision och kan ge förklaringar till sina åtgärder före och mellan verktygsanrop.  Modellen utmärker sig även inom frontend-kodning och slår OpenAI o3 inom frontend-webbutveckling i 70 % av fallen vid intern testning.

Vi tränade GPT‑5 på verkliga kodningsuppgifter i samarbete med tidiga testare från startup-företag och storföretag. Cursor säger att GPT‑5 är ”den smartaste modellen [de har] använt” och att den är ”märkbart intelligent, lätt att styra och har till och med en personlighet som [de] inte har sett i andra modeller”. Windsurf meddelade att GPT‑5 får toppresultat under deras utvärderingar och ”har halverad felprocent vid verktygsanrop jämfört med andra banbrytande modeller.” Vercel anser att ”det är den bästa AI-modellen för frontend-utveckling, som uppnår topprestanda både vad gäller estetik och kodkvalitet, vilket gör att den hamnar i en klass för sig”.

GPT‑5 utmärker sig även i långvariga agentbaserade uppgifter – och uppnår toppresultat på τ2-bench telecom (96,7 %), ett jämförelsetest för verktygsanrop som lanserades för bara två månader sedan. Med GPT‑5:s förstärkta verktygsintelligens kan den pålitligt koppla samman tiotals verktygsanrop – både i serie och parallellt – utan att förlora orienteringen. Detta gör den avsevärt bättre på att slutföra komplexa, verkliga uppgifter från start till mål. Den följer också verktygsinstruktioner mer exakt, är bättre på att hantera verktygsfel och utmärker sig när det gäller inhämtning av innehåll från långa kontexter. Manus säger att ”GPT‑5 uppnådde den bästa prestanda [de] någonsin sett från en enskild modell i [deras] interna riktmärkestester”. Notion berättar att ”[modellens] snabba svar, särskilt i läget för låg resonemangsinsats, gör GPT‑5 till en idealisk modell när man behöver komplexa uppgifter lösta på en gång”. Inditex meddelade att ”det som verkligen skiljer [GPT‑5] från mängden är djupet i dess resonemang: nyanserade, mångfacetterade svar som speglar en verklig ämneskunskap.”

Vi introducerar nya funktioner i vårt API för att ge utvecklare mer kontroll över modellsvaren. GPT‑5 har stöd för en ny verbosity-parameter (värden: low, medium, high) som hjälper till att reglera om svaren ska vara korta och koncisa eller långa och omfattande. GPT‑5:s parameter reasoning_effort kan nu använda ett minsta värde för att få ett svar snabbt, utan ett omfattande resonemang först. Vi har även lagt till en ny typ av verktyg – anpassade verktyg – som gör att GPT‑5 kan anropa verktyg med oformaterad text istället för JSON. Anpassade verktyg har stöd för begränsning genom kontextfri grammatik som ges av utvecklaren.

Vi lanserar GPT‑5 i tre storlekar i API:et – gpt-5, gpt-5-mini och gpt-5-nano – för att ge utvecklare mer flexibilitet när det gäller att balansera prestanda, kostnad och latens. Medan GPT‑5 i ChatGPT är ett system av resonemangs-, icke-resonemangs- och routermodeller är GPT‑5 i API-plattformen den resonemangsmodell som möjliggör maximal prestanda i ChatGPT. Det är värt att notera att GPT‑5 med minimalt resonemang är en annan modell än icke-resonemangsmodellen i ChatGPT, och är bättre anpassad för utvecklare. Icke-resonemangsmodellen som används i ChatGPT finns tillgänglig som gpt-5-chat-latest.

Du kan läsa mer om GPT‑5 i ChatGPT och lära dig om andra förbättringar i ChatGPT i vår forskningsblogg. Mer information om hur företag ser fram emot att använda GPT‑5, se vår företagsblogg.

Kodning

GPT‑5 är den starkaste kodningsmodellen vi någonsin har släppt. Den överträffar o3 i både riktmärkestester för kodning och verkliga användningsfall och har finjusterats för att glänsa i agentiska kodningsprodukter som Cursor, Windsurf, GitHub Copilot och Codex CLI. GPT‑5 imponerade på våra alfatestare och satte rekord i många av deras interna slutna utvärderingar. 

Tidig feedback för GPT‑5 för verkliga kodningsuppgifter

”GPT-5 är den smartaste kodningsmodellen vi har använt. Vårt team har observerat att GPT-5 är märkbart intelligent, lätt att styra och har till och med en personlighet som vi inte har sett i några andra modeller. Den upptäcker inte bara knepiga, djupt dolda buggar, utan kan också köra agenter i bakgrunden i flera omgångar för att lösa komplexa uppgifter ända till slutet – den typ av problem som brukade få andra modeller att fastna. Den har blivit vårt dagliga verktyg för allt från omfångsstudier och planering av PR-aktiviteter till att skapa heltäckande lösningar.”
Michael Truell, medgrundare och CEO på Cursor

På SWE-bench Verified, en utvärdering baserad på verkliga programvarutekniska uppgifter, uppnår GPT‑5 74,9 %, en ökning från 69,1 % för o3. Noterbart är att GPT‑5 uppnår sitt höga resultat snabbare och med större effektivitet: jämfört med o3 vid hög resonemangsinsats använder GPT‑5 22 % färre utdatatoken och 45 % färre verktygsanrop.

I SWE-bench Verified ges en modell ett kodlager och en beskrivning av problemet och måste generera en patch som åtgärdar problemet. Textetiketter indikerar resonemangsnivån. Våra resultat exkluderar 23 av 500 problem vars lösningar inte pålitligt kunde köras på vår infrastruktur. GPT‑5 fick en kort prompt som betonade att lösningarna skulle verifieras noggrant. Samma prompt var inte till någon nytta för o3.

I Aiders polyglot, en utvärdering av kodredigering, uppnår GPT‑5 ett nytt rekord på 88 %, vilket är en tredjedel lägre felfrekvens jämfört med o3.

I Aider polygot(öppnas i ett nytt fönster) (diff), ges en modell en kodningsövning från Exercism och måste skriva lösningen som en koddiff. Resonemangsmodellerna kördes med hög nivå av resonemang.

Vi har också observerat att GPT‑5 är utmärkt på att gräva djupt i kodbaser för att svara på frågor om hur olika delar fungerar eller samverkar. I en kodbas så komplicerad som OpenAI:s förstärkningsinlärningsstack ser vi att GPT‑5 kan hjälpa oss att resonera kring och besvara frågor om koden, vilket påskyndar det dagliga arbetet. 

Frontendutveckling

När det gäller att producera frontendkod för webbappar är GPT‑5 mer estetisk, ambitiös och korrekt. I jämförelser sida vid sida med o3 föredrog våra testare GPT‑5 i 70 % av fallen.

Här är några roliga, handplockade exempel på vad GPT‑5 kan göra med en enda prompt:

Prompt: Skapa en vacker och realistisk landningssida för en tjänst som erbjuder kaffeentusiaster ett abonnemang på 200 dollar/månad. I tjänsten ingår uthyrning av utrustning och coachning för att rosta kaffe och skapa den ultimata espresson. Målgruppen är en medelålders person från Stockholm som arbetar inom teknik, är utbildad, har disponibel inkomst och brinner för kaffets konst och vetenskap. Optimera för konvertering för ett abonnemang på sex månader.

Se fler exempel från GPT‑5 i vårt galleri här(öppnas i ett nytt fönster).

Kodningssamarbete

GPT‑5 är en bättre samarbetspartner, särskilt i agentiska kodningsprodukter som Cursor, Windsurf, GitHub Copilot och Codex CLI. Samtidigt som den arbetar kan GPT‑5 upprätta planer, uppdateringar och sammanfattningar mellan verktygsanrop. Jämfört med våra tidigare modeller är GPT‑5 mer proaktiv när det gäller att slutföra ambitiösa uppgifter utan att pausa för ditt godkännande eller tveka inför hög komplexitet.

Här är ett exempel på hur GPT‑5 kan se ut när den tacklar en komplex uppgift (i det här fallet att skapa en webbplats för en restaurang):

Efter att användaren har bett om en webbplats för sin restaurang skapar GPT‑5 en snabb plan, konfigurerar appen, installerar bibliotek, skapar webbplatsens innehåll, kör ett bygge för att kontrollera kompileringsfel, sammanfattar arbetet och föreslår potentiella nästa steg. Den här videon har ökat hastigheten drygt tre gånger så att du slipper vänta. Det tog ungefär tre minuter att skapa webbplatsen.

Agentbaserade uppgifter

Utöver agentbaserad kodning är GPT‑5 generellt sett bättre på agentbaserade uppgifter. GPT‑5 sätter nya rekord på benchmarks för instruktionsföljsamhet (69,6 % på Scale MultiChallenge, bedömt av o3‑mini) och verktygskörning (96,7 % on τ2-bench telecom). Förbättrad verktygsintelligens gör att GPT‑5 mer tillförlitligt kan skapa en kedja av åtgärder för att utföra verkliga uppgifter.

Tidig feedback om agentiska uppgifter med GPT‑5

”GPT-5 är en stor förbättring. Den uppnådde den bästa prestanda vi någonsin sett från en enskild modell i våra interna prestandatester. GPT-5 presterade enastående i diverse agentuppgifter – redan innan vi ändrade en enda rad kod eller anpassade en prompt. De nya inledningarna och mer exakta kontroller över verktygsanvändningen möjliggjorde ett betydande framsteg i våra agenters stabilitet och styrbarhet.”
Yichao ”Peak” Ji, medgrundare och chefsforskare på Manus

Instruktionsföljsamhet

GPT‑5 följer instruktioner mer tillförlitligt än någon av sina föregångare, och får höga resultat på COLLIE, Scale MultiChallenge och vår interna utvärdering för instruktionsföljsamhet.

I COLLIE(öppnas i ett nytt fönster) måste modeller skriva text som uppfyller olika begränsningar. I Scale MultiChallenge(öppnas i ett nytt fönster) utmanas modeller att korrekt använda fyra typer av information från tidigare meddelanden i flerstegssamtal. Vi har använt o3‑mini som betygsinstrument, vilket var mer exakt än GPT‑4o. I vår interna utvärdering av instruktionsföljsamhet för OpenAI API måste modeller följa svåra instruktioner som kommer från verklig feedback från utvecklare. Resonemangsmodellerna kördes med hög nivå av resonemang.

Verktygsanrop

Vi har arbetat hårt för att förbättra verktygsanrop på de sätt som är viktiga för utvecklare. GPT‑5 är bättre på att följa verktygsinstruktioner, bättre på att hantera verktygsfel och bättre på att proaktivt göra många verktygsanrop i serie eller parallellt. När GPT‑5 instrueras kan den också mata ut inledningar före och mellan verktygsanrop för att uppdatera användare om framsteg under längre agentbaserade uppgifter.

För två månader sedan publicerades τ2-bench telecom av Sierra.ai som ett utmanande benchmark för verktygsanvändning, vilket belyste hur språkmodellers prestanda sjunker markant när de interagerar med ett miljötillstånd som kan ändras av användare. I deras publikation(öppnas i ett nytt fönster) har ingen modell fått högre poäng än 49 %. GPT‑5 uppnådde 97 %.

I τ2-bench(öppnas i ett nytt fönster) måste en modell använda verktyg för att utföra en kundtjänstuppgift, där det kan finnas en användare som kan kommunicera och vidta åtgärder baserat på världens tillstånd. Resonemangsmodellerna kördes med hög nivå av resonemang.

GPT‑5 visar även utmärkta förbättringar av prestandan för långa kontexter. På OpenAI-MRCR, ett mått på informationsinhämtning från lång kontext, överträffar GPT‑5 o3 och GPT‑4.1, med en marginal som ökar betydligt vid längre inmatningslängder.

I OpenAI-MRCR(öppnas i ett nytt fönster) (multi-round co-reference resolution) infogas flera identiska ”nålförfrågningar” från användare i långa ”höstackar” av liknande förfrågningar och svar, och modellen ombes att återge den i:te nålen. Antalet matchningar i snitt mäter det genomsnittliga antalet matchade strängar mellan modellens svar och det korrekta svaret. Punkterna vid max 256 000 indatatoken representerar medelvärden över 128 000–256 000 indatatoken, och så vidare. Här representerar 256 000 256 x 1 024 = 262 114 token. Resonemangsmodellerna kördes med hög nivå av resonemang.

Vi öppnar även källkoden för BrowseComp Long Context(öppnas i ett nytt fönster), ett nytt riktmärke för att utvärdera frågor och svar för långa kontexter. I detta riktmärke får modellen en användarfråga, en lång lista med relevanta sökresultat och måste besvara frågan baserat på sökresultaten. Vi utformade BrowseComp Long Context att vara realistiskt, svårt och ha pålitliga, korrekta svar. För indata som uppgår till 128 000–256 000 token ger GPT‑5 rätt svar i 89 % av fallen.

I API:et kan alla GPT‑5‑modeller ta emot maximalt 272 000 indatatoken och generera maximalt 128 000 resonemangs- och utdatatoken, vilket ger en total kontextlängd på 400 000 token.

Fakticitet

GPT‑5 är mer pålitlig än våra tidigare modeller. För prompter från LongFact- och FactScore-riktmärken orsakar GPT‑5 omkring 80 % färre sakfel än o3. Det gör den bättre lämpad för agentbaserade användningsområden där korrekthet är avgörande – särskilt inom kodning, databehandling och beslutsfattande.

Höga poäng är sämre. LongFact(öppnas i ett nytt fönster) och FActScore(öppnas i ett nytt fönster) består av öppna faktasökande frågor. Vi använder en LLM-baserad bedömare med webbsökning för att faktagranska svar på frågor från dessa riktmärken och mäta andelen påståenden med sakfel. Detaljer om implementering och bedömning finns i systemkortet. Resonemangsmodellerna använde hög resonemangsinsats. Sökning var inaktiverad.

Generellt sett har GPT‑5 tränats för att vara mer självmedveten om sina egna begränsningar och bättre kunna hantera oväntade utmaningar. Vi har också tränat GPT‑5 att bli mycket mer exakt när det gäller hälsofrågor (läs mer i vår forskningsblogg). Som med alla språkmodeller rekommenderar vi att du verifierar GPT‑5:s arbete i situationer där misstag kan få allvarliga konsekvenser.

Nya funktioner

Minimal resonemangsnivå

Utvecklare kan kontrollera GPT‑5:s betänketid via parametern reasoning_effort i API:et. Utöver de tidigare värdena – low, medium (standard) och high – har GPT‑5 även stöd för minimal, vilket minimerar GPT‑5:s resonemangsinsats och ger ett snabbt svar.

Högre värden för reasoning_effortger en högre kvaliteten och lägre värden ger snabbare svar. Alla uppgifter får inte lika stor nytta av ytterligare resonemang, så vi rekommenderar att du experimenterar för att se vad som fungerar bäst för de olika användningsområden som du är intresserad av.

Till exempel tillför resonemang över low föga vid relativt enkel hämtning från långa kontexter, men förbättrar resultatet med flera procentenheter i CharXiv Reasoning(öppnas i ett nytt fönster), ett riktmärke för visuellt resonemang.

Resonemangsinsatsen för GPT‑5 ger olika fördelar vid olika typer av uppgifter. För CharXiv Reasoning fick GPT‑5 tillgång till ett Python-verktyg.

Verbositet

För att hjälpa till att reglera standardlängden för GPT‑5:s svar har vi introducerat den nya API-parametern verbosity, som kan använda värdena low, medium (standard) och high. Om uttryckliga instruktioner strider mot parametrarna för verbosity har de uttryckliga instruktionerna företräde. Om du till exempel ber GPT‑5 ”Skriv en uppsats med fem stycken” kommer modellens svar alltid att innehålla fem stycken, oavsett verbositetsnivå (men varje enskilt stycke kan vara längre eller kortare).

Verbosity=low

Why is the sky blue?

Because of Rayleigh scattering. Air molecules are much smaller than the wavelength of visible light, so they scatter short wavelengths (blue/violet) far more than long ones (red). The scattered blue light comes to your eyes from all directions, making the sky look blue. We don’t see violet as much because the Sun emits less of it, our eyes are less sensitive to it, and some is absorbed in the upper atmosphere. At sunrise and sunset, the longer path through air removes more blue, leaving the sky reddish.

Verbosity=medium

Why is the sky blue?

Because of Rayleigh scattering. Sunlight contains all colors, but air molecules scatter shorter wavelengths (blue/violet) much more strongly than longer wavelengths (red). The scattering strength goes roughly as 1/(wavelength)^4, so blue light gets redirected across the sky and into your eyes.

We don’t see a violet sky because:

  • The Sun emits slightly less violet than blue.
  • The upper atmosphere absorbs some violet/UV.
  • Human eyes are less sensitive to violet.

At sunrise and sunset, sunlight passes through more atmosphere, scattering out most of the blues along the way and leaving the longer red/orange wavelengths to dominate.

Verbosity=high

Why is the sky blue?

The sky looks blue because sunlight gets scattered by the tiny molecules in Earth’s atmosphere. This process is called Rayleigh scattering.

Key points:

  • Sunlight is made of many colors (wavelengths). Shorter wavelengths, like violet and blue, are scattered much more strongly by air molecules than longer wavelengths like red. The scattering strength increases sharply as wavelength gets shorter.
  • As sunlight passes through the atmosphere, the shorter-wavelength light (especially blue) is scattered in all directions, so no matter where you look away from the Sun, you see that scattered blue light — the “blue sky.”

Why not violet?

  • The Sun emits less violet than blue.
  • Our eyes are less sensitive to violet.
  • Some violet/UV is absorbed higher up by ozone.

Together, that makes the scattered light we perceive look mainly blue.

Why are sunsets red/orange?

  • Near sunrise and sunset, sunlight travels a much longer path through the atmosphere.
  • Much of the blue light gets scattered out of the direct path before it reaches your eyes, leaving the remaining direct sunlight enriched in reds and oranges.

Other influences:

  • Haze, pollution, smoke, or dust have larger particles that scatter light less selectively (called Mie scattering), making the sky look paler or whitish.
  • The blue sky is partially polarized due to the scattering geometry, which is why polarized sunglasses can darken parts of it.
  • On worlds with different atmospheres and particle sizes (like Mars), skies can look butterscotch or reddish for similar scattering reasons.

If Earth had no atmosphere, there would be nothing to scatter sunlight, and the sky would appear black even in daytime, with the Sun as a bright disk.

Inledande meddelanden före verktygsanrop

Om instruerad kommer GPT‑5 att skicka inledningar synliga för användaren före och mellan verktygsanrop. Till skillnad från dolda resonemangsmeddelanden gör dessa synliga meddelanden att GPT‑5 kan visa planer och framsteg för användaren, vilket hjälper denne att förstå metoden och avsikten bakom verktygsanropen.

Anpassade verktyg

Vi lanserar en ny typ av verktyg – anpassade verktyg – som gör att GPT‑5 kan anropa verktyg med oformaterad text istället för JSON. För att se till att GPT‑5 följer format för anpassade verktyg kan utvecklare mata in reguljära uttryck eller till och med en mer specificerad kontextfri grammatik(öppnas i ett nytt fönster).

Tidigare krävde vårt gränssnitt för utvecklardefinierade verktyg att de anropades med JSON, ett vanligt format som används av webb-API:er och utvecklare i allmänhet. Dock kräver det att modellen felfritt hanterar citationstecken, snedstreck, radbrytningar och andra kontrolltecken för att producera giltig JSON. Även om våra modeller är vältränade att generera JSON ökar risken för fel vid långa indata, till exempel flera hundra rader kod eller en fem sidor lång rapport. Med anpassade verktyg kan GPT‑5 skriva verktygsindata som oformaterad text, utan att behöva använda alla escape-tecken som annars skulle krävas.

Att använda anpassade verktyg istället för JSON-verktyg på SWE-bench verifierad gör att GPT‑5 får ungefär samma poäng.

Säkerhet

GPT‑5 flyttar gränserna för säkerhet och är en mer robust, pålitlig och hjälpsam modell. GPT‑5 är mindre benägen att hallucinera än våra tidigare modeller, den kommunicerar mer ärligt till användaren om vilka åtgärder och funktioner den använder och ger det mest hjälpsamma svaret där det är möjligt, samtidigt som den håller sig inom säkerhetsgränserna. Du kan läsa mer i vår forskningsblogg.

Tillgänglighet och priser

GPT‑5 finns nu tillgängligt i API-plattformen i tre storlekar: gpt-5, gpt-5-mini och gpt-5-nano. Den är tillgänglig i Responses API, Chat Completions API och är standard i Codex CLI. GPT‑5 kostar 1,25 $/1 miljon indatatoken och 10 $/1 miljon utdatatoken. GPT‑5 mini kostar 0,25 $/1 miljon indatatoken och 2 $/1 miljon utdatatoken. GPT‑5 nano kostar 0,05 $/1 miljon indatatoken och 0,40 1 miljon utdatatoken.

Modellerna har stöd för API-parametrarna reasoning_effort och verbosity, samt anpassade verktyg. De har även stöd för parallella verktygsanrop, inbyggda verktyg (webbsökning, filsökning, bildgenerering med mera), grundläggande API-funktioner (strömning, strukturerade utdata med mera) och kostnadsbesparande funktioner som prompt caching och Batch API.

Icke-resonemangsversionen av GPT‑5 som används i ChatGPT finns tillgänglig i API:et som gpt-5-chat-latest, och kostar 1,25 $/1 miljon indatatoken och 10 $/1 miljon utdatatoken.

GPT‑5 lanseras också på alla Microsoft-plattformar, inklusive Microsoft 365 Copilot, Copilot, GitHub Copilot och Azure AI Foundry.

Utförliga riktmärken

Intelligens
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
AIME ’25(no tools)94,6 %91,1 %85,2 %88,9 %92,7 %46,4 %40,2 %-
FrontierMath(with python tool only)26,3 %22,1 %9,6 %15,8 %15,4 %---
GPQA diamond(no tools)85,7 %82,3 %71,2 %83,3 %81,4 %66,3 %65,0 %50,3 %
HLE[1](no tools)24,8 %16,7 %8,7 %20,2 %14,7 %5,4 %3,7 %-
HMMT 2025(no tools)93,3 %87,8 %75,6 %81,7 %85,0 %28,9 %35,0 %-

[1] Det finns en liten avvikelse med nummer som rapporterats i vårt tidigare blogginlägg då dessa kördes på en tidigare version av HLE.

Multimodal
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
MMMU84,2 %81,6 %75,6 %82,9 %81,6 %74,8 %72,7 %55,4 %
MMMU-Pro(avg across standard and vision sets)78,4 %74,1 %62,6 %76,4 %73,4 %60,3 %58,9 %33,0 %
CharXiv reasoning(python enabled)81,1 %75,5 %62,7 %78,6 %72,0 %56,7 %56,8 %40,5 %
VideoMMMU, max frame 25684,6 %82,5 %66,8 %83,3 %79,4 %60,9 %55,1 %30,2 %
ERQA65,7 %62,9 %50,1 %64,0 %56,5 %44,3 %42,3 %26,5 %
Kodning
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
SWE-Lancer: IC SWE Diamond Freelance Coding Tasks112 tn US$75 tn US$49 tn US$86 tn US$66 tn US$34 tn US$31 tn US$9 tn US$
SWE-bench Verified[2]74,9 %71,0 %54,7 %69,1 %68,1 %54,6 %23,6 %-
Aider polyglot(diff)88,0 %71,6 %48,4 %79,6 %58,2 %52,9 %31,6 %6,2 %

[2] Vi utelämnade 23/500 problem som inte kunde köras på vår infrastruktur. En lista på de 23 uppgifter som utelämnats: 'astropy__astropy-7606', 'astropy__astropy-8707', 'astropy__astropy-8872', 'django__django-10097', 'django__django-7530', 'matplotlib__matplotlib-20488', 'matplotlib__matplotlib-20676', 'matplotlib__matplotlib-20826', 'matplotlib__matplotlib-23299', 'matplotlib__matplotlib-24970', 'matplotlib__matplotlib-25479', 'matplotlib__matplotlib-26342', 'psf__requests-6028', 'pylint-dev__pylint-6528', 'pylint-dev__pylint-7080', 'pylint-dev__pylint-7277', 'pytest-dev__pytest-5262', 'pytest-dev__pytest-7521', 'scikit-learn__scikit-learn-12973', 'sphinx-doc__sphinx-10466', 'sphinx-doc__sphinx-7462', 'sphinx-doc__sphinx-8265', and 'sphinx-doc__sphinx-9367'.

Instruktionsföljsamhet
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
Scale multichallenge[3](o3-mini grader)69,6 %62,3 %54,9 %60,4 %57,5 %46,2 %42,2 %31,1 %
Internal API instruction following eval(hard)64,0 %65,8 %56,1 %47,4 %44,7 %49,1 %45,1 %31,6 %
COLLIE99,0 %98,5 %96,9 %98,4 %96,1 %65,8 %54,6 %42,5 %

[3] Obs! Vi märker att standardbedömaren i MultiChallenge (GPT-4o) ofta ger modellsvar fel poäng. Om vi byter ut bedömaren till en resonemangsmodell, som o3-mini, förbättras riktigheten vid bedömning avsevärt på exempel vi har inspekterat.

Funktionsanrop
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
Tau2-bench airline62,6 %60,0 %41,0 %64,8 %60,2 %56,0 %51,0 %14,0 %
Tau2-bench retail81,1 %78,3 %62,3 %80,2 %70,5 %74,0 %66,0 %21,5 %
Tau2-bench telecom96,7 %74,1 %35,5 %58,2 %40,5 %34,0 %44,0 %12,1 %
Lång kontext
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
OpenAI-MRCR: 2 needle 128k95,2 %84,3 %43,2 %55,0 %56,4 %57,2 %47,2 %36,6 %
OpenAI-MRCR: 2 needle 256k86,8 %58,8 %34,9 %--56,2 %45,5 %22,6 %
Graphwalks bfs <128k78,3 %73,4 %64,0 %77,3 %62,3 %61,7 %61,7 %25,0 %
Graphwalks parents <128k73,3 %64,3 %43,8 %72,9 %51,1 %58,0 %60,5 %9,4 %
BrowseComp Long Context 128k90,0 %89,4 %80,4 %88,3 %80,0 %85,9 %89,0 %89,4 %
BrowseComp Long Context 256k88,8 %86,0 %68,4 %--75,5 %81,6 %19,1 %
VideoMME(long, with subtitle category)86,7 %78,5 %65,7 %84,9 %79,5 %78,7 %68,4 %55,2 %
Hallucinationer
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
LongFact-Concepts hallucination rate(no tools)[lower is better]1,0 %0,7 %1,0 %5,2 %3,0 %0,7 %1,1 %-
LongFact-Objects hallucination rate(no tools)[lower is better]1,2 %1,3 %2,8 %6,8 %8,9 %1,1 %1,8 %-
FActScore hallucination rate(no tools)[lower is better]2,8 %3,5 %7,3 %23,5 %38,7 %6,7 %10,9 %-

Författare

OpenAI