Hopp til hovedinnhold
OpenAI

7. august 2025

Produkt

Vi introduserer GPT‑5 for utviklere

Den beste modellen for koding og agentoppgaver.

Laster inn …

Innledning

I dag lanserer vi GPT‑5 på API-plattformen vår – den beste modellen vår hittil for koding og agentoppgaver.

GPT‑5 er toppmoderne (SOTA) innen viktige referansemålinger for koding og fikk 74m9% på SWE-bench Verified og 88 % på Aider polyglot. Vi lærte opp GPT‑5 til å være en ekte samarbeidspartner i koding. Den utmerker seg i produsering av kode av høy kvalitet og håndtering av oppgaver som å fikse feil, redigere kode og svare på spørsmål om komplekse kodebaser. Modellen er styrbar og er samarbeidsfokusert – den kan følge veldig detaljerte instruksjoner med høy nøyaktighet og forklarer handlingene sine før og mellom verktøykall.  Modellen utmerker seg også til grensesnittkoding og slår OpenAI o3 i nettutvikling av grensesnitt 70 % av tiden i intern testing.

Vi lærte opp GPT‑5 på ekte kodeoppgaver, i samarbeid med tidlige testere fra oppstartsbedrifter og konsern. Cursor sier at GPT‑5 er “den smarteste modellen [de har] brukt” og “usedvanlig intelligent, enkel å styre og har til og med en personlighet [de] ikke har sett i andre modeller». Windsurf delte at GPT‑5 er SOTA på evalueringene deres og «har halvparten av feilraten for verktøykall sammenlignet med andre banebrytende modeller». Vercel sier “det er den beste AI-modellen for grensesnitt og når toppytelse innen både estetisk sans og kodekvalitet, noe som setter den i en egen kategori.”

GPT‑5 utmerker seg også på langvarige agentoppgaver og oppnår SOTA-resultater på τ2-bench telecom (96,7 %), en referansemåling for verktøykall som ble lansert for bare 2 måneder siden. GPT‑5s forbedrede verktøyintelligens lar den pålitelig kjede sammen titalls verktøykall – både i sekvens og parallelt – uten å miste veien, noe som gjør den mye bedre til å utføre komplekse, ekte oppgaver ende til ende. Den følger også verktøyinstruksjoner mer presist, er bedre til å håndtere verktøyfeil og utmerker seg i innholdshenting med lang kontekst. Manus sier at GPT‑5 “har oppnådd den beste ytelsen [de] noen gang har sett fra én modell i de interne referansemålingene.” Notion sier at “[modellens] raske svar, spesielt i modus med lavt resonnement, gjør GPT‑5 til en ideell modell når du må løse komplekse oppgaver på ett forsøk.” Inditex delte “det som virkelig får [GPT‑5] til å skille seg ut, er dybden av resonnementet: nyanserte svar i flere lag som gjenspeiler ekte forståelse av emnet”.

Vi introduserer nye funksjoner i API-et vårt for å gi utviklere mer kontroll over modellsvar. GPT‑5 støtter nye parametre for detaljnivå (verdier: lav, middels, høy) for å hjelpe med å kontrollere hvordan svar er korte og konsise eller lange og omfattende. GPT‑5‑parameteren reasoning_effort kan nå ta en minimal verdi for å få svar raskere, uten omfattende resonnement først. Vi har også lagt til en ny verktøytype – egendefinerte verktøy – for å la GPT‑5 kalle verktøy med ren tekst i stedet for JSON. Egendefinerte verktøy støtter begrensing av utviklerlevert grammatikk fri for kontekst.

Vi lanserer GPT‑5 i tre størrelser i API-et – gpt-5, gpt-5-mini og gpt-5-nano – for å gi utviklere mer fleksibilitet for å avveie ytelse, kostnad og forsinkelse. Mens GPT‑5 i ChatGPT er et system med resonnement, ikke-resonnement og rutermodeller, er GPT‑5 på API-plattformen resonneringsmodellen som gir maksimal ytelse i ChatGPT. Spesielt GPT‑5 med minimal resonnement er en forskjellig modell enn ikke-resonneringsmodellen i ChatGPT og er bedre justert for utviklere. Den ikke-resonnerende modellen som brukes i ChatGPT er tilgjengelig som gpt-5-chat-latest.

For å lese om GPT‑5 i ChatGPT og finne ut mer om andre ChatGPT‑forbedringer kan du sjekke research-bloggen vår. For å se mer om hvordan konsern er begeistret over å bruke GPT‑5, kan du sjekke konsernbloggen vår.

Koding

GPT‑5 er den sterkeste kodemodellen vi noensinne har lansert. Den overgår o3 i alle referansemålinger for koding og ekte bruksområder, og er finjustert til å være fremragende i agentkodeprodukter som Cursor, Windsurf, GitHub Copilot og Codex CLI. GPT‑5 imponerte alfatesterne våre og fikk rekorder på mange av de private interne evalueringene deres. 

Tidlig tilbakemelding om GPT‑5 for ekte kodeoppgaver

“GPT-5 er den smarteste kodemodellen vi har brukt. Teamet vårt har sett at GPT-5 er usedvanlig intelligent, enkel å styre og til og med har en personlighet vi ikke har sett i noen annen modell. Den oppdager ikke bare vanskelige, godt skjulte feil, men kan også kjøre lange bakgrunnsagenter i flere omganger for å fullføre komplekse oppgaver – den typen oppgaver andre modeller pleide å bli sittende fast i. Den har blitt det daglige verktøyet for alt fra omfangsangivelse og planlegging av PR til fullførelse av ende-til-ende-versjoner.»
Michael Truell, medgrunnlegger og administrerende direktør hos Cursor

På SWE-bench Verified, en evaluering basert på ekte programvareutvikling, får GPT‑5 74,9 %, opp fra 69,1 % for o3. GPT‑5 oppnår den høye poengsummen med høyere effektivitet og hastighet: sammenlignet med o3 ved høy resonnoneringsinnsats bruker GPT‑5 22 % færre utdatatoken og 45 % færre verktøykall.

I SWE-bench Verified blir en modell gitt et koderepositorium og en problembeskrivelse og må generere en feilretting for å løse problemet. Tekstetiketter indikerer resonneringsinnsatsen. Poengsummene våre utelater 23 av 500 problemer hvis løsninger ikke pålitelig besto i infrastrukturen vår. GPT‑5 ble gitt en kort melding som fremhevet nøye bekreftelse av løsninger, den samme meldingen var ikke til fordel for o3.

På Aider polyglot, en evaluering av koderedigering, oppnådde GPT‑5 en ny rekord på 88 %, en reduksjon i feilrate på en tredjedel sammenlignet med o3.

I Aider polygot(åpnes i et nytt vindu) (diff) blir en modell gitt en kodeøvelse fra Exercism og må skrive løsningen som en kodediff. Resonneringsmodeller ble kjøpt med høy resonneringsinnsats.

Vi har også oppdaget at GPT‑5 er utmerket til å grave dypt i kodebaser for å svare på spørsmål om hvordan forskjellige deler fungerer eller samspiller med hverandre. I en kodebase som er så komplisert som OpenAIs stabel for forsterkende læring, oppdager vi at GPT‑5 kan hjelpe oss med å resonnere og svare på spørsmål om koden vår, noe som akselererer det daglige arbeidet vårt. 

Teknisk arbeid med grensesnitt

Ved produsering av grensesnittkode for nettapper er GPT‑5 mer fokusert på estetikk, ambisiøs og nøyaktig. I en side-ved-side-sammenligning med o3 ble GPT‑5 foretrukket av testerne våre 70 % av tiden.

Her er noen morsomme, utvalgte eksempler på hva GPT‑5 kan gjøre med én melding:

Melding: Please generate a beautiful, realistic landing page for a service that provides the ultimate coffee enthusiast a $200/month subscription that provides equipment rental and coaching for coffee roasting and creating the ultimate espresso. The target audience is a bay area middle-aged person who might work in tech and is educated, has disposable income, and is passionate about the art and science of coffee. Optimize for conversion for a 6 month signup.

Du finner flere eksempler på GPT‑5 i galleriet vårt her(åpnes i et nytt vindu).

Kodesamarbeid

GPT‑5 er en bedre samarbeidspartner, spesielt innen agentkodeprodukter som Cursor, Windsurf, GitHub Copilot og Codex CLI. Mens GPT‑5 jobber kan den levere planer, oppdateringer og sammendrag mellom verktøykall. Sammenlignet med tidligere modeller er GPT‑5 mer proaktiv når den løser ambisiøse oppgaver uten å vente på klarsignal fra deg eller stoppe plutselig ved høy kompleksitet.

Her er et eksempel på hvordan GPT‑5 kan se ut mens den takler en kompleks oppgave (i dette tilfelle opprettelse av et nettsted for en restaurant):

Etter at brukeren ber om et nettsted for restauranten sin, deler GPT‑5 en kort plan, lager oppsett for appen, installerer avhengigheter, oppretter nettstedsinnholdet, kjører en versjon for å se etter kompileringsfeil, oppsummerer arbeidet sitt og foreslår potensielle nye trinn. Denne videoen er satt til ~3x hastighet, slik at du slipper å vente. Hele varigheten for å opprette nettstedet var omtrent tre minutter.

Agentoppgaver

I tillegg til agentkoding er GPT‑5 generelt sett bedre til agentoppgaver. GPT‑5 setter nye rekorder på referansemålinger for å følge instruksjoner (69,6 % på Scale MultiChallenge, som gradert av o3‑mini) og verktøykalling (96,7 % på τ2-bench telecom). Forbedret verktøyintelligens lar GPT‑5 mer pålitelig knytte sammen handlinger for å utføre ekte oppgaver.

Tidlig tilbakemelding om GPT‑5 for agentoppgaver

«GPT-5 er et stort fremskritt. Den har oppnådd den beste ytelsen vi har sett fra én modell i de interne referansemålingene våre. GPT-5 utmerket seg innen forskjellige agentoppgaver – selv før vi justerte en enkelt kode eller tilpasset en melding. De nye innledningene og mer presis kontroll over verktøybruk muliggjør et betydelig fremskritt innen stabiliteten og styrbarheten til agentene våre.»
Yichao ‘Peak’ Ji, medgrunnlegger og Chief Scientist hos Manus

Instruksjonsfølging

GPT‑5 følger instruksjoner mer pålitelig enn noen av sine forgjengere, og oppnår høye poengsummer på COLLIE, Scale MultiChallenge og vår interne evaluering av instruksjonsoppfølging.

I COLLIE(åpnes i et nytt vindu) må modeller skrive tekst som oppfyller ulike begrensninger. I Scale MultiChallenge(åpnes i et nytt vindu) blir modeller utfordret med samtaler i flere omganger for å bruke fire typer informasjon fra tidligere meldinger på riktig måte. Resultatene våre kommer fra bruk av o3‑mini som en vurderer, som var mer nøyaktig enn GPT‑4o. I våre interne OpenAI API-instruksjoner etter evaluering, må modellene følge vanskelige instruksjoner hentet fra ekte utvikleres tilbakemeldinger. Resonneringsmodeller ble kjøpt med høy resonneringsinnsats.

Verktøykall

Vi har jobbet hardt for å forbedre verktøykalling på måtene som er viktige for utviklere. GPT‑5 er bedre til å følge verktøyinstruksjoner, bedre til å håndtere verktøyfeil og bedre til å proaktivt utføre mange verktøykall i sekvens eller parallelt. Når GPT‑5 instrueres til det kan den også gi innledningsmeldinger for og mellom verktøykall for å oppdatere brukere om fremdrift under lengre agentoppgaver.

For to måneder siden ble τ2-bench telecom publisert av Sierra.ai som en utfordrende referansemåling for verktøybruk som fremhevet hvordan ytelsen til språkmodeller faller betydelig når de samhandler med en miljøtilstand som kan endres av brukere. I publikasjonen(åpnes i et nytt vindu) deres fikk ingen modeller over 49 %. GPT‑5 fikk 97 %.

I τ2-bench(åpnes i et nytt vindu) må en modell bruke verktøy for å utføre en kundeserviceoppgave, der det kan være en bruker som kan kommunisere og gjøre ting på verdenstilstanden. Resonneringsmodeller ble kjøpt med høy resonneringsinnsats.

GPT‑5 viser sterke forbedringer av ytelse med lang kontekst i tillegg. På OpenAI-MRCR, en måling av henting av informasjon med lang kontekst, overgår GPT‑5 o3 og GPT‑4.1 med en margin som vokser betydelig ved lengre inndatalengder.

I OpenAI-MRCR(åpnes i et nytt vindu) (multirunders løsning med medreferanse) blir flere identiske «nålforespørsler» fra brukere satt inn i en «høystakk» av lignende forespørsler og svar, og modellen blir bedt om å reprodusere svaret til n-te nål. Mellommatchforhold måler gjennomsnittlig matchforhold for streng mellom modellens svar og det riktige svaret. Punktene ved 256k maks inndatatokener representerer gjennomsnitt over 128k–256k inndatatokener og så videre. Her representerer 256k 256 * 1024 = 262 114 tokener. Resonneringsmodeller ble kjøpt med høy resonneringsinnsats.

Vi bruker også åpen kildekode for BrowseComp Long Context(åpnes i et nytt vindu), en ny referansemåling for evaluering av spørsmål og svar med lang kontekst. I denne referansemålingen får modellen en brukerspørring, en lang liste over relevante søkeresultater, og må svare på spørsmålet basert på søkeresultatene. Vi designet BrowseComp Long Context til å være realistisk, vanskelig og ha pålitelige riktige grunnsannhetssvar. For inndata som er 128K–256K tokener, gir GPT‑5 riktig svar 89 % av tiden.

I API-et kan alle GPT‑5‑modeller akseptere maksimalt 272 000 inndatatokener og avgi maksimalt 128 000 resonnement- og utdatatokener, for en total kontekstlengde på 400 000 tokener.

Nøyaktighet

GPT‑5 er mer pålitelig enn de tidligere modellene våre. På meldinger fra referansemålingene LongFact og FactScore gjør GPT‑5 ~80 % færre faktafeil enn o3. Dette gjør den bedre egnet for agentbruksområder der riktighet er viktig – spesielt kode, data og beslutningstaking.

Høyere poengsummer er verre. LongFact(åpnes i et nytt vindu) og FActScore(åpnes i et nytt vindu) består av åpne faktasøkende spørsmål. Vi bruker en LLM-basert vurderer med nettsurfing for å faktasjekke svar på meldinger fra disse referansemålingene og måler andelen uriktige krav. Implementering og vurderingsdetaljer er tilgjengelig på systemkortet. Resonneringsmodeller brukte høy resonneringsinnsats. Søk ble ikke aktivert.

Generelt sett er GPT‑5 blitt opplært til å være mer selvbevisst på sine egne begrensninger og være bedre i stand til å håndtere uventede situasjoner. Vi har også lært opp GPT‑5 til å være mye mer nøyaktig med helsespørsmål (les mer i research-bloggen vår. I likhet med alle språkmodeller anbefaler vi at du bekrefter arbeidet til GPT‑5 når det gjelder noe viktig.

Nye funksjoner

Minimal resonneringsinnsats

Utviklere kan kontrollere tenketiden til GPT‑5 via parameteren reasoning_effort i API-et. I tillegg til de tidligere verdiene – lav, middels (standard) og høy – støtter GPT‑5 også minimal, som minimerer resonnementet til GPT‑5 for å gi svar raskt.

Høyere verdier for reasoning_effort maksimerer kvalitet og senker verdier som maksimerer hastighet. Ikke alle oppgaver drar like mye nytte av ytterligere resonnement, så vi anbefaler å eksperimentere for å se hvilke som fungerer best for bruksområdene du bryr deg om.

Resonnement over lav tilføyer for eksempel lite til relativt enkel henting av lang kontekst, men tilføyer ganske mange prosentpoeng til CharXiv Reasoning(åpnes i et nytt vindu), en referansemåling for visuelt resonnement.

GPT‑5s resonneringsinnsats gir forskjellige fordeler på forskjellige oppgaver. For CharXiv Reasoning ble GPT‑5 gitt tilgang til et python-verktøy.

Detaljnivå

For å bidra til å styre standardlengden til svarene fra GPT‑5 har vi introdusert en ny API-parameter, detaljnivå, som bruker verdiene lavt, middels (standard) og høyt. Hvis uttrykkelige instruksjoner er i strid med parametrene for detaljnivå, har uttrykkelige instruksjoner forrang. Hvis du for eksempel ber GPT‑5 om å «skrive en stil på 5 paragrafer», skal modellsvaret alltid være 5 paragrafer, uavhengig av detaljnivået (men selve paragrafene kan være lengre eller kortere).

Verbosity=low

Why is the sky blue?

Because of Rayleigh scattering. Air molecules are much smaller than the wavelength of visible light, so they scatter short wavelengths (blue/violet) far more than long ones (red). The scattered blue light comes to your eyes from all directions, making the sky look blue. We don’t see violet as much because the Sun emits less of it, our eyes are less sensitive to it, and some is absorbed in the upper atmosphere. At sunrise and sunset, the longer path through air removes more blue, leaving the sky reddish.

Verbosity=medium

Why is the sky blue?

Because of Rayleigh scattering. Sunlight contains all colors, but air molecules scatter shorter wavelengths (blue/violet) much more strongly than longer wavelengths (red). The scattering strength goes roughly as 1/(wavelength)^4, so blue light gets redirected across the sky and into your eyes.

We don’t see a violet sky because:

  • The Sun emits slightly less violet than blue.
  • The upper atmosphere absorbs some violet/UV.
  • Human eyes are less sensitive to violet.

At sunrise and sunset, sunlight passes through more atmosphere, scattering out most of the blues along the way and leaving the longer red/orange wavelengths to dominate.

Verbosity=high

Why is the sky blue?

The sky looks blue because sunlight gets scattered by the tiny molecules in Earth’s atmosphere. This process is called Rayleigh scattering.

Key points:

  • Sunlight is made of many colors (wavelengths). Shorter wavelengths, like violet and blue, are scattered much more strongly by air molecules than longer wavelengths like red. The scattering strength increases sharply as wavelength gets shorter.
  • As sunlight passes through the atmosphere, the shorter-wavelength light (especially blue) is scattered in all directions, so no matter where you look away from the Sun, you see that scattered blue light — the “blue sky.”

Why not violet?

  • The Sun emits less violet than blue.
  • Our eyes are less sensitive to violet.
  • Some violet/UV is absorbed higher up by ozone.

Together, that makes the scattered light we perceive look mainly blue.

Why are sunsets red/orange?

  • Near sunrise and sunset, sunlight travels a much longer path through the atmosphere.
  • Much of the blue light gets scattered out of the direct path before it reaches your eyes, leaving the remaining direct sunlight enriched in reds and oranges.

Other influences:

  • Haze, pollution, smoke, or dust have larger particles that scatter light less selectively (called Mie scattering), making the sky look paler or whitish.
  • The blue sky is partially polarized due to the scattering geometry, which is why polarized sunglasses can darken parts of it.
  • On worlds with different atmospheres and particle sizes (like Mars), skies can look butterscotch or reddish for similar scattering reasons.

If Earth had no atmosphere, there would be nothing to scatter sunlight, and the sky would appear black even in daytime, with the Sun as a bright disk.

Innledningsmeldinger før verktøykall

Hvis GPT‑5 instrueres til det, gir den innledningsmeldinger som er synlige for brukeren, før og mellom verktøykall. I motsetning til skjulte resonnementmeldinger lar disse synlige meldingene GPT‑5 kommunisere planer og fremdrift til brukeren, noe som hjelper sluttbrukere med å forstå tilnærmelsen og hensikten bak verktøykallene.

Egendefinerte verktøy

Vi introduserer en ny verktøytype – egendefinerte verktøy – som lar GPT‑5 kalle et verktøy med ren tekst i stedet for JSON. For å begrense GPT‑5 til å følge formatene til egendefinerte verktøy kan utviklere forsyne et regulært uttrykk eller til og med mer fullstendig spesifisert grammatikk uten kontekst(åpnes i et nytt vindu).

Tidligere krevde grensesnittet vårt for utviklerdefinerte verktøy at de ble kalt med JSON, et vanlig format som generelt sett brukes av nett-API-er og utviklere. Men å gi utdata med gyldig JSON krever at modellen lukke alle sitattegn, omvendte skråstreker, linjeskift og andre kontrolltegn perfekt. Selv om modellene våre er godt opplært til å gi JSON som utdata, økes sjansen for at en feil dukker opp ved inndata på hundrevis av kodelinjer eller en rapport på 5 sider. Med egendefinerte verktøy kan GPT‑5 skrive verktøyinndata som ren tekst, uten å måtte lukke alle tegnene som krever lukking.

På SWE-bench Verified med egendefinerte verktøy i stedet for JSON-verktøy fikk GPT‑5 omtrent samme poengsum.

Sikkerhet

GPT‑5 gjør fremskritt innen sikkerhet og er en mer robust, pålitelig og nyttig modell. Det er betydelig mindre sannsynlig at GPT‑5 hallusinerer sammenlignet med de tidligere modellene våre, den kommuniserer ærligere handlingene og funksjonene sine til brukeren og gir det nyttigste svaret der det er mulig, samtidig som den holder seg innenfor sikkerhetsgrensene. Du kan lese mer i research-bloggen vår.

Tilgjengelighet og priser

Nå er GPT‑5 tilgjengelig i API-plattformen i tre størrelser: gpt-5, gpt-5-mini og gpt-5-nano. Den er tilgjengelig i Responses API, Chat Completions API og er standard i Codex CLI. GPT‑5 er priset til 1,25 USD per 1 million inndatatokens og 10 USD per 1 million utdatatokens, GPT‑5 mini er priset til 0,25 USD per 1 million inndatatokens og 2 USD per 1 million utdatatokens, og GPT‑5 nano er priset til 0,05 USD per 1 million inndatatokens og 0,40 USD per 1 million utdatatokens.

Alle GPT‑5‑modeller i API-en støtter API-parametrene reasoning_effort og verbosity samt egendefinerte verktøy. De støtter også parallell verktøykalling, innebygde verktøy (nettsøk, filsøk, bildegenerering med mer), kjerne-API-funksjoner (strømming, strukturerte utdata med mer) og kostnadsbesparende funksjoner som rask bufring og Batch API.

Den ikke-resonnerende versjonen av GPT‑5 brukt i ChatGPT er tilgjengelig i API som gpt-5-chat-latest, også priset til 1,25 USD per 1 million inndatatokens og 10 USD per 1 million utdatatokens.

GPT‑5 lanseres også på Microsofts plattformer, inkludert Microsoft 365 Copilot, Copilot, GitHub Copilot og Azure AI Foundry.

Detaljerte referansemålinger

Intelligens
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
AIME ’25(no tools)94,6 %91,1 %85,2 %88,9 %92,7 %46,4 %40,2 %-
FrontierMath(with python tool only)26,3 %22,1 %9,6 %15,8 %15,4 %---
GPQA diamond(no tools)85,7 %82,3 %71,2 %83,3 %81,4 %66,3 %65,0 %50,3 %
HLE[1](no tools)24,8 %16,7 %8,7 %20,2 %14,7 %5,4 %3,7 %-
HMMT 2025(no tools)93,3 %87,8 %75,6 %81,7 %85,0 %28,9 %35,0 %-

[1] Det er et lite avvik med tallene som ble rapportert i vårt forrige blogginnlegg, da disse ble kjørt på en tidligere versjon av HLE.

Multimodal
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
MMMU84,2 %81,6 %75,6 %82,9 %81,6 %74,8 %72,7 %55,4 %
MMMU-Pro(avg across standard and vision sets)78,4 %74,1 %62,6 %76,4 %73,4 %60,3 %58,9 %33,0 %
CharXiv reasoning(python enabled)81,1 %75,5 %62,7 %78,6 %72,0 %56,7 %56,8 %40,5 %
VideoMMMU, max frame 25684,6 %82,5 %66,8 %83,3 %79,4 %60,9 %55,1 %30,2 %
ERQA65,7 %62,9 %50,1 %64,0 %56,5 %44,3 %42,3 %26,5 %
Koding
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
SWE-Lancer: IC SWE Diamond Freelance Coding Tasks112k USD75k USD49k USD86k USD66k USD34k USD31k USD9k USD
SWE-bench Verified[2]74,9 %71,0 %54,7 %69,1 %68,1 %54,6 %23,6 %-
Aider polyglot(diff)88,0 %71,6 %48,4 %79,6 %58,2 %52,9 %31,6 %6,2 %

[2] Vi utelater 23/500 problemer som ikke kunne kjøres på vår infrastruktur. Den fullstendige listen over 23 oppgaver som ble utelatt er 'astropy__astropy-7606', 'astropy__astropy-8707', 'astropy__astropy-8872', 'django__django-10097', 'django__django-7530', 'matplotlib__matplotlib-20488', 'matplotlib__matplotlib-20676', 'matplotlib__matplotlib-20826', 'matplotlib__matplotlib-23299', 'matplotlib__matplotlib-24970', 'matplotlib__matplotlib-25479', 'matplotlib__matplotlib-26342', 'psf__requests-6028', 'pylint-dev__pylint-6528', 'pylint-dev__pylint-7080', 'pylint-dev__pylint-7277', 'pytest-dev__pytest-5262', 'pytest-dev__pytest-7521', 'scikit-learn__scikit-learn-12973', 'sphinx-doc__sphinx-10466', 'sphinx-doc__sphinx-7462', 'sphinx-doc__sphinx-8265' og 'sphinx-doc__sphinx-9367'.

Instruksjonsfølging
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
Scale multichallenge[3](o3-mini grader)69,6 %62,3 %54,9 %60,4 %57,5 %46,2 %42,2 %31,1 %
Internal API instruction following eval(hard)64,0 %65,8 %56,1 %47,4 %44,7 %49,1 %45,1 %31,6 %
COLLIE99,0 %98,5 %96,9 %98,4 %96,1 %65,8 %54,6 %42,5 %

[3] Merk: Vi har funnet ut at standard-evaluatoren i MultiChallenge (GPT-4o) ofte gir feil poengsum på modellsvar. Vi har funnet ut at å bytte evaluatoren til en resonnementmodell, som o3-mini, forbedrer nøyaktigheten for evalueringene betydelig på prøvene vi har inspisert.

Funksjonskall
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
Tau2-bench airline62,6 %60,0 %41,0 %64,8 %60,2 %56,0 %51,0 %14,0 %
Tau2-bench retail81,1 %78,3 %62,3 %80,2 %70,5 %74,0 %66,0 %21,5 %
Tau2-bench telecom96,7 %74,1 %35,5 %58,2 %40,5 %34,0 %44,0 %12,1 %
Lang kontekst
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
OpenAI-MRCR: 2 needle 128k95,2 %84,3 %43,2 %55,0 %56,4 %57,2 %47,2 %36,6 %
OpenAI-MRCR: 2 needle 256k86,8 %58,8 %34,9 %--56,2 %45,5 %22,6 %
Graphwalks bfs <128k78,3 %73,4 %64,0 %77,3 %62,3 %61,7 %61,7 %25,0 %
Graphwalks parents <128k73,3 %64,3 %43,8 %72,9 %51,1 %58,0 %60,5 %9,4 %
BrowseComp Long Context 128k90,0 %89,4 %80,4 %88,3 %80,0 %85,9 %89,0 %89,4 %
BrowseComp Long Context 256k88,8 %86,0 %68,4 %--75,5 %81,6 %19,1 %
VideoMME(long, with subtitle category)86,7 %78,5 %65,7 %84,9 %79,5 %78,7 %68,4 %55,2 %
Hallusinasjoner
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
LongFact-Concepts hallucination rate(no tools)[lower is better]1,0 %0,7 %1,0 %5,2 %3,0 %0,7 %1,1 %-
LongFact-Objects hallucination rate(no tools)[lower is better]1,2 %1,3 %2,8 %6,8 %8,9 %1,1 %1,8 %-
FActScore hallucination rate(no tools)[lower is better]2,8 %3,5 %7,3 %23,5 %38,7 %6,7 %10,9 %-

Forfatter

OpenAI