I dag lanserer vi GPT‑5 på API-plattformen vår – den beste modellen vår hittil for koding og agentoppgaver.
GPT‑5 er toppmoderne (SOTA) innen viktige referansemålinger for koding og fikk 74m9% på SWE-bench Verified og 88 % på Aider polyglot. Vi lærte opp GPT‑5 til å være en ekte samarbeidspartner i koding. Den utmerker seg i produsering av kode av høy kvalitet og håndtering av oppgaver som å fikse feil, redigere kode og svare på spørsmål om komplekse kodebaser. Modellen er styrbar og er samarbeidsfokusert – den kan følge veldig detaljerte instruksjoner med høy nøyaktighet og forklarer handlingene sine før og mellom verktøykall. Modellen utmerker seg også til grensesnittkoding og slår OpenAI o3 i nettutvikling av grensesnitt 70 % av tiden i intern testing.
Vi lærte opp GPT‑5 på ekte kodeoppgaver, i samarbeid med tidlige testere fra oppstartsbedrifter og konsern. Cursor sier at GPT‑5 er “den smarteste modellen [de har] brukt” og “usedvanlig intelligent, enkel å styre og har til og med en personlighet [de] ikke har sett i andre modeller». Windsurf delte at GPT‑5 er SOTA på evalueringene deres og «har halvparten av feilraten for verktøykall sammenlignet med andre banebrytende modeller». Vercel sier “det er den beste AI-modellen for grensesnitt og når toppytelse innen både estetisk sans og kodekvalitet, noe som setter den i en egen kategori.”
GPT‑5 utmerker seg også på langvarige agentoppgaver og oppnår SOTA-resultater på τ2-bench telecom (96,7 %), en referansemåling for verktøykall som ble lansert for bare 2 måneder siden. GPT‑5s forbedrede verktøyintelligens lar den pålitelig kjede sammen titalls verktøykall – både i sekvens og parallelt – uten å miste veien, noe som gjør den mye bedre til å utføre komplekse, ekte oppgaver ende til ende. Den følger også verktøyinstruksjoner mer presist, er bedre til å håndtere verktøyfeil og utmerker seg i innholdshenting med lang kontekst. Manus sier at GPT‑5 “har oppnådd den beste ytelsen [de] noen gang har sett fra én modell i de interne referansemålingene.” Notion sier at “[modellens] raske svar, spesielt i modus med lavt resonnement, gjør GPT‑5 til en ideell modell når du må løse komplekse oppgaver på ett forsøk.” Inditex delte “det som virkelig får [GPT‑5] til å skille seg ut, er dybden av resonnementet: nyanserte svar i flere lag som gjenspeiler ekte forståelse av emnet”.
Vi introduserer nye funksjoner i API-et vårt for å gi utviklere mer kontroll over modellsvar. GPT‑5 støtter nye parametre for detaljnivå (verdier: lav, middels, høy) for å hjelpe med å kontrollere hvordan svar er korte og konsise eller lange og omfattende. GPT‑5‑parameteren reasoning_effort kan nå ta en minimal verdi for å få svar raskere, uten omfattende resonnement først. Vi har også lagt til en ny verktøytype – egendefinerte verktøy – for å la GPT‑5 kalle verktøy med ren tekst i stedet for JSON. Egendefinerte verktøy støtter begrensing av utviklerlevert grammatikk fri for kontekst.
Vi lanserer GPT‑5 i tre størrelser i API-et – gpt-5, gpt-5-mini og gpt-5-nano – for å gi utviklere mer fleksibilitet for å avveie ytelse, kostnad og forsinkelse. Mens GPT‑5 i ChatGPT er et system med resonnement, ikke-resonnement og rutermodeller, er GPT‑5 på API-plattformen resonneringsmodellen som gir maksimal ytelse i ChatGPT. Spesielt GPT‑5 med minimal resonnement er en forskjellig modell enn ikke-resonneringsmodellen i ChatGPT og er bedre justert for utviklere. Den ikke-resonnerende modellen som brukes i ChatGPT er tilgjengelig som gpt-5-chat-latest.
For å lese om GPT‑5 i ChatGPT og finne ut mer om andre ChatGPT‑forbedringer kan du sjekke research-bloggen vår. For å se mer om hvordan konsern er begeistret over å bruke GPT‑5, kan du sjekke konsernbloggen vår.
GPT‑5 er den sterkeste kodemodellen vi noensinne har lansert. Den overgår o3 i alle referansemålinger for koding og ekte bruksområder, og er finjustert til å være fremragende i agentkodeprodukter som Cursor, Windsurf, GitHub Copilot og Codex CLI. GPT‑5 imponerte alfatesterne våre og fikk rekorder på mange av de private interne evalueringene deres.
Tidlig tilbakemelding om GPT‑5 for ekte kodeoppgaver
“GPT-5 er den smarteste kodemodellen vi har brukt. Teamet vårt har sett at GPT-5 er usedvanlig intelligent, enkel å styre og til og med har en personlighet vi ikke har sett i noen annen modell. Den oppdager ikke bare vanskelige, godt skjulte feil, men kan også kjøre lange bakgrunnsagenter i flere omganger for å fullføre komplekse oppgaver – den typen oppgaver andre modeller pleide å bli sittende fast i. Den har blitt det daglige verktøyet for alt fra omfangsangivelse og planlegging av PR til fullførelse av ende-til-ende-versjoner.»
På SWE-bench Verified, en evaluering basert på ekte programvareutvikling, får GPT‑5 74,9 %, opp fra 69,1 % for o3. GPT‑5 oppnår den høye poengsummen med høyere effektivitet og hastighet: sammenlignet med o3 ved høy resonnoneringsinnsats bruker GPT‑5 22 % færre utdatatoken og 45 % færre verktøykall.
I SWE-bench Verified blir en modell gitt et koderepositorium og en problembeskrivelse og må generere en feilretting for å løse problemet. Tekstetiketter indikerer resonneringsinnsatsen. Poengsummene våre utelater 23 av 500 problemer hvis løsninger ikke pålitelig besto i infrastrukturen vår. GPT‑5 ble gitt en kort melding som fremhevet nøye bekreftelse av løsninger, den samme meldingen var ikke til fordel for o3.
På Aider polyglot, en evaluering av koderedigering, oppnådde GPT‑5 en ny rekord på 88 %, en reduksjon i feilrate på en tredjedel sammenlignet med o3.
I Aider polygot(åpnes i et nytt vindu) (diff) blir en modell gitt en kodeøvelse fra Exercism og må skrive løsningen som en kodediff. Resonneringsmodeller ble kjøpt med høy resonneringsinnsats.
Vi har også oppdaget at GPT‑5 er utmerket til å grave dypt i kodebaser for å svare på spørsmål om hvordan forskjellige deler fungerer eller samspiller med hverandre. I en kodebase som er så komplisert som OpenAIs stabel for forsterkende læring, oppdager vi at GPT‑5 kan hjelpe oss med å resonnere og svare på spørsmål om koden vår, noe som akselererer det daglige arbeidet vårt.
Ved produsering av grensesnittkode for nettapper er GPT‑5 mer fokusert på estetikk, ambisiøs og nøyaktig. I en side-ved-side-sammenligning med o3 ble GPT‑5 foretrukket av testerne våre 70 % av tiden.
Her er noen morsomme, utvalgte eksempler på hva GPT‑5 kan gjøre med én melding:
Melding: Please generate a beautiful, realistic landing page for a service that provides the ultimate coffee enthusiast a $200/month subscription that provides equipment rental and coaching for coffee roasting and creating the ultimate espresso. The target audience is a bay area middle-aged person who might work in tech and is educated, has disposable income, and is passionate about the art and science of coffee. Optimize for conversion for a 6 month signup.
Du finner flere eksempler på GPT‑5 i galleriet vårt her(åpnes i et nytt vindu).
GPT‑5 er en bedre samarbeidspartner, spesielt innen agentkodeprodukter som Cursor, Windsurf, GitHub Copilot og Codex CLI. Mens GPT‑5 jobber kan den levere planer, oppdateringer og sammendrag mellom verktøykall. Sammenlignet med tidligere modeller er GPT‑5 mer proaktiv når den løser ambisiøse oppgaver uten å vente på klarsignal fra deg eller stoppe plutselig ved høy kompleksitet.
Her er et eksempel på hvordan GPT‑5 kan se ut mens den takler en kompleks oppgave (i dette tilfelle opprettelse av et nettsted for en restaurant):
Etter at brukeren ber om et nettsted for restauranten sin, deler GPT‑5 en kort plan, lager oppsett for appen, installerer avhengigheter, oppretter nettstedsinnholdet, kjører en versjon for å se etter kompileringsfeil, oppsummerer arbeidet sitt og foreslår potensielle nye trinn. Denne videoen er satt til ~3x hastighet, slik at du slipper å vente. Hele varigheten for å opprette nettstedet var omtrent tre minutter.
I tillegg til agentkoding er GPT‑5 generelt sett bedre til agentoppgaver. GPT‑5 setter nye rekorder på referansemålinger for å følge instruksjoner (69,6 % på Scale MultiChallenge, som gradert av o3‑mini) og verktøykalling (96,7 % på τ2-bench telecom). Forbedret verktøyintelligens lar GPT‑5 mer pålitelig knytte sammen handlinger for å utføre ekte oppgaver.
Tidlig tilbakemelding om GPT‑5 for agentoppgaver
«GPT-5 er et stort fremskritt. Den har oppnådd den beste ytelsen vi har sett fra én modell i de interne referansemålingene våre. GPT-5 utmerket seg innen forskjellige agentoppgaver – selv før vi justerte en enkelt kode eller tilpasset en melding. De nye innledningene og mer presis kontroll over verktøybruk muliggjør et betydelig fremskritt innen stabiliteten og styrbarheten til agentene våre.»
GPT‑5 følger instruksjoner mer pålitelig enn noen av sine forgjengere, og oppnår høye poengsummer på COLLIE, Scale MultiChallenge og vår interne evaluering av instruksjonsoppfølging.
I COLLIE(åpnes i et nytt vindu) må modeller skrive tekst som oppfyller ulike begrensninger. I Scale MultiChallenge(åpnes i et nytt vindu) blir modeller utfordret med samtaler i flere omganger for å bruke fire typer informasjon fra tidligere meldinger på riktig måte. Resultatene våre kommer fra bruk av o3‑mini som en vurderer, som var mer nøyaktig enn GPT‑4o. I våre interne OpenAI API-instruksjoner etter evaluering, må modellene følge vanskelige instruksjoner hentet fra ekte utvikleres tilbakemeldinger. Resonneringsmodeller ble kjøpt med høy resonneringsinnsats.
Vi har jobbet hardt for å forbedre verktøykalling på måtene som er viktige for utviklere. GPT‑5 er bedre til å følge verktøyinstruksjoner, bedre til å håndtere verktøyfeil og bedre til å proaktivt utføre mange verktøykall i sekvens eller parallelt. Når GPT‑5 instrueres til det kan den også gi innledningsmeldinger for og mellom verktøykall for å oppdatere brukere om fremdrift under lengre agentoppgaver.
For to måneder siden ble τ2-bench telecom publisert av Sierra.ai som en utfordrende referansemåling for verktøybruk som fremhevet hvordan ytelsen til språkmodeller faller betydelig når de samhandler med en miljøtilstand som kan endres av brukere. I publikasjonen(åpnes i et nytt vindu) deres fikk ingen modeller over 49 %. GPT‑5 fikk 97 %.
I τ2-bench(åpnes i et nytt vindu) må en modell bruke verktøy for å utføre en kundeserviceoppgave, der det kan være en bruker som kan kommunisere og gjøre ting på verdenstilstanden. Resonneringsmodeller ble kjøpt med høy resonneringsinnsats.
GPT‑5 viser sterke forbedringer av ytelse med lang kontekst i tillegg. På OpenAI-MRCR, en måling av henting av informasjon med lang kontekst, overgår GPT‑5 o3 og GPT‑4.1 med en margin som vokser betydelig ved lengre inndatalengder.
I OpenAI-MRCR(åpnes i et nytt vindu) (multirunders løsning med medreferanse) blir flere identiske «nålforespørsler» fra brukere satt inn i en «høystakk» av lignende forespørsler og svar, og modellen blir bedt om å reprodusere svaret til n-te nål. Mellommatchforhold måler gjennomsnittlig matchforhold for streng mellom modellens svar og det riktige svaret. Punktene ved 256k maks inndatatokener representerer gjennomsnitt over 128k–256k inndatatokener og så videre. Her representerer 256k 256 * 1024 = 262 114 tokener. Resonneringsmodeller ble kjøpt med høy resonneringsinnsats.
Vi bruker også åpen kildekode for BrowseComp Long Context(åpnes i et nytt vindu), en ny referansemåling for evaluering av spørsmål og svar med lang kontekst. I denne referansemålingen får modellen en brukerspørring, en lang liste over relevante søkeresultater, og må svare på spørsmålet basert på søkeresultatene. Vi designet BrowseComp Long Context til å være realistisk, vanskelig og ha pålitelige riktige grunnsannhetssvar. For inndata som er 128K–256K tokener, gir GPT‑5 riktig svar 89 % av tiden.
I API-et kan alle GPT‑5‑modeller akseptere maksimalt 272 000 inndatatokener og avgi maksimalt 128 000 resonnement- og utdatatokener, for en total kontekstlengde på 400 000 tokener.
GPT‑5 er mer pålitelig enn de tidligere modellene våre. På meldinger fra referansemålingene LongFact og FactScore gjør GPT‑5 ~80 % færre faktafeil enn o3. Dette gjør den bedre egnet for agentbruksområder der riktighet er viktig – spesielt kode, data og beslutningstaking.
Høyere poengsummer er verre. LongFact(åpnes i et nytt vindu) og FActScore(åpnes i et nytt vindu) består av åpne faktasøkende spørsmål. Vi bruker en LLM-basert vurderer med nettsurfing for å faktasjekke svar på meldinger fra disse referansemålingene og måler andelen uriktige krav. Implementering og vurderingsdetaljer er tilgjengelig på systemkortet. Resonneringsmodeller brukte høy resonneringsinnsats. Søk ble ikke aktivert.
Generelt sett er GPT‑5 blitt opplært til å være mer selvbevisst på sine egne begrensninger og være bedre i stand til å håndtere uventede situasjoner. Vi har også lært opp GPT‑5 til å være mye mer nøyaktig med helsespørsmål (les mer i research-bloggen vår. I likhet med alle språkmodeller anbefaler vi at du bekrefter arbeidet til GPT‑5 når det gjelder noe viktig.
Utviklere kan kontrollere tenketiden til GPT‑5 via parameteren reasoning_effort i API-et. I tillegg til de tidligere verdiene – lav, middels (standard) og høy – støtter GPT‑5 også minimal, som minimerer resonnementet til GPT‑5 for å gi svar raskt.
Høyere verdier for reasoning_effort maksimerer kvalitet og senker verdier som maksimerer hastighet. Ikke alle oppgaver drar like mye nytte av ytterligere resonnement, så vi anbefaler å eksperimentere for å se hvilke som fungerer best for bruksområdene du bryr deg om.
Resonnement over lav tilføyer for eksempel lite til relativt enkel henting av lang kontekst, men tilføyer ganske mange prosentpoeng til CharXiv Reasoning(åpnes i et nytt vindu), en referansemåling for visuelt resonnement.
GPT‑5s resonneringsinnsats gir forskjellige fordeler på forskjellige oppgaver. For CharXiv Reasoning ble GPT‑5 gitt tilgang til et python-verktøy.
For å bidra til å styre standardlengden til svarene fra GPT‑5 har vi introdusert en ny API-parameter, detaljnivå, som bruker verdiene lavt, middels (standard) og høyt. Hvis uttrykkelige instruksjoner er i strid med parametrene for detaljnivå, har uttrykkelige instruksjoner forrang. Hvis du for eksempel ber GPT‑5 om å «skrive en stil på 5 paragrafer», skal modellsvaret alltid være 5 paragrafer, uavhengig av detaljnivået (men selve paragrafene kan være lengre eller kortere).
Verbosity=low
Verbosity=medium
Verbosity=high
Hvis GPT‑5 instrueres til det, gir den innledningsmeldinger som er synlige for brukeren, før og mellom verktøykall. I motsetning til skjulte resonnementmeldinger lar disse synlige meldingene GPT‑5 kommunisere planer og fremdrift til brukeren, noe som hjelper sluttbrukere med å forstå tilnærmelsen og hensikten bak verktøykallene.
Vi introduserer en ny verktøytype – egendefinerte verktøy – som lar GPT‑5 kalle et verktøy med ren tekst i stedet for JSON. For å begrense GPT‑5 til å følge formatene til egendefinerte verktøy kan utviklere forsyne et regulært uttrykk eller til og med mer fullstendig spesifisert grammatikk uten kontekst(åpnes i et nytt vindu).
Tidligere krevde grensesnittet vårt for utviklerdefinerte verktøy at de ble kalt med JSON, et vanlig format som generelt sett brukes av nett-API-er og utviklere. Men å gi utdata med gyldig JSON krever at modellen lukke alle sitattegn, omvendte skråstreker, linjeskift og andre kontrolltegn perfekt. Selv om modellene våre er godt opplært til å gi JSON som utdata, økes sjansen for at en feil dukker opp ved inndata på hundrevis av kodelinjer eller en rapport på 5 sider. Med egendefinerte verktøy kan GPT‑5 skrive verktøyinndata som ren tekst, uten å måtte lukke alle tegnene som krever lukking.
På SWE-bench Verified med egendefinerte verktøy i stedet for JSON-verktøy fikk GPT‑5 omtrent samme poengsum.
GPT‑5 gjør fremskritt innen sikkerhet og er en mer robust, pålitelig og nyttig modell. Det er betydelig mindre sannsynlig at GPT‑5 hallusinerer sammenlignet med de tidligere modellene våre, den kommuniserer ærligere handlingene og funksjonene sine til brukeren og gir det nyttigste svaret der det er mulig, samtidig som den holder seg innenfor sikkerhetsgrensene. Du kan lese mer i research-bloggen vår.
Nå er GPT‑5 tilgjengelig i API-plattformen i tre størrelser: gpt-5, gpt-5-mini og gpt-5-nano. Den er tilgjengelig i Responses API, Chat Completions API og er standard i Codex CLI. GPT‑5 er priset til 1,25 USD per 1 million inndatatokens og 10 USD per 1 million utdatatokens, GPT‑5 mini er priset til 0,25 USD per 1 million inndatatokens og 2 USD per 1 million utdatatokens, og GPT‑5 nano er priset til 0,05 USD per 1 million inndatatokens og 0,40 USD per 1 million utdatatokens.
Alle GPT‑5‑modeller i API-en støtter API-parametrene reasoning_effort og verbosity samt egendefinerte verktøy. De støtter også parallell verktøykalling, innebygde verktøy (nettsøk, filsøk, bildegenerering med mer), kjerne-API-funksjoner (strømming, strukturerte utdata med mer) og kostnadsbesparende funksjoner som rask bufring og Batch API.
Den ikke-resonnerende versjonen av GPT‑5 brukt i ChatGPT er tilgjengelig i API som gpt-5-chat-latest, også priset til 1,25 USD per 1 million inndatatokens og 10 USD per 1 million utdatatokens.
GPT‑5 lanseres også på Microsofts plattformer, inkludert Microsoft 365 Copilot, Copilot, GitHub Copilot og Azure AI Foundry.
Sjekk GPT‑5‑dokumentasjonen(åpnes i et nytt vindu), prisdetaljene(åpnes i et nytt vindu) og meldingsveiledningen(åpnes i et nytt vindu) for å komme i gang.
Intelligens
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| AIME ’25(no tools) | 94,6 % | 91,1 % | 85,2 % | 88,9 % | 92,7 % | 46,4 % | 40,2 % | - |
| FrontierMath(with python tool only) | 26,3 % | 22,1 % | 9,6 % | 15,8 % | 15,4 % | - | - | - |
| GPQA diamond(no tools) | 85,7 % | 82,3 % | 71,2 % | 83,3 % | 81,4 % | 66,3 % | 65,0 % | 50,3 % |
| HLE[1](no tools) | 24,8 % | 16,7 % | 8,7 % | 20,2 % | 14,7 % | 5,4 % | 3,7 % | - |
| HMMT 2025(no tools) | 93,3 % | 87,8 % | 75,6 % | 81,7 % | 85,0 % | 28,9 % | 35,0 % | - |
[1] Det er et lite avvik med tallene som ble rapportert i vårt forrige blogginnlegg, da disse ble kjørt på en tidligere versjon av HLE.
Multimodal
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| MMMU | 84,2 % | 81,6 % | 75,6 % | 82,9 % | 81,6 % | 74,8 % | 72,7 % | 55,4 % |
| MMMU-Pro(avg across standard and vision sets) | 78,4 % | 74,1 % | 62,6 % | 76,4 % | 73,4 % | 60,3 % | 58,9 % | 33,0 % |
| CharXiv reasoning(python enabled) | 81,1 % | 75,5 % | 62,7 % | 78,6 % | 72,0 % | 56,7 % | 56,8 % | 40,5 % |
| VideoMMMU, max frame 256 | 84,6 % | 82,5 % | 66,8 % | 83,3 % | 79,4 % | 60,9 % | 55,1 % | 30,2 % |
| ERQA | 65,7 % | 62,9 % | 50,1 % | 64,0 % | 56,5 % | 44,3 % | 42,3 % | 26,5 % |
Koding
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| SWE-Lancer: IC SWE Diamond Freelance Coding Tasks | 112k USD | 75k USD | 49k USD | 86k USD | 66k USD | 34k USD | 31k USD | 9k USD |
| SWE-bench Verified[2] | 74,9 % | 71,0 % | 54,7 % | 69,1 % | 68,1 % | 54,6 % | 23,6 % | - |
| Aider polyglot(diff) | 88,0 % | 71,6 % | 48,4 % | 79,6 % | 58,2 % | 52,9 % | 31,6 % | 6,2 % |
[2] Vi utelater 23/500 problemer som ikke kunne kjøres på vår infrastruktur. Den fullstendige listen over 23 oppgaver som ble utelatt er 'astropy__astropy-7606', 'astropy__astropy-8707', 'astropy__astropy-8872', 'django__django-10097', 'django__django-7530', 'matplotlib__matplotlib-20488', 'matplotlib__matplotlib-20676', 'matplotlib__matplotlib-20826', 'matplotlib__matplotlib-23299', 'matplotlib__matplotlib-24970', 'matplotlib__matplotlib-25479', 'matplotlib__matplotlib-26342', 'psf__requests-6028', 'pylint-dev__pylint-6528', 'pylint-dev__pylint-7080', 'pylint-dev__pylint-7277', 'pytest-dev__pytest-5262', 'pytest-dev__pytest-7521', 'scikit-learn__scikit-learn-12973', 'sphinx-doc__sphinx-10466', 'sphinx-doc__sphinx-7462', 'sphinx-doc__sphinx-8265' og 'sphinx-doc__sphinx-9367'.
Instruksjonsfølging
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| Scale multichallenge[3](o3-mini grader) | 69,6 % | 62,3 % | 54,9 % | 60,4 % | 57,5 % | 46,2 % | 42,2 % | 31,1 % |
| Internal API instruction following eval(hard) | 64,0 % | 65,8 % | 56,1 % | 47,4 % | 44,7 % | 49,1 % | 45,1 % | 31,6 % |
| COLLIE | 99,0 % | 98,5 % | 96,9 % | 98,4 % | 96,1 % | 65,8 % | 54,6 % | 42,5 % |
[3] Merk: Vi har funnet ut at standard-evaluatoren i MultiChallenge (GPT-4o) ofte gir feil poengsum på modellsvar. Vi har funnet ut at å bytte evaluatoren til en resonnementmodell, som o3-mini, forbedrer nøyaktigheten for evalueringene betydelig på prøvene vi har inspisert.
Funksjonskall
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| Tau2-bench airline | 62,6 % | 60,0 % | 41,0 % | 64,8 % | 60,2 % | 56,0 % | 51,0 % | 14,0 % |
| Tau2-bench retail | 81,1 % | 78,3 % | 62,3 % | 80,2 % | 70,5 % | 74,0 % | 66,0 % | 21,5 % |
| Tau2-bench telecom | 96,7 % | 74,1 % | 35,5 % | 58,2 % | 40,5 % | 34,0 % | 44,0 % | 12,1 % |
Lang kontekst
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| OpenAI-MRCR: 2 needle 128k | 95,2 % | 84,3 % | 43,2 % | 55,0 % | 56,4 % | 57,2 % | 47,2 % | 36,6 % |
| OpenAI-MRCR: 2 needle 256k | 86,8 % | 58,8 % | 34,9 % | - | - | 56,2 % | 45,5 % | 22,6 % |
| Graphwalks bfs <128k | 78,3 % | 73,4 % | 64,0 % | 77,3 % | 62,3 % | 61,7 % | 61,7 % | 25,0 % |
| Graphwalks parents <128k | 73,3 % | 64,3 % | 43,8 % | 72,9 % | 51,1 % | 58,0 % | 60,5 % | 9,4 % |
| BrowseComp Long Context 128k | 90,0 % | 89,4 % | 80,4 % | 88,3 % | 80,0 % | 85,9 % | 89,0 % | 89,4 % |
| BrowseComp Long Context 256k | 88,8 % | 86,0 % | 68,4 % | - | - | 75,5 % | 81,6 % | 19,1 % |
| VideoMME(long, with subtitle category) | 86,7 % | 78,5 % | 65,7 % | 84,9 % | 79,5 % | 78,7 % | 68,4 % | 55,2 % |
Hallusinasjoner
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| LongFact-Concepts hallucination rate(no tools)[lower is better] | 1,0 % | 0,7 % | 1,0 % | 5,2 % | 3,0 % | 0,7 % | 1,1 % | - |
| LongFact-Objects hallucination rate(no tools)[lower is better] | 1,2 % | 1,3 % | 2,8 % | 6,8 % | 8,9 % | 1,1 % | 1,8 % | - |
| FActScore hallucination rate(no tools)[lower is better] | 2,8 % | 3,5 % | 7,3 % | 23,5 % | 38,7 % | 6,7 % | 10,9 % | - |


