Vi lancerer i dag GPT‑5 på vores API-platform – vores hidtil bedste model til kodningsopgaver og agentiske opgaver.
GPT‑5 får topresultater på vigtige benchmarks for kodning, med 74,9 % på SWE-bench Verified og 88 % på Aider polyglot. Vi har trænet GPT‑5 til at være en sand kodningspartner. Den er overlegen, når det kommer til at producere kode af høj kvalitet og til at håndtere opgaver som f.eks. at løse problemer, redigere kode og besvare spørgsmål om komplekse kodebaser. Modellen er styrbar og samarbejdende – den kan følge meget detaljerede instruktioner med høj nøjagtighed og kan give direkte forklaringer på dens handlinger før og mellem værktøjskald. Modellen udmærker sig også til frontend-kodning, og slår OpenAI o3 ved frontend-webudvikling i 70 % af tilfældene ved intern testning.
Vi har trænet GPT‑5 på rigtige kodningsopgaver i samarbejde med tidligere testere på tværs af nyopstartede og etablerede virksomheder. Cursor siger, at GPT‑5 er "den smarteste model, [de] har brugt" og "bemærkelsesværdig intelligent, nem at styre, og sågar med en personlighed, [de] ikke har set i andre modeller." Windsurf har meddelt, at GPT‑5 får topresultater under deres evalueringer og "har halveret fejlprocenten ved værktøjskald sammenlignet med andre banebrydende modeller." Vercel siger, at "det er den bedste frontend-AI-model, og den når topydeevne inden for æstetik og kodekvalitet, hvilket sætter den i egen kategori."
GPT‑5 udmærker sig også ved langvarige agentiske opgaver og opnår topresultater på τ2-bench telecom (96,7 %), som er et benchmark for værktøjskald, der blev lanceret for blot 2 måneder siden. GPT‑5’s forbedrede værktøjsintelligens lader den på pålidelig vis sammenkæde dusinvis af værktøjskald – både i sekvens og parallelt – uden at miste vejen, hvilket gør den meget bedre til at udføre komplekse, virkelige opgaver fra ende til ende. Den følger også værktøjsinstruktioner mere præcist, er bedre til at håndtere værktøjsfejl og udmærker sig ved hentning af indhold med lang kontekst. Manus siger, at GPT‑5 "opnåede den bedste ydeevne, [de] nogensinde har set fra en enkelt model på [deres] interne benchmarks." Notion siger "[modellens] hurtige svar, særligt i tilstand med lav avanceret tænkning, gør GPT‑5 til en ideel model, når du behøver komplekse opgaver løst på én gang." Inditex siger, at "det, der virkelig får [GPT‑5] til at skille sig ud, er dybden af dens avancerede tænkning: nuancerede svar med flere lag, der afspejler sand forståelse af emnet."
Vi introducerer nye funktioner i vores API for at give udviklere mere kontrol over modelsvar. GPT‑5 understøtter et nyt verbositet-parameter (værdier: lav, medium, høj) som hjælp til at kontrollere, om svarene er korte og præcise eller lange og omfattende. GPT‑5’s reasoning_effort-parameter kan nu anvende en minimal værdi for at få svar hurtigere uden omfattende avanceret tænkning først. Vi har også tilføjet en ny værktøjstype – brugerdefinerede værktøjer – for at give GPT‑5 mulighed for at foretage opkald til værktøjer med almindelig tekst i stedet for JSON. Brugerdefinerede værktøjer understøtter begrænsning gennem kontekstfri grammatik leveret af udvikleren.
Vi udgiver GPT‑5 i tre størrelser i API'en – gpt-5, gpt-5-mini og gpt-5-nano – for at give udviklere mere fleksibilitet, når det kommer til at afbalancere ydeevne, omkostninger og latens. Mens GPT‑5 i ChatGPT er et system med avanceret tænkning, uden avanceret tænkning og routermodeller, så er GPT‑5 på API-platformen modellen for avanceret tænkning, der muliggør maksimal ydeevne i ChatGPT. Det er værd at bemærke, at GPT‑5 med minimal avanceret tænkning er en anden model end modellen uden avanceret tænkning i ChatGPT, og den er bedre justeret til udviklere. Modellen uden avanceret tænkning, der anvendes i ChatGPT, er tilgængelig som gpt-5-chat-latest.
For at læse mere om GPT‑5 i ChatGPT og lære mere om andre ChatGPT‑forbedringer kan du se vores researchblog. For ydeligere oplysninger om, hvor begejstrede virksomheder er for at bruge GPT‑5, kan du se vores virksomhedsblog.
GPT‑5 er den stærkeste kodningsmodel, vi har udgivet. Den klarer sig bedre end o3 på tværs af kodnings-benchmarks og use cases fra den virkelige verden, og den er blevet finjusteret til at være fremragende i agentiske kodningsprodukter som f.eks. Cursor, Windsurf, GitHub Copilot og Codex CLI. GPT‑5 har imponeret vores alfatestere og satte rekorder i mange af deres private, interne evalueringer.
Tidlig feedback om GPT‑5 vedrørende rigtige kodningsopgaver
"GPT-5 er den smarteste kodningsmodel, vi har brugt. Vores team har fundet, at GPT-5 er bemærkelsesværdig intelligent, nem at styre, og den har sågar en personlighed, vi ikke har set i nogen anden model. Den løser ikke kun besværlige, godt skjulte fejl, men kan også køre lange baggrundsagenter med flere ture for at fuldføre komplekse opgaver – den slags problemer, hvor andre modeller normalt satte sig fast. Den er blevet vores daglige værktøj til alt lige fra angivelse af omfang og planlægning af PR'er til fuldførelse af end-to-end-versioner."
På SWE-bench Verified, som er en evaluering baseret på virkelige softwaretekniske opgaver, opnår GPT‑5 74,9 %, som er en stigning fra 69,1 % for o3. Det er bemærkelsesværdigt, at GPT‑5 opnår sin høje score med større effektivitet og hastighed: Sammenlignet med o3 ved høj ræsonneringsindsats bruger GPT‑5 22 % færre output-tokens og 45 % færre værktøjskald.
I SWE-bench Verified får en model et kodelager og en problembeskrivelse og skal generere en programrettelse for at løse problemet. Tekstetiketter angiver niveauet for avanceret tænkning. Vores scorer udelader 23 af 500 problemer, hvis løsninger ikke på pålidelig vis bestod på vores infrastruktur. GPT‑5 fik en kort forespørgsel, der lagde vægt på grundig verificering af løsninger. Denne samme forespørgsel var ikke til fordel for o3.
På Aider polyglot, som er en evaluering af koderedigering, sætter GPT‑5 en ny rekord på 88 % – en reduktion i fejlrate på en tredjedel sammenlignet med o3.
I Aider polygot(åbner i et nyt vindue) (diff) får en model en kodningsøvelse fra Exercism og skal skrive dens løsning som en kodediff. Ræsonneringsmodeller blev kørt med højt niveau af avanceret tænkning.
Vi har også fundet, at GPT‑5 er fortrinlig til at grave dybt ned i kodebaser for at besvare spørgsmål om, hvordan forskellige emner fungerer eller samspiller med hinanden. I en kodebase, der er så kompliceret som OpenAI’s stak for forstærkende læring, finder vi, at GPT‑5 kan hjælpe os med at ræsonnere omkring og besvare spørgsmål om vores kode, hvilket fremskynder vores daglige arbejde.
Når det kommer til at producere frontend-kode for webapps, er GPT‑5 mere æstetisk, ambitiøs og nøjagtig. I sammenligninger side om side med o3 var GPT‑5 foretrukket af vores testere i 70 % af tilfældene.
Her er nogle sjove, udvalgte eksempler på, hvad GPT‑5 kan gøre med en enkelt forespørgsel:
Prompt: Please generate a beautiful, realistic landing page for a service that provides the ultimate coffee enthusiast a $200/month subscription that provides equipment rental and coaching for coffee roasting and creating the ultimate espresso. The target audience is a bay area middle-aged person who might work in tech and is educated, has disposable income, and is passionate about the art and science of coffee. Optimize for conversion for a 6 month signup.
Se flere eksempler på GPT‑5 i vores galleri her(åbner i et nyt vindue).
GPT‑5 er en bedre samarbejdspartner, særligt i agentiske kodningsprodukter som f.eks. Cursor, Windsurf, GitHub Copilot og Codex CLI. Mens den arbejder, kan GPT‑5 udsende planer, opdateringer og sammenfatninger mellem værktøjskald. I forhold til vores tidligere modeller er GPT‑5 mere proaktiv, når det kommer til at fuldføre ambitiøse opgaver uden at vente på klarsignal fra dig eller stoppe pludseligt ved høj kompleksitet.
Her er et eksempel på, hvordan GPT‑5 kan se ud, mens den håndterer en kompleks opgave (i dette tilfælde at oprette et website for en restaurant):
Når brugeren har bedt om et website til sin restaurant, deler GPT‑5 en hurtig plan, opsætter appen, installerer afhængigheder, skaber siteindholdet, kører en version for at kontrollere for kompileringsfejl, sammenfatter dens arbejde og foreslår potentielle næste trin. Hastigheden af denne video er blevet øget ~3x, så du ikke skal vente. Det tog cirka tre minutter at skabe websitet.
Udover agentisk kodning er GPT‑5 bedre til agentiske opgaver generelt. GPT‑5 sætter nye rekorder på benchmarks for instruktionsfølgning (69,6 % på Scale MultiChallenge, bedømt af o3‑mini) og værktøjskald (96,7 % på τ2-bench telecom). Forbedret værktøjsintelligens gør, at GPT‑5 mere pålideligt kan sammenkæde handlinger for at udføre virkelige opgaver.
Tidlig feedback på GPT‑5 for agentiske opgaver
"GPT-5 er en klar forbedring. Den opnåede den bedste ydeevne, vi nogensinde har set fra en enkelt model på vores interne benchmarks. GPT-5 udmærkede sig på tværs af forskellige agentiske opgaver – selv før vi justerede en enkelt kodelinje eller tilpassede en forespørgsel. De nye indledninger og mere præcis kontrol over værktøjsbrug muliggjorde et betydeligt fremskridt inden for stabiliteten og styrbarheden af vores agenter."
GPT‑5 følger instruktioner mere pålideligt end nogle af dens forgængere og scorer højt på COLLIE, Scale MultiChallenge og vores interne evaluering af instruktionsfølgning.
I COLLIE(åbner i et nyt vindue) skal modeller skrive tekst, der overholder forskellige begrænsninger. I Scale MultiChallenge(åbner i et nyt vindue) udfordres modeller i samtaler med flere ture for at bruge fire typer oplysninger fra tidligere beskeder på korrekt vis. Vores scorer kommer fra brug af o3‑mini som en evaluator, hvilket var mere nøjagtig end GPT‑4o. I vores interne OpenAI API-instruktion efter evaluering skal modeller følge svære instruktioner hentet fra rigtig feedback fra udviklere. Ræsonneringsmodeller blev kørt med højt niveau af avanceret tænkning.
Vi har arbejdet hårdt på at forbedre værktøjskald på måder, der betyder noget for udviklere. GPT‑5 er bedre til at følge værktøjsinstruktioner, bedre til at håndtere værktøjsfejl og bedre til proaktivt at foretage mange værktøjskald i sekvens eller parallelt. Når GPT‑5 bliver instrueret til det, kan den også udsende indledningsbeskeder før og mellem værktøjskald for at opdatere brugere om statussen under længere agentiske opgaver.
For to måneder siden blev τ2-bench telecom udgivet af Sierra.ai, som et udfordrende benchmark for værktøjsbrug, der fremhævede, hvordan effektiviteten af sprogmodeller falder væsentligt, når de interagerer med en miljøtilstand, der kan ændres af brugere. I deres udgivelse(åbner i et nyt vindue) scorede ingen model over 49 %. GPT‑5 scorer 97 %.
I τ2-bench(åbner i et nyt vindue) skal en model bruge værktøjer til at udføre en kundeserviceopgave, hvor der kan være en bruger, som kan kommunikere og skride til handling baseret på verdens tilstand. Ræsonneringsmodeller blev kørt med højt niveau af avanceret tænkning.
GPT‑5 viser også stærke forbedringer af ydeevnen i forbindelse med lang kontekst. På OpenAI-MRCR, som er en måling af hentning af information med lang kontekst, klarer GPT‑5 sig bedre end o3 og GPT‑4.1 med en margin, der øges betydeligt ved længere inputlængder.
I OpenAI-MRCR(åbner i et nyt vindue) (multi-round co-reference resolution), indføjes flere identiske "nåleanmodninger" fra brugere i lange "høstakke" af lignende anmodninger og svar, og modellen bliver bedt om at gengive svaret til den i'te nål. Gennemsnitligt matchforhold måler det gennemsnitligt strengmatchforhold mellem modellens svar og det korrekte svar. Pointene ved 256.000 maks. input-tokens repræsenterer gennemsnit over 128.000-256.000 input-tokens osv. Her repræsenterer 256.000 256 * 1.024 = 262.114 tokens. Ræsonneringsmodeller blev kørt med højt niveau af avanceret tænkning.
Vi bruger også åben kildekode for BrowseComp Long Context(åbner i et nyt vindue), som er et nyt benchmark til at evaluere spørgsmål og svar med lang kontekst. I dette benchmark får modellen en brugerforespørgsel, en lang liste over relevante søgeresultater og skal bevare spørgsmål baseret på søgeresultaterne. Vi har designet BrowseComp Long Context til at være realistisk, svær og til at have pålidelige, korrekte svar. På inputs, der er på 128.000-256.000 tokens, giver GPT‑5 det rette svar 89 % af gangene.
I API'en kan alle GPT‑5‑modeller acceptere maksimalt 272.000 input-tokens og udsende maksimalt 128.000 avanceret tænknings- og output-tokens for en samlet kontekstlængde på 400.000 tokens.
GPT‑5 er mere troværdig end vores tidligere modeller. På forespørgsler fra LongFact- og FactScore-benchmarks foretager GPT‑5 ~80 % færre faktuelle fejl end o3. Dette gør den bedre egnet til agentiske use cases, hvor korrekthed er vigtig – særligt når det kommer til kode, data og beslutningstagning.
Højere scorer er værre. LongFact(åbner i et nyt vindue) og FActScore(åbner i et nyt vindue) består af åbne faktasøgende spørgsmål. Vi bruger en LLM-baseret evaluator med browsing til at faktatjekke svar på forespørgsler fra disse benchmarks og måle andelen af faktuelle forkerte påstande. Oplysninger om implementering og bedømmelse kan findes i systemkortet. Ræsonneringsmodeller brugte højt niveau af avanceret tænkning. Søgning var ikke aktiveret.
Generelt er GPT‑5 blevet trænet til at være mere selvbevidst om sine egne begrænsninger og bedre til at håndtere uventede udfordringer. Vi har også trænet GPT‑5 til at være meget mere nøjagtig, når det kommer til helbredsspørgsmål (læs mere i vores researchblog). Som med alle sprogmodeller anbefaler vi, at du verificerer GPT‑5’s arbejde, når det gælder noget vigtigt.
Udviklere kan kontrollere GPT‑5’s tænketid via parameteret reasoning_effort i API'en. Udover de tidligere værdier – lav, medium (standard) og høj – understøtter GPT‑5 også minimal, som minimerer GPT‑5’s avancerede tænkning for at give et hurtigt svar.
Højere værdier for reasoning_effort maksimerer kvaliteten, og lavere værdier maksimerer hastigheden. Ikke alle opgaver drager lige fordel af yderligere avanceret tænkning, så vi anbefaler, at du eksperimenterer for at se, hvad der fungerer bedst for de use cases, du interesserer dig for.
For eksempel føjer avanceret tænkning over lav lidt til relativ simpel hentning af lang kontekst, men føjer en del procentpoint til CharXiv Reasoning(åbner i et nyt vindue), som er et benchmark for visuelt avanceret tænkning.
GPT‑5’s ræsonneringsindsats giver forskellige fordele på forskellige opgaver. For CharXiv-ræsonnering fik GPT‑5 adgang til et python-værktøj.
Som hjælp til at styre standardlængden af GPT‑5’s svar har vi introduceret et nyt API-parameter, verbosity, som bruger værdierne lav, medium (standard) og høj. Hvis udtrykkelige instruktioner er i konflikt med verbosity-parametrene, kan udtrykkelige instruktioner have forrang. Hvis du f.eks. beder GPT‑5 om at "skrive en stil på 5 afsnit", bør modellens svar altid være 5 afsnit, uanset verbosity-niveauet (selve afsnittene kan dog være længere eller kortere).
Verbosity=low
Verbosity=medium
Verbosity=high
Hvis GPT‑5 instrueres til det, vil den udsende indledningsbeskeder, der er synlige for brugere, før og mellem værktøjskald. I modsætning til skjulte beskeder om avanceret tænkning giver GPT‑5 mulighed for at kommunikere planer og status til brugeren og hjælper brugeren med at forstå dens tilgang og hensigt bag værktøjskaldene.
Vi introducerer en ny værktøjstype – brugerdefinerede værktøjer – der gør det muligt for GPT‑5 at foretage opkald til et værktøj med almindelig tekst i stedet for JSON. For at begrænse GPT‑5 til at følge brugerdefinerede værktøjsformater kan udviklere angive et almindeligt udtryk eller sågar en mere fuldt specificeret kontekstfri grammatik(åbner i et nyt vindue).
Tidligere krævede vores grænseflade for udviklerdefinerede værktøjer, at opkald blev foretaget med JSON, som er et almindeligt format, der anvendes af web-API'er og udviklere generelt. Udsendelse af gyldigt JSON kræver dog, at modellen på perfekt vis kan håndtere citationstegn, bagstreger, nye linjer og andre kontroltegn. Selvom vores modeller er godt trænede til at udsende JSON, så øges chancerne for fejl på lange inputs som f.eks. hundredvis af linjer med kode eller en rapport på 5 sider. Med brugerdefinerede værktøjer kan GPT‑5 skrive værktøjsinputs som almindelig tekst, uden at skulle håndtere alle de tegn, der kræver særlig håndtering.
På SWE-bench Verified, der bruger brugerdefinerede værktøjer i stedet for JSON-værktøjer, scorer GPT‑5 nogenlunde det samme.
GPT‑5 gør fremskridt inden for sikkerhed og er en mere robust, pålidelig og nyttig model. Der er væsentlig mindre sandsynlighed for, at GPT‑5 hallucinerer sammenlignet med vores tidligere modeller. Den kommunikerer mere ærligt dens handlinger og funktioner til brugerne og giver det nyttigste svar, når det er muligt, og bliver samtidigt inden for sikkerhedsgrænserne. Du kan læse mere i vores researchblog.
GPT‑5 er tilgængelig nu på API-platformen i tre størrelser: gpt-5, gpt-5-mini og gpt-5-nano. Den er tilgængelig på Responses API, Chat Completions API og er standard i Codex CLI. GPT‑5 er prissat til 1,25 USD/1 million input-tokens og 10 USD/1 million output-tokens. GPT‑5 mini er prissat til 0,25 USD/1 million input-tokens og 2 USD/1 million output-tokens, og GPT‑5 nano er prissat til 0,05 USD/1 million input-tokens og 0,40 USD/1 million output-tokens.
Disse modeller understøtter API-parametrene reasoning_effort og verbosity samt brugerdefinerede værktøjer. De understøtter også parallelt værktøjskald, indbyggede værktøjer (websøgning, filsøgning, billedgenerering med mere), kerne-API-funktioner (streaming, strukturerede outputs med mere) og prisbesparende funktioner som f.eks. cachelagring af forespørgsler og Batch API.
GPT‑5‑versionen uden avanceret tænkning, der bruges i ChatGPT, er tilgængelig i API'en som gpt-5-chat-latest og er også prissat til 1,25 USD/1 million input-tokens og 10 USD/1 million output-tokens.
GPT‑5 lanceres også på tværs af Microsoft-platforme, herunder Microsoft 365 Copilot, Copilot, GitHub Copilot og Azure AI Foundry.
Se dokumentationen(åbner i et nyt vindue) til GPT‑5, prisoplysningerne(åbner i et nyt vindue) og forespørgselsvejledningen(åbner i et nyt vindue) for at komme i gang.
Intelligens
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| AIME ’25(no tools) | 94,6 % | 91,1 % | 85,2 % | 88,9 % | 92,7 % | 46,4 % | 40,2 % | - |
| FrontierMath(with python tool only) | 26,3 % | 22,1 % | 9,6 % | 15,8 % | 15,4 % | - | - | - |
| GPQA diamond(no tools) | 85,7 % | 82,3 % | 71,2 % | 83,3 % | 81,4 % | 66,3 % | 65,0 % | 50,3 % |
| HLE[1](no tools) | 24,8 % | 16,7 % | 8,7 % | 20,2 % | 14,7 % | 5,4 % | 3,7 % | - |
| HMMT 2025(no tools) | 93,3 % | 87,8 % | 75,6 % | 81,7 % | 85,0 % | 28,9 % | 35,0 % | - |
[1] Der er en mindre uoverensstemmelse med tal rapporteret i vores tidligere blogopslag, da disse blev kørt på en tidligere version af HLE.
Multimodal
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| MMMU | 84,2 % | 81,6 % | 75,6 % | 82,9 % | 81,6 % | 74,8 % | 72,7 % | 55,4 % |
| MMMU-Pro(avg across standard and vision sets) | 78,4 % | 74,1 % | 62,6 % | 76,4 % | 73,4 % | 60,3 % | 58,9 % | 33,0 % |
| CharXiv reasoning(python enabled) | 81,1 % | 75,5 % | 62,7 % | 78,6 % | 72,0 % | 56,7 % | 56,8 % | 40,5 % |
| VideoMMMU, max frame 256 | 84,6 % | 82,5 % | 66,8 % | 83,3 % | 79,4 % | 60,9 % | 55,1 % | 30,2 % |
| ERQA | 65,7 % | 62,9 % | 50,1 % | 64,0 % | 56,5 % | 44,3 % | 42,3 % | 26,5 % |
Kodning
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| SWE-Lancer: IC SWE Diamond Freelance Coding Tasks | 112 t US$ | 75 t US$ | 49 t US$ | 86 t US$ | 66 t US$ | 34 t US$ | 31 t US$ | 9 t US$ |
| SWE-bench Verified[2] | 74,9 % | 71,0 % | 54,7 % | 69,1 % | 68,1 % | 54,6 % | 23,6 % | - |
| Aider polyglot(diff) | 88,0 % | 71,6 % | 48,4 % | 79,6 % | 58,2 % | 52,9 % | 31,6 % | 6,2 % |
[2] Vi udelod 23/500 problemer, der ikke kunne køre på vores infrastruktur. Den fulde liste over 23 udeladte opgaver er 'astropy__astropy-7606', 'astropy__astropy-8707', 'astropy__astropy-8872', 'django__django-10097', 'django__django-7530', 'matplotlib__matplotlib-20488', 'matplotlib__matplotlib-20676', 'matplotlib__matplotlib-20826', 'matplotlib__matplotlib-23299', 'matplotlib__matplotlib-24970', 'matplotlib__matplotlib-25479', 'matplotlib__matplotlib-26342', 'psf__requests-6028', 'pylint-dev__pylint-6528', 'pylint-dev__pylint-7080', 'pylint-dev__pylint-7277', 'pytest-dev__pytest-5262', 'pytest-dev__pytest-7521', 'scikit-learn__scikit-learn-12973', 'sphinx-doc__sphinx-10466', 'sphinx-doc__sphinx-7462', 'sphinx-doc__sphinx-8265', og 'sphinx-doc__sphinx-9367'.
Instruktionsfølgning
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| Scale multichallenge[3](o3-mini grader) | 69,6 % | 62,3 % | 54,9 % | 60,4 % | 57,5 % | 46,2 % | 42,2 % | 31,1 % |
| Internal API instruction following eval(hard) | 64,0 % | 65,8 % | 56,1 % | 47,4 % | 44,7 % | 49,1 % | 45,1 % | 31,6 % |
| COLLIE | 99,0 % | 98,5 % | 96,9 % | 98,4 % | 96,1 % | 65,8 % | 54,6 % | 42,5 % |
[3] Bemærk: Vi har erfaret, at den standardbedømmelse, der anvendes i MultiChallenge (GPT-4o), ofte vurderer modelsvar forkert. Vi har erfaret, at det at skifte til en ræsonneringsmodel, som for eksempel o3-mini, markant forbedrer præcisionen ved bedømmelse på de prøver, vi har gennemgået.
Funktionskald
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| Tau2-bench airline | 62,6 % | 60,0 % | 41,0 % | 64,8 % | 60,2 % | 56,0 % | 51,0 % | 14,0 % |
| Tau2-bench retail | 81,1 % | 78,3 % | 62,3 % | 80,2 % | 70,5 % | 74,0 % | 66,0 % | 21,5 % |
| Tau2-bench telecom | 96,7 % | 74,1 % | 35,5 % | 58,2 % | 40,5 % | 34,0 % | 44,0 % | 12,1 % |
Lang kontekst
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| OpenAI-MRCR: 2 needle 128k | 95,2 % | 84,3 % | 43,2 % | 55,0 % | 56,4 % | 57,2 % | 47,2 % | 36,6 % |
| OpenAI-MRCR: 2 needle 256k | 86,8 % | 58,8 % | 34,9 % | - | - | 56,2 % | 45,5 % | 22,6 % |
| Graphwalks bfs <128k | 78,3 % | 73,4 % | 64,0 % | 77,3 % | 62,3 % | 61,7 % | 61,7 % | 25,0 % |
| Graphwalks parents <128k | 73,3 % | 64,3 % | 43,8 % | 72,9 % | 51,1 % | 58,0 % | 60,5 % | 9,4 % |
| BrowseComp Long Context 128k | 90,0 % | 89,4 % | 80,4 % | 88,3 % | 80,0 % | 85,9 % | 89,0 % | 89,4 % |
| BrowseComp Long Context 256k | 88,8 % | 86,0 % | 68,4 % | - | - | 75,5 % | 81,6 % | 19,1 % |
| VideoMME(long, with subtitle category) | 86,7 % | 78,5 % | 65,7 % | 84,9 % | 79,5 % | 78,7 % | 68,4 % | 55,2 % |
Hallucinationer
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| LongFact-Concepts hallucination rate(no tools)[lower is better] | 1,0 % | 0,7 % | 1,0 % | 5,2 % | 3,0 % | 0,7 % | 1,1 % | - |
| LongFact-Objects hallucination rate(no tools)[lower is better] | 1,2 % | 1,3 % | 2,8 % | 6,8 % | 8,9 % | 1,1 % | 1,8 % | - |
| FActScore hallucination rate(no tools)[lower is better] | 2,8 % | 3,5 % | 7,3 % | 23,5 % | 38,7 % | 6,7 % | 10,9 % | - |


