Gå til hovedindhold
OpenAI

7. august 2025

Produkt

Vi præsenterer GPT‑5 for udviklere

Den bedste model til kodning og agentiske opgaver.

Indlæser ...

Introduktion

Vi lancerer i dag GPT‑5 på vores API-platform – vores hidtil bedste model til kodningsopgaver og agentiske opgaver.

GPT‑5 får topresultater på vigtige benchmarks for kodning, med 74,9 % på SWE-bench Verified og 88 % på Aider polyglot. Vi har trænet GPT‑5 til at være en sand kodningspartner. Den er overlegen, når det kommer til at producere kode af høj kvalitet og til at håndtere opgaver som f.eks. at løse problemer, redigere kode og besvare spørgsmål om komplekse kodebaser. Modellen er styrbar og samarbejdende – den kan følge meget detaljerede instruktioner med høj nøjagtighed og kan give direkte forklaringer på dens handlinger før og mellem værktøjskald.  Modellen udmærker sig også til frontend-kodning, og slår OpenAI o3 ved frontend-webudvikling i 70 % af tilfældene ved intern testning.

Vi har trænet GPT‑5 på rigtige kodningsopgaver i samarbejde med tidligere testere på tværs af nyopstartede og etablerede virksomheder. Cursor siger, at GPT‑5 er "den smarteste model, [de] har brugt" og "bemærkelsesværdig intelligent, nem at styre, og sågar med en personlighed, [de] ikke har set i andre modeller." Windsurf har meddelt, at GPT‑5 får topresultater under deres evalueringer og "har halveret fejlprocenten ved værktøjskald sammenlignet med andre banebrydende modeller." Vercel siger, at "det er den bedste frontend-AI-model, og den når topydeevne inden for æstetik og kodekvalitet, hvilket sætter den i egen kategori."

GPT‑5 udmærker sig også ved langvarige agentiske opgaver og opnår topresultater på τ2-bench telecom (96,7 %), som er et benchmark for værktøjskald, der blev lanceret for blot 2 måneder siden. GPT‑5’s forbedrede værktøjsintelligens lader den på pålidelig vis sammenkæde dusinvis af værktøjskald – både i sekvens og parallelt – uden at miste vejen, hvilket gør den meget bedre til at udføre komplekse, virkelige opgaver fra ende til ende. Den følger også værktøjsinstruktioner mere præcist, er bedre til at håndtere værktøjsfejl og udmærker sig ved hentning af indhold med lang kontekst. Manus siger, at GPT‑5 "opnåede den bedste ydeevne, [de] nogensinde har set fra en enkelt model på [deres] interne benchmarks." Notion siger "[modellens] hurtige svar, særligt i tilstand med lav avanceret tænkning, gør GPT‑5 til en ideel model, når du behøver komplekse opgaver løst på én gang." Inditex siger, at "det, der virkelig får [GPT‑5] til at skille sig ud, er dybden af dens avancerede tænkning: nuancerede svar med flere lag, der afspejler sand forståelse af emnet."

Vi introducerer nye funktioner i vores API for at give udviklere mere kontrol over modelsvar. GPT‑5 understøtter et nyt verbositet-parameter (værdier: lav, medium, høj) som hjælp til at kontrollere, om svarene er korte og præcise eller lange og omfattende. GPT‑5’s reasoning_effort-parameter kan nu anvende en minimal værdi for at få svar hurtigere uden omfattende avanceret tænkning først. Vi har også tilføjet en ny værktøjstype – brugerdefinerede værktøjer – for at give GPT‑5 mulighed for at foretage opkald til værktøjer med almindelig tekst i stedet for JSON. Brugerdefinerede værktøjer understøtter begrænsning gennem kontekstfri grammatik leveret af udvikleren.

Vi udgiver GPT‑5 i tre størrelser i API'en – gpt-5, gpt-5-mini og gpt-5-nano – for at give udviklere mere fleksibilitet, når det kommer til at afbalancere ydeevne, omkostninger og latens. Mens GPT‑5 i ChatGPT er et system med avanceret tænkning, uden avanceret tænkning og routermodeller, så er GPT‑5 på API-platformen modellen for avanceret tænkning, der muliggør maksimal ydeevne i ChatGPT. Det er værd at bemærke, at GPT‑5 med minimal avanceret tænkning er en anden model end modellen uden avanceret tænkning i ChatGPT, og den er bedre justeret til udviklere. Modellen uden avanceret tænkning, der anvendes i ChatGPT, er tilgængelig som gpt-5-chat-latest.

For at læse mere om GPT‑5 i ChatGPT og lære mere om andre ChatGPT‑forbedringer kan du se vores researchblog. For ydeligere oplysninger om, hvor begejstrede virksomheder er for at bruge GPT‑5, kan du se vores virksomhedsblog.

Kodning

GPT‑5 er den stærkeste kodningsmodel, vi har udgivet. Den klarer sig bedre end o3 på tværs af kodnings-benchmarks og use cases fra den virkelige verden, og den er blevet finjusteret til at være fremragende i agentiske kodningsprodukter som f.eks. Cursor, Windsurf, GitHub Copilot og Codex CLI. GPT‑5 har imponeret vores alfatestere og satte rekorder i mange af deres private, interne evalueringer. 

Tidlig feedback om GPT‑5 vedrørende rigtige kodningsopgaver

"GPT-5 er den smarteste kodningsmodel, vi har brugt. Vores team har fundet, at GPT-5 er bemærkelsesværdig intelligent, nem at styre, og den har sågar en personlighed, vi ikke har set i nogen anden model. Den løser ikke kun besværlige, godt skjulte fejl, men kan også køre lange baggrundsagenter med flere ture for at fuldføre komplekse opgaver – den slags problemer, hvor andre modeller normalt satte sig fast. Den er blevet vores daglige værktøj til alt lige fra angivelse af omfang og planlægning af PR'er til fuldførelse af end-to-end-versioner."
Michael Truell, medstifter og administrerende direktør hos Cursor

På SWE-bench Verified, som er en evaluering baseret på virkelige softwaretekniske opgaver, opnår GPT‑5 74,9 %, som er en stigning fra 69,1 % for o3. Det er bemærkelsesværdigt, at GPT‑5 opnår sin høje score med større effektivitet og hastighed: Sammenlignet med o3 ved høj ræsonneringsindsats bruger GPT‑5 22 % færre output-tokens og 45 % færre værktøjskald.

I SWE-bench Verified får en model et kodelager og en problembeskrivelse og skal generere en programrettelse for at løse problemet. Tekstetiketter angiver niveauet for avanceret tænkning. Vores scorer udelader 23 af 500 problemer, hvis løsninger ikke på pålidelig vis bestod på vores infrastruktur. GPT‑5 fik en kort forespørgsel, der lagde vægt på grundig verificering af løsninger. Denne samme forespørgsel var ikke til fordel for o3.

På Aider polyglot, som er en evaluering af koderedigering, sætter GPT‑5 en ny rekord på 88 % – en reduktion i fejlrate på en tredjedel sammenlignet med o3.

I Aider polygot(åbner i et nyt vindue) (diff) får en model en kodningsøvelse fra Exercism og skal skrive dens løsning som en kodediff. Ræsonneringsmodeller blev kørt med højt niveau af avanceret tænkning.

Vi har også fundet, at GPT‑5 er fortrinlig til at grave dybt ned i kodebaser for at besvare spørgsmål om, hvordan forskellige emner fungerer eller samspiller med hinanden. I en kodebase, der er så kompliceret som OpenAI’s stak for forstærkende læring, finder vi, at GPT‑5 kan hjælpe os med at ræsonnere omkring og besvare spørgsmål om vores kode, hvilket fremskynder vores daglige arbejde. 

Frontend-udvikling

Når det kommer til at producere frontend-kode for webapps, er GPT‑5 mere æstetisk, ambitiøs og nøjagtig. I sammenligninger side om side med o3 var GPT‑5 foretrukket af vores testere i 70 % af tilfældene.

Her er nogle sjove, udvalgte eksempler på, hvad GPT‑5 kan gøre med en enkelt forespørgsel:

Prompt: Please generate a beautiful, realistic landing page for a service that provides the ultimate coffee enthusiast a $200/month subscription that provides equipment rental and coaching for coffee roasting and creating the ultimate espresso. The target audience is a bay area middle-aged person who might work in tech and is educated, has disposable income, and is passionate about the art and science of coffee. Optimize for conversion for a 6 month signup.

Se flere eksempler på GPT‑5 i vores galleri her(åbner i et nyt vindue).

Kodningssamarbejde

GPT‑5 er en bedre samarbejdspartner, særligt i agentiske kodningsprodukter som f.eks. Cursor, Windsurf, GitHub Copilot og Codex CLI. Mens den arbejder, kan GPT‑5 udsende planer, opdateringer og sammenfatninger mellem værktøjskald. I forhold til vores tidligere modeller er GPT‑5 mere proaktiv, når det kommer til at fuldføre ambitiøse opgaver uden at vente på klarsignal fra dig eller stoppe pludseligt ved høj kompleksitet.

Her er et eksempel på, hvordan GPT‑5 kan se ud, mens den håndterer en kompleks opgave (i dette tilfælde at oprette et website for en restaurant):

Når brugeren har bedt om et website til sin restaurant, deler GPT‑5 en hurtig plan, opsætter appen, installerer afhængigheder, skaber siteindholdet, kører en version for at kontrollere for kompileringsfejl, sammenfatter dens arbejde og foreslår potentielle næste trin. Hastigheden af denne video er blevet øget ~3x, så du ikke skal vente. Det tog cirka tre minutter at skabe websitet.

Agentiske opgaver

Udover agentisk kodning er GPT‑5 bedre til agentiske opgaver generelt. GPT‑5 sætter nye rekorder på benchmarks for instruktionsfølgning (69,6 % på Scale MultiChallenge, bedømt af o3‑mini) og værktøjskald (96,7 % på τ2-bench telecom). Forbedret værktøjsintelligens gør, at GPT‑5 mere pålideligt kan sammenkæde handlinger for at udføre virkelige opgaver.

Tidlig feedback på GPT‑5 for agentiske opgaver

"GPT-5 er en klar forbedring. Den opnåede den bedste ydeevne, vi nogensinde har set fra en enkelt model på vores interne benchmarks. GPT-5 udmærkede sig på tværs af forskellige agentiske opgaver – selv før vi justerede en enkelt kodelinje eller tilpassede en forespørgsel. De nye indledninger og mere præcis kontrol over værktøjsbrug muliggjorde et betydeligt fremskridt inden for stabiliteten og styrbarheden af vores agenter."
Yichao "Peak" Ji, medstifter og chefforsker hos Manus

Instruktionsfølgning

GPT‑5 følger instruktioner mere pålideligt end nogle af dens forgængere og scorer højt på COLLIE, Scale MultiChallenge og vores interne evaluering af instruktionsfølgning.

I COLLIE(åbner i et nyt vindue) skal modeller skrive tekst, der overholder forskellige begrænsninger. I Scale MultiChallenge(åbner i et nyt vindue) udfordres modeller i samtaler med flere ture for at bruge fire typer oplysninger fra tidligere beskeder på korrekt vis. Vores scorer kommer fra brug af o3‑mini som en evaluator, hvilket var mere nøjagtig end GPT‑4o. I vores interne OpenAI API-instruktion efter evaluering skal modeller følge svære instruktioner hentet fra rigtig feedback fra udviklere. Ræsonneringsmodeller blev kørt med højt niveau af avanceret tænkning.

Værktøjskald

Vi har arbejdet hårdt på at forbedre værktøjskald på måder, der betyder noget for udviklere. GPT‑5 er bedre til at følge værktøjsinstruktioner, bedre til at håndtere værktøjsfejl og bedre til proaktivt at foretage mange værktøjskald i sekvens eller parallelt. Når GPT‑5 bliver instrueret til det, kan den også udsende indledningsbeskeder før og mellem værktøjskald for at opdatere brugere om statussen under længere agentiske opgaver.

For to måneder siden blev τ2-bench telecom udgivet af Sierra.ai, som et udfordrende benchmark for værktøjsbrug, der fremhævede, hvordan effektiviteten af sprogmodeller falder væsentligt, når de interagerer med en miljøtilstand, der kan ændres af brugere. I deres udgivelse(åbner i et nyt vindue) scorede ingen model over 49 %. GPT‑5 scorer 97 %.

I τ2-bench(åbner i et nyt vindue) skal en model bruge værktøjer til at udføre en kundeserviceopgave, hvor der kan være en bruger, som kan kommunikere og skride til handling baseret på verdens tilstand. Ræsonneringsmodeller blev kørt med højt niveau af avanceret tænkning.

GPT‑5 viser også stærke forbedringer af ydeevnen i forbindelse med lang kontekst. På OpenAI-MRCR, som er en måling af hentning af information med lang kontekst, klarer GPT‑5 sig bedre end o3 og GPT‑4.1 med en margin, der øges betydeligt ved længere inputlængder.

I OpenAI-MRCR(åbner i et nyt vindue) (multi-round co-reference resolution), indføjes flere identiske "nåleanmodninger" fra brugere i lange "høstakke" af lignende anmodninger og svar, og modellen bliver bedt om at gengive svaret til den i'te nål. Gennemsnitligt matchforhold måler det gennemsnitligt strengmatchforhold mellem modellens svar og det korrekte svar. Pointene ved 256.000 maks. input-tokens repræsenterer gennemsnit over 128.000-256.000 input-tokens osv. Her repræsenterer 256.000 256 * 1.024 = 262.114 tokens. Ræsonneringsmodeller blev kørt med højt niveau af avanceret tænkning.

Vi bruger også åben kildekode for BrowseComp Long Context(åbner i et nyt vindue), som er et nyt benchmark til at evaluere spørgsmål og svar med lang kontekst. I dette benchmark får modellen en brugerforespørgsel, en lang liste over relevante søgeresultater og skal bevare spørgsmål baseret på søgeresultaterne. Vi har designet BrowseComp Long Context til at være realistisk, svær og til at have pålidelige, korrekte svar. På inputs, der er på 128.000-256.000 tokens, giver GPT‑5 det rette svar 89 % af gangene.

I API'en kan alle GPT‑5‑modeller acceptere maksimalt 272.000 input-tokens og udsende maksimalt 128.000 avanceret tænknings- og output-tokens for en samlet kontekstlængde på 400.000 tokens.

Saglighed

GPT‑5 er mere troværdig end vores tidligere modeller. På forespørgsler fra LongFact- og FactScore-benchmarks foretager GPT‑5 ~80 % færre faktuelle fejl end o3. Dette gør den bedre egnet til agentiske use cases, hvor korrekthed er vigtig – særligt når det kommer til kode, data og beslutningstagning.

Højere scorer er værre. LongFact(åbner i et nyt vindue) og FActScore(åbner i et nyt vindue) består af åbne faktasøgende spørgsmål. Vi bruger en LLM-baseret evaluator med browsing til at faktatjekke svar på forespørgsler fra disse benchmarks og måle andelen af faktuelle forkerte påstande. Oplysninger om implementering og bedømmelse kan findes i systemkortet. Ræsonneringsmodeller brugte højt niveau af avanceret tænkning. Søgning var ikke aktiveret.

Generelt er GPT‑5 blevet trænet til at være mere selvbevidst om sine egne begrænsninger og bedre til at håndtere uventede udfordringer. Vi har også trænet GPT‑5 til at være meget mere nøjagtig, når det kommer til helbredsspørgsmål (læs mere i vores researchblog). Som med alle sprogmodeller anbefaler vi, at du verificerer GPT‑5’s arbejde, når det gælder noget vigtigt.

Nye funktioner

Minimal indsats i forbindelse med avanceret tænkning

Udviklere kan kontrollere GPT‑5’s tænketid via parameteret reasoning_effort i API'en. Udover de tidligere værdier – lav, medium (standard) og høj – understøtter GPT‑5 også minimal, som minimerer GPT‑5’s avancerede tænkning for at give et hurtigt svar.

Højere værdier for reasoning_effort maksimerer kvaliteten, og lavere værdier maksimerer hastigheden. Ikke alle opgaver drager lige fordel af yderligere avanceret tænkning, så vi anbefaler, at du eksperimenterer for at se, hvad der fungerer bedst for de use cases, du interesserer dig for.

For eksempel føjer avanceret tænkning over lav lidt til relativ simpel hentning af lang kontekst, men føjer en del procentpoint til CharXiv Reasoning(åbner i et nyt vindue), som er et benchmark for visuelt avanceret tænkning.

GPT‑5’s ræsonneringsindsats giver forskellige fordele på forskellige opgaver. For CharXiv-ræsonnering fik GPT‑5 adgang til et python-værktøj.

Verbosity

Som hjælp til at styre standardlængden af GPT‑5’s svar har vi introduceret et nyt API-parameter, verbosity, som bruger værdierne lav, medium (standard) og høj. Hvis udtrykkelige instruktioner er i konflikt med verbosity-parametrene, kan udtrykkelige instruktioner have forrang. Hvis du f.eks. beder GPT‑5 om at "skrive en stil på 5 afsnit", bør modellens svar altid være 5 afsnit, uanset verbosity-niveauet (selve afsnittene kan dog være længere eller kortere).

Verbosity=low

Why is the sky blue?

Because of Rayleigh scattering. Air molecules are much smaller than the wavelength of visible light, so they scatter short wavelengths (blue/violet) far more than long ones (red). The scattered blue light comes to your eyes from all directions, making the sky look blue. We don’t see violet as much because the Sun emits less of it, our eyes are less sensitive to it, and some is absorbed in the upper atmosphere. At sunrise and sunset, the longer path through air removes more blue, leaving the sky reddish.

Verbosity=medium

Why is the sky blue?

Because of Rayleigh scattering. Sunlight contains all colors, but air molecules scatter shorter wavelengths (blue/violet) much more strongly than longer wavelengths (red). The scattering strength goes roughly as 1/(wavelength)^4, so blue light gets redirected across the sky and into your eyes.

We don’t see a violet sky because:

  • The Sun emits slightly less violet than blue.
  • The upper atmosphere absorbs some violet/UV.
  • Human eyes are less sensitive to violet.

At sunrise and sunset, sunlight passes through more atmosphere, scattering out most of the blues along the way and leaving the longer red/orange wavelengths to dominate.

Verbosity=high

Why is the sky blue?

The sky looks blue because sunlight gets scattered by the tiny molecules in Earth’s atmosphere. This process is called Rayleigh scattering.

Key points:

  • Sunlight is made of many colors (wavelengths). Shorter wavelengths, like violet and blue, are scattered much more strongly by air molecules than longer wavelengths like red. The scattering strength increases sharply as wavelength gets shorter.
  • As sunlight passes through the atmosphere, the shorter-wavelength light (especially blue) is scattered in all directions, so no matter where you look away from the Sun, you see that scattered blue light — the “blue sky.”

Why not violet?

  • The Sun emits less violet than blue.
  • Our eyes are less sensitive to violet.
  • Some violet/UV is absorbed higher up by ozone.

Together, that makes the scattered light we perceive look mainly blue.

Why are sunsets red/orange?

  • Near sunrise and sunset, sunlight travels a much longer path through the atmosphere.
  • Much of the blue light gets scattered out of the direct path before it reaches your eyes, leaving the remaining direct sunlight enriched in reds and oranges.

Other influences:

  • Haze, pollution, smoke, or dust have larger particles that scatter light less selectively (called Mie scattering), making the sky look paler or whitish.
  • The blue sky is partially polarized due to the scattering geometry, which is why polarized sunglasses can darken parts of it.
  • On worlds with different atmospheres and particle sizes (like Mars), skies can look butterscotch or reddish for similar scattering reasons.

If Earth had no atmosphere, there would be nothing to scatter sunlight, and the sky would appear black even in daytime, with the Sun as a bright disk.

Indledningsbeskeder før værktøjskald

Hvis GPT‑5 instrueres til det, vil den udsende indledningsbeskeder, der er synlige for brugere, før og mellem værktøjskald. I modsætning til skjulte beskeder om avanceret tænkning giver GPT‑5 mulighed for at kommunikere planer og status til brugeren og hjælper brugeren med at forstå dens tilgang og hensigt bag værktøjskaldene.

Brugerdefinerede værktøjer

Vi introducerer en ny værktøjstype – brugerdefinerede værktøjer – der gør det muligt for GPT‑5 at foretage opkald til et værktøj med almindelig tekst i stedet for JSON. For at begrænse GPT‑5 til at følge brugerdefinerede værktøjsformater kan udviklere angive et almindeligt udtryk eller sågar en mere fuldt specificeret kontekstfri grammatik(åbner i et nyt vindue).

Tidligere krævede vores grænseflade for udviklerdefinerede værktøjer, at opkald blev foretaget med JSON, som er et almindeligt format, der anvendes af web-API'er og udviklere generelt. Udsendelse af gyldigt JSON kræver dog, at modellen på perfekt vis kan håndtere citationstegn, bagstreger, nye linjer og andre kontroltegn. Selvom vores modeller er godt trænede til at udsende JSON, så øges chancerne for fejl på lange inputs som f.eks. hundredvis af linjer med kode eller en rapport på 5 sider. Med brugerdefinerede værktøjer kan GPT‑5 skrive værktøjsinputs som almindelig tekst, uden at skulle håndtere alle de tegn, der kræver særlig håndtering.

På SWE-bench Verified, der bruger brugerdefinerede værktøjer i stedet for JSON-værktøjer, scorer GPT‑5 nogenlunde det samme.

Sikkerhed

GPT‑5 gør fremskridt inden for sikkerhed og er en mere robust, pålidelig og nyttig model. Der er væsentlig mindre sandsynlighed for, at GPT‑5 hallucinerer sammenlignet med vores tidligere modeller. Den kommunikerer mere ærligt dens handlinger og funktioner til brugerne og giver det nyttigste svar, når det er muligt, og bliver samtidigt inden for sikkerhedsgrænserne. Du kan læse mere i vores researchblog.

Tilgængelighed og priser

GPT‑5 er tilgængelig nu på API-platformen i tre størrelser: gpt-5, gpt-5-mini og gpt-5-nano. Den er tilgængelig på Responses API, Chat Completions API og er standard i Codex CLI. GPT‑5 er prissat til 1,25 USD/1 million input-tokens og 10 USD/1 million output-tokens. GPT‑5 mini er prissat til 0,25 USD/1 million input-tokens og 2 USD/1 million output-tokens, og GPT‑5 nano er prissat til 0,05 USD/1 million input-tokens og 0,40 USD/1 million output-tokens.

Disse modeller understøtter API-parametrene reasoning_effort og verbosity samt brugerdefinerede værktøjer. De understøtter også parallelt værktøjskald, indbyggede værktøjer (websøgning, filsøgning, billedgenerering med mere), kerne-API-funktioner (streaming, strukturerede outputs med mere) og prisbesparende funktioner som f.eks. cachelagring af forespørgsler og Batch API.

GPT‑5‑versionen uden avanceret tænkning, der bruges i ChatGPT, er tilgængelig i API'en som gpt-5-chat-latest og er også prissat til 1,25 USD/1 million input-tokens og 10 USD/1 million output-tokens.

GPT‑5 lanceres også på tværs af Microsoft-platforme, herunder Microsoft 365 Copilot, Copilot, GitHub Copilot og Azure AI Foundry.

Detaljerede benchmarks

Intelligens
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
AIME ’25(no tools)94,6 %91,1 %85,2 %88,9 %92,7 %46,4 %40,2 %-
FrontierMath(with python tool only)26,3 %22,1 %9,6 %15,8 %15,4 %---
GPQA diamond(no tools)85,7 %82,3 %71,2 %83,3 %81,4 %66,3 %65,0 %50,3 %
HLE[1](no tools)24,8 %16,7 %8,7 %20,2 %14,7 %5,4 %3,7 %-
HMMT 2025(no tools)93,3 %87,8 %75,6 %81,7 %85,0 %28,9 %35,0 %-

[1] Der er en mindre uoverensstemmelse med tal rapporteret i vores tidligere blogopslag, da disse blev kørt på en tidligere version af HLE.

Multimodal
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
MMMU84,2 %81,6 %75,6 %82,9 %81,6 %74,8 %72,7 %55,4 %
MMMU-Pro(avg across standard and vision sets)78,4 %74,1 %62,6 %76,4 %73,4 %60,3 %58,9 %33,0 %
CharXiv reasoning(python enabled)81,1 %75,5 %62,7 %78,6 %72,0 %56,7 %56,8 %40,5 %
VideoMMMU, max frame 25684,6 %82,5 %66,8 %83,3 %79,4 %60,9 %55,1 %30,2 %
ERQA65,7 %62,9 %50,1 %64,0 %56,5 %44,3 %42,3 %26,5 %
Kodning
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
SWE-Lancer: IC SWE Diamond Freelance Coding Tasks112 t US$75 t US$49 t US$86 t US$66 t US$34 t US$31 t US$9 t US$
SWE-bench Verified[2]74,9 %71,0 %54,7 %69,1 %68,1 %54,6 %23,6 %-
Aider polyglot(diff)88,0 %71,6 %48,4 %79,6 %58,2 %52,9 %31,6 %6,2 %

[2] Vi udelod 23/500 problemer, der ikke kunne køre på vores infrastruktur. Den fulde liste over 23 udeladte opgaver er 'astropy__astropy-7606', 'astropy__astropy-8707', 'astropy__astropy-8872', 'django__django-10097', 'django__django-7530', 'matplotlib__matplotlib-20488', 'matplotlib__matplotlib-20676', 'matplotlib__matplotlib-20826', 'matplotlib__matplotlib-23299', 'matplotlib__matplotlib-24970', 'matplotlib__matplotlib-25479', 'matplotlib__matplotlib-26342', 'psf__requests-6028', 'pylint-dev__pylint-6528', 'pylint-dev__pylint-7080', 'pylint-dev__pylint-7277', 'pytest-dev__pytest-5262', 'pytest-dev__pytest-7521', 'scikit-learn__scikit-learn-12973', 'sphinx-doc__sphinx-10466', 'sphinx-doc__sphinx-7462', 'sphinx-doc__sphinx-8265', og 'sphinx-doc__sphinx-9367'.

Instruktionsfølgning
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
Scale multichallenge[3](o3-mini grader)69,6 %62,3 %54,9 %60,4 %57,5 %46,2 %42,2 %31,1 %
Internal API instruction following eval(hard)64,0 %65,8 %56,1 %47,4 %44,7 %49,1 %45,1 %31,6 %
COLLIE99,0 %98,5 %96,9 %98,4 %96,1 %65,8 %54,6 %42,5 %

[3] Bemærk: Vi har erfaret, at den standardbedømmelse, der anvendes i MultiChallenge (GPT-4o), ofte vurderer modelsvar forkert. Vi har erfaret, at det at skifte til en ræsonneringsmodel, som for eksempel o3-mini, markant forbedrer præcisionen ved bedømmelse på de prøver, vi har gennemgået.

Funktionskald
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
Tau2-bench airline62,6 %60,0 %41,0 %64,8 %60,2 %56,0 %51,0 %14,0 %
Tau2-bench retail81,1 %78,3 %62,3 %80,2 %70,5 %74,0 %66,0 %21,5 %
Tau2-bench telecom96,7 %74,1 %35,5 %58,2 %40,5 %34,0 %44,0 %12,1 %
Lang kontekst
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
OpenAI-MRCR: 2 needle 128k95,2 %84,3 %43,2 %55,0 %56,4 %57,2 %47,2 %36,6 %
OpenAI-MRCR: 2 needle 256k86,8 %58,8 %34,9 %--56,2 %45,5 %22,6 %
Graphwalks bfs <128k78,3 %73,4 %64,0 %77,3 %62,3 %61,7 %61,7 %25,0 %
Graphwalks parents <128k73,3 %64,3 %43,8 %72,9 %51,1 %58,0 %60,5 %9,4 %
BrowseComp Long Context 128k90,0 %89,4 %80,4 %88,3 %80,0 %85,9 %89,0 %89,4 %
BrowseComp Long Context 256k88,8 %86,0 %68,4 %--75,5 %81,6 %19,1 %
VideoMME(long, with subtitle category)86,7 %78,5 %65,7 %84,9 %79,5 %78,7 %68,4 %55,2 %
Hallucinationer
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
LongFact-Concepts hallucination rate(no tools)[lower is better]1,0 %0,7 %1,0 %5,2 %3,0 %0,7 %1,1 %-
LongFact-Objects hallucination rate(no tools)[lower is better]1,2 %1,3 %2,8 %6,8 %8,9 %1,1 %1,8 %-
FActScore hallucination rate(no tools)[lower is better]2,8 %3,5 %7,3 %23,5 %38,7 %6,7 %10,9 %-

Skrevet af

OpenAI