Sari la conținutul principal
OpenAI

7 august 2025

Produs

Îți prezentăm GPT‑5 pentru dezvoltatori

Cel mai bun model pentru programare și sarcini agentice.

Se încarcă…

Introducere

Astăzi lansăm GPT‑5 în platforma noastră API — cel mai bun model de până acum pentru programare și sarcini agentice.

GPT‑5 este un model de ultimă generație (SOTA) în privința principalelor teste de performanță în programare, obținând un scor de 74,9% în SWE-bench Verified și 88% în Aider polyglot. GPT‑5 a fost instruit pentru a fi un adevărat colaborator în domeniul programării. Excelează la producerea de cod de înaltă calitate și la gestionarea sarcinilor precum remedierea bugurilor, editarea codului și răspunderea la întrebări despre baze de cod complexe. Modelul este orientabil și colaborativ — poate urma instrucțiuni foarte detaliate cu o precizie ridicată și poate oferi explicații directe ale acțiunilor sale înainte și între apelările de instrumente.  Modelul excelează și la programarea front-end, depășind OpenAI o3 la dezvoltarea web front-end în 70% din cazuri în testele interne.

GPT‑5 a fost instruit pe baza unor sarcini de programare reale, în colaborare cu grupuri inițiale de testeri din startup-uri și companii. Cursor afirmă că GPT‑5 este „cel mai inteligent model [pe care l-au] folosit” și „remarcabil de inteligent, ușor de controlat și are chiar și o personalitate pe care nu am mai întâlnit-o la alte modele”. Windsurf a declarat că GPT‑5 este SOTA în evaluările sale și că „are o rată de eroare de apelare a instrumentelor de două ori mai mică decât alte modele de frontieră”. Vercel consideră că „este cel mai bun model de inteligență artificială front-end, atingând performanțe de top atât în privința aspectului estetic, cât și a calității codului, ceea ce îl plasează într-o categorie aparte”.

GPT‑5 excelează și la sarcini agentice de lungă durată — obținând rezultate SOTA pe τ2-bench telecom (96,7%), un test de performanță pentru apelarea instrumentelor lansat în urmă cu doar 2 luni. Inteligența îmbunătățită pentru instrumente a GPT‑5 îi permite să înlănțuieze în mod fiabil zeci de apelări de instrumente — atât în secvență, cât și în paralel — fără a se pierde, făcându-l mult mai eficient la executarea sarcinilor complexe și reale de la început până la sfârșit. De asemenea, urmează instrucțiunile instrumentului mai precis, gestionează mai bine erorile instrumentului și excelează la regăsirea conținutului în context lung. Manus afirmă că GPT‑5 „a obținut cea mai bună performanță [pe care au văzut-o vreodată] de la un singur model în propriile teste interne”. Notion spune că „răspunsurile rapide ale modelului, mai ales în modul cu raționament scăzut, fac din GPT‑5 un model ideal când ai nevoie să rezolvi sarcini complexe dintr-o singură mișcare”. Inditex a declarat că „[GPT‑5] se distinge cu adevărat prin profunzimea raționamentului său: răspunsuri nuanțate, pe mai multe niveluri, care reflectă o înțelegere reală a subiectului”.

Introducem noi funcții în API-ul nostru pentru a le oferi dezvoltatorilor un control sporit asupra răspunsurilor modelului. GPT‑5 acceptă un nou parametru verbosity (valori: low, medium, high) pentru a controla dacă răspunsurile sunt scurte și la obiect sau lungi și cuprinzătoare. Parametrul reasoning_effort din GPT‑5 poate lua acum o valoare minimă pentru a obține răspunsuri mai rapid, fără a fi nevoie de un raționament extins în prealabil. De asemenea, am adăugat un nou tip de instrument — instrumente personalizate — pentru a permite ca GPT‑5 să apeleze instrumentele cu text simplu în loc de JSON. Instrumentele personalizate acceptă constrângeri prin gramaticile independente de context furnizate de dezvoltatori.

Lansăm GPT‑5 în trei dimensiuni în APIgpt-5, gpt-5-mini și gpt-5-nano — pentru a le oferi dezvoltatorilor mai multă flexibilitate în echilibrarea performanței, costurilor și latenței. Deși GPT‑5 din ChatGPT este un sistem de modele de raționament, fără raționament și rutare, GPT‑5 din platforma API este modelul de raționament care asigură performanța maximă în ChatGPT. În mod deosebit, GPT‑5 cu raționament minim este un model diferit de modelul fără raționament din ChatGPT și este mai bine adaptat pentru dezvoltatori. Modelul fără raționament utilizat în ChatGPT este disponibil ca gpt-5-chat-latest.

Pentru a citi despre GPT‑5 din ChatGPT și pentru a afla mai multe despre alte îmbunătățiri ale ChatGPT, consultă blogul nostru de cercetare. Pentru mai multe informații despre cât de entuziasmate sunt companiile să utilizeze GPT‑5, consultă blogul nostru dedicat companiilor.

Programare

GPT‑5 este cel mai puternic model de programare pe care l-am lansat vreodată. Depășește performanța o3 în testele de programare și în cazurile de utilizare reală și a fost optimizat pentru a excela în produse de programare agentică precum Cursor, Windsurf, GitHub Copilot și Codex CLI. GPT‑5 ne-a impresionat testerii alfa, stabilind recorduri în multe dintre evaluările interne private. 

Feedback inițial despre GPT‑5 pentru sarcini de programare reale

„GPT-5 este cel mai inteligent model de programare pe care l-am folosit. Echipa noastră a constatat că GPT-5 este remarcabil de inteligent, ușor de controlat și are chiar și o personalitate pe care nu am mai întâlnit-o la niciun alt model. Nu doar că detectează buguri complicate și ascunse, dar poate rula și agenți de fundal cu mai multe ture pentru a duce la bun sfârșit sarcini complexe — genul de probleme la care alte modele se blocau. A devenit instrumentul nostru zilnic pentru orice, de la evaluarea și planificarea relațiilor publice până la finalizarea proiectelor de la un capăt la altul.”
Michael Truell, cofondator și director executiv (CEO) al Cursor

În cazul SWE-bench Verified, o evaluare bazată pe sarcini de inginerie de software reală, GPT‑5 obține un scor de 74,9%, față de 69,1% obținut de o3. De remarcat este faptul că GPT‑5 obține un scor ridicat cu mai multă eficiență și viteză: în comparație cu o3, care necesită un efort de raționament ridicat, GPT‑5 utilizează cu 22% mai puține tokenuri de ieșire și cu 45% mai puține apelări de instrumente.

În cazul SWE-bench Verified, modelul primește un depozit de cod și o descriere a problemei și trebuie să genereze un patch pentru a rezolva problema. Etichetele text indică efortul de raționament. Scorurile noastre omit 23 din 500 de probleme ale căror soluții nu au putut fi rulate fiabil de infrastructura noastră. GPT‑5 a primit o solicitare scurtă care punea accentul pe verificarea minuțioasă a soluțiilor; această solicitare nu i-a fost de folos modelului o3.

În cazul Aider polyglot, o evaluare a editării de cod, GPT‑5 stabilește un nou record de 88%, reducând rata de eroare cu o treime față de o3.

În cazul Aider polygot(se deschide într-o fereastră nouă) (diff), modelul primește un exercițiu de programare de la Exercism și trebuie să scrie soluția sub forma unui cod diff. Modelele de raționament au fost rulate cu un efort de raționament ridicat.

De asemenea, am constatat că GPT‑5 este excelent la analizarea în profunzime a bazelor de cod pentru a răspunde la întrebări despre modul în care funcționează sau interacționează diverse componente. Într-o bază de cod complicată precum stiva de învățare prin consolidare a OpenAI, am constatat că GPT‑5 ne poate ajuta să raționăm și să răspundem la întrebări despre codul nostru, accelerându-ne activitatea zilnică. 

Inginerie front-end

Atunci când produce cod front-end pentru aplicații web, GPT‑5 este mai atent la aspectul estetic, mai ambițios și mai precis. În comparațiile directe cu o3, GPT‑5 a fost preferat de testerii noștri în 70% din cazuri.

Iată câteva exemple interesante, atent selecționate, despre ce poate face GPT‑5 cu o singură solicitare:

Solicitare: Generează o pagină de destinație frumoasă și realistă pentru un serviciu care le oferă pasionaților de cafea un abonament de 200 USD/lună, care include închirierea de echipamente și instruire pentru prăjirea cafelei și prepararea unui espresso perfect. Publicul țintă este format din persoane de vârstă medie din zona golfului San Francisco, care lucrează în domeniul tehnologiei, au studii superioare, venituri generoase și sunt pasionate de arta și știința cafelei. Optimizează pentru conversie pentru o înscriere de 6 luni.

Vezi mai multe exemple cu GPT‑5 în galeria noastră de aici(se deschide într-o fereastră nouă).

Colaborare în programare

GPT‑5 este un colaborator mai bun, în special în produsele de programare agentică precum Cursor, Windsurf, GitHub Copilot și Codex CLI. În timp ce lucrează, GPT‑5 poate genera planuri, actualizări și recapitulări între apelările de instrumente. Comparativ cu modelele noastre anterioare, GPT‑5 este mai proactiv în finalizarea sarcinilor ambițioase, fără a aștepta după aprobarea ta sau a ezita în fața complexității ridicate.

Iată un exemplu al modului în care poate arăta GPT‑5 atunci când abordează o sarcină complexă (în acest caz, crearea unui site web pentru un restaurant):

După ce utilizatorul solicită un site web pentru restaurantul său, GPT‑5 prezintă un plan rapid, creează structura aplicației, instalează dependențele, creează conținutul site-ului, rulează o compilare pentru a verifica erorile de compilare, își rezumă activitatea și sugerează pașii potențiali următori. Acest videoclip a fost accelerat de aproximativ trei ori pentru a te scuti de așteptare; durata totală necesară pentru crearea site-ului web a fost de aproximativ trei minute.

Sarcini agentice

Dincolo de porogramarea agentică, GPT‑5 este în general mai bun la sarcini agentice. GPT‑5 stabilește noi recorduri la testele de urmărire a instrucțiunilor (69,6% în cazul Scale MultiChallenge, conform evaluării realizate de o3‑mini) și apelare de instrumente (96,7% în cazul τ2-bench telecom). Inteligența pentru instrumente îmbunătățită permite ca GPT‑5 să înlănțuie mai fiabil acțiunile pentru a îndeplini sarcini reale.

Feedback inițial despre GPT‑5 pentru sarcini agentice

„GPT-5 este un mare pas înainte. A obținut cea mai bună performanță pe care am văzut-o vreodată de la un singur model în testele noastre de performanță interne. GPT-5 a excelat în diverse sarcini agentice — chiar înainte de a modifica vreo linie de cod sau de a personaliza vreo solicitare. Noile mesaje introductive și controlul mai precis al utilizării instrumentelor au permis o îmbunătățire semnificativă a stabilității și manevrabilității agenților noștri.
Yichao „Peak” Ji, cofondator și director științific al Manus

Urmărirea instrucțiunilor

GPT‑5 urmează instrucțiunile mai fiabil decât oricare dintre predecesorii săi, obținând scoruri ridicate în cazul COLLIE, Scale MultiChallenge și al evaluării noastre de respectare a instrucțiunilor.

În cazul COLLIE(se deschide într-o fereastră nouă), modelele trebuie să scrie text care să îndeplinească diverse constrângeri. În cazul Scale MultiChallenge(se deschide într-o fereastră nouă), modelele sunt provocate în conversații cu mai multe runde să utilizeze corect patru tipuri de informații din mesajele anterioare. Scorurile noastre provin din utilizarea o3‑mini ca evaluator, care a fost mai precis decât GPT‑4o. În evaluarea noastră internă de respectare a instrucțiunilor API OpenAI, modelele trebuie să urmeze instrucțiuni dificile provenite din feedbackul real al dezvoltatorilor. Modelele de raționament au fost rulate cu un efort de raționament ridicat.

Apelarea de instrumente

Am depus eforturi susținute pentru a îmbunătăți apelarea de instrumente în moduri relevante pentru dezvoltatori. GPT‑5 respectă mai bine instrucțiunile instrumentelor, gestionează mai bine erorile instrumentelor și efectuează mai bine și mai proactiv apelări multiple de instrumente, secvențial sau în paralel. Când i se solicită, GPT‑5 poate afișa și mesaje introductive înainte de și între apelările de instrumente pentru a informa utilizatorii în legătură cu progresul înregistrat în timpul sarcinilor agentice mai lungi.

Acum două luni, Sierra.ai a publicat τ2-bench telecom, un instrument ambițios de evaluare a performanței, care a evidențiat că performanța modelelor lingvistice scade semnificativ atunci când interacționează cu o stare de mediu care poate fi modificată de utilizatori. În publicația(se deschide într-o fereastră nouă) sa, niciun model nu a obținut un scor mai mare de 49%. GPT‑5 obține un scor de 97%.

În cazul τ2-bench(se deschide într-o fereastră nouă), modelul trebuie să utilizeze instrumente pentru a îndeplini o sarcină de servicii pentru clienți, în care poate exista un utilizator care poate comunica și poate întreprinde acțiuni asupra stării lumii. Modelele de raționament au fost rulate cu un efort de raționament ridicat.

GPT‑5 prezintă și îmbunătățiri semnificative ale performanței în context lung. În cazul OpenAI-MRCR, o măsură a regăsirii informațiilor în context lung, GPT‑5 depășește o3 și GPT‑4.1, cu o marjă semnificativ mai mare în cazul lungimilor de intrare mai mari.

În cazul OpenAI-MRCR(se deschide într-o fereastră nouă) (rezolvarea co-referențelor multi-rundă), sunt inserate mai multe solicitări ale utilizatorilor identice, adică „ace”, în „care cu fân” lungi de solicitări și răspunsuri similare, iar modelului i se cere să reproducă răspunsul pentru al i-lea ac. Raportul mediu de potrivire măsoară raportul mediu de potrivire a șirurilor dintre răspunsul modelului și răspunsul corect. Punctele înregistrate la 256k de tokenuri de intrare maxime reprezintă valori medii pentru 128k–256k de tokenuri de intrare și așa mai departe. Aici, 256k reprezintă 256 * 1.024 = 262.114 tokenuri. Modelele de raționament au fost rulate cu un efort de raționament ridicat.

De asemenea, punem la dispoziție în regim open source BrowseComp Long Context(se deschide într-o fereastră nouă), un nou test de performanță pentru evaluarea întrebărilor și răspunsurilor cu context lung. În acest test de performanță, modelul primește o interogare de la utilizator, o listă lungă de rezultate de căutare relevante și trebuie să răspundă la întrebare pe baza rezultatelor căutării. Am conceput BrowseComp Long Context pentru a fi realist, dificil și pentru a oferi răspunsuri corecte și fiabile. Pentru Intrări de 128K–256K tokenuri, GPT‑5 oferă răspunsul corect în 89% din cazuri.

În API, toate modelele GPT‑5 pot accepta maximum 272.000 de tokenuri de intrare și pot emite maximum 128.000 de tokenuri de raționament și de ieșire, cu o lungime totală a contextului de 400.000 de tokenuri.

Factualitate

GPT‑5 este mai fiabil decât modelele noastre anterioare. În cazul solicitărilor din testele de performanță LongFact și FactScore, GPT‑5 prezintă cu aproximativ 80% mai puține erori factuale decât o3. Acest lucru îl face mai potrivit pentru cazurile de utilizare agentice în care este importantă corectitudinea, mai ales în cazul programării, datelor și procesului decizional.

Scorurile mai mari sunt mai proaste. LongFact(se deschide într-o fereastră nouă) și FActScore(se deschide într-o fereastră nouă) constau în întrebări deschise care vizează căutarea de informații. Folosim un sistem de evaluare bazat pe modele lingvistice mari cu navigare pentru a verifica răspunsurile la întrebările din aceste teste de performanță și pentru a măsura proporția afirmațiilor incorecte factual. Detaliile despre implementare și evaluare pot fi găsite în fișa de sistem. Modelele de raționament au utilizat un efort mare de raționament. Căutarea nu a fost activată.

În general, GPT‑5 a fost instruit să fie mai conștient de propriile limite și mai capabil să gestioneze situațiile neprevăzute. De asemenea, GPT‑5 a fost instruit să fie mult mai precis în privința întrebărilor legate de sănătate ( citește mai multe în blogul nostru de cercetare). Ca și în cazul tuturor modelelor lingvistice, îți recomandăm să verifici rezultatele obținute de GPT‑5 în cazurile de utilizare de importanță majoră.

Funcții noi

Efort de raționament minim

Dezvoltatorii pot controla timpul de gândire al GPT‑5 folosind parametrul reasoning_effort din API. Pe lângă valorile anterioare—low, medium (implicit) și high—GPT‑5 acceptă și minimal, care reduce raționamentul GPT‑5 pentru a oferi rapid un răspuns.

Valorile mai mari de reasoning_effort maximizează calitatea, iar valorile mai mici maximizează viteza. Nu toate sarcinile beneficiază în mod egal de raționamente suplimentare, așa că îți recomandăm să experimentezi pentru a vedea care funcționează cel mai bine pentru cazurile de utilizare care te interesează.

De exemplu, raționamentul peste nivelul low nu ajută semnificativ la regăsirea relativ simplă a contextului lung, dar adaugă destul de multe puncte procentuale la CharXiv Reasoning(se deschide într-o fereastră nouă), un test de performanță pentru raționamentul vizual.

Efortul de raționament al GPT‑5 oferă beneficii diferite pentru sarcini diferite. Pentru CharXiv Reasoning, GPT‑5 a primit acces la un instrument Python.

Verbozitate

Pentru a facilita gestionarea lungimii implicite a răspunsurilor GPT‑5, am introdus un nou parametru API, verbosity, care ia valorile low, medium (implicit) și high. Dacă instrucțiunile explicite intră în conflict cu parametrii de verbozitate, instrucțiunile explicite au prioritate. De exemplu, dacă îi ceri lui GPT‑5 să „scrie un eseu de 5 paragrafe”, răspunsul modelului ar trebui să fie întotdeauna de 5 paragrafe, indiferent de nivelul de verbozitate (cu toate acestea, paragrafele în sine pot fi mai lungi sau mai scurte).

Verbozitate=scăzută

Why is the sky blue?

Because of Rayleigh scattering. Air molecules are much smaller than the wavelength of visible light, so they scatter short wavelengths (blue/violet) far more than long ones (red). The scattered blue light comes to your eyes from all directions, making the sky look blue. We don’t see violet as much because the Sun emits less of it, our eyes are less sensitive to it, and some is absorbed in the upper atmosphere. At sunrise and sunset, the longer path through air removes more blue, leaving the sky reddish.

Verbozitate=medie

Why is the sky blue?

Because of Rayleigh scattering. Sunlight contains all colors, but air molecules scatter shorter wavelengths (blue/violet) much more strongly than longer wavelengths (red). The scattering strength goes roughly as 1/(wavelength)^4, so blue light gets redirected across the sky and into your eyes.

We don’t see a violet sky because:

  • The Sun emits slightly less violet than blue.
  • The upper atmosphere absorbs some violet/UV.
  • Human eyes are less sensitive to violet.

At sunrise and sunset, sunlight passes through more atmosphere, scattering out most of the blues along the way and leaving the longer red/orange wavelengths to dominate.

Verbozitate=ridicată

Why is the sky blue?

The sky looks blue because sunlight gets scattered by the tiny molecules in Earth’s atmosphere. This process is called Rayleigh scattering.

Key points:

  • Sunlight is made of many colors (wavelengths). Shorter wavelengths, like violet and blue, are scattered much more strongly by air molecules than longer wavelengths like red. The scattering strength increases sharply as wavelength gets shorter.
  • As sunlight passes through the atmosphere, the shorter-wavelength light (especially blue) is scattered in all directions, so no matter where you look away from the Sun, you see that scattered blue light — the “blue sky.”

Why not violet?

  • The Sun emits less violet than blue.
  • Our eyes are less sensitive to violet.
  • Some violet/UV is absorbed higher up by ozone.

Together, that makes the scattered light we perceive look mainly blue.

Why are sunsets red/orange?

  • Near sunrise and sunset, sunlight travels a much longer path through the atmosphere.
  • Much of the blue light gets scattered out of the direct path before it reaches your eyes, leaving the remaining direct sunlight enriched in reds and oranges.

Other influences:

  • Haze, pollution, smoke, or dust have larger particles that scatter light less selectively (called Mie scattering), making the sky look paler or whitish.
  • The blue sky is partially polarized due to the scattering geometry, which is why polarized sunglasses can darken parts of it.
  • On worlds with different atmospheres and particle sizes (like Mars), skies can look butterscotch or reddish for similar scattering reasons.

If Earth had no atmosphere, there would be nothing to scatter sunlight, and the sky would appear black even in daytime, with the Sun as a bright disk.

Mesaje introductive înainte de apelările de instrumente

Dacă i se solicită, GPT‑5 va afișa mesaje introductive vizibile utilizatorului înainte de și între apelările de instrumente. Spre deosebire de mesajele de raționament ascuns, aceste mesaje vizibile permit ca GPT‑5 să-și comunice planurile și progresul utilizatorului, pentru ca utilizatorii finali să înțeleagă abordarea și intenția din spatele apelărilor de instrumente.

Instrumente personalizate

Introducem un nou tip de instrument — instrumente personalizate — care permite ca GPT‑5 să apeleze un instrument cu text simplu în loc de JSON. Pentru a constrânge GPT‑5 să respecte formate personalizate ale instrumentelor, dezvoltatorii pot furniza o expresie regulată sau chiar o gramatică independentă de context,(se deschide într-o fereastră nouă) mai complet specificată.

În trecut, interfața noastră pentru instrumentele definite de dezvoltatori impunea ca acestea să fie apelate cu JSON, un format comun utilizat de API-urile web și de dezvoltatori în general. Totuși, pentru a genera un JSON valid, modelul trebuie să evite perfect toate ghilimelele, barele oblice inversate, caracterele de linie nouă și alte caractere de control. Deși modelele noastre sunt instruite corespunzător să genereze JSON, în cazul intrărilor lungi, cum ar fi sute de linii de cod sau un raport de 5 pagini, probabilitatea apariției unei erori crește. Cu instrumente personalizate, GPT‑5 poate scrie intrările de instrumente ca text simplu, fără a fi nevoie să evite toate caracterele care necesită acest lucru.

În cazul SWE-bench Verified folosind instrumente personalizate în loc de instrumente JSON, GPT‑5 obține aproximativ același scor.

Siguranță

GPT‑5 aduce noi standarde în materie de siguranță și este un model mai robust, mai fiabil și mai util. GPT‑5 este semnificativ mai puțin predispus să halucineze decât modelele noastre anterioare, își comunică mai onest acțiunile și capacitățile către utilizator și oferă cel mai util răspuns când este posibil, rămânând totodată în limitele de siguranță. Poți citi mai multe pe blogul nostru de cercetare.

Disponibilitate și prețuri

GPT‑5 este disponibil acum pe platforma API în trei dimensiuni: gpt-5, gpt-5-mini și gpt-5-nano. Este disponibil în API-ul Responses, API-ul Chat Completions și este opțiunea implicită în Codex CLI. GPT‑5 are un preț de 1,25 USD/1 milion de tokenuri de intrare și 10 USD/1 milion de tokenuri de ieșire, GPT‑5 mini are un preț de 0,25 USD/1 milion de tokenuri de intrare și 2 USD/1 milion de tokenuri de ieșire, iar GPT‑5 nano are un preț de 0,05 USD/1 milion de tokenuri de intrare și 0,40 USD/1 milion de tokenuri de ieșire.

Aceste modele acceptă parametrii API reasoning_effort și verbosity , precum și instrumente personalizate. De asemenea, acceptă apelarea paralelă de instrumente, instrumente integrate (căutare pe web, căutare de fișiere, generare de imagini și altele), funcții API de bază (streaming, ieșiri structurate și altele) și funcții de economisire a costurilor, cum ar fi memorarea solicitărilor în cache și API-ul Batch.

Versiunea fără raționament a GPT‑5 folosită în ChatGPT este disponibilă în API ca gpt-5-chat-latest, tot la un preț de 1,25 USD/1 milion de tokenuri de intrare și 10 USD/1 milion de tokenuri de ieșire.

GPT‑5 va fi lansat și pe platformele Microsoft, inclusiv Microsoft 365 Copilot, Copilot, GitHub Copilot și Azure AI Foundry.

Teste de performanță detaliate

Inteligență
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
AIME ’25(no tools)94,6 %91,1 %85,2 %88,9 %92,7 %46,4 %40,2 %-
FrontierMath(with python tool only)26,3 %22,1 %9,6 %15,8 %15,4 %---
GPQA diamond(no tools)85,7 %82,3 %71,2 %83,3 %81,4 %66,3 %65,0 %50,3 %
HLE[1](no tools)24,8 %16,7 %8,7 %20,2 %14,7 %5,4 %3,7 %-
HMMT 2025(no tools)93,3 %87,8 %75,6 %81,7 %85,0 %28,9 %35,0 %-

[1] Există o mică discrepanță față de cifrele raportate în postarea anterioară de pe blogul nostru, deoarece acestea au fost rulate pe o versiune anterioară de HLE.

Multimodal
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
MMMU84,2 %81,6 %75,6 %82,9 %81,6 %74,8 %72,7 %55,4 %
MMMU-Pro(avg across standard and vision sets)78,4 %74,1 %62,6 %76,4 %73,4 %60,3 %58,9 %33,0 %
CharXiv reasoning(python enabled)81,1 %75,5 %62,7 %78,6 %72,0 %56,7 %56,8 %40,5 %
VideoMMMU, max frame 25684,6 %82,5 %66,8 %83,3 %79,4 %60,9 %55,1 %30,2 %
ERQA65,7 %62,9 %50,1 %64,0 %56,5 %44,3 %42,3 %26,5 %
Programare
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
SWE-Lancer: IC SWE Diamond Freelance Coding Tasks112 K USD75 K USD49 K USD86 K USD66 K USD34 K USD31 K USD9 K USD
SWE-bench Verified[2]74,9 %71,0 %54,7 %69,1 %68,1 %54,6 %23,6 %-
Aider polyglot(diff)88,0 %71,6 %48,4 %79,6 %58,2 %52,9 %31,6 %6,2 %

[2] Omitem 23/500 de probleme care nu au putut fi rulate pe infrastructura noastră. Lista completă de 23 de sarcini omise este „astropy__astropy-7606”, „astropy__astropy-8707”, „astropy__astropy-8872”, „django__django-10097”, „django__django-7530”, „matplotlib__matplotlib-20488”, „matplotlib__matplotlib-20676”, „matplotlib__matplotlib-20826”, „matplotlib__matplotlib-23299”, „matplotlib__matplotlib-24970”, „matplotlib__matplotlib-25479”, „matplotlib__matplotlib-26342”, „psf__requests-6028”, „pylint-dev__pylint-6528”, „pylint-dev__pylint-7080”, „pylint-dev__pylint-7277”, „pytest-dev__pytest-5262”, „pytest-dev__pytest-7521”, „scikit-learn__scikit-learn-12973”, „sphinx-doc__sphinx-10466”, „sphinx-doc__sphinx-7462”, „sphinx-doc__sphinx-8265” și „sphinx-doc__sphinx-9367”.”

Urmărirea instrucțiunilor
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
Scale multichallenge[3](o3-mini grader)69,6 %62,3 %54,9 %60,4 %57,5 %46,2 %42,2 %31,1 %
Internal API instruction following eval(hard)64,0 %65,8 %56,1 %47,4 %44,7 %49,1 %45,1 %31,6 %
COLLIE99,0 %98,5 %96,9 %98,4 %96,1 %65,8 %54,6 %42,5 %

[3] Notă: am constatat că evaluatorul implicit din MultiChallenge (GPT-4o) evaluează frecvent greșit răspunsurile modelului. Am constatat că înlocuirea evaluatorului cu un model de raționament, cum ar fi o3-mini, îmbunătățește semnificativ acuratețea evaluării exemplelor pe care le-am inspectat.

Apelarea funcțiilor
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
Tau2-bench airline62,6 %60,0 %41,0 %64,8 %60,2 %56,0 %51,0 %14,0 %
Tau2-bench retail81,1 %78,3 %62,3 %80,2 %70,5 %74,0 %66,0 %21,5 %
Tau2-bench telecom96,7 %74,1 %35,5 %58,2 %40,5 %34,0 %44,0 %12,1 %
Context lung
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
OpenAI-MRCR: 2 needle 128k95,2 %84,3 %43,2 %55,0 %56,4 %57,2 %47,2 %36,6 %
OpenAI-MRCR: 2 needle 256k86,8 %58,8 %34,9 %--56,2 %45,5 %22,6 %
Graphwalks bfs <128k78,3 %73,4 %64,0 %77,3 %62,3 %61,7 %61,7 %25,0 %
Graphwalks parents <128k73,3 %64,3 %43,8 %72,9 %51,1 %58,0 %60,5 %9,4 %
BrowseComp Long Context 128k90,0 %89,4 %80,4 %88,3 %80,0 %85,9 %89,0 %89,4 %
BrowseComp Long Context 256k88,8 %86,0 %68,4 %--75,5 %81,6 %19,1 %
VideoMME(long, with subtitle category)86,7 %78,5 %65,7 %84,9 %79,5 %78,7 %68,4 %55,2 %
Halucinații
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
LongFact-Concepts hallucination rate(no tools)[lower is better]1,0 %0,7 %1,0 %5,2 %3,0 %0,7 %1,1 %-
LongFact-Objects hallucination rate(no tools)[lower is better]1,2 %1,3 %2,8 %6,8 %8,9 %1,1 %1,8 %-
FActScore hallucination rate(no tools)[lower is better]2,8 %3,5 %7,3 %23,5 %38,7 %6,7 %10,9 %-

Autor

OpenAI