Sari la conținutul principal
OpenAI

11 decembrie 2025

ProdusLansare

Îți prezentăm GPT‑5.2

Cel mai avansat model de frontieră pentru muncă profesională și agenți cu experiență îndelungată.

Se încarcă…

Îți prezentăm GPT‑5.2, cea mai performantă serie de modele de până acum pentru activități profesionale bazate pe cunoștințe.

Deja, utilizatorul mediu al ChatGPT Enterprise afirmă că inteligența artificială îl ajută să economisească 40–60 de minute pe zi, iar utilizatorii intensivi spun că economisesc peste 10 ore pe săptămână. Am proiectat GPT‑5.2 pentru a le oferi utilizatorilor și mai multe avantaje economice; este mai performant în crearea de foi de calcul, realizarea de prezentări, scrierea de cod, perceperea imaginilor, înțelegerea contextelor lungi, utilizarea instrumentelor și gestionarea proiectelor complexe, cu mai mulți pași.

GPT‑5.2 stabilește un nou standard de excelență în multe teste de performanță, inclusiv GDPval, depășind performanțele profesioniștilor din domeniu în sarcini de lucru bazate pe cunoștințe bine definite, cuprinzând 44 de profesii.


GPT‑5.2 Thinking 

GPT‑5.1 Thinking

GDPval (wins or ties)
Sarcini de lucru bazate pe cunoștințe

70,9%

38,8% (GPT‑5)

SWE-Bench Pro (public)
Inginerie de software

55,6%

50,8%

SWE-bench Verified
Inginerie software

80,0%

76,3%

GPQA Diamond (no tools)
Întrebări legate de știință

92,4%

88,1%

CharXiv Reasoning (w/ Python)
Întrebări despre figuri științifice

88,7%

80,3%

HMMT (februarie 2025)
Turneu de matematică

99,4%

96,3%

FrontierMath (Nivel 1–3)
Matematică avansată

40,3%

31,0%

ARC-AGI-1 (Verified)
Raționament abstract

86,2%

72,8%

ARC-AGI-2 (Verified)
Raționament abstract

52,9%

17,6%

Notion(se deschide într-o fereastră nouă), Box(se deschide într-o fereastră nouă), Shopify(se deschide într-o fereastră nouă), Harvey(se deschide într-o fereastră nouă) și Zoom(se deschide într-o fereastră nouă) au observat că GPT‑5.2 prezintă performanțe excepționale în materie de raționament pe termen lung și apelarea de instrumente. Databricks(se deschide într-o fereastră nouă), Hex(se deschide într-o fereastră nouă) și Triple Whale(se deschide într-o fereastră nouă) au constatat că GPT‑5.2 este excepțional în sarcinile agentice de știință a datelor și analiză de documente. Cognition(se deschide într-o fereastră nouă), Warp(se deschide într-o fereastră nouă), Charlie Labs(se deschide într-o fereastră nouă), JetBrains(se deschide într-o fereastră nouă) și Augment Code(se deschide într-o fereastră nouă) declară că GPT‑5.2 oferă performanțe de programare agentică de ultimă generație, cu îmbunătățiri măsurabile în domenii precum programarea interactivă, revizuirea codului și detectarea bugurilor.

În ChatGPT, GPT‑5.2 Implementările Instant, Thinking și Pro vor începe astăzi, începând cu abonamentele plătite. În API, acestea sunt disponibile acum pentru toți dezvoltatorii.

Per total, GPT‑5.2 aduce îmbunătățiri semnificative în ceea ce privește inteligența generală, înțelegerea contextului lung, apelarea instrumentelor agentive și viziunea asupra lumii, ceea ce îl face mai eficient în executarea sarcinilor complexe, din lumea reală, de la un capăt la altul, decât orice model anterior.

Performanța modelului

Sarcini valoroase din punct de vedere economic

GPT‑5.2 Thinking este cel mai bun model de până acum pentru utilizarea profesională în situații reale. În cadrul GDPval, o evaluare care măsoară sarcini de lucru bine definite în domeniul cunoașterii pentru 44 de profesii, GPT‑5.2 Thinking stabilește un nou standard de performanță și este primul nostru model care funcționează la nivelul unui expert uman sau chiar la un nivel superior. Mai exact, GPT‑5.2 Thinking depășește sau egalează cei mai buni profesioniști din domeniu în 70,9% din comparațiile privind sarcinile de lucru bazate pe cunoștințe GDPval, potrivit evaluatorilor umani experți. Aceste sarcini includ realizarea de prezentări, foi de calcul și alte materiale. GPT‑5.2 Thinking a generat date de ieșire pentru sarcinile GDPval la o viteză de peste 11 ori mai mare și la un cost de sub 1% din cel al profesioniștilor experți, sugerând că, atunci ce este asociat cu supravegherea umană, GPT‑5.2 poate sprijini activitatea profesională. Estimările vitezei și costurilor se bazează pe date istorice; viteza în ChatGPT poate varia.

În cadrul GDPval, modelele au încercat să realizeze o analiză bine definită a activităților intelectuale din 44 de profesii din cele mai importante 9 sectoare care contribuie la PIB-ul SUA. Sarcinile necesită produse reale, cum ar fi prezentări de vânzări, foi de calcul pentru contabilitate, programe de îngrijire medicală urgentă, diagrame de fabricație sau videoclipuri scurte. În ChatGPT, GPT‑5.2 Thinking are instrumente noi pe care GPT‑5 Thinking nu le are.

Când a analizat un rezultat deosebit de bun, un evaluator GDPval a declarat: „Este un salt remarcabil și vizibil din punct de vedere al calității datelor de ieșire... [acesta] pare să fi fost realizat de o companie profesionistă cu personal calificat și are un aspect surprinzător de bine conceput și sfaturi utile pentru ambele rezultate finale, deși în cazul unuia dintre ele mai avem încă de corectat câteva erori minore.”

În plus, în cadrul testului nostru intern de performanță pentru sarcini de modelare în foi de calcul pentru analiști juniori de investiții bancare — cum ar fi realizarea unui model cu trei situații financiare pentru o companie din Fortune 500, cu formatare și citări corespunzătoare sau elaborarea unui model de achiziție prin împrumut pentru o privatizare — scorul mediu al GPT 5.2 Thinking pentru fiecare sarcină este cu 9,3% mai mare decât cel al GPT‑5.1, crescând de la 59,1% la 68,4%.

Comparațiile în paralel arată o îmbunătățire a sofisticării și formatării a foilor de calcul și diapozitivelor generate de GPT‑5.2. Thinking:

Side by side example of spreadsheet outputs from GPT-5.1 vs GPT-5.2

Solicitare: Creează un model de planificare a forței de muncă: număr de angajați, plan de angajare, fluctuație de personal și impact asupra bugetului. Include departamentele de inginerie, marketing, juridic și vânzări.

Pentru a folosi noile capacități de creare a foilor de calcul și prezentărilor în ChatGPT, trebuie să deții un plan plătit și să selectezi fie GPT‑5.2 Thinking, fie Pro. Generarea complexă poate dura câteva minute.

Programare

GPT‑5.2 Thinking stabilește un nou standard de referință de 55,6% în cadrul SWE-bench Pro, o evaluare riguroasă a ingineriei de software într-un context real. Spre deosebire de SWE-bench Verified, care testează doar Python, SWE-bench Pro testează patru limbaje și își propune să fie mai rezistent la contaminare, mai solicitant, mai divers și mai relevant pentru domeniu.

În cadrul SWE-bench Pro(se deschide într-o fereastră nouă), unui model i se oferă un depozit de cod și trebuie să genereze un patch pentru a rezolva o sarcină realistă de inginerie software.

Pe SWE-bench Verified (neplotat), GPT‑5.2 Thinking a atins un nou record de 80%.

Pentru utilizarea profesională de zi cu zi, acest lucru se traduce într-un model care poate depana mai fiabil codul de producție, implementa solicitări de funcționalități, refactoriza baze de cod mari și livra corecții complete cu mai puțină intervenție manuală.

GPT‑5.2 Thinking este, de asemenea, mai bun la ingineria software front-end decât GPT‑5.1 Thinking. Primii testeri au descoperit că este semnificativ mai puternic în dezvoltarea front-end și în lucrări complexe sau neconvenționale cu interfața utilizator - în special în ceea ce privește elementele 3D - ceea ce îl face un partener puternic pentru inginerii din întreaga platformă. Iată câteva exemple de ceea ce poate produce dintr-o singură a solicita:

Solicitare: Creează o aplicație cu o singură pagină într-un fișier HTML unic cu următoarele cerințe:
- Nume: Simulare de valuri oceanice
- Scop: Afișarea valurilor animate realiste.
- Funcționalități: Modifică viteza vântului, înălțimea valurilor, iluminarea.
- Interfața ar trebui să fie relaxantă și realistă.

Primii testeri și-au împărtășit feedbackul despre capacitățile de programare ale GPT‑5.2:

„GPT-5.2 reprezintă cea mai mare evoluție pentru modelele GPT în programarea agentică de la GPT-5 și este un model de programare SOTA în categoria sa de prețuri, Îmbunătățirea versiunii nu reflectă pe deplin creșterea inteligenței. Suntem încântați să îl implementăm ca setare implicită în Windsurf și în mai multe sarcini de lucru Devin esențiale.”
Jeff Wang, director executiv, Windsurf

Factualitate

GPT‑5.2 Thinking halucinează mai puțin decât GPT‑5.1 Thinking. Pe un set de interogări anonimizate din ChatGPT, răspunsurile cu erori au fost cu relativ 38% mai puțin frecvente. Pentru profesioniști, aceasta înseamnă mai puține greșeli atunci când utilizează modelul pentru cercetare, scriere, analiză și asistență decizională - ceea ce face ca modelul să fie mai fiabil pentru munca de zi cu zi bazată pe cunoștințe.

Efortul de raționament a fost setat la maximul disponibil și un instrument de căutare a fost activat. Alte modele au detectat erori, care ar putea face și ele erori. Ratele de eroare la nivel de revendicare sunt mult mai mici decât ratele de eroare la nivel de răspuns, deoarece majoritatea răspunsurilor conțin multe revendicări.

Ca toate modelele, GPT‑5.2 Thinking este imperfect. Pentru orice lucru critic, verifică de două ori răspunsurile.

Context lung

GPT‑5.2 Thinking stabilește o nouă performanță în raționamentul bazat pe context lung, atingând performanțe de top pe OpenAI MRCRv2 - o evaluare care testează capacitatea unui model de a integra informații răspândite pe documente lungi. În sarcini din lumea reală, cum ar fi analiza aprofundată a documentelor, care necesită informații corelate din sute de mii de token-uri, GPT‑5.2 Thinking este mult mai precis decât GPT‑5.1 Thinking. În special, este primul model pe care l-am văzut care atinge o precizie de aproape 100% pe varianta MRCR cu 4 ace (până la 256.000 de jetoane).

În termeni practici, acest lucru permite profesioniștilor să utilizeze GPT‑5.2 pentru a lucra cu documente lungi - cum ar fi rapoarte, contracte, lucrări de cercetare, transcrieri și proiecte cu mai multe fișiere - menținând în același timp coerența și acuratețea pe sute de mii de token-uri. Acest lucru face ca GPT‑5.2 să fie deosebit de potrivit pentru analize aprofundate, sinteze și fluxuri de lucru complexe cu surse multiple.

În OpenAI-MRCR⁠(se deschide într-o fereastră nouă) v2 (rezoluție de co-referință multi-rundă), mai multe cereri identice ale utilizatorilor de tip „ac” sunt inserate în „care cu fân” lungi de cereri și răspunsuri similare, iar modelul este rugat să reproducă răspunsul la al n-lea ac. Versiunea 2 a evaluării corectează ~5% din sarcinile care aveau valori de adevăr fundamental incorecte. Raportul mediu de potrivire măsoară raportul mediu de potrivire a șirurilor între răspunsul modelului și răspunsul corect. Punctele la un număr maxim de 256k de tokenuri de intrare reprezintă medii pentru 128k–256k de tokenuri de intrare și așa mai departe. Aici, 256k reprezintă 256 * 1.024 = 262.114 tokenuri. Efortul de raționament a fost setat la maximul disponibil.

Pentru sarcini care beneficiază de o gândire care depășește fereastra maximă de context, GPT‑5.2 Thinking este compatibil cu noul nostru punct final Responses /compact, care extinde fereastra de context efectivă a modelului. Acest lucru permite ca GPT‑5.2 Thinking să abordeze fluxuri de lucru mai complexe și de lungă durată, care altfel ar fi limitate de lungimea contextului. Citește mai multe în documentația API(se deschide într-o fereastră nouă).

Viziune

GPT‑5.2 Thinking este modelul nostru vizual cel mai puternic de până acum, reducând ratele de eroare la aproximativ jumătate în ceea ce privește raționamentul grafic și înțelegerea interfeței software.

Pentru utilizarea profesională de zi cu zi, aceasta înseamnă că modelul poate interpreta mai precis tablourile de bord, capturile de ecran ale produselor, diagramele tehnice și rapoartele vizuale - susținând fluxurile de lucru în finanțe, operațiuni, inginerie, design și asistență pentru clienți, unde informațiile vizuale sunt esențiale.

În CharXiv Reasoning(se deschide într-o fereastră nouă), modelele răspund la întrebări despre diagrame vizuale din lucrări științifice. Un instrument Python a fost activat, iar efortul de raționament a fost setat la maxim.

În ScreenSpot-Pro(se deschide într-o fereastră nouă), modelele trebuie să raționeze pe baza unor capturi de ecran de înaltă rezoluție ale interfețelor grafice cu utilizatorul dintr-o varietate de setări profesionale. A fost activat un instrument Python, iar efortul de raționament a fost setat la maxim. Fără instrumentul Python, scorurile sunt mult mai mici. Recomandăm activarea instrumentului Python pentru sarcini vizuale precum acestea.

Comparativ cu modelele anterioare, GPT‑5.2 Thinking înțelege mai bine modul în care elementele sunt poziționate într-o imagine, ceea ce ajută la sarcinile în care aspectul relativ este esențial pentru rezolvarea problemei. În exemplul de mai jos, îi cerem modelului să identifice componentele dintr-o imagine de intrare (în acest caz, o placă de bază) și să returneze etichete cu cadre de delimitare aproximative. Chiar și în cazul unei imagini de calitate slabă, GPT‑5.2 identifică regiunile principale și plasează cadre care corespund aproximativ locațiilor reale ale fiecărei componente, în timp ce GPT‑5.1 etichetează doar câteva părți și demonstrează o înțelegere mult mai slabă a dispunerii lor spațiale.

GPT‑5.1
Example output of GPT-5.1 identifying components in an image
GPT‑5.2
Example output of GPT-5.2 identifying components in an image

Apelarea de instrumente

GPT‑5.2 Thinking atinge un nou nivel de performanță de 98,7% pe Tau2-bench Telecom, demonstrându-și capacitatea de a utiliza în mod fiabil instrumentele în sarcini lungi, cu mai multe ture.

În cazurile de utilizare sensibile la latență, GPT‑5.2 Thinking funcționează mult mai bine și la reasoning.effort=’none’, depășind substanțial GPT‑5.1 și GPT‑4.1.

În τ2-bench⁠(se deschide într-o fereastră nouă), modelele folosesc instrumente pentru a îndeplini sarcinile de asistență pentru clienți într-o interacțiune multi-turn cu un utilizator simulat. Pentru domeniul Telecom, am inclus o instrucțiune scurtă, în general utilă, în promptul sistemului pentru a îmbunătăți performanța. Excludem subsetul Companii aeriene din cauza gradării datelor de teren de calitate inferioară.

Pentru profesioniști, acest lucru se traduce prin fluxuri de lucru complete mai puternice, cum ar fi rezolvarea cazurilor de asistență pentru clienți, extragerea datelor din mai multe sisteme, rularea de analize și generarea de rezultate finale cu mai puține defalcări între etape.

De exemplu, atunci când se pune o întrebare complexă la serviciul clienți, care necesită o rezolvare în mai mulți pași, modelul poate coordona mai eficient un flux de lucru complet pentru mai mulți agenți. În cazul de mai jos, un călător raportează un zbor întârziat, o conexiune pierdută, o ședere peste noapte în New York și o cerință medicală privind locul din avion. GPT‑5.2 gestionează întregul lanț de sarcini — reprogramare, loc în avion cu asistență specială și compensație — oferind un rezultat mai complet decât GPT‑5.1.

My flight from Paris to New York was delayed, and I missed my connection to Austin. My checked bag is also missing, and I need to spend the night in New York. I also require a special front-row seat for medical reasons. Can you help me?

GPT‑5.1
Example of tool calling output in GPT-5.1
GPT‑5.2
Example of tool calling output in GPT-5.2

Știință și matematică

Una dintre speranțele noastre pentru inteligența artificială este că va accelera cercetarea științifică în beneficiul tuturor. În acest sens, am colaborat cu cercetătorii științifici și le-am ascultat părerile pentru a înțelege cum poate inteligența artificială să le accelereze activitatea, iar luna trecută am împărtășit câteva experimente colaborative preliminare aici.

Considerăm că GPT‑5.2 Pro și GPT‑5.2 Thinking sunt cele mai bune modele din lume pentru asistarea și accelerarea oamenilor de știință. Pe GPQA Diamond, un test de performanță pentru întrebări și răspunsuri la nivel de absolvent, verificat de Google, GPT‑5.2 Pro atinge 93,2%, urmat îndeaproape de GPT‑5.2 Thinking la 92,4%.

În GPQA Diamond(se deschide într-o fereastră nouă), modelele răspund la întrebări cu variante multiple de răspuns despre fizică, chimie și biologie. Nu au fost activate instrumente, iar efortul de raționament a fost setat la maxim.

În cadrul FrontierMath (Nivel 1–3), o evaluare a matematicii la nivel de expert, GPT‑5.2 Thinking a stabilit un nou standard de referință, rezolvând 40,3% din probleme.

În FrontierMath(se deschide într-o fereastră nouă), modelele rezolvă probleme matematice la nivel de expert. A fost activat un instrument Python, iar efortul de raționament a fost setat la maxim.

Începem să observăm că modelele de inteligență artificială accelerează în mod semnificativ progresul în matematică și științe, în moduri tangibile. De exemplu, în niște studii recente cu GPT‑5.2 Pro, cercetătorii au explorat o întrebare deschisă în teoria învățării statistice. Într-un cadru restrâns și bine definit, modelul a propus o demonstrație care a fost ulterior verificată de autori și revizuită de experți externi, ilustrând modul în care modelele de frontieră pot facilita cercetarea matematică sub supravegherea atentă a oamenilor.

ARC-AGI 2

În cadrul ARC-AGI-1 (Verified), un test de performanță conceput pentru a măsura capacitatea generală de raționament, GPT‑5.2 este primul model care depășește pragul de 90%, îmbunătățindu-se de la 87% față de o3‑preview de anul trecut și reducând totodată de aproximativ 390 de ori costul necesar pentru a atinge această performanță.

În cadrul ARC-AGI-2 (Verified), care crește dificultatea și izolează mai bine raționamentul fluid, GPT‑5.2 Thinking atinge un nou nivel de excelență pentru modelele bazate pe lanțuri de gândire, obținând un scor de 52,9%. GPT‑5.2 Pro are performanțe și mai bune, atingând 54,2%, extinzând și mai mult capacitatea modelului de a dezvolta un raționament pentru probleme noi și abstracte.

Îmbunătățirile din cadrul acestor evaluări reflectă raționamentul în mai mulți pași mai performant al GPT‑5.2, precizia cantitativă mai mare și rezolvarea mai fiabilă a problemelor în cazul sarcinilor tehnice complexe.

Iată ce declară primii noștri testeri despre GPT‑5.2:

„GPT-5.2 ne-a permis o schimbare completă a arhitecturii. Am restrâns un sistem fragil, cu mai mulți agenți, într-un singur mega-agent cu peste 20 de instrumente. Cea mai bună parte este că pur și simplu funcționează. Mega-agentul este mai rapid, mai inteligent și de 100 de ori mai ușor de întreținut. Observăm o latență dramatic mai mică, apelări de instrumente mult mai puternice și nu mai avem nevoie de solicitări de sistem extinse, deoarece versiunea 5.2 va rula curat pe baza unei solicitări simple, de un singur rând. Parcă ar fi magie pură."
AJ Orbach, director executiv, Triple Whale

GPT‑5.2 în ChatGPT

În ChatGPT, utilizatorii ar trebui să observe că GPT‑5.2 este mai plăcut de utilizat în activitatea zilnică — este mai structurat, mai fiabil și totuși la fel de plăcut în conversație.

GPT‑5.2 Instant este un instrument rapid și performant pentru munca și învățarea de zi cu zi, cu îmbunătățiri clare în privința întrebărilor de căutare de informații, instrucțiunilor și ghidurilor detaliate, redactării tehnice și traducerii, dezvoltând tonul conversațional mai cald introdus în GPT‑5.1 Instant. Primii testeri au remarcat în special explicațiile mai clare, care prezintă informațiile cheie încă de la început.

GPT‑5.2 Thinking este proiectat pentru activități mai profunde, ajutând utilizatorii să abordeze sarcini mai complexe cu un nivel mai ridicat de rafinament — în special pentru programare, rezumarea documentelor lungi, răspunderea la întrebări despre fișierele încărcate, parcurgerea pas cu pas a calculelor matematice și logice și sprijinirea planificării și deciziilor cu o structură mai clară și detalii mai utile.

GPT‑5.2 Pro este cea mai inteligentă și mai fiabilă opțiune pentru întrebări dificile, în cazul cărora merită să aștepți un răspuns de calitate superioară. Testele preliminare au arătat că această versiune prezintă mai puține erori majore și performanțe mai bune în domenii complexe, precum programarea.

Siguranță

GPT‑5.2 are la bază cercetarea privind finalizarea în siguranță lansată odată cu GPT‑5, care învață modelul să ofere răspunsul cel mai util, rămânând totodată în limitele de siguranță.

Odată cu această lansare, am continuat să lucrăm la îmbunătățirea răspunsurilor modelelor noastre în conversațiile sensibile, cu îmbunătățiri semnificative ale modului în care răspund la solicitări care indică semne de suicid sau autovătămare, tulburări de sănătate mintală sau dependență emoțională de model. Aceste intervenții specifice au dus la mai puține răspunsuri nedorite, atât în cazul GPT‑5.2 Instant, cât și în cazul GPT‑5.2 Thinking în comparație cu modelele GPT‑5.1 și GPT‑5 Instant și Thinking. Mai multe detalii pot fi găsite în fișa de sistem.

Suntem în fazele incipiente ale implementării modelului nostru de estimare a vârstei, astfel încât să putem aplica automat protecții de conținut pentru utilizatorii sub 18 ani, în scopul de a limita accesul la conținut sensibil. Acest lucru vine în completarea abordării noastre existente față de utilizatorii despre care știm că au sub 18 ani și a controalelor parentale.

GPT‑5.2 este un pas dintr-o serie continuă de îmbunătățiri și suntem departe de a fi terminat. Deși această versiune oferă avansuri semnificative în ceea ce privește inteligența și productivitatea, știm că există domenii în care oamenii își doresc mai mult. În ChatGPT, lucrăm la probleme cunoscute, cum ar fi refuzurile excesive, în timp ce continuăm să ridicăm ștacheta în ceea ce privește siguranța și fiabilitatea per ansamblu. Aceste schimbări sunt complexe și ne concentrăm pe a le realiza corect.

Evaluări ale sănătății mintale


GPT‑5.2
Instant

GPT‑5.1
Instant

GPT‑5.2
Thinking

GPT‑5.1
Thinking

Sănătate mintală

0,995

0,883

0,915

0,684

Dependență emoțională

0,938

0,945

0,955

0,785

Autoagresiune

0,938

0,925

0,963

0,937

Disponibilitate și prețuri

În ChatGPT, vom începe astăzi lansarea GPT‑5.2 (Instant, Thinking și Pro), începând cu planurile cu plată (Plus, Pro, Go, Business, Enterprise). Implementăm GPT‑5.2 treptat pentru a menține ChatGPT cât mai fluid și fiabil posibil; dacă nu îl vezi de la început, încearcă din nou mai târziu. În ChatGPT, GPT‑5.1 va fi în continuare disponibil pentru utilizatorii cu plată timp de trei luni în cadrul modelelor vechi, după care vom renunța la GPT‑5.1.

Denumirea modelelor în ChatGPT și API

ChatGPT

API

ChatGPT‑5.2 Instant

GPT‑5.2‑chat‑latest

ChatGPT‑5.2 Thinking

GPT‑5.2

ChatGPT‑5.2 Pro

GPT‑5.2 Pro

În platforma noastră API, GPT‑5.2 Thinking este disponibil astăzi în API-ul Responses și API-ul Chat Completions ca GPT‑5.2 și GPT‑5.2 Instant ca GPT‑5.2‑chat‑latest. GPT‑5.2 Pro este disponibil în API-ul Responses ca gpt-5.2-pro. Dezvoltatorii pot seta acum parametrul de raționament în GPT‑5.2. Pro, precum și în PT-5.2 Pro și GPT‑5.2 Acum, Thinking este compatibil cu noul efort de raționament de al cincilea nivel xhigh, pentru sarcinile în care calitatea este esențială.

GPT‑5.2 are un preț de 1,75 USD/1 milion de tokenuri de intrare și 14 USD/1 milion de tokenuri de ieșire, cu o reducere de 90% pentru datele de intrare memorate în cache. În mai multe evaluări agentice, am constatat că, în ciuda în ciuda costului mai mare per token al GPT‑5.2, costul obținerii unui anumit nivel de calitate a fost până la urmă mai mic datorită eficienței mai mari a tokenurilor din GPT‑5.2.

Deși prețul abonamentului ChatGPT rămâne același, în API, GPT‑5.2 are un preț mai mare per token decât GPT‑5.1, deoarece este un model mai capabil. Încă are un preț sub alte modele de top, astfel încât utilizatorii îl pot folosi în continuare în mod intensiv în munca zilnică și în aplicațiile de bază.

Preț per milion de tokenuri

Model

Intrare

Date de intrare memorate în cache

Ieșire

gpt-5.2 /
gpt-5.2-chat-latest

1,75 $

0,175 $

14 $

gpt-5.2-pro

21 $

-

168 $

gpt-5.1 /
gpt-5.1-chat-latest

1,25 $

0,125 $

10 $

gpt-5-pro

15 $

-

120 USD

Nu avem planuri actuale de a renunța la GPT‑5.1, GPT‑5 sau GPT‑4.1 în API și vom comunica dezvoltatorilor orice planuri de retragere a versiunii cu o notificare prealabilă suficientă. Deși GPT‑5.2 va funcționa bine în Codex imediat după deschidere, ne așteptăm să lansăm o versiune a GPT‑5.2 optimizată pentru Codex în următoarele săptămâni.

Partenerii noștri

GPT‑5.2 a fost dezvoltat în colaborare cu partenerii noștri de lungă durată NVIDIA și Microsoft. Centrele de date Azure și GPU-urile NVIDIA, inclusiv H100, H200 și GB200-NVL72, susțin infrastructura de instruire la scară largă a OpenAI, generând creșteri semnificative ale inteligenței modelelor. Împreună, această colaborare ne permite să scalăm capacitatea de calcul cu încredere și să lansăm noi modele pe piață mai rapid.

Anexă

Teste de performanță detaliate

Mai jos, prezentăm scorurile testelor de performanță complete pentru GPT‑5.2 Thinking, împreună cu un subset pentru GPT‑5.2 Pro

Profesional
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
GDPval (ties allowed, wins or ties)70.9%74.1%38.8% (GPT-5)
GDPval (ties allowed, clear wins)49.8%60.0%35.5% (GPT-5)
GDPval (no ties)61.0%67.6%37.1% (GPT-5)
Investment banking spreadsheet tasks (internal)68.4%71.7%59.1%
Programare
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
SWE-Bench Pro, Public55.6%-50.8%
SWE-bench Verified80.0%-76.3%
SWE-Lancer, IC Diamond*74.6%-69.7%
Factualitate
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
ChatGPT answers without errors (w/ search)93.9%-91.2%
ChatGPT answers without errors (no search)88.0%-87.3%
Context lung
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
OpenAI MRCRv2, 8 needles, 4k–8k98.2%-65.3%
OpenAI MRCRv2, 8 needles, 8k–16k89.3%-47.8%
OpenAI MRCRv2, 8 needles, 16k–32k95.3%-44.0%
OpenAI MRCRv2, 8 needles, 32k–64k92.0%-37.8%
OpenAI MRCRv2, 8 needles, 64k–128k85.6%-36.0%
OpenAI MRCRv2, 8 needles, 128k–256k77.0%-29.6%
BrowseComp Long Context 128k92.0%-90.0%
BrowseComp Long Context 256k89.8%-89.5%
GraphWalks bfs <128k94.0%-76.8%
Graphwalks parents <128k89.0%-71.5%
Viziune
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
CharXiv reasoning (no tools)82.1%-67.0%
CharXiv reasoning (w/ Python)88.7%-80.3%
MMMU Pro (no tools)79.5%--
MMMU Pro (w/ Python)80.4%-79.0%
Video MMMU (no tools)85.9%-82.9%
Screenspot Pro (w/ Python)86.3%-64.2%
Utilizare instrument
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
Tau2-bench Telecom98.7%-95.6%
Tau2-bench Retail82.0%-77.9%
BrowseComp65.8%77.9%50.8%
Scale MCP-Atlas60.6%-44.5%
Toolathlon46.3%-36.1%
Academic
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
GPQA Diamond (no tools)92.4%93.2%88.1%
HLE (no tools)34.5%36.6%25.7%
HLE (w/ search, Python)45.5%50.0%42.7%
MMMLU89.6%-89.5%
HMMT, Feb 2025 (no tools)99.4%100.0%96.3%
AIME 2025 (no tools)100.0%100.0%94.0%
FrontierMath Tier 1–3 (w/ Python)40.3%-31.0%
FrontierMath Tier 4 (w/ Python)14.6%-12.5%
Raționament abstract
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
ARC-AGI-1 (Verified)86.2%90.5%72.8%
ARC-AGI-2 (Verified)52.9%54.2% (high)17.6%

Modelele au fost rulate cu efortul maxim de raționament disponibil în API-ul nostru (xhigh pentru GPT‑5.2 Thinking și Pro și înalt pentru GPT‑5.1 Thinking), cu excepția evaluărilor profesionale, unde GPT‑5.2 Thinking a fost rulat cu un efort de raționament intens, maximul disponibil în ChatGPT Pro. Testele de performanță au fost efectuate într-un mediu de cercetare, care poate oferi rezultate ușor diferite față de versiunea ChatGPT de producție în unele cazuri.

* În cazul SWE-Lancer, am omis 40/237 de probleme care nu au rulat pe infrastructura noastră.

Autor

OpenAI