Kalo te përmbajtja kryesore
OpenAI

11 dhjetor 2025

ProduktiPublikimi

Prezantimi i GPT‑5.2

Modeli më i avancuar kufitar për punë profesionale dhe agjentë afatgjatë.

Duke ngarkuar…

Po prezantojmë GPT‑5.2, serinë më të aftë të modeleve deri më tani për punë profesionale të bazuar në njohuri.

Tashmë, përdoruesi mesatar i ChatGPT Enterprise thotë se AI i kursen 40–60 minuta në ditë, dhe përdoruesit e shpeshtë thonë se u kursen më shumë se 10 orë në javë. Ne e projektuam GPT‑5.2 për të çliruar edhe më shumë vlerë ekonomike për njerëzit; është më i mirë në krijimin e fletëllogaritëseve, ndërtimin e prezantime, shkrimin e kodit, perceptimin e imazheve, kuptimin e konteksteve të gjata, përdorimin e mjeteve dhe menaxhimin e projekteve komplekse me shumë hapa.

GPT‑5.2 vendos një standard të ri në shumë kritere, duke përfshirë GDPval, ku tejkalon profesionistët e industrisë në detyrat e mirëspecifikuara të punës me njohuri që përfshijnë 44 profesione.


GPT‑5.2 Thinking 

GPT‑5.1 Thinking

GDPval (fitore ose barazime)
Detyra të punës të bazuara në njohuri

70,9%

38.8% (GPT‑5)

SWE-Bench Pro (public)
Inxhinieri softuerike

55.6%

50,8%

Verifikuar nga SWE-bench
Inxhinieri softuerike

80.0%

76,3%

GPQA Diamond (pa mjete)
Pyetje shkencore

92.4%

88,1%

CharXiv Reasoning (me Python)
Pyetje për figura shkencore

88.7%

80,3%

HMMT (Shkurt 2025)
Turneu i matematikës

99,4%

96.3%

FrontierMath (Niveli 1–3)
Matematikë e avancuar

40.3%

31.0%

ARC-AGI-1 (Verified)
Arsyetim abstrakt

86.2%

72,8%

ARC-AGI-2 (Verified)
Arsyetim abstrakt

52,9%

17.6%

Notion(hapet në një dritare të re), Box(hapet në një dritare të re), Shopify(hapet në një dritare të re), Harvey(hapet në një dritare të re) dhe Zoom(hapet në një dritare të re) vërejtën se GPT‑5.2 demonstron performancë të nivelit më të lartë në arsyetim afatgjatë dhe thirrje të mjeteve. Databricks(hapet në një dritare të re), Hex(hapet në një dritare të re) dhe Triple Whale(hapet në një dritare të re) vunë re se GPT‑5.2 është i jashtëzakonshëm në detyrat e shkencës së të dhënave agjentike dhe analizës së dokumenteve. Cognition(hapet në një dritare të re), Warp(hapet në një dritare të re), Charlie Labs(hapet në një dritare të re), JetBrains(hapet në një dritare të re) dhe Augment Code(hapet në një dritare të re) pohojnë se GPT‑5.2 ofron performancë të avancuar në kodim agjentik, me përmirësime të matshme në fusha si kodimi interaktiv, rishikimi i kodit dhe gjetja e gabimeve.

Në ChatGPT, GPT‑5.2 Instant, Thinking dhe Pro do të fillojnë të shfaqen sot, duke filluar me planet me pagesë. Në API, ato tani janë të disponueshme për të gjithë zhvilluesit.

Në përgjithësi, GPT‑5.2 sjell përmirësime të rëndësishme në inteligjencën e përgjithshme, kuptimin e kontekstit të gjatë, përdorimin e mjeteve agjentike dhe vizionin—duke e bërë atë më të aftë në ekzekutimin e detyrave komplekse të botës reale nga fillimi në fund se çdo model i mëparshëm.

Performanca e modelit

Detyra me vlerë ekonomike

GPT‑5.2 Thinking është modeli më i mirë deri më tani për përdorim në botën reale, profesional. Në GDPval, një vlerësim që mat detyrat e punës me njohuri të mirëspecifikuara në 44 profesione, GPT‑5.2 Thinking sjell një rezultat të ri të fjalës së fundit të teknologjisë dhe është modeli ynë i parë që performon baras me ose mbi nivelin e një eksperti njerëzor. Specifikisht, GPT‑5.2 Thinking tejkalon ose barazon profesionistët kryesorë të sektorit në 70.9% të krahasimeve në detyrat e njohurive të GDPval, sipas gjykuesve ekspertë njerëzorë. Këto detyra përfshijnë krijimin e prezantimeve, fletëllogariëseve dhe artefakteve të tjera. GPT‑5.2 Thinking gjeneroi outpute për detyrat e GDPval me >11 herë më shpejt dhe me <1% të kostos së profesionistëve ekspertë, duke sugjeruar se kur kombinohet me mbikëqyrjen njerëzore, GPT‑5.2 mund të ndihmojë në punën profesionale. Vlerësimet e shpejtësisë dhe kostos bazohen në metrikat historike; shpejtësia në ChatGPT mund të ndryshojë.

Në GDPval, modelet përpiqen të kryejnë punë të mirë specifikuar të bazuar në njohuri që përfshin 44 profesione nga 9 industritë kryesore që kontribuojnë në PBB-në e SHBA-së. Detyrat kërkojnë produkte reale pune, si prezantime shitjesh, fletëllogaritëse kontabël, orare të kujdesit urgjent, diagrame prodhimi, ose video të shkurtra. Në ChatGPT, GPT‑5.2 Thinking ka mjete të reja që GPT‑5 Thinking nuk i ka.

Gjatë shqyrtimit të një outputi veçanërisht të mirë, një vlerësues i GDPval komentoi, "Është një hap emocionues dhe i dukshëm në cilësinë e outputeve... [duket] sikur është bërë nga një kompani profesionale me staf, dhe ka një paraqitje të dizajnuar në mënyrë të habitshme mirë dhe këshilla për të dy dorëzimet, megjithëse me njërin ende kemi disa gabime të vogla për të korrigjuar."

Për më tepër, në vlerësimin tonë të brendshëm për detyrat e modelimit të analistëve të rinj të bankës së investimeve—si krijimi i një modeli me tre pasqyra për një kompani Fortune 500 me formatim dhe citime të sakta, ose ndërtimi i një modeli të blerjes me hua për një privatizim—mesatarja e pikëve për detyrë e GPT‑5.2 Thinking është 9.3% më e lartë se ajo e GPT‑5.1. duke u rritur nga 59.1% në 68.4%.

Krahasimet krah për krah tregojnë sofistikim dhe formatim të përmirësuar në fletëllogaritëset dhe slajdet e gjeneruara nga GPT‑5.2 Thinking:

Side by side example of spreadsheet outputs from GPT-5.1 vs GPT-5.2

Kërkesë: Krijo një model planifikimi të fuqisë punëtore: numri i punonjësve, plan punësimi, largime dhe ndikimi në buxhet. Përfshini departamentet e inxhinierisë, marketingut, ligjor dhe shitjeve.

Për të përdorur aftësitë e reja të fletëllogaritëseve dhe prezantimit në ChatGPT, duhet të jesh në një plan të paguar dhe të zgjedhësh ose GPT‑5.2 Thinking ose Pro. Gjenerimet komplekse mund të duan shumë minuta për t'u krijuar.

Kodimi

GPT‑5.2 Thinking vendos një standard të ri fjalës së fundit të teknologjisë prej 55.6% në SWE-bench Pro, një vlerësim rigoroz i inxhinierisë softuerike në botën reale. Ndryshe nga SWE-bench Verified, që teston vetëm Python, SWE-bench Pro teston katër gjuhë dhe synon të jetë më rezistent ndaj kontaminimit, sfidues, i larmishëm dhe i rëndësishëm për industrinë.

In SWE-bench Pro(hapet në një dritare të re), një model merr një depo kodi dhe duhet të përftoj një patch për të zgjidhur një detyrë realiste të inxhinierisë softuerike.

Në SWE-bench Verified (jo i paraqitur), rezultatet e GPT‑5.2 Thinking arritën një nivel të ri të lartë prej 80%.

Për përdorim profesional të përditshëm, kjo përkthehet në një model që mund të spastrojë më me besueshmëri kodin e prodhimit, të implementojë kërkesat për veçori, të rifaktorizojë baza të mëdha kodesh dhe të dërgojë rregullime nga fillimi në fund me më pak ndërhyrje manuale.

GPT‑5.2 Thinking është gjithashtu më i mirë në inxhinierinë e softuerit front-end sesa GPT‑5.1 Thinking. Testuesit e hershëm e gjetën dukshëm më të fortë në zhvillimin e front-end dhe në punën komplekse ose jo konvencionale të ndërfaqes vizuale—sidomos kur përfshihen elemente 3D—duke e bërë një partner të fuqishëm të përditshëm për inxhinierët në të gjithë paketën. Shiko disa shembuj të asaj që mund të krijohet nga një kërkesë e vetme:

Kërkesë: Krijo një aplikacion me një faqe të vetme në një skedar të vetëm HTML me kërkesat e mëposhtme:
- Emri: Simulimi i valëve të oqeanit
- Qëllimi: Shfaq valë të animuara realiste.
- Karakteristikat: Ndrysho shpejtësinë e erës, lartësinë e valëve, ndriçimin.
- Ndërfaqja duhet të jetë qetësuese dhe realiste.

Testuesit e hershëm ndanë përshtypjet e tyre për GPT‑5.2. Aftësitë e kodimit:

GPT-5.2 përfaqëson hapin më të madh për modelet GPT në kodimin agjentik që nga GPT-5 dhe është një model kodimi më i avancuar në gamën e tij të çmimeve. Rritja e versionit nënvlerëson kërcimin në inteligjencë. E kemi bërë parazgjedhje në të gjithë Windsurf dhe disa ngarkesa kryesore të Devin.
Jeff Wang, drejtor i përgjithshëm, Windsurf

Fakti

GPT‑5.2 Thinking halucinon më pak se GPT‑5.1 Thinking. Në një grup kërkesash të paidentifikuara nga ChatGPT, përgjigjet me gabime ishin 38%rel më pak të zakonshme. Për profesionistët, kjo do të thotë më pak gabime kur përdorin modelin për kërkime, shkrim, analizë dhe mbështetje në vendimmarrje—duke e bërë modelin më të besueshëm për punën e përditshme të njohurive.

Përpjekja e arsyetimit u vendos në maksimumin e mundshëm dhe një mjet kërkimi u aktivizua. Gabime u zbuluan nga modele të tjera, të cilat mund të bëjnë gabime vetë. Shkalla e gabimeve në nivelin e pretendimeve është shumë më e ulët se shkalla e gabimeve në nivelin e përgjigjeve, pasi shumica e përgjigjeve përmbajnë shumë pretendime.

Si të gjitha modelet, GPT‑5.2 Thinking është i papërsosur. Për çdo gjë kritike, kontrollo dy herë përgjigjet e tij.

Kontekst i gjatë

GPT‑5.2 Thinking vendos një standard të ri në arsyetimin me kontekst të gjatë, duke arritur performancë kryesuese në OpenAI MRCRv2—një vlerësim që teston aftësinë e një modeli për të integruar informacionin e shpërndarë nëpër dokumente të gjata. Në detyra të botës reale si analiza e thellë e dokumenteve, që kërkojnë informacion të lidhur nëpër qindra mijëra tokenë, GPT‑5.2 Thinking është ndjeshëm më i saktë se GPT‑5.1 Thinking. Në veçanti, është modeli i parë që kemi parë që arrin saktësi afër 100% në variantin MRCR me 4 gjilpëra (deri në 256k tokenë).

Në terma praktikë, kjo aktivizon profesionistët të përdorin GPT‑5.2 për të punuar me dokumente të gjata—si raporte, kontrata, punime kërkimore, transkripte dhe projekte me shumë skedarë—duke ruajtur koherencën dhe saktësinë në qindra mijëra tokenë. Kjo e bën GPT‑5.2 veçanërisht të përshtatshëm për analizë të thellë, sintezë dhe rrjedha pune komplekse me burime të shumta.

OpenAI-MRCR⁠(hapet në një dritare të re) v2 (zgjidhja e bashkëreferencës me shumë raunde), kërkesa të shumta identike të përdoruesit “gjilpërë” futen në “mullarë kashte” të gjatë me kërkesa dhe përgjigje të ngjashme, dhe modelit i kërkohet të riprodhojë përgjigjen ndaj gjilpërës së n-të. Versioni 2 i vlerësimit rregullon ~5% të detyrave që kishin vlera të pasakta të së vërtetës bazë. Raporti mesatar i përputhjes mat mesataren e përputhjes së vargut midis përgjigjes së modelit dhe përgjigjes së saktë. Pikët në 256k kodet maksimale të hyrjes përfaqësojnë mesataret mbi 128k–256k kodet e hyrjes, dhe kështu me radhë. Këtu, 256k përfaqëson 256 * 1,024 = 262,114 tokena. Përpjekja e arsyetimit ishte vendosur në maksimumin e disponueshëm.

Për detyrat që përfitojnë nga të menduarit përtej dritares maksimale të kontekstit, GPT‑5.2 Thinking është i përputhshëm me pajisjen fundore të re Responses /compact, e cila zgjeron dritaren efektive të kontekstit të modelit. Kjo i lejon GPT‑5.2 Thinking të përballojë procese pune më të ngarkuara me mjete, që zgjasin për një kohë të gjatë dhe që përndryshe do të ishin të kufizuara nga gjatësia e kontekstit. Lexo më shumë në dokumentacionin tonë të API(hapet në një dritare të re).

Vizion

GPT‑5.2 Thinking është modeli ynë më i fuqishëm i vizionit deri më tani, duke ulur shkallën e gabimeve afërsisht në gjysmë në arsyetimin e grafikëve dhe kuptimin e ndërfaqeve softuerike.

Për përdorim profesional të përditshëm, kjo do të thotë që modeli mund të interpretojë më saktë panelet, pamjet e produkteve, diagramet teknike dhe raportet vizuale—duke mbështetur flukset e punës në financë, operacione, inxhinieri, dizajn dhe mbështetje për klientët ku informacioni vizual është qendror.

CharXiv Reasoning(hapet në një dritare të re), modelet i përgjigjen pyetjeve rreth diagrameve vizuale nga artikujt shkencorë. Një mjet Python u aktivizua dhe përpjekja e arsyetimit u vendos në maksimum.

ScreenSpot-Pro(hapet në një dritare të re), modelet duhet të Arsyetojnë mbi pamjet e ekranit me rezolucion të lartë të ndërfaqeve grafike të përdoruesit nga një sërë mjedisesh profesionale. Një mjet Python u aktivizua dhe përpjekja e arsyetimit u vendos në maksimum. Pa mjetin Python, rezultatet janë shumë më të ulëta. Ne ju rekomandojmë të aktivizoni mjetin Python në detyra vizuale si këto.

Krahasuar me modelet e mëparshme, GPT‑5.2 Thinking ka një kuptim më të thellë të pozicionimit të elementeve brenda një imazhi, gjë që ndihmon në detyra ku paraqitja relative luan një rol të rëndësishëm në zgjidhjen e problemit. Në shembullin më poshtë, ne i kërkojmë modelit të identifikojë komponentët në një input imazhi (në këtë rast, një pllakë amë) dhe të kthejë etiketa me kuti kufizuese përafërsisht. Edhe në një imazh me cilësi të ulët, GPT‑5.2 identifikon rajonet kryesore dhe vendos kuti që përafërsisht përputhen me vendndodhjet e vërteta të secilit komponent, ndërsa GPT‑5.1 vetëm etiketon disa pjesë dhe tregon një kuptim shumë më të dobët të rregullimit të tyre hapësinor.

GPT‑5.1
Example output of GPT-5.1 identifying components in an image
GPT‑5.2
Example output of GPT-5.2 identifying components in an image

Thirrja e mjeteve

GPT‑5.2 Thinking arrin një standard të ri prej 98.7% në Tau2-bench Telecom, duke demonstruar aftësinë e tij për të përdorur në mënyrë të besueshme mjetet në detyra të gjata dhe me shumë kthesa.

Për rastet e përdorimit të ndjeshme ndaj vonesës, GPT‑5.2 Thinking gjithashtu performon shumë më mirë në reasoning.effort=’none’, duke tejkaluar ndjeshëm GPT‑5.1 dhe GPT‑4.1.

τ2-bench⁠(hapet në një dritare të re), modelet përdorin mjete për të përfunduar detyrat e mbështetjes së klientit në një ndërveprim me shumë kthesa me një përdorues të simuluar. Për fushën e telekomunikacioneve, përfshimë një udhëzim të shkurtër dhe përgjithësisht të dobishëm në kërkesën e sistemit për të rritur performancën. Ne përjashtojmë nëngrupin e linjave ajrore për shkak të vlerësimit të cilësisë më të ulët të të vërtetës bazë.

Për profesionistët, kjo përkthehet në procese pune më të forta nga fillimi në fund—si zgjidhja e rasteve të mbështetjes së klientit, tërheqja e të dhënave nga sisteme të shumta, kryerja e analizave dhe përftimi i rezultateve përfundimtare me më pak ndërprerje midis hapave.

Për shembull, kur bën një pyetje komplekse për shërbimin ndaj klientit që kërkon zgjidhje me shumë hapa, modeli mund të koordinojë më efektivisht një rrjedhë të plotë pune përmes shumë agjentëve. Në rastin më poshtë, një udhëtar raporton një fluturim të vonuar, një lidhje të humbur, një qëndrim gjatë natës në Nju Jork dhe një kërkesë për vendosje mjekësore. GPT‑5.2 menaxhon të gjithë zinxhirin e detyrave—rirezervimi, vendet për ndihmë të veçantë dhe kompensimi—duke ofruar një rezultat më të plotë se GPT‑5.1.

My flight from Paris to New York was delayed, and I missed my connection to Austin. My checked bag is also missing, and I need to spend the night in New York. I also require a special front-row seat for medical reasons. Can you help me?

GPT‑5.1
Example of tool calling output in GPT-5.1
GPT‑5.2
Example of tool calling output in GPT-5.2

Shkencë dhe matematikë

Një nga shpresat tona për AI është që ajo të përshpejtojë kërkimet shkencore për përfitimin e të gjithëve. Për këtë, kemi punuar dhe dëgjuar shkencëtarët për të parë se si AI mund të përshpejtojë punën e tyre, dhe muajin e kaluar ndamë disa eksperimente të hershme bashkëpunuese këtu.

Ne besojmë se GPT‑5.2 Pro dhe GPT‑5.2 Thinking janë modelet më të mira në botë për të ndihmuar dhe përshpejtuar shkencëtarët. Në GPQA Diamond, një standard pyetje-përgjigjesh në nivelin e diplomantëve që është i papërshkueshëm nga Google, GPT‑5.2 Pro arrin 93.2%, i ndjekur nga afër nga GPT‑5.2 Thinking në 92.4%.

GPQA Diamond(hapet në një dritare të re), modelet i përgjigjen pyetjeve me zgjedhje të shumëfishtë për fizikën, kiminë dhe biologjinë. Asnjë mjet nuk ishte aktivizuar dhe përpjekja e arsyetimit ishte vendosur në maksimum.

Në FrontierMath (Niveli 1–3), një vlerësim i matematikës në nivel ekspert, GPT‑5.2 Thinking vendosi një standard të ri, duke zgjidhur 40.3% të problemeve.

Te FrontierMath(hapet në një dritare të re), modelet zgjidhin probleme matematike në nivel ekspertësh. Një mjet Python u aktivizua dhe përpjekja e arsyetimit u vendos në maksimum.

Po fillojmë të shohim se si modelet e AI po përshpejtojnë në mënyrë domethënëse përparimin në matematikë dhe shkencë në mënyra të prekshme. Për shembull, në punën e fundit me GPT‑5.2 Pro, studiuesit eksploruan një pyetje të hapur në teorinë e të mësuarit statistikor. Në një mjedis të ngushtë dhe të përcaktuar mirë, model propozoi një provë që më pas u verifikua nga autorët dhe u rishikua me ekspertë të jashtëm, duke ilustruar se si modelet pararojë mund të ndihmojnë kërkimin matematikor nën mbikëqyrje të afërt njerëzore.

ARC-AGI 2

Në ARC-AGI-1 (Verified), një standard i krijuar për të matur aftësinë e përgjithshme të arsyetimit, GPT‑5.2 është modeli i parë që kalon pragun e 90%, duke u përmirësuar nga 87% nga pamje paraprake o3 vitin e kaluar, ndërsa redukton koston e arritjes së asaj performance me afërsisht 390×.

Në ARC-AGI-2 (Verified), që rrit vështirësinë dhe izolon më mirë arsyetimin fluid, GPT‑5.2 Thinking arrin një nivel të ri të fjalës së fundit të teknologjisë për modelet e zinxhirit të mendimit, duke shënuar 52.9%. GPT‑5.2 Pro performon edhe më lart, duke arritur 54.2%, duke zgjeruar më tej aftësinë e modelit për të arsyetuar përmes problemeve të reja dhe abstrakte.

Përmirësimet në këto vlerësime pasqyrojnë përparimet e GPT‑5.2. arsyetim më i fortë me shumë hapa, saktësi më e madhe numerike dhe zgjidhje më të besueshme të problemeve në detyra teknike komplekse.

Ja çfarë thonë testuesit tanë të hershëm për GPT‑5.2:

GPT-5.2 shkyçi një ndryshim të plotë të arkitekturës për ne. Ne shndërruam një sistem të brishtë, me shumë agjentë, në një megaagjent të vetëm me më shumë se 20 mjete. Pjesa më e mirë është që thjesht funksionon. Megaagjenti është më i shpejtë, më i zgjuar dhe 100 herë më i lehtë për t'u mirëmbajtur. Po shohim vonesa shumë më të ulëta, thirrje shumë më të forta të mjeteve, dhe nuk kemi më nevojë për kërkesa të gjera të sistemit sepse 5.2 do të ekzekutohet pastër nga një kërkesë e thjeshtë, me një rresht. Është si magji e pastër.&quot;
AJ Orbach, drejtor i përgjithshëm, Triple Whale

GPT‑5.2 në ChatGPT

Në ChatGPT, përdoruesit duhet të vërejnë se GPT‑5.2 ndihet më mirë për përdorim të përditshëm—më i strukturuar, më i besueshëm dhe ende i këndshëm për të biseduar.

GPT‑5.2 Instant është një mjet i shpejtë dhe i aftë për punën dhe mësimin e përditshëm, me përmirësime të qarta në pyetjet për kërkimin e informacionit, udhëzimet dhe shpjegimet, shkrimin teknik dhe përkthimin, duke u mbështetur në tonin më të ngrohtë bisedor të prezantuar në GPT‑5.1 Instant. Testuesit e hershëm veçanërisht vunë re shpjegime më të qarta që nxjerrin në pah informacionin kyç që në fillim.

GPT‑5.2 Thinking është projektuar për punë më të thella, duke ndihmuar përdoruesit të përballen me detyra më komplekse me më shumë përpunim—veçanërisht për kodim, përmbledhjen e dokumenteve të gjata, përgjigjen e pyetjeve për skedarët e ngarkuar, zgjidhjen hap pas hapi të matematikës dhe logjikës, dhe mbështetjen e planifikimit dhe vendimmarrjes me një strukturë më të qartë dhe detaje më të dobishme.

GPT‑5.2 Pro është opsioni ynë më i zgjuar dhe më i besueshëm për pyetje të vështira ku një përgjigje me cilësi më të lartë ia vlen pritja, me testimet e hershme që tregojnë më pak gabime të mëdha dhe performancë më të fortë në fushat komplekse si programimi.

Siguria në përdorim

GPT‑5.2 ndërtohet mbi kërkimin e përfundimeve të sigurta që prezantuam me GPT‑5, i cili mëson modelin të japë përgjigjen më të dobishme duke qëndruar brenda kufijve të sigurisë.

Me këtë version, ne vazhduam punën tonë për të forcuar përgjigjet e modeleve tona në biseda të ndjeshme, me përmirësime të rëndësishme në mënyrën se si ato përgjigjen ndaj kërkesave që tregojnë shenja të vetëvrasjes ose dëmtimit të vetes, shqetësimit mendor, ose varësisë emocionale nga modeli. Këto ndërhyrje të synuara kanë rezultuar në më pak përgjigje të padëshiruara në të dyja versionet e GPT‑5.2 Instant dhe GPT‑5.2 Thinking krahasuar me modelet GPT‑5.1 dhe GPT‑5 Instant dhe Thinking. Detaje të mëtejshme mund të gjenden në kartën e sistemit.

Ne jemi në fazat e hershme të prezantimit të modelit tonë të parashikimit të moshës në mënyrë që të aplikojmë automatikisht mbrojtje të përmbajtjes për përdoruesit nën 18 vjeç, për të kufizuar aksesin në përmbajtje të ndjeshme. Kjo bazohet në qasjen tonë ekzistuese ndaj përdoruesve që dimë se janë nën 18 vjeç dhe kontrollet tona prindërore.

GPT‑5.2 është një hap në një seri të vazhdueshme përmirësimesh, dhe ne jemi ende larg përfundimit. Ndërsa kjo version ofron përparime të rëndësishme në inteligjencë dhe produktivitet, ne e dimë se ka fusha ku njerëzit duan më shumë. Në ChatGPT, po punojmë për çështje të njohura si refuzimet e tepërta, ndërsa vazhdojmë të ngremë standardet për sigurinë dhe besueshmërinë në përgjithësi. Këto ndryshime janë komplekse, dhe ne jemi të përqendruar t'i bëjmë siç duhet.

Vlerësime të shëndetit mendor


GPT‑5.2
Instant

GPT‑5.1
Instant

GPT‑5.2
Thinking

GPT‑5.1
Thinking

Shëndeti mendor

0.995

0.883

0.915

0.684

Varësia emocionale

0.938

0.945

0.955

0.785

Vetëlëndimi

0.938

0.925

0.963

0.937

Disponueshmëria dhe çmimet

Në ChatGPT, do të fillojmë shpërndarjen e GPT‑5.2 (Instant, Thinking dhe Pro) sot, duke filluar me planet me pagesë (Plus, Pro, Go, Business, Enterprise). Ne e vendosim GPT‑5.2 gradualisht për të mbajtur ChatGPT sa më të qetë dhe të besueshëm që mundemi; nëse nuk e shihni fillimisht, provoni përsëri më vonë. Në ChatGPT, GPT‑5.1 do të jetë ende i disponueshëm për përdoruesit me pagesë për tre muaj nën modelet e trashëgimisë, pas së cilës do të ndërpresim GPT‑5.1.

Emërtimi i modeleve në ChatGPT dhe API

ChatGPT

API

ChatGPT‑5.2 Instant

GPT‑5.2‑chat‑latest

ChatGPT‑5.2 Thinking

GPT‑5.2

ChatGPT‑5.2 Pro

GPT‑5.2 Pro

Në platformën tonë API, GPT‑5.2 Thinking është i disponueshëm sot në Responses API dhe API e Përfundimeve të Bisedës si GPT‑5.2, dhe GPT‑5.2 Instant si gpt-5.2-chat-latest. GPT‑5.2 Pro është i disponueshëm në Responses API si gpt-5.2-pro. Zhvilluesit tani mund të vendosin parametrin e arsyetimit në GPT‑5.2 Pro, dhe të dy GPT‑5.2 Pro dhe GPT‑5.2 Thinking tani mbështesin përpjekjen e re të pestë të arsyetimit të xhigh, për detyra ku cilësia është më e rëndësishme.

GPT‑5.2 ka një çmim prej $1.75 për 1M tokenë inputi dhe $14 për 1M tokenë outputi, me një zbritje prej 90% për tokenët e inputit të ruajtur. Në disa vlerësime agjentike, ne gjetëm se pavarësisht nga GPT‑5.2 kosto më e madhe për çdo token, por kostoja e arritjes së një niveli të caktuar cilësie përfundoi më e lirë falë efikasitetit më të madh të tokenëve të GPT‑5.2.

Ndërsa çmimi i abonimit të ChatGPT mbetet i njëjtë, në API GPT‑5.2 ka një çmim më të lartë për token sesa GPT‑5.1 sepse është një model më i aftë. Çmimi i tij është ende më i ulët se modelet e tjera të avancuara, kështu që njerëzit mund të vazhdojnë ta përdorin atë në mënyrë të thelluar në punën e tyre të përditshme dhe aplikacionet kryesore.

Çmimi për një milion tokenësh

Modeli

Hyrje

Input në memorien e përkohshme

Outputi

gpt-5.2 /
gpt-5.2-chat-latest

$1.75

$0,175

14 USD

gpt-5.2-pro

$21

-

$168

gpt-5.1 /
gpt-5.1-chat-latest

$1.25

$0.125

$10

gpt-5-pro

$15

-

$120

Ne nuk kemi plane aktuale për të hequr dorë nga GPT‑5.1, GPT‑5, ose GPT‑4.1 në API dhe do të njoftojmë çdo plan heqjeje me njoftim të mjaftueshëm paraprak për zhvilluesit. Ndërsa GPT‑5.2 do të funksionojë mirë menjëherë në Codex, ne presim të lëshojmë një version të GPT‑5.2 të optimizuar për Codex në javët e ardhshme.

Partnerët tanë

GPT‑5.2 u ndërtua në bashkëpunim me partnerët tanë afatgjatë NVIDIA dhe Microsoft. Qendrat e të dhënave Azure dhe GPU-të e NVIDIA, duke përfshirë H100, H200, dhe GB200-NVL72, mbështesin infrastrukturën e trajnimit në shkallë të gjerë të OpenAI, duke sjellë përfitime të mëdha në inteligjencën e modelit. Së bashku, ky bashkëpunim na lejon të rrisim kapacitetin e përpunimit me besim dhe të sjellim modele të reja në treg më shpejt.

Shtojca

Rezultatet e detajuara të performancës

Më poshtë, raportojmë rezultatet e plota të testit standard për GPT‑5.2 Thinking, së bashku me një nëngrup për GPT‑5.2 Pro.

Profesional
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
GDPval (ties allowed, wins or ties)70.9%74.1%38.8% (GPT-5)
GDPval (ties allowed, clear wins)49.8%60.0%35.5% (GPT-5)
GDPval (no ties)61.0%67.6%37.1% (GPT-5)
Investment banking spreadsheet tasks (internal)68.4%71.7%59.1%
Kodimi
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
SWE-Bench Pro, Public55.6%-50.8%
SWE-bench Verified80.0%-76.3%
SWE-Lancer, IC Diamond*74.6%-69.7%
Fakti
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
ChatGPT answers without errors (w/ search)93.9%-91.2%
ChatGPT answers without errors (no search)88.0%-87.3%
Kontekst i gjatë
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
OpenAI MRCRv2, 8 needles, 4k–8k98.2%-65.3%
OpenAI MRCRv2, 8 needles, 8k–16k89.3%-47.8%
OpenAI MRCRv2, 8 needles, 16k–32k95.3%-44.0%
OpenAI MRCRv2, 8 needles, 32k–64k92.0%-37.8%
OpenAI MRCRv2, 8 needles, 64k–128k85.6%-36.0%
OpenAI MRCRv2, 8 needles, 128k–256k77.0%-29.6%
BrowseComp Long Context 128k92.0%-90.0%
BrowseComp Long Context 256k89.8%-89.5%
GraphWalks bfs <128k94.0%-76.8%
Graphwalks parents <128k89.0%-71.5%
Vizion
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
CharXiv reasoning (no tools)82.1%-67.0%
CharXiv reasoning (w/ Python)88.7%-80.3%
MMMU Pro (no tools)79.5%--
MMMU Pro (w/ Python)80.4%-79.0%
Video MMMU (no tools)85.9%-82.9%
Screenspot Pro (w/ Python)86.3%-64.2%
Përdorimi i veglave
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
Tau2-bench Telecom98.7%-95.6%
Tau2-bench Retail82.0%-77.9%
BrowseComp65.8%77.9%50.8%
Scale MCP-Atlas60.6%-44.5%
Toolathlon46.3%-36.1%
Akademik
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
GPQA Diamond (no tools)92.4%93.2%88.1%
HLE (no tools)34.5%36.6%25.7%
HLE (w/ search, Python)45.5%50.0%42.7%
MMMLU89.6%-89.5%
HMMT, Feb 2025 (no tools)99.4%100.0%96.3%
AIME 2025 (no tools)100.0%100.0%94.0%
FrontierMath Tier 1–3 (w/ Python)40.3%-31.0%
FrontierMath Tier 4 (w/ Python)14.6%-12.5%
Arsyetim abstrakt
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
ARC-AGI-1 (Verified)86.2%90.5%72.8%
ARC-AGI-2 (Verified)52.9%54.2% (high)17.6%

Modelet u ekzekutuan me përpjekjen maksimale të arsyetimit të disponueshme në API tonë (xhigh për GPT‑5.2). Thinking dhe Pro, dhe i lartë për GPT‑5.1 Thinking), përveç për vlerësimet profesionale, ku GPT‑5.2 Thinking u krye me përpjekje të madhe arsyetimi, maksimumin e mundshëm në ChatGPT Pro. Testet e performancës u kryen në një mjedis kërkimor, që mund të japë outpute paksa të ndryshme nga ChatGPT në prodhim në disa raste.

* Për SWE-Lancer, ne heqim 40/237 probleme që nuk u ekzekutuan në infrastrukturën tonë.

Autor

OpenAI