Ipinapakilala namin ang GPT‑5.2, ang pinaka-may kakayahang serye ng modelo para sa propesyonal na gawain sa kaalaman.
Sa kasalukuyan, ang karaniwang user ng ChatGPT Enterprise ay nagsasabi na nakakatipid sila ng 40–60 minuto bawat araw dahil sa AI, at ang mga madalas gumamit ay nagsasabing nakakatipid sila ng higit sa 10 oras bawat linggo. Dinisenyo namin ang GPT‑5.2 para magbukas ng mas maraming halagang pang-ekonomiya para sa mga tao; mas mahusay ito sa paggawa ng mga spreadsheet, paggawa ng mga presentation, pagsusulat ng code, pag-perceive ng mga larawan, pag-unawa sa mahahabang konteksto, paggamit ng mga tool, at paghawak ng mga kumplikado at maraming hakbang na proyekto.
Ang GPT‑5.2 ay nagtatakda ng bagong antas ng kahusayan sa maraming benchmark, kabilang ang GDPval, kung saan naging mas mahusay ito sa mga propesyonal sa industriya sa mga gawaing nauugnay sa tiyak na kaalaman na sumasaklaw sa 44 na trabaho.
GPT‑5.2 Thinking | GPT‑5.1 Thinking | |
GDPval (panalo o tabla) | 70.9% | 38.8% (GPT‑5) |
SWE-Bench Pro (pampubliko) | 55.6% | 50.8% |
SWE-bench Verified | 80.0% | 76.3% |
GPQA Diamond (walang tool) | 92.4% | 88.1% |
CharXiv Reasoning (gamit ang Python) | 88.7% | 80.3% |
HMMT (Peb 2025) | 99.4% | 96.3% |
FrontierMath (Tier 1–3) | 40.3% | 31.0% |
ARC-AGI-1 (Beripikado) | 86.2% | 72.8% |
ARC-AGI-2 (Beripikado) | 52.9% | 17.6% |
Napansin ng Notion(magbubukas sa bagong window), Box(magbubukas sa bagong window), Shopify(magbubukas sa bagong window), Harvey(magbubukas sa bagong window) at Zoom(magbubukas sa bagong window) na ang GPT‑5.2 ay nagpapakita ng makabagong kakayahan sa pangmatagalang pangangatwiran at performance sa paggamit ng mga kasangkapan. Nakita ng Databricks(magbubukas sa bagong window), Hex(magbubukas sa bagong window) at Triple Whale(magbubukas sa bagong window) na ang GPT‑5.2 ay natatangi sa mga gawain sa agentic data science at pagsusuri ng dokumento. Sinasabi ng Cognition(magbubukas sa bagong window), Warp(magbubukas sa bagong window), Charlie Labs(magbubukas sa bagong window), JetBrains(magbubukas sa bagong window) at Augment Code(magbubukas sa bagong window) na ang GPT‑5.2 ay naghahatid ng makabagong performance sa agentic coding, na may mga nasusukat na pagpapabuti sa mga larangan tulad ng interactive na pag-code, pagsusuri ng code, at paghahanap ng bug.
Sa ChatGPT, GPT‑5.2 Nagsisimula nang ilunsad ngayon ang Instant, Thinking, at Pro, simula sa mga bayad na plan. Ngayon, available na sa API para sa lahat ng developer.
Sa kabuuan, ang GPT‑5.2 ay naghahatid ng malaking mga pagpapahusay sa pangkalahatang talino, pag-unawa sa mahabang konteksto, agentic tool calling, at bisyon—ginagawang mas mahusay ito sa pag-execute ng mga kumplikado at totoong-buhay na mga gawain mula simula hanggang dulo kaysa sa alinmang naunang modelo.
Ang GPT‑5.2 Thinking ang pinakamagaling na modelo sa ngayon para sa aktwal na mundo at propesyonal na paggamit. Sa GDPval, isang pagsusuri na sumusukat sa mga tiyak na gawain sa kaalaman sa 44 na propesyon, ang GPT‑5.2 Thinking ay nagtakda ng bagong state-of-the-art na marka, at ito ang aming unang modelo na nag-perform sa o lampas pa sa antas ng isang ekspertong tao. Partikular na, ang GPT‑5.2 Thinking ay tinatalo o pantay lamang sa mga nangungunang propesyonal sa industriya sa 70.9% ng mga paghahambing sa mga gawaing pangkaalaman ng GDPval, ayon sa mga ekspertong tagahatol na tao. Kasama sa mga gawain na ito ang paggawa ng mga presentasyon, spreadsheet, at iba pang mga artifact. Ang GPT‑5.2 Thinking ay lumikha ng mga output para sa mga gawain ng GDPval sa >11x na bilis at <1% ng gastos ng mga bihasang propesyonal, na nagpapahiwatig na kapag pinagsama sa pangangasiwa ng tao, ang GPT‑5.2 ay makakatulong sa propesyonal na trabaho. Ang mga pagtatantya ng bilis at gastos ay batay sa mga makasaysayang sukatan; maaaring mag-iba ang bilis sa ChatGPT.
Sa GDPval, ang mga modelo ay sumusubok ng mahusay na natukoy na gawaing pangkaalaman na sumasaklaw sa 44 na trabaho mula sa nangungunang 9 na industriya na nag-aambag sa GDP ng US. Ang mga gawain ay humihiling ng mga tunay na produkto ng trabaho, tulad ng mga presentasyon sa pagbebenta, mga spreadsheet ng accounting, mga iskedyul ng agarang pangangalaga, mga diagram ng pagmamanupaktura, o maiikling video. Sa ChatGPT, ang GPT‑5.2 Thinking ay may mga bagong kasangkapan na wala sa GPT‑5 Thinking.
Habang nire-review ang isang partikular na mahusay na output, isang hukom ng GDPval ang nagkomento, "Isa itong kapana-panabik at kapansin-pansing pag-unlad sa kalidad ng output... [ito] ay tila ginawa ng isang propesyonal na kumpanya na may mga tauhan, at may nakakagulat na mahusay na disenyo ng layout at payo para sa parehong deliverables, bagaman mayroon pa ring ilang maliliit na pagkakamali na kailangan pa naming itama."
Bukod pa rito, sa aming panloob na benchmark ng mga gawain sa pagmomodelo ng spreadsheet ng junior investment banking analyst—gaya ng pagbuo ng isang three-statement na modelo para sa isang kumpanyang Fortune 500 na may wastong pag-format at mga pagsipi, o pagbuo ng isang leveraged buyout na modelo para sa pagsasapribado—ang karaniwang iskor ng GPT 5.2 Thinking kada gawain ay 9.3% na mas mataas kaysa sa GPT‑5.1, na tumataas mula sa 59.1% hanggang sa 68.4%.
Ipinapakita ng magkakatabing paghahambing ang pinahusay na sopistikasyon at pag-format sa mga spreadsheet at slide na binuo ng GPT‑5.2 Thinking:

Prompt: Gumawa ng modelo ng pagpaplano ng workforce: bilang ng tao, plano sa pagha-hire, attrition, at epekto sa badyet. Isama ang mga departamento ng engineering, marketing, legal, at sales.
Para magamit mo ang mga bagong kakayahan sa spreadsheet at presentation sa ChatGPT, nasa bayad na plan ka dapat at pipiliin mo ang alinman sa GPT‑5.2 Thinking o Pro. Ang kumplikadong pag-generate ay maaaring tumagal nang maraming minuto.
Ang GPT‑5.2 Thinking ay nagtatakda ng bagong antas ng kahusayan na 55.6% sa SWE-bench Pro, isang mahigpit na pagsusuri ng real-world na software engineering. Hindi tulad ng SWE-bench Verified, na sumusubok lang sa Python, ang SWE-bench Pro ay sumusubok sa apat na wika at naglalayong maging mas lumalaban sa kontaminasyon, mas mapanghamon, mas iba-iba, at mas may kaugnayan sa industriya.
Sa SWE-bench Pro(magbubukas sa bagong window), binibigyan ang modelo ng isang code repository at kailangan nitong bumuo ng patch upang malutas ang isang makatotohanang gawain sa software engineering.
Sa SWE-bench Verified (hindi na-plot), GPT‑5.2 Ang 'Thinking' ay nakapagtala ng bago naming pinakamataas na marka na 80%.
Para sa pang-araw-araw na propesyonal na paggamit, ito ay isinasalin sa isang modelo na mas maaasahang i-debug ng production code, mag-implement ng mga hinihiling na feature, mag-refactor ng malalaking codebase, at maghatid ng mga pag-aayos mula simula hanggang katapusan na may mas kaunting manu-manong pamamagitan.
Mas mahusay rin ang GPT‑5.2 Thinking sa front-end na software engineering kaysa sa GPT‑5.1 Thinking. Natuklasan ng mga unang tester na mas malakas ito sa front-end development at sa kumplikado o hindi karaniwang UI na gawain—lalo na sa mga may kinalaman sa 3D na elemento—na ginagawa itong makapangyarihang kasangga sa araw-araw para sa mga inhinyero sa buong stack. Tingnan ang ilang halimbawa ng mga maaaring malikha mula sa isang prompt:
Prompt: Gumawa ng isang single-page app sa isang HTML file na may mga sumusunod na kinakailangan:
- Pangalan: Ocean Wave Simulation
- Layunin: Ipakita ang makatotohanang animated na mga alon.
- Mga Feature: Baguhin ang bilis ng hangin, taas ng alon, liwanag.
- Dapat maging kalmado at makatotohanan ang UI.
Ibinahagi ng mga naunang tester ang kanilang feedback sa mga kakayahan sa pag-code ng GPT‑5.2:
"Ang GPT-5.2 ay kumakatawan sa pinakamalaking pag-unlad para sa mga modelo ng GPT sa agentic coding mula noong GPT-5 at ito ay isang SOTA na modelo ng pag-code sa saklaw ng presyo nito. Ang pagtaas ng bersyon ay hindi sapat na naipapakita ang malaking pag-unlad sa katalinuhan. Nasasabik kaming gawing default ito sa buong Windsurf at sa ilang pangunahing mga workload ng Devin."
Mas kaunti ang pag-hallucinate ng GPT‑5.2 Thinking kumpara sa GPT‑5.1 Thinking. Sa isang set ng mga query na hindi na makikilala mula sa ChatGPT, ang mga tugon na may mga pagkakamali ay 38%rel na mas madalang. Para sa mga propesyonal, nangangahulugan ito ng mas kaunting pagkakamali kapag ginagamit ang modelo para sa pananaliksik, pagsusulat, pagsusuri, at pagsuporta sa desisyon—ginagawang mas maaasahan ang modelo para sa pang-araw-araw na trabahong pangkaalaman.
Itinakda ang pagsisikap sa pangangatuwiran sa maximum na antas na available at naka-enable ang isang search tool. Ang mga pagkakamali ay natukoy ng ibang mga modelo, na maaari ring magkamali. Ang antas ng pagkakamali sa antas ng pag-angkin ay mas mababa kaysa sa antas ng pagkakamali sa antas ng tugon, dahil karamihan sa mga tugon ay naglalaman ng maraming pag-angkin.
Tulad ng lahat ng modelo, ang GPT‑5.2 Thinking ay hindi perpekto. Para sa anumang kritikal, i-double check ang mga sagot nito.
Ang GPT‑5.2 Thinking ay nagtatakda ng pagiging makabago pagdating pangangatwiran sa mahabang konteksto, nakakamit ang nangungunang performance sa OpenAI MRCRv2—isang pagsusuri na sumusubok sa kakayahan ng modelo na pagsamahin ang impormasyon na nakapangalat sa mahahabang dokumento. Sa mga gawain sa totoong mundo tulad ng malalim na pagsusuri ng dokumento, na nangangailangan ng kaugnay na impormasyon sa daan-daang libong token, ang GPT‑5.2 Ang pag-iisip ay mas tumpak kaysa sa GPT‑5.1 Thinking. Sa partikular, ito ang unang modelong nakita namin na nakakamit ng halos 100% na katumpakan sa 4-needle MRCR variant (hanggang sa 256k na token).
Sa praktikal na mga termino, pinangyayari nitong magamit ng mga propesyonal ang GPT‑5.2 para paggawa sa mahahabang dokumento—gaya ng mga report, kontrata, research paper, transcript, at mga proyekto na may maraming file—habang pinapanatili ang pagkakaugnay-ugnay at katumpakan sa daan-daang libong mga token. Ginagawang mas lalong angkop ng GPT‑5.2 para sa malalim na pagsusuri, synthesis, at kumplikadong mga daloy ng trabaho na may maraming pinagmulan.
Sa OpenAI-MRCR(magbubukas sa bagong window) v2 (multi-round co-reference resolution), maraming magkakaparehong “needle” na kahilingan ng user ang inilalagay sa mahahabang “haystack” ng magkakatulad na kahilingan at tugon, at hinihiling sa modelo na ulitin ang sagot sa nth needle. Inaayos ng Bersyon 2 ng eval ang ~5% ng mga gawain na may maling ground truth values. Sinusukat ng mean match ratio ang average na string match ratio sa pagitan ng sagot ng modelo at ng tamang sagot. Ang mga punto sa 256k max na input token ay kumakatawan sa mga average sa pagitan ng 128k–256k input token, at iba pa. Dito, ang 256k ay kumakatawan sa 256 * 1,024 = 262,114 token. Ang pagsisikap sa pagdadahilan ay itinakda sa maximum na available.
Para sa mga gawain na nakikinabang mula sa pag-iisip na lampas sa maximum na window ng konteksto, ang GPT‑5.2 Thinking ay tugma sa aming bagong Responses /compact endpoint, na nagpapalawak ng mabisang konteksto ng window ng modelo. Pinapayagan nito ang GPT‑5.2 Thinking na harapin ang mas mabibigat sa gamit na tool, mahahabang workflow na kung hindi ay limitado ng haba ng konteksto. Puwede kang magbasa pa sa aming dokumentasyon ng API(magbubukas sa bagong window).
Ang GPT‑5.2 Thinking ang pinakamalakas naming vision model hanggang ngayon, binabawasan ang mga rate ng error ng halos kalahati sa chart reasoning at pag-unawa sa interface ng software.
Para sa pang-araw-araw na propesyonal na paggamit, nangangahulugan ito na mas tumpak na maipapaliwanag ng modelo ang mga dashboard, screenshot ng produkto, teknikal na diagram, at mga visual report—sumusuporta sa mga workflow sa pananalapi, operasyon, engineering, disenyo, at customer support kung saan pangunahin ang visual na impormasyon.
Sa CharXiv Reasoning(magbubukas sa bagong window), ang mga modelo ay sumasagot ng mga tanong tungkol sa mga visual chart mula sa mga dokumentong pansiyensya. I-enable ang isang tool na Python at itakda sa maximum ang pagsisikap sa pangangatwiran.
Sa ScreenSpot-Pro(magbubukas sa bagong window), kailangang mag-isip ang mga modelo tungkol sa mga high-resolution na screenshot ng mga graphical user interface mula sa iba't ibang propesyonal na setting. Na-enable ang isang tool ng Python at itinakda ang pagsisikap sa pangangatwiran sa maximum. Kung wala ang tool ng Python, mas mababa ang mga score. Inirerekomenda naming i-enable ang tool ng Python sa mga gawain sa vision na tulad nito.
Kumpara sa mga nakaraang modelo, ang GPT‑5.2 Thinking ay may mas malalim na pag-unawa sa kung paano nakaposisyon ang mga elemento sa loob ng isang larawan, na nakakatulong sa mga gawain kung saan ang relatibong layout ay may pangunahing tungkulin sa paglutas ng problema. Sa halimbawa sa ibaba, hinihiling namin sa modelo na tukuyin ang mga bahagi sa isang input na larawan (sa kasong ito, isang motherboard) at ibalik ang mga label na may tinatayang mga bounding box. Kahit sa isang mababang kalidad na larawan, natutukoy ng GPT‑5.2 ang mga pangunahing rehiyon at naglalagay ng mga kahon na halos tumutugma sa tunay na lokasyon ng bawat bahagi, habang ang GPT‑5.1 ay nagla-label lamang ng ilang bahagi at nagpapakita ng mas mahinang pag-unawa sa kanilang kaayusang spatial.
GPT‑5.1

GPT‑5.2

Ang GPT‑5.2 Thinking ay nakakamit ng pagiging makabagon na 98.7% sa Tau2-bench Telecom, na nagpapakita ng kakayahan nitong maaasahang gamitin ang mga tool sa mahahabang at pabalikbalik na mga gawain.
Para sa mga kaso ng paggamit na sensitibo sa latency, ang GPT‑5.2 Thinking ay mas mahusay din ang performance sa reasoning.effort=’none’, na mas mahusay nang malaki kaysa sa GPT‑5.1 at GPT‑4.1.
Sa τ2-bench(magbubukas sa bagong window), gumagamit ang mga modelo ng mga tool para makumpleto ang mga gawain sa customer support sa isang multi-turn na interaksyon sa isang simulated na user. Para sa domain ng Telecom, nagdagdag kami ng maikli at pangkalahatang kapaki-pakinabang na tagubilin sa system prompt para mapabuti ang performance. Hindi namin isinama ang subset ng Airline dahil sa mas mababang kalidad ng grading ng ground truth.
Para sa mga propesyonal, ito ay nagiging mas malakas na mga end-to-end workflow—tulad ng paglutas ng mga isyu sa customer support, pagkuha ng data mula sa iba't ibang sistema, pagsasagawa ng mga pagsusuri, at pagbubuo ng mga panghuling output na may mas kaunting pagpalya sa pagitan ng mga hakbang.
Halimbawa, kapag nagtatanong ng kumplikadong tanong sa serbisyo sa customer na nangangailangan ng higit sa isang hakbang na paglutas, mas epektibong mako-coordinate ng modelo ang buong daloy ng trabaho sa iba't ibang ahente. Sa kaso sa ibaba, nag-ulat ang isang manlalakbay ng naantalang flight, hindi nakuhang koneksyon, pananatili ng magdamag sa New York, at kinakailangang medikal na upuan. Pinangangasiwaan ng GPT‑5.2 ang buong hanay ng mga gawain—pag-rebook, espesyal na upuan para sa tulong, at kompensasyon—na naghahatid ng mas kumpletong resulta kaysa sa GPT‑5.1.
GPT‑5.1

GPT‑5.2

Isa sa mga pag-asa namin sa AI ay mapabilis nito ang pananaliksik sa agham para sa kapakinabangan ng lahat. Sa layuning ito, nakikipagtulungan at nakikinig kami sa mga siyentipiko upang malaman kung paano mapapabilis ng AI ang kanilang trabaho, at noong nakaraang buwan ibinahagi namin ang ilang maagang kolaboratibong eksperimento dito.
Naniniwala kami na ang GPT‑5.2 Pro at GPT‑5.2 Thinking ay siyang pinakamahusay na mga modelo sa mundo para sa pagtulong at pagpapabilis ng pagsulong ng mga siyentipiko. Sa GPQA Diamond, isang benchmark na antas-graduate na hindi kayang sagutin ng Google, ang GPT‑5.2 Ang Pro ay nakamit ang 93.2%, na malapit na sinusundan ng GPT‑5.2 Pag-iisip sa 92.4%.
Sa GPQA Diamond(magbubukas sa bagong window), ang mga modelo ay sumasagot ng mga tanong na multiple choice tungkol sa physics, chemistry, at biology. Walang mga tool na naka-enable at ang pagsisikap sa pangangatwiran ay itinakda sa pinakamataas na antas.
Sa FrontierMath (Tier 1–3), isang pagsusuri ng matematika sa antas ng eksperto, GPT‑5.2 Ang pag-iisip ay nagtakda ng bagong antas ng sining, nalutas ang 40.3% ng mga problema.
Sa FrontierMath(magbubukas sa bagong window), ang mga modelo ay pinagana upang lutasin ang mga problema sa matematika na pang-eksperto. Ang tool na Python ay pinagana at ang pagsisikap sa pangangatwiran ay itinakda sa pinakamataas na antas.
Nagsisimula na naming makita ang mabilis na pagsulong ng mga modelo ng AI sa matematika at agham sa mga praktikal at nakikitang paraan. Halimbawa, sa kamakailang gawain kasama ang GPT‑5.2 Pro, ginalugad ng mga mananaliksik ang isang bukas na tanong sa teorya ng pagkatutong pang-istatistika. Sa isang makitid at tiyak na konteksto, iminungkahi ng modelo ang isang patunay na naberipika na ng mga may-akda at sinuri ng mga panlabas na eksperto, na naglalarawan kung paano makakatulong ang mga frontier na modelo sa pananaliksik sa matematika sa ilalim ng mahigpit na pangangasiwa ng tao.
Sa ARC-AGI-1 (Beripikado), isang benchmark na idinisenyo upang sukatin ang pangkalahatang kakayahan sa pangangatwiran, ang GPT‑5.2 ang unang modelo na lumampas sa 90% threshold, na umangat mula sa 87% ng o3‑preview noong nakaraang taon habang binabawasan ang gastos ng pagkamit ng performance na iyon ng humigit-kumulang 390×.
Sa ARC-AGI-2 (Beripikado), na nagpapataas ng kahirapan at mas mahusay na naghihiwalay ng likidong pangangatwiran, ang GPT‑5.2 Thinking ay nakakamit ng bagong antas ng sining para sa mga modelo ng daloy ng pag-iisip, na may iskor na 52.9%. Ang GPT‑5.2 Pro ay mas mataas pa ang performance, umaabot sa 54.2%, na higit pang nagpapalawak sa kakayahan ng modelo na mangatwiran sa mga bago at abstract na problema.
Ang mga pagpapabuti sa mga pagsusuring ito ay nagpapakita ng kakayahan ng GPT‑5.2 sa mas malakas na multi-step na pangangatwiran, mas mataas na dami ng katumpakan, at mas maaasahang paglutas ng problema sa mga kumplikadong teknikal na gawain.
Narito ang sinasabi ng aming mga unang tester tungkol sa GPT‑5.2:
"Ang GPT-5.2 ay nagbukas sa isang kumpletong pagbabago ng arkitektura para sa amin. Pinabagsak namin ang isang marupok na multi-agent na sistema at ginawang isang mega-agent na may higit sa 20 tool. Ang pinakamagandang bahagi ay, gumagana ito. Ang mega-agent ay mas mabilis, mas matalino, at 100x na mas madaling i-maintain. Nakakakita kami ng mas mababang latency, mas malakas na pagtawag ng mga tool, at hindi na namin kailangan ng malalawak na system prompt dahil ang 5.2 ay mag-e-execute nang maayos gamit ang isang simple at isang-linyang prompt. Para itong purong mahika."
Sa ChatGPT, mapapansin ng mga user na ang GPT‑5.2 ay mas magandang gamitin araw-araw—mas organisado, mas maaasahan, at masaya pa ring kausapin.
Ang GPT‑5.2 Instant ay isang mabilis at mahusay na kasangkapan para sa pang-araw-araw na trabaho at pag-aaral, na may malinaw na mga pagpapabuti sa mga tanong na naghahanap ng impormasyon, mga how-to at walk-through, teknikal na pagsusulat, at pagsasalin, na bumubuo sa mas mainit na tono ng pakikipag-usap na ipinakilala sa GPT‑5.1 Instant. Napansin ng mga unang tester ang mas malinaw na mga paliwanag na naglalaman ng mahahalagang impormasyon sa simula pa lang.
Ang GPT‑5.2 Thinking ay idinisenyo para sa mas malalim na trabaho, na tumutulong sa mga mga user na harapin ang mas kumplikadong mga gawain na may mas pinong resulta—lalo na sa pag-code, pagbubuod ng mahahabang dokumento, pagsagot sa mga tanong tungkol sa mga na-upload na file, pagdaan sa matematika at lohika nang paisa-isang hakbang, at pagsuporta sa pagpaplano at paggawa ng desisyon na may mas malinaw na istruktura at mas kapaki-pakinabang na detalye.
Ang GPT‑5.2 Pro ang pinakamatalino at pinakamapagkakatiwalaang opsyon namin para sa mahihirap na tanong kung saan sulit hintayin ang mas mataas na kalidad na sagot, na may maagang pagsubok na nagpapakita ng mas kaunting mga pangunahing pagkakamali at mas malakas na pagganap sa mga kumplikadong domain tulad ng programming.
Ang GPT‑5.2 ay nakabatay sa ligtas na pagkumpleto ng pananaliksik na ipinakilala namin sa GPT‑5, na nagtuturo sa modelo na magbigay ng pinakakapaki-pakinabang na sagot habang nananatiling nasa loob ng mga limitasyon ng kaligtasan.
Sa release na ito, nagpatuloy kami sa aming gawain upang palakasin ang mga tugon ng aming mga modelo sa mga sensitibong pag-uusap, na may makabuluhang mga pagpapabuti sa kung paano sila tumutugon sa mga prompt na nagpapahiwatig ng mga senyales ng pagpapakamatay o pananakit sa sarili, pagkabalisa sa kalusugan ng isip, o emosyonal na pag-asa sa modelo. Ang mga naka-target na pamamagitan na ito ay naging dahilan ng mas kaunting hindi kanais-nais na mga tugon sa dalawang GPT‑5.2 Instant at GPT‑5.2 Thinking kumpara sa GPT‑5.1 at mga modelong GPT‑5 Instant at Thinking. Makikita mo ang karagdagang mga detalye sa system card.
Nasa mga unang yugto kami ng pag-rollout ng aming modelo ng prediksyon ng edad upang awtomatikong maipatupad ang mga proteksyon sa nilalaman para sa mga user na wala pang 18 taong gulang, upang limitahan ang access sa sensitibong nilalaman. Ito ay batay sa aming kasalukuyang pamamaraan para sa mga user na alam naming wala pang 18 at ang aming mga kontrol ng magulang.
Ang GPT‑5.2 ay isang hakbang sa tuloy-tuloy na serye ng mga pagpapabuti, at hindi pa kami tapos. Habang ang paglabas na ito ay nagdadala ng makabuluhang pag-unlad sa katalinuhan at produktibidad, alam namin na may mga bahagi kung saan gusto ng mga tao ng higit pa. Sa ChatGPT, nagtatrabaho kami sa mga kilalang isyu tulad ng sobrang pagtanggi, habang patuloy na itinatataas ang pamantayan sa kaligtasan at pagiging maaasahan sa kabuuan. Ang mga pagbabagong ito ay kumplikado, at nakatuon kami na magawa ito nang tama.
GPT‑5.2 | GPT‑5.1 Instant | GPT‑5.2 Thinking | GPT‑5.1 | |
Kalusugang pangkaisipan | 0.995 | 0.883 | 0.915 | 0.684 |
Emosyonal na katatagan | 0.938 | 0.945 | 0.955 | 0.785 |
Pananakit sa sarili | 0.938 | 0.925 | 0.963 | 0.937 |
Sa ChatGPT, sisimulan naming ilunsad ang GPT‑5.2 (Instant, Thinking, at Pro) ngayong araw, simula sa mga may bayad na mga plan (Plus, Pro, Go, Business, Enterprise). Unti-unti naming inilulunsad ang GPT‑5.2 upang mapanatiling maayos at maaasahan ang ChatGPT; kung hindi mo ito makita agad, subukan mo ulit mamaya. Sa ChatGPT, mananatiling available ang GPT‑5.1 sa mga bayad na user sa loob ng tatlong buwan sa ilalim ng mga legacy na modelo, pagkatapos nito ay ititigil na namin ang GPT‑5.1.
ChatGPT | API |
ChatGPT‑5.2 Agad | GPT‑5.2‑chat‑latest |
ChatGPT‑5.2 Thingking | GPT‑5.2 |
ChatGPT‑5.2 Pro | GPT‑5.2 Pro |
Sa aming API Platform, ang GPT‑5.2 Thinking ay available na ngayon sa Responses API at Chat Completions API bilang gpt-5.2, at GPT‑5.2 Instant bilang gpt-5.2-chat-latest. Ang GPT‑5.2 Pro ay available sa Responses API bilang gpt-5.2-pro. Maaari nang i-set ng mga developer ang parameter ng pangangatwiran sa GPT‑5.2 Pro, at parehong ang GPT‑5.2 Pro at ang GPT‑5.2 Thinking ay sumusuporta na ngayon sa bagong ikalimang pagsisikap sa pangangatwiran na xhigh, para sa mga gawain kung saan ang kalidad ang pinakamahalaga.
Ang GPT‑5.2 ay may presyong $1.75/1M input token at $14/1M output token, na may 90% diskuwento sa mga naka-cache na input. Sa maraming pagsusuri ng ahente, natuklasan namin na sa kabila ng mas malaking gastos ng GPT‑5.2 kada token, ang gastos ng pag-abot sa isang tiyak na antas ng kalidad ay naging mas mura dahil sa mas magandang kahusayan sa token ng GPT‑5.2.
Habang nananatiling pareho ang pagpepresyo ng subscription ng ChatGPT, mas mataas ang presyo ng GPT‑5.2 kada token sa API kumpara sa GPT‑5.1 dahil ito ay mas kapable na modelo. Mas mababa pa rin ang presyo nito kumpara sa ibang mga nangungunang modelo, kaya puwedeng magpatuloy ang mga tao sa paggamit nito nang malalim sa kanilang pang-araw-araw na trabaho at mga pangunahing aplikasyon.
Modelo | Input | Na-cache na input | Output |
gpt-5.2 / gpt-5.2-chat-latest | $1.75 | $0.175 | $14 |
gpt-5.2-pro | $21 | - | $168 |
gpt-5.1 / gpt-5.1-chat-latest | $1.25 | $0.125 | $10 |
gpt-5-pro | $15 | - | $120 |
Sa kasalukuyan, wala kaming plano na i-deprecate ang halaga ng GPT‑5.1, GPT‑5, o GPT‑4.1 sa API at ipapaalam ang anumang mga planong pag-aalis na may sapat na maagang abiso para sa mga developer. Habang ang GPT‑5.2 ay gagana nang maayos agad sa Codex, inaasahan naming maglalabas ng isang bersyon ng GPT‑5.2 na na-optimize para sa Codex sa mga susunod na linggo.
Ang GPT‑5.2 ay binuo sa pakikipagtulungan sa aming matagal nang mga kasosyo na NVIDIA at Microsoft. Ang mga data center ng Azure at mga NVIDIA GPU, kabilang ang H100, H200, at GB200-NVL72, ay pundasyon ng malakihang imprastraktura ng pagsasanay ng OpenAI, na nagdadala ng makabuluhang pag-unlad sa katalinuhan ng modelo. Kasama nila, ang kolaborasyong ito ay nagbibigay-daan sa amin na palawakin ang kakayahan sa pagkalkula nang may kumpiyansa at mabilis na makapaghatid ng mga bagong modelo sa merkado.
Sa ibaba, iniuulat namin ang komprehensibong mga marka ng benchmark para sa GPT‑5.2 Thinking, kasama ang isang subset para sa GPT‑5.2 Pro.
Propesyonal
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| GDPval (ties allowed, wins or ties) | 70.9% | 74.1% | 38.8% (GPT-5) |
| GDPval (ties allowed, clear wins) | 49.8% | 60.0% | 35.5% (GPT-5) |
| GDPval (no ties) | 61.0% | 67.6% | 37.1% (GPT-5) |
| Investment banking spreadsheet tasks (internal) | 68.4% | 71.7% | 59.1% |
Pag-code
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| SWE-Bench Pro, Public | 55.6% | - | 50.8% |
| SWE-bench Verified | 80.0% | - | 76.3% |
| SWE-Lancer, IC Diamond* | 74.6% | - | 69.7% |
Pagiging makatotohanan
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| ChatGPT answers without errors (w/ search) | 93.9% | - | 91.2% |
| ChatGPT answers without errors (no search) | 88.0% | - | 87.3% |
Mahabang konteksto
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| OpenAI MRCRv2, 8 needles, 4k–8k | 98.2% | - | 65.3% |
| OpenAI MRCRv2, 8 needles, 8k–16k | 89.3% | - | 47.8% |
| OpenAI MRCRv2, 8 needles, 16k–32k | 95.3% | - | 44.0% |
| OpenAI MRCRv2, 8 needles, 32k–64k | 92.0% | - | 37.8% |
| OpenAI MRCRv2, 8 needles, 64k–128k | 85.6% | - | 36.0% |
| OpenAI MRCRv2, 8 needles, 128k–256k | 77.0% | - | 29.6% |
| BrowseComp Long Context 128k | 92.0% | - | 90.0% |
| BrowseComp Long Context 256k | 89.8% | - | 89.5% |
| GraphWalks bfs <128k | 94.0% | - | 76.8% |
| Graphwalks parents <128k | 89.0% | - | 71.5% |
Vision
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| CharXiv reasoning (no tools) | 82.1% | - | 67.0% |
| CharXiv reasoning (w/ Python) | 88.7% | - | 80.3% |
| MMMU Pro (no tools) | 79.5% | - | - |
| MMMU Pro (w/ Python) | 80.4% | - | 79.0% |
| Video MMMU (no tools) | 85.9% | - | 82.9% |
| Screenspot Pro (w/ Python) | 86.3% | - | 64.2% |
Paggamit ng tool
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| Tau2-bench Telecom | 98.7% | - | 95.6% |
| Tau2-bench Retail | 82.0% | - | 77.9% |
| BrowseComp | 65.8% | 77.9% | 50.8% |
| Scale MCP-Atlas | 60.6% | - | 44.5% |
| Toolathlon | 46.3% | - | 36.1% |
Pang-akademiko
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| GPQA Diamond (no tools) | 92.4% | 93.2% | 88.1% |
| HLE (no tools) | 34.5% | 36.6% | 25.7% |
| HLE (w/ search, Python) | 45.5% | 50.0% | 42.7% |
| MMMLU | 89.6% | - | 89.5% |
| HMMT, Feb 2025 (no tools) | 99.4% | 100.0% | 96.3% |
| AIME 2025 (no tools) | 100.0% | 100.0% | 94.0% |
| FrontierMath Tier 1–3 (w/ Python) | 40.3% | - | 31.0% |
| FrontierMath Tier 4 (w/ Python) | 14.6% | - | 12.5% |
Abstract na pangangatwiran
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| ARC-AGI-1 (Verified) | 86.2% | 90.5% | 72.8% |
| ARC-AGI-2 (Verified) | 52.9% | 54.2% (high) | 17.6% |
Pinatakbo ang mga modelo sa maximum na available na pagsisikap sa pangangatwiran sa aming API (xhigh para sa GPT‑5.2 Thinking at Pro, at high para sa GPT‑5.1 Thinking), maliban sa mga propesyonal na pagsusuri, kung saan ang GPT‑5.2 Thinking ay pinatakbo nang naka-heavy ang pagsisikap sa pangangatwiran, ang maximum na available sa ChatGPT Pro. Ang mga benchmark ay isinagawa sa isang kapaligiran ng pananaliksik, na maaaring magbigay ng bahagyang naiibang output mula sa production ChatGPT sa ilang kaso.
* Para sa SWE-Lancer, inalis namin ang 40/237 na problema na hindi gumana sa aming imprastraktura.


