Tunawaletea GPT‑5.2, mfululizo wa miundo wenye uwezo zaidi kwa kazi ya kitaalamu ya maarifa.
Tayari, mtumiaji wa wastani wa ChatGPT Enterprise anasema AI inawahifadhi dakika 40–60 kwa siku, na watumiaji wa mara kwa mara wanasema inawasaidia kuokoa zaidi ya saa 10 kwa wiki. Tuliunda GPT‑5.2 ili kufungua thamani zaidi ya kiuchumi kwa watu; ni bora katika kuunda lahajedwali, kujenga wasilisho, kuandika msimbo, kutambua picha, kuelewa muktadha mrefu, kutumia zana, na kushughulikia miradi changamano yenye hatua nyingi.
GPT‑5.2 inaweka kiwango kipya cha juu katika viwango vingi, ikiwa ni pamoja na GDPval, ambapo inazidi wataalamu wa sekta katika shughuli za maarifa zilizoainishwa vizuri zinazojumuisha taaluma 44.
GPT‑5.2 Kufikiri | Mawazo ya GPT‑5.1 | |
GDPval (ushindi au sare) | 70.9% | 38.8% (GPT‑5) |
SWE-Bench Pro (public) | 55.6% | 50.8% |
SWE-bench thibitisha | 80.0% | 76.3% |
GPQA Diamond (bila zana) | 92.4% | 88.1% |
Hoja ya CharXiv (na Python) | 88.7% | 80.3% |
HMMT (Feb 2025) | 99.4% | 96.3% |
FrontierMath (Tier 1–3) | 40.3% | 31.0% |
ARC-AGI-1 (thibitisha) | 86.2% | 72.8% |
ARC-AGI-2 (thibitisha) | 52.9% | 17.6% |
Notion(fungua katika dirisha jipya), Box(fungua katika dirisha jipya), Shopify(fungua katika dirisha jipya), Harvey(fungua katika dirisha jipya) na Zoom(fungua katika dirisha jipya) waliona kuwa GPT‑5.2 inaonyesha uwezo wa kisasa wa hoja za muda mrefu na utendaji wa kuita zana. Databricks(fungua katika dirisha jipya), Hex(fungua katika dirisha jipya) na Triple Whale(fungua katika dirisha jipya) waligundua kuwa GPT‑5.2 ni bora sana katika shughuli za sayansi ya data ya kiwakala na uchanganuzi wa hati. Cognition(fungua katika dirisha jipya), Warp(fungua katika dirisha jipya), Charlie Labs(fungua katika dirisha jipya), JetBrains(fungua katika dirisha jipya) na Augment Code(fungua katika dirisha jipya) wanasema GPT‑5.2 inatoa utendaji wa kisasa wa usimbaji wa mawakala, na maboresho yanayoweza kupimika katika maeneo kama vile usimbaji wa maingiliano, mapitio ya msimbo na kutafuta hitilafu.
Katika ChatGPT, GPT‑5.2 Instant, Thinking, na Pro zitaanza kusambazwa leo, kuanzia na mipango ya kulipwa. Katika API, zinapatikana sasa kwa wasanidi programu wote.
Kwa ujumla, GPT‑5.2 inaleta maboresho makubwa katika akili ya jumla, uelewa wa muktadha mrefu, matumizi ya zana za kiwakala, na maono—ikiifanya kuwa bora zaidi katika kutekeleza shughuli ngumu, za ulimwengu halisi kutoka mwanzo hadi mwisho kuliko muundo wowote wa awali.
GPT‑5.2 Thinking ni muundo bora zaidi hadi sasa kwa matumizi ya ulimwengu halisi na ya kitaalamu. Kwenye GDPval, tathmini inayopima shughuli za maarifa zilizoainishwa vizuri katika taaluma 44, GPT‑5.2 Thinking imeweka alama mpya ya kisasa, na ni muundo wetu wa kwanza unaofanya kazi katika au juu ya kiwango cha mtaalamu wa kibinadamu. Mahususi, GPT‑5.2 Thinking inashinda au inalingana na wataalamu wa juu wa sekta katika 70.9% ya kulinganisha kwenye shughuli za maarifa za GDPval, kulingana na utathmini kwa wataalamu wa kibinadamu. Shughuli hizi zinajumuisha kutengeneza wasilisho, lahajedwali na nyaraka nyingine. GPT‑5.2 Thinking ilizalisha matokeo kwa shughuli za GDPval kwa kasi ya zaidi ya mara 11 na kwa gharama ya chini ya 1% ya wataalamu bingwa, ikionyesha kwamba inapounganishwa na usimamizi wa kibinadamu, GPT‑5.2 inaweza kusaidia katika shughuli za kitaalamu. Makadirio ya kasi na gharama yanategemea vipimo vya kihistoria; kasi katika ChatGPT inaweza kubadilika.
Katika GDPval, miundo inajaribu kazi za maarifa zilizoainishwa vizuri zinazojumuisha taaluma 44 kutoka kwa sekta 9 kuu zinazochangia katika Pato la Taifa la Marekani. Shughuli zinahitaji bidhaa halisi za kazi, kama vile mawasilisho ya mauzo, laha za uhasibu, ratiba za huduma za dharura, michoro ya utengenezaji, au video fupi. Katika ChatGPT, GPT‑5.2 Thinking ina zana mpya ambazo GPT‑5 Thinking haina.
Wakati wa kukagua mojawapo ya matokeo bora, jaji mmoja wa GDPval alitoa maoni, "Ni hatua ya kusisimua na inayoonekana katika ubora wa matokeo... [inaonekana] imefanywa na kampuni ya kitaalamu yenye wafanyakazi, na ina mpangilio uliobuniwa vizuri na ushauri kwa utoaji wote, ingawa kwa moja bado tuna makosa madogo ya kusahihisha."
Zaidi ya hayo, kwenye kipimo chetu cha ndani cha shughuli za uchanganuzi wa lahajedwali kwa wachambuzi wachanga wa uwekezaji wa benki—kama vile kuunda muundo wa taarifa tatu kwa kampuni ya Fortune 500 na muundo na marejeleo sahihi, au kujenga muundo wa ununuzi wa hisa kwa ajili ya ubinafsishaji—wastani wa alama ya GPT‑5.2 Thinking kwa kila shughuli ni asilimia 9.3 zaidi kuliko ya GPT‑5.1. kuongezeka kutoka asilimia 59.1 hadi asilimia 68.4.
Ulinganisho wa ana kwa ana unaonyesha uboreshaji wa ustadi na umbizo katika lahajedwali na slaidi zinazozalishwa na GPT‑5.2 Thinking:

Dokeza: Unda muundo wa upangaji wa wafanyakazi: idadi ya watu, mpango wa kuajiri, kuondoka kwa wafanyakazi, na athari ya bajeti. Jumuisha idara za uhandisi, masoko, sheria, na mauzo.
Ili kutumia uwezo mpya wa lahajedwali na wasilisho katika ChatGPT, lazima uwe kwenye mpango wa kulipia na uchague ama GPT‑5.2 Thinking au Pro. Uzalishaji changamano unaweza kuchukua dakika nyingi kutokea.
GPT‑5.2 Thinking imeweka kiwango kipya cha hali ya juu cha 55.6% kwenye SWE-bench Pro, tathmini kali ya uhandisi wa programu halisi. Tofauti na SWE-bench thibitisha, ambayo inajaribu tu Python, SWE-bench Pro inajaribu lugha nne na inalenga kuwa sugu zaidi kwa uchafuzi, yenye changamoto, tofauti, na inayofaa kiviwanda.
Katika SWE-bench Pro(fungua katika dirisha jipya), muundo unapewa hazina ya msimbo na sharti uzalishe kiraka ili kutatua shughuli halisi ya uhandisi wa programu.
Kwenye SWE-bench thibitisha (haijapangwa), GPT‑5.2 Fikra zimefikia kiwango chetu kipya cha juu cha 80%.
Kwa matumizi ya kitaalamu ya kila siku, hii inatafsiriwa kuwa muundo ambao unaweza kutatua hitilafu za msimbo wa uzalishaji kwa uaminifu zaidi, kutekeleza maombi ya vipengele, kuboresha misimbo mikubwa, na kusafirisha marekebisho kutoka mwanzo hadi mwisho kwa uingiliaji mdogo wa mikono.
GPT‑5.2 Thinking pia ni bora katika uhandisi wa programu ya mbele kuliko GPT‑5.1 Thinking. Wajaribu wa awali waligundua kuwa ina nguvu zaidi katika maendeleo ya mbele na kazi ngumu au isiyo ya kawaida ya UI—hasa inayohusisha vipengele vya 3D—ikiifanya kuwa mshirika mwenye nguvu wa kila siku kwa wahandisi katika safu nzima. Tazama mifano michache ya kile kinachoweza kuzalishwa kutoka kwa dokezo moja:
Dokezo: Unda programu ya ukurasa mmoja katika faili moja ya HTML yenye mahitaji yafuatayo:
- Jina: Ocean Wave Simulation
- Lengo: Onyesha mawimbi ya uhuishaji halisi.
- Vipengele: Badilisha kasi ya upepo, urefu wa mawimbi, mwangaza.
- UI inapaswa kuwa ya kutuliza na halisi.
Wajaribu wa awali walishiriki majibu yao kuhusu GPT‑5.2 uwezo wa usimbaji:
"GPT-5.2 inawakilisha hatua kubwa zaidi kwa miundo ya GPT katika usimbaji wa kiwakala tangu GPT-5 na ni muundo wa hali ya juu wa usimbaji katika kiwango chake cha bei. Toleo jipya halionyeshi kikamilifu ongezeko kubwa la akili. Tunafurahi kuifanya kuwa chaguomsingi katika Windsurf na mizigo kadhaa ya msingi ya Devin.
Thinking GPT‑5.2 zinahisi mambo yasiyo halisi kidogo kuliko GPT‑5.1 Thinking. Katika seti ya maswali ambayo hayajatambulishwa kutoka kwa ChatGPT, majibu yenye makosa yalikuwa 38%rel chini ya kawaida. Kwa wataalamu, hii inamaanisha makosa machache wakati wa kutumia muundo kwa utafiti, uandishi, uchambuzi, na usaidizi wa maamuzi—kufanya muundo kuwa wa kutegemewa zaidi kwa kazi za maarifa za kila siku.
Juhudi za uwazaji ziliwekwa kwa kiwango cha juu zaidi kinachopatikana na chombo cha utafutaji kimewashwa. Makosa yaligunduliwa na miundo mingine, ambayo yenyewe inaweza kufanya makosa. Viwango vya makosa katika kiwango cha madai viko chini zaidi kuliko viwango vya makosa katika kiwango cha majibu, kwa kuwa majibu mengi yana madai mengi.
Kama miundo yote, GPT‑5.2 Kufikiria si kamilifu. Kwa chochote kilicho muhimu, hakikisha majibu yake kwa mara ya pili.
GPT‑5.2 Thinking inaweka kiwango kipya cha juu katika utafiti wa muktadha mrefu, ikifikia utendaji bora kwenye OpenAI MRCRv2—tathmini inayopima uwezo wa muundo kuunganisha taarifa zilizoenea kwenye hati ndefu. Katika shughuli za ulimwengu halisi kama uchambuzi wa kina wa hati, ambazo zinahitaji taarifa zinazohusiana katika mamia ya maelfu ya tokeni, GPT‑5.2 Kufikiria ni sahihi zaidi kuliko mawazo ya GPT‑5.1. Hasa, ni muundo wa kwanza ambao tumewahi kuona unaofikia usahihi wa karibu 100% kwenye toleo la 4-needle MRCR (hadi tokeni 256k).
Kwa maneno ya vitendo, hii inawasha wataalamu kutumia GPT‑5.2 kufanya kazi na hati ndefu—kama vile ripoti, mikataba, karatasi za utafiti, nakala, na miradi ya faili nyingi—wakati wa kudumisha uthabiti na usahihi katika mamia ya maelfu ya tokeni. Hii inafanya GPT‑5.2 kufaa hasa kwa uchambuzi wa kina, usintetishaji, na michakato changamano ya vyanzo vingi.
Kwenye OpenAI-MRCR(fungua katika dirisha jipya) toleo la 2 (utatuzi wa marejeleo ya pande nyingi), maombi mengi ya mtumiaji yanayofanana kabisa na—“sindano”—huingizwa katika “marundo marefu ya nyasi” ya maombi na majibu yanayofanana, na modeli huombwa kutoa jibu la ombi fulani. Toleo la pili la tathmini hii linasahihisha takriban 5% ya majukumu yaliyokuwa na thamani potofu za majibu sahihi. “Uwiano wa wastani wa ulinganisho” hupima wastani wa uwiano wa kulinganisha mifuatano ya maandishi kati ya jibu la muundo na jibu sahihi. Pointi katika kikomo cha ingizo cha tokeni 256k zinawakilisha wastani wa ingizo za tokeni 128k–256k, na kadhalika. Hapa, 256k inawakilisha 256 * 1,024 = tokeni 262,114. Juhudi za uwazaji ziliwekwa kwa kiwango cha juu zaidi kinachopatikana.
Kwa shughuli zinazofaidika na kufikiria zaidi ya dirisha la juu la muktadha, GPT‑5.2 Kufikiria kunalingana na sehemu yetu mpya ya mwisho ya Majibu /compact, ambayo inapanua dirisha la muktadha linalofaa la muundo. Hii inamruhusu GPT‑5.2 Kufikiria kushughulikia kazi za muda mrefu zinazotumia zana nyingi ambazo vinginevyo zingekuwa na kikomo kwa urefu wa muktadha. Soma zaidi katika nyaraka zetu za API(fungua katika dirisha jipya).
GPT‑5.2 Thinking ni muundo wetu wenye nguvu zaidi wa maono hadi sasa, ukipunguza viwango vya makosa kwa takriban nusu katika uelewa wa hoja za chati na kiolesura cha programu.
Kwa matumizi ya kitaalamu ya kila siku, hii inamaanisha kwamba muundo unaweza kutafsiri kwa usahihi zaidi dashibodi, picha za bidhaa, michoro ya kiufundi, na ripoti za kuona—ikiunga mkono mtiririko wa kazi katika fedha, uendeshaji, uhandisi, usanifu na usaidizi wa wateja ambapo taarifa za kuona ni muhimu.
Kwenye CharXiv Reasoning(fungua katika dirisha jipya), miundo inajibu maswali kuhusu chati za kuona kutoka kwa makala za kisayansi. Zana ya Python iliwashwa na juhudi za kuzingatia ziliwekwa kwa kiwango cha juu.
Kwenye ScreenSpot-Pro(fungua katika dirisha jipya), miundo lazima waza kuhusu picha za skrini zenye azimio la juu za miingiliano ya watumiaji kutoka kwa mazingira mbalimbali ya kitaalamu. Zana ya Python iliwasha na juhudi za uwazaji ziliwekwa kwa kiwango cha juu. Bila zana ya Python, alama ni za chini sana. Tunapendekeza kuwasha zana ya Python kwenye shughuli za maono kama hizi.
Ikilinganishwa na miundo ya awali, GPT‑5.2 Kufikiria kuna uelewa thabiti zaidi wa jinsi vipengele vinavyopangwa ndani ya picha, jambo ambalo husaidia katika shughuli ambapo mpangilio wa jamaa unachukua wajibu muhimu katika kutatua tatizo. Katika mfano ulio hapa chini, tunauomba muundo utambue vipengele katika ingizo la picha (katika kesi hii, motherboard) na urudishe lebo zenye maboksi ya takriban ya mipaka. Hata kwenye picha ya ubora wa chini, GPT‑5.2 inatambua maeneo makuu na kuweka masanduku yanayolingana takriban na maeneo halisi ya kila sehemu, ilhali GPT‑5.1 inaweka alama kwa sehemu chache tu na inaonyesha uelewa dhaifu zaidi wa mpangilio wao wa anga.
GPT‑5.1

GPT‑5.2

GPT‑5.2 Thinking inafikia hali mpya ya sanaa ya 98.7% kwenye Tau2-bench Telecom, ikionyesha uwezo wake wa kutumia zana kwa uhakika katika shughuli ndefu, za mizunguko mingi.
Kwa matumizi nyeti ya ufichwaji, GPT‑5.2 Kufikiria pia hufanya vizuri zaidi katika kuzingatia. juhudi=’hakuna’, inazidi sana GPT‑5.1 na GPT‑4.1.
Kwenye τ2-bench(fungua katika dirisha jipya), miundo hutumia zana kukamilisha shughuli za usaidizi kwa wateja katika mwingiliano wa zamu nyingi na mtumiaji aliyesimuliwa. Kwa kikoa cha Mawasiliano ya Simu, tulijumuisha maelekezo mafupi, yenye msaada wa jumla katika dokeza la mfumo ili kuongeza utendaji. Tumeondoa sehemu ndogo ya Ndege kwa sababu ya ubora wa chini wa upimaji wa ukweli wa msingi.
Kwa wataalamu, hii inatafsiriwa kuwa na mtiririko wa kazi wenye nguvu kutoka mwanzo hadi mwisho—kama vile kutatua kesi za usaidizi wa wateja, kuvuta data kutoka mifumo mingi, kufanya uchambuzi, na kuzalisha matokeo ya mwisho huku kukiwa na kuvunjika kidogo kati ya hatua.
Kwa mfano, unapouliza swali tata la huduma kwa wateja linalohitaji utatuzi wa hatua nyingi, muundo unaweza kuratibu kwa ufanisi zaidi mtiririko kamili wa kazi kati ya mawakala mbalimbali. Katika kesi iliyo hapa chini, msafiri anaripoti kucheleweshwa kwa ndege, kukosa muunganisho, kukaa usiku mmoja New York, na hitaji la kukaa kwa sababu za kiafya. GPT‑5.2 inasimamia mnyororo mzima wa shughuli—kuhifadhi tena, viti vya msaada maalum, na fidia—ikitoa matokeo kamili zaidi kuliko GPT‑5.1.
GPT‑5.1

GPT‑5.2

Moja ya matumaini yetu kwa AI ni kwamba itaharakisha utafiti wa kisayansi kwa manufaa ya kila mtu. Kwa ajili ya hili, tumekuwa tukifanya kazi na kuwasikiliza wanasayansi ili kuona jinsi AI inaweza kuharakisha kazi zao, na mwezi uliopita tulishiriki baadhi ya majaribio ya awali ya ushirikiano hapa.
Tunaamini GPT‑5.2 Pro na GPT‑5.2 Thinking ni miundo bora zaidi duniani kwa kusaidia na kuharakisha wanasayansi. Kwenye GPQA Diamond, kipimo cha maswali na majibu cha kiwango cha wahitimu kisichoweza kutatuliwa na Google, GPT‑5.2 Pro inapata 93.2%, ikifuatwa kwa karibu na GPT‑5.2 Thinking katika 92.4%.
Kwenye GPQA Diamond(fungua katika dirisha jipya), miundo inajibu maswali ya chaguo nyingi kuhusu fizikia, kemia, na biolojia. Hakuna zana ziliwashwa na juhudi za kufikiri ziliwekwa kwa kiwango cha juu.
Katika FrontierMath (Kiwango 1–3), tathmini ya hisabati ya kiwango cha mtaalamu, GPT‑5.2 Thinking imeweka kiwango kipya cha sanaa, ikitatua 40.3% ya matatizo.
Kwenye FrontierMath(fungua katika dirisha jipya), miundo inatatua matatizo ya hisabati ya kiwango cha mtaalamu. Zana ya Python iliwashwa na juhudi za kufikiri ziliwekwa kwa kiwango cha juu.
Tunaanza kuona miundo ya AI ikiharakisha kwa njia yenye maana maendeleo katika hisabati na sayansi kwa njia zinazoonekana. Kwa mfano, katika kazi ya hivi karibuni na GPT‑5.2 Pro, watafiti waligundua swali wazi katika nadharia ya kujifunza kitakwimu. Katika mazingira finyu na maalum, miundo ilipendekeza uthibitisho ambao baadaye ulithibitishwa na waandishi na kukaguliwa na wataalamu wa nje, ikionyesha jinsi miundo ya kisasa inaweza kusaidia utafiti wa hisabati chini ya uangalizi wa karibu wa binadamu.
Kwenye ARC-AGI-1 (Imethibitishwa), kipimo kilichoundwa kupima uwezo wa kufikiri kwa jumla, GPT‑5.2 ni muundo wa kwanza kuvuka kizingiti cha 90%, ikiboresha kutoka 87% na o3‑preview mwaka jana huku ikipunguza gharama ya kufikia utendaji huo kwa takriban mara 390.
Kwenye ARC-AGI-2 (Imethibitishwa), ambayo inaongeza ugumu na kutenga vizuri ufikiri wa dhahania, GPT‑5.2 Thinking imefikia hali mpya ya kisanaa kwa miundo ya mlolongo wa mawazo, ikipata alama ya 52.9%. GPT‑5.2 Pro inafanya kazi kwa kiwango cha juu zaidi, ikifikia 54.2%, na hivyo kuongeza uwezo wa muundo wa kuwaza kupitia matatizo mapya na ya dhana.
Maboresho katika tathmini hizi yanaonyesha utendaji wa GPT‑5.2 hoja zenye nguvu zaidi za hatua nyingi, usahihi wa juu wa kiasi, na utatuzi wa matatizo unaotegemewa zaidi katika shughuli changamano za kiufundi.
Hivi ndivyo wajaribu wetu wa awali wanavyosema kuhusu GPT‑5.2:
"GPT-5.2 kufungua mabadiliko kamili ya usanifu kwetu. Tulibadili mfumo dhaifu wa mawakala wengi kuwa wakala mmoja mkubwa wenye zaidi ya zana 20. Sehemu bora zaidi ni kwamba, inafanya kazi tu. Wakala mkuu ni wa haraka zaidi, wenye akili zaidi, na rahisi zaidi kudumisha mara 100. Tunaona ufichwaji wa chini sana, ufuatiliaji wa zana wenye nguvu zaidi, na hatuhitaji tena dokeza za mfumo zinazochukua nafasi kubwa kwa sababu 5.2 itatekeleza kwa usafi kutoka kwa dokeza rahisi, la mstari mmoja. Inahisi kama uchawi mtupu."
Katika ChatGPT, watumiaji wanapaswa kugundua kuwa GPT‑5.2 inahisi bora kutumia kila siku—imepangwa zaidi, inategemewa zaidi na bado inafurahisha kuzungumza nayo.
GPT‑5.2 Instant ni chombo chenye nguvu na kasi kwa kazi za kila siku na kujifunza, kikiwa na maboresho dhahiri katika maswali ya kutafuta taarifa, jinsi ya kufanya na maelekezo, uandishi wa kiufundi, na tafsiri, ili kuwezesha sauti inayovutia mazungumzo iliyowezeshwa katika GPT‑5.1 Instant. Wajaribu wa awali walibaini hasa maelezo wazi zaidi yanayoweka taarifa muhimu mbele.
GPT‑5.2 Thinking imeundwa kwa shughuli za kina zaidi, ikisaidia watumiaji kushughulikia shughuli ngumu zaidi kwa umakini mkubwa—hasa katika usimbaji, kufupisha hati ndefu, kujibu maswali kuhusu faili zilizopakuliwa, kupitia hatua kwa hatua katika hisabati na mantiki, na kusaidia kupanga na kufanya maamuzi kwa muundo wazi na maelezo ya kina zaidi.
GPT‑5.2 Pro ni chaguo letu la akili zaidi na la kuaminika zaidi kwa maswali magumu ambapo jibu la ubora wa juu linastahili kusubiri, huku majaribio ya awali yakionyesha makosa makubwa machache na utendaji bora katika nyanja changamano kama vile programu.
GPT‑5.2 inajenga juu ya utafiti wa kukamilisha salama tuliouanzisha na GPT‑5, ambao unafundisha muundo kutoa jibu lenye msaada zaidi huku bado ukibaki ndani ya mipaka ya usalama.
Kwa toleo hili, tumeendelea na kazi yetu ya kuimarisha majibu ya miundo yetu katika mazungumzo nyeti, na maboresho makubwa katika jinsi yanavyojibu dokeza zinazoonyesha dalili za kujiua au kujidhuru, dhiki ya afya ya akili, au utegemezi wa kihisia kwenye muundo. Hatua hizi zilizolengwa zimepelekea kupungua kwa majibu yasiyotakikana katika GPT‑5.2. Papo hapo na GPT‑5.2 Thinking ikilinganishwa na miundo ya GPT‑5.1 na GPT‑5 Instant na Thinking. Maelezo zaidi yanaweza kupatikana katika kadi ya mfumo.
Tuko katika hatua za awali za kusambaza muundo wa utabiri wa umri ili tuweze kutumia kiotomatiki ulinzi wa maudhui kwa watumiaji walio chini ya miaka 18, ili kupunguza ufikiaji wa maudhui nyeti. Hali hii inajenga juu ya mbinu yetu iliyopo kwa watumiaji tunaowajua wako chini ya miaka 18 na udhibiti wetu wa wazazi.
GPT‑5.2 ni hatua moja katika mfululizo unaoendelea wa maboresho na bado hatujamaliza. Ingawa toleo hili linatoa mafanikio yenye maana katika maarifa na tija, tunajua kuna maeneo ambapo watu wanataka zaidi. Katika ChatGPT, tunashughulikia masuala yanayojulikana kama vile kukataa kupita kiasi, huku tukiendelea kuboresha usalama na uaminifu kwa ujumla. Mabadiliko haya ni magumu, na tunazingatia kuyafanya kwa usahihi.
GPT‑5.2 Papo hapo | GPT‑5.1 | GPT‑5.2 | GPT‑5.1 | |
Afya ya akili | 0.995 | 0.883 | 0.915 | 0.684 |
Utegemezi wa kihisia | 0.938 | 0.945 | 0.955 | 0.785 |
Kujidhuru | 0.938 | 0.925 | 0.963 | 0.937 |
Katika ChatGPT, tutaanza kusambaza GPT‑5.2 (Instant, Thinking, na Pro) leo, tukianza na mipango ya kulipia (Plus, Pro, Go, Business, Enterprise). Tunawezesha GPT‑5.2 hatua kwa hatua ili kuhakikisha ChatGPT inabaki laini na ya kuaminika kadri tuwezavyo; ikiwa huioni mwanzoni, tafadhali jaribu tena baadaye. Katika ChatGPT, GPT‑5.1 bado itapatikana kwa watumiaji waliolipia kwa miezi mitatu chini ya miundo ya urithi, baada ya hapo tutasitisha GPT‑5.1.
ChatGPT | API |
ChatGPT‑5.2 Papo hapo | GPT‑5.2‑chat‑latest |
ChatGPT‑5.2 Kufikiria | GPT‑5.2 |
ChatGPT‑5.2 Pro | GPT‑5.2 Pro |
Katika Jukwaa letu la API, GPT‑5.2 Thinking inapatikana leo katika API ya Majibu na API ya Kukamilisha chati kama GPT‑5.2, na GPT‑5.2 Papo hapo kama gpt-5.2-chat-latest. GPT‑5.2 Pro inapatikana katika API ya Majibu kama gpt-5.2-pro. Wasanidi programu sasa wanaweza kuweka kigezo cha reasoning katika GPT‑5.2 Pro, na wote GPT‑5.2 Pro na GPT‑5.2 Fikiria sasa usaidizi wa juhudi mpya ya tano ya kufikiri ya xhigh, kwa shughuli ambapo ubora ni muhimu zaidi.
GPT‑5.2 ina bei ya $1.75 kwa kila tokeni milioni 1 ya ingizo na $14 kwa kila tokeni milioni 1 ya kitolewa, na punguzo la 90% kwa ingizo zilizohifadhiwa. Katika tathmini nyingi za kiwakala, tuligundua kuwa licha ya uwezo wa GPT‑5.2 gharama kubwa kwa kila tokeni, lakini gharama ya kufikia kiwango fulani cha ubora ilipungua kutokana na ufanisi mkubwa wa tokeni wa GPT‑5.2.
Wakati uwekaji bei wa usajili wa ChatGPT unabaki sawa, katika API, GPT‑5.2 imewekwa bei ya juu kwa kila tokeni kuliko GPT‑5.1 kwa sababu ni muundo wenye uwezo zaidi. Bado inauzwa chini ya miundo mingine ya mipaka, kwa hivyo watu wanaweza kuendelea kuitumia kwa kina katika kazi zao za kila siku na programu kuu.
Muundo | Ingizo | Ingizo lililohifadhiwa | Kutoa |
GPT‑5.2 / GPT‑5.2‑chat‑latest | $1.75 | $0.175 | $14 |
gpt-5.2-pro | $21 | - | $168 |
GPT‑5.1 / GPT‑5.1‑chat‑latest | $1.25 | $0.125 | $10 |
gpt-5-pro | $15 | - | $120 |
Kwa sasa hatuna mipango ya kuacha kutumia GPT‑5.1, GPT‑5, au GPT‑4.1 katika API na itawasiliana mipango yoyote ya kuondoa kwa taarifa mapema kwa wasanidi programu. Ingawa GPT‑5.2 itafanya kazi vizuri moja kwa moja katika Codex, tunatarajia kutoa toleo la GPT‑5.2 lililoboreshwa kwa Codex katika wiki zijazo.
GPT‑5.2 ilijengwa kwa ushirikiano na washirika wetu wa muda mrefu NVIDIA na Microsoft. Vituo vya data vya Azure na GPU za NVIDIA, zikiwemo H100, H200, na GB200-NVL72, vinaimarisha miundombinu ya mafunzo ya OpenAI kwa kiwango kikubwa, na kuendesha mafanikio makubwa katika akili ya muundo. Pamoja, ushirikiano huu unatuwezesha kupanua uwezo wa kompyuta kwa kujiamini na kuleta miundo mipya sokoni kwa haraka zaidi.
Chini, tunaripoti alama za kina za majaribio ya GPT‑5.2 Kufikiri, pamoja na sehemu ndogo ya GPT‑5.2 Pro.
Mtaalamu
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| GDPval (ties allowed, wins or ties) | 70.9% | 74.1% | 38.8% (GPT-5) |
| GDPval (ties allowed, clear wins) | 49.8% | 60.0% | 35.5% (GPT-5) |
| GDPval (no ties) | 61.0% | 67.6% | 37.1% (GPT-5) |
| Investment banking spreadsheet tasks (internal) | 68.4% | 71.7% | 59.1% |
Uandishi wa msimbo
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| SWE-Bench Pro, Public | 55.6% | - | 50.8% |
| SWE-bench Verified | 80.0% | - | 76.3% |
| SWE-Lancer, IC Diamond* | 74.6% | - | 69.7% |
Ukweli
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| ChatGPT answers without errors (w/ search) | 93.9% | - | 91.2% |
| ChatGPT answers without errors (no search) | 88.0% | - | 87.3% |
Muktadha mrefu
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| OpenAI MRCRv2, 8 needles, 4k–8k | 98.2% | - | 65.3% |
| OpenAI MRCRv2, 8 needles, 8k–16k | 89.3% | - | 47.8% |
| OpenAI MRCRv2, 8 needles, 16k–32k | 95.3% | - | 44.0% |
| OpenAI MRCRv2, 8 needles, 32k–64k | 92.0% | - | 37.8% |
| OpenAI MRCRv2, 8 needles, 64k–128k | 85.6% | - | 36.0% |
| OpenAI MRCRv2, 8 needles, 128k–256k | 77.0% | - | 29.6% |
| BrowseComp Long Context 128k | 92.0% | - | 90.0% |
| BrowseComp Long Context 256k | 89.8% | - | 89.5% |
| GraphWalks bfs <128k | 94.0% | - | 76.8% |
| Graphwalks parents <128k | 89.0% | - | 71.5% |
Maono
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| CharXiv reasoning (no tools) | 82.1% | - | 67.0% |
| CharXiv reasoning (w/ Python) | 88.7% | - | 80.3% |
| MMMU Pro (no tools) | 79.5% | - | - |
| MMMU Pro (w/ Python) | 80.4% | - | 79.0% |
| Video MMMU (no tools) | 85.9% | - | 82.9% |
| Screenspot Pro (w/ Python) | 86.3% | - | 64.2% |
Matumizi ya Zana
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| Tau2-bench Telecom | 98.7% | - | 95.6% |
| Tau2-bench Retail | 82.0% | - | 77.9% |
| BrowseComp | 65.8% | 77.9% | 50.8% |
| Scale MCP-Atlas | 60.6% | - | 44.5% |
| Toolathlon | 46.3% | - | 36.1% |
Kitaaluma
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| GPQA Diamond (no tools) | 92.4% | 93.2% | 88.1% |
| HLE (no tools) | 34.5% | 36.6% | 25.7% |
| HLE (w/ search, Python) | 45.5% | 50.0% | 42.7% |
| MMMLU | 89.6% | - | 89.5% |
| HMMT, Feb 2025 (no tools) | 99.4% | 100.0% | 96.3% |
| AIME 2025 (no tools) | 100.0% | 100.0% | 94.0% |
| FrontierMath Tier 1–3 (w/ Python) | 40.3% | - | 31.0% |
| FrontierMath Tier 4 (w/ Python) | 14.6% | - | 12.5% |
Uwazaji wa dhana
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| ARC-AGI-1 (Verified) | 86.2% | 90.5% | 72.8% |
| ARC-AGI-2 (Verified) | 52.9% | 54.2% (high) | 17.6% |
Miundo iliendeshwa kwa juhudi kubwa zaidi za uwazaji zinazopatikana katika API yetu (xhigh kwa GPT‑5.2 Kufikiri & Pro, na juu kwa GPT‑5.1 Kufikiria), isipokuwa kwa tathmini za kitaalamu, ambapo GPT‑5.2 Kufikiri kuliendeshwa kwa juhudi kubwa za kufikiri, kiwango cha juu zaidi kinachopatikana katika ChatGPT Pro. Vipimo vilifanywa katika mazingira ya utafiti, ambayo yanaweza kutoa matokeo tofauti kidogo kutoka kwa ChatGPT ya uzalishaji katika baadhi ya matukio.
* Kwa SWE-Lancer, tunapuuza matatizo 40/237 ambayo hayakuweza kuendeshwa kwenye miundombinu yetu.


