Ruka hadi kwenye maudhui kuu
OpenAI

23 Aprili 2026

ProductToa

Kutambulisha GPT‑5.5

Aina mpya ya akili kwa kazi halisi

Inapakia…

Sasisho la Aprili 24, 2026: GPT‑5.5 na GPT‑5.5 Pro sasa zinapatikana kwenye API. Kadi ya mfumo pia imesasishwa ili kuelezea hatua za ziada za ulinzi zinazotumika.


Tunatoa GPT‑5.5, muundo wetu wenye maarifa zaidi na ulio rahisi zaidi kutumia hadi sasa, na hatua inayofuata kuelekea njia mpya ya kufanya kazi kwenye kompyuta.

GPT‑5.5 inaelewa unachojaribu kufanya kwa haraka zaidi na inaweza kujifanyia sehemu kubwa zaidi ya kazi. Inabobea katika kuandika na kutatua hitilafu katika msimbo, kufanya utafiti mtandaoni, kuchanganua data, kuunda hati na lahajedwali, kuendesha programu, na kusonga kati ya zana hadi kazi ikamilike. Badala ya kusimamia kwa makini kila hatua, unaweza kuipa GPT‑5.5 shughuli isiyo na mpangilio, yenye sehemu nyingi, na kuiamini kupanga, kutumia zana, kukagua kazi yake, kushughulikia utata, na kuendelea.

Mafanikio haya ni makubwa hasa katika uandishi wa msimbo wa kiwakala, matumizi ya kompyuta, kazi za maarifa, na utafiti wa awali wa kisayansi—maeneo ambapo maendeleo hutegemea uwazaji katika muktadha mbalimbali na kuchukua hatua kwa muda. GPT‑5.5 inafikia hatua hii ya akili bila kuathiri kasi: muundo mkubwa na wenye uwezo zaidi mara nyingi hufanya kazi polepole, lakini GPT‑5.5 inalingana na ucheleweshaji kwa kila tokeni ya GPT‑5.4 katika utoaji wa huduma katika matumizi halisi, huku ikifanya kazi katika kiwango cha juu zaidi cha akili. Pia hutumia tokeni chache zaidi kwa kiasi kikubwa kukamilisha shughuli zilezile za Codex, na kuifanya iwe na ufanisi zaidi pamoja na kuwa na uwezo zaidi.

Tunatoa GPT‑5.5 pamoja na seti yetu thabiti zaidi ya hatua za ulinzi hadi sasa, iliyoundwa kupunguza matumizi mabaya huku ikihifadhi ufikiaji kwa kazi zenye manufaa kwa njia rasmi. Tulitathmini muundo huu katika safu yetu kamili ya mifumo ya usalama na maandalizi, tukashirikiana na wataalamu wa ndani na wa nje wa redteamers, tukaongeza majaribio yaliyolengwa kwa uwezo wa hali ya juu wa usalama wa mtandao na biolojia, na kukusanya maoni rasmi kuhusu matumizi halisi kutoka kwa karibu washirika 200 wa kuaminika wa ufikiaji wa mapema kabla ya kutolewa.

Leo, GPT‑5.5 inaanza kusambazwa kwa watumiaji wa Plus, Pro, Business, na Enterprise katika ChatGPT na Codex, na GPT‑5.5 Pro inaanza kusambazwa kwa watumiaji wa Pro, Business, na Enterprise katika ChatGPT. Usambazaji wa API unahitaji hatua tofauti za ulinzi, na tunashirikiana kwa karibu na washirika na wateja kuhusu mahitaji ya usalama na ulinzi kwa ajili ya kuihudumia kwa kiwango kikubwa. Tutaweka GPT‑5.5 na GPT‑5.5 Pro kwenye API hivi karibuni sana.

GPT‑5.5

GPT‑5.4 

GPT‑5.5 Pro

GPT‑5.4 Pro

Claude Opus 4.7

Gemini 3.1 Pro

Terminal-Bench 2.0

82.7%

75.1%

-

-

69.4%

68.5%

Mtaalamu-SWE (ya Ndani)

73.1%

68.5%

-

-

-

-

GDPval (ushindi au sare)

84.9%

83.0%

82.3%

82.0%

80.3%

67.3%

OSWorld-Verified

78.7%

75.0%

-

-

78.0%

-

Toolathlon

55.6%

54.6%

-

-

-

48.8%

BrowseComp

84.4%

82.7%

90.1%

89.3%

79.3%

85.9%

FrontierMath Kiwango 1–3

51.7%

47.6%

52.4%

50.0%

43.8%

36.9%

FrontierMath Kiwango 4

35.4%

27.1%

39.6%

38.0%

22.9%

16.7%

CyberGym

81.8%

79.0%

-

-

73.1%

-

Uwezo wa miundo

OpenAI inajenga miundombinu ya kimataifa ya AI ya mawakala, ikiwezesha watu na biashara kote ulimwenguni kufanya kazi kwa kutumia AI. Katika mwaka uliopita, tumeona AI ikiharakisha kwa kiasi kikubwa uhandisi wa programu. Kwa kutumia GPT‑5.5 katika Codex na ChatGPT, mabadiliko hayo hayo yanaanza kuenea hadi katika utafiti wa kisayansi na kazi pana zaidi ambazo watu hufanya kwenye kompyuta.

Katika nyanja hizi zote, GPT‑5.5 si tu yenye akili zaidi; pia ina ufanisi zaidi katika jinsi inavyoshughulikia matatizo, mara nyingi ikifikia matokeo ya ubora wa juu zaidi kwa kutumia tokeni chache na majaribio machache ya kurudia. Kwenye Coding Agent Index ya Artificial Analysis, GPT‑5.5 inatoa akili ya hali ya juu kwa nusu ya gharama ya miundo ya mpaka ya usimbaji wa kiwakala.

Kielezo cha Akili ya Uchambuzi wa Kifaharisi(fungua katika dirisha jipya) ni wastani uliopimwa wa tathmini 10 zilizofanywa na washiriki wa nje: AA-LCR, AA-Omniscience, CritPt, GDPval-AA, GPQA Diamond, Humanity’s Last Exam, IFBench, SciCode, Terminal-Bench Hard, τ²-Bench Telecom.

Usimbaji wa wakala

GPT‑5.5 ni muundo wetu wenye nguvu zaidi wa usimbaji wa kiwakala hadi sasa. Kwenye Terminal-Bench 2.0, ambayo hujaribu mtiririko changamano ya kazi za mstari wa amri unaohitaji mipango, marudio, na uratibu wa zana, hufikia usahihi wa kiwango cha juu zaidi wa 82.7%. Kwenye SWE-Bench Pro, ambayo hutathmini utatuzi wa masuala halisi ya GitHub, inafikia 58.6%, ikitatua kazi nyingi zaidi kutoka mwanzo hadi mwisho kwa mkupuo mmoja kuliko miundo ya awali. Kwenye Expert-SWE, tathmini yetu ya ndani ya mpaka kwa shughuli za uandishi wa msimbo za muda mrefu zenye makadirio ya muda wa wastani wa kukamilishwa na binadamu wa saa 20, GPT‑5.5 pia huizidi utendaji GPT‑5.4.

Katika tathmini zote tatu, GPT‑5.5 inaboresha alama za GPT‑5.4 kwa kutumia tokeni chache.

Uwezo wa muundo katika uandishi wa msimbo huonekana wazi hasa katika Codex, ambapo unaweza kushughulikia kazi za uhandisi kuanzia utekelezaji na marekebisho ya msimbo hadi utatuzi wa hitilafu, majaribio, na uthibitishaji. Majaribio ya awali yanaonyesha kuwa GPT‑5.5 ni bora zaidi katika tabia ambazo kazi halisi ya uhandisi hutegemea, kama vile kudumisha muktadha katika mifumo mikubwa, kufanya uwazaji kuhusu hitilafu zisizoeleweka, kuthibitisha dhana kwa kutumia zana, na kuendeleza mabadiliko katika msingi wa msimbo unaozunguka.

Trajektoria iliyoonyeshwa hutumia data ya vekta ya NASA/JPL Horizons kwa Orion, Mwezi, na Jua, huku upanuzi wa mwonekano ukitumika ili kuboresha usomaji.

Dokeza: [picha iliyoambatanishwa] Tekeleza hili kama programu mpya ukitumia webgl na vite ukitumia data halisi kutoka kwa misheni ya Artemis II. Hakikisha unaijaribu programu kwa kina mpaka ifanye kazi kikamilifu na ionekane kama programu iliyo kwenye picha. Zingatia kwa makini uwasilishaji wa sayari na njia za mzunguko. Ninataka kuweza kudhibiti na kuchunguza uwasilishaji wa 3D. Kuhakikisha ina mekaniki ya mizunguko ya angani iliyo halisi.

Zaidi ya viwango vya kupima utendaji, waliojaribu mapema walisema GPT‑5.5 inaonyesha uwezo mkubwa zaidi wa kuelewa muundo wa mfumo: kwa nini kitu kinafeli, mahali ambapo marekebisho yanahitaji kufanywa, na ni nini kingine katika msingi wa msimbo kingeathiriwa.

alt

“Muundo wa kwanza wa usimbaji ambao nimetumia wenye uwazi wa dhana wa kina.”

Dan Shipper, Mwanzilishi na Afisa Mtendaji Mkuu wa Every, alielezea GPT‑5.5 kama “muundo wa kwanza wa msimbo niliowahi kutumia ambao una uwazi wa dhana.”

Baada ya kuzindua programu, alitumia siku kadhaa akitatua hitilafu iliyojitokeza baada ya uzinduzi kabla ya kumleta mmoja wa wahandisi wake bora kuandika upya sehemu ya mfumo. Ili kuijaribu GPT‑5.5, alirudisha saa nyuma: je, muundo ungeweza kuangalia hali iliyoharibika na kutoa aina ileile ya uandishi upya ambao mhandisi hatimaye aliamua kuutumia? GPT‑5.4 haikuweza. GPT‑5.5 iliweza.

alt

“Kwa kweli, nahisi kana kwamba nafanya kazi na akili ya kiwango cha juu zaidi, na kuna karibu hisia ya heshima.”

Pietro Schirano, Mkurugenzi Mtendaji wa MagicPath, aliona mabadiliko makubwa ya kiwango kama hayo wakati GPT‑5.5 ilipounganisha tawi lenye mamia ya mabadiliko ya frontend na marekebisho ya muundo wa msimbo (refactor) katika tawi kuu ambalo pia lilikuwa limebadilika kwa kiasi kikubwa, na kukamilisha kazi hiyo kwa dokezo moja ndani ya takriban dakika 20.

Wahandisi wakuu waliojaribu muundo huo walisema GPT‑5.5 ilikuwa na nguvu zaidi kwa kiasi kinachoonekana kuliko GPT‑5.4 na Claude Opus 4.7 katika uwazaji na kujitegemea, ikibaini matatizo mapema na kutabiri mahitaji ya upimaji na ukaguzi bila kuelekezwa wazi. Katika tukio moja, mhandisi aliomba ibadilishe upya usanifu wa mfumo wa maoni katika mhariri wa markdown wa ushirikiano, na ikarudi na mfululizo wa diff 12 uliokuwa karibu kukamilika. Wengine walisema walihitaji marekebisho madogo sana ya utekelezaji kwa kushangaza na walihisi kuwa na imani zaidi katika mipango ya GPT‑5.5 ikilinganishwa na GPT‑5.4.

Mhandisi mmoja wa NVIDIA aliyekuwa na ufikiaji wa mapema wa muundo alifikia hatua ya kusema: "Kupoteza ufikiaji wa GPT‑5.5 kunahisi kama nimekatwa mguu.”

“GPT-5.5 ni yenye akili zaidi kwa kiasi kinachoonekana na yenye ustahimilivu zaidi kuliko GPT-5.4, na utendaji bora wa usimbaji na matumizi ya zana yanayotegemeka zaidi. Hubaki kwenye kazi kwa muda mrefu zaidi kwa kiasi kikubwa bila kusimama mapema, jambo ambalo ni muhimu zaidi kwa kazi changamani za muda mrefu ambazo watumiaji wetu hukabidhi Cursor.”
— Michael Truell, Mwanzilishi-Mwenza na Afisa Mtendaji Mkuu wa Cursor

Kazi ya maarifa

Nguvu zilezile zinazoifanya GPT‑5.5 kuwa bora katika kuandika msimbo pia zinaifanya kuwa na nguvu kwa kazi za kila siku kwenye kompyuta. Kwa sababu muundo ni bora zaidi katika kuelewa nia, unaweza kusonga kwa njia ya asili zaidi katika mzunguko mzima wa kazi ya maarifa: kutafuta taarifa, kuelewa yaliyo muhimu, kutumia zana, kukagua matokeo, na kubadilisha malighafi kuwa kitu chenye manufaa.

Katika Codex, GPT‑5.5 ni bora zaidi kuliko GPT‑5.4 katika kuzalisha hati, lahajedwali, na mawasilisho ya slaidi. Wachunguzi wa alpha walisema ilipita muundo wa awali kwa utendaji katika kazi kama vile utafiti wa uendeshaji, uundaji wa miundo ya lahajedwali, na kubadilisha maingizo ya biashara yasiyo na mpangilio kuwa mipango. Inapounganishwa na ujuzi wa Codex wa kutumia kompyuta, GPT‑5.5 inatukaribisha zaidi kwenye hisia kwamba muundo unaweza kweli kutumia kompyuta pamoja nawe: kuona kilicho kwenye skrini, kubofya, kuandika, kupitia violesura, na kusonga kati ya zana kwa usahihi.

Timu za OpenAI tayari zinatumia nguvu hizi katika taratibu halisi za kazi. Leo, zaidi ya 85% ya kampuni hutumia Codex kila wiki katika idara mbalimbali ikiwemo uhandisi wa programu, fedha, mawasiliano, masoko, sayansi ya data, na usimamizi wa bidhaa. Katika kitengo cha Mawasiliano, timu ilitumia GPT‑5.5 katika Codex kuchanganua data ya miezi sita ya maombi ya kuzungumza, kujenga mfumo wa upangaji alama na hatari, na kuthibitisha wakala wa Slack wa kiotomatiki ili maombi yenye hatari ndogo yaweze kushughulikiwa kiotomatiki huku maombi yenye hatari kubwa zaidi yakiendelea kuelekezwa kwenye ukaguzi wa binadamu. Katika kitengo cha Fedha, timu ilitumia Codex kukagua fomu za ushuru za K-1 24,771 zenye jumla ya kurasa 71,637, kwa kutumia utaratibu wa kazi ulioondoa taarifa za kibinafsi na kusaidia timu kuharakisha kazi hiyo kwa wiki mbili ikilinganishwa na mwaka uliotangulia. Katika timu ya mkakati wa kuingia sokoni, mfanyakazi mmoja aliweka kiotomatiki utayarishaji wa ripoti za biashara za kila wiki, na hivyo kuokoa saa 5-10 kwa wiki.

Katika ChatGPT, GPT‑5.5 Thinking hufungua msaada wa haraka zaidi kwa matatizo magumu zaidi, ikiwa na majibu sahihi zaidi na mafupi zaidi ili kukusaidia kupitia kazi changamano kwa ufanisi zaidi. Inabobea katika kazi za kitaaluma kama vile usimbaji, utafiti, usanisi na uchambuzi wa taarifa, pamoja na kazi zinazohusisha nyaraka nyingi, hasa unapotumia programu-jalizi.

Katika GPT‑5.5 Pro, wajaribu wa mapema wanaona ongezeko kubwa katika ugumu na ubora wa kazi ambazo ChatGPT inaweza kushughulikia, pamoja na maboresho ya ucheleweshaji yanayoifanya iwe bora zaidi kwa shughuli zinazohitajika zaidi. Ikilinganishwa na GPT‑5.4 Pro, wajaribu waligundua kuwa majibu ya GPT‑5.5 Pro yalikuwa ya kina zaidi, yaliyopangwa vyema zaidi, sahihi zaidi, yanayofaa zaidi, na yenye manufaa zaidi, huku yakionyesha utendaji bora hasa katika biashara, sheria, elimu na sayansi ya data.

GPT‑5.5 inafikia utendaji wa hali ya juu zaidi kwenye viwango vingi vya alama vinavyoakisi kazi ya aina hii. Kwenye GDPval⁠, ambayo hupima uwezo wa mawakala wa kuzalisha kazi ya maarifa iliyoainishwa vizuri katika taaluma 44, GPT‑5.5 hupata alama ya 84.9%. Kwenye OSWorld-Verified, ambayo hupima ikiwa muundo unaweza kuendesha mazingira halisi ya kompyuta peke yake, inafikia 78.7%. Na kwenye Tau2-bench Telecom, ambayo hujaribu mtiririko changamano ya kazi za huduma kwa wateja, inafikia 98.0% bila kurekebisha vidokezo. GPT‑5.5 pia hufanya vizuri sana kwenye viwango vya alama vya kazi nyingine za maarifa: 60.0% kwenye FinanceAgent, 88.5% kwenye kazi za ndani za uundaji wa miundo ya benki ya uwekezaji, na 54.1% kwenye OfficeQA Pro.

Tau2-bench Telecom iliendeshwa bila urekebishaji wa dokezo (na GPT‑4.1 kama muundo wa mtumiaji). GPT‑5.5 inaelewa dhamira ya kazi vizuri zaidi na ina ufanisi zaidi wa tokeni kuliko watangulizi wake.

“GPT-5.5 inatoa utendaji endelevu unaohitajika kwa kazi zinazohusisha utekelezaji mwingi. Imejengwa na kuendeshwa kwenye mifumo ya NVIDIA GB200 NVL72, muundo huu huwezesha timu zetu kusafirisha vipengele vya mwisho hadi mwisho kutoka kwa dokezo za lugha asilia, kupunguza muda wa utatuzi wa hitilafu kutoka siku hadi saa, na kubadilisha wiki za majaribio kuwa maendeleo ya usiku mmoja katika misingi changamano ya msimbo. Ni zaidi ya usimbaji wa haraka—ni njia mpya ya kufanya kazi inayowasaidia watu kufanya kazi kwa kasi iliyo tofauti kimsingi.”
— Justin Boitano, Makamu wa Rais wa AI ya biashara katika NVIDIA

Utafiti wa kisayansi

GPT‑5.5 pia inaonyesha mafanikio katika taratibu za utafiti wa kisayansi na kiufundi, ambazo zinahitaji zaidi ya kujibu swali gumu. Watafiti wanahitaji kuchunguza wazo, kukusanya ushahidi, kupima dhana, kutafsiri matokeo, na kuamua nini cha kujaribu baadaye. GPT‑5.5 ni bora zaidi katika kudumu katika mzunguko huo kuliko muundo mingine.

Tambua kwamba, GPT‑5.5 inaonyesha maendeleo wazi ikilinganishwa na GPT‑5.4 kwenye GeneBench(fungua katika dirisha jipya), tathmini mpya inayolenga uchanganuzi wa data za kisayansi zenye hatua nyingi katika jenetiki na biolojia ya kiasi. Matatizo haya yanahitaji miundo kutafakari kuhusu data ambayo huenda ina utata au makosa kwa mwongozo mdogo wa usimamizi, kushughulikia vikwazo halisi kama vile vichanganyaji fiche au hitilafu za udhibiti wa ubora, na kutekeleza pamoja na kufasiri kwa usahihi mbinu za kisasa za takwimu. Utendaji wa muundo ni wa kushangaza kwa kuzingatia ukweli kwamba shughuli hapa mara nyingi hulingana na miradi ya siku kadhaa kwa wataalamu wa kisayansi.

Vilevile, kwenye BixBench(fungua katika dirisha jipya), kipimo kilichoundwa kwa kuzingatia bioinfomatiki na uchambuzi wa data wa ulimwengu halisi, GPT‑5.5 ilipata utendaji unaoongoza miongoni mwa muundo wenye alama zilizochapishwa. Uwezo wa kisayansi wa muundo sasa umeimarika vya kutosha kuharakisha kwa njia yenye maana maendeleo katika mpaka wa utafiti wa kibayolojia kama mwanasayansi mwenza halisi.

Katika mfano mwingine, toleo la ndani la GPT‑5.5 lenye mfumo maalum wa majaribio lilisaidia kugundua uthibitisho mpya(fungua katika dirisha jipya) kuhusu nambari za Ramsey, mojawapo ya dhana kuu katika ujumuishaji (combinatorics). Ujumuishaji (combinatorics) huchunguza jinsi vitu tofauti vinavyoungana: grafu, mitandao, seti na mifumo. Kwa ujumla, nambari za Ramsey huuliza mtandao unapaswa kuwa mkubwa kiasi gani kabla aina fulani ya mpangilio kuhakikishwa kujitokeza. Matokeo katika eneo hili ni nadra na mara nyingi ni magumu kitaalamu. Hapa, GPT‑5.5 ilipata uthibitisho wa ukweli wa muda mrefu usio na dalili kuhusu nambari za Ramsey zilizo nje ya laini ya ulalo, na baadaye ukathibitishwa katika Lean. Matokeo haya ni mfano halisi wa GPT‑5.5 ikichangia si tu msimbo au maelezo, bali pia hoja ya kihisabati ya kushangaza na yenye manufaa katika eneo kuu la utafiti.

Wajaribu wa awali walitumia GPT‑5.5 Pro katika ChatGPT si kama injini ya majibu ya dokezo moja bali zaidi kama mshirika wa utafiti: wakikagua maandishi ya kitaaluma kupitia mapitio ya mara kadhaa, kupima uimara wa hoja za kiufundi, kupendekeza uchanganuzi, na kushughulikia msimbo, maelezo, na muktadha wa PDF. Jambo la msingi ni kwamba GPT‑5.5 ni bora zaidi katika kusaidia watafiti kusonga kutoka kwenye swali hadi jaribio na hatimaye matokeo.

Derya Unutmaz, profesa wa kinga mwilini na mtafiti katika Maabara ya Jackson ya Tiba ya Genomic, alitumia GPT‑5.5 Pro kuchambua seti ya data ya uelezaji wa jeni yenye sampuli 62 na takriban jeni 28,000, na kutoa ripoti ya utafiti yenye maelezo ya kina ambayo haikufupisha tu matokeo bali pia ilibainisha maswali muhimu na maarifa mapya—kazi ambayo alisema ingechukua timu yake miezi kadhaa.

Bartosz Naskręcki, profesa msaidizi wa hisabati katika Chuo Kikuu cha Adam Mickiewicz huko Poznań, Poland, alitumia GPT‑5.5 katika Codex kujenga programu ya jiometri ya aljebra kutoka kwa dokezo moja ndani ya dakika 11, ikionyesha kwa taswira mwingiliano wa nyuso za kwadrati na kubadilisha mkunjo uliopatikana kuwa muundo wa Weierstrass

Baadaye alipanua programu hiyo kwa taswira thabiti zaidi ya umoja na vigezo halisi ambavyo vinaweza kutumika tena katika kazi zaidi. Kwake, mabadiliko makubwa zaidi ni kwamba Codex sasa inaweza kusaidia kutekeleza mtiririko maalum ya kazi wa taswira za kihisabati na aljebra ya kompyuta ambao hapo awali ulihitaji zana maalum. Kwa pamoja, mifano hii inaonyesha GPT‑5.5 ikigeuza nia ya wataalamu kuwa zana za utafiti na uchanganuzi zinazofanya kazi.

""

Mchango wa Bartosz Naskręcki(fungua katika dirisha jipya)

Dokeza: # Mwingiliano wa nyuso katika jiometri ya aljebra

Tengeneza programu inayochora nyuso mbili za kwadratiki na kupaka rangi nyekundu mkunjo wa makutano. Tumia nadharia ya kihesabu ya Riemann-Roch kubadilisha hili kuwa mkunjo wa Weierstrass.

## Dirisha Kuu

Nyuso mbili zenye rangi hafifu na kivuli chenye uwazi kiasi, uchoraji wa ubora wa juu, zinaingiliana kwenye mkunjo wa kialjebra wenye rangi nyekundu

Kuzungusha kwa kipanya katika pande zote mbili, utaratibu kamili wa kubana kwa vidole (pinch) kwa ajili ya kupanua, kubonyeza kwa mtetemo (haptic) ili kuonyesha menyu ndogo yenye vitelezeshi vya kubadilisha vigawo vya kila uso; utambuzi kupitia kiwango cha Z-buffer

## Dirisha la upande wa kulia

Mlinganyo mfupi wa Weierstrass (juu ya Q au upanuzi wa uga wa kwadrati) unakokotolewa popote ulipo kupitia fomula za nadharia bora ya Riemann-Roch.

## Hali tulivu ambapo vidhibiti vyote vimefichwa na mtumiaji anaweza kuvutiwa na uzuri wa maumbo

## Maelezo

Programu inaendeshwa kwenye kivinjari; utekelezaji ni mwepesi, ukitumia maktaba mpya za teknolojia kamili (full stack), na ni rahisi kubebeka na kusambazwa

## Hati

Hifadhi ya Git, jarida, mpango (faili za Markdown)

“Inasisimua sana kutumia muundo mpya wa GPT-5.5 wa OpenAI katika mfumo wetu wa majaribio, kuufanya ufikiri kuhusu seti kubwa za data za biokemia ili kutabiri matokeo ya dawa kwa binadamu, na kisha kuuona ukileta maboresho makubwa ya usahihi kwenye tathmini zetu ngumu zaidi za ugunduzi wa dawa. Ikiwa OpenAI itaendelea kufanya vizuri hivi, misingi ya ugunduzi wa dawa itabadilika kufikia mwisho wa mwaka.”
— Brandon White, Mwanzilishi-Mwenza na Afisa Mtendaji Mkuu wa Axiom Bio

Ufanisi wa hitimisho la kizazi kijacho

Kutoa GPT‑5.5 kwa ucheleweshaji wa GPT‑5.4 kulihitaji kufikiria upya uelekezaji wa hitimisho kama mfumo jumuishi, si kama mkusanyiko wa maboresho yaliyotengwa. GPT‑5.5 ilibuniwa kwa pamoja, ikafunzwa, na ikahudumiwa kwenye mifumo ya NVIDIA GB200 na GB300 NVL72. Codex na GPT‑5.5 zilikuwa muhimu katika jinsi tulivyofikia malengo yetu ya utendaji. Codex ilisaidia timu kufanya kazi kwa haraka zaidi kutoka wazo hadi utekelezaji unaoweza kupimwa kwa viwango vya kulinganisha, kwa kubuni mbinu, kuunganisha majaribio, na kusaidia kubaini ni maboresho gani yaliyostahili uwekezaji wa kina zaidi. GPT‑5.5 ilisaidia kupata na kutekeleza maboresho muhimu katika safu yenyewe. Kwa ufupi, muundo huo ulisaidia kuboresha miundombinu inayoihudumia.

Moja ya maboresho hayo ilikuwa mbinu za makisio za kusawazisha mzigo na ugawaji. Kabla ya GPT‑5.5, tuligawanya maombi kwenye kichakataji cha kuongeza kasi katika idadi maalum ya sehemu ili kusawazisha mzigo wa kazi kati ya viini vya uchakataji, kuhakikisha maombi makubwa na madogo yanaweza kuendeshwa kwenye GPU moja. Hata hivyo, idadi iliyobainishwa mapema ya vipande tuli si bora kwa miundo yote ya trafiki. Ili kutumia GPU kwa ufanisi zaidi, Codex ilichanganua mifumo ya trafiki ya uzalishaji ya wiki kadhaa na kuandika algoriti maalum za kiheuristiki ili kugawa na kusawazisha kazi kwa njia bora zaidi. Juhudi hizo zilikuwa na athari kubwa sana, zikiongeza kasi za uzalishaji wa tokeni kwa zaidi ya 20%.

Kuendeleza usalama wa mtandao kwa usalama wa kila mtu

Kuandaa ulimwengu kwa ajili ya miundo ambayo ni mahiri sana katika kutambua na kurekebisha udhaifu wa usalama ni juhudi za pamoja na kutahitaji mfumo mzima wa ikolojia kufanya kazi kwa bidii ili kujenga ustahimilivu, pamoja na upatikanaji wa miundo uliosambazwa kwa wengi na utekelezaji wa hatua kwa hatua kwa ajili ya enzi ijayo ya ulinzi wa mtandao.

Miundo ya mpaka zinaendelea kuwa na uwezo katika usalama wa mtandao. Uwezo huo utasambazwa kwa upana, na tunaamini kuwa njia bora zaidi ya kusonga mbele ni kuhakikisha kuwa zinaweza kutumika kuharakisha ulinzi wa mtandao na kuimarisha mfumo wa ikolojia.

GPT‑5.5 ni hatua ya maboresho ya taratibu lakini muhimu kuelekea AI inayoweza kutatua baadhi ya changamoto ngumu zaidi duniani, kama usalama wa mtandao. Kwa kutumia GPT‑5.2 mwezi Desemba, tulichukua hatua mapema kutekeleza ulinzi wa mtandao unaohitajika ili kupunguza uwezekano wa matumizi mabaya ya mtandao kwa muundo wetu; sasa kwa GPT‑5.5, tunaweka vichujio vikali zaidi vya hatari ya mtandao inayoweza kutokea ambavyo baadhi ya watumiaji wanaweza kuviona kuwa kero mwanzoni, tunapoviboresha kadri muda unavyosonga.

Tumetambua usalama wa mtandao kama kategoria katika Mfumo wa Maandalizi(fungua katika dirisha jipya) kwa miaka mingi huku muundo wetu ukiboreka hatua kwa hatua, wakati huo huo tukitengeneza na kurekebisha hatua za kupunguza hatari kwa njia ya marudio, ili kuweza kutoa muundo wenye uwezo muhimu wa usalama wa mtandao kwa uwajibikaji.

  • Tunatumia hatua za ulinzi zinazoongoza katika sekta kwa kiwango hiki cha uwezo wa kimtandao. Tulianzisha kwa mara ya kwanza ulinzi mahususi wa mtandao kwa GPT‑5.2(fungua katika dirisha jipya) mwaka jana, ambao tumeendelea kuujaribu, kuuboresha, na kuimarisha katika utekelezaji uliofuata. Kwa GPT‑5.5, tulibuni vidhibiti vikali zaidi kwenye shughuli zenye hatari kubwa zaidi, maombi nyeti ya mtandao, na tuliongeza hatua za ulinzi dhidi ya matumizi mabaya ya mara kwa mara. Ufikiaji mpana unawezekana kupitia uwekezaji wetu katika usalama wa muundo, matumizi yaliyothibitishwa, na ufuatiliaji wa matumizi yasiyoruhusiwa. Tumekuwa tukifanya kazi na wataalamu wa nje kwa miezi kadhaa ili kuendeleza, kupima na kuboresha uthabiti wa hatua hizi za usalama. Kwa kutumia GPT‑5.5, tunahakikisha kwamba wasanidi programu wanaweza kulinda msimbo wao kwa urahisi, huku tukiweka vidhibiti imara zaidi kwenye taratibu za kazi za mtandao zinazoweza kutumiwa zaidi na wahusika hasidi kusababisha madhara.
  • Tunapanua ufikiaji ili kuharakisha ulinzi wa mtandao katika kila ngazi. Tunafanya muundo wetu wenye ruhusa zaidi za mtandao ipatikane kupitia Ufikiaji Salama wa Mtandao, tukianza na Codex, ambayo inajumuisha ufikiaji uliopanuliwa wa uwezo wa hali ya juu wa usalama wa mtandao wa GPT‑5.5 wenye vizuizi vichache kwa watumiaji waliothibitishwa wanaokidhi baadhi ya viashiria vya uaminifu(fungua katika dirisha jipya) wakati wa uzinduzi. Mashirika ambayo yana jukumu la kulinda miundombinu muhimu yanaweza kutuma maombi ya kupata ufikiaji wa muundo unaoruhusu matumizi ya mtandao kama GPT‑5.4‑Cyber, huku yakitimiza masharti madhubuti ya usalama ili kutumia muundo hii kulinda mifumo yao ya ndani. Hii inawapa watetezi mbalimbali waliothibitishwa zana zenye uwezo zaidi kwa ajili ya kazi halali za usalama, huku vizuizi visivyo vya lazima vikiwa vichache, ili kuhakikisha kwamba tunapanua ufikiaji wa uwezo muhimu wa kujilinda. Watumiaji wanaweza kutuma ombi la ufikiaji salama katika chatgpt.com/cyber(fungua katika dirisha jipya) ili kupunguza kukataliwa kusiko kwa lazima wanapotumia GPT‑5.5 kwa kazi ya ulinzi iliyothibitishwa.
  • Tunafanya kazi na washirika wa serikali kusaidia kulinda miundombinu muhimu kwa ajili ya umma. Kwa pamoja, tunachunguza jinsi AI iliyoendelea inaweza kuunga mkono kazi ya kujihami ya maafisa wanaoaminika wanaowajibika kwa mifumo ambayo watu wanategemea, kuanzia mifumo ya kidijitali inayolinda data muhimu za walipa kodi hadi gridi ya umeme na huduma za maji katika jamii za eneo husika.

Tunachukulia uwezo wa GPT‑5.5 wa kibaolojia/kemikali na usalama wa mtandao kuwa ya Juu chini ya Mfumo wa Maandalizi(fungua katika dirisha jipya). Ingawa GPT‑5.5 haikufikia kiwango Muhimu cha uwezo wa usalama wa mtandao, tathmini na majaribio yetu yalionyesha kwamba uwezo wake wa usalama wa mtandao uko katika hatua ya juu ikilinganishwa na GPT‑5.4.

Zaidi ya hayo, GPT‑5.5 ilipitia mchakato wetu kamili wa usalama na usimamizi kabla ya kutolewa, ikijumuisha tathmini za maandalizi, upimaji maalum wa sekta husika, tathmini mpya zilizolengwa kwa uwezo wa hali ya juu katika biolojia na usalama wa mtandao, na majaribio thabiti pamoja na wataalamu wa nje. Tunashiriki maelezo zaidi katika kadi ya mfumo(fungua katika dirisha jipya) ya GPT‑5.5.

Kazi hii inaonyesha mbinu yetu pana ya ustahimilivu wa AI, ambayo tunaamini inahitajika kadri uwezo wa muundo unavyoendelea kuimarika. Tunataka AI yenye nguvu ipatikane kwa watu wanaoitumia kulinda mifumo, taasisi, na umma. Njia inayowezekana ni ufikiaji wa kuaminika, hatua thabiti za ulinzi zinazoimarika kadri uwezo unavyoongezeka, na uwezo wa utendaji wa kugundua na kukabiliana na matumizi mabaya makubwa.

Upatikanaji na uwekaji bei

Leo, GPT‑5.5 inaanza kusambazwa kwa watumiaji wa Plus, Pro, Business, na Enterprise katika ChatGPT na Codex, na GPT‑5.5 Pro inaanza kusambazwa kwa watumiaji wa Pro, Business, na Enterprise katika ChatGPT. Tutaweka GPT‑5.5 na GPT‑5.5 Pro kwenye API hivi karibuni sana.

Katika ChatGPT, GPT‑5.5 Kufikiri kunapatikana kwa watumiaji wa Plus, Pro, Business, na Enterprise. GPT‑5.5 Pro, iliyoundwa kwa ajili ya maswali magumu zaidi na kazi zenye usahihi wa juu zaidi, inapatikana kwa watumiaji wa Pro, Business, na Enterprise.

Katika Codex, GPT‑5.5 inapatikana kwa mipango ya Plus, Pro, Business, Enterprise, Edu, na Go ikiwa na dirisha la muktadha la 400K. GPT‑5.5 pia inapatikana katika hali ya haraka, ikizalisha tokeni mara 1.5x kwa kasi zaidi kwa gharama ya mara 2.5x.

Kwa wasanidi programu wa API, gpt-5.5 itapatikana hivi karibuni kwenye API ya Majibu ya Mazungumzo kwa $5 kwa tokeni milioni 1 za ingizo na $30 kwa tokeni milioni 1 za matokeo, ikiwa na nafasi ya muktadha ya milioni 1. Uwekaji bei wa Batch na Flex unapatikana kwa nusu ya kiwango cha kawaida cha API, huku Uchakataji wa Kipaumbele ukipatikana kwa 2.5x ya kiwango cha kawaida. Pia tutatoa gpt-5.5-pro katika API kwa usahihi wa hali ya juu zaidi, ikiwa na bei ya $30 kwa tokeni milioni 1 za ingizo na $180 kwa tokeni milioni 1 za matokeo. Angalia ukurasa wa bei kwa maelezo kamili.

Wakati GPT‑5.5 ina bei ya juu kuliko GPT‑5.4, ni yenye akili zaidi na yenye ufanisi mkubwa zaidi wa tokeni. Katika Codex, tumeboresha kwa uangalifu matumizi ili GPT‑5.5 itoe matokeo bora kwa tokeni chache zaidi kuliko GPT‑5.4 kwa watumiaji wengi, huku tukiendelea kutoa kiwango kikubwa cha matumizi katika viwango mbalimbali vya usajili.

Tathmini

Usimbaji

Evals

GPT‑5.5

GPT‑5.4

GPT‑5.5 Pro

GPT‑5.4Pro

Claude Opus 4.7

Gemini 3.1 Pro

SWE-Bench Pro (ya Umma) *

58.6%

57.7%

-

-

64.3%

54.2%

Terminal-Bench 2.0

82.7%

75.1%

-

-

69.4%

68.5%

Mtaalamu-SWE (ya Ndani)

73.1%

68.5%

-

-

-

-

*Maabara zimebaini ushahidi wa kukariri(fungua katika dirisha jipya) kwenye tathmini hii

Mtaalamu

Evals

GPT‑5.5

GPT‑5.4

GPT‑5.5 Pro

GPT‑5.4Pro

Claude Opus 4.7

Gemini 3.1 Pro

GDPval (ushindi au sare)

84.9%

83.0%

82.3%

82.0%

80.3%

67.3%

FinanceAgent v1.1

60.0%

56.0%

-

61.5%

64.4%

59.7%

Kazi za Uundaji wa Miundo ya Benki ya Uwekezaji (ya Ndani)

88.5%

87.3%

88.6%

83.6%

-

-

OfficeQA Pro

54.1%

53.2%

-

-

43.6%

18.1%

Matumizi ya kompyuta na maono

Evals

GPT‑5.5

GPT‑5.4

GPT‑5.5 Pro

GPT‑5.4Pro

Claude Opus 4.7

Gemini 3.1 Pro

OSWorld-Verified

78.7%

75.0%

-

-

78.0%

-

MMMU Pro (bila zana)

81.2%

81.2%

-

-

-

80.5%

MMMU Pro (na zana)

83.2%

82.1%

-

-

-

-

Matumizi ya zana

Evals

GPT‑5.5

GPT‑5.4

GPT‑5.5 Pro

GPT‑5.4Pro

Claude Opus 4.7

Gemini 3.1 Pro

BrowseComp

84.4%

82.7%

90.1%

89.3%

79.3%

85.9%

MCP Atlas**

75.3%

70.6%

-

-

79.1%

78.2%

Toolathlon

55.6%

54.6%

-

-

-

48.8%

Tau2-bench Telecom***
(Dokezo za awali)

98.0%

92.8%

-

-

-

-

** MCP Atlas: inatoka kwa Scale AI baada ya sasisho la hivi karibuni la Aprili 2026. 
*** Tau2-bench Telecom: matokeo ya 5.5 na 5.4 na dokezo za awali, yaani hakuna marekebisho ya dokezo. Hii inaaondoa matokeo kutoka kwa maabara mengine zilizotathminiwa kwa marekebisho ya dokezo.

Kitaaluma

Evals

GPT‑5.5

GPT‑5.4

GPT‑5.5 Pro

GPT‑5.4Pro

Claude Opus 4.7

Gemini 3.1 Pro

GeneBench

25.0%

19.0%

33.2%

25.6%

-

-

FrontierMath Kiwango 1–3

51.7%

47.6%

52.4%

50.0%

43.8%

36.9%

FrontierMath Kiwango 4

35.4%

27.1%

39.6%

38.0%

22.9%

16.7%

BixBench

80.5%

74.0%

-

-

-

-

GPQA Diamond

93.6%

92.8%

-

94.4%

94.2%

94.3%

Mtihani wa Mwisho wa Ubinadamu (hakuna zana)

41.4%

39.8%

43.1%

42.7%

46.9%

44.4%

Mtihani wa Mwisho wa Ubinadamu (kwa zana)

52.2%

52.1%

57.2%

58.7%

54.7%

51.4%

Usalama wa Mtandao

Evals

GPT‑5.5

GPT‑5.4

GPT‑5.5 Pro

GPT‑5.4Pro

Claude Opus 4.7

Gemini 3.1 Pro

Kazi za changamoto za Capture-the-Flags (za Ndani)****

88.1%

83.7%

-

-

-

-

CyberGym

81.8%

79.0%

-

-

73.1%

-

**** Upanuzi wa CTF ngumu zaidi zinazotumika katika kadi ya mfumo pamoja na changamoto ngumu za ziada.

Muktadha mrefu

Evals

GPT‑5.5

GPT‑5.4

GPT‑5.5 Pro

GPT‑5.4Pro

Claude Opus 4.7

Gemini 3.1 Pro

Graphwalks BFS 256k f1

73.7%

62.5%

-

-

76.9%

-

Graphwalks BFS 1M f1

45.4%

9.4%

-

-

41.2% (Opus 4.6)

-

Graphwalks parents 256k f1

90.1%

82.8%

-

-

93.6%

-

Graphwalks parents 1mil f1

58.5%

44.4%

-

-

72.0% (Opus 4.6)

-

OpenAI MRCR v2 needle 8 4K-8K

98.1%

97.3%

-

-

-

-

OpenAI MRCR v2 8-needle 8K-16K

93.0%

91.4%

-

-

-

-

OpenAI MRCR v2 8-needle 16K-32K

96.5%

97.2%

-

-

-

-

OpenAI MRCR v2 8-needle 32K-64K

90.0%

90.5%

-

-

-

-

OpenAI MRCR v2 8-needle 64K-128K

83.1%

86.0%

-

-

-

-

OpenAI MRCR v2 8-needle 128K-256K

87.5%

79.3%

-

-

59.2%

-

OpenAI MRCR v2 8-needle 256K-512K

81.5%

57.5%

-

-

-

-

OpenAI MRCR v2 8-needle 512K-1M

74.0%

36.6%

-

-

32.2%

-

Uwazaji wa dhana

Evals

GPT‑5.5

GPT‑5.4

GPT‑5.5 Pro

GPT‑5.4Pro

Claude Opus 4.7

Gemini 3.1 Pro

ARC-AGI-1 (Imethibitishwa)

95.0%

93.7%

-

94.5%

93.5%

98.0%

ARC-AGI-2 (Imethibitishwa)

85.0%

73.3%

-

83.3%

75.8%

77.1%

Tathmini za GPT ziliendeshwa huku juhudi za uwazaji zikiwa zimewekwa kuwa xhigh na zilifanywa katika mazingira ya utafiti, ambayo yanaweza kutoa matokeo tofauti kidogo kutoka kwa uzalishaji wa ChatGPT katika baadhi ya matukio.

Mwandishi

OpenAI