Leo, tunatoa GPT‑5.4 katika ChatGPT (kama GPT‑5.4 Thinking), API, na Codex. Ni muundo wetu wa hali ya juu wenye uwezo na ufanisi zaidi kwa kazi za kitaalamu. Pia tunatoa GPT‑5.4 Pro katika ChatGPT na API, kwa watu wanaotaka utendakazi wa juu zaidi kwa shughuli changamani.
GPT‑5.4 huleta pamoja maendeleo yetu bora zaidi ya hivi karibuni katika uwazaji, usimbaji, na taratibu za kazi za kiwakala katika muundo mmoja wa wa hali ya juu. Inajumuisha uwezo wa usimbuaji unaoongoza katika sekta wa GPT‑5.3‑Codex huku ikiboresha jinsi muundo unavyofanya kazi katika zana, mazingira ya programu, na majukumu ya kitaalamu yanayohusisha lahajedwali, mawasilisho, na hati. Matokeo yake ni muundo unaokamilisha kazi halisi ngumu kwa usahihi, kwa ufanisi, na kwa ufanisi wa rasilimali—ukitoa kile ulichoomba kwa bei nafuu.
Katika ChatGPT, GPT‑5.4 Thinking sasa inaweza kutoa mpango wa mapema wa mawazo wake, ili uweze kurekebisha mwelekeo katikati ya jibu huku bado ikifanya kazi, na kufikia matokeo ya mwisho yanayoendana zaidi na unachohitaji bila zamu za ziada. GPT‑5.4 Thinking pia huboresha utafiti wa kina wa wavuti, hasa kwa maswali mahususi sana, huku ikidumisha muktadha vizuri zaidi kwa maswali yanayohitaji kufikiria kwa muda mrefu. Kwa pamoja, maboresho haya yanamaanisha majibu ya ubora wa juu zaidi yanayowasili haraka na kubaki muhimu kwa kazi inayofanyika.
Katika Codex na API, GPT‑5.4 ndiyo muundo wa kwanza wa madhumuni ya jumla ambao tumetoa ukiwa na uwezo wa kutumia kompyuta wa asili, wa kiwango cha juu zaidi, unaowezesha mawakala kuendesha kompyuta na kutekeleza taratibu changamani za kazi katika programu mbalimbali. Inakubali hadi tokeni milioni 1 za muktadha, ikiruhusu mawakala kupanga, kutekeleza, na kuthibitisha kazi katika vipindi virefu. GPT‑5.4 pia inaboresha jinsi miundo inavyofanya kazi katika mifumo mikubwa ya zana na viunganishi kwa kutumia utafutaji wa zana, ikisaidia mawakala kupata na kutumia zana sahihi kwa ufanisi zaidi bila kuathiri akili. Hatimaye, GPT‑5.4 ni muundo wetu wa uwazaji wenye ufanisi zaidi wa tokeni hadi sasa, ukitumia tokeni chache sana kutatua matatizo ikilinganishwa na GPT‑5.2—hivyo kupunguza matumizi ya tokeni na kuongeza kasi.
Pamoja na maendeleo katika uwazaji wa jumla, usimbaji, na kazi ya maarifa ya kitaalamu, GPT‑5.4 huwezesha mawakala wa kuaminika zaidi, taratibu za kazi ya wasanidi programu ya haraka zaidi, na matokeo ya ubora wa juu zaidi katika ChatGPT, API, na Codex.
GPT‑5.4 | GPT‑5.3‑Codex | GPT‑5.2 | |
GDPval (ushindi au sare) | 83.0% | 70.9% | 70.9% |
SWE-Bench Pro (Ya umma) | 57.7% | 56.8% | 55.6% |
OSWorld-Verified | 75.0% | 74.0%* | 47.3% |
Toolathlon | 54.6% | 51.9% | 46.3% |
BrowseComp | 82.7% | 77.3% | 65.8% |
*Hapo awali iliripotiwa kuwa 64.7%. GPT‑5.3‑Codex hufikia 74.0% kwa kutumia kigezo kipya cha API kilichoanzishwa ambacho huhifadhi azimio la asili la picha.
Ikiendeleze uwezo wa jumla wa uwazaji wa GPT‑5.2, GPT‑5.4 hutoa matokeo thabiti zaidi na yaliyosafishwa zaidi kwenye kazi za ulimwengu halisi ambazo ni muhimu kwa wataalamu.
Kwenye GDPval, ambayo hupima uwezo wa mawakala wa kuzalisha kazi ya maarifa iliyoainishwa vizuri katika taaluma 44, GPT‑5.4 inafikia kiwango kipya cha juu, ikilingana au kuzidi wataalamu wa sekta katika 83.0% ya ulinganisho, ikilinganishwa na 71.0% kwa GPT‑5.2.
Katika GDPval, miundo inajaribu kazi za maarifa zilizoainishwa vizuri zinazojumuisha taaluma 44 kutoka kwa sekta 9 kuu zinazochangia katika Pato la Taifa la Marekani. Shughuli zinahitaji bidhaa halisi za kazi, kama vile mawasilisho ya mauzo, laha za uhasibu, ratiba za huduma za dharura, michoro ya utengenezaji, au video fupi. Juhudi ya uwazaji iliwekwa kuwa xhigh kwa GPT‑5.4 na nzito kwa GPT‑5.2 (kiwango cha chini kidogo katika ChatGPT).
“GPT-5.4 ndiyo muundo bora zaidi ambao tumewahi kuujaribu. Sasa uko juu ya ubao wa wanaoongoza kwenye kipimo chetu cha APEX-Agents, ambacho hupima utendaji wa kielelezo kwa kazi ya huduma za kitaalamu. Inafaulu sana katika kuunda matokeo ya muda mrefu kama vile seti za slaidi, miundo ya kifedha, na uchambuzi wa kisheria, huku ikitoa utendaji wa juu huku ikiendesha kwa haraka zaidi na kwa gharama nafuu kuliko miundo ya mpaka ya washindani.”
Tuliweka mkazo maalum katika kuboresha GPT‑5.4. Uwezo wa kuunda na kuhariri lahajedwali, mawasilisho, na hati. Kwenye kipimo chetu cha ndani cha shughuli za uundaji wa miundo ya lahajedwali ambazo mchambuzi mchanga wa uwekezaji wa benki anaweza kufanya, GPT‑5.4 inapata wastani wa alama ya asilimia 87.5%, ikilinganishwa na asilimia 68.4% kwa GPT‑5.2. Katika seti ya dokezo za tathmini ya mawasilisho, wakadiriaji wa binadamu walipendelea mawasilisho kutoka GPT‑5.4 kwa asilimia 68.0% ya wakati kuliko yale kutoka GPT‑5.2 kutokana na urembo bora zaidi, utofauti mkubwa zaidi wa mwonekano, na matumizi yenye ufanisi zaidi ya uzalishaji wa picha.

Hati zilitengenezwa huku juhudi za uwazaji zikiwa zimewekwa kuwa xhigh
Unaweza kujaribu uwezo huu katika ChatGPT ukitumia GPT‑5.4 Thinking au Pro. Ikiwa wewe ni mteja wa Enterprise, tunapendekeza utumie vijalizi vyetu vipya vilivyotolewa vya ChatGPT ya Excel na Google Sheets(fungua katika dirisha jipya), ambavyo pia vilizinduliwa leo. Pia tumesasisha lahajedwali(fungua katika dirisha jipya) na ujuzi wa uwasilishaji(fungua katika dirisha jipya) unaopatikana katika Codex na API.
Kuboresha GPT‑5.4 katika kazi ya ulimwengu halisi, tuliendelea kupiga hatua katika kupunguza majibu ya kubuni na makosa. GPT‑5.4 ni muundo wetu wenye ukweli zaidi hadi sasa: kwenye seti ya vidokezo vilivyotambulika ambapo watumiaji waliashiria makosa ya ukweli, madai ya watu binafsi ya GPT‑5.4 madai ya mtu binafsi yana uwezekano mdogo wa asilimia 33% wa kuwa ya uongo na majibu yake kamili yana uwezekano mdogo wa asilimia 18% wa kuwa na makosa yoyote, ikilinganishwa na GPT‑5.2.
“GPT-5.4 inaweka kiwango kipya kwa kazi ya kisheria inayohusisha nyaraka nyingi. Kwenye tathmini yetu ya BigLaw Bench, ilipata asilimia 91%. Ikilinganishwa na miundo mingine, GPT-5.4 kwa sasa ni bora zaidi katika kupanga uchanganuzi changamani wa miamala, kudumisha usahihi katika mikataba mirefu, na kutoa kiwango cha juu cha maelezo ambacho wataalamu wa sheria wanahitaji.”
GPT‑5.4 ndiyo muundo wetu wa kwanza wa madhumuni ya jumla wenye uwezo wa asilimi wa kutumia kompyuta na unaashiria hatua kubwa kwa wasanidi programu na mawakala kwa pamoja. Ni muundo bora zaidi unaopatikana kwa sasa kwa wasanidi programu wanaounda mawakala wanaokamilisha kazi halisi katika tovuti na mifumo ya programu.
Tumeunda GPT‑5.4 ili iweze kufanya kazi katika aina mbalimbali za kazi zinazotumika kwenye kompyuta. Ni bora katika kuandika msimbo wa kuendesha kompyuta kupitia maktaba kama Playwright, pamoja na kutoa amri za kipanya na kibodi kulingana na picha za skrini. Tabia yake inaweza kuelekezwa kupitia ujumbe wa msanidi programu, ikimaanisha kwamba wasanidi programu wanaweza kurekebisha tabia ili ifae matumizi mahususi. Wasanidi programu wanaweza hata kusanidi tabia ya usalama ya muundo ili kuendana na viwango tofauti vya uvumilivu wa hatari kwa kubainisha sera maalum za uthibitisho.
Utendaji na unyumbufu wa muundo unaonyeshwa katika vigezo vya alama vinavyopima matumizi ya kompyuta katika mipangilio tofauti. Kwenye OSWorld-Verified, ambayo hupima uwezo wa muundo kuvinjari mazingira ya eneo-kazi kupitia picha za skrini na vitendo vya kibodi/panya, GPT‑5.4 inafikia hali ya kisasa ya mafanikio kwa asilimia 75.0%, inayozidi kwa mbali asilimia ya GPT‑5.2 ya 47.3%, na kuzidi utendaji wa binadamu kwa asilimia 72.4%.1
Kwenye WebArena-Verified, ambayo hupima matumizi ya kivinjari, GPT‑5.4 inafikia kiwango cha juu cha mafanikio cha asiimia 67.3% inapokuwa ikitumia mwingiliano unaoongozwa na DOM na picha ya skrini, ikilinganishwa na asilimia 65.4% ya GPT‑5.2. Kwenye Online-Mind2Web, ambayo pia hujaribu utumiaji wa kivinjari, GPT‑5.4 inafikia kiwango cha mafanikio cha asilimia 92.8% kwa kutumia uchunguzi unaotegemea picha za skrini pekee, ikiboresha ikilinganishwa na Hali ya wakala ya ChatGPT Atlas, ambayo inafikia kiwango cha mafanikio cha asilimia 70.9%.
Uzalishaji wa zana ni wakati msaidizi anapokubali kusubiri majibu ya zana. Ikiwa zana 3 zitaingiliana kwa wakati mmoja, kisha zikafuatwa na zana 3 zaidi zinazoingiliana kwa wakati mmoja, idadi ya uzalishaji ingekuwa 2. Uzalishaji wa zana ni kiashiria bora cha ucheleweshaji kuliko uwezo wa kuingiliana na zana za nje kwa sababu unaakisi manufaa ya ulinganifu.
GPT‑5.4 hufasiri picha za skrini za kiolesura cha kivinjari na huingiliana na vipengele vya UI kupitia kubofya kunakotegemea viwianishi ili kutuma barua pepe na kuratibu tukio la kalenda.
Matumizi ya kompyuta yaliyoboreshwa ya GPT‑5.4 yamejengwa juu ya uwezo ulioboreshwa wa muundo wa utambuzi wa jumla wa kuona. Kwenye MMMU-Pro, jaribio la uelewa wa kuona na uwazaji wa muundo, GPT‑5.4 inafikia kiwango cha mafanikio cha asilimia 81.2% bila kutumia zana, uboreshaji ikilinganishwa na ya GPT‑5.2 ya asilimia 79.5%. Uelewa wa kuona ulioboreshwa pia unatafsiri kuwa uwezo bora wa kuchanganua hati. Kwenye OmniDocBench, GPT‑5.4 bila juhudi ya uwazaji inapata wastani wa hitilafu (inayopimwa kwa umbali wa uhariri uliosanifishwa kati ya utabiri wa muundo na ukweli wa msingi) wa 0.109, umeboreshwa kutoka 0.140 ya GPT‑5.2.
MMMUPro iliendeshwa huku juhudi za uwazaji zikiwa zimewekwa kuwa xhigh. OmniDocBench iliendeshwa huku juhudi za uwazaji zikiwa zimewekwa kuwa hakuna, ili kuakisi utendaji wa gharama ya chini na ucheleweshaji wa chini.
Pia tunaboresha uelewa wa kuona kwa picha zenye msongamano na zenye azimio la juu ambapo uaminifu kamili ni muhimu. Kuanzia GPT‑5.4, tunaanzisha kiwango cha maelezo ya ingizo ya picha halisi maelezo ya ingizo(fungua katika dirisha jipya) ambacho kinaunga mkono utambuzi wa uaminifu kamili hadi jumla ya pikseli 10.24M au kipimo cha juu cha pikseli 6000, chochote kilicho cha chini; kiwango cha maelezo ya ingizo ya picha ya juu sasa kinaunga mkono hadi jumla ya pikseli 2.56M au kipimo cha juu cha pikseli 2048. Katika majaribio ya awali na watumiaji wa API, tuliona ongezeko kubwa la uwezo wa ujanibishaji, uelewa wa picha, na usahihi wa kubofya tunapotumia maelezo ya halisi au ya juu.
“Katika tathmini zetu zinazopima utendaji wa matumizi ya kompyuta katika takriban tovuti ~30K za HOA na ushuru wa mali, GPT-5.4 ilifikia kiwango cha mafanikio cha asilimia 95% kwenye jaribio la kwanza na asilimia 100% ndani ya majaribio matatu, ikilinganishwa na takriban asilimia ~73–79% kwa miundo ya awali ya CUA. Pia ilikamilisha vipindi kwa takriban kasi ya ~3x zaidi huku ikitumia tokeni chache kwa asilimia ~70%, na kuboresha kwa kiasi kikubwa uaminifu na ufanisi wa gharama kwa kiwango kikubwa."
Katika API, wasanidi programu wanaweza kufikia uwezo huu kwa kutumia zana ya kompyuta iliyosasishwa. Tafadhali tazama hati zetu zilizosasishwa(fungua katika dirisha jipya) kwa mbinu bora zinazopendekezwa.
GPT‑5.4 inachanganya nguvu za usimbaji za GPT‑5.3‑Codex na uwezo wa juu wa kazi ya maarifa na matumizi ya kompyuta, ambao ni muhimu zaidi kwenye kazi za muda mrefu ambapo muundo unaweza kutumia zana, kurudia, na kuendeleza kazi zaidi kwa uingiliaji mdogo wa mikono. Inalingana au inazidi GPT‑5.3‑Codex kwenye SWE-Bench Pro huku ikiwa na ucheleweshaji mdogo zaidi katika juhudi za uwazaji.
Tunakadiria ucheleweshaji kwa kuchunguza tabia ya uzalishaji ya miundo yetu na kuiga hili nje ya mtandao. Makadirio ya ucheleweshaji yanajumuisha muda wa uwezo wa kuingiliana na zana za nje (muda wa utekelezaji wa msimbo), tokeni zilizochukuliwa sampuli, na tokeni za ingizo. Ucheleweshaji wa ulimwengu halisi unaweza kutofautiana sana na unategemea mambo mengi ambayo hayajazingatiwa katika uigaji wetu. Juhudi za uwazaji ziliondolewa kutoka hakuna hadi xhigh.
Inapowashwa, /hali ya haraka katika Codex hutoa kasi ya tokeni ya hadi mara 1.5x kwa haraka zaidi withGPT‑5.4. Ni muundo ule ule na akili ile ile, ila tu ni ya haraka zaidi. Hiyo inamaanisha watumiaji wanaweza kupitia shughuli za usimbaji, mzunguko wa kazi, na utatuzi huku wakibaki katika mtiririko. Wasanidi programu wanaweza kufikia GPT‑5.4 kwa kasi zilezile za haraka kupitia API kwa kutumia uchakataji wa kipaumbele(fungua katika dirisha jipya).
Katika tathmini na majaribio ya ndani tuligundua kuwa GPT‑5.4 inafanya vizuri sana katika kazi changamani za mbele, ikiwa na matokeo ya kuvutia zaidi na yenye utendakazi zaidi kuliko miundo yoyote tuliyozindua hapo awali.
Kama onyesho la uwezo ulioboreshwa wa muundo wa kutumia kompyuta na wa usimbaji unaofanya kazi kwa pamoja, pia tunatoa ustadi wa Codex wa majaribio unaoitwa “Playwright (Ingiliani)(fungua katika dirisha jipya)”. Hii inaruhusu Codex kutatua hitilafu za programu za wavuti na Electron kwa njia ya kuona; inaweza hata kutumiwa kujaribu programu inayoijenga, inapokuwa inaijenga.
Mchezo wa uigaji wa bustani ya burudani uliotengenezwa kwa GPT‑5.4 kutoka dokeza moja lililobainishwa kwa kiasi kidogo, kwa kutumia Playwright Interactive kwa majaribio ya uchezaji kwenye kivinjari na uzalishaji wa picha kwa seti ya rasilimali za isometriki. Uigaji unajumuisha uwekaji wa njia kwa msingi wa vigae, ujenzi wa vivutio na mandhari, utafutaji wa njia wa wageni, kupanga foleni, na mizunguko ya vivutio, huku vipimo vya bustani kama pesa, idadi ya wageni, furaha, usafi, na ukadiriaji vikiongezeka au kupungua kulingana na jinsi mpangilio unavyofanya kazi na jinsi wageni wanavyoitikia. Playwright ilitumika kuendesha kiotomatiki majaribio ya uchezaji kwenye kivinjari kwa kujenga na kupanua bustani, kuweka na kuondoa njia na vivutio, kukagua urambazaji wa kamera, na kuthibitisha kuwa wageni, foleni, hali za safari, na vipimo vya UI vilisasishwa ipasavyo katika raundi kadhaa za uchezaji.
Dokeza: Tumia $playwright-interactive na $imagegen. Unda mchezo wa uigaji wa bustani ya burudani wa mandhari ya isometriki unaoingiliana ambao ninaweza kuujenga na kuuzunguka kwenye kivinjari. Tumia imagegen kuweka maono ya jumla ya mwonekano na kutengeneza rasilimali za mchezo, ikiwemo vivutio, njia, ardhi, miti, maji, vibanda vya chakula, mapambo, majengo, aikoni, na michoro ya UI. Ulimwengu unapaswa kuhisi una mshikamano, umekamilika, na una utajiri wa taswira, ukiwa na mwelekeo wa sanaa wa kiwango cha juu unaofanya kazi vizuri kutoka mtazamo wa isometriki. Niruhusu kuweka na kuondoa njia, kuongeza vivutio, kupanga mandhari, na kusogea kuzunguka bustani kwa ulaini huku nikifuatilia shughuli za wageni, hali ya vivutio, na ukuaji wa bustani. Jumuisha mwendo wa wageni unaoaminika, mifumo rahisi ya usimamizi wa bustani kama pesa, usafi, kupanga foleni, na furaha, na fanya uzoefu uhisi wa kuchekesha, wazi, na kamili badala ya kuonekana kama mfano wa awali usio kamili. Tanguliza mvuto, usomekaji, na hisia thabiti ya mchezo kuliko uhalisia.
Wakati wa kupima kwa kucheza, hakikisha unajenga na kupanua bustani kupitia raundi kadhaa za uchezaji, thibitisha kuwa uwekaji na urambazaji zinafanya kazi kwa urahisi, thibitisha kuwa wageni wanaitikia mpangilio wa bustani na vivutio, na hakikisha kuwa taswira, UI, na mwingiliano vinahisi thabiti na vinavyolingana.
"Wahandisi wetu wanapata GPT-5.4 kuwa ya asili zaidi na ya msisitizo zaidi kuliko miundo ya awali . Inashughulikia matatizo yenye utata bila kujitilia shaka, na huwa makini kuchukua hatua mapema kuhusu kufanya kazi sambamba ili mambo yaendelee kusonga.”
Na GPT‑5.4, Tumeimarisha kwa kiasi kikubwa jinsi miundo inavyofanya kazi na zana za nje. Mawakala sasa wanaweza kufanya kazi katika mifumo ikolojia mikubwa zaidi ya zana, kuchagua zana sahihi kwa uaminifu zaidi, na kukamilisha taratibu za kazi za hatua nyingi kwa gharama na ucheleweshaji wa chini.
Katika API, GPT‑5.4 inatanguliza utafutaji wa zana(fungua katika dirisha jipya), ambao unaruhusu miundo kufanya kazi kwa ufanisi inapopewa zana nyingi.
Hapo awali, muundo ulipopewa zana, ufafanuzi wote wa zana ulijumuishwa kwenye dokezo mapema. Kwa mifumo yenye zana nyingi, hili linaweza kuongeza maelfu—au hata makumi ya maelfu—ya tokeni kwa kila ombi, na kuongeza gharama, kupunguza kasi ya majibu, na kuujaza muktadha kwa taarifa ambazo huenda muundo usiwahi kutumia.
Kwa utafutaji wa zana, GPT‑5.4 badala yake hupokea orodha nyepesi ya zana zinazopatikana pamoja na uwezo wa utafutaji wa zana. Wakati muundo unahitaji kutumia zana, unaweza kutafuta ufafanuzi wa zana hiyo na kuiongeza kwenye mazungumzo wakati huo.
Mbinu hii inapunguza kwa kiasi kikubwa idadi ya tokeni zinazohitajika kwa taratibu za kazi zenye zana nyingi na huhifadhi akiba, na kufanya maombi yawe ya haraka na ya bei nafuu. Pia huwezesha mawakala kufanya kazi kwa kutegemeka na mifumo ikolojia ya zana iliyo mikubwa zaidi. Kwa seva za MCP ambazo zinaweza kuwa na makumi ya maelfu ya tokeni za ufafanuzi wa zana, ongezeko la ufanisi linaweza kuwa kubwa.
Ili kuonyesha ongezeko la ufanisi, tulitathmini kazi 250 kutoka kwenye kipimo cha Scale cha MCP Atlas(fungua katika dirisha jipya) huku seva zote 36 za MCP zikiwa zimewezeshwa katika hali mbili: (1) kufichua kila kazi ya MCP moja kwa moja katika muktadha wa muundo, na (2) kuweka seva zote za MCP nyuma ya utafutaji wa zana. Usanidi wa utafutaji wa zana ulipunguza jumla ya matumizi ya tokeni kwa asilimia 47% huku ukifikia usahihi sawa.
Hesabu za tokeni za mfano zinatokana na wastani wa kazi 250 katika seti ya data ya umma ya MCP-Atlas.
GPT‑5.4 pia inaboresha uwezo wa kuingiliana na zana za nje, na kuifanya uwe sahihi zaidi na wenye ufanisi zaidi unapochagua ni lini na jinsi ya kutumia zana wakati wa uwazaji, hasa katika API. Ikilinganishwa na GPT‑5.2, inafikia usahihi wa juu zaidi kwa mizunguko michache kwenye Toolathlon, kipimo cha kulinganisha kinachojaribu jinsi mawakala wa AI wanavyoweza kutumia zana na APIs za ulimwengu halisi kukamilisha shughuli za hatua nyingi. Kwa mfano, wakala anahitaji kusoma barua pepe, kutoa viambatisho vya kazi, kuvipakia, kuviwekea alama na kurekodi matokeo kwenye lahajedwali.
Uzalishaji wa zana ni wakati msaidizi anapokubali kusubiri majibu ya zana. Ikiwa zana 3 zitaingiliana kwa wakati mmoja, kisha zikafuatwa na zana 3 zaidi zinazoingiliana kwa wakati mmoja, idadi ya uzalishaji ingekuwa 2. Uzalishaji wa zana ni kiashiria bora cha ucheleweshaji kuliko uwezo wa kuingiliana na zana za nje kwa sababu unaakisi manufaa ya ulinganifu.
Kwa matumizi nyeti ya ucheleweshaji ambapo juhudi za uwazaji za Hakuna zinapendelewa, GPT‑5.4 inaboresha zaidi kuliko watangulizi wake.
Katika τ2-bench(fungua katika dirisha jipya), muundo lazima utumie zana ili kukamilisha shughuli ya huduma kwa wateja, ambapo kunaweza kuwa na mtumiaji aliyeigwa ambaye anaweza kuwasiliana na kuchukua hatua kuhusu hali ya dunia. Juhudi za uwazaji ziliwekwa kuwa Hakuna.
GPT‑5.4 ni bora zaidi katika utafutaji wa wavuti wa kiwakala. Kwenye BrowseComp, kipimo cha jinsi mawakala wa AI wanavyoweza kuvinjari wavuti kwa ustahimilivu ili kupata taarifa ngumu kupatikana, GPT‑5.4 inaruka kwa asilimia 17%abs juu ya GPT‑5.2, na GPT‑5.4 Pro imeweka kiwango kipya cha hali ya juu cha 89.3%.
Kihalisi, hii inamaanisha GPT‑5.4 Thinking ina uwezo zaidi wa kujibu maswali yanayohitaji kukusanya taarifa kutoka kwa vyanzo vingi kwenye wavuti. Inaweza kutafuta kwa uthabiti zaidi katika raundi nyingi ili kutambua vyanzo husika zaidi, hasa kwa maswali ya “sindano-ndani-ya-nyasi”, na kuviunganisha pamoja kuwa jibu lililo wazi na lenye hoja thabiti.
Katika BrowseComp, tulitumia orodha ya kuzuia utafutaji inayotenga tovuti zilizo na majibu ya kipimo kutoka kwenye tathmini ili kuzuia uchafuzi na kuhakikisha kipimo cha haki cha utendaji. GPT‑5.4 ilipimwa tarehe ya baadaye kuliko GPT‑5.2, ili alama zionyeshe mabadiliko katika muundo, mfumo wetu wa utafutaji, na hali ya intaneti. GPT‑5.4 ilijaribiwa kwa kutumia orodha ndefu na iliyosasishwa. Miundo hutumia zana ya utafutaji wa ChatGPT, ambayo inaweza kuwa na tofauti ndogo kutoka kwa utafutaji wa API.
"GPT-5.4 xhigh ni teknolojia mpya ya kisasa ya matumizi ya zana za hatua nyingi." Zapier huendesha baadhi ya viwango vya majaribio vya matumizi ya zana vilivyo vikali zaidi katika sekta hii, ikijaribu miundo katika mamia ya michakato ya kazi ya hali ya juu ya ulimwengu halisi. GPT-5.4 ilimaliza kazi ambapo miundo ya awali ilishindwa - muundo wenye ustahimilivu zaidi hadi sasa."
Vile vile jinsi Codex inavyoelezea mbinu yake inapoanza kufanya kazi, GPT‑5.4 Thinking katika ChatGPT sasa itaainisha kazi yake kwa utangulizi kwa maswali marefu zaidi, changamani zaidi. Unaweza pia kuongeza maagizo au kurekebisha mwelekeo wake katikati ya jibu. Hii hurahisisha kuongoza muundo kuelekea matokeo halisi unayotaka bila kuanza upya au kuhitaji zamu nyingi za ziada. Kipengele hiki kinapatikana sasa kwenye chatgpt.com(fungua katika dirisha jipya) na programu ya Android, kinakuja hivi karibuni kwenye programu ya iOS.
Muundo unaweza pia kuwaza kwa muda mrefu zaidi kwenye shughuli ngumu huku ukidumisha ufahamu thabiti zaidi wa hatua za awali katika mazungumzo. Hii huiruhusu kushughulikia taratibu ndefu zaidi za kazi na vidokezo tata zaidi huku ikidumisha majibu kuwa thabiti na yenye umuhimu kote.
Video hii iliharakishwa kwa madhumuni ya kuonyesha.
Katika miezi ya hivi karibuni, tumeendelea kuboresha ulinzi tulioutambulisha pamoja na GPT‑5.3‑Codex huku tukiandaa GPT‑5.4 kwa ajili ya utekelezaji. Sawa na GPT‑5.3‑Codex, tunachukulia GPT‑5.4 kama Uwezo wa Juu wa kimtandao chini ya Mfumo wetu wa Maandalizi, na tunaipeleka pamoja na ulinzi unaofaa kama ilivyoandikwa katika kadi ya mfumo. Hizi zinajumuisha mkusanyiko uliopanuliwa wa usalama wa mtandao, ikijumuisha mifumo ya ufuatiliaji, vidhibiti vya ufikiaji wa kuaminika, na kuzuia kwa njia isiyosawazishwa kwa maombi yenye hatari zaidi kwa wateja walio kwenye sehemu za Hakuna Kuhifadhi Data (ZDR), sambamba na uwekezaji unaoendelea katika mfumo mpana wa ikolojia ya usalama.
Kwa sababu uwezo wa usalama wa mtandao kwa asili ni wa matumizi mawili, tunadumisha mbinu ya tahadhari ya utekelezaji huku tukiendelea kupanga upya sera zetu na vichujio vyetu. Kwa baadhi ya wateja kwenye sehemu za ZDR, kuzuia katika kiwango cha ombi bado ni sehemu ya mkusanyiko wetu wa hatua za kupunguza hatari za mtandao; kwa kuwa vichujio bado vinaendelea kuboreshwa, baadhi ya matokeo chanya yasiyo sahihi yanaweza kutokea tunapoendelea kuboresha hatua hizi za ulinzi. Masasisho haya yanalenga kuboresha jinsi ulinzi unavyofanya kazi kwa vitendo, ikiwemo kupunguza kukataa kusiko kwa lazima na majibu yenye tahadhari nyingi kupita kiasi, huku yakihifadhi ulinzi thabiti dhidi ya matumizi mabaya.
Tumeendelea na utafiti wetu wa usalama kuhusu ufuatiliaji wa msururu wa mawazo (CoT) ili kuelewa vyema jinsi miundo inavyofikiri na kusaidia kugundua tabia inayoweza kuwa hatari. Kama sehemu ya kazi hii, tunatambulisha tathmini mpya ya chanzo huria, CoT controllability, inayopima iwapo miundo inaweza kuficha kwa makusudi uwazaji wake ili kukwepa ufuatiliaji. Tunagundua kwamba GPT‑5.4 Uwezo wa Thinking kudhibiti CoT yake ni mdogo, jambo ambalo ni sifa chanya kwa usalama, likidokeza kwamba muundo hauna uwezo wa kuficha uwazaji wake na kwamba ufuatiliaji wa CoT unasalia kuwa zana bora ya usalama.
GPT‑5.4 inaanza kusambazwa polepole leo katika ChatGPT na Codex. Katika API, GPT‑5.4 inapatikana sasa kama gpt-5.4. GPT‑5.4 Pro inapatikana pia katika API kama gpt-5.4-pro kwa wasanidi programu wanaohitaji utendaji wa juu zaidi kwenye shughuli ngumu zaidi.
Katika ChatGPT, GPT‑5.4 Thinking inapatikana kuanzia leo kwa watumiaji wa ChatGPT Plus, Team, na Pro, ikichukua nafasi ya GPT‑5.2 Thinking. GPT‑5.2 Thinking itaendelea kupatikana kwa miezi mitatu kwa watumiaji waliolipia katika kichaguaji cha muundo chini ya sehemu ya Miundo ya Urithi, baada ya hapo itasitishwa tarehe 5 Juni, 2026. Wale walio kwenye mipango ya Enterprise na Edu wanaweza kuwezesha ufikiaji wa mapema kupitia mipangilio ya msimamizi. GPT‑5.4 Pro inapatikana kwa mipango ya Pro na Enterprise. Madirisha ya muktadha(fungua katika dirisha jipya) katika ChatGPT kwa GPT‑5.4 Thinking inabaki bila kubadilika kutoka GPT‑5.2 Thinking.
GPT‑5.4 ndiyo muundo wetu wa kwanza wa uwazaji unaojumuisha uwezo wa hali ya juu wa kuweka misimbo wa GPT‑5.3‑codex na hiyo inasambazwa katika ChatGPT, API na Codex. Tunaiita GPT‑5.4 ili kuakisi ongezeko hilo, na kurahisisha uchaguzi kati ya miundo unapotumia Codex. Baada ya muda, unaweza kutarajia miundo yetu ya Instant na miundo ya Thinking kubadilika kwa kasi tofauti.
GPT‑5.4 katika Codex inajumuisha usaidizi wa majaribio kwa dirisha la muktadha la 1M. Wasanidi programu wanaweza kujaribu hili kwa kusanidi model_context_window na model_auto_compact_token_limit. Maombi yanayozidi dirisha la kawaida la muktadha la 272K huhesabiwa dhidi ya vikomo vya matumizi kwa kiwango cha 2x cha kawaida.
Katika API, GPT‑5.4 imewekwa bei ya juu kwa kila tokeni kuliko GPT‑5.2 ili kuakisi uwezo wake ulioboreshwa, huku ufanisi wake mkubwa wa tokeni ukisaidia kupunguza jumla ya idadi ya tokeni zinazohitajika kwa kazi nyingi. Uwekaji bei wa Batch na Flex unapatikana kwa nusu ya kiwango cha kawaida cha API, huku Uchakataji wa Kipaumbele ukipatikana kwa mara mbili ya kiwango cha kawaida cha API.
Muundo wa API | Bei ya ingizo | Bei ya ingizo lililohifadhiwa | Bei ya matokeo |
gpt-5.2 | $1.75 / tokeni M | $0.175 / tokeni M | $14 / tokeni M |
gpt-5.4 | $2.50 / tokeni M | $0.25 / tokeni M | $15 / tokeni M |
gpt-5.2-pro | $21 / tokeni M | - | $168 / tokeni M |
gpt-5.4-pro | $30 / tokeni M | - | $180 / tokeni M |
Mtaalamu
Evals | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
GDPval | 83.0% | 82.0% | 70.9% | 70.9% | 74.1% |
FinanceAgent v1.1 | 56.0% | 61.5% | 54.0% | 59.5% | — |
Kazi za Uundaji wa Miundo ya Benki ya Uwekezaji (ya Ndani) | 87.3% | 83.6% | 79.3% | 68.4% | 71.7% |
OfficeQA | 68.1% | — | 65.1% | 63.1% | — |
Usimbaji
Evals | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
SWE-Bench Pro (Ya umma) | 57.7% | — | 56.8% | 55.6% | — |
Terminal-Bench 2.0 | 75.1% | — | 77.3% | 62.2% | — |
Matumizi ya kompyuta na maono
Evals | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
OSWorld-Verified | 75.0% | — | 74.0% | 47.3% | — |
MMMU Pro (bila zana) | 81.2% | — | — | 79.5% | — |
MMMU Pro (na zana) | 82.1% | — | — | 80.4% | — |
Matumizi ya zana
Evals | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
BrowseComp | 82.7% | 89.3% | 77.3% | 65.8% | 77.9% |
MCP Atlas | 67.2% | — | — | 60.6% | — |
Toolathlon | 54.6% | — | 51.9% | 45.7% | — |
Tau2-bench Telecom | 98.9% | — | — | 98.7% | — |
Kitaaluma
Evals | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
Utafiti wa Sayansi wa Hali ya Juu | 33.0% | 36.7% | — | 25.2% | — |
FrontierMath Kiwango 1–3 | 47.6% | — | — | 40.7% | — |
FrontierMath Kiwango 4 | 27.1% | 38.0% | — | 18.8% | 31.3% |
GPQA Diamond | 92.8% | 94.4% | 92.6% | 92.4% | 93.2% |
Mtihani wa Mwisho wa Ubinadamu (hakuna zana) | 39.8% | 42.7% | — | 34.5% | 36.6% |
Mtihani wa Mwisho wa Ubinadamu (kwa zana) | 52.1% | 58.7% | — | 45.5% | 50.0% |
Muktadha mrefu
Evals | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
Graphwalks BFS 0K–128K | 93.0% | — | — | 94.0% | — |
Graphwalks BFS 256K–1M | 21.4% | — | — | — | — |
Graphwalks parents 0–128K (usahihi) | 89.8% | — | — | 89.0% | — |
Graphwalks parents 256K–1M (usahihi) | 32.4% | — | — | — | — |
OpenAI MRCR v2 8-needle 4K–8K | 97.3% | — | — | 98.2% | — |
OpenAI MRCR v2 8-needle 8K–16K | 91.4% | — | — | 89.3% | — |
OpenAI MRCR v2 8-needle 16K–32K | 97.2% | — | — | 95.3% | — |
OpenAI MRCR v2 8-needle 32K–64K | 90.5% | — | — | 92.0% | — |
OpenAI MRCR v2 8-needle 64K–128K | 86.0% | — | — | 85.6% | — |
OpenAI MRCR v2 8-needle 128K–256K | 79.3% | — | — | 77.0% | — |
OpenAI MRCR v2 8-needle 256K–512K | 57.5% | — | — | — | — |
OpenAI MRCR v2 8-needle 512K–1M | 36.6% | — | — | — | — |
Uwazaji wa dhana
Evals | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
ARC-AGI-1 (Imethibitishwa) | 93.7% | 94.5% | — | 86.2% | 90.5% |
ARC-AGI-2 (Imethibitishwa) | 73.3% | 83.3% | — | 52.9% | 54.2% (juu) |
Tathmini bila uwazaji
Evals | GPT‑5.4 | GPT‑5.2 | GPT‑4.1 |
OmniDocBench (umbali wa kawaida wa kuhariri) | 0.109 | 0.140 | — |
Tau2-bench Telecom | 64.3% | 57.2% | 43.6% |
Evals ziliendeshwa huku juhudi za uwazaji zikiwa zimewekwa kuwa xhigh, isipokuwa pale ilipobainishwa vinginevyo. Vipimo vilifanywa katika mazingira ya utafiti, ambayo yanaweza kutoa matokeo tofauti kidogo kutoka kwa ChatGPT ya uzalishaji katika baadhi ya matukio.
Mwandishi
Tanbihi
1 Utendaji wa binadamu umeripotiwa katika OSWorld: Kuweka Viwango kwa Mawakala wa Njia Nyingi kwa Kazi Zisizo na Mwisho katika Mazingira Halisi ya Kompyuta(fungua katika dirisha jipya).


