Kutambulisha GPT‑5 kwa wasanidi programu.
Muundo bora kwa shughuli za usimbaji na za kiwakala.
Leo, tunatoa GPT‑5 kwenye jukwaa letu la API—muundo wetu bora zaidi hadi sasa kwa usimbaji na shughuli za kiwakala.
GPT‑5 ni ya hali ya juu (SOTA) katika vigezo muhimu vya usimbaji, ikipata 74.9% kwenye SWE-bench Imethibitishwa na 88% kwenye Aider polyglot. Tulifunza GPT‑5 kuwa mshirika wa kweli wa usimbaji. Inang'ara katika kutoa msimbo wa ubora wa juu na kushughulikia shughuli kama vile kurekebisha hitilafu, kuhariri msimbo na kujibu maswali kuhusu misingi changamano ya msimbo. Muundo huu unaweza kuelekezwa na unashirikiana—unaweza kufuata maagizo ya kina kwa usahihi wa hali ya juu na unaweza kutoa maelezo ya mapema ya vitendo vyake kabla na kati ya matumizi ya zana. Muundo huu pia unafanya vizuri katika usimbaji wa mbele, ukishinda OpenAI o3 katika ukuzaji wa wavuti wa mbele kwa 70% ya muda katika majaribio ya ndani.
Tulifunza GPT‑5 kwenye shughuli halisi za usimbaji kwa kushirikiana na watumiaji wa majaribio wa awali katika kampuni changa na mashirika. Cursor anasema GPT‑5 ni "muundo wenye akili zaidi [ambao wametumia]" na "wenye akili ya ajabu, rahisi kuelekeza na hata una haiba [ambayo] hawajaona katika miundo mingine." Windsurf iliyoshirikiwa GPT‑5 ni SOTA kwenye tathmini zao na "ina nusu ya kiwango cha makosa ya kupiga simu ya zana ikilinganishwa na miundo mingine ya mipaka." Vercel inasema "ni muundo bora zaidi wa AI wa mbele, unaofikia utendakazi wa hali ya juu katika hisia za urembo na ubora wa msimbo, ukiuweka katika aina yake ya kipekee."
GPT‑5 pia hufaulu katika shughuli za muda mrefu za kiwakala—kufikia matokeo ya SOTA kwenye τ2-bench telecom (96.7%), kigezo cha kupiga simu kilichotolewa miezi 2 iliyopita. Uwezo wa zana ulioboreshwa wa GPT‑5 huiruhusu kuunganisha kwa uaminifu simu nyingi za zana—kwa mfuatano na kwa sambamba—bila kupoteza mwelekeo wake, na kuifanya iwe bora zaidi katika kutekeleza shughuli ngumu, za ulimwengu halisi kutoka mwanzo hadi mwisho. Pia hufuata maagizo ya zana kwa usahihi zaidi, ni bora katika kushughulikia hitilafu za zana, na hufaulu katika urejeshaji wa maudhui yenye muktadha mrefu. Manus anasema GPT‑5 "ilipata utendakazi bora zaidi [ambao wamewahi] kuona kutoka kwa muundo mmoja kwenye viwango vyao vya ndani." Notion inasema “[majibu ya haraka ya muundo huo, hasa katika hali ya chini ya uwazaji, hufanya GPT‑5 kuwa muundo bora wakati unahitaji shughuli ngumu kutatuliwa kwa mara moja.” Inditex ilishiriki "kinachotofautisha [GPT‑5] ni kina cha hoja zake: majibu yenye tabaka nyingi na yenye uelewa wa kina wa mada."
Tunazindua vipengele vipya katika API yetu ili kuwapa wasanidi programu udhibiti zaidi wa majibu ya miundo. GPT‑5 hutoa usaidizi wa kigezo kipya cha verbosity (thamani: low, medium, high) ili kusaidia kudhibiti ikiwa majibu ni mafupi na ya moja kwa moja au marefu na ya kina. Kigezo cha reasoning_effort cha GPT‑5 sasa kinaweza kuchukua thamani ndogo ili kupata majibu kwa haraka nyuma, bila hoja ya kina kwanza. Pia tumeongeza aina mpya ya zana—zana maalum—ili kuruhusu GPT‑5 kutumia zana kwa maandishi wazi badala ya JSON. Zana maalum hutoa usaidizi wa kuweka vikwazo kwa sarufi zisizo na muktadha zinazotolewa na msanidi programu.
Tunatoa GPT‑5 katika njia tatu kwenye API—gpt-5, gpt-5-mini, na gpt-5-nano—ili kuwapa wasanidi programu unyumbufu zaidi wa kubadilishana utendakazi, gharama na ufichwaji. Ingawa GPT‑5 katika ChatGPT ni mfumo wa miundo ya hoja, isiyo ya hoja, na ya kipanga njia, GPT‑5 katika jukwaa la API ni muundo wa hoja unaowezesha utendakazi wa juu zaidi katika ChatGPT. Hasa, GPT‑5 yenye uwezo mdogo wa kuhoji ni muundo tofauti na ule usio na uwezo wa kuhoji katika ChatGPT na umeboreshwa zaidi kwa wasanidi programu. Muundo usio na hoja unaotumika katika ChatGPT unapatikana kama gpt-5-chat-latest.
Ili kusoma kuhusu GPT‑5 katika ChatGPT, na kujifunza zaidi kuhusu maboresho mengine ya ChatGPT, tafadhali angalia blogu yetu ya utafiti. Kwa maelezo zaidi kuhusu jinsi makampuni ya biashara yanavyofurahia kutumia GPT‑5, tazama blogu yetu ya biashara.
GPT‑5 ndio muundo wenye nguvu zaidi wa usimbaji ambao tumewahi kutoa. Inazidi o3 katika viwango vya usimbaji na matukio ya matumizi ya ulimwengu halisi, na imeboreshwa ili kuangaza katika bidhaa za usimbaji za mawakala kama Cursor, Windsurf, GitHub Copilot na Codex CLI. GPT‑5 iliwavutia wajaribio wetu wa alpha, ikivunja rekodi kwenye tathmini zao nyingi za kibinafsi za ndani.
Majibu ya awali kuhusu GPT‑5 kwa shughuli za usimbaji za ulimwengu halisi
“GPT-5 ndio muundo mzuri zaidi wa usimbaji ambao tumetumia. Timu yetu imegundua kuwa GPT-5 ina maarifa ya ajabu, ni rahisi kuelekeza na hata ina haiba ambayo hatujaona katika muundo mwingine wowote. Haipati tu hitilafu ngumu, zilizofichwa kwa kina, lakini pia inaweza kuendesha mawakala wa mandharinyuma wa muda mrefu, wa zamu nyingi ili kuona shughuli ngumu hadi mwisho—aina ya matatizo ambayo yalikuwa yakiwaacha miundo mingine kukwama. Imekuwa chombo chetu cha kila siku kwa kila kitu kutoka kwa kutathmini na kupanga PRs hadi kukamilisha ujenzi wa mwisho hadi mwisho.
Katika SWE-bench Imethibitishwa, tathmini inayotegemea shughuli za uhandisi wa programu za ulimwengu halisi, GPT‑5 inapata alama 74.9%, ikipanda kutoka 69.1% ya o3. Hasa, GPT‑5 inapata alama zake za juu kwa ufanisi na kasi zaidi: ikilinganishwa na o3 katika juhudi za juu za uwazaji, GPT‑5 hutumia tokeni za kitolewa 22% chache na simu za zana 45% chache.
Katika SWE-bench Verified, muundo hupewa hazina ya msimbo na maelezo ya tatizo na lazima zalisha kiraka ili kutatua tatizo hilo. Lebo za maandishi zinaonyesha juhudi ya uwazaji. Alama zetu zinaacha matatizo 23 kati ya 500 ambayo masuluhisho yake hayakupita kwa uhakika kwenye miundombinu yetu. GPT‑5 ilipewa dokeza fupi lililosisitiza kuthibitisha masuluhisho kwa kina; dokeza hilo halikumnufaisha o3.
Katika Aider polyglot, tathmini ya uhariri wa msimbo, GPT‑5 imeweka rekodi mpya ya 88%, ikiwa ni punguzo la theluthi moja ya kiwango cha makosa ikilinganishwa na o3.
Katika Aider polygot(fungua katika dirisha jipya) (diff), muundo hupewa zoezi la uandishi wa nambari kutoka kwa Exercism na lazima uandike suluhisho lake kama tofauti ya nambari. Miundo ya uwazaji iliendeshwa kwa juhudi kubwa za uwazaji.
Pia tumegundua GPT‑5 kuwa bora katika kuchimba ndani kabisa ya misimbo ili kujibu maswali kuhusu jinsi vipande mbalimbali vinavyofanya kazi au kuingiliana. Katika msingi wa msimbo changamani kama mkusanyiko wa mafunzo ya uimarishaji wa OpenAI, tunagundua kuwa GPT‑5 inaweza kutusaidia kufikiria na kujibu maswali kuhusu msimbo wetu na hivyo kuharakisha kazi yetu ya kila siku.
Wakati wa kutengeneza msimbo wa mbele kwa programu za wavuti, GPT‑5 inazingatia urembo zaidi, ni kabambe na sahihi zaidi. Katika ulinganisho wa ana kwa ana na o3, GPT‑5 ilipendelewa na wapimaji wetu 70% ya wakati.
Hapa kuna mifano ya kufurahisha, iliyochaguliwa ya kile GPT‑5 inaweza kufanya kwa dokezo moja:
Dokeza: Tafadhali tengeneza ukurasa wa kutua wenye mvuto na unaoonekana halisi kwa huduma inayompatia mpenzi wa kahawa wa kiwango cha juu huduma ya usajili ya USD 200 kwa mwezi, inayojumuisha kukodisha vifaa na mafunzo ya kuchoma kahawa na kutengeneza espresso bora kabisa. Hulengwa ni watu wa umri wa makamo wa eneo la Bay Area, wanaoweza kufanya kazi katika sekta ya teknolojia, walioelimika, wenye kipato cha ziada, na wanaopenda sana sanaa na sayansi ya kahawa. Boreshwa ili kuongeza ubadilishaji kwa usajili wa miezi 6.
Tazama mifano zaidi ya GPT‑5 katika maktaba yetu hapa(fungua katika dirisha jipya).
GPT‑5 ni mshirika bora, hasa katika bidhaa za usimbaji wa mawakala kama vile Cursor, Windsurf, GitHub Copilot, na Codex CLI. Wakati inafanya kazi, GPT‑5 inaweza utoaji mipango, masasisho, na muhtasari kati ya miito ya zana. Ikilinganishwa na miundo yetu ya awali, GPT‑5 ni mchangamfu zaidi katika kukamilisha shughuli kabambe bila kusubiri idhini yako au kusita mbele ya ugumu wa hali ya juu.
Huu hapa ni mfano wa jinsi GPT‑5 inavyoweza kuonekana wakati wa kushughulikia shughuli ngumu (katika kesi hii, kuunda tovuti ya mgahawa):
Baada ya mtumiaji kuuliza kuhusu tovuti kwa mkahawa wao, GPT‑5 hushiriki mpango wa haraka, huunda muundo wa programu, husakinisha utegemezi, huunda maudhui ya tovuti, huendesha mchakato wa kujenga ili kuangalia hitilafu za mkusanyiko, hutoa muhtasari wa kazi yake, na kupendekeza hatua zinayofuata zinazowezekana. Video hii imeharakishwa ~3x ili kuhifadhi muda wa kusubiri; muda kamili wa kuunda tovuti ulikuwa takriban dakika tatu.
Zaidi ya usimbaji wa kiwakala, GPT‑5 ni bora zaidi katika shughuli za kiwakala kwa ujumla. GPT‑5 huweka rekodi mpya kwenye vigezo vya ufuatiliaji wa maagizo (69.6% kwenye Scale MultiChallenge, kama ilivyokadiriwa na o3‑mini) na kupiga simu kwa zana (96.7% kwenye τ2-bench telecom). Uelewa wa zana ulioboreshwa unaruhusu GPT‑5 kuunganisha vitendo kwa uhakika zaidi ili kutekeleza shughuli za ulimwengu halisi.
Majibu ya awali kuhusu GPT‑5 kwa shughuli za wakala
"GPT-5 ni hatua kubwa mbele. Ilipata utendaji bora zaidi ambao tumewahi kuona kutoka kwa muundo mmoja kwenye viwango vyetu vya ndani. GPT-5 ilifanya vyema katika shughuli mbalimbali za kiwakala—hata kabla hatujabadilisha mstari mmoja wa msimbo au kurekebisha dokeza. Utangulizi mpya na udhibiti sahihi zaidi wa matumizi ya zana ulio washia hatua kubwa katika uthabiti na uendeshaji wa wakala wetu.
GPT‑5 hufuata maagizo kwa uhakika zaidi kuliko watangulizi wake wowote, ikipata alama za juu kwenye COLLIE, Scale MultiChallenge na tathmini yetu ya ndani ya kufuata maagizo.
Katika COLLIE(fungua katika dirisha jipya), miundo lazima iandike maandishi yanayokidhi vikwazo mbalimbali. Katika Scale MultiChallenge(fungua katika dirisha jipya), miundo inakabiliwa na changamoto katika mazungumzo ya zamu nyingi ili kutumia ipasavyo aina nne za taarifa kutoka kwa jumbe za awali. Alama zetu zinatokana na kutumia o3‑mini kama kigezo, ambacho kilikuwa sahihi zaidi kuliko GPT‑4o. Katika tathmini yetu ya ndani ya kufuata maagizo ya OpenAI API, miundo lazima ifuate maagizo magumu yanayotokana na majibu halisi ya msanidi programu. Miundo ya uwazaji iliendeshwa kwa juhudi kubwa za uwazaji.
Tulijitahidi sana kuboresha uendeshaji wa zana kwa njia ambazo ni muhimu kwa wasanidi programu. GPT‑5 ni bora zaidi katika kufuata maagizo ya zana, kushughulikia hitilafu za zana, na kufanya simu nyingi za zana kwa mfuatano au sambamba. Inapoagizwa, GPT‑5 pia inaweza kutoa ujumbe wa utangulizi kabla na kati ya miito ya zana ili kuwajulisha watumiaji kuhusu maendeleo wakati wa shughuli ndefu za kiwakala.
Miezi miwili iliyopita, τ2-bench telecom ilichapishwa na Sierra.ai kama kipimo cha utumiaji cha changamoto ambacho kiliangazia jinsi utendakazi wa muundo wa lugha unavyopungua sana unapoingiliana na hali ya mazingira inayoweza kubadilishwa na watumiaji. Katika uchapishaji(fungua katika dirisha jipya) wao, hakuna muundo uliopata zaidi ya 49%. GPT‑5 inapata alama 97%.
Katika τ2-bench(fungua katika dirisha jipya), muundo lazima utumie zana ili kukamilisha shughuli ya huduma kwa wateja, ambapo kunaweza kuwa na mtumiaji ambaye anaweza kuwasiliana na kuchukua vitendo juu ya hali ya dunia. Miundo ya uwazaji iliendeshwa kwa juhudi kubwa za uwazaji.
GPT‑5 inaonyesha maboresho makubwa katika utendakazi wa muktadha mrefu pia. Katika OpenAI-MRCR, kipimo cha urejeshaji wa taarifa za muktadha mrefu, GPT‑5 inazidi o3 na GPT‑4.1, kwa tofauti inayoongezeka sana kwa urefu mrefu wa ingizo.
Katika OpenAI-MRCR(fungua katika dirisha jipya) (azimio la marejeleo ya pande nyingi), maombi mengi ya mtumiaji yanayofanana na 'sindano' huingizwa kwenye 'haystacks' ndefu za maombi na majibu yanayofanana na muundo unaombwa kuzalisha jibu kwa sindano ya i-th. Uwiano wa wastani wa mechi hupima uwiano wa wastani wa mfuatano kati ya jibu la muundo na jibu sahihi. Pointi katika tokeni za ingizo za 256k zinawakilisha wastani wa tokeni za ingizo 128k–256k na kadhalika. Hapa, 256k inawakilisha 256 * 1,024 = 262,114 tokeni. Miundo ya uwazaji iliendeshwa kwa juhudi kubwa za uwazaji.
Pia tunatoa chanzo wazi BrowseComp Long Context(fungua katika dirisha jipya), kipimo kipya cha kutathmini Maswali na Majibu ya muktadha mrefu. Katika kipimo hiki, muundo hupewa swali la mtumiaji, orodha ndefu ya matokeo muhimu ya utafutaji, na lazima ujibu swali kulingana na matokeo hayo. Tumeunda Muktadha Mrefu wa BrowseComp kuwa halisi, changamoto, na kuwa na majibu sahihi ya msingi yanayotegemewa. Kwa ingizo ambazo ni tokeni 128K-256K, GPT‑5 hutoa jibu sahihi 89% ya wakati.
Katika API, miundo yote ya GPT‑5 inaweza kukubali kiwango cha juu cha tokeni za ingizo 272,000 na kutoa kiwango cha juu cha tokeni za kitolewa 128,000 za hoja na pato, kwa jumla ya urefu wa muktadha wa tokeni 400,000.
GPT‑5 inaaminika zaidi kuliko miundo yetu ya awali. Katika dokeza kutoka kwa vigezo vya LongFact na FactScore, GPT‑5 hufanya makosa ya ukweli ~80% machache kuliko o3. Hii inafanya iwe bora zaidi kwa kesi za matumizi ya mawakala ambapo usahihi ni muhimu—hasa katika programu, data na kufanya maamuzi.
Alama za juu ni mbaya zaidi. LongFact(fungua katika dirisha jipya) na FActScore(fungua katika dirisha jipya) yanajumuisha maswali ya wazi ya kutafuta ukweli. Tunatumia kigezo cha msingi wa LLM na kuvinjari ili kuthibitisha ukweli wa majibu kwenye dokezo kutoka kwa vigezo hivi na kupima sehemu ya madai yasiyo sahihi. Maelezo ya utekelezaji na upangaji yanaweza kupatikana katika kadi ya mfumo. Miundo ya uwazaji ilitumia juhudi kubwa za uwazaji. Utafutaji haukuwashwa.
Kwa ujumla, GPT‑5 imefunzwa kujitambua zaidi kuhusu mapungufu yake na kuwa na uwezo bora wa kushughulikia changamoto zisizotarajiwa. Pia tuliwafunza GPT‑5 kuwa sahihi zaidi kuhusu maswali ya afya (soma zaidi katika blogu yetu ya utafiti). Kama ilivyo kwa miundo yote ya lugha, tunapendekeza thibitisha kazi ya GPT‑5 wakati dau ni kubwa.
Wasanidi programu wanaweza kudhibiti muda wa kufikiria wa GPT‑5 kupitia kigezo cha reasoning_effort katika API. Mbali na thamani za awali—low, medium (chaguomsingi), na high—GPT‑5 pia hutoa usaidizi wa minimal, ambayo inapunguza uwazaji wa GPT‑5 ili kurudisha jibu haraka.
Thamani za juu za reasoning_effort huongeza ubora na thamani za chini huongeza kasi. Sio shughuli zote zinazofaidika kwa usawa na hoja za ziada, kwa hivyo tunapendekeza ujaribu ili kuona ni ipi inayofaa zaidi kwa kesi za utumiaji unazozingatia.
Kwa mfano, ufikiri juu ya low hauongezi sana kwa urejeshaji rahisi wa muktadha mrefu, lakini unaongeza alama kadhaa za asilimia kwa CharXiv Reasoning(fungua katika dirisha jipya), kipimo cha ufikiri wa kuona.
Juhudi za uwazaji za GPT‑5 hutoa manufaa tofauti kwa shughuli tofauti. Kwa Hoja ya CharXiv, GPT‑5 ilipewa ufikiaji wa zana ya Python.
Ili kusaidia kuelekeza urefu wa chaguomsingi wa majibu ya GPT‑5, tumeanzisha kigezo kipya cha API verbosity, ambacho kinachukua thamani za low, medium (chaguomsingi) na high. Ikiwa maagizo ya wazi yanapingana na vigezo vya verbosity, maagizo ya wazi yanapewa kipaumbele. Kwa mfano, ukiuliza GPT‑5 “kuandika insha ya aya 5”, jibu la muundo linapaswa kuwa aya 5 kila wakati bila kujali kiwango cha urefu wa maelezo (hata hivyo, aya zenyewe zinaweza kuwa ndefu au fupi).
Verbosity=chini
Verbosity=Kati
Verbosity=juu
Ikiwa imeagizwa, GPT‑5 itafanya utoaji wa ujumbe wa utangulizi unaoonekana kwa mtumiaji kabla na kati ya miito ya zana. Tofauti na ujumbe wa hoja uliofichwa, ujumbe huu unaoonekana unaruhusu GPT‑5 kuwasiliana mipango na maendeleo kwa mtumiaji, kusaidia watumiaji wa mwisho kuelewa mbinu na nia yake nyuma ya miito ya zana.
Tunatanguliza aina mpya ya zana—zana maalum—ambayo inaruhusu GPT‑5 kuita zana kwa maandishi wazi badala ya JSON. Ili kulazimisha GPT‑5 kufuata umbizo la zana maalum, wasanidi programu wanaweza kutoa regex, au hata sarufi isiyo na muktadha iliyobainishwa kikamilifu(fungua katika dirisha jipya).
Hapo awali, kiolesura chetu cha zana zilizobainishwa na msanidi programu kilihitaji ziitwe kwa JSON, umbizo la kawaida linalotumiwa na API za wavuti na wasanidi programu kwa ujumla. Hata hivyo, utoaji wa JSON halali unahitaji muundo kuepuka kikamilifu alama zote za nukuu, mikwaruzo, mistari mipya na tabia zingine za udhibiti. Ingawa miundo yetu imefunzwa vyema kwa utoaji wa JSON, kwenye viingizo virefu kama mamia ya mistari ya msimbo au ripoti ya kurasa tano, uwezekano wa kosa huongezeka. Kwa kutumia zana maalum, GPT‑5 inaweza kuandika ingizo za zana kama maandishi wazi, bila kulazimika kuondoa tabia zote zinazohitaji kuondolewa.
Kwenye SWE-Bench Imethibitishwa kwa kutumia zana maalum badala ya zana za JSON, GPT‑5 inapata alama sawa.
GPT‑5 inasogeza mbele mipaka ya usalama na ni muundo thabiti zaidi, unaotegemewa na wenye manufaa zaidi. GPT‑5 ina uwezekano mdogo wa kutoa majibu yasiyo sahihi kuliko miundo yetu ya awali, inawasilisha kwa uaminifu zaidi vitendo na uwezo wake kwa mtumiaji na hutoa jibu lenye manufaa zaidi inapowezekana huku ikiendelea kukaa ndani ya mipaka ya usalama. Unaweza kusoma zaidi katika blogu yetu ya utafiti.
GPT‑5 inapatikana sasa kwenye jukwaa la API katika saizi tatu: gpt-5, gpt-5-mini na gpt-5-nano. Inapatikana kwenye API ya Majibu, API ya Kukamilisha Chati, na ni chaguomsingi katika Codex CLI. GPT‑5 ina bei ya $1.25 kwa tokeni milioni moja za ingizo na $10 kwa tokeni milioni moja za kitolewa, GPT‑5 mini ina bei ya $0.25 kwa tokeni milioni moja za ingizo na $2 kwa tokeni milioni moja za kitolewa, na GPT‑5 nano ina bei ya $0.05 kwa tokeni milioni moja za ingizo na $0.40 kwa tokeni milioni moja za kitolewa.
Miundo hii inausaidizi vigezo vya reasoning_effort na verbosity vya API, pamoja na zana maalum. Pia zinaunga mkono usaidizi wa zana sambamba, zana zilizojengewa ndani (utafutaji wa wavuti, utafutaji wa faili, utengenezaji wa picha, na zaidi), vipengele vya msingi vya API (utiririshaji, Utoaji Ulioandaliwa, na zaidi), na vipengele vya kuokoa gharama kama vile uhifadhi wa dokezo na API ya Kundi.
Toleo lisilo la kufikiria la GPT‑5 linalotumika katika ChatGPT linapatikana katika API kama gpt-5-chat-latest, pia lina bei ya $1.25/1M tokeni za ingizo na $10/1M tokeni za kitolewa.
GPT‑5 pia inazinduliwa kwenye majukwaa ya Microsoft, yakiwemo Microsoft 365 Copilot, Copilot, GitHub Copilot na Azure AI Foundry.
Tazama nyaraka za(fungua katika dirisha jipya) GPT‑5, uwekaji bei(fungua katika dirisha jipya) na mwongozo wa kuanzisha(fungua katika dirisha jipya) ili kuanza.
Akili
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| AIME ’25(no tools) | 94.6% | 91.1% | 85.2% | 88.9% | 92.7% | 46.4% | 40.2% | - |
| FrontierMath(with python tool only) | 26.3% | 22.1% | 9.6% | 15.8% | 15.4% | - | - | - |
| GPQA diamond(no tools) | 85.7% | 82.3% | 71.2% | 83.3% | 81.4% | 66.3% | 65.0% | 50.3% |
| HLE[1](no tools) | 24.8% | 16.7% | 8.7% | 20.2% | 14.7% | 5.4% | 3.7% | - |
| HMMT 2025(no tools) | 93.3% | 87.8% | 75.6% | 81.7% | 85.0% | 28.9% | 35.0% | - |
[1] Kuna tofauti ndogo na nambari zilizoripotiwa katika chapisho letu la blogi ya awali, kwani hizo ziliendeshwa kwenye toleo la awali la HLE.
Multimodal
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| MMMU | 84.2% | 81.6% | 75.6% | 82.9% | 81.6% | 74.8% | 72.7% | 55.4% |
| MMMU-Pro(avg across standard and vision sets) | 78.4% | 74.1% | 62.6% | 76.4% | 73.4% | 60.3% | 58.9% | 33.0% |
| CharXiv reasoning(python enabled) | 81.1% | 75.5% | 62.7% | 78.6% | 72.0% | 56.7% | 56.8% | 40.5% |
| VideoMMMU, max frame 256 | 84.6% | 82.5% | 66.8% | 83.3% | 79.4% | 60.9% | 55.1% | 30.2% |
| ERQA | 65.7% | 62.9% | 50.1% | 64.0% | 56.5% | 44.3% | 42.3% | 26.5% |
Uandishi wa msimbo
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| SWE-Lancer: IC SWE Diamond Freelance Coding Tasks | $ elfu 112 | $ elfu 75 | $ elfu 49 | $ elfu 86 | $ elfu 66 | $ elfu 34 | $ elfu 31 | $ elfu 9 |
| SWE-bench Verified[2] | 74.9% | 71.0% | 54.7% | 69.1% | 68.1% | 54.6% | 23.6% | - |
| Aider polyglot(diff) | 88.0% | 71.6% | 48.4% | 79.6% | 58.2% | 52.9% | 31.6% | 6.2% |
[2] Tunapuuza matatizo 23/500 ambayo hayakuweza kuendeshwa kwenye miundombinu yetu. Orodha kamili ya shughuli 23 ambazo zimeachwa ni 'astropy__astropy-7606', 'astropy__astropy-8707', 'astropy__astropy-8872', 'django__django-10097', 'django__django-7530', 'matplotlib__matplotlib-20488', 'matplotlib__matplotlib-20676', 'matplotlib__matplotlib-20826', 'matplotlib__matplotlib-23299', 'matplotlib__matplotlib-24970', 'matplotlib__matplotlib-25479', 'matplotlib__matplotlib-26342', 'psf__requests-6028', 'pylint-dev__pylint-6528', 'pylint-dev__pylint-7080', 'pylint-dev__pylint-7277', 'pytest-dev__pytest-5262', 'pytest-dev__pytest-7521', 'scikit-learn__scikit-learn-12973', 'sphinx-doc__sphinx-10466', 'sphinx-doc__sphinx-7462', 'sphinx-doc__sphinx-8265', na 'sphinx-doc__sphinx-9367'.
Kufuata maagizo
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| Scale multichallenge[3](o3-mini grader) | 69.6% | 62.3% | 54.9% | 60.4% | 57.5% | 46.2% | 42.2% | 31.1% |
| Internal API instruction following eval(hard) | 64.0% | 65.8% | 56.1% | 47.4% | 44.7% | 49.1% | 45.1% | 31.6% |
| COLLIE | 99.0% | 98.5% | 96.9% | 98.4% | 96.1% | 65.8% | 54.6% | 42.5% |
[3] Kumbuka: tunagundua kuwa mchambuzi chaguomsingi katika MultiChallenge (GPT-4o) mara nyingi hukosea katika kupima majibu ya muundo. Tunagundua kuwa kubadilisha kigezo cha kutoa alama kwa muundo wa hoja, kama o3-mini, kunaboresha usahihi wa kutoa alama kwa kiasi kikubwa kwenye sampuli tulizokagua.
Kupiga simu kwa kazi
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| Tau2-bench airline | 62.6% | 60.0% | 41.0% | 64.8% | 60.2% | 56.0% | 51.0% | 14.0% |
| Tau2-bench retail | 81.1% | 78.3% | 62.3% | 80.2% | 70.5% | 74.0% | 66.0% | 21.5% |
| Tau2-bench telecom | 96.7% | 74.1% | 35.5% | 58.2% | 40.5% | 34.0% | 44.0% | 12.1% |
Muktadha mrefu
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| OpenAI-MRCR: 2 needle 128k | 95.2% | 84.3% | 43.2% | 55.0% | 56.4% | 57.2% | 47.2% | 36.6% |
| OpenAI-MRCR: 2 needle 256k | 86.8% | 58.8% | 34.9% | - | - | 56.2% | 45.5% | 22.6% |
| Graphwalks bfs <128k | 78.3% | 73.4% | 64.0% | 77.3% | 62.3% | 61.7% | 61.7% | 25.0% |
| Graphwalks parents <128k | 73.3% | 64.3% | 43.8% | 72.9% | 51.1% | 58.0% | 60.5% | 9.4% |
| BrowseComp Long Context 128k | 90.0% | 89.4% | 80.4% | 88.3% | 80.0% | 85.9% | 89.0% | 89.4% |
| BrowseComp Long Context 256k | 88.8% | 86.0% | 68.4% | - | - | 75.5% | 81.6% | 19.1% |
| VideoMME(long, with subtitle category) | 86.7% | 78.5% | 65.7% | 84.9% | 79.5% | 78.7% | 68.4% | 55.2% |
Mawazo
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| LongFact-Concepts hallucination rate(no tools)[lower is better] | 1.0% | 0.7% | 1.0% | 5.2% | 3.0% | 0.7% | 1.1% | - |
| LongFact-Objects hallucination rate(no tools)[lower is better] | 1.2% | 1.3% | 2.8% | 6.8% | 8.9% | 1.1% | 1.8% | - |
| FActScore hallucination rate(no tools)[lower is better] | 2.8% | 3.5% | 7.3% | 23.5% | 38.7% | 6.7% | 10.9% | - |


