Pāriet uz galveno saturu
OpenAI

2025. gada 7. augusts

Produkts

Iepazīstinām ar GPT‑5 izstrādātājiem

Labākais modelis kodēšanai un aģentiskajiem uzdevumiem.

Notiek ielāde…

Ievads

Šodien mēs izlaižam GPT‑5 mūsu API platformā – mūsu līdz šim labāko modeli kodēšanas un aģentiskajiem uzdevumiem.

GPT‑5 ir vismodernākais (SOTA) galvenajos kodēšanas etalonos, iegūstot 74,9% SWE-bench verificēts un 88% Aider poliglotā. Mēs apmācījām GPT‑5, lai tas būtu īsts kodēšanas partneris. Tas izceļas ar augstas kvalitātes koda izstrādi un tādu uzdevumu veikšanu kā kļūdu labošana, koda rediģēšana un jautājumu atbildēšana par sarežģītām koda bāzēm. Modelis ir vadāms un sadarbojošs — tas spēj precīzi sekot ļoti detalizētiem norādījumiem un sniegt sākotnējus skaidrojumus par savām rīcībām pirms un starp rīka izsaukumiem.  Modelis izceļas arī front-end kodēšanā, iekšējās testēšanas laikā 70% gadījumu pārspējot OpenAI o3 front-end tīmekļa izstrādē.

Mēs apmācījām GPT‑5 reālās pasaules kodēšanas uzdevumos sadarbībā ar agrīnajiem testētājiem jaunuzņēmumos un uzņēmumos. Cursor apgalvo, ka GPT‑5 ir “visgudrākais modelis, ko [viņi] ir izmantojuši”, un “ievērojami inteliģents, viegli vadāms un pat ar personību, ko [viņi] nav redzējuši citos modeļos”. Windsurf koplietotais GPT‑5 ir SOTA viņu novērtējumos un “tam ir uz pusi mazāks rīku izsaukšanas kļūdu līmenis salīdzinājumā ar citiem robežmodeļiem”. Vercel apgalvo, ka "tas ir labākais frontend MI modelis, kas sasniedz augstāko veiktspēju gan estētiskajā ziņā, gan koda kvalitātē, ierindojot to savā kategorijā."

GPT‑5 arī izceļas ilgstošos aģentiskajos uzdevumos — sasniedzot SOTA rezultātus τ2-bench Telecom* (96,7%), rīku izsaukšanas etalonā, kas tika izlaists tikai pirms 2 mēnešiem. GPT‑5 uzlabotā rīku intelekta funkcija ļauj tam droši savienot ķēdē desmitiem rīku izsaukumu — gan secīgi, gan paralēli —, nezaudējot virzienu, tādējādi ievērojami uzlabojot sarežģītu reālās pasaules uzdevumu izpildi no sākuma līdz beigām. Tas arī precīzāk seko rīku instrukcijām, labāk apstrādā rīku kļūdas un izceļas ar satura izgūšanu no ilgtermiņa konteksta. Manus saka, ka GPT‑5 "savos iekšējos etalonos sasniedza labāko sniegumu, kādu jebkad ir redzējis viens modelis". Notion saka: "[modeļa] ātrās reakcijas, īpaši zemas domāšanas režīmā, padara GPT‑5 par ideālu modeli, kad tev ir nepieciešams atrisināt sarežģītus uzdevumus vienā piegājienā." Inditex dalījās ar “kas patiesi izceļ [GPT‑5], ir tā spriestspējas dziļums: niansētas, daudzslāņainas atbildes, kas atspoguļo patiesu izpratni par tēmu.”

Mēs ieviešam jaunas funkcijas mūsu API, lai dotu izstrādātājiem vairāk kontroli pār modeļu atbildēm. GPT‑5 atbalsta jaunu verbosity parametru (vērtības: low, medium, high), lai palīdzētu kontrolēt, vai atbildes ir īsas un kodolīgas vai garas un visaptverošas. GPT‑5 parametram reasoning_effort tagad var būt minimāla vērtība, lai ātrāk saņemtu atbildes atpakaļ, bez plašas pamatošanas vispirms. Mēs esam pievienojuši jaunu rīku tipu — pielāgotus rīkus —, lai GPT‑5 varētu izsaukt rīkus ar vienkāršu tekstu, nevis JSON. Pielāgoti rīki atbalsta ierobežošanu ar izstrādātāju piegādātām bezkonteksta gramatikām.

Mēs izlaižam GPT‑5 trīs izmēros API —gpt-5, gpt-5-mini un gpt-5-nano—, lai sniegtu izstrādātājiem lielāku elastību veiktspējas, izmaksu un latentuma ziņā. Kamēr GPT‑5 programmā ChatGPT ir spriešanas, nespriešanas un maršrutētāju modeļu sistēma, GPT‑5 API platformā ir spriešanas modelis, kas nodrošina maksimālu veiktspēju programmā ChatGPT. Jāatzīmē, ka GPT‑5 ar minimālu loģisko domāšanu ir atšķirīgs modelis nekā ChatGPT modelis bez loģiskās domāšanas, un tas ir labāk pielāgots izstrādātājiem. ChatGPT izmantotais modelis bez spriestspējas ir pieejams kā gpt-5-chat-latest.

Lai lasītu par GPT‑5 programmā ChatGPT un uzzinātu vairāk par citiem uzlabojumiem, apskati mūsu pētniecības emuāru. Lai uzzinātu vairāk par to, kā uzņēmumi ar prieku izmanto GPT‑5, apskati mūsu enterprise blog.

Programmēšana

GPT‑5 ir spēcīgākais kodēšanas modelis, ko mēs jebkad esam izlaiduši. Tas pārspēj o3 gan kodēšanas etalonos, gan reālās pasaules lietošanas gadījumos un ir pilnveidots, lai izceltos tādos aģentūras kodēšanas produktos kā Cursor, Windsurf, GitHub Copilot un Codex CLI. GPT‑5 atstāja iespaidu uz mūsu alfa testētājiem, uzstādot rekordus daudzos viņu privātajos iekšējos novērtējumos. 

Agrīnas atsauksmes par GPT‑5 reālās pasaules kodēšanas uzdevumiem

“GPT-5 ir gudrākais kodēšanas modelis, ko esam izmantojuši Mūsu Team ir atklājusi, ka GPT-5 ir ārkārtīgi inteliģents, viegli vadāms un pat ar personību, ko mēs neesam redzējuši nevienā citā modelī. Tas ne tikai uztver sarežģītas, dziļi slēptas kļūdas, bet arī var palaist garus vairāku posmu fona aģentus, lai pabeigtu sarežģītus uzdevumus – tādas problēmas, kas agrāk atstāja citus iestrēgušus modeļus. "Tas ir kļuvis par mūsu ikdienas rīku visam, sākot ar sabiedrisko attiecību plānošanu un apjoma noteikšanu un beidzot ar pilnīgu end-to-end būvju pabeigšanu.”
Maikls Truels (Michael Truell), Cursor līdzdibinātājs un izpilddirektors

SWE-bench verificēts, novērtējumā, kas balstīts uz reāliem programmatūras inženierijas uzdevumiem, GPT‑5 iegūst 74,9%, pieaugot no o3 69,1%. Proti, GPT‑5 sasniedz augstu rezultātu ar lielāku efektivitāti un ātrumu: salīdzinot ar o3 pie augstas spriešanas piepūles, GPT‑5 izmanto par 22% mazāk izvades tekstvienību un par 45% mazāk rīku izsaukumu.

In SWE-bench Verified modelim tiek piešķirta koda krātuve un problēmas apraksts, un tam ir jāģenerē ielāps, lai atrisinātu problēmu. Teksta etiķetes norāda uz spriešanas piepūli. Mūsu rezultātos nav iekļautas 23 no 500 problēmām, kuru risinājumi mūsu infrastruktūrā netika droši apstrādāti. GPT‑5 tika dots īss uzvednes teksts, kurā uzsvērta rūpīga risinājumu verificēšana; tā pati uzvedne nedeva labumu o3.

Aider polyglot platformā, koda rediģēšanas novērtējumā, GPT‑5 uzstāda jaunu rekordu — 88 %, kas ir par trešdaļu mazāks kļūdu līmenis salīdzinājumā ar o3.

Aider polygot(atveras jaunā logā) (diff) modelim tiek dots kodēšanas uzdevums no Exercism, un tam jāuzraksta risinājums kā koda diff. Apsvērumu modeļi tika darbināti ar lielu apsvērumu piepūli.

Mēs arī esam atklājuši, ka GPT‑5 lieliski iedziļinās kodu bāzēs, lai atbildētu uz jautājumiem par to, kā dažādas daļas darbojas vai sadarbojas. Tik sarežģītā kodu bāzē kā OpenAI stimulētās mācīšanās kaudze, mēs atklājam, ka GPT‑5 var palīdzēt mums apsvērt un atbildēt uz jautājumiem par mūsu kodu, paātrinot mūsu ikdienas darbu. 

Robežtehnoloģiju inženierija

Veidojot tīmekļa lietotņu front-end kodu, GPT‑5 ir estētiski domājošāks, ambiciozāks un precīzāks. Salīdzinājumos blakus ar o3, mūsu testētāji 70% gadījumu deva priekšroku GPT‑5.

Šeit ir daži jautri, rūpīgi atlasīti piemēri tam, ko GPT‑5 var paveikt ar vienu uzvedni:

Uzvedne: lūdzu, ģenerē skaistu, reālistisku galveno lapu pakalpojumam, kas nodrošina labākajam kafijas entuziastam abonementu 200 ASV dolāru mēnesī uz aprīkojuma nomu un apmācību kafijas grauzdēšanai un labākā espresso radīšanai. Mērķauditorija ir līča zonas pusmūža cilvēks, kurš varētu strādāt tehnoloģiju jomā un ir izglītots, kam ir pieejami ienākumi un aizraujas ar kafijas mākslu un zinātni. Optimizēt reklāmguvumu 6 mēnešu reģistrācijai.

Paskaties vairāk GPT‑5 piemēru mūsu galerijā šeit(atveras jaunā logā).

Kodēšanas sadarbība

GPT‑5 ir labāks sadarbības partneris, īpaši tādos aģentiskos kodēšanas produktos kā Cursor, Windsurf, GitHub Copilot un Codex CLI. Kamēr tas darbojas, GPT‑5 var izvadīt plānus, atjauninājumus un kopsavilkumus starp rīku izsaukumiem. Salīdzinot ar mūsu iepriekšējiem modeļiem, GPT‑5 ir proaktīvāks ambiciozu uzdevumu veikšanā, neapstājoties, gaidot tavu piekrišanu, vai vilcinoties augstas sarežģītības dēļ.

Šeit ir piemērs, kā GPT‑5 var izskatīties, veicot sarežģītu uzdevumu (šajā gadījumā izveidojot restorāna vietni):

Kad lietotājs lūdz vietni savam restorānam, GPT‑5 piedāvā ātru plānu, izveido lietotnes struktūru, instalē atkarības, izveido vietnes saturu, veic būvējumu, lai pārbaudītu kompilācijas kļūdas, apkopo paveikto un iesaka iespējamos nākamos soļus. Šis video ir paātrināts ~3x, lai ietaupītu tavu gaidīšanas laiku; pilns vietnes izveides ilgums bija apmēram trīs minūtes.

Aģentu uzdevumi

Papildus aģentiskajai kodēšanai GPT‑5 kopumā labāk veic aģentiskus uzdevumus. GPT‑5 uzstāda jaunus rekordus norādījumu ievērošanas etalonos (69,6% Scale MultiChallenge, ko novērtēja o3‑mini) un rīku izsaukšanā (96,7% τ2-bench telecom). Uzlabotā rīku inteliģence ļauj GPT‑5 uzticamāk savienot rīcības, lai izpildītu reālās pasaules uzdevumus.

Agrīnas atsauksmes par GPT‑5 aģentiskiem uzdevumiem

“GPT-5 ir liels solis uz priekšu Tas sasniedza labāko sniegumu, kādu jebkad esam redzējuši no viena modeļa mūsu iekšējos etalonos. GPT-5 izcili veica dažādus aģentiskos uzdevumus — pat pirms mēs mainījām kaut vienu koda rindiņu vai pielāgojām uzvedni. Jaunās preambulas un precīzāka instrumentu izmantošanas kontrole, iespējojot ievērojamu lēcienu mūsu aģentu stabilitātē un vadāmībā.
Jičao "Pīks" Dži (Yichao ‘Peak’ Ji), Manus līdzdibinātājs un Zinātnes vadītājs

Instrukciju ievērošana

GPT‑5 seko instrukcijām uzticamāk nekā jebkurš no tā priekšgājējiem, iegūstot augstus rezultātus COLLIE, Scale MultiChallenge un mūsu iekšējā instrukciju sekošanas novērtējumā.

COLLIE(atveras jaunā logā) modeļiem ir jāraksta teksts, kas atbilst dažādiem ierobežojumiem. Scale MultiChallenge(atveras jaunā logā) režīmā modeļi tiek izaicināti vairāku gājienu sarunās, lai pareizi izmantotu četrus informācijas veidus no iepriekšējiem ziņojumiem. Mūsu rezultāti nāk no o3‑mini izmantošanas kā vērtētāja, kas bija precīzāks nekā GPT‑4o. Mūsu iekšējā OpenAI API instrukciju sekošanas novērtējumā modeļiem ir jāievēro sarežģītas instrukcijas, kas iegūtas no reālām izstrādātāju atsauksmēm. Apsvērumu modeļi tika darbināti ar lielu apsvērumu piepūli.

Rīka izsaukšana

Mēs smagi strādājām, lai uzlabotu rīku izsaukšanu veidos, kas ir svarīgi izstrādātājiem. GPT‑5 labāk seko rīku instrukcijām, labāk tiek galā ar rīku kļūdām un labāk proaktīvi veic daudzus rīku izsaukumus secīgi vai paralēli. Kad tiek doti norādījumi, GPT‑5 var arī veikt izvadi ievada ziņojumu veidā pirms un starp rīka zvaniem, lai informētu lietotājus par progresu ilgstošāku uzdevumu laikā.

Pirms diviem mēnešiem Sierra.ai publicēja τ2-bench telecom kā izaicinošu rīka izmantošanas etalonu, kas uzsvēra, kā valodas modeļa veiktspēja ievērojami samazinās, mijiedarbojoties ar vides stāvokli, ko lietotāji var mainīt. Savā publikācijā(atveras jaunā logā) neviens modelis nav ieguvis vairāk par 49%. GPT‑5 ieguva 97%.

τ2-bench(atveras jaunā logā) modelim ir jāizmanto rīki, lai veiktu klientu apkalpošanas uzdevumu, kur var būt lietotājs, kas var sazināties un veikt rīcības ar pasaules stāvokli. Apsvērumu modeļi tika darbināti ar lielu apsvērumu piepūli.

GPT‑5 uzrāda arī ievērojamus uzlabojumus ilgā konteksta veiktspējā. OpenAI-MRCR, kas ir ilgtermiņa konteksta informācijas izguves mērs, GPT‑5 pārspēj o3 un GPT‑4.1 ar starpību, kas ievērojami pieaug pie garākiem Ievades garumiem.

OpenAI-MRCR(atveras jaunā logā) (vairāku kārtu kopreferences izšķirtspēja) ietvaros vairāki identiski “adatas” lietotāju pieprasījumi tiek ievietoti garās līdzīgu pieprasījumu un atbilžu “siena kaudzēs”, un modelim tiek lūgts reproducēt atbildi uz i-to adatu. Vidējā atbilstības attiecība mēra vidējo virknes atbilstības attiecību starp modeļa atbildi un pareizo atbildi. Punkti pie 256k maksimālajām ievades tekstvienībām atspoguļo vidējos rādītājus 128k–256k ievades tekstvienībām un tā tālāk. Šeit 256k apzīmē 256 * 1,024 = 262,114 tokeni. Apsvērumu modeļi tika darbināti ar lielu apsvērumu piepūli.

Mēs arī padarām BrowseComp Long Context(atveras jaunā logā) par atvērtā koda projektu — jaunu etalonu ilgtermiņa konteksta jautājumu un atbilžu novērtēšanai. Šajā etalonā modelim tiek dots lietotāja vaicājums, garš atbilstošo meklēšanas rezultātu saraksts, un tam ir jāatbild uz jautājumu, pamatojoties uz meklēšanas rezultātiem. Mēs izstrādājām BrowseComp Long kontekstu, lai tas būtu reālistisks, sarežģīts un ar droši pareizām atbildēm. Uz ievades, kas ir 128K–256K tokeni, GPT‑5 sniedz pareizo atbildi 89% gadījumu.

API visi GPT‑5 modeļi var pieņemt maksimāli 272 000 ievades tokenu un emitēt maksimāli 128 000 argumentācijas un izvades tokenu, kopējam konteksta garumam sasniedzot 400 000 tokenu.

Fakti

GPT‑5 ir uzticamāks nekā mūsu iepriekšējie modeļi. Uz LongFact un FactScore uzvednēm, GPT‑5 pieļauj par ~80% mazāk faktu kļūdu nekā o3. Tas padara to labāk piemērotu aģentiskām lietošanas situācijām, kurās pareizība ir svarīga, īpaši kodā, datos un lēmumu pieņemšanā.

Augstāki rezultāti ir sliktāki. LongFact(atveras jaunā logā) un FActScore(atveras jaunā logā) sastāv no atvērtiem jautājumiem, kas meklē faktus. Mēs izmantojam uz LLM balstītu vērtētāju ar pārlūkošanu, lai pārbaudītu atbildes uz šīm uzvednēm un izmērītu faktiski nepareizu apgalvojumu īpatsvaru. Ieviešanas un vērtēšanas detaļas var atrast sistēmas kartītē. Loģikas modeli izmantoja augstu argumentācijas piepūli. Meklēšana nebija iespējota.

Parasti GPT‑5 ir apmācīts labāk apzināties savus ierobežojumus un labāk tikt galā ar negaidītiem pārsteigumiem. Mēs arī apmācījām GPT‑5, lai tas būtu daudz precīzāks veselības jautājumos (vairāk lasi mūsu pētījumu emuārā). Tāpat kā ar visiem valodas modeļiem, mēs iesakām verificēt GPT‑5 darbību, ja likmes ir augstas.

Jaunas iezīmes

Minimāla apsvērumu piepūle

Izstrādātāji var kontrolēt GPT‑5 domāšanas laiku, izmantojot API parametru reasoning_effort. Papildus iepriekšējām vērtībām—low, medium (noklusējums) un high—GPT‑5 atbalsta arī minimal, kas samazina GPT‑5 pamatojumu, lai ātri atgrieztu atbildi.

Augstākas reasoning_effort vērtības maksimāli palielina kvalitāti, savukārt zemākas vērtības maksimāli palielina ātrumu. Ne visi uzdevumi vienādi gūst labumu no papildu apsvērumiem, tāpēc mēs iesakām eksperimentēt, lai noskaidrotu, kurš vislabāk der lietošanas gadījumiem, kas tev rūp.

Piemēram, argumentācija virs low maz ietekmē relatīvi vienkāršu garu kontekstu meklēšanu, bet palielina par dažiem procentpunktiem CharXiv Reasoning(atveras jaunā logā), vizuālās spriestspējas etalonā.

GPT‑5 spriestspējas centieni sniedz dažādas priekšrocības dažādos uzdevumos. CharXiv spriešanas nolūkos GPT‑5 tika piešķirta piekļuve Python rīkam.

Pļāpīgums

Lai palīdzētu noteikt GPT‑5 atbilžu noklusējuma garumu, mēs esam ieviesuši jaunu API parametru verbosity, kas pieņem vērtības low, medium (noklusējums) un high. Ja skaidri norādījumi ir pretrunā ar detalizētības parametriem, skaidriem norādījumiem ir priekšroka. Piemēram, ja tu lūdz GPT‑5 "uzrakstīt 5 rindkopu eseju", modeļa atbildei vienmēr jābūt 5 rindkopām neatkarīgi no izvērsuma līmeņa (tomēr pašas rindkopas var būt garākas vai īsākas).

Liekvārdība=zema

Why is the sky blue?

Because of Rayleigh scattering. Air molecules are much smaller than the wavelength of visible light, so they scatter short wavelengths (blue/violet) far more than long ones (red). The scattered blue light comes to your eyes from all directions, making the sky look blue. We don’t see violet as much because the Sun emits less of it, our eyes are less sensitive to it, and some is absorbed in the upper atmosphere. At sunrise and sunset, the longer path through air removes more blue, leaving the sky reddish.

Liekvārdība=vidēja

Why is the sky blue?

Because of Rayleigh scattering. Sunlight contains all colors, but air molecules scatter shorter wavelengths (blue/violet) much more strongly than longer wavelengths (red). The scattering strength goes roughly as 1/(wavelength)^4, so blue light gets redirected across the sky and into your eyes.

We don’t see a violet sky because:

  • The Sun emits slightly less violet than blue.
  • The upper atmosphere absorbs some violet/UV.
  • Human eyes are less sensitive to violet.

At sunrise and sunset, sunlight passes through more atmosphere, scattering out most of the blues along the way and leaving the longer red/orange wavelengths to dominate.

Liekvārdība=augsta

Why is the sky blue?

The sky looks blue because sunlight gets scattered by the tiny molecules in Earth’s atmosphere. This process is called Rayleigh scattering.

Key points:

  • Sunlight is made of many colors (wavelengths). Shorter wavelengths, like violet and blue, are scattered much more strongly by air molecules than longer wavelengths like red. The scattering strength increases sharply as wavelength gets shorter.
  • As sunlight passes through the atmosphere, the shorter-wavelength light (especially blue) is scattered in all directions, so no matter where you look away from the Sun, you see that scattered blue light — the “blue sky.”

Why not violet?

  • The Sun emits less violet than blue.
  • Our eyes are less sensitive to violet.
  • Some violet/UV is absorbed higher up by ozone.

Together, that makes the scattered light we perceive look mainly blue.

Why are sunsets red/orange?

  • Near sunrise and sunset, sunlight travels a much longer path through the atmosphere.
  • Much of the blue light gets scattered out of the direct path before it reaches your eyes, leaving the remaining direct sunlight enriched in reds and oranges.

Other influences:

  • Haze, pollution, smoke, or dust have larger particles that scatter light less selectively (called Mie scattering), making the sky look paler or whitish.
  • The blue sky is partially polarized due to the scattering geometry, which is why polarized sunglasses can darken parts of it.
  • On worlds with different atmospheres and particle sizes (like Mars), skies can look butterscotch or reddish for similar scattering reasons.

If Earth had no atmosphere, there would be nothing to scatter sunlight, and the sky would appear black even in daytime, with the Sun as a bright disk.

Ziņojumi pirms rīku izsaukumiem

Ja tiek dota instrukcija, GPT‑5 pirms un starp rīku izsaukumiem veiks lietotājam redzamu preambulas ziņojumu izvadi. Atšķirībā no slēptajiem argumentācijas ziņojumiem, šie redzamie ziņojumi ļauj GPT‑5 sazināties ar lietotāju par plāniem un progresu, palīdzot gala lietotājiem saprast tā pieeju un nodomu aiz rīku zvaniem.

Pielāgoti rīki

Mēs ieviešam jaunu rīku veidu — pielāgotus rīkus —, kas ļauj GPT‑5 izsaukt rīku ar vienkāršu tekstu, nevis JSON. Lai ierobežotu GPT‑5 sekot pielāgotiem rīku formātiem, izstrādātāji var nodrošināt regex vai pat pilnīgāk definētu bezkonteksta gramatiku(atveras jaunā logā).

Iepriekš mūsu izstrādātāju definēto rīku saskarnei bija nepieciešams tos izsaukt, izmantojot JSON, kas ir izplatīts formāts, ko izmanto tīmekļa API un izstrādātāji kopumā. Tomēr, lai iegūtu derīgu JSON izvadi, modelim ir perfekti jāaizbēg no visām pēdiņām, atpakaļvērstajām slīpsvītrām, jaunajām rindiņām un citām vadības rakstzīmēm. Lai gan mūsu modeļi ir labi apmācīti JSON izvadē, garās ievades, piemēram, simtiem koda rindu vai 5 lappušu ziņojums, palielina kļūdu iespējamību. Izmantojot pielāgotus rīkus, GPT‑5 var rakstīt rīka ievades kā vienkāršu tekstu, bez nepieciešamības aizbēgt no visām rakstzīmēm, kuras nepieciešams aizbēgt.

SWE-bench verificēts, izmantojot pielāgotus rīkus, nevis JSON rīkus, GPT‑5 iegūst aptuveni tādu pašu rezultātu.

Drošība

GPT‑5 paplašina drošības robežas un ir izturīgāks, uzticamāks un noderīgāks modelis. GPT‑5 ir ievērojami mazāka iespēja halucinēt nekā mūsu iepriekšējiem modeļiem, godīgāk komunicē par savām rīcībām un spējām ar lietotāju un sniedz visnoderīgāko atbildi, ja iespējams, vienlaikus saglabājot drošības robežas. Vairāk vari lasīt mūsu pētījumu emuārā.

Pieejamība un izcenojums

GPT‑5 tagad ir pieejams API platformā trīs izmēros: gpt-5, gpt-5-mini un gpt-5-nano. Tas ir pieejams Responses API, tērzēšanas Completions API un ir noklusējuma iestatījums Codex CLI. GPT‑5 cena ir 1,25 ASV dolāri/1 miljons ievades tekstvienību un 10 ASV dolāri/1 miljons izvades tekstvienību, GPT‑5 mini cena ir 0,25 ASV dolāri/1 miljons ievades tekstvienību un 2 ASV dolāri/1 miljons izvades tekstvienību, un GPT‑5 nano cena ir 0,05 ASV dolāri/1 miljons ievades tekstvienību un 0,40 ASV dolāri/1 miljons izvades tekstvienību.

Šie modeļi sniedz atbalstu reasoning_effort un verbosity API parametriem, kā arī pielāgotus rīkus. Tie arī atbalsta paralēlu rīku izsaukšanu, iebūvētus rīkus (tīmekļa meklēšana, failu meklēšana, attēlu ģenerēšana un citi), galvenās API funkcijas (straumēšana, strukturēta izvade un citi) un izmaksu taupīšanas funkcijas, piemēram, uzvedņu kešatmiņu un partijas API.

ChatGPT izmantotā GPT‑5 neargumentējošā versija ir pieejama API kā gpt-5-chat-latest, un tās cena ir 1,25 ASV dolāri par 1 miljonu ievades tekstvienībām un 10 ASV dolāri par 1 miljonu izvades tekstvienībām.

GPT‑5 tiek palaists arī visās Microsoft platformās, tostarp Microsoft 365 Copilot, Copilot, GitHub Copilot un Azure AI Foundry.

Detalizēti etaloni

Informācija
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
AIME ’25(no tools)94,6%91,1%85,2%88,9%92,7%46,4%40,2%-
FrontierMath(with python tool only)26,3%22,1%9,6%15,8%15,4%---
GPQA diamond(no tools)85,7%82,3%71,2%83,3%81,4%66,3%65,0%50,3%
HLE[1](no tools)24,8%16,7%8,7%20,2%14,7%5,4%3,7%-
HMMT 2025(no tools)93,3%87,8%75,6%81,7%85,0%28,9%35,0%-

[1] Ir neliela neatbilstība ar skaitļiem, kas tika ziņoti mūsu iepriekšējā emuāra ierakstā, jo tie tika aprēķināti, izmantojot iepriekšējo HLE versiju.

Multimodāls
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
MMMU84,2%81,6%75,6%82,9%81,6%74,8%72,7%55,4%
MMMU-Pro(avg across standard and vision sets)78,4%74,1%62,6%76,4%73,4%60,3%58,9%33,0%
CharXiv reasoning(python enabled)81,1%75,5%62,7%78,6%72,0%56,7%56,8%40,5%
VideoMMMU, max frame 25684,6%82,5%66,8%83,3%79,4%60,9%55,1%30,2%
ERQA65,7%62,9%50,1%64,0%56,5%44,3%42,3%26,5%
Programmēšana
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
SWE-Lancer: IC SWE Diamond Freelance Coding Tasks112 tūkst. $75 tūkst. $49 tūkst. $86 tūkst. $66 tūkst. $34 tūkst. $31 tūkst. $9 tūkst. $
SWE-bench Verified[2]74,9%71,0%54,7%69,1%68,1%54,6%23,6%-
Aider polyglot(diff)88,0%71,6%48,4%79,6%58,2%52,9%31,6%6,2%

[2] Mēs izslēdzam 23 no 500 problēmām, kuras nevarēja darboties mūsu infrastruktūrā. Pilns saraksts ar 23 izlaistajiem uzdevumiem ir 'astropy__astropy-7606', 'astropy__astropy-8707', 'astropy__astropy-8872', 'django__django-10097', 'django__django-7530', 'matplotlib__matplotlib-20488', 'matplotlib__matplotlib-20676', 'matplotlib__matplotlib-20826', 'matplotlib__matplotlib-23299', 'matplotlib__matplotlib-24970', 'matplotlib__matplotlib-25479', 'matplotlib__matplotlib-26342', 'psf__requests-6028', 'pylint-dev__pylint-6528', 'pylint-dev__pylint-7080', 'pylint-dev__pylint-7277', 'pytest-dev__pytest-5262', 'pytest-dev__pytest-7521', 'scikit-learn__scikit-learn-12973', 'sphinx-doc__sphinx-10466', 'sphinx-doc__sphinx-7462', 'sphinx-doc__sphinx-8265' un 'sphinx-doc__sphinx-9367'.

Instrukciju Ievērošana
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
Scale multichallenge[3](o3-mini grader)69,6%62,3%54,9%60,4%57,5%46,2%42,2%31,1%
Internal API instruction following eval(hard)64,0%65,8%56,1%47,4%44,7%49,1%45,1%31,6%
COLLIE99,0%98,5%96,9%98,4%96,1%65,8%54,6%42,5%

[3] Piezīme: mēs atklājam, ka MultiChallenge (GPT-4o) noklusējuma vērtētājs bieži nepareizi novērtē modeļa atbildes. Mēs atklājam, ka vērtētāja aizstāšana ar modeli, piemēram, o3-mini, ievērojami uzlabo vērtēšanas precizitāti pārbaudītajos paraugos.

Funkciju izsaukšana
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
Tau2-bench airline62,6%60,0%41,0%64,8%60,2%56,0%51,0%14,0%
Tau2-bench retail81,1%78,3%62,3%80,2%70,5%74,0%66,0%21,5%
Tau2-bench telecom96,7%74,1%35,5%58,2%40,5%34,0%44,0%12,1%
Garš konteksts
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
OpenAI-MRCR: 2 needle 128k95,2%84,3%43,2%55,0%56,4%57,2%47,2%36,6%
OpenAI-MRCR: 2 needle 256k86,8%58,8%34,9%--56,2%45,5%22,6%
Graphwalks bfs <128k78,3%73,4%64,0%77,3%62,3%61,7%61,7%25,0%
Graphwalks parents <128k73,3%64,3%43,8%72,9%51,1%58,0%60,5%9,4%
BrowseComp Long Context 128k90,0%89,4%80,4%88,3%80,0%85,9%89,0%89,4%
BrowseComp Long Context 256k88,8%86,0%68,4%--75,5%81,6%19,1%
VideoMME(long, with subtitle category)86,7%78,5%65,7%84,9%79,5%78,7%68,4%55,2%
Halucinācijas
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
LongFact-Concepts hallucination rate(no tools)[lower is better]1,0%0,7%1,0%5,2%3,0%0,7%1,1%-
LongFact-Objects hallucination rate(no tools)[lower is better]1,2%1,3%2,8%6,8%8,9%1,1%1,8%-
FActScore hallucination rate(no tools)[lower is better]2,8%3,5%7,3%23,5%38,7%6,7%10,9%-

Autors

OpenAI