Kalo te përmbajtja kryesore
OpenAI

7 gusht 2025

Produkti

Prezantimi i GPT‑5 për zhvilluesit

Modeli më i mirë për detyra programimi dhe të agjentit.

Duke ngarkuar…

Hyrje

Sot, po qarkullojmë GPT‑5 në platformën tonë API—modeli ynë më i mirë deri më tani për programim dhe detyra të agjentit.

GPT‑5 është teknologjia e fundit (SOTA) në standardet kryesore të programimit, duke shënuar 74.9% në SWE-Bench Verifikuar dhe 88% në Aider polyglot. Ne e kemi trajnuar GPT‑5 për të qenë një bashkëpunëtor i vërtetë në programim. Ai shkëlqen në realizimin e kodit me cilësi të lartë dhe në trajtimin e detyrave si rregullimi i gabimeve, redaktimi i kodit dhe përgjigjja e pyetjeve rreth bazave komplekse të kodit. Modeli është i drejtueshëm dhe bashkëpunues — mund të ndjekë udhëzime shumë të hollësishme me saktësi të lartë dhe të japë shpjegime paraprake të veprimeve të tij para dhe midis thirrjeve të mjeteve.  Modeli shkëlqen gjithashtu në programimin front-end, duke e tejkaluar OpenAI o3 në zhvillimin e front-end të uebit në 70% të rasteve gjatë testimeve të brendshme.

Ne e kemi trajnuar GPT‑5 në detyra programimi reale në bashkëpunim me testues të hershëm në kompani të vogla dhe ndërmarrje. Cursor thotë se GPT‑5 është “modeli më inteligjent që kanë përdorur” dhe “jashtëzakonisht inteligjent, i lehtë për t’u drejtuar dhe madje ka një personalitet që nuk e kanë parë në modele të tjera.” Windsurf pohoi se GPT‑5 është SOTA në vlerësimet e tyre dhe "ka gjysmën e shkallës së gabimit në thirrjen e mjeteve krahasuar me modelet e tjera të avancuara". Vercel thotë se “është modeli më i mirë i AI për frontend, duke arritur performancë të lartë si në ndjesinë estetike ashtu edhe në cilësinë e kodit, duke e vendosur atë në një kategori më vete.”

GPT‑5 shkëlqen gjithashtu në detyrat afatgjata të agjentit — duke arritur rezultate SOTA në τ2-bench Telecom (96.7%), një pikë referimi për thirrjen e mjeteve e publikuar vetëm 2 muaj më parë. Inteligjenca e përmirësuar e mjeteve të GPT‑5 e lejon atë të lidhë në mënyrë të besueshme dhjetëra thirrje mjetesh — si në sekuencë ashtu edhe paralelisht — pa humbur drejtimin, duke e bërë atë shumë më të aftë në ekzekutimin e detyrave komplekse të botës reale nga fillimi në fund. Gjithashtu ndjek udhëzimet e mjeteve më saktësisht, është më i mirë në trajtimin e gabimeve të mjeteve dhe shkëlqen në rikthimin e përmbajtjes me kontekst të gjatë. Manus thotë se GPT‑5 “arriti performancën më të mirë që kanë parë ndonjëherë nga një model i vetëm në testet e tyre të brendshme.” Notion thotë se “[përgjigjet e shpejta të modelit], veçanërisht në modalitetin me arsyetim të ulët, e bëjnë GPT‑5 një model ideal kur ke nevojë për detyra komplekse të zgjidhura me një të shtënë.” Inditex pohoi se “ajo që e veçon vërtet [GPT‑5] është thellësia e arsyetimit të tij: përgjigje të nuancuara dhe shumështresore që pasqyrojnë një kuptim të vërtetë të lëndës”.

Po prezantojmë veçori të reja në API-n tonë për t'u dhënë zhvilluesve më shumë kontroll mbi përgjigjet e modelit. GPT‑5 ofron mbështetje për një parametër të ri verbosity (vlerat: low, medium, high) për të ndihmuar në kontrollin nëse përgjigjet janë të shkurtra dhe të drejtpërdrejta apo të gjata dhe gjithëpërfshirëse. Parametri reasoning_effort i GPT‑5 tani mund të marrë një vlerë minimale për të marrë përgjigjet më shpejt, pa arsyetim të gjerë më parë. Ne gjithashtu kemi shtuar një lloj të ri mjeti — mjete të personalizuara — për të lejuar GPT‑5 të përdorë mjete me tekst të thjeshtë në vend të JSON. Mjetet e personalizuara ofrojnë mbështetje për kufizimin nga gramatikat pa kontekst të ofruara nga zhvilluesit.

Ne po qarkullojmë GPT‑5 në tre madhësi në API—gpt-5, gpt-5-mini dhe gpt-5-nano — për t'u dhënë zhvilluesve më shumë fleksibilitet për të balancuar performancën, koston dhe vonesën. Ndërsa GPT‑5 në ChatGPT është një sistem modelesh arsyetimi, joarsyetimi dhe ruteri, GPT‑5 në platformën API është modeli i arsyetimit që ofron performancën maksimale në ChatGPT. Veçanërisht, GPT‑5 me arsyetim minimal është një model i ndryshëm nga modeli pa arsyetim në ChatGPT dhe është më i përshtatur për zhvilluesit. Modeli pa arsyetim i përdorur në ChatGPT është i disponueshëm si gpt-5-chat-latest.

Për të lexuar rreth GPT‑5 në ChatGPT dhe për të mësuar më shumë rreth përmirësimeve të tjera të ChatGPT, shiko blogun tonë të kërkimit. Për më shumë rreth mënyrës se si ndërmarrjet janë të entuziazmuara për të përdorur GPT‑5, shiko blogun tonë për ndërmarrjet.

Kodimi

GPT‑5 është modeli më i fuqishëm i programimit që kemi publikuar ndonjëherë. Ai tejkalon performancën e o3 në testet e programimit dhe rastet e përdorimit në botën reale, dhe është përshtatur për të shkëlqyer në produktet e programimit agjentik si Cursor, Windsurf, GitHub Copilot dhe Codex CLI. GPT‑5 u la mbresa testuesve tanë alfa, duke thyer rekorde në shumë nga vlerësimet e tyre të brendshme private. 

Përshtypje të hershme për GPT‑5 për detyrat e kodimit në botën reale

"GPT-5 është modeli më inteligjent i programimit që kemi përdorur Ekipi ynë ka zbuluar se GPT-5 është jashtëzakonisht inteligjent, i lehtë për t'u drejtuar dhe madje ka një personalitet që nuk e kemi parë në asnjë model tjetër. Ai jo vetëm që kap gabime të ndërlikuara, të fshehura thellë, por gjithashtu mund të ekzekutojë agjentë të gjatë, me shumë kthesa, në sfond për të përfunduar detyra komplekse - llojet e problemeve që dikur linin modelet e tjera të bllokuara. Është bërë mjeti ynë i përditshëm për gjithçka, nga përcaktimi i fushëveprimit dhe planifikimi i PR-ve deri te përfundimi i ndërtimeve të plota.
Michael Truell, bashkëthemelues dhe drejtor i përgjithshëm në Cursor

Në SWE-bench Verifikuar, një vlerësim i bazuar në detyra reale të inxhinierisë softuerike, GPT‑5 shënon 74.9%, duke u rritur nga 69.1% e o3. Veçanërisht, GPT‑5 arrin rezultatin e tij të lartë me efikasitet dhe shpejtësi më të madhe: në krahasim me o3 në përpjekje të larta arsyetimi, GPT‑5 përdor 22% më pak kodet e daljes dhe 45% më pak thirrje mjetesh.

SWE-bench Verified, një modeli i jepet një depo kodi dhe një përshkrim i problemit, dhe duhet të përftojë një patch për të zgjidhur problemin. Etiketat e tekstit tregojnë përpjekjen e arsyetimit. Rezultatet tona përjashtojnë 23 nga 500 problemet, zgjidhjet e të cilave nuk kaluan në mënyrë të besueshme në infrastrukturën tonë. GPT‑5 iu dha një kërkesë e shkurtër që theksonte të verifikonte zgjidhjet në mënyrë tërësore; e njëjta kërkesë nuk i solli përfitime o3.

Në Aider polyglot, gjatë një vlerësimi të redaktimit të kodit, GPT‑5 vendos një rekord të ri prej 88%, duke ulur shkallën e gabimeve me një të tretën krahasuar me o3.

Aider polygot(hapet në një dritare të re) (diff), një model merr një ushtrim kodimi nga Exercism dhe duhet të shkruajë zgjidhjen e tij si një ndryshim kodi. Modelet e arsyetimit u ekzekutuan me përpjekje të larta arsyetimi.

Gjithashtu kemi zbuluar se GPT‑5 është i shkëlqyer në analizimin e thellë të bazave të kodit për t'iu përgjigjur pyetjeve se si funksionojnë ose bashkëveprojnë pjesë të ndryshme. Në një bazë kodi aq të ndërlikuar sa grupi mësimor përforcues të OpenAI, po zbulojmë se GPT‑5 mund të na ndihmojë të arsyetojmë dhe t'u përgjigjemi pyetjeve rreth kodit tonë, duke përshpejtuar punën tonë të përditshme. 

Inxhinieria e frontend-it

Kur prodhon kod frontend për aplikacione uebi, GPT‑5 është më i orientuar estetikisht, ambicioz dhe i saktë. Në krahasimet krah për krah me o3, GPT‑5 u preferua nga testuesit tanë në 70% të rasteve.

Ja disa shembuj argëtues dhe të përzgjedhur me kujdes të asaj që GPT‑5 mund të bëjë me një kërkesë të vetme:

Kërkesa: Please generate a beautiful, realistic landing page for a service that provides the ultimate coffee enthusiast a $200/month subscription that provides equipment rental and coaching for coffee roasting and creating the ultimate espresso. The target audience is a bay area middle-aged person who might work in tech and is educated, has disposable income, and is passionate about the art and science of coffee. Optimize for conversion for a 6 month signup.

Shiko më shumë shembuj nga GPT‑5 në galerinë tonë këtu(hapet në një dritare të re).

Bashkëpunim në programim

GPT‑5 është një bashkëpunëtor më i mirë, veçanërisht në produktet e programimit agjentik si Cursor, Windsurf, GitHub Copilot dhe Codex CLI. Ndërsa funksionon, GPT‑5 mund të gjenerojë plane, përditësime dhe përmbledhje ndërmjet thirrjeve të mjeteve. Në krahasim me modelet tona të mëparshme, GPT‑5 është më proaktiv në kryerjen e detyrave ambicioze pa pritur miratimin tënd ose pa u stepur nga kompleksiteti i lartë.

Ja një shembull se si mund të duket GPT‑5 gjatë zgjidhjes së një detyre komplekse (në këtë rast, krijimin e një faqeje interneti për një restorant):

Pasi përdoruesi kërkon një faqe interneti për restorantin e tij, GPT‑5 ndan një plan të shpejtë, krijon strukturën e aplikacionit, instalon varësitë, krijon përmbajtjen e faqes, ekzekuton një ndërtim për të kontrolluar gabimet e përpilimit, përmbledh punën e tij dhe sugjeron hapat e mundshëm para. Kjo video është përshpejtuar ~3 herë për të të ruajtur pritjen; kohëzgjatja e plotë për të krijuar faqen e internetit ishte rreth tre minuta.

Detyrat e agjentit

Përtej programimit si agjent, GPT‑5 është më i mirë në detyrat e agjentit në përgjithësi. GPT‑5 thyen rekorde të reja në testet për ndjekjen e udhëzimeve (69.6% në Scale MultiChallenge, siç vlerësohet nga o3‑mini) dhe thirrjes së mjeteve (96.7% në τ2-bench telecom). Inteligjenca e përmirësuar e mjeteve lejon GPT‑5 të lidhë më besueshëm veprime për të përmbushur detyrat reale.

Përshtypje të hershme për GPT‑5 për detyra agjenti

“GPT-5 është një hap i madh përpara. Arriti performancën më të mirë që kemi parë ndonjëherë nga një model i vetëm në testet tona të brendshme. GPT-5 shkëlqeu në detyra të ndryshme agentike — madje edhe para se të ndryshonim një linjë të vetme kodi ose të përshtatnim një kërkesë. Preambulat e reja dhe kontrolli më i saktë mbi përdorimin e mjeteve aktivizuan një përparim të rëndësishëm në stabilitetin dhe drejtueshmërinë e agjentëve tanë.
Yichao ‘Peak’ Ji, bashkëthemelues dhe drejtor shkencor në Manus

Ndjekja e udhëzimeve

GPT‑5 ndjek udhëzimet më me besueshmëri se çdo paraardhës i tij, duke marrë rezultate të larta në COLLIE, Scale MultiChallenge dhe në vlerësimin tonë të brendshëm për ndjekjen e udhëzimeve.

COLLIE(hapet në një dritare të re), modelet duhet të shkruajnë tekst që plotëson kufizime të ndryshme. Në Scale MultiChallenge(hapet në një dritare të re), modelet sfidohen në biseda me shumë kthesa për të përdorur siç duhet katër lloje informacioni nga mesazhet e mëparshme. Rezultatet tona vijnë nga përdorimi i o3‑mini si vlerësues, që ishte më i saktë se GPT‑4o. Në vlerësimin tonë të brendshëm të ndjekjes së udhëzimeve të OpenAI API, modelet duhet të ndjekin udhëzime të vështira që rrjedhin nga përshtypjet reale të zhvilluesve. Modelet e arsyetimit u ekzekutuan me përpjekje të lartë arsyetimi.

Thirrja e mjeteve

Ne kemi punuar shumë për të përmirësuar thirrjen e mjeteve në mënyrat që janë të rëndësishme për zhvilluesit. GPT‑5 është më i mirë në ndjekjen e udhëzimeve të mjeteve, më i mirë në trajtimin e gabimeve të mjeteve dhe më i mirë në kryerjen proaktive të shumë thirrjeve të mjeteve në sekuencë ose paralelisht. Kur udhëzohet, GPT‑5 mund të nxjerrë gjithashtu mesazhe para dhe ndërmjet thirrjeve të mjeteve për të përditësuar përdoruesit mbi përparimin gjatë detyrave më të gjata të agjentit.

Dy muaj më parë, τ2-bench telecom u publikua nga Sierra.ai si një pikë referimi sfiduese për përdorimin e një mjeti që theksoi se si performanca e model gjuhësore bie ndjeshëm kur ndërvepron me një gjendje mjedisi që mund të ndryshohet nga përdoruesit. Në publikimin(hapet në një dritare të re) e tyre, asnjë model nuk arriti të shënojë mbi 49%. GPT‑5 arrin 97%.

τ2-bench(hapet në një dritare të re), një model duhet të përdorë mjete për të përmbushur një detyrë të shërbimit ndaj klientit, ku mund të ketë një përdorues që mund të komunikojë dhe të ndërmarrë veprime në gjendjen botërore. Modelet e arsyetimit u ekzekutuan me përpjekje të lartë arsyetimi.

GPT‑5 tregon përmirësime të mëdha edhe në performancën për kontekste të gjata. Në OpenAI-MRCR, një masë e rikthimit të informacionit në kontekst të gjatë, GPT‑5 tejkalon o3 dhe GPT‑4.1, me një diferencë që rritet ndjeshëm me inpute më të gjata.

OpenAI-MRCR(hapet në një dritare të re) (zgjidhja e bashkëreferencës me shumë raunde), kërkesa të shumta identike të përdoruesit “gjilpërë” futen në “mullarë kashte” të gjatë me kërkesa dhe përgjigje të ngjashme, dhe modelit i kërkohet të riprodhojë përgjigjen ndaj gjilpërës së i-të. Raporti mesatar i përputhjes mat mesataren e përputhjes së vargut midis përgjigjes së modelit dhe përgjigjes së saktë. Pikët në 256k tokene inputi maksimale përfaqësojnë mesataret mbi 128k–256k tokene inputi, dhe kështu me radhë. Këtu, 256k përfaqëson 256 * 1,024 = 262,144 tokene. Modelet e arsyetimit u ekzekutuan me përpjekje të larta arsyetimi.

Ne gjithashtu po e bëjmë me burim të hapur BrowseComp Long Context(hapet në një dritare të re), një standard i ri për vlerësimin e pyetjeve dhe përgjigjeve me kontekst të gjatë. Në këtë test, modelit i jepet një pyetje nga përdoruesi, një listë e gjatë e rezultateve të kërkimit përkatëse dhe duhet t'i përgjigjet pyetjes bazuar në ato rezultate. Ne projektuam BrowseComp Long Context që të jetë realist, i vështirë dhe të ketë përgjigje të sakta dhe të besueshme. Në hyrjet që janë 128K–256K tokena, GPT‑5 jep përgjigjen e saktë në 89% të rasteve.

Në API, të gjitha modelet GPT‑5 mund të pranojnë një maksimum prej 272 000 tokene inputi dhe të lëshojnë një maksimum prej 128 000 tokene arsyetimi dhe tokenet e outputit, për një gjatësi totale të kontekstit prej 400,000 tokenesh.

Fakti

GPT‑5 është më i besueshëm se modelet tona të mëparshme. Në kërkesat nga standardet LongFact dhe FactScore, GPT‑5 bën ~80% më pak gabime faktike sesa o3. Kjo e bën atë më të përshtatshëm për rastet e përdorimit si agjent ku saktësia ka rëndësi — veçanërisht në kod, të dhëna dhe vendimmarrje.

Rezultatet më të larta janë më të këqija. LongFact(hapet në një dritare të re) dhe FActScore(hapet në një dritare të re) përbëhen nga pyetje të hapura për kërkimin e fakteve. Ne përdorim një vlerësues të bazuar në LLM me shfletim për të verifikuar faktet e përgjigjeve mbi kërkesat nga këto standarde dhe për të matur pjesën e pretendimeve faktikisht të pasakta. Detajet e implementimit dhe të vlerësimit mund të gjenden te karta e sistemit. Modelet e arsyetimit përdorën përpjekje të mëdha arsyetimi. Kërkimi nuk ishte i aktivizuar.

Në përgjithësi, GPT‑5 është trajnuar për të qenë më i vetëdijshëm për kufizimet e veta dhe më i aftë për të trajtuar situata të papritura. Ne gjithashtu e trajnuam GPT‑5 që të jetë shumë më i saktë në pyetjet shëndetësore (lexo më shumë në blogun tonë të kërkimit). Ashtu si me të gjitha modelet e modelit gjuhe, të rekomandojmë të verifikosh punën e GPT‑5 kur rreziku është i lartë.

Veçoritë e reja

Përpjekje minimale arsyetimi

Zhvilluesit mund të kontrollojnë kohën e të menduarit të GPT‑5 përmes parametrit reasoning_effort në API. Përveç vlerave të mëparshme—low, medium (parazgjedhje) dhe high—GPT‑5 gjithashtu mbështet minimal, që minimizon arsyetimin e GPT‑5 për të kthyer një përgjigje shpejt.

Vlerat më të larta të reasoning_effort maksimizojnë cilësinë, ndërsa vlerat më të ulëta maksimizojnë shpejtësinë. Jo të gjitha detyrat përfitojnë njësoj nga arsyetimi shtesë, prandaj ju rekomandojmë të eksperimentoni për të parë se cila funksionon më mirë për rastet e përdorimit që ju interesojnë.

Për shembull, arsyetimi më sipër low shton pak në marrjen relativisht të thjeshtë të kontekstit të gjatë, por shton mjaft pikë përqindjeje në CharXiv Reasoning(hapet në një dritare të re), një pikë referimi për arsyetimin vizual.

Përpjekja e arsyetimit të GPT‑5 sjell përfitime të ndryshme në detyra të ndryshme. Për CharXiv Reasoning, GPT‑5 iu dha akses në një mjet Python.

Verboziteti

Për të ndihmuar në përcaktimin e gjatësisë së parazgjedhur të përgjigjeve të GPT‑5, kemi prezantuar një parametër të ri API, verbosity, i cili pranon vlera low, medium (parazgjedhur) dhe high. Nëse udhëzimet eksplicite bien ndesh me parametrat e hollësishmërisë, udhëzimet eksplicite kanë përparësi. Për shembull, nëse i kërkon GPT‑5 të “shkruajë një ese me 5 paragrafë”, përgjigja e modelit duhet të jetë gjithmonë 5 paragrafë pavarësisht nga niveli i verbozitetit (megjithatë, vetë paragrafët mund të jenë më të gjatë ose më të shkurtër).

Verbosity=low

Why is the sky blue?

Because of Rayleigh scattering. Air molecules are much smaller than the wavelength of visible light, so they scatter short wavelengths (blue/violet) far more than long ones (red). The scattered blue light comes to your eyes from all directions, making the sky look blue. We don’t see violet as much because the Sun emits less of it, our eyes are less sensitive to it, and some is absorbed in the upper atmosphere. At sunrise and sunset, the longer path through air removes more blue, leaving the sky reddish.

Verbosity=medium

Why is the sky blue?

Because of Rayleigh scattering. Sunlight contains all colors, but air molecules scatter shorter wavelengths (blue/violet) much more strongly than longer wavelengths (red). The scattering strength goes roughly as 1/(wavelength)^4, so blue light gets redirected across the sky and into your eyes.

We don’t see a violet sky because:

  • The Sun emits slightly less violet than blue.
  • The upper atmosphere absorbs some violet/UV.
  • Human eyes are less sensitive to violet.

At sunrise and sunset, sunlight passes through more atmosphere, scattering out most of the blues along the way and leaving the longer red/orange wavelengths to dominate.

Verbosity=high

Why is the sky blue?

The sky looks blue because sunlight gets scattered by the tiny molecules in Earth’s atmosphere. This process is called Rayleigh scattering.

Key points:

  • Sunlight is made of many colors (wavelengths). Shorter wavelengths, like violet and blue, are scattered much more strongly by air molecules than longer wavelengths like red. The scattering strength increases sharply as wavelength gets shorter.
  • As sunlight passes through the atmosphere, the shorter-wavelength light (especially blue) is scattered in all directions, so no matter where you look away from the Sun, you see that scattered blue light — the “blue sky.”

Why not violet?

  • The Sun emits less violet than blue.
  • Our eyes are less sensitive to violet.
  • Some violet/UV is absorbed higher up by ozone.

Together, that makes the scattered light we perceive look mainly blue.

Why are sunsets red/orange?

  • Near sunrise and sunset, sunlight travels a much longer path through the atmosphere.
  • Much of the blue light gets scattered out of the direct path before it reaches your eyes, leaving the remaining direct sunlight enriched in reds and oranges.

Other influences:

  • Haze, pollution, smoke, or dust have larger particles that scatter light less selectively (called Mie scattering), making the sky look paler or whitish.
  • The blue sky is partially polarized due to the scattering geometry, which is why polarized sunglasses can darken parts of it.
  • On worlds with different atmospheres and particle sizes (like Mars), skies can look butterscotch or reddish for similar scattering reasons.

If Earth had no atmosphere, there would be nothing to scatter sunlight, and the sky would appear black even in daytime, with the Sun as a bright disk.

Mesazhet hyrëse para thirrjeve të mjeteve

Nëse udhëzohet, GPT‑5 do të japë mesazhe preambule të dukshme për përdoruesin para dhe midis thirrjeve të mjetit. Ndryshe nga mesazhet e fshehura të arsyetimit, këto mesazhe të dukshme i lejojnë GPT‑5 të komunikojë planet dhe progresin te përdoruesi, duke i ndihmuar përdoruesit fundorë të kuptojnë qasjen dhe qëllimin e tij pas thirrjeve të mjeteve.

Mjete të personalizuara

Ne po prezantojmë një lloj të ri mjeti — mjetet e personalizuara — që i lejon GPT‑5 të përdorë një mjet me tekst të thjeshtë në vend të JSON. Për të kufizuar GPT‑5 që të ndjekë formatet e mjeteve të personalizuara, zhvilluesit mund të ofrojnë një regex, ose edhe një gramatikë pa kontekst(hapet në një dritare të re) më të specifikuar.

Më parë, ndërfaqja jonë për mjetet e përcaktuara nga zhvilluesit kërkonte që ato të thirreshin me JSON, një format i zakonshëm i përdorur nga API e internetit dhe zhvilluesit në përgjithësi. Megjithatë, për të nxjerrë JSON të vlefshëm, modeli duhet të përjashtojë pa gabime të gjitha thonjëzat, thyesat, kryeradhët dhe simbolet e tjera të kontrollit. Edhe pse modelet tona janë të trajnuara mirë për të nxjerrë JSON, në rastet e inputeve të gjata si qindra rreshta kodi ose një raport prej 5 faqesh, shanset për një gabim rriten. Me mjete të personalizuara, GPT‑5 mund të shkruajë inputet si tekst të thjeshtë, pa pasur nevojë të përjashtojë të gjitha simbolet që duhen përjashtuar.

Në SWE-bench Verified duke përdorur mjete të personalizuara në vend të mjeteve JSON, GPT‑5 jep pothuajse të njëjtin rezultat.

Siguria në përdorim

GPT‑5 avancon fushën e sigurisë dhe është një model më i fuqishëm, më i besueshëm dhe më i dobishëm. GPT‑5 ka dukshëm më pak gjasa të halucinojë sesa modelet tona të mëparshme, komunikon më sinqerisht veprimet dhe aftësitë e tij te përdoruesi dhe ofron përgjigjen më të dobishme aty ku është e mundur, duke qëndruar ende brenda kufijve të sigurisë. Mund të lexosh më shumë në blogun tonë të kërkimit.

Disponueshmëria dhe çmimet

GPT‑5 është i disponueshëm tani në platformën API në tre madhësi: gpt-5, gpt-5-mini, dhe gpt-5-nano. Responses API, Chat Completions API dhe është parazgjedhja në Codex CLI. GPT‑5 ka një çmim prej $1.25 për 1 milion tokenet e inputit dhe $10 për 1 milion tokenet e outputit, GPT‑5 mini ka një çmim prej $0.25 për 1 milion tokenet e inputit dhe $2 për 1 milion tokenet e outputit, dhe GPT‑5 nano ka një çmim prej $0.05 për 1 milion tokenet e inputit dhe $0.40 për 1 milion tokenet e outputit.

Këto modele mbështesin parametrat reasoning_effort dhe verbosity të API-së, si dhe mjete të personalizuara. Ato gjithashtu mbështesin thirrjet paralele të veglave, mjetet e integruara (kërkimi në ueb, kërkimi i skedarëve, gjenerimi i imazheve dhe më shumë), veçoritë kryesore të API (transmetimi, daljet e strukturuara dhe më shumë) dhe veçoritë e kursimit të kostos si caching i kërkesave dhe Batch API.

Versioni pa arsyetim i GPT‑5 i përdorur në ChatGPT është i disponueshëm në API si gpt-5-chat-latest, gjithashtu me çmim prej $1.25/1M tokenet e inputit dhe $10/1M tokenet e outputit.

GPT‑5 do të qarkullojë gjithashtu në të gjitha platformat e Microsoft, duke përfshirë Microsoft 365 Copilot, Copilot, GitHub Copilot dhe Azure AI Foundry.

Rezultatet e detajuara të performancës

Inteligjenca
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
AIME ’25(no tools)94,6%91,1%85,2%88,9%92,7%46,4%40,2%-
FrontierMath(with python tool only)26,3%22,1%9,6%15,8%15,4%---
GPQA diamond(no tools)85,7%82,3%71,2%83,3%81,4%66,3%65,0%50,3%
HLE[1](no tools)24,8%16,7%8,7%20,2%14,7%5,4%3,7%-
HMMT 2025(no tools)93,3%87,8%75,6%81,7%85,0%28,9%35,0%-

[1] Ka një mospërputhje të vogël me shifrat e raportuara në postimin tonë të mëparshëm në blog, pasi ato u llogaritën në një version të mëparshëm të HLE.

Multimodal
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
MMMU84,2%81,6%75,6%82,9%81,6%74,8%72,7%55,4%
MMMU-Pro(avg across standard and vision sets)78,4%74,1%62,6%76,4%73,4%60,3%58,9%33,0%
CharXiv reasoning(python enabled)81,1%75,5%62,7%78,6%72,0%56,7%56,8%40,5%
VideoMMMU, max frame 25684,6%82,5%66,8%83,3%79,4%60,9%55,1%30,2%
ERQA65,7%62,9%50,1%64,0%56,5%44,3%42,3%26,5%
Kodimi
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
SWE-Lancer: IC SWE Diamond Freelance Coding Tasks112 mijë US$75 mijë US$49 mijë US$86 mijë US$66 mijë US$34 mijë US$31 mijë US$9 mijë US$
SWE-bench Verified[2]74,9%71,0%54,7%69,1%68,1%54,6%23,6%-
Aider polyglot(diff)88,0%71,6%48,4%79,6%58,2%52,9%31,6%6,2%

[2] Ne heqim 23/500 probleme që nuk mund të ekzekutoheshin në infrastrukturën tonë. Lista e plotë e 23 detyrave të lëna jashtë janë 'astropy__astropy-7606', 'astropy__astropy-8707', 'astropy__astropy-8872', 'django__django-10097', 'django__django-7530', 'matplotlib__matplotlib-20488', 'matplotlib__matplotlib-20676', 'matplotlib__matplotlib-20826', 'matplotlib__matplotlib-23299', 'matplotlib__matplotlib-24970', 'matplotlib__matplotlib-25479', 'matplotlib__matplotlib-26342', 'psf__requests-6028', 'pylint-dev__pylint-6528', 'pylint-dev__pylint-7080', 'pylint-dev__pylint-7277', 'pytest-dev__pytest-5262', 'pytest-dev__pytest-7521', 'scikit-learn__scikit-learn-12973', 'sphinx-doc__sphinx-10466', 'sphinx-doc__sphinx-7462', 'sphinx-doc__sphinx-8265' dhe 'sphinx-doc__sphinx-9367'.

Ndjekja e udhëzimeve
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
Scale multichallenge[3](o3-mini grader)69,6%62,3%54,9%60,4%57,5%46,2%42,2%31,1%
Internal API instruction following eval(hard)64,0%65,8%56,1%47,4%44,7%49,1%45,1%31,6%
COLLIE99,0%98,5%96,9%98,4%96,1%65,8%54,6%42,5%

[3] Shënim: Kemi vënë re se vlerësuesi i parazgjedhur në MultiChallenge (GPT-4o) shpesh i vlerëson gabim përgjigjet e modelit. Kemi vënë re se zëvendësimi i vlerësuesit me një model arsyetimi, si o3-mini, përmirëson ndjeshëm saktësinë e vlerësimit në mostrat që kemi inspektuar.

Thirrja e funksionit
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
Tau2-bench airline62,6%60,0%41,0%64,8%60,2%56,0%51,0%14,0%
Tau2-bench retail81,1%78,3%62,3%80,2%70,5%74,0%66,0%21,5%
Tau2-bench telecom96,7%74,1%35,5%58,2%40,5%34,0%44,0%12,1%
Kontekst i gjatë
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
OpenAI-MRCR: 2 needle 128k95,2%84,3%43,2%55,0%56,4%57,2%47,2%36,6%
OpenAI-MRCR: 2 needle 256k86,8%58,8%34,9%--56,2%45,5%22,6%
Graphwalks bfs <128k78,3%73,4%64,0%77,3%62,3%61,7%61,7%25,0%
Graphwalks parents <128k73,3%64,3%43,8%72,9%51,1%58,0%60,5%9,4%
BrowseComp Long Context 128k90,0%89,4%80,4%88,3%80,0%85,9%89,0%89,4%
BrowseComp Long Context 256k88,8%86,0%68,4%--75,5%81,6%19,1%
VideoMME(long, with subtitle category)86,7%78,5%65,7%84,9%79,5%78,7%68,4%55,2%
Halucinacione
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
LongFact-Concepts hallucination rate(no tools)[lower is better]1,0%0,7%1,0%5,2%3,0%0,7%1,1%-
LongFact-Objects hallucination rate(no tools)[lower is better]1,2%1,3%2,8%6,8%8,9%1,1%1,8%-
FActScore hallucination rate(no tools)[lower is better]2,8%3,5%7,3%23,5%38,7%6,7%10,9%-

Autor

OpenAI