Անցնել հիմնական բովանդակությանը
OpenAI

7 օգոստոսի, 2025 թ.

Արտադրանք

Ներկայացնում ենք GPT‑5‑ը ծրագրավորողների համար

Լավագույն մոդելը կոդավորման և գործակալական առաջադրանքների համար։

Բեռնվում է…

Ներածություն

Այսօր մենք թողարկում ենք GPT‑5‑ը մեր API հարթակում՝ կոդավորման և գործակալական առաջադրանքների համար մեր լավագույն մոդելը մինչ օրս։

GPT‑5‑ը կոդավորման հիմնական չափանիշներով առաջատարն է (SOTA), ստանալով SWE-bench Հաստատվածում 74.9% և Aider polyglot-ում՝ 88%։ Մենք GPT‑5‑ին վարժեցրինք որպես իսկական ծրագրավորող համագործակցող։ Այն գերազանց է բարձրորակ կոդ ստեղծելու և այնպիսի առաջադրանքներ կատարելու մեջ, ինչպիսիք են սխալների շտկումը, կոդի խմբագրումը և բարդ կոդային բազաների վերաբերյալ հարցերին պատասխանելը։ Մոդելը կառավարելի է և համագործակցային. այն կարող է հետևել շատ մանրամասն հրահանգներին բարձր ճշգրտությամբ և կարող է նախապես բացատրություններ տալ իր գործողությունների վերաբերյալ՝ գործիքի կանչերից առաջ և դրանց միջև ընկած ժամանակահատվածում։  Մոդելը նաև գերազանց է առջևի մասի կոդավորման մեջ՝ ներքին թեստավորման ժամանակ 70%-ով գերազանցելով OpenAI o3‑ին առջևի մասի վեբ մշակման 70%-ի դեպքում։

Մենք վարժեցրինք GPT‑5‑ին իրական աշխարհի կոդավորման առաջադրանքների վրա՝ համագործակցելով ստարտափների և ձեռնարկությունների վաղ փորձարկողների հետ։ Cursor-ն ասում է, որ GPT‑5‑ը «ամենախելացի մոդելն է, որը նրանք օգտագործել են» և «զարմանալիորեն խելացի, հեշտ ղեկավարվող և նույնիսկ ունի անհատականություն, որը նրանք չեն տեսել այլ մոդելներում»։ Windsurf-ը հայտնել է, որ GPT‑5‑ը SOTA է իրենց գնահատումներում և «ունի գործիք կանչելու սխալի մակարդակը երկու անգամ ավելի ցածր, քան մյուս առաջատար մոդելները»։ Vercel-ն ասում է. «Սա լավագույն frontend AI մոդելն է, որը հասնում է բարձր կատարողականության թե՛ գեղագիտական զգացողության, թե՛ կոդի որակի առումով՝ այն դասելով իր սեփական կատեգորիայի մեջ»։

GPT‑5‑ը նաև գերազանց է երկարաժամկետ գործակալական առաջադրանքներում՝ հասնելով SOTA արդյունքների τ2-bench Telecom (96.7%), գործիքակոչման չափանիշ, որը թողարկվել է ընդամենը 2 ամիս առաջ։ GPT‑5‑ի բարելավված գործիքային բանականությունը թույլ է տալիս հուսալիորեն շղթայել տասնյակ գործիքների կանչեր՝ ինչպես հաջորդականությամբ, այնպես էլ զուգահեռաբար՝ առանց կորցնելու իր ուղղությունը, ինչը շատ ավելի լավ է դարձնում բարդ, իրական աշխարհի առաջադրանքների կատարումը ամբողջությամբ։ Այն նաև ավելի ճշգրիտ է հետևում գործիքի հրահանգներին, ավելի լավ է կարգավորում գործիքի սխալները և գերազանց է երկար համատեքստի բովանդակության որոնման գործում։ Manus-ն ասում է, որ GPT‑5‑ը «[իրենց] ներքին չափորոշիչներով հասել է մեկ մոդելից երբևէ տեսած լավագույն արդյունքին»։ Notion-ն ասում է. «[մոդելի] արագ արձագանքները, հատկապես ցածր տրամաբանական մտածողության ռեժիմում, GPT‑5‑ը դարձնում են իդեալական մոդել, երբ անհրաժեշտ է բարդ առաջադրանքներ լուծել մեկ անգամից»։ Inditex-ը կիսվել է, որ «[GPT‑5]‑ը իսկապես առանձնանում է իր դատողության խորությամբ՝ նրբերանգային, բազմաշերտ պատասխաններով, որոնք արտացոլում են թեմայի իրական ըմբռնումը»։

Մենք մեր API-ում ներկայացնում ենք նոր գործառույթներ՝ ծրագրավորողներին մոդելի պատասխանների նկատմամբ ավելի մեծ վերահսկողություն տալու համար։ GPT‑5‑ը աջակցում է շատախոսություն նոր պարամետրին (արժեքներ՝ ցածր, միջին, բարձր)՝ օգնելու վերահսկել, թե արդյոք պատասխանները կարճ և կոնկրետ են, թե երկար և համապարփակ։ GPT‑5‑ի դատողություն_ջանք պարամետրը այժմ կարող է նվազագույն արժեք ստանալ՝ պատասխանները ավելի արագ հետ ստանալու համար՝ առանց նախապես լայնածավալ պատճառաբանության։ Մենք նաև ավելացրել ենք գործիքի նոր տեսակ՝ հատուկ գործիքներ, որպեսզի GPT‑5‑ը կարողանա կանչել գործիքներ պարզ տեքստով՝ JSON-ի փոխարեն։ Հատուկ գործիքները աջակցում են ծրագրավորողի կողմից տրամադրված համատեքստից ազատ քերականությունների սահմանափակմանը։

Մենք թողարկում ենք GPT‑5‑ը API-ում երեք չափսերով՝gpt-5, gpt-5-mini և gpt-5-nano, որպեսզի ծրագրավորողները կարողանան ավելի ճկուն կերպով փոխզիջման գնալ արտադրողականության, արժեքի և հապաղման միջև։ Մինչ GPT‑5‑ը ChatGPT‑ում տրամաբանության, ոչ տրամաբանության և երթուղիչի մոդելների համակարգ է, GPT‑5‑ը API հարթակում տրամաբանական մոդելն է, որը ապահովում է առավելագույն կատարողականություն ChatGPT‑ում։ Հատկանշական է, որ նվազագույն հիմնավորմամբ GPT‑5‑ը տարբերվում է ChatGPT‑ի ոչ հիմնավորման մոդելից և ավելի լավ է հարմարեցված ծրագրավորողների համար։ ChatGPT‑ում օգտագործվող ոչ տրամաբանական մոդելը հասանելի է որպես gpt-5-chat-latest:

ChatGPT‑ում GPT‑5‑ի մասին կարդալու և ChatGPT‑ի այլ բարելավումների մասին ավելին իմանալու համար տես մեր հետազոտական բլոգը։ Ավելի մանրամասն տեղեկությունների համար, թե ինչպես են ձեռնարկությունները ոգևորված GPT‑5‑ի օգտագործմամբ, տե՛ս մեր ձեռնարկության բլոգը։

Կոդավորում

GPT‑5‑ը մեր երբևէ թողարկած ամենաուժեղ կոդավորման մոդելն է։ Այն գերազանցում է o3‑ին կոդավորման չափանիշներով և իրական աշխարհի օգտագործման դեպքերում, և կատարելագործվել է՝ փայլելու գործակալական կոդավորման արտադրանքներում, ինչպիսիք են Cursor-ը, Windsurf-ը, GitHub Copilot-ը և Codex CLI-ը։ GPT‑5‑ը տպավորեց մեր ալֆա թեստավորողներին՝ սահմանելով ռեկորդներ նրանց բազմաթիվ անձնական ներքին գնահատականներում։ 

GPT‑5‑ի վերաբերյալ վաղ կարծիքները իրական աշխարհի կոդավորման առաջադրանքների համար

«GPT-5-ը մեր օգտագործած ամենախելացի կոդավորման մոդելն է։ Մեր թիմը գտել է, որ GPT-5-ը զարմանալիորեն խելացի է, հեշտ է կառավարել, և նույնիսկ ունի այնպիսի անհատականություն, որը մենք չենք տեսել որևէ այլ մոդելում։ Այն ոչ միայն բռնում է բարդ և խորը թաքնված bugs, այլեւ կարող է աշխատեցնել երկար, բազմակողմանի ֆոնային ագենտներ՝ բարդ առաջադրանքները մինչեւ վերջ տեսնելու համար։ Այն դարձել է մեր ամենօրյա շարժիչ ուժը՝ սկսած շրջանակների որոշումից և PR-ների պլանավորումից մինչև ամբողջական վերջնական կառուցվածքների ավարտը։»
Մայքլ Թրուել, Cursor-ի համահիմնադիր և գործադիր տնօրեն

SWE-bench Հաստատված-ում, որը հիմնված է իրական աշխարհի ծրագրային ապահովման ինժեներական առաջադրանքների վրա, GPT‑5‑ը գնահատվում է 74.9%, ինչը գերազանցում է o3‑ի 69.1%-ը։ Հատկանշական է, որ GPT‑5‑ը հասնում է իր բարձր գնահատականին ավելի մեծ արդյունավետությամբ և արագությամբ.

SWE-bench Verified-ում մոդելին տրվում է կոդի պահոց և խնդրի նկարագրություն, և այն պետք է գեներացնի թարմացում՝ խնդիրը լուծելու համար։ Տեքստային պիտակները ցույց են տալիս հիմնավորման ջանքը։ Մեր գնահատականները բաց են թողնում 500 խնդիրներից 23-ը, որոնց լուծումները հուսալիորեն չեն անցել մեր ենթակառուցվածքով։ GPT‑5‑ին տրվեց կարճ հարցում, որը շեշտը դնում էր լուծումների մանրակրկիտ հաստատման վրա. նույն հարցումը o3‑ին օգուտ չտվեց։

Aider polyglot-ում՝ կոդի խմբագրման գնահատման ժամանակ, GPT‑5‑ը սահմանում է 88% նոր ռեկորդ, ինչը սխալների մակարդակը մեկ երրորդով նվազեցնում է o3‑ի համեմատ։

Aider polygot-ի(բացվում է նոր պատուհանում) (տարբերության) դեպքում մոդելին տրվում է կոդավորման վարժություն Exercism-ից և պետք է գրի իր լուծումը որպես կոդի տարբերություն։ Տրամաբանական մոդելները գործարկվել են մեծ տրամաբանական ջանքերով։

Մենք նաև պարզել ենք, որ GPT‑5‑ը հիանալի է կոդային բազաների խորը ուսումնասիրության համար՝ պատասխանելու, թե ինչպես են տարբեր մասերը աշխատում կամ փոխգործակցում։ OpenAI-ի ամրապնդումով ուսուցման փաթեթի նման բարդ կոդային բազայում մենք հայտնաբերում ենք, որ GPT‑5‑ը կարող է օգնել մեզ հիմնավորել և պատասխանել մեր կոդի վերաբերյալ հարցերին՝ արագացնելով մեր առօրյա աշխատանքը։ 

Ճակատային ճարտարագիտություն

Երբ վեբ հավելվածների համար frontend կոդ եք ստեղծում, GPT‑5‑ը ավելի գեղագիտական մտածողություն ունի, ավելի հավակնոտ է և ճշգրիտ։ o3‑ի հետ կողք կողքի համեմատություններում մեր փորձարկողները 70%-ի դեպքերում նախընտրել են GPT‑5‑ը։

Ահա մի քանի զվարճալի, հատուկ ընտրված օրինակներ, թե ինչ կարող է անել GPT‑5‑ը մեկ հարցումով:

Հարցում. Ստեղծիր գեղեցիկ, իրատեսական նպատակային էջ ծառայության համար, որը սուրճի սիրահարներին առաջարկում է $200-ի ամսական բաժանորդագրություն, որը ներառում է սարքավորումների վարձույթ և սուրճը բովելու և իդեալական էսպրեսսո պատրաստելու ուսուցում: Թիրախային լսարանը՝ ծովածոցի տարածաշրջանի միջին տարիքի անձինք են, որոնք կարող են աշխատել տեխնոլոգիական ոլորտում, կրթված են, ունեն բավարար եկամուտ և տարված են սուրճի պատրաստման արվեստով և գիտությամբ։ Օպտիմալացրու փոխակերպումը 6 ամսվա բաժանորդագրման համար։

Տեսեք ավելի շատ օրինակներ GPT‑5‑ի մեր պատկերասրահում այստեղ(բացվում է նոր պատուհանում)։

Կոդավորման համագործակցություն

GPT‑5‑ը ավելի լավ գործընկեր է, հատկապես գործակալական կոդավորման այնպիսի արտադրանքներում, ինչպիսիք են Cursor-ը, Windsurf-ը, GitHub Copilot-ը և Codex CLI-ն։ Մինչ այն աշխատում է, GPT‑5‑ը կարող է կատարել պլանների, թարմացումների և ամփոփումների արտածում գործիքների կանչերի միջև։ Մեր նախորդ մոդելների համեմատ՝ GPT‑5‑ը ավելի նախաձեռնողական է հավակնոտ առաջադրանքներ կատարելու հարցում՝ առանց ձեր թույլտվությունը ստանալու կամ բարձր աստիճանի բարդության դեպքում վախենալու։

Ահա մի օրինակ, թե ինչպես կարող է GPT‑5‑ը երևալ բարդ առաջադրանք կատարելիս (այս դեպքում՝ ռեստորանի համար կայք ստեղծելիս).

Այն բանից հետո, երբ օգտատերը ռեստորանի կայքէջի հարցում կատարի, GPT‑5‑ը կիսվում է արագ պլանով, նախագծում է հավելվածի կառուցվածքը, տեղադրում է կախվածությունները, ստեղծում է կայքի բովանդակությունը, մեկնարկում է կառուցումը՝ ստուգելու կոմպիլյացիայի սխալները, ամփոփում է իր աշխատանքը և առաջարկում հնարավոր հաջորդ քայլերը։ Այս տեսանյութը արագացվել է ~3x, որպեսզի խնայեք ձեր սպասելու ժամանակը. կայքի ստեղծման ամբողջ տևողությունը մոտ երեք րոպե էր։

Գործակալական առաջադրանքներ

Գործակալական կոդավորումից բացի, GPT‑5‑ը ընդհանուր առմամբ ավելի լավ է գործակալական առաջադրանքներում։ GPT‑5‑ը նոր ռեկորդներ է սահմանում հրահանգներին հետևելու (69.6% Scale MultiChallenge-ում, ըստ o3‑mini‑ի գնահատման) և գործիքների կանչման (96.7% τ2-bench telecom-ում) չափանիշներով։ Բարելավված գործիքային բանականությունը թույլ է տալիս GPT‑5‑ին ավելի հուսալիորեն կապել գործողությունները՝ իրական աշխարհի առաջադրանքներ կատարելու համար։

Վաղ կարծիք GPT‑5‑ի վերաբերյալ գործակալական առաջադրանքների համար

«GPT-5-ը մեծ առաջընթաց է։ Այն հասավ լավագույն կատարողականությանը, որը մենք երբեւէ տեսել ենք մեկ մոդելից մեր ներքին չափանիշների վրա: GPT-5-ը գերազանցում էր տարբեր գործակալական առաջադրանքներում՝ նույնիսկ նախքան կոդի մեկ տող փոխելը կամ հարցումը հարմարեցնելը։ Նոր նախաբանները և գործիքների օգտագործման ավելի ճշգրիտ վերահսկողությունը միացրին զգալի առաջընթաց մեր ագենտների կայունության և ղեկավարման մեջ»։
Յիչաո «Պիկ» Ջի, Manus-ի համահիմնադիր և գլխավոր գիտնական

Հրահանգի հետևում

GPT‑5‑ը հրահանգներին հետևում է ավելի հուսալիորեն, քան իր նախորդներից որևէ մեկը՝ COLLIE-ում, Scale MultiChallenge-ում և մեր ներքին հրահանգների հետևման գնահատման ժամանակ բարձր միավորներ ստանալով։

COLLIE(բացվում է նոր պատուհանում)-ում մոդելները պետք է գրեն տեքստ, որը համապատասխանում է տարբեր սահմանափակումների։ Scale MultiChallenge(բացվում է նոր պատուհանում)-ում մոդելներին մարտահրավեր է նետվում բազմակողմանի խոսակցությունների ժամանակ՝ նախորդ հաղորդագրություններից վերցված չորս տեսակի տեղեկատվությունը պատշաճ կերպով օգտագործելու համար։ Մեր միավորները ստացվել են o3‑mini‑ն որպես գնահատիչ օգտագործելուց, որը ավելի ճշգրիտ էր, քան GPT‑4o‑ն։ Մեր ներքին OpenAI API հրահանգների հետևման գնահատման ժամանակ մոդելները պետք է հետևեն բարդ հրահանգներին, որոնք բխում են իրական ծրագրավորողների կարծիքից։ Հիմնավորման մոդելները գործարկվել են բարձր հիմնավորման ջանքերով։

Գործիքի կանչում

Մենք ջանասիրաբար աշխատեցինք բարելավել գործիքների կանչումը այն ձևերով, որոնք կարևոր են ծրագրավորողների համար։ GPT‑5‑ը ավելի լավ է հետևում գործիքների հրահանգներին, ավելի լավ է լուծում գործիքների սխալները և ավելի լավ է նախապես կատարում բազմաթիվ գործիքների կանչեր հաջորդաբար կամ զուգահեռաբար։ Երբ հրահանգվի, GPT‑5‑ը կարող է նաև նախաբանային հաղորդագրություններ արտածում գործիքային կանչերից առաջ և դրանց միջև՝ ավելի երկար գործակալական առաջադրանքների ընթացքում օգտատերերին թարմացնելու համար։

Երկու ամիս առաջ Sierra.ai-ն հրապարակեց τ2-bench telecom-ը՝ որպես գործիքի օգտագործման մարտահրավերային չափանիշ, որը ցույց էր տալիս, թե ինչպես է լեզվի մոդելի արդյունավետությունը զգալիորեն նվազում, երբ այն փոխազդում է օգտատերերի կողմից փոփոխվող միջավայրի վիճակի հետ։ Նրանց հրապարակման(բացվում է նոր պատուհանում) մեջ ոչ մի մոդել չի ստացել 49%-ից բարձր միավոր։ GPT‑5‑ը 97% արդյունք է ցույց տալիս։

τ2-bench(բացվում է նոր պատուհանում) հարթակում մոդելը պետք է օգտագործի գործիքներ հաճախորդների սպասարկման առաջադրանքը կատարելու համար, որտեղ կարող է լինել օգտատեր, ով կարող է շփվել և գործողություններ ձեռնարկել աշխարհի վիճակի վրա։ Տրամաբանական մոդելները գործարկվել են մեծ տրամաբանական ջանքերով։

GPT‑5‑ը ցույց է տալիս նաև երկար համատեքստի կատարողականության ուժեղ բարելավումներ։ OpenAI-MRCR-ում, որը երկար համատեքստային տեղեկատվության ստացման չափանիշ է, GPT‑5‑ը գերազանցում է o3‑ին և GPT‑4.1‑ին՝ առավելությամբ, որը զգալիորեն աճում է ավելի երկար մուտքագրումների դեպքում։

OpenAI-MRCR-ում(բացվում է նոր պատուհանում) (բազմափուլ համատեղ հղումների լուծում), բազմաթիվ նույնական «ասեղ» օգտատերերի հարցումները տեղադրվում են նմանատիպ հարցումների և պատասխանների երկար «խոտի դեզի» մեջ, և մոդելին խնդրում են վերարտադրել i-րդ ասեղի պատասխանը։ Միջին համապատասխանության հարաբերակցությունը չափում է մոդելի պատասխանի և ճիշտ պատասխանի միջև միջին տողի համապատասխանության հարաբերակցությունը։ 256k առավելագույն մուտքային թոքենների միավորները ներկայացնում են միջինը 128k-256k մուտքային թոքենների համար, և այլն։ Այստեղ 256k-ը ներկայացնում է 256 * 1,024 = 262,114 թոքեններ։ Տրամաբանական մոդելները գործարկվել են մեծ տրամաբանական ջանքերով։

Մենք նաև բաց կոդով ենք թողարկում BrowseComp Long Context(բացվում է նոր պատուհանում), որը երկար համատեքստի հարց ու պատասխանի գնահատման նոր չափանիշ է։ Այս չափանիշում մոդելին տրվում է օգտատերի հարցում, համապատասխան որոնման արդյունքների երկար ցուցակ, և այն պետք է պատասխանի հարցին՝ հիմնվելով որոնման արդյունքների վրա։ Մենք մշակել ենք BrowseComp Long Համատեքստ-ը այնպես, որ այն լինի իրատեսական, դժվար և ունենա հուսալիորեն ճիշտ հիմք ունեցող պատասխաններ։ 128K–256K թոքեններ ունեցող մուտքագրումների դեպքում GPT‑5‑ը ճիշտ պատասխան է տալիս 89% դեպքերում։

API-ում GPT‑5 բոլոր մոդելները կարող են ընդունել առավելագույնը 272,000 մուտքային թոքեններ և թողարկել առավելագույնը 128,000 տրամաբանական և արտածման թոքեններ՝ 400,000 թոքենների համատեքստի ընդհանուր երկարությամբ։

Փաստացիություն

GPT‑5‑ը ավելի վստահելի է, քան մեր նախորդ մոդելները: LongFact և FactScore հենանիշների հարցումներում, GPT‑5‑ը ~80% -ով ավելի քիչ փաստական սխալներ է թույլ տալիս, քան o3‑ը: Դա այն ավելի հարմար է դարձնում գործակալական օգտագործման դեպքերի համար, որտեղ ճշգրտությունը կարևոր է, հատկապես կոդի, տվյալների և որոշումների կայացման մեջ։

Ավելի բարձր գնահատականներն ավելի վատն են։ LongFact-ը(բացվում է նոր պատուհանում) և FActScore-ը(բացվում է նոր պատուհանում) բաղկացած են բաց փաստեր որոնող հարցերից։ Մենք օգտագործում ենք LLM-ի վրա հիմնված գնահատիչ՝ զննարկման հնարավորությամբ, որպեսզի ստուգենք այս չափանիշներից ստացված հարցումների պատասխանները և չափենք փաստացի սխալ պնդումների բաժինը։ Կիրառման և գնահատման մանրամասները կարող եք գտնել համակարգային քարտում։ Տրամաբանական մոդելները մեծ պատճառաբանական ջանքեր էին գործադրում։ Որոնումը միացված չէր:

Ընդհանուր առմամբ, GPT‑5‑ը վարժեցվել է իր սահմանափակումների նկատմամբ ավելի ինքնագիտակից լինելու և անսպասելի դժվարություններն ավելի լավ հաղթահարելու համար։ Մենք նաև վարժեցրինք GPT‑5‑ը, որպեսզի այն ավելի ճշգրիտ լինի առողջության հետ կապված հարցերի վերաբերյալ (կարդացեք ավելին մեր հետազոտական բլոգում): Ինչպես բոլոր լեզվի մոդելների դեպքում, խորհուրդ ենք տալիս հաստատել GPT‑5‑ի աշխատանքը, երբ վտանգը մեծ է։

Նոր գործառույթներ

Նվազագույն հիմնավորման ջանք

Ծրագրավորողները կարող են վերահսկել GPT‑5‑ի մտածելու ժամանակը API-ի հիմնավորում_ջանք պարամետրի միջոցով։ Բացի նախորդ արժեքներից՝ցածր, միջին (կանխադրված), և բարձր—GPT‑5‑ը նաև աջակցում է նվազագույնին, որը նվազեցնում է GPT‑5‑ի հիմնավորումը՝ պատասխանը արագ տրամադրելու համար։

Ավելի բարձր հիմնավորում_ջանք արժեքները առավելագույնի են հասցնում որակը, իսկ ավելի ցածր արժեքները՝ արագությունը։ Ոչ բոլոր առաջադրանքները հավասարապես օգուտ են ստանում լրացուցիչ պատճառաբանությունից, ուստի խորհուրդ ենք տալիս փորձարկել՝ տեսնելու, թե որն է լավագույնը ձեզ հետաքրքրող օգտագործման դեպքերի համար։

Օրինակ, ցածր մակարդակից բարձր տրամաբանությունը քիչ է ավելացնում համեմատաբար պարզ երկար համատեքստի վերականգնմանը, բայց ավելացնում է բավականին մի քանի տոկոսային կետեր CharXiv Հիմնավորումին(բացվում է նոր պատուհանում), որը վիզուալ տրամաբանության չափանիշ է։

GPT‑5‑ի տրամաբանական ջանքերը տարբեր առաջադրանքների վրա տարբեր օգուտներ են տալիս։ CharXiv Հիմնավորման համար GPT‑5‑ին տրամադրվել է հասանելիություն python գործիքին։

Շատախոսություն

GPT‑5‑ի պատասխանների կանխադրված երկարությունը ուղղորդելու համար մենք ներկայացրել ենք API-ի նոր պարամետր՝ շատախոսություն, որը կարող է ընդունել ցածր, միջին (կանխադրված) և բարձր արժեքներ։ Եթե հստակ հրահանգները հակասում են մանրամասնության պարամետրերին, ապա հստակ հրահանգները գերակշռում են։ Օրինակ, եթե Դուք խնդրեք GPT‑5‑ին «գրել 5 պարբերության շարադրություն», մոդելի պատասխանը միշտ պետք է լինի 5 պարբերություն՝ անկախ խոսքի ծավալի մակարդակից (այնուամենայնիվ, պարբերությունները կարող են ավելի երկար կամ կարճ լինել)։

Շատախոսություն=ցածր

Why is the sky blue?

Because of Rayleigh scattering. Air molecules are much smaller than the wavelength of visible light, so they scatter short wavelengths (blue/violet) far more than long ones (red). The scattered blue light comes to your eyes from all directions, making the sky look blue. We don’t see violet as much because the Sun emits less of it, our eyes are less sensitive to it, and some is absorbed in the upper atmosphere. At sunrise and sunset, the longer path through air removes more blue, leaving the sky reddish.

Շատախոսություն=միջին

Why is the sky blue?

Because of Rayleigh scattering. Sunlight contains all colors, but air molecules scatter shorter wavelengths (blue/violet) much more strongly than longer wavelengths (red). The scattering strength goes roughly as 1/(wavelength)^4, so blue light gets redirected across the sky and into your eyes.

We don’t see a violet sky because:

  • The Sun emits slightly less violet than blue.
  • The upper atmosphere absorbs some violet/UV.
  • Human eyes are less sensitive to violet.

At sunrise and sunset, sunlight passes through more atmosphere, scattering out most of the blues along the way and leaving the longer red/orange wavelengths to dominate.

Շատախոսություն=բարձր

Why is the sky blue?

The sky looks blue because sunlight gets scattered by the tiny molecules in Earth’s atmosphere. This process is called Rayleigh scattering.

Key points:

  • Sunlight is made of many colors (wavelengths). Shorter wavelengths, like violet and blue, are scattered much more strongly by air molecules than longer wavelengths like red. The scattering strength increases sharply as wavelength gets shorter.
  • As sunlight passes through the atmosphere, the shorter-wavelength light (especially blue) is scattered in all directions, so no matter where you look away from the Sun, you see that scattered blue light — the “blue sky.”

Why not violet?

  • The Sun emits less violet than blue.
  • Our eyes are less sensitive to violet.
  • Some violet/UV is absorbed higher up by ozone.

Together, that makes the scattered light we perceive look mainly blue.

Why are sunsets red/orange?

  • Near sunrise and sunset, sunlight travels a much longer path through the atmosphere.
  • Much of the blue light gets scattered out of the direct path before it reaches your eyes, leaving the remaining direct sunlight enriched in reds and oranges.

Other influences:

  • Haze, pollution, smoke, or dust have larger particles that scatter light less selectively (called Mie scattering), making the sky look paler or whitish.
  • The blue sky is partially polarized due to the scattering geometry, which is why polarized sunglasses can darken parts of it.
  • On worlds with different atmospheres and particle sizes (like Mars), skies can look butterscotch or reddish for similar scattering reasons.

If Earth had no atmosphere, there would be nothing to scatter sunlight, and the sky would appear black even in daytime, with the Sun as a bright disk.

Նախաբանային հաղորդագրություններ գործիքի կանչերից առաջ

Եթե հրահանգվի, GPT‑5‑ը գործիքի կանչերից առաջ և դրանց միջև օգտատիրոջ համար տեսանելի նախաբանային հաղորդագրություններ կարտածի։ Ի տարբերություն թաքնված տրամաբանական հաղորդագրությունների՝ այս տեսանելի հաղորդագրությունները թույլ են տալիս GPT‑5‑ին հաղորդել պլաններն ու առաջընթացը օգտատերերին՝ օգնելով վերջնական օգտատերերին հասկանալ գործիքի կանչերի ետևում կանգնած իր մոտեցումն ու մտադրությունը։

Հատուկ գործիքներ

Մենք ներկայացնում ենք գործիքի նոր տեսակ՝ հատուկ գործիքներ, որը թույլ է տալիս GPT‑5‑ին կանչել գործիք՝ օգտագործելով պարզ տեքստ՝ JSON-ի փոխարեն։ GPT‑5‑ը հատուկ գործիքների ձևաչափերին հետևելու համար ծրագրավորողները կարող են տրամադրել կանոնավոր արտահայտություն կամ նույնիսկ ավելի մանրամասն սահմանված համատեքստից զերծ քերականություն(բացվում է նոր պատուհանում)։

Նախկինում մեր ծրագրավորողի կողմից սահմանված գործիքների ինտերֆեյսը պահանջում էր, որ դրանք կանչվեն JSON ձևաչափով, որը վեբ API-ների և ընդհանրապես ծրագրավորողների կողմից օգտագործվող տարածված ձևաչափ է։ Այնուամենայնիվ, վավեր JSON արտածում իրականացնելու համար մոդելը պետք է կատարյալ կերպով փախցնի բոլոր չակերտները, հակադարձ թեք գծերը, նոր տողերը և այլ կառավարման նիշերը։ Չնայած մեր մոդելները լավ վարժեցրած են JSON-ի արտածման համար, երկար մուտքագրումների դեպքում, ինչպիսիք են հարյուրավոր տողեր կոդը կամ 5 էջանոց զեկույցը, սխալի հավանականությունը մեծանում է։ Հատուկ գործիքների միջոցով GPT‑5‑ը կարող է գործիքի մուտքագրված տվյալները գրել որպես պարզ տեքստ՝ առանց բոլոր այն նիշերը փախցնելու անհրաժեշտության։

SWE-bench-ը հաստատվել է հատուկ գործիքներով՝ JSON գործիքների փոխարեն, և GPT‑5‑ը մոտավորապես նույնն է գնահատվում։

Անվտանգություն

GPT‑5‑ն առաջ է մղում անվտանգության սահմանները և ավելի կայուն, հուսալի և օգտակար մոդել է։ GPT‑5‑ը զգալիորեն ավելի քիչ հակված է հալյուցինացիաներին, քան մեր նախորդ մոդելները, ավելի ազնիվ հաղորդում է իր գործողություններն ու հնարավորությունները օգտատերի և հնարավորության դեպքում տալիս է ամենաօգտակար պատասխանը՝ միևնույն ժամանակ մնալով անվտանգության սահմաններում։ Դուք կարող եք ավելին կարդալ մեր հետազոտական բլոգում։

Հասանելիություն և գներ

GPT‑5‑ն այժմ հասանելի է API հարթակում երեք չափսերով՝ gpt-5, gpt-5-mini, և gpt-5-nano: Այն հասանելի է Պատասխանների API-ում, զրույցների ավարտման API-ում և Codex CLI-ում կանխադրված է։ GPT‑5‑ի գինը կազմում է $1.25/1M մուտքային թոքեն և $10/1M արտածման թոքեն, GPT‑5 mini-ն արժե $0.25/1M մուտքային թոքեն և $2/1M արտածման թոքեն, իսկ GPT‑5 nano-ն արժե $0.05/1M մուտքային թոքեն և $0.40/1M արտածման թոքեն։

Այս մոդելները աջակցում են հիմնավորում_ջանք և շատախոսություն API պարամետրերին, ինչպես նաև հատուկ գործիքներին։ Նրանք նաև աջակցում են զուգահեռ գործիքների կանչմանը, ներկառուցված գործիքներին (վեբ որոնում, ֆայլերի որոնում, պատկերների գեներացում և այլն), API-ի հիմնական առանձնահատկություններին (հոսք, կառուցվածքային արտածումներ և այլն) և ծախսերի խնայողության առանձնահատկություններին, ինչպիսիք են հարցման քեշավորումը և Batch API-ն։

ChatGPT‑ում օգտագործվող GPT‑5‑ի ոչ հիմնավոր տարբերակը հասանելի է API-ում որպես gpt-5-chat-latest, որի գինը նույնպես կազմում է $1.25/1 միլիոն մուտքային թոքեններ և $10/1 միլիոն արտածման թոքեններ։

GPT‑5‑ը նաև գործարկվում է Microsoft-ի հարթակներում, ներառյալ Microsoft 365 Copilot-ը, Copilot, GitHub Copilot-ը և Azure AI Foundry-ն:

Մանրամասն հենանիշներ

Բանականություն
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
AIME ’25(no tools)94,6%91,1%85,2%88,9%92,7%46,4%40,2%-
FrontierMath(with python tool only)26,3%22,1%9,6%15,8%15,4%---
GPQA diamond(no tools)85,7%82,3%71,2%83,3%81,4%66,3%65,0%50,3%
HLE[1](no tools)24,8%16,7%8,7%20,2%14,7%5,4%3,7%-
HMMT 2025(no tools)93,3%87,8%75,6%81,7%85,0%28,9%35,0%-

[1] Մեր նախորդ բլոգային գրառման մեջ նշված թվերի հետ մի փոքր անհամապատասխանություն կա, քանի որ դրանք հաշվարկվել են HLE-ի նախորդ տարբերակի վրա։

Մուլտիմոդալ
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
MMMU84,2%81,6%75,6%82,9%81,6%74,8%72,7%55,4%
MMMU-Pro(avg across standard and vision sets)78,4%74,1%62,6%76,4%73,4%60,3%58,9%33,0%
CharXiv reasoning(python enabled)81,1%75,5%62,7%78,6%72,0%56,7%56,8%40,5%
VideoMMMU, max frame 25684,6%82,5%66,8%83,3%79,4%60,9%55,1%30,2%
ERQA65,7%62,9%50,1%64,0%56,5%44,3%42,3%26,5%
Կոդավորում
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
SWE-Lancer: IC SWE Diamond Freelance Coding Tasks112 հզր $75 հզր $49 հզր $86 հզր $66 հզր $34 հզր $31 հզր $9 հզր $
SWE-bench Verified[2]74,9%71,0%54,7%69,1%68,1%54,6%23,6%-
Aider polyglot(diff)88,0%71,6%48,4%79,6%58,2%52,9%31,6%6,2%

[2] Մենք բաց ենք թողել 500-ից 23 խնդիր, որոնք չէին կարող աշխատել մեր ենթակառուցվածքի վրա։ Բաց թողնված 23 առաջադրանքների ամբողջական ցանկն է. 'astropy__astropy-7606', 'astropy__astropy-8707', 'astropy__astropy-8872', 'django__django-10097', 'django__django-7530', 'matplotlib__matplotlib-20488', 'matplotlib__matplotlib-20676', 'matplotlib__matplotlib-20826', 'matplotlib__matplotlib-23299', 'matplotlib__matplotlib-24970', 'matplotlib__matplotlib-25479', 'matplotlib__matplotlib-26342', 'psf__requests-6028', 'pylint-dev__pylint-6528', 'pylint-dev__pylint-7080', 'pylint-dev__pylint-7277', 'pytest-dev__pytest-5262', 'pytest-dev__pytest-7521', 'scikit-learn__scikit-learn-12973', 'sphinx-doc__sphinx-10466', 'sphinx-doc__sphinx-7462', 'sphinx-doc__sphinx-8265', և 'sphinx-doc__sphinx-9367'։

Հրահանգի հետևում
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
Scale multichallenge[3](o3-mini grader)69,6%62,3%54,9%60,4%57,5%46,2%42,2%31,1%
Internal API instruction following eval(hard)64,0%65,8%56,1%47,4%44,7%49,1%45,1%31,6%
COLLIE99,0%98,5%96,9%98,4%96,1%65,8%54,6%42,5%

[3] Նշում. մենք գտնում ենք, որ MultiChallenge-ում (GPT-4o) կանխադրված գնահատողը հաճախ սխալ է գնահատում մոդելի պատասխանները։ Մենք գտնում ենք, որ գնահատողը տրամաբանական մոդելի, ինչպիսին է o3-mini-ը, փոխանակումը զգալիորեն բարելավում է գնահատման ճշգրտությունը մեր ստուգած նմուշների վրա։

Ֆունկցիայի կանչ
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
Tau2-bench airline62,6%60,0%41,0%64,8%60,2%56,0%51,0%14,0%
Tau2-bench retail81,1%78,3%62,3%80,2%70,5%74,0%66,0%21,5%
Tau2-bench telecom96,7%74,1%35,5%58,2%40,5%34,0%44,0%12,1%
Երկար համատեքստ
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
OpenAI-MRCR: 2 needle 128k95,2%84,3%43,2%55,0%56,4%57,2%47,2%36,6%
OpenAI-MRCR: 2 needle 256k86,8%58,8%34,9%--56,2%45,5%22,6%
Graphwalks bfs <128k78,3%73,4%64,0%77,3%62,3%61,7%61,7%25,0%
Graphwalks parents <128k73,3%64,3%43,8%72,9%51,1%58,0%60,5%9,4%
BrowseComp Long Context 128k90,0%89,4%80,4%88,3%80,0%85,9%89,0%89,4%
BrowseComp Long Context 256k88,8%86,0%68,4%--75,5%81,6%19,1%
VideoMME(long, with subtitle category)86,7%78,5%65,7%84,9%79,5%78,7%68,4%55,2%
Հալյուցինացիաներ
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
LongFact-Concepts hallucination rate(no tools)[lower is better]1,0%0,7%1,0%5,2%3,0%0,7%1,1%-
LongFact-Objects hallucination rate(no tools)[lower is better]1,2%1,3%2,8%6,8%8,9%1,1%1,8%-
FActScore hallucination rate(no tools)[lower is better]2,8%3,5%7,3%23,5%38,7%6,7%10,9%-

Հեղինակ

OpenAI