Ներկայացնում ենք GPT‑5‑ը ծրագրավորողների համար
Լավագույն մոդելը կոդավորման և գործակալական առաջադրանքների համար։
Այսօր մենք թողարկում ենք GPT‑5‑ը մեր API հարթակում՝ կոդավորման և գործակալական առաջադրանքների համար մեր լավագույն մոդելը մինչ օրս։
GPT‑5‑ը կոդավորման հիմնական չափանիշներով առաջատարն է (SOTA), ստանալով SWE-bench Հաստատվածում 74.9% և Aider polyglot-ում՝ 88%։ Մենք GPT‑5‑ին վարժեցրինք որպես իսկական ծրագրավորող համագործակցող։ Այն գերազանց է բարձրորակ կոդ ստեղծելու և այնպիսի առաջադրանքներ կատարելու մեջ, ինչպիսիք են սխալների շտկումը, կոդի խմբագրումը և բարդ կոդային բազաների վերաբերյալ հարցերին պատասխանելը։ Մոդելը կառավարելի է և համագործակցային. այն կարող է հետևել շատ մանրամասն հրահանգներին բարձր ճշգրտությամբ և կարող է նախապես բացատրություններ տալ իր գործողությունների վերաբերյալ՝ գործիքի կանչերից առաջ և դրանց միջև ընկած ժամանակահատվածում։ Մոդելը նաև գերազանց է առջևի մասի կոդավորման մեջ՝ ներքին թեստավորման ժամանակ 70%-ով գերազանցելով OpenAI o3‑ին առջևի մասի վեբ մշակման 70%-ի դեպքում։
Մենք վարժեցրինք GPT‑5‑ին իրական աշխարհի կոդավորման առաջադրանքների վրա՝ համագործակցելով ստարտափների և ձեռնարկությունների վաղ փորձարկողների հետ։ Cursor-ն ասում է, որ GPT‑5‑ը «ամենախելացի մոդելն է, որը նրանք օգտագործել են» և «զարմանալիորեն խելացի, հեշտ ղեկավարվող և նույնիսկ ունի անհատականություն, որը նրանք չեն տեսել այլ մոդելներում»։ Windsurf-ը հայտնել է, որ GPT‑5‑ը SOTA է իրենց գնահատումներում և «ունի գործիք կանչելու սխալի մակարդակը երկու անգամ ավելի ցածր, քան մյուս առաջատար մոդելները»։ Vercel-ն ասում է. «Սա լավագույն frontend AI մոդելն է, որը հասնում է բարձր կատարողականության թե՛ գեղագիտական զգացողության, թե՛ կոդի որակի առումով՝ այն դասելով իր սեփական կատեգորիայի մեջ»։
GPT‑5‑ը նաև գերազանց է երկարաժամկետ գործակալական առաջադրանքներում՝ հասնելով SOTA արդյունքների τ2-bench Telecom (96.7%), գործիքակոչման չափանիշ, որը թողարկվել է ընդամենը 2 ամիս առաջ։ GPT‑5‑ի բարելավված գործիքային բանականությունը թույլ է տալիս հուսալիորեն շղթայել տասնյակ գործիքների կանչեր՝ ինչպես հաջորդականությամբ, այնպես էլ զուգահեռաբար՝ առանց կորցնելու իր ուղղությունը, ինչը շատ ավելի լավ է դարձնում բարդ, իրական աշխարհի առաջադրանքների կատարումը ամբողջությամբ։ Այն նաև ավելի ճշգրիտ է հետևում գործիքի հրահանգներին, ավելի լավ է կարգավորում գործիքի սխալները և գերազանց է երկար համատեքստի բովանդակության որոնման գործում։ Manus-ն ասում է, որ GPT‑5‑ը «[իրենց] ներքին չափորոշիչներով հասել է մեկ մոդելից երբևէ տեսած լավագույն արդյունքին»։ Notion-ն ասում է. «[մոդելի] արագ արձագանքները, հատկապես ցածր տրամաբանական մտածողության ռեժիմում, GPT‑5‑ը դարձնում են իդեալական մոդել, երբ անհրաժեշտ է բարդ առաջադրանքներ լուծել մեկ անգամից»։ Inditex-ը կիսվել է, որ «[GPT‑5]‑ը իսկապես առանձնանում է իր դատողության խորությամբ՝ նրբերանգային, բազմաշերտ պատասխաններով, որոնք արտացոլում են թեմայի իրական ըմբռնումը»։
Մենք մեր API-ում ներկայացնում ենք նոր գործառույթներ՝ ծրագրավորողներին մոդելի պատասխանների նկատմամբ ավելի մեծ վերահսկողություն տալու համար։ GPT‑5‑ը աջակցում է շատախոսություն նոր պարամետրին (արժեքներ՝ ցածր, միջին, բարձր)՝ օգնելու վերահսկել, թե արդյոք պատասխանները կարճ և կոնկրետ են, թե երկար և համապարփակ։ GPT‑5‑ի դատողություն_ջանք պարամետրը այժմ կարող է նվազագույն արժեք ստանալ՝ պատասխանները ավելի արագ հետ ստանալու համար՝ առանց նախապես լայնածավալ պատճառաբանության։ Մենք նաև ավելացրել ենք գործիքի նոր տեսակ՝ հատուկ գործիքներ, որպեսզի GPT‑5‑ը կարողանա կանչել գործիքներ պարզ տեքստով՝ JSON-ի փոխարեն։ Հատուկ գործիքները աջակցում են ծրագրավորողի կողմից տրամադրված համատեքստից ազատ քերականությունների սահմանափակմանը։
Մենք թողարկում ենք GPT‑5‑ը API-ում երեք չափսերով՝gpt-5, gpt-5-mini և gpt-5-nano, որպեսզի ծրագրավորողները կարողանան ավելի ճկուն կերպով փոխզիջման գնալ արտադրողականության, արժեքի և հապաղման միջև։ Մինչ GPT‑5‑ը ChatGPT‑ում տրամաբանության, ոչ տրամաբանության և երթուղիչի մոդելների համակարգ է, GPT‑5‑ը API հարթակում տրամաբանական մոդելն է, որը ապահովում է առավելագույն կատարողականություն ChatGPT‑ում։ Հատկանշական է, որ նվազագույն հիմնավորմամբ GPT‑5‑ը տարբերվում է ChatGPT‑ի ոչ հիմնավորման մոդելից և ավելի լավ է հարմարեցված ծրագրավորողների համար։ ChatGPT‑ում օգտագործվող ոչ տրամաբանական մոդելը հասանելի է որպես gpt-5-chat-latest:
ChatGPT‑ում GPT‑5‑ի մասին կարդալու և ChatGPT‑ի այլ բարելավումների մասին ավելին իմանալու համար տես մեր հետազոտական բլոգը։ Ավելի մանրամասն տեղեկությունների համար, թե ինչպես են ձեռնարկությունները ոգևորված GPT‑5‑ի օգտագործմամբ, տե՛ս մեր ձեռնարկության բլոգը։
GPT‑5‑ը մեր երբևէ թողարկած ամենաուժեղ կոդավորման մոդելն է։ Այն գերազանցում է o3‑ին կոդավորման չափանիշներով և իրական աշխարհի օգտագործման դեպքերում, և կատարելագործվել է՝ փայլելու գործակալական կոդավորման արտադրանքներում, ինչպիսիք են Cursor-ը, Windsurf-ը, GitHub Copilot-ը և Codex CLI-ը։ GPT‑5‑ը տպավորեց մեր ալֆա թեստավորողներին՝ սահմանելով ռեկորդներ նրանց բազմաթիվ անձնական ներքին գնահատականներում։
GPT‑5‑ի վերաբերյալ վաղ կարծիքները իրական աշխարհի կոդավորման առաջադրանքների համար
«GPT-5-ը մեր օգտագործած ամենախելացի կոդավորման մոդելն է։ Մեր թիմը գտել է, որ GPT-5-ը զարմանալիորեն խելացի է, հեշտ է կառավարել, և նույնիսկ ունի այնպիսի անհատականություն, որը մենք չենք տեսել որևէ այլ մոդելում։ Այն ոչ միայն բռնում է բարդ և խորը թաքնված bugs, այլեւ կարող է աշխատեցնել երկար, բազմակողմանի ֆոնային ագենտներ՝ բարդ առաջադրանքները մինչեւ վերջ տեսնելու համար։ Այն դարձել է մեր ամենօրյա շարժիչ ուժը՝ սկսած շրջանակների որոշումից և PR-ների պլանավորումից մինչև ամբողջական վերջնական կառուցվածքների ավարտը։»
SWE-bench Հաստատված-ում, որը հիմնված է իրական աշխարհի ծրագրային ապահովման ինժեներական առաջադրանքների վրա, GPT‑5‑ը գնահատվում է 74.9%, ինչը գերազանցում է o3‑ի 69.1%-ը։ Հատկանշական է, որ GPT‑5‑ը հասնում է իր բարձր գնահատականին ավելի մեծ արդյունավետությամբ և արագությամբ.
SWE-bench Verified-ում մոդելին տրվում է կոդի պահոց և խնդրի նկարագրություն, և այն պետք է գեներացնի թարմացում՝ խնդիրը լուծելու համար։ Տեքստային պիտակները ցույց են տալիս հիմնավորման ջանքը։ Մեր գնահատականները բաց են թողնում 500 խնդիրներից 23-ը, որոնց լուծումները հուսալիորեն չեն անցել մեր ենթակառուցվածքով։ GPT‑5‑ին տրվեց կարճ հարցում, որը շեշտը դնում էր լուծումների մանրակրկիտ հաստատման վրա. նույն հարցումը o3‑ին օգուտ չտվեց։
Aider polyglot-ում՝ կոդի խմբագրման գնահատման ժամանակ, GPT‑5‑ը սահմանում է 88% նոր ռեկորդ, ինչը սխալների մակարդակը մեկ երրորդով նվազեցնում է o3‑ի համեմատ։
Aider polygot-ի(բացվում է նոր պատուհանում) (տարբերության) դեպքում մոդելին տրվում է կոդավորման վարժություն Exercism-ից և պետք է գրի իր լուծումը որպես կոդի տարբերություն։ Տրամաբանական մոդելները գործարկվել են մեծ տրամաբանական ջանքերով։
Մենք նաև պարզել ենք, որ GPT‑5‑ը հիանալի է կոդային բազաների խորը ուսումնասիրության համար՝ պատասխանելու, թե ինչպես են տարբեր մասերը աշխատում կամ փոխգործակցում։ OpenAI-ի ամրապնդումով ուսուցման փաթեթի նման բարդ կոդային բազայում մենք հայտնաբերում ենք, որ GPT‑5‑ը կարող է օգնել մեզ հիմնավորել և պատասխանել մեր կոդի վերաբերյալ հարցերին՝ արագացնելով մեր առօրյա աշխատանքը։
Երբ վեբ հավելվածների համար frontend կոդ եք ստեղծում, GPT‑5‑ը ավելի գեղագիտական մտածողություն ունի, ավելի հավակնոտ է և ճշգրիտ։ o3‑ի հետ կողք կողքի համեմատություններում մեր փորձարկողները 70%-ի դեպքերում նախընտրել են GPT‑5‑ը։
Ահա մի քանի զվարճալի, հատուկ ընտրված օրինակներ, թե ինչ կարող է անել GPT‑5‑ը մեկ հարցումով:
Հարցում. Ստեղծիր գեղեցիկ, իրատեսական նպատակային էջ ծառայության համար, որը սուրճի սիրահարներին առաջարկում է $200-ի ամսական բաժանորդագրություն, որը ներառում է սարքավորումների վարձույթ և սուրճը բովելու և իդեալական էսպրեսսո պատրաստելու ուսուցում: Թիրախային լսարանը՝ ծովածոցի տարածաշրջանի միջին տարիքի անձինք են, որոնք կարող են աշխատել տեխնոլոգիական ոլորտում, կրթված են, ունեն բավարար եկամուտ և տարված են սուրճի պատրաստման արվեստով և գիտությամբ։ Օպտիմալացրու փոխակերպումը 6 ամսվա բաժանորդագրման համար։
Տեսեք ավելի շատ օրինակներ GPT‑5‑ի մեր պատկերասրահում այստեղ(բացվում է նոր պատուհանում)։
GPT‑5‑ը ավելի լավ գործընկեր է, հատկապես գործակալական կոդավորման այնպիսի արտադրանքներում, ինչպիսիք են Cursor-ը, Windsurf-ը, GitHub Copilot-ը և Codex CLI-ն։ Մինչ այն աշխատում է, GPT‑5‑ը կարող է կատարել պլանների, թարմացումների և ամփոփումների արտածում գործիքների կանչերի միջև։ Մեր նախորդ մոդելների համեմատ՝ GPT‑5‑ը ավելի նախաձեռնողական է հավակնոտ առաջադրանքներ կատարելու հարցում՝ առանց ձեր թույլտվությունը ստանալու կամ բարձր աստիճանի բարդության դեպքում վախենալու։
Ահա մի օրինակ, թե ինչպես կարող է GPT‑5‑ը երևալ բարդ առաջադրանք կատարելիս (այս դեպքում՝ ռեստորանի համար կայք ստեղծելիս).
Այն բանից հետո, երբ օգտատերը ռեստորանի կայքէջի հարցում կատարի, GPT‑5‑ը կիսվում է արագ պլանով, նախագծում է հավելվածի կառուցվածքը, տեղադրում է կախվածությունները, ստեղծում է կայքի բովանդակությունը, մեկնարկում է կառուցումը՝ ստուգելու կոմպիլյացիայի սխալները, ամփոփում է իր աշխատանքը և առաջարկում հնարավոր հաջորդ քայլերը։ Այս տեսանյութը արագացվել է ~3x, որպեսզի խնայեք ձեր սպասելու ժամանակը. կայքի ստեղծման ամբողջ տևողությունը մոտ երեք րոպե էր։
Գործակալական կոդավորումից բացի, GPT‑5‑ը ընդհանուր առմամբ ավելի լավ է գործակալական առաջադրանքներում։ GPT‑5‑ը նոր ռեկորդներ է սահմանում հրահանգներին հետևելու (69.6% Scale MultiChallenge-ում, ըստ o3‑mini‑ի գնահատման) և գործիքների կանչման (96.7% τ2-bench telecom-ում) չափանիշներով։ Բարելավված գործիքային բանականությունը թույլ է տալիս GPT‑5‑ին ավելի հուսալիորեն կապել գործողությունները՝ իրական աշխարհի առաջադրանքներ կատարելու համար։
Վաղ կարծիք GPT‑5‑ի վերաբերյալ գործակալական առաջադրանքների համար
«GPT-5-ը մեծ առաջընթաց է։ Այն հասավ լավագույն կատարողականությանը, որը մենք երբեւէ տեսել ենք մեկ մոդելից մեր ներքին չափանիշների վրա: GPT-5-ը գերազանցում էր տարբեր գործակալական առաջադրանքներում՝ նույնիսկ նախքան կոդի մեկ տող փոխելը կամ հարցումը հարմարեցնելը։ Նոր նախաբանները և գործիքների օգտագործման ավելի ճշգրիտ վերահսկողությունը միացրին զգալի առաջընթաց մեր ագենտների կայունության և ղեկավարման մեջ»։
GPT‑5‑ը հրահանգներին հետևում է ավելի հուսալիորեն, քան իր նախորդներից որևէ մեկը՝ COLLIE-ում, Scale MultiChallenge-ում և մեր ներքին հրահանգների հետևման գնահատման ժամանակ բարձր միավորներ ստանալով։
COLLIE(բացվում է նոր պատուհանում)-ում մոդելները պետք է գրեն տեքստ, որը համապատասխանում է տարբեր սահմանափակումների։ Scale MultiChallenge(բացվում է նոր պատուհանում)-ում մոդելներին մարտահրավեր է նետվում բազմակողմանի խոսակցությունների ժամանակ՝ նախորդ հաղորդագրություններից վերցված չորս տեսակի տեղեկատվությունը պատշաճ կերպով օգտագործելու համար։ Մեր միավորները ստացվել են o3‑mini‑ն որպես գնահատիչ օգտագործելուց, որը ավելի ճշգրիտ էր, քան GPT‑4o‑ն։ Մեր ներքին OpenAI API հրահանգների հետևման գնահատման ժամանակ մոդելները պետք է հետևեն բարդ հրահանգներին, որոնք բխում են իրական ծրագրավորողների կարծիքից։ Հիմնավորման մոդելները գործարկվել են բարձր հիմնավորման ջանքերով։
Մենք ջանասիրաբար աշխատեցինք բարելավել գործիքների կանչումը այն ձևերով, որոնք կարևոր են ծրագրավորողների համար։ GPT‑5‑ը ավելի լավ է հետևում գործիքների հրահանգներին, ավելի լավ է լուծում գործիքների սխալները և ավելի լավ է նախապես կատարում բազմաթիվ գործիքների կանչեր հաջորդաբար կամ զուգահեռաբար։ Երբ հրահանգվի, GPT‑5‑ը կարող է նաև նախաբանային հաղորդագրություններ արտածում գործիքային կանչերից առաջ և դրանց միջև՝ ավելի երկար գործակալական առաջադրանքների ընթացքում օգտատերերին թարմացնելու համար։
Երկու ամիս առաջ Sierra.ai-ն հրապարակեց τ2-bench telecom-ը՝ որպես գործիքի օգտագործման մարտահրավերային չափանիշ, որը ցույց էր տալիս, թե ինչպես է լեզվի մոդելի արդյունավետությունը զգալիորեն նվազում, երբ այն փոխազդում է օգտատերերի կողմից փոփոխվող միջավայրի վիճակի հետ։ Նրանց հրապարակման(բացվում է նոր պատուհանում) մեջ ոչ մի մոդել չի ստացել 49%-ից բարձր միավոր։ GPT‑5‑ը 97% արդյունք է ցույց տալիս։
τ2-bench(բացվում է նոր պատուհանում) հարթակում մոդելը պետք է օգտագործի գործիքներ հաճախորդների սպասարկման առաջադրանքը կատարելու համար, որտեղ կարող է լինել օգտատեր, ով կարող է շփվել և գործողություններ ձեռնարկել աշխարհի վիճակի վրա։ Տրամաբանական մոդելները գործարկվել են մեծ տրամաբանական ջանքերով։
GPT‑5‑ը ցույց է տալիս նաև երկար համատեքստի կատարողականության ուժեղ բարելավումներ։ OpenAI-MRCR-ում, որը երկար համատեքստային տեղեկատվության ստացման չափանիշ է, GPT‑5‑ը գերազանցում է o3‑ին և GPT‑4.1‑ին՝ առավելությամբ, որը զգալիորեն աճում է ավելի երկար մուտքագրումների դեպքում։
OpenAI-MRCR-ում(բացվում է նոր պատուհանում) (բազմափուլ համատեղ հղումների լուծում), բազմաթիվ նույնական «ասեղ» օգտատերերի հարցումները տեղադրվում են նմանատիպ հարցումների և պատասխանների երկար «խոտի դեզի» մեջ, և մոդելին խնդրում են վերարտադրել i-րդ ասեղի պատասխանը։ Միջին համապատասխանության հարաբերակցությունը չափում է մոդելի պատասխանի և ճիշտ պատասխանի միջև միջին տողի համապատասխանության հարաբերակցությունը։ 256k առավելագույն մուտքային թոքենների միավորները ներկայացնում են միջինը 128k-256k մուտքային թոքենների համար, և այլն։ Այստեղ 256k-ը ներկայացնում է 256 * 1,024 = 262,114 թոքեններ։ Տրամաբանական մոդելները գործարկվել են մեծ տրամաբանական ջանքերով։
Մենք նաև բաց կոդով ենք թողարկում BrowseComp Long Context(բացվում է նոր պատուհանում), որը երկար համատեքստի հարց ու պատասխանի գնահատման նոր չափանիշ է։ Այս չափանիշում մոդելին տրվում է օգտատերի հարցում, համապատասխան որոնման արդյունքների երկար ցուցակ, և այն պետք է պատասխանի հարցին՝ հիմնվելով որոնման արդյունքների վրա։ Մենք մշակել ենք BrowseComp Long Համատեքստ-ը այնպես, որ այն լինի իրատեսական, դժվար և ունենա հուսալիորեն ճիշտ հիմք ունեցող պատասխաններ։ 128K–256K թոքեններ ունեցող մուտքագրումների դեպքում GPT‑5‑ը ճիշտ պատասխան է տալիս 89% դեպքերում։
API-ում GPT‑5 բոլոր մոդելները կարող են ընդունել առավելագույնը 272,000 մուտքային թոքեններ և թողարկել առավելագույնը 128,000 տրամաբանական և արտածման թոքեններ՝ 400,000 թոքենների համատեքստի ընդհանուր երկարությամբ։
GPT‑5‑ը ավելի վստահելի է, քան մեր նախորդ մոդելները: LongFact և FactScore հենանիշների հարցումներում, GPT‑5‑ը ~80% -ով ավելի քիչ փաստական սխալներ է թույլ տալիս, քան o3‑ը: Դա այն ավելի հարմար է դարձնում գործակալական օգտագործման դեպքերի համար, որտեղ ճշգրտությունը կարևոր է, հատկապես կոդի, տվյալների և որոշումների կայացման մեջ։
Ավելի բարձր գնահատականներն ավելի վատն են։ LongFact-ը(բացվում է նոր պատուհանում) և FActScore-ը(բացվում է նոր պատուհանում) բաղկացած են բաց փաստեր որոնող հարցերից։ Մենք օգտագործում ենք LLM-ի վրա հիմնված գնահատիչ՝ զննարկման հնարավորությամբ, որպեսզի ստուգենք այս չափանիշներից ստացված հարցումների պատասխանները և չափենք փաստացի սխալ պնդումների բաժինը։ Կիրառման և գնահատման մանրամասները կարող եք գտնել համակարգային քարտում։ Տրամաբանական մոդելները մեծ պատճառաբանական ջանքեր էին գործադրում։ Որոնումը միացված չէր:
Ընդհանուր առմամբ, GPT‑5‑ը վարժեցվել է իր սահմանափակումների նկատմամբ ավելի ինքնագիտակից լինելու և անսպասելի դժվարություններն ավելի լավ հաղթահարելու համար։ Մենք նաև վարժեցրինք GPT‑5‑ը, որպեսզի այն ավելի ճշգրիտ լինի առողջության հետ կապված հարցերի վերաբերյալ (կարդացեք ավելին մեր հետազոտական բլոգում): Ինչպես բոլոր լեզվի մոդելների դեպքում, խորհուրդ ենք տալիս հաստատել GPT‑5‑ի աշխատանքը, երբ վտանգը մեծ է։
Ծրագրավորողները կարող են վերահսկել GPT‑5‑ի մտածելու ժամանակը API-ի հիմնավորում_ջանք պարամետրի միջոցով։ Բացի նախորդ արժեքներից՝ցածր, միջին (կանխադրված), և բարձր—GPT‑5‑ը նաև աջակցում է նվազագույնին, որը նվազեցնում է GPT‑5‑ի հիմնավորումը՝ պատասխանը արագ տրամադրելու համար։
Ավելի բարձր հիմնավորում_ջանք արժեքները առավելագույնի են հասցնում որակը, իսկ ավելի ցածր արժեքները՝ արագությունը։ Ոչ բոլոր առաջադրանքները հավասարապես օգուտ են ստանում լրացուցիչ պատճառաբանությունից, ուստի խորհուրդ ենք տալիս փորձարկել՝ տեսնելու, թե որն է լավագույնը ձեզ հետաքրքրող օգտագործման դեպքերի համար։
Օրինակ, ցածր մակարդակից բարձր տրամաբանությունը քիչ է ավելացնում համեմատաբար պարզ երկար համատեքստի վերականգնմանը, բայց ավելացնում է բավականին մի քանի տոկոսային կետեր CharXiv Հիմնավորումին(բացվում է նոր պատուհանում), որը վիզուալ տրամաբանության չափանիշ է։
GPT‑5‑ի տրամաբանական ջանքերը տարբեր առաջադրանքների վրա տարբեր օգուտներ են տալիս։ CharXiv Հիմնավորման համար GPT‑5‑ին տրամադրվել է հասանելիություն python գործիքին։
GPT‑5‑ի պատասխանների կանխադրված երկարությունը ուղղորդելու համար մենք ներկայացրել ենք API-ի նոր պարամետր՝ շատախոսություն, որը կարող է ընդունել ցածր, միջին (կանխադրված) և բարձր արժեքներ։ Եթե հստակ հրահանգները հակասում են մանրամասնության պարամետրերին, ապա հստակ հրահանգները գերակշռում են։ Օրինակ, եթե Դուք խնդրեք GPT‑5‑ին «գրել 5 պարբերության շարադրություն», մոդելի պատասխանը միշտ պետք է լինի 5 պարբերություն՝ անկախ խոսքի ծավալի մակարդակից (այնուամենայնիվ, պարբերությունները կարող են ավելի երկար կամ կարճ լինել)։
Շատախոսություն=ցածր
Շատախոսություն=միջին
Շատախոսություն=բարձր
Եթե հրահանգվի, GPT‑5‑ը գործիքի կանչերից առաջ և դրանց միջև օգտատիրոջ համար տեսանելի նախաբանային հաղորդագրություններ կարտածի։ Ի տարբերություն թաքնված տրամաբանական հաղորդագրությունների՝ այս տեսանելի հաղորդագրությունները թույլ են տալիս GPT‑5‑ին հաղորդել պլաններն ու առաջընթացը օգտատերերին՝ օգնելով վերջնական օգտատերերին հասկանալ գործիքի կանչերի ետևում կանգնած իր մոտեցումն ու մտադրությունը։
Մենք ներկայացնում ենք գործիքի նոր տեսակ՝ հատուկ գործիքներ, որը թույլ է տալիս GPT‑5‑ին կանչել գործիք՝ օգտագործելով պարզ տեքստ՝ JSON-ի փոխարեն։ GPT‑5‑ը հատուկ գործիքների ձևաչափերին հետևելու համար ծրագրավորողները կարող են տրամադրել կանոնավոր արտահայտություն կամ նույնիսկ ավելի մանրամասն սահմանված համատեքստից զերծ քերականություն(բացվում է նոր պատուհանում)։
Նախկինում մեր ծրագրավորողի կողմից սահմանված գործիքների ինտերֆեյսը պահանջում էր, որ դրանք կանչվեն JSON ձևաչափով, որը վեբ API-ների և ընդհանրապես ծրագրավորողների կողմից օգտագործվող տարածված ձևաչափ է։ Այնուամենայնիվ, վավեր JSON արտածում իրականացնելու համար մոդելը պետք է կատարյալ կերպով փախցնի բոլոր չակերտները, հակադարձ թեք գծերը, նոր տողերը և այլ կառավարման նիշերը։ Չնայած մեր մոդելները լավ վարժեցրած են JSON-ի արտածման համար, երկար մուտքագրումների դեպքում, ինչպիսիք են հարյուրավոր տողեր կոդը կամ 5 էջանոց զեկույցը, սխալի հավանականությունը մեծանում է։ Հատուկ գործիքների միջոցով GPT‑5‑ը կարող է գործիքի մուտքագրված տվյալները գրել որպես պարզ տեքստ՝ առանց բոլոր այն նիշերը փախցնելու անհրաժեշտության։
SWE-bench-ը հաստատվել է հատուկ գործիքներով՝ JSON գործիքների փոխարեն, և GPT‑5‑ը մոտավորապես նույնն է գնահատվում։
GPT‑5‑ն առաջ է մղում անվտանգության սահմանները և ավելի կայուն, հուսալի և օգտակար մոդել է։ GPT‑5‑ը զգալիորեն ավելի քիչ հակված է հալյուցինացիաներին, քան մեր նախորդ մոդելները, ավելի ազնիվ հաղորդում է իր գործողություններն ու հնարավորությունները օգտատերի և հնարավորության դեպքում տալիս է ամենաօգտակար պատասխանը՝ միևնույն ժամանակ մնալով անվտանգության սահմաններում։ Դուք կարող եք ավելին կարդալ մեր հետազոտական բլոգում։
GPT‑5‑ն այժմ հասանելի է API հարթակում երեք չափսերով՝ gpt-5, gpt-5-mini, և gpt-5-nano: Այն հասանելի է Պատասխանների API-ում, զրույցների ավարտման API-ում և Codex CLI-ում կանխադրված է։ GPT‑5‑ի գինը կազմում է $1.25/1M մուտքային թոքեն և $10/1M արտածման թոքեն, GPT‑5 mini-ն արժե $0.25/1M մուտքային թոքեն և $2/1M արտածման թոքեն, իսկ GPT‑5 nano-ն արժե $0.05/1M մուտքային թոքեն և $0.40/1M արտածման թոքեն։
Այս մոդելները աջակցում են հիմնավորում_ջանք և շատախոսություն API պարամետրերին, ինչպես նաև հատուկ գործիքներին։ Նրանք նաև աջակցում են զուգահեռ գործիքների կանչմանը, ներկառուցված գործիքներին (վեբ որոնում, ֆայլերի որոնում, պատկերների գեներացում և այլն), API-ի հիմնական առանձնահատկություններին (հոսք, կառուցվածքային արտածումներ և այլն) և ծախսերի խնայողության առանձնահատկություններին, ինչպիսիք են հարցման քեշավորումը և Batch API-ն։
ChatGPT‑ում օգտագործվող GPT‑5‑ի ոչ հիմնավոր տարբերակը հասանելի է API-ում որպես gpt-5-chat-latest, որի գինը նույնպես կազմում է $1.25/1 միլիոն մուտքային թոքեններ և $10/1 միլիոն արտածման թոքեններ։
GPT‑5‑ը նաև գործարկվում է Microsoft-ի հարթակներում, ներառյալ Microsoft 365 Copilot-ը, Copilot, GitHub Copilot-ը և Azure AI Foundry-ն:
Ծանոթացեք GPT‑5 փաստաթղթերին(բացվում է նոր պատուհանում), գների մանրամասներին(բացվում է նոր պատուհանում) և հուշումների ուղեցույցին(բացվում է նոր պատուհանում) ՝ սկսելու համար։
Բանականություն
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| AIME ’25(no tools) | 94,6% | 91,1% | 85,2% | 88,9% | 92,7% | 46,4% | 40,2% | - |
| FrontierMath(with python tool only) | 26,3% | 22,1% | 9,6% | 15,8% | 15,4% | - | - | - |
| GPQA diamond(no tools) | 85,7% | 82,3% | 71,2% | 83,3% | 81,4% | 66,3% | 65,0% | 50,3% |
| HLE[1](no tools) | 24,8% | 16,7% | 8,7% | 20,2% | 14,7% | 5,4% | 3,7% | - |
| HMMT 2025(no tools) | 93,3% | 87,8% | 75,6% | 81,7% | 85,0% | 28,9% | 35,0% | - |
[1] Մեր նախորդ բլոգային գրառման մեջ նշված թվերի հետ մի փոքր անհամապատասխանություն կա, քանի որ դրանք հաշվարկվել են HLE-ի նախորդ տարբերակի վրա։
Մուլտիմոդալ
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| MMMU | 84,2% | 81,6% | 75,6% | 82,9% | 81,6% | 74,8% | 72,7% | 55,4% |
| MMMU-Pro(avg across standard and vision sets) | 78,4% | 74,1% | 62,6% | 76,4% | 73,4% | 60,3% | 58,9% | 33,0% |
| CharXiv reasoning(python enabled) | 81,1% | 75,5% | 62,7% | 78,6% | 72,0% | 56,7% | 56,8% | 40,5% |
| VideoMMMU, max frame 256 | 84,6% | 82,5% | 66,8% | 83,3% | 79,4% | 60,9% | 55,1% | 30,2% |
| ERQA | 65,7% | 62,9% | 50,1% | 64,0% | 56,5% | 44,3% | 42,3% | 26,5% |
Կոդավորում
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| SWE-Lancer: IC SWE Diamond Freelance Coding Tasks | 112 հզր $ | 75 հզր $ | 49 հզր $ | 86 հզր $ | 66 հզր $ | 34 հզր $ | 31 հզր $ | 9 հզր $ |
| SWE-bench Verified[2] | 74,9% | 71,0% | 54,7% | 69,1% | 68,1% | 54,6% | 23,6% | - |
| Aider polyglot(diff) | 88,0% | 71,6% | 48,4% | 79,6% | 58,2% | 52,9% | 31,6% | 6,2% |
[2] Մենք բաց ենք թողել 500-ից 23 խնդիր, որոնք չէին կարող աշխատել մեր ենթակառուցվածքի վրա։ Բաց թողնված 23 առաջադրանքների ամբողջական ցանկն է. 'astropy__astropy-7606', 'astropy__astropy-8707', 'astropy__astropy-8872', 'django__django-10097', 'django__django-7530', 'matplotlib__matplotlib-20488', 'matplotlib__matplotlib-20676', 'matplotlib__matplotlib-20826', 'matplotlib__matplotlib-23299', 'matplotlib__matplotlib-24970', 'matplotlib__matplotlib-25479', 'matplotlib__matplotlib-26342', 'psf__requests-6028', 'pylint-dev__pylint-6528', 'pylint-dev__pylint-7080', 'pylint-dev__pylint-7277', 'pytest-dev__pytest-5262', 'pytest-dev__pytest-7521', 'scikit-learn__scikit-learn-12973', 'sphinx-doc__sphinx-10466', 'sphinx-doc__sphinx-7462', 'sphinx-doc__sphinx-8265', և 'sphinx-doc__sphinx-9367'։
Հրահանգի հետևում
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| Scale multichallenge[3](o3-mini grader) | 69,6% | 62,3% | 54,9% | 60,4% | 57,5% | 46,2% | 42,2% | 31,1% |
| Internal API instruction following eval(hard) | 64,0% | 65,8% | 56,1% | 47,4% | 44,7% | 49,1% | 45,1% | 31,6% |
| COLLIE | 99,0% | 98,5% | 96,9% | 98,4% | 96,1% | 65,8% | 54,6% | 42,5% |
[3] Նշում. մենք գտնում ենք, որ MultiChallenge-ում (GPT-4o) կանխադրված գնահատողը հաճախ սխալ է գնահատում մոդելի պատասխանները։ Մենք գտնում ենք, որ գնահատողը տրամաբանական մոդելի, ինչպիսին է o3-mini-ը, փոխանակումը զգալիորեն բարելավում է գնահատման ճշգրտությունը մեր ստուգած նմուշների վրա։
Ֆունկցիայի կանչ
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| Tau2-bench airline | 62,6% | 60,0% | 41,0% | 64,8% | 60,2% | 56,0% | 51,0% | 14,0% |
| Tau2-bench retail | 81,1% | 78,3% | 62,3% | 80,2% | 70,5% | 74,0% | 66,0% | 21,5% |
| Tau2-bench telecom | 96,7% | 74,1% | 35,5% | 58,2% | 40,5% | 34,0% | 44,0% | 12,1% |
Երկար համատեքստ
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| OpenAI-MRCR: 2 needle 128k | 95,2% | 84,3% | 43,2% | 55,0% | 56,4% | 57,2% | 47,2% | 36,6% |
| OpenAI-MRCR: 2 needle 256k | 86,8% | 58,8% | 34,9% | - | - | 56,2% | 45,5% | 22,6% |
| Graphwalks bfs <128k | 78,3% | 73,4% | 64,0% | 77,3% | 62,3% | 61,7% | 61,7% | 25,0% |
| Graphwalks parents <128k | 73,3% | 64,3% | 43,8% | 72,9% | 51,1% | 58,0% | 60,5% | 9,4% |
| BrowseComp Long Context 128k | 90,0% | 89,4% | 80,4% | 88,3% | 80,0% | 85,9% | 89,0% | 89,4% |
| BrowseComp Long Context 256k | 88,8% | 86,0% | 68,4% | - | - | 75,5% | 81,6% | 19,1% |
| VideoMME(long, with subtitle category) | 86,7% | 78,5% | 65,7% | 84,9% | 79,5% | 78,7% | 68,4% | 55,2% |
Հալյուցինացիաներ
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| LongFact-Concepts hallucination rate(no tools)[lower is better] | 1,0% | 0,7% | 1,0% | 5,2% | 3,0% | 0,7% | 1,1% | - |
| LongFact-Objects hallucination rate(no tools)[lower is better] | 1,2% | 1,3% | 2,8% | 6,8% | 8,9% | 1,1% | 1,8% | - |
| FActScore hallucination rate(no tools)[lower is better] | 2,8% | 3,5% | 7,3% | 23,5% | 38,7% | 6,7% | 10,9% | - |


