Ներկայացնում ենք GPT‑5‑ը
Մեր ամենախելացի, ամենաարագ, ամենաօգտակար մոդելը մինչ օրս՝ ներկառուցված մտածողությամբ, որը փորձագիտական մակարդակի բանականությունը դնում է յուրաքանչյուրի ձեռքում:
Մենք ներկայացնում ենք GPT‑5‑ը՝ մեր լավագույն արհեստական բանականության համակարգը մինչ օրս։ GPT‑5‑ը բանականության զգալի թռիչք է մեր բոլոր նախորդ մոդելների համեմատ՝ ապահովելով կոդավորման, մաթեմատիկայի, գրելու, առողջության, տեսողական ընկալման և այլնի ժամանակակից կատարում: Դա միասնական համակարգ է, որը գիտի, թե երբ պետք է արագ արձագանքել և երբ ավելի երկար մտածել՝ փորձագիտական մակարդակի պատասխաններ տրամադրելու համար։ GPT‑5‑ը հասանելի է բոլոր օգտատերերին, իսկ Plus բաժանորդները ստանում են ավելի շատ օգտագործման հնարավորություն, իսկ Pro բաժանորդները ստանում են մուտք դեպի GPT‑5 Pro, ընդլայնված հիմնավորմամբ տարբերակ՝ ավելի համապարփակ և ճշգրիտ պատասխանների համար:
GPT‑5-ը միասնական համակարգ է, որն ունի խելացի, արդյունավետ մոդել, որը պատասխանում է հարցերի մեծամասնությանը, խորացված մտածողության մոդել (GPT‑5 մտածողություն) ավելի բարդ խնդիրների համար և իրական ժամանակի երթուղիչ, որն արագ որոշում է, թե որն օգտագործել՝ ելնելով խոսակցության տեսակից, բարդությունից, գործիքների կարիքներից և Ձեր բացահայտ մտադրությունից (օրինակ, եթե հարցումում ասում եք «խորy մտածեք այս մասին»): Ուղղորդիչը շարունակաբար վերապատրաստվում է իրական ազդանշանների հիման վրա, ներառյալ այն դեպքերը, երբ օգտատերերը փոխում են մոդելները, պատասխանների նախապատվության տոկոսադրույքները և չափված ճշտությունը, ինչը բարելավվում է ժամանակի ընթացքում։ Երբ հասնում եք օգտագործման սահմանաչափերին, մնացած հարցումները մշակվում են յուրաքանչյուր մոդելի մինի տարբերակով։ Մոտ ապագայում մենք պլանավորում ենք այդ հնարավորությունները ինտեգրել մեկ մոդելի մեջ։
GPT‑5‑ը ոչ միայն գերազանցում է նախորդ մոդելներին հենանիշներում և ավելի արագ է պատասխանում հարցերին, այլ ամենակարևորը, ավելի օգտակար է իրական աշխարհի հարցումների համար: Մենք զգալի առաջընթացներ ենք գրանցել հալյուցինացիաների նվազեցման, հրահանգների հետևման բարելավման և սիկոֆանտիայի նվազագույնի հասցնելու ուղղությամբ՝ միաժամանակ բարձրացնելով GPT‑5‑ի կատարողականությունը ChatGPT‑ի ամենատարածված օգտագործումներից երեքում՝ գրելու, կոդավորման և առողջության ոլորտներում:
GPT‑5-ը մեր մինչ օրս ամենաուժեղ կոդավորման մոդելն է։ Այն ցույց է տալիս հատուկ բարելավումներ բարդ front-end գեներացիայի և ավելի մեծ պահոցների կարգաբերման մեջ։ Այն հաճախ կարող է ստեղծել գեղեցիկ և արձագանքող կայքեր, հավելվածներ և խաղեր՝ գեղագիտական զգայունության աչքով՝ ընդամենը մեկ հարցումով, ինտուիտիվ և ճաշակով գաղափարները իրականություն դարձնելով։ Վաղ փորձարկողները նույնպես նշեցին դրա դիզայնի ընտրությունները՝ շատ ավելի լավ հասկանալով այնպիսի բաներ, ինչպիսիք են տարածությունը, տպագրությունը և սպիտակ տարածությունը։ Տեսեք այստեղ ամբողջական մանրամասների համար, թե ինչ է բացահայտում GPT‑5‑ը ծրագրավորողների համար:
Ահա մի քանի օրինակներ, թե ինչ է ստեղծել GPT‑5‑ն ընդամենը մեկ հարցումով։
Հարցում. Ստեղծել մեկ էջանոց հավելված մեկ HTML ֆայլում հետևյալ պահանջներով.
- Անունը՝ Jumping Ball Runner
- Նպատակը՝ Անցնել խոչընդոտների վրայով՝ հնարավորինս երկար գոյատևելու համար:
- Հատկություններ՝ արագության ավելացում, բարձր գնահատականների հետևում, կրկին փորձելու կոճակ և զվարճալի հնչյուններ գործողությունների և իրադարձությունների համար։
- UI-ը պետք է լինի գունագեղ՝ պարալաքսային ոլորող ֆոններով:
- Նիշերը պետք է ծաղրանկարային տեսք ունենան և զվարճալի լինեն դիտելու:
- Խաղը պետք է հաճելի լինի բոլորի համար։
GPT‑5‑ը մեր ամենաընդունակ գրելու գործընկերն է, որը կարող է օգնել Ձեզ ուղղել և կոպիտ գաղափարները վերածել գրական խորությամբ և ռիթմով համոզիչ, ռեզոնանսային գրի: Այն ավելի հուսալիորեն կարգավորում է գրելը, որը ներառում է կառուցվածքային երկիմաստություն, ինչպես, օրինակ, պահպանելով անռայմ իամբիկ պենտամետր կամ ազատ չափածո, որը հոսում է բնականաբար՝ համատեղելով հարգանքը ձևի հանդեպ արտահայտիչ հստակության հետ։ Գրելու այս բարելավված հնարավորությունները նշանակում են, որ ChatGPT‑ն ավելի լավ է օգնում Ձեզ ամենօրյա առաջադրանքների հետ, ինչպիսիք են զեկույցների կազմումը և խմբագրումը, էլփոստերը, հուշագրերը և այլն: GPT‑5‑ի և GPT‑4o‑ի գրելու ոճերը կարելի է համեմատել ստորև բերված աղյուսակում:
GPT‑5‑ը մեր լավագույն մոդելն է առողջության հետ կապված հարցերի համար, որը հնարավորություն է տալիս օգտատերերին տեղեկանալ և պաշտպանել իրենց առողջությունը: Մոդելը զգալիորեն ավելի բարձր միավորներ է ստանում, քան HealthBench-ի ցանկացած նախորդ մոդել, որը մենք հրապարակեցինք այս տարվա սկզբին՝ հիմնված իրատեսական սցենարների և բժշկի կողմից սահմանված չափանիշների վրա։ Նախորդ մոդելների համեմատ, այն ավելի շատ հանդես է գալիս որպես ակտիվ մտքի գործընկեր՝ ակտիվորեն նշելով հնարավոր մտահոգությունները և հարցեր տալով՝ ավելի օգտակար պատասխաններ ստանալու համար: Մոդելն այժմ նաև ապահովում է ավելի ճշգրիտ և հուսալի պատասխաններ՝ հարմարվելով օգտատերի համատեքստին, տեղեկությունների մակարդակին և աշխարհագրությանը՝ հնարավորություն տալով ապահովել ավելի անվտանգ և օգտակար պատասխաններ սցենարների լայն շրջանակում: Կարևոր է նշել, որ ChatGPT‑ն չի փոխարինում բժշկական մասնագետին. այն մտածեք որպես գործընկեր, որը կօգնի Ձեզ հասկանալ արդյունքները, ճիշտ հարցեր տալ այն ժամանակահատվածում, երբ հանդիպում եք մատակարարների հետ, և կշռադատել տարբերակները, երբ որոշումներ եք կայացնում։
Դուք կարող եք տեսնել որոշ եղանակներ, որոնցով GPT‑5‑ը ավելի լավն է, քան մեր նախորդ մոդելները տարբեր տիրույթներում՝ ավելի հարուստ, ավելի մանրամասն և օգտակար, այս օրինակներում:
GPT-4o
GPT-5
GPT‑5‑ի պատասխանն ընդգրկում է ավելի մեծ հուզական աղեղը՝ ավելի ուժեղ ավարտով, հստակ պատկերներով և հարվածային փոխաբերություններով («այլևս գոյություն չունեցող երկրի սև դրոշներ», «Կիոտոյի զանգը երեկոյան գլորվում է բլրից ներքև»), որոնք ստեղծում են մշակույթի և տեղի վառ զգացում: GPT‑4O‑ի տարբերակը հետևում է ավելի կանխատեսելի կառուցվածքի և ոտանավորի սխեմայի՝ ցույց տալու փոխարեն պատմելով («նա լաց է լինում և չի պատմում») ։
* Մենք ընտրեցինք 4o-ի և OpenAI o3‑ի միջև պատասխան՝ հիմնվելով այն մոդելի վրա, որը ավելի լավ էր կատարում տվյալ հարցման համար:
GPT‑5‑ը շատ ավելի խելացի է բոլոր ոլորտներում, ինչը արտացոլվում է ակադեմիական և մարդու կողմից գնահատված հենանիշների վրա նրա կատարողականով, մասնավորապես մաթեմատիկայի, կոդավորման, տեսողական ընկալման և առողջության ոլորտներում: Այն սահմանում է նոր մակարդակ մաթեմատիկայի (94.6% AIME 2025-ում առանց գործիքների), իրական աշխարհի կոդավորման (74.9% SWE-bench Verified-ում, 88% Aider Polyglot-ում), մուլտիմոդալ ըմբռնման (84.2% MMMU-ում) և առողջության (46.2% HealthBench Hard-ում)—և այդ ձեռքբերումները երևում են ամենօրյա օգտագործման մեջ։ GPT‑5 pro-ի ընդլայնված պատճառաբանությամբ մոդելը նաև սահմանում է նոր SOTA GPQA-ի վրա՝ ստանալով 88.4% առանց գործիքների։
* AIME-ի արդյունքները գործիքների հետ չպետք է համեմատվեն ուղղակիորեն մոդելների կատարման հետ, առանց գործիքների հասանելիության. դրանք օրինակ են, թե որքան արդյունավետ է GPT‑5‑ը օգտագործում մատչելի գործիքները:
SWE-bench-ի բոլոր գնահատման վազքերը օգտագործում են n=477 հաստատված առաջադրանքների ֆիքսված ենթաբազմություն, որոնք վավերացվել են մեր ներքին ենթակառուցվածքի վրա։
GPT‑5‑ը ցույց է տալիս զգալի առաջընթաց հենանիշներում, որոնք փորձարկում են հրահանգների հետևումը և գործիքների գործակալական օգտագործումը, այնպիսի հնարավորություններ, որոնք թույլ են տալիս նրան հուսալիորեն իրականացնել բազմաստիճան հարցումներ, համակարգել տարբեր գործիքների միջև և հարմարվել համատեքստի փոփոխություններին: Գործնականում սա նշանակում է, որ այն ավելի լավ է վարում բարդ, զարգացող առաջադրանքները. GPT‑5‑ը կարող է ավելի հավատարմորեն հետևել Ձեր հրահանգներին և կատարել ավելի շատ աշխատանք՝ օգտագործելով իր տրամադրության տակ եղած գործիքները:
Մոդելը գերազանցում է մի շարք մուլտիմոդալ հենանիշներում՝ ընդգրկելով տեսողական, վիդեո վրա հիմնված, տարածական և գիտական հիմնավորումներ։ Ավելի ուժեղ մուլտիմոդալ կատարողականությունը նշանակում է, որ ChatGPT‑ն կարող է ավելի ճշգրիտ հիմնավորել պատկերների և այլ ոչ տեքստային մուտքագրումների վերաբերյալ՝ լինի դա գծապատկերի մեկնաբանություն, ներկայացման լուսանկարի ամփոփում, թե դիագրամի վերաբերյալ հարցերին պատասխանելը։
GPT‑5-ը նաև մեր լավագույն մոդելն է ներքին հենանիշի վրա, որը չափում է կատարողականը բարդ, տնտեսապես արժեքավոր տեղեկությունների աշխատանքի վրա: Երբ օգտագործվում է պատճառաբանություն, GPT‑5-ը համեմատելի է կամ ավելի լավը, քան փորձագետները մոտավորապես կես դեպքերում, մինչդեռ գերազանցում է o3‑ին և ChatGPT ագենտին՝ ավելի քան 40 զբաղմունքներ ընդգրկող առաջադրանքներում, ներառյալ իրավագիտությունը, նյութատեխնիկան, վաճառքը և ճարտարագիտությունը:
Վերոնշյալ գնահատումների մեթոդաբանություն. GPT‑4o‑ի արդյունքները արտացոլում են ChatGPT‑ում մոդելի ամենավերջին տարբերակը 2025 թվականի օգոստոսի դրությամբ։ Բոլոր մոդելները գնահատվում են բարձր «հիմնավորման ջանքերի» կարգավորումներով: Հիմնավորման ջանքերը կարող են տարբեր լինել ChatGPT‑ում, ընդ որում՝ բարձր մակարդակը ներկայացնում է այն վերին սահմանը, որը օգտատեր կարող է զգալ մոդելը օգտագործելիս։
GPT‑5‑ը ավելի մեծ արժեք է ստանում՝ ավելի քիչ մտածելու ժամանակի հաշվին։ Մեր գնահատումներով GPT‑5‑ը (մտածողությամբ) ավելի լավ է գործում, քան OpenAI o3‑ը՝ 50-80% -ով ավելի քիչ արտածման թոքեններով՝ հնարավորությունների շրջանակներում, ներառյալ տեսողական հիմնավորումը, գործակալական կոդավորումը և ավարտական մակարդակի գիտական խնդիրների լուծումը:
GPT‑5‑ը վերապատրաստվել է Microsoft Azure AI սուպերհամակարգիչների վրա։
GPT‑5-ը զգալիորեն ավելի քիչ հավանական է, որ հալյուցինացիա կանի, քան մեր նախորդ մոդելները: Անանուն հարցումների վրա միացված վեբ որոնմամբ, որոնք ներկայացնում են ChatGPT‑ի արտադրության թրաֆիկը, GPT‑5‑ի պատասխանները ~45%-ով ավելի քիչ հավանական է, որ պարունակեն փաստական սխալ, քան GPT‑4o‑ի պատասխանները, իսկ մտածելիս, GPT‑5‑ի պատասխանները ~80%-ով ավելի քիչ հավանական է, որ պարունակեն փաստական սխալ, քան OpenAI o3‑ի պատասխանները:
Մենք հատկապես ներդրումներ ենք կատարել մեր մոդելներն ավելի հուսալի դարձնելու համար, երբ հիմնավորել ենք բարդ, բաց ավարտով հարցերի շուրջ: Համապատասխանաբար, մենք նոր գնահատումներ ենք ավելացրել բաց փաստերի ստուգման սթրես-թեստի համար։ Մենք չափեցինք GPT‑5‑ի հալյուցինացիայի մակարդակը, երբ այն մտածում էր բաց փաստահավաք հարցումներին՝ երկու հանրային փաստացիության հենանիշներից՝ LongFact(բացվում է նոր պատուհանում) (հասկացություններ և օբյեկտներ) և FActScore(բացվում է նոր պատուհանում)։ Այս բոլոր հենանիշներում “GPT‑5 մտածողությունը” ցույց է տալիս հալյուցինացիաների կտրուկ անկում՝ մոտ վեց անգամ ավելի քիչ, քան o3‑ը, ինչը հստակ առաջընթաց է հետևողականորեն ճշգրիտ երկարաձև բովանդակություն արտադրելու գործում։ Մեր գնահատումների իրականացման և գնահատման մանրամասները այս հենանիշների վերաբերյալ կարելի է գտնել համակարգի քարտում:
Բարելավված փաստականության կողքին, GPT‑5‑ը (մտածողությամբ) ավելի ազնվորեն հաղորդում է իր գործողությունները և հնարավորությունները օգտատերին, հատկապես այն առաջադրանքների համար, որոնք անհնար են, թերզարգացած կամ բացակայում են հիմնական գործիքները: Ուսուցման ընթացքում բարձր պարգևատրման հասնելու համար տրամաբանող մոդելները կարող են սովորել ստել առաջադրանքը հաջողությամբ կատարելու մասին կամ չափազանց վստահ լինել անորոշ պատասխանի վերաբերյալ: Օրինակ, սա փորձարկելու համար մենք հեռացրեցինք բոլոր պատկերները CharXiv-ի մուլտիմոդալ բենչմարկի հարցումներից և գտանք, որ OpenAI o3‑ը դեռևս վստահ պատասխաններ է տվել գոյություն չունեցող պատկերների մասին 86.7% դեպքերում, համեմատած GPT‑5‑ի համար ընդամենը 9% դեպքերի հետ։
Երբ պատճառաբանում է, GPT‑5‑ը ավելի ճշգրիտ ճանաչում է, երբ առաջադրանքները չեն կարող ավարտվել և հստակորեն հաղորդում է իր սահմանափակումները: Մենք գնահատեցինք խաբեության մակարդակը այն պարամետրերում, որոնք ներառում են անհնարին կոդավորման առաջադրանքներ և բացակայող մուլտիմոդալ ռեսուրսներ, և պարզեցինք, որ GPT‑5‑ը (մտածողությամբ) ավելի քիչ խաբուսիկ է, քան o3‑ը բոլոր առումներով։ Իրական ChatGPT տրաֆիկի ներկայացուցչական խոսակցությունների մեծ շարքի վրա մենք GPT‑5 դատողությունների պատասխանների խաբեության մակարդակը իջեցրել ենք o3‑ի համար 4.8%-ից մինչև GPT‑5 պատճառաբանությամբ պատասխանների 2.1%-ը: Թեև սա իմաստալից բարելավում է օգտատերերի համար, դեռ շատ աշխատանք կա անելու, և մենք շարունակում ենք հետազոտությունները՝ մեր մոդելների փաստացիությունն ու ազնվությունը բարելավելու ուղղությամբ: Լրացուցիչ մանրամասները կարելի է գտնել system card-ում:
Մինչև մեղմացումը
Մեղմացումից հետո
GPT‑5‑ը առաջ է մղում անվտանգության ոլորտում սահմանները։ Անցյալում ChatGPT‑ն հիմնականում ապավինում էր մերժման վրա հիմնված անվտանգության ուսուցմանը. օգտատիրոջ հարցման հիման վրա մոդելը պետք է կա՛մ համաձայնի, կա՛մ հրաժարվի։ Թեև այս տեսակի ուսուցումը լավ է աշխատում բացահայտ վնասակար հարցումների համար, այն կարող է դժվարանալ այնպիսի իրավիճակներում, երբ օգտատիրոջ մտադրությունը անհասկանալի է, կամ տեղեկատվությունը կարող է օգտագործվել բարորակ կամ վնասակար եղանակներով: Հրաժարման ուսուցումը հատկապես անճկուն է երկակի օգտագործման տիրույթների համար, ինչպիսիք են վիրուսաբանությունը, որտեղ աննշան հարցումը կարող է անվտանգ կերպով կատարվել բարձր մակարդակով, բայց մանրամասնորեն կատարվելու դեպքում կարող է բայց կարող է օգտակար լինել չարամիտ անձի համար։
GPT‑5‑ի համար մենք ներկայացրեցինք անվտանգության ուսուցման նոր ձև՝ անվտանգ լրացումներ, որը սովորեցնում է մոդելին հնարավորության դեպքում տալ ամենաօգտակար պատասխանը՝ միևնույն ժամանակ մնալով անվտանգության սահմաններում։ Երբեմն, դա կարող է նշանակել մասամբ պատասխանել օգտատիրոջ հարցին կամ միայն պատասխանել ընդհանուր մակարդակով: Եթե մոդելը պետք է հրաժարվի, GPT‑5‑ը վերապատրաստված է թափանցիկ կերպով Ձեզ տեղեկացնելու, թե ինչու է հրաժարվում, ինչպես նաև ապահովելու անվտանգ այլընտրանքներ: Թե՛ վերահսկվող փորձարկումներում, թե՛ մեր արտադրական մոդելներում մենք գտնում ենք, որ այս մոտեցումն ավելի նրբագեղ է՝ հնարավորություն տալով երկակի օգտագործման հարցերի ավելի լավ լուծում, երկիմաստ մտադրությունների նկատմամբ ավելի ուժեղ դիմադրություն և ավելի քիչ ավելորդ մերժումներ։ Կարդացեք ավելին անվտանգության ուսուցման մեր նոր մոտեցման, ինչպես նաև մեթոդաբանության, չափումների և արդյունքների վերաբերյալ ամբողջական մանրամասների մասին՝ մեր անվտանգ ավարտի հոդվածում։
Անվտանգություն և օգտակարություն (տրված անվտանգ պատասխաններ)՝ հարցումների նպատակների տեսակների համար։ GPT‑5‑ը (մտածողությամբ) ցուցադրում է ինչպես ավելի բարձր անվտանգություն, այնպես էլ ավելի մեծ օգտակարություն բոլոր հարցումների մտադրության տեսակների համար:
Ընդհանուր առմամբ, GPT‑5-ը ավելի քիչ արտահայտիչ հաճելի է, օգտագործում է ավելի քիչ ավելորդ էմոջիներ և ավելի նուրբ ու մտածված է հետագա քայլերում՝ համեմատած GPT‑4o‑ի հետ: Այն պետք է ավելի քիչ նման լինի «AI-ի հետ խոսելուն» և ավելի շատ նման լինի PhD մակարդակի ինտելեկտ ունեցող օգտակար ընկերոջ հետ զրույց ունենալուն:
Այս տարվա սկզբին մենք թողարկեցինք GPT‑4o‑ի թարմացում, որը ակամա մոդելը դարձրեց չափազանց սիկոֆանտիկ կամ չափազանց հաճոյախոս կամ համաձայնվող: Մենք արագ փոփոխությունը հետ շրջեցինք և այդ ժամանակից ի վեր աշխատել ենք հասկանալ և նվազեցնել այս վարքագիծը՝:
- Նոր գնահատականներ են մշակվում՝ շողոքորթության մակարդակը չափելու համար
- Մեր ուսուցումը բարելավելու համար, որպեսզի մոդելը լինի ավելի քիչ սիկոֆանտիկ, օրինակ՝ ավելացնելով օրինակներ, որոնք սովորաբար կհանգեցնեն գերհամաձայնության, այնուհետև սովորեցնելով այն չանել դա:
Նպատակային շողոքորթության գնահատումներում, օգտագործելով հատուկ նախագծված հարցումներ սիկոֆանտիկ պատասխաններ ստանալու համար, GPT‑5‑ը էականորեն նվազեցրեց շողոքորթ պատասխանները (14.5%-ից մինչև 6%-ից պակաս): Երբեմն, շողոքորթության նվազեցումը կարող է հանգեցնել օգտատերերի գոհունակության նվազմանը, բայց մեր կատարած բարելավումները կրճատել են սիկոֆանիան ավելի քան կեսով՝ միաժամանակ ապահովելով այլ չափելի ձեռքբերումներ, այնպես որ օգտատերերը շարունակում են ունենալ բարձրորակ, կառուցողական խոսակցություններ՝ մեր նպատակին համահունչ՝ օգնել մարդկանց լավ օգտագործել ChatGPT։
GPT‑5‑ը զգալիորեն ավելի լավ է հետևում հրահանգներին, և մենք տեսնում ենք համապատասխան բարելավում նրա ունակության մեջ՝ հետևելու հատուկ ցուցումներին:
Մենք նաև գործարկում ենք չորս նոր նախադրված անհատականությունների հետազոտական նախադիտում բոլոր ChatGPT օգտատերերի համար, ինչը հնարավոր է դարձել կառավարելիության բարելավումների շնորհիվ: Այս անհատականությունները, որոնք սկզբում հասանելի են տեքստային զրույցի համար և հետագայում հասանելի կլինեն Voice-ում, թույլ են տալիս սահմանել, թե ինչպես է ChatGPT‑ը փոխազդում՝ լինի հակիրճ և պրոֆեսիոնալ, մտածող և աջակցող, կամ մի փոքր սարկաստիկ՝ առանց հատուկ հարցումներ գրելու։ Չորս նախնական տարբերակները՝ Cynic, Robot, Listener և Nerd, ընտրովի են, կարգավորելի ցանկացած պահի պարամետրերում և նախագծված են ձեր հաղորդակցման ոճին համապատասխանելու համար:
Այս բոլոր նոր անձնավորությունները համապատասխանում են կամ գերազանցում են մեր ներքին գնահատականների նշաձողը՝ շողոքորթության նվազեցման համար։
Մենք անհամբեր սպասում ենք սովորելուն և կատարելագործվելուն՝ հիմնվելով վաղ կարծիքի վրա։
Մենք որոշեցինք «GPT‑5 մտածողություն» մոդելը համարել որպես բարձր կարողություն կենսաբանական և քիմիական տիրույթում և ներդրել ենք ուժեղ երաշխիքներ՝ ռիսկերը բավարար չափով նվազեցնելու համար։ Մենք խստորեն փորձարկեցինք մոդելը մեր անվտանգության գնահատումներով մեր Պատրաստվածության Շրջանակի ներքո՝ ավարտելով 5,000 ժամ կարմիր թիմի աշխատանք գործընկերների հետ, ինչպիսիք են CAISI-ն և Մեծ Բրիտանիայի AISI-ն:
ChatGPT Ագենտի համար մեր մոտեցման նման, չնայած մենք չունենք վերջնական ապացույցներ, որ այս մոդելը կարող է իմաստալից օգնել սկսնակին ստեղծել ծանր կենսաբանական վնաս՝ մեր սահմանված շեմը(բացվում է նոր պատուհանում) բարձր կարողության համար, մենք նախազգուշական մոտեցում ենք ցուցաբերում և այժմ ակտիվացնում ենք պահանջվող երաշխիքները՝ պատրաստակամությունը բարձրացնելու համար, երբ նման հնարավորությունները հասանելի լինեն: Արդյունքում, «GPT‑5 մտածողությունը» ունի ամուր անվտանգության համակարգ՝ կենսաբանության համար բազմաշերտ պաշտպանության համակարգով. սպառնալիքների համապարփակ մոդելավորում, մոդելի ուսուցում՝ վնասակար բովանդակություն չարտածելու համար՝ մեր նոր անվտանգ լրացումների մոդելի միջոցով, միշտ ակտիվ դասակարգիչներ և դատողությունների մոնիտորներ, ինչպես նաև հստակ կիրառման խողովակաշարեր։
Կարդացեք ավելին մեր GPT‑5‑ի անվտանգության ամուր մոտեցման մասին մեր համակարգի քարտում։
Ամենադժվար, բարդ առաջադրանքների համար մենք նաև թողարկում ենք GPT‑5 pro՝ փոխարինելով OpenAI o3‑pro‑ին՝ GPT‑5‑ի տարբերակին, որը մտածում է ավելի երկար՝ օգտագործելով մասշտաբային, բայց արդյունավետ զուգահեռ փորձարկման ժամանակի հաշվարկ՝ ամենաբարձր որակի և ամենահամապարփակ պատասխաններ տրամադրելու համար: GPT‑5 pro-ը հասնում է GPT‑5 ընտանիքի ամենաբարձր կատարողականին մի քանի բարդ հետախուզական հենանիշներում, ներառյալ GPQA-ի գերժամանակակից կատարողականը, որը պարունակում է չափազանց դժվար գիտական հարցեր:
Ավելի քան 1000 տնտեսապես արժեքավոր, իրական աշխարհի պատճառաբանության հարցումների գնահատումներում, արտաքին փորձագետները 67.8% դեպքերում նախընտրել են GPT‑5 pro-ը «GPT‑5 մտածողությունից»: GPT‑5 pro-ն 22%-ով ավելի քիչ խոշոր սխալներ է թույլ տվել և գերազանցել է առողջապահության, գիտության, մաթեմատիկայի և կոդավորման ոլորտներում: Փորձագետները գնահատել են դրա պատասխանները որպես համապատասխան, օգտակար և համապարփակ:
GPT‑5‑ը ChatGPT‑ում նոր կանխադրվածն է՝ փոխարինելով GPT‑4o, OpenAI o3, OpenAI o4-mini, GPT‑4.1 և GPT‑4.5՝ մուտք գործած օգտատերերի համար։ Պարզապես բացեք ChatGPT‑ն և մուտքագրեք Ձեր հարցը, GPT‑5-ը կզբաղվի մնացածով, ավտոմատ կերպով կիրառելով պատճառաբանություն, երբ պատասխանը կշահի դրանից։ Վճարովի օգտատերերը դեռ կարող են ընտրել «GPT‑5 Thinking» մոդելի ընտրիչից կամ հարցում մուտքագրել «խորը մտածեք սրա մասին», որպեսզի համոզվեք, որ պատասխան գեներացնելիս հիմնավորումն օգտագործվում է։
GPT‑5-ն այսօր սկսում է տարածվել բոլոր Plus, Pro, Team և Free օգտատերերի համար, իսկ հաջորդ շաբաթ հասանելիություն կլինի Enterprise և Edu օգտատերերի համար: Pro, Plus և Team օգտատերերը կարող են նաև սկսել կոդավորել GPT‑5‑ով Codex CLI-ում՝ մուտք գործելով ChatGPT(բացվում է նոր պատուհանում) ։
Ինչպես GPT‑4o-ի դեպքում, GPT‑5‑ի անվճար և վճարովի հասանելիության տարբերությունը օգտագործման ծավալն է։ Pro բաժանորդները ստանում են անսահմանափակ մուտք դեպի GPT‑5, ինչպես նաև մուտք դեպի GPT‑5 Pro: Plus օգտատերերը կարող են հարմարավետ օգտագործել այն որպես իրենց կանխադրված մոդել ամենօրյա հարցերի համար՝ զգալիորեն ավելի բարձր օգտագործմամբ, քան անվճար օգտատերերը։ Team, Enterprise, և Edu հաճախորդները կարող են նաև հարմարավետորեն օգտագործել GPT‑5‑ը որպես իրենց կանխադրված մոդել ամենօրյա աշխատանքի համար՝ առատաձեռն սահմանափակումներով, որոնք հեշտացնում են ամբողջ կազմակերպությունների համար GPT‑5‑ին ապավինելը: ChatGPT Free օգտատերերի համար հիմնավորման ամբողջական հնարավորությունները կարող են մի քանի օր տևել, որպեսզի ամբողջությամբ հասանելի դառնան։ Երբ անվճար օգտատերերը հասնեն իրենց GPT‑5‑ի օգտագործման սահմաններին, նրանք կանցնեն GPT‑5 mini, ավելի փոքր, ավելի արագ և բարձր ունակություններով մոդելին:
Հեղինակ
Ծանոթագրություններ
*Մեր նախորդ բլոգային գրառման մեջ նշված թվերի հետ մի փոքր անհամապատասխանություն կա, քանի որ դրանք հաշվարկվել են HLE-ի նախորդ տարբերակի վրա։
** Մենք գտնում ենք, որ MultiChallenge (GPT-4o) կանխադրված գնահատողը հաճախ սխալ է գնահատում մոդելի պատասխանները: Մենք գտնում ենք, որ գնահատողը հիմնավորման մոդելով փոխարինելը, ինչպես o3-mini-ը, զգալիորեն բարելավում է մեր ստուգած նմուշների գնահատման ճշգրտությունը:
***MMMUPro-ի համար մենք միջինացրել ենք ստանդարտի և տեսողության գնահատականները։
Ներդրողներ
Aaditya Singh, Adam Fry, Adam Perelman, Adam Tart, Adi Ganesh, Ahmed El-Kishky, Aidan McLaughlin, Aiden Low, AJ Ostrow, Akhila Ananthram, Akshay Nathan, Alan Luo, Alec Helyar, Aleksander Madry, Aleksandr Efremov, Aleksandra Spyra, Alex Baker-Whitcomb, Alex Beutel, Alex Karpenko, Alex Makelov, Alex Neitz, Alex Wei, Alexandra Barr, Alexandre Kirchmeyer, Alexey Ivanov, Alexi Christakis, Alistair Gillespie, Allison Tam, Ally Bennett, Alvin Wan, Alyssa Huang, Amy McDonald Sandjideh, Amy Yang, Ananya Kumar, Andre Saraiva, Andrea Vallone, Andrei Gheorghe, Andres Garcia Garcia, Andrew Braunstein, Andrew Liu, Andrew Schmidt, Andrey Mereskin, Andrey Mishchenko, Andy Applebaum, Andy Rogerson, Ann Rajan, Annie Wei, Anoop Kotha, Anubha Srivastava, Anushree Agrawal, Arun Vijayvergiya, Ashley Tyra, Ashvin Nair, Avi Nayak, Ben Eggers, Bessie Ji, Beth Hoover, Bill Chen, Blair Chen, Boaz Barak, Borys Minaiev, Botao Hao, Bowen Baker, Brad Lightcap, Brandon McKinzie, Brandon Wang, Brendan Quinn, Brian Fioca, Brian Hsu, Brian Yang, Brian Yu, Brian Zhang, Brittany Brenner, Callie Riggins Zetino, Cameron Raymond, Camillo Lugaresi, Carolina Paz, Cary Hudson, Cedric Whitney, Chak Li, Charles Chen, Charlotte Cole, Chelsea Voss, Chen Ding, Chen Shen, Chengdu Huang, Chris Colby, Chris Hallacy, Chris Koch, Chris Lu, Christina Kaplan, Christina Kim, CJ Minott-Henriques, Cliff Frey, Cody Yu, Coley Czarnecki, Colin Reid, Colin Wei, Cory Decareaux, Cristina Scheau, Cyril Zhang, Cyrus Forbes, Da Tang, Dakota Goldberg, Dan Roberts, Dana Palmie, Daniel Kappler, Daniel Levine, Daniel Wright, Dave Leo, David Lin, David Robinson, Declan Grabb, Derek Chen, Derek Lim, Derek Salama, Dibya Bhattacharjee, Dimitris Tsipras, Dinghua Li, Dingli Yu, DJ Strouse, Drew Williams, Dylan Hunn, Ed Bayes, Edwin Arbus, Ekin Akyurek, Elaine Ya Le, Elana Widmann, Eli Yani, Elizabeth Proehl, Enis Sert, Enoch Cheung, Eri Schwartz, Eric Han, Eric Jiang, Eric Mitchell, Eric Sigler, Eric Wallace, Erik Ritter, Erin Kavanaugh, Evan Mays, Evgenii Nikishin, Fangyuan Li, Felipe Petroski Such, Filipe de Avila Belbute Peres, Filippo Raso, Florent Bekerman, Foivos Tsimpourlas, Fotis Chantzis, Francis Song, Francis Zhang, Gaby Raila, Garrett McGrath, Gary Briggs, Gary Yang, Giambattista Parascandolo, Gildas Chabot, Grace Kim, Grace Zhao, Gregory Valiant, Guillaume Leclerc, Hadi Salman, Hanson Wang, Hao Sheng, Haoming Jiang, Haoyu Wang, Haozhun Jin, Harshit Sikchi, Heather Schmidt, Henry Aspegren, Honglin Chen, Huida Qiu, Hunter Lightman, Ian Covert, Ian Kivlichan, Ian Silber, Ian Sohl, Ibrahim Hammoud, Ignasi Clavera, Ikai Lan, Ilge Akkaya, Ilya Kostrikov, Irina Kofman, Isak Etinger, Ishaan Singal, Jackie Hehir, Jacob Huh, Jacqueline Pan, Jake Wilczynski, Jakub Pachocki, James Lee, James Quinn, Jamie Kiros, Janvi Kalra, Jasmyn Samaroo, Jason Wang, Jason Wolfe, Jay Chen, Jay Wang, Jean Harb, Jeffrey Han, Jeffrey Wang, Jennifer Zhao, Jeremy Chen, Jerene Yang, Jerry Tworek, Jesse Chand, Jessica Landon, Jessica Liang, Ji Lin, Jiancheng Liu, Jianfeng Wang, Jie Tang, Jihan Yin, Joanne Jang, Joel Morris, Joey Flynn, Johannes Ferstad, Johannes Heidecke, John Fishbein, John Hallman, Jonah Grant, Jonathan Chien, Jonathan Gordon, Jongsoo Park, Jordan Liss, Jos Kraaijeveld, Joseph Guay, Joseph Mo, Josh Lawson, Josh McGrath, Joshua Vendrow, Joy Jiao, Julian Lee, Julie Steele, Julie Wang, Junhua Mao, Kai Chen, Kai Hayashi, Kai Xiao, Kamyar Salahi, Kan Wu, Karan Sekhri, Karan Sharma, Karan Singhal, Karen Li, Kenny Nguyen, Keren Gu-Lemberg, Kevin King, Kevin Liu, Kevin Stone, Kevin Yu, Kristen Ying, Kristian Georgiev, Kristie Lim, Kushal Tirumala, Kyle Miller, Lama Ahmad, Larry Lv, Laura Clare, Laurance Fauconnet, Lauren Itow, Lauren Yang, Laurentia Romaniuk, Leah Anise, Lee Byron, Leher Pathak, Leon Maksin, Leyan Lo, Leyton Ho, Li Jing, Liang Wu, Liang Xiong, Lien Mamitsuka, Lin Yang, Lindsay McCallum, Lindsey Held, Liz Bourgeois, Logan Engstrom, Lorenz Kuhn, Louis Feuvrier, Lu Zhang, Lucas Switzer, Lukas Kondraciuk, Lukasz Kaiser, Manas Joglekar, Mandeep Singh, Mandip Shah, Manuka Stratta, Marcus Williams, Mark Chen, Mark Sun, Marselus Cayton, Martin Li, Marvin Zhang, Marwan Aljubeh, Matt Nichols, Matthew Haines, Max Schwarzer, Mayank Gupta, Meghan Shah, Melody Huang, Meng Dong, Mengqing Wang, Mia Glaese, Micah Carroll, Michael Lampe, Michael Malek, Michael Sharman, Michael Zhang, Michele Wang, Michelle Pokrass, Mihai Florian, Mikhail Pavlov, Miles Wang, Ming Chen, Mingxuan Wang, Minnia Feng, Mo Bavarian, Molly Lin, Moose Abdool, Mostafa Rohaninejad, Nacho Soto, Natalie Staudacher, Natan LaFontaine, Nathan Marwell, Nelson Liu, Nick Preston, Nick Turley, Nicklas Ansman, Nicole Blades, Nikil Pancha, Nikita Mikhaylin, Niko Felix, Nikunj Handa, Nishant Rai, Nitish Keskar, Noam Brown, Ofir Nachum, Oleg Boiko, Oleg Murk, Olivia Watkins, Oona Gleeson, Pamela Mishkin, Patryk Lesiewicz, Paul Baltescu, Pavel Belov, Peter Zhokhov, Philip Pronin, Phillip Guo, Phoebe Thacker, Qi Liu, Qiming Yuan, Qinghua Liu, Rachel Dias, Rachel Puckett, Rahul Arora, Ravi Teja Mullapudi, Raz Gaon, Reah Miyara, Rennie Song, Rishabh Aggarwal, RJ Marsan, Robel Yemiru, Robert Xiong, Rohan Kshirsagar, Rohan Nuttall, Roman Tsiupa, Ronen Eldan, Rose Wang, Roshan James, Roy Ziv, Rui Shu, Ruslan Nigmatullin, Saachi Jain, Saam Talaie, Sam Altman, Sam Arnesen, Sam Toizer, Sam Toyer, Samuel Miserendino, Sandhini Agarwal, Sarah Yoo, Savannah Heon, Scott Ethersmith, Sean Grove, Sean Taylor, Sebastien Bubeck, Sever Banesiu, Shaokyi Amdo, Shengjia Zhao, Sherwin Wu, Shibani Santurkar, Shiyu Zhao, Shraman Ray Chaudhuri, Shreyas Krishnaswamy, Shuaiqi (Tony) Xia, Shuyang Cheng, Shyamal Anadkat, Simón Posada Fishman, Simon Tobin, Siyuan Fu, Somay Jain, Song Mei, Sonya Egoian, Spencer Kim, Spug Golden, SQ Mah, Steph Lin, Stephen Imm, Steve Sharpe, Steve Yadlowsky, Sulman Choudhry, Sungwon Eum, Suvansh Sanjeev, Tabarak Khan, Tal Stramer, Tao Wang, Tao Xin, Tarun Gogineni, Taya Christianson, Ted Sanders, Tejal Patwardhan, Thomas Degry, Thomas Shadwell, Tianfu Fu, Tianshi Gao, Timur Garipov, Tina Sriskandarajah, Toki Sherbakov, Tomer Kaftan, Tomo Hiratsuka, Tongzhou Wang, Tony Song, Tony Zhao, Troy Peterson, Val Kharitonov, Victoria Chernova, Vineet Kosaraju, Vishal Kuo, Vitchyr Pong, Vivek Verma, Vlad Petrov, Wanning Jiang, Weixing Zhang, Wenda Zhou, Wenlei Xie, Wenting Zhan, Wes McCabe, Will DePue, Will Ellsworth, Wulfie Bain, Wyatt Thompson, Xiangning Chen, Xiangyu Qi, Xin Xiang, Xinwei Shi, Yann Dubois, Yaodong Yu, Yara Khakbaz, Yifan Wu, Yilei Qian, Yin Tat Lee, Yinbo Chen, Yizhen Zhang, Yizhong Xiong, Yonglong Tian, Young Cha, Yu Bai, Yu Yang, Yuan Yuan, Yuanzhi Li, Yufeng Zhang, Yuguang Yang, Yujia Jin, Yun Jiang, Yunyun Wang, Yushi Wang, Yutian Liu, Zach Stubenvoll, Zehao Dou, Zheng Wu, Zhigang Wang


