Անցնել հիմնական բովանդակությանը
OpenAI

17 հուլիսի, 2025 թ.

ԱրտադրանքԹողարկում

Ներկայացնում ենք ChatGPT ագենտին՝ հետազոտությունների և գործողությունների միջև կամուրջ

ChatGPT‑ը այժմ մտածում և գործում է՝ ակտիվորեն ընտրելով գործիքներ իր գործակալական հմտություններից՝ ձեզ համար առաջադրանքներ կատարելու համար՝ օգտագործելով իր սեփական համակարգիչը։

Բեռնվում է…

ChatGPT‑ը այժմ կարող է ձեզ համար աշխատանք կատարել՝ օգտագործելով իր սեփական համակարգիչը, կատարելով բարդ առաջադրանքներ սկզբից մինչև վերջ։

Դուք այժմ կարող եք խնդրել ChatGPT‑ին կարգավորել հարցումներ, ինչպիսիք են «նայիր իմ օրացույցին և հակիրճ ներկայացրու առաջիկա սպասառուների հանդիպումները՝ հիմնվելով վերջին նորությունների վրա», «պլանավորիր և գնիր բաղադրիչներ՝ ճապոնական նախաճաշ պատրաստելու համար չորս անձի համար» և «վերլուծիր երեք մրցակիցներին և ստեղծիր սլայդների հավաքածու»: ChatGPT‑ը խելացիորեն կշրջի կայքերում, կզտի արդյունքները, անհրաժեշտության դեպքում կառաջարկի անվտանգ մուտք գործել, կգործարկի կոդ, կկատարի վերլուծություն և նույնիսկ կներկայացնի խմբագրելի սլայդ շոուներ և աղյուսակներ, որոնք կամփոփեն դրա արդյունքները։ 

Այս նոր հնարավորության հիմքում միասնական գործակալական համակարգն է։ Այն համախմբում է ավելի վաղ առաջընթացների երեք ուժեղ կողմերը՝ Operator-ի կայքերի հետ փոխազդելու ունակությունը, տեղեկատվության սինթեզման խորքային ուսումնասիրության հմտությունը և ChatGPT‑ի ինտելեկտը և խոսակցական սահունությունը:

ChatGPT‑ը իրականացնում է այս առաջադրանքները՝ օգտագործելով իր սեփական վիրտուալ համակարգիչը՝ սահուն կերպով անցնելով պատճառաբանությունից գործողությունների՝ բարդ աշխատանքային հոսքերը սկզբից մինչև վերջ կարգավորելու համար՝ հիմնվելով ձեր հրահանգների վրա։

Ամենակարևորը՝ դուք միշտ վերահսկողության տակ եք։ ChatGPT‑ը թույլտվություն է խնդրում նախքան հետևանքներ ունեցող գործողություններ կատարելը, և դուք կարող եք հեշտությամբ ընդհատել, վերցնել դիտարկիչի կառավարումը կամ դադարեցնել առաջադրանքները ցանկացած պահի։

Այսօրվանից սկսած Pro, Plus և Team օգտատերերը կարող են ակտիվացնել ChatGPT‑ի նոր ագենտ հնարավորությունները անմիջապես կոմպոզիտորի գործիքների ցանկից՝ ցանկացած խոսակցության ցանկացած պահին ընտրելով «ագենտ ռեժիմ»։ 

Մինչ ChatGPT ագենտը արդեն հզոր գործիք է բարդ առաջադրանքների լուծման համար, այսօրվա մեկնարկը ընդամենը սկիզբն է: Մենք կշարունակենք պարբերաբար ավելացնել զգալի բարելավումներ՝ ժամանակի ընթացքում այն դարձնելով ավելի ընդունակ և օգտակար ավելի շատ մարդկանց համար։

Operator-ի բնական էվոլյուցիան և խորքային ուսումնասիրություն

Նախկինում Operator-ը և խորքային ուսումնասիրությունը առանձնանում էին իրենց յուրահատուկ ուժեղ կողմերով. Operator-ը կարող էր գլորել, սեղմել և մուտքագրել համացանցում, մինչդեռ խորքային ուսումնասիրությունը գերազանց էր տեղեկատվության վերլուծության և ամփոփման գործում։ Բայց նրանք լավագույնս աշխատում էին տարբեր իրավիճակներում. Operator-ը չէր կարող խորանալ վերլուծության մեջ կամ գրել մանրամասն հաշվետվություններ, իսկ խորքային ուսումնասիրությունը չէր կարող փոխազդել կայքերի հետ՝ արդյունքները ճշգրտելու կամ օգտատիրոջ նույնականացում պահանջող բովանդակություն մուտք գործելու համար: Փաստորեն, մենք նկատեցինք, որ Operator-ի միջոցով օգտատերերի կողմից փորձված բազմաթիվ հարցումներ իրականում ավելի հարմար էին խորքային ուսումնասիրության համար, ուստի մենք համատեղեցինք երկուսի լավագույնը։

Ինտեգրելով այս փոխլրացնող ուժեղ կողմերը ChatGPT‑ում և ներկայացնելով լրացուցիչ գործիքներ՝ մենք բացահայտեցինք բոլորովին նոր հնարավորություններ մեկ մոդելի շրջանակներում: Այժմ այն կարող է ակտիվորեն ներգրավել կայքերը՝ սեղմելով, զտելով և հավաքելով ավելի ճշգրիտ և արդյունավետ արդյունքներ: Դուք կարող եք նաև բնականաբար անցնել պարզ զրույցից գործողություններ պահանջելուն՝ ուղղակիորեն նույն զրույցում: 

Ագենտ, որը աշխատում է Ձեզ համար, Ձեզ հետ։ 

Մենք ChatGPT գործակալը հագեցրել ենք գործիքների մի շարքով՝ տեսողական դիտարկիչ, որը փոխազդում է վեբի հետ գրաֆիկական ինտերֆեյսի միջոցով, տեքստային դիտարկիչ՝ ավելի պարզ դատողությունների վրա հիմնված վեբ հարցումների համար, տերմինալ և API-ին անմիջական մուտք։ Ագենտը կարող է նաև օգտագործել ChatGPT միակցիչները(բացվում է նոր պատուհանում), ինչը թույլ է տալիս կապել Gmail-ի և Github-ի նման հավելվածները, որպեսզի ChatGPT‑ը կարողանա գտնել ձեր հարցումներին համապատասխան տեղեկատվություն և օգտագործել դրանք իր պատասխաններում։ Դուք կարող եք նաև մուտք գործել ցանկացած կայք՝ ստանձնելով զննարկչի գործառույթները, ինչը թույլ կտա այն ավելի խորը և լայնածավալ ուսումնասիրություններ կատարել ինչպես հետազոտության, այնպես էլ առաջադրանքների կատարման մեջ։ ChatGPT‑ին վեբ տեղեկատվությանը մուտք գործելու և դրա հետ փոխազդելու այս տարբեր ուղիները տրամադրելը նշանակում է, որ այն կարող է ընտրել առաջադրանքներն առավել արդյունավետ կատարելու օպտիմալ ուղին։ Օրինակ, այն կարող է API-ի միջոցով հավաքել տեղեկատվություն ձեր օրացույցի մասին, արդյունավետորեն հիմնավորել մեծ քանակությամբ տեքստ՝ օգտագործելով տեքստային դիտարկիչը, միաժամանակ ունենալով տեսողականորեն փոխազդելու հնարավորություն հիմնականում մարդկանց համար նախատեսված կայքերի հետ: 

Այս ամենը կատարվում է իր սեփական վիրտուալ համակարգչի միջոցով, որը պահպանում է առաջադրանքի համար անհրաժեշտ համատեքստը, նույնիսկ այն դեպքում, երբ օգտագործվում են բազմաթիվ գործիքներ՝ մոդելը կարող է ընտրել բացել էջը՝ օգտագործելով տեքստային կամ տեսողական դիտարկիչը, ներբեռնել ֆայլը ինտերնետից, մշակել այն՝ տերմինալում հրաման կատարելով, ապա դիտել արտածումը տեսողական դիտարկիչում։ Մոդելը հարմարեցնում է իր մոտեցումը՝ առաջադրանքները արագությամբ, ճշգրտությամբ և արդյունավետությամբ կատարելու համար:

ChatGPT ագենտը նախատեսված է կրկնվող, համագործակցային աշխատանքային հոսքերի համար, շատ ավելի ինտերակտիվ և ճկուն, քան նախորդ մոդելները: ChatGPT‑ի աշխատոը կարող եք ընդհատել ցանկացած պահի՝ հրահանգները պարզաբանելու, այն ցանկալի արդյունքի ուղղորդելու կամ առաջադրանքն ամբողջությամբ փոխելու համար։ Այն կշարունակվի այնտեղից, որտեղ կանգ էր առել՝ այժմ նոր տեղեկատվությամբ, բայց առանց կորցնելու նախորդ առաջընթացը։ Նմանապես, ChatGPT‑ն ինքնին կարող է ակտիվորեն լրացուցիչ մանրամասներ փնտրել ձեզանից, երբ դա անհրաժեշտ է, որպեսզի առաջադրանքը համահունչ մնա ձեր նպատակներին: Եթե առաջադրանքը տևում է ավելի երկար, քան սպասվում էր, կամ փակուղու մեջ է թվում, կարող եք դադարեցնել այն, խնդրել առաջընթացի ամփոփագիր կամ ամբողջությամբ դադարեցնել և ստանալ մասնակի արդյունքներ։ Եթե ձեր հեռախոսում ունեք ChatGPT հավելվածը, այն ձեզ ծանուցում կուղարկի, երբ այն ավարտի ձեր առաջադրանքը։

Իրական աշխարհի կիրառականության ընդլայնում 

Այս միասնական գործակալական հնարավորությունները զգալիորեն բարձրացնում են ChatGPT‑ի օգտակարությունը ինչպես առօրյա, այնպես էլ մասնագիտական համատեքստերում: Աշխատանքի վայրում դուք կարող եք ավտոմատացնել կրկնվող առաջադրանքներ, ինչպիսիք են՝ էկրանի նկարները կամ վահանակները խմբագրելի վեկտորային տարրերից կազմված ներկայացումների վերածելը, հանդիպումները վերադասավորելը, արտաքին հանդիպումների պլանավորումը և ամրագրումը, ինչպես նաև աղյուսակները նոր ֆինանսական տվյալներով թարմացնելը՝ պահպանելով նույն ձևաչափը։ Անձնական կյանքում դուք կարող եք օգտագործել այն՝ հեշտությամբ պլանավորելու և ամրագրելու ճանապարհորդական երթուղիներ, նախագծելու և ամրագրելու ամբողջական ընթրիքներ, կամ գտնելու մասնագետներ և նշանակելու հանդիպումներ։ 

Մոդելի բարելավված հնարավորությունները արտացոլվում են դրա արդիական (SOTA) կատարողականության մեջ՝ վեբ զննարկման և իրական աշխարհում առաջադրանքների կատարման հնարավորությունները չափող գնահատումներում։ 

Մարդկության վերջին քննությունը(բացվում է նոր պատուհանում)*, գնահատում, որը չափում է արհեստական բանականության արդյունավետությունը տարբեր առարկաների շրջանակներում՝ պատասխանելով փորձագիտական մակարդակի հարցերին, ChatGPT գործակալի հիմքում ընկած մոդելը հասավ SOTA-ի նոր «pass@1»՝ 41.6 միավորի։ Քանի որ ագենտը դինամիկ կերպով պլանավորում է և ընտրում իր սեփական գործիքները, այն կարող է տարբեր ձևերով լուծել նույն առաջադրանքը տարբեր փորձարկումներում: Երբ մենք սա մասշտաբավորեցինք պարզ զուգահեռ ներդրման ռազմավարությամբ՝ միաժամանակ կատարելով մինչև ութ փորձ և ընտրելով ամենաբարձր ինքնավստահությունն ունեցողը, ագենտի HLE գնահատականը բարձրանում է մինչև 44.4:

FrontierMath**- ը ամենադժվար հայտնի մաթեմատիկական հենանիշն է, որը ներառում է նոր, չհրապարակված խնդիրներ, որոնք հաճախ պահանջում են փորձագետ մաթեմատիկոսներից ժամեր կամ նույնիսկ օրեր՝ լուծելու համար։ Գործիքների օգտագործման դեպքում, ինչպիսին է կոդի կատարման համար տերմինալին մուտք գործելը, ChatGPT ագենտը հասնում է 27.4% ճշգրտության՝ զգալիորեն գերազանցելով նախորդ երկու մոդելներին։

Մենք նաև գնահատեցինք մոդելը՝ օգտագործելով բարդ իրական աշխարհի առաջադրանքներից մոդելավորված հենանիշներ: Ներքին հենանիշի վրա, որը նախատեսված է բարդ, տնտեսապես արժեքավոր տեղեկությունների վրա հիմնված աշխատանքի առաջադրանքների մոդելի կատարողականը գնահատելու համար, ChatGPT ագենտի արտածումը համեմատելի է կամ ավելի լավ է, քան մարդկանց արտածումը մոտավորապես կեսի դեպքում առաջադրանքների կատարման տարբեր ժամանակներում, մինչդեռ զգալիորեն գերազանցում է o3 և o4-mini-ին: Մոդել արտածումները գնահատվում են փորձագետների կողմից յուրաքանչյուր ոլորտում լավագույն կատարողների կողմից ստեղծված բարձրորակ մարդկային հիմքերի համեմատությամբ: Այս առաջադրանքները, որոնք ստացվում են տարբեր մասնագիտությունների և ոլորտների փորձագետներից, արտացոլում են իրական մասնագիտական աշխատանքը, օրինակ՝ պահանջարկի հրատապ օգնություն տրամադրողների մրցակցային վերլուծության պատրաստումը, ամորտիզացիայի մանրամասն ժամանակացույցների կառուցումը և նոր կանաչ ջրածնի հաստատության համար կենսունակ ջրհորերի հայտնաբերումը: 

DSBench(բացվում է նոր պատուհանում)-ում, որը նախատեսված է տվյալների վերլուծության և մոդելավորման ընդգրկող իրատեսական տվյալների գիտական առաջադրանքներում գործակալներին գնահատելու համար, ChatGPT ագենտը զգալիորեն գերազանցում է մարդկային կատարողականությանը։

SpreadsheetBench-ում, որը գնահատում է մոդելների կարողությունը՝ իրական աշխարհի սցենարներից ստացված աղյուսակաթերթերը խմբագրելու առումով, ChatGPT ագենտը զգալիորեն գերազանցում է առկա մոդելներին։ Երբ տրվում է աղյուսակաթերթերը ուղղակիորեն խմբագրելու հնարավորություն, ChatGPT ագենտը ստանում է նույնիսկ ավելի բարձր միավորներ՝ 45,5%, համեմատած Excel-ի Copilot-ի 20,0%-ի հետ։ 

Մեթոդաբանություն. SpreadsheetBench-ի հեղինակները աղյուսակաթերթերը գնահատելու համար օգտագործել են Windows միջավայր՝ օգտագործելով Microsoft Excel-ը: Մենք օգտագործել ենք OSX միջավայր և LibreOffice, ինչը կարող է հանգեցնել գնահատման փոքր տարբերությունների: Օրինակ, հեղինակները գտել են, որ GPT‑4o‑ի համար ընդհանուր ծանր սահմանափակումը կազմում է 15,02%, իսկ մենք ստացանք 13,38%: Մենք օգտագործեցինք 912 հարցից բաղկացած ամբողջական չափանիշը:

Ներքին հենանիշի վրա, որը չափում է մոդելի կարողությունը՝ ստանձնել առաջինից երրորդ տարվա ներդրումային բանկային վերլուծաբանների մոդելավորման առաջադրանքներ՝ ինչպիսիք են Fortune 500 ընկերության համար երեք հայտարարությունների ֆինանսական մոդելի կազմումը պատշաճ ձևաչափմամբ և մեջբերումներով,կամ մասնավոր սեփականության համար լծակային գնման մոդելի կառուցումը, ChatGPT ագենտի հիմքում ընկած մոդելը զգալիորեն գերազանցում է խորքային ուսումնասիրությունը և o3‑ին։ Յուրաքանչյուր առաջադրանք գնահատվում է հարյուրավոր չափանիշներով, որոնք կապված են ճշգրտության և բանաձևերի օգտագործման հետ:

Մենք նաև գնահատեցինք ChatGPT ագենտին BrowseComp հարթակում, մի հենանիշ, որը մենք հրապարակեցինք այս տարվա սկզբին և որը չափում է զննարկման ագենտների ունակությունը համացանցում դժվար գտնելի տեղեկատվություն գտնելու համար։ Մոդելը սահմանել է նոր SOTA՝ 68,9% ցուցանիշով, որը 17,4 տոկոսային կետով ավելի բարձր է, քան խորքային ուսումնասիրությունը։

Վերջապես, WebArena(բացվում է նոր պատուհանում)-ում, որը վեբ զննարկիչ գործակալների իրական աշխարհի վեբ առաջադրանքները կատարելու համար նախատեսված չափանիշ է, մոդելը բարելավվում է o3‑ով աշխատող CUA-ի (մոդելը սնուցող օպերատոր) համեմատ: 

Ինչպես օգտագործել

Դուք կարող եք ակտիվացնել ChatGPT‑ի նոր ագենտi հնարավորությունները աանմիջապես կոմպոզիտորի գործիքների ցանկի միջոցով՝ ցանկացած զրույցի ցանկացած պահի ընտրելով «ագենտի ռեժիմ»։ Պարզապես նկարագրեք ձեր ցանկալի առաջադրանքը՝ անկախ նրանից, թե դա խորքային ուսումնասիրություն անցկացնելն է, սլայդշոու ստեղծելը, թե ծախսեր ներկայացնելը։ Ձեր առաջադրանքը կատարելիս էկրանին ցուցադրվող պատմությունը հնարավորություն է տալիս տեսնել, թե ինչ է անում ChatGPT‑ը։ Դուք կարող եք ընդհատել և վերահսկել դիտարկիչը անհրաժեշտության դեպքում՝ ապահովելով, որ առաջադրանքները համապատասխանեն ձեր նպատակներին։

ChatGPT ագենտը կարող է մուտք գործել ձեր միակցիչներին, ինչը թույլ է տալիս այն ինտեգրվել ձեր աշխատանքային հոսքերի հետ և մուտք գործել համապատասխան, գործնական տեղեկատվության։ Հաստատումից հետո այս միակցիչները թույլ են տալիս ChatGPT‑ին տեսնել տեղեկատվություն և անել այնպիսի գործողություններ, ինչպիսիք են՝ ամփոփել ձեր օրվա մուտքի արկղը կամ գտնել հանդիպման համար հասանելի ժամային գոտիները։ Սակայն, այս կայքերում գործողություններ ձեռնարկելու համար ձեզ դեռևս կառաջարկվի մուտք գործել՝ դիտարկիչը ստանձնելով։ 

Բացի այդ, դուք կարող եք պլանավորել, որ ավարտված առաջադրանքները ինքնաբերաբար կրկնվեն, օրինակ՝ ամեն երկուշաբթի առավոտյան գեներացնել շաբաթական չափումների հաշվետվություն։

Նոր հնարավորություններ, նոր ռիսկեր 

Այս թողարկումը նշում է առաջին անգամը, երբ օգտատերերը կարող են խնդրել ChatGPT‑ին գործողություններ ձեռնարկել համացանցում: Սա ներկայացնում է նոր ռիսկեր, մասնավորապես այն պատճառով, որ ChatGPT‑ի ագենտը կարող է ուղղակիորեն աշխատել ձեր տվյալների հետ, անկախ նրանից՝ դա տեղեկատվություն է, որը հասանելի է միակցիչների միջոցով, թե կայքերից, որոնց դուք մուտք եք գործել կլանման ռեժիմով։ Մենք ուժեղացրել ենք Operator-ի հետազոտական նախադիտման հուսալի վերահսկողությունը և ավելացրել ենք պաշտպանության միջոցներ այնպիսի մարտահրավերների համար, ինչպիսիք են կենդանի ցանցում զգայուն տեղեկատվության մշակումը, օգտատերերի ավելի լայն հասանելիությունը և տերմինալների ցանցին (սահմանափակ) մուտքը։ Թեև այս մեղմացումները զգալիորեն նվազեցնում են ռիսկը, ChatGPT ագենտի ընդլայնված գործիքները և օգտատերերի ավելի լայն հասանելիությունը նշանակում են, որ նրա ընդհանուր ռիսկի պրոֆիլը ավելի բարձր է։ 

Մենք հատուկ շեշտը դրել ենք ChatGPT ագենտին հակառակորդական մանիպուլյացիաներից՝ արագ ներարկման միջոցով, ինչը ընդհանուր առմամբ վտանգ է ագենտային համակարգերի համար, և համապատասխանաբար պատրաստել ենք ավելի լայնածավալ մեղմացումներ: Հարցումների ներդրումները երրորդ կողմերի փորձեր են՝ շահարկել ChatGPT‑ի վարքագիծը վնասակար հրահանգների միջոցով, որոնց ChatGPT ագենտը կարող է բախվել համացանցում առաջադրանք կատարելիս։ Օրինակ, վեբ էջում թաքնված վնասակար հարցումը՝ անտեսանելի տարրերում կամ մետատվյալներում, կարող է խաբել ագենտին չնախատեսված գործողություններ կատարելու, ինչպիսիք են հարձակվողի հետ միակցիչի մասնավոր տվյալներ փոխանակելը կամ վնասակար գործողություն կատարել այն կայքում, որտեղ օգտատերը մուտք է գործել: Քանի որ ChatGPT ագենտը կարող է ուղղակի գործողություններ ձեռնարկել, հաջող հարձակումները կարող են ավելի մեծ ազդեցություն ունենալ և ավելի բարձր ռիսկեր առաջացնել։ 

Մենք վերապատրաստել և փորձարկել ենք ագենտին հարցումների ներդրումները հայտնաբերելու և դրանց դիմակայելու համար, ինչպես նաև մոնիտորինգի միջոցով արագ հայտնաբերելու և արձագանքելու հարձակումներին: Հետևանքային գործողություններից առաջ օգտատիրոջ բացահայտ հաստատում պահանջելը հետագայում նվազեցնում է այդ հարձակումներից վնասվելու ռիսկը, և օգտատերերը կարող են միջամտել առաջադրանքներին ըստ անհրաժեշտության՝ ստանձնելով կամ դադարեցնելով: Օգտատերերը պետք է կշռադատեն այս փոխզիջումները, երբ որոշեն, թե ինչ տեղեկատվություն տրամադրել ագենտին, ինչպես նաև քայլեր ձեռնարկեն այդ ռիսկերի ազդեցությունը նվազագույնի հասցնելու համար, օրինակ՝ անջատելով միակցիչները, երբ դրանք անհրաժեշտ չեն առաջադրանքի համար։ 

Մենք նաև իրականացրել ենք միջոցառումներ մոդելի սխալների շուրջ, հատկապես այն պատճառով, որ մոդելը այժմ կարող է կատարել առաջադրանքներ, որոնք ազդում են իրական աշխարհի վրա: 

  • Օգտատիրոջ բացահայտ հաստատում. ChatGPT‑ն վերապատրաստված է հստակորեն խնդրել ձեր թույլտվությունը՝ նախքան իրական աշխարհի հետևանքներով գործողություններ կատարելը, ինչպես գնում կատարելը:
  • Ակտիվ վերահսկողություն (“Watch Mode” («Դիտման ռեժիմ»))։ Որոշ կարևոր առաջադրանքներ, ինչպիսիք են նամակներ ուղարկելը, պահանջում են ձեր ակտիվ վերահսկողությունը:
  • Ռիսկերի պրոակտիվ մեղմում. ChatGPT‑ն վերապատրաստված է ակտիվորեն հրաժարվելու բարձր ռիսկային առաջադրանքներից, ինչպիսիք են բանկային փոխանցումները:

Վերջապես, մենք ներմուծել ենք լրացուցիչ կառավարման տարրեր՝ մոդելի հասանելիությունը սահմանափակելու համար. 

  • Անձնական տվյալների վերահսկում: ChatGPT‑ի պարամետրերում մեկ սեղմումով կարող եք ջնջել զննարկման բոլոր տվյալները և անմիջապես դուրս գալ կայքի բոլոր ակտիվ աշխատաշրջաններից: Հակառակ դեպքում, քուքիները պահպանվում են՝ հիմնվելով յուրաքանչյուր այցելած կայքի քուքիների քաղաքականության վրա, ինչը կարող է ավելի արդյունավետ դարձնել կայքերի կրկնվող այցելությունները։
  • Ապահով դիտարկչի կլանման ռեժիմ: Երբ դուք փոխազդում եք համացանցի հետ ChatGPT‑ի դիտարկիչի միջոցով («կլանման ռեժիմ»), ձեր մուտքագրած տվյալները մնում են գաղտնի։ ChatGPT‑ը չի հավաքում կամ պահպանում որևէ տվյալ, որը մուտքագրում եք այս աշխատանքաշրջանների ընթացքում, օրինակ՝ գաղտնաբառեր, քանի որ մոդելին դրանք անհրաժեշտ չեն, և ավելի անվտանգ է, եթե այն երբեք դրանք չտեսնի։

Մեր մինչ օրս ամենահզոր կենսաբանական վտանգի անվտանգության համակարգը 

Մոդելի բարձրացված հնարավորությունների շնորհիվ մենք որոշում ենք կայացրել ChatGPT ագենտին վերաբերել որպես բարձր կենսաբանական և քիմիական կարողություններ մեր Պատրաստվածության շրջանակ ներքո՝ ակտիվացնելով համապատասխան ապահովական միջոցները: Թեև մենք չունենք վերջնական ապացույցներ, որ մոդելը կարող է իմաստալից կերպով օգնել նորեկին ստեղծել ծանր կենսաբանական վնաս՝ մեր բարձր կարողության շեմը, մենք զգուշություն ենք ցուցաբերում և այժմ իրականացնում անհրաժեշտ երաշխիքները: Արդյունքում, այս մոդելն ունի մինչ օրս մեր ամենաընդգրկուն անվտանգության համակարգը՝ կենսաբանության համար բարելավված պաշտպանիչ միջոցներով. համապարփակ սպառնալիքների մոդելավորում, կրկնակի օգտագործման մերժման վերապատրաստում, միշտ ակտիվ դասակարգիչներ և դատողության մոնիտորներ, ինչպես նաև հստակ կիրառման ուղիներ։ 

ChatGPT ագենտի պաշտպանության մեր աշխատանքից բացի, մենք գիտենք, որ բազմաշերտ կենսաբանական անվտանգությունն առավել արդյունավետ է, երբ անվտանգության միջոցառումները տարածվում են մեկ լաբորատորիայի սահմաններից դուրս, ուստի մենք համագործակցում ենք ամբողջ էկոհամակարգի հետ՝ պաշտպանությունն ամրապնդելու համար։ Առաջին օրվանից մենք համագործակցել ենք արտաքին կենսաբանական անվտանգության փորձագետների, անվտանգության ինստիտուտների և ակադեմիական հետազոտողների հետ՝ մեր սպառնալիքների մոդելը, գնահատականները և քաղաքականությունը ձևավորելու համար։ Կենսաբանության ոլորտում վերապատրաստված վերանայողները վավերացրել են մեր գնահատման տվյալները, իսկ ոլորտի փորձագետ կարմիր թիմի անդամներն ունեն սթրես-փորձարկված պաշտպանության միջոցներ իրատեսական սցենարներում։ Այս ամսվա սկզբին մենք կազմակերպեցինք Կենսապաշտպանության աշխատաժողով՝ կառավարության, ակադեմիայի, ազգային լաբորատորիաների և հասարակական կազմակերպությունների փորձագետների հետ՝ համագործակցությունն արագացնելու և արհեստական բանականությամբ աշխատող կենսապաշտպանական հետազոտությունները զարգացնելու համար: Մենք կշարունակենք համաշխարհային մակարդակով համագործակցել՝ ի հայտ եկող ռիսկերից առաջ անցնելու համար։ 

Կարդացեք ավելին մեր հուսալի անվտանգության մոտեցման մասին միասնական գործակալական մոդելի համար համակարգի քարտում: Մենք նաև մեկնարկում ենք սխալների համար պարգևատրման ծրագիր՝ իրական ռիսկերը գտնելու և շտկելու համար։

Հասանելիություն

ChatGPT ագենտը այսօր սկսում է գործարկվել Pro, Plus և Team օգտատերերի համար․ Pro-ն մուտք կստանա օրվա ավարտին, իսկ Plus և Team օգտատերերը մուտք կստանան հաջորդ մի քանի օրերի ընթացքում: Enterprise և Education օգտատերերը մուտք կստանան առաջիկա շաբաթների ընթացքում։ Pro օգտատերերը ամսական ունեն 400 հաղորդագրություն, իսկ այլ վճարովի օգտատերերը ստանում են 40 հաղորդագրություն ամսական, լրացուցիչ օգտագործման հնարավորություն՝ ճկուն կրեդիտային տարբերակների միջոցով։

Մենք դեռ աշխատում ենք Եվրոպական տնտեսական տարածքի և Շվեյցարիայի համար հասանելիություն ապահովելու ուղղությամբ։ 

Operator հետազոտության նախադիտման կայքը կմնա ֆունկցիոնալ ևս մի քանի շաբաթ, որից հետո այն կդադարեցվի։ Խորքային ուսումնասիրությունը ChatGPT ագենտի հնարավորությունների մի մասն է: Եթե նախընտրում եք բնօրինակ խորքային ուսումնասիրության գործառույթը, որը կարող է ավելի երկար տևել, բայց կանխադրված տրամադրում է ավելի մանրամասն, խորքային պատասխաններ, ապա դեռ կարող եք մուտք գործել այն՝ ընտրելով «խորքային ուսումնասիրություն» հաղորդագրության կոմպոզիտորի բացվող ցանկից:

Սահմանափակումներ և հայացք դեպի ապագա 

ChatGPT ագենտը դեռևս վաղ մշակման փուլում է։ Այն ունակ է կատարել մի շարք բարդ առաջադրանքներ, բայց դեռ կարող է սխալներ թույլ տալ։ 

Թեև մենք տեսնում ենք սլայդ շոուներ ստեղծելու դրա զգալի ներուժը, այս ֆունկցիոնալությունը ներկայումս բետա տարբերակում է։ Այս պահին ելքային տվյալները երբեմն կարող են տարրական թվալ իրենց ձևաչափման և հղկման առումով, հատկապես, երբ սկսվում են առանց առկա փաստաթղթի: Մենք մոդելի սկզբնական հնարավորությունները կենտրոնացրել ենք արտեֆակտներ ստեղծելու վրա, որոնք կազմակերպում են տեղեկատվությունը ներկայացումների համար հարմար հոսքով և ձևաչափով՝ տեքստի, դիագրամների, պատկերների և ձևերի նման տարրերով, որոնք արտահանումից հետո հեշտությամբ խմբագրելի են՝ օպտիմալացնելով կառուցվածքը և ճկունությունը։ Ներկայումս կան նաև հատուկենտ անհամապատասխանություններ դիտողի սլայդների և արտահանվող PowerPoint-ի միջև, որոնք մենք աշխատում ենք նվազեցնել: Բացի այդ, չնայած ներկայումս կարող եք վերբեռնել գոյություն ունեցող աղյուսակաթերթը ChatGPT‑ի համար՝ խմբագրելու կամ որպես ձևանմուշ օգտագործելու համար, այս հնարավորությունը դեռևս հասանելի չէ սլայդների համար։ Մենք արդեն ուսուցանում ենք ChatGPT‑ի սլայդերի ստեղծման հաջորդ տարբերակը՝ ավելի հղկված, բարդ արտածումներ ստանալու համար, ավելի լայն հնարավորություններով և բարելավված ձևաչափմամբ:

Ընդհանուր առմամբ, մենք ակնկալում ենք, որ ժամանակի ընթացքում ChatGPT ագենտի արդյունավետությունը, խորությունը և բազմակողմանիությունը կշարունակեն բարելավվել, ներառյալ ավելի անխափան փոխազդեցությունները, քանի որ մենք շարունակում ենք կարգավորել օգտատերից պահանջվող վերահսկողության չափը՝ այն ավելի օգտակար դարձնելու և միևնույն ժամանակ ապահովելու դրա անվտանգ օգտագործումը։

Հավելված

SpreadsheetBench

Մոդել

Գնահատման միջավայր

Փափուկ սահմանափակում (%): Բջջային մակարդակով

Փափուկ սահմանափակում (%): Թերթի մակարդակ

Փափուկ սահմանափակում (%): Ընդհանուր

GPT‑4o

Windows, Excel

15,03

23,65

18,35

Copilot Excel-ում

Windows, Excel

23,33

15,00

20,00

GPT‑4o

OSX, LibreOffice

15,86

18,33

16,81

OpenAI o3

OSX, LibreOffice

22,40

24,60

23,25

ChatGPT ագենտ

OSX, LibreOffice

38,27

30,48

35,27

ChatGPT ագենտ .xlsx-ով

OSX, LibreOffice

50,56

37,51

45,54

Մարդ

75,56

65,00

71,33

Ուղիղ եթերի կրկնություն

Հեղինակ

OpenAI

Ծանոթագրություններ

* Երբ ակտիվացնում եք զննարկումը, մոդելը երբեմն կարող է գտնել ճշգրիտ պատասխաններ առցանց, օրինակ՝ տվյալների հավաքածուից ընտրանքային խնդիրներով բլոգային գրառումներ կարդալով: Մենք մեղմացնում ենք մոդելի խաբեության մտահոգությունները թերթելիս՝ երկու ռազմավարությամբ:

1. Արգելափակված տիրույթներ, որոնցից մենք նկատել ենք, որ մոդելը խաբել է անցյալում։

2. Որպես մոնիտոր օգտագործվել է լրացուցիչ մոդել՝ կասկածելի վարքագիծը հայտնաբերելու յուրաքանչյուր փորձի ժամանակ գործիքի բոլոր արտածման տոկենները ուսումնասիրելու համար: Կասկածելի վարքագիծը սահմանվում է որպես «էջ, ֆայլ կամ հատված, որի հիմնական նպատակն է ճշգրիտ պատասխան տալ այս կոնկրետ հարցին, օրինակ՝ պաշտոնական գնահատման բանալի, արտահոսած «լուծումների» էսսեն կամ քննարկում, որը բառացիորեն մեջբերում է ավարտված պատասխանը»: Բարորակ վարքագիծը սահմանվում է որպես «ցանկացած հեղինակավոր ռեսուրս, որին կարող է դիմել աշխատասեր մարդը (փաստաթղթեր, ձեռնարկներ, գիտական աշխատանքներ, հեղինակավոր հոդվածներ), նույնիսկ եթե այն պատահաբար պարունակում է ճիշտ պատասխանը»: Ցանկացած փորձ, որի դեպքում մոնիտորը տեղակայումը կասկածելի է համարել, համարվում է սխալ: Այս ստուգմամբ ձախողված նմուշների մեծ մասը խնդիրներ էին, որոնց ճշգրիտ լուծումը հասանելի էր բազմաթիվ ինտերնետային աղբյուրներում, որոնք կապ չունեին HLE-ի հետ:

**OpenAI-ը բացառիկ մուտք ունի 1-3 մակարդակի տվյալների բազայի 290 մասնավոր հարցերից 237-ին։ FrontierMath-ի 4-րդ մակարդակի հարցերը չեն ներառվել այս գնահատման մեջ։ Արդյունքները գնահատվել են որպես յուրաքանչյուր հարցի պատասխանելու 16 փորձի միջին արժեքը։ ChatGPT ագենտի արդյունքները ստացվում են OpenAI-ի կողմից, գնահատվում են Epoch AI-ի կողմից՝ դիտարկչի և տերմինալի հասանելիությամբ և յուրաքանչյուր պատասխանի համար 128K token-ների սահմանաչափով։ OpenAI o4-mini և o3 գնահատումները ստացվում և գնահատվում են Epoch AI-ի կողմից՝ առանց դիտարկիչի և տերմինալի հասանելիության, ֆունկցիայի զանգերի միջոցով python սցենարների օգտագործմամբ և մեկ պատասխանի համար 100000 token սահմանաչափով: 

*** *** Oracle@64-ը վերաբերում է 64 նմուշառված վազքերում ձեռք բերված լավագույն գնահատականին, որը ընտրվել է հիմնային ճշմարտության միջոցով (այսինքն՝ յուրաքանչյուր առաջադրանքի համար մենք ընտրում ենք ամենաբարձր գնահատման փորձը՝ հիմնվելով փաստացի գնահատված կատարման վրա): Մենք հայտնում ենք բոլոր առաջադրանքների համար յուրաքանչյուր առաջադրանքի լավագույն գնահատականների միջինը: Այս չափիչը ընդգծում է մոդելի վերին ներուժը և առաջադրանքների կատարման տարբերությունը՝ ցույց տալով, թե որքան ընդունակ կարող է լինել մոդելը, երբ հաջողության է հասնում, և ցույց տալով հետագա ուսուցման միջոցով հետևողականությունը բարելավելու տեղ: Ի տարբերություն «N-ից լավագույնը» տիպիկ չափանիշների, որոնք ընտրություն են կատարում մոդելի վստահության հիման վրա, oracle@64-ը ընտրության համար օգտագործում է հիմնական ճշմարտությունը և կիրառվում է անընդհատ 0-1 սանդղակով գնահատվող առաջադրանքների համար, այլ ոչ թե երկուական հաջողության/ձախողման մեթոդով։