14 մարտի, 2023 թ.

GPT‑4

Կարդալ հոդվածը Դիտել համակարգի քարտը Փորձեք ChatGPT Plus-ը

Լրացուցիչ ռեսուրսներ

Փորձեք Playground-ում Վերադիտել ցուցադրական ուղիղ հեռարձակումը Նպաստեք OpenAI Evals-ին

Բեռնվում է…

Մենք ստեղծել ենք GPT‑4‑ը՝ OpenAI-ի խորքային ուսուցման ընդլայնման ջանքերի վերջին հանգրվանը: GPT‑4‑ը մեծ մուլտիմոդալ մոդել է (որը որպես մուտքային տվյալներ ընդունում է և՛ պատկերները, և՛ տեքստը, և՛ արտածում տեքստային տվյալներ), որը, չնայած իրական աշխարհի շատ սցենարներում զիջում է մարդկանց, ցուցադրում է մարդկային մակարդակի արդյունավետություն տարբեր մասնագիտական և ակադեմիական չափանիշներով։ Օրինակ՝ այն անցնում է մոդելավորված սիմուլյացիոն քննություն՝ ստանալով քննություն հանձնողների մոտ լավագույն 10%-ի գնահատականը, մինչդեռ GPT‑3.5‑ի գնահատականը մոտ ամենացածր 10%-ն էր։ Մենք 6 ամիս շարունակ կրկնակի համապատասխանեցրել ենք⁠ GPT‑4‑ը՝ օգտագործելով մեր հակառակորդային թեստավորման ծրագրի և ChatGPT‑ի դասերը, ինչը հանգեցրել է մեր երբևէ լավագույն արդյունքների (չնայած հեռու էին կատարյալ լինելուց) փաստացիության, կառավարելիության և սահմանափակումներից դուրս չգալու առումով։

Վերջին երկու տարիների ընթացքում մենք ամբողջությամբ վերակառուցել ենք մեր խորքային ուսուցման լուծումների փաթեթը և համագործակցել ենք Azure-ի հետ՝ մեր աշխատանքային ծանրաբեռնվածության համար զրոյից սուպերհամակարգիչ կառուցելու համար։ Մեկ տարի առաջ մենք GPT‑3.5‑ը ուսուցանեցինք որպես համակարգի առաջին «փորձարկում»։ Մենք գտանք և շտկեցինք որոշ սխալներ և բարելավեցինք մեր տեսական հիմքերը: Արդյունքում, մեր GPT‑4‑ի ուսուցման գործընթացը (մեզ համար առնվազն) աննախադեպ կայուն էր՝ դառնալով մեր առաջին խոշոր մոդելը, որի ուսուցման կատարումը մենք կարողացանք նախապես ճշգրիտ կանխատեսել: Քանի որ մենք շարունակում ենք կենտրոնանալ հուսալի մասշտաբավորման վրա, մենք նպատակ ունենք կատարելագործել մեր մեթոդաբանությունը՝ օգնելու մեզ կանխատեսել և նախապատրաստվել ապագա հնարավորություններին ավելի վաղ, ինչը մենք համարում ենք անվտանգության համար կարևոր:

Մենք թողարկում ենք GPT‑4‑ի տեքստի մուտքագրում հնարավորությունը ChatGPT‑ի և API-ի միջոցով (սպասման ցուցակով):⁠ Պատկերի մուտքագրման հնարավորությունը ավելի լայն հասանելիության համար պատրաստելու նպատակով մենք սերտորեն համագործակցում ենք միայն մեկ գործընկերոջ⁠(բացվում է նոր պատուհանում) հետ՝ սկսելու համար։ Մենք նաև բաց կոդով ենք թողարկում OpenAI Evals⁠(բացվում է նոր պատուհանում)-ը՝ մեր ԱԲ մոդելների կատարողականության ավտոմատացված գնահատման շրջանակը, որպեսզի թույլ տանք յուրաքանչյուրին հաղորդել մեր մոդելների թերությունների մասին՝ նպաստելու հետագա բարելավումներին։

Հնարավորություններ

Պատահական խոսակցության ժամանակ GPT‑3.5‑ի և GPT‑4‑ի տարբերությունը կարող է աննշան լինել: Տարբերությունը ի հայտ է գալիս, երբ առաջադրանքի բարդությունը հասնում է բավարար շեմի՝ GPT‑4‑ը ավելի հուսալի է, ստեղծագործական և կարող է մշակել շատ ավելի նրբերանգային հրահանգներ, քան GPT‑3.5‑ը։

Երկու մոդելների միջև եղած տարբերությունը հասկանալու համար մենք փորձարկումներ անցկացրեցինք տարբեր չափանիշներով, այդ թվում՝ սիմուլյացիաներով, որոնք սկզբնապես նախատեսված էին մարդկանց համար։ Մենք շարունակեցինք՝ օգտագործելով հանրությանը հասանելի ամենավերջին թեստերը (Օլիմպիադաների և AP անվճար պատասխանների հարցերի դեպքում) կամ գնելով պրակտիկ քննությունների 2022–2023 թվականների հրատարակությունները։ Մենք այս քննությունների համար հատուկ ուսուցում չենք անցկացրել։ Քննությունների խնդիրների մի փոքրամասնությունը մոդելի կողմից դիտվել է ուսուցման ընթացքում, բայց մենք կարծում ենք, որ արդյունքները ներկայացուցչական են։ Մանրամասների համար տե՛ս մեր տեխնիկական զեկույցը⁠(բացվում է նոր պատուհանում) ։

ներքին հղում ¹

Բեռնվում է...

Մենք նաև գնահատեցինք GPT‑4‑ը ավանդական հենանիշների վրա, որոնք նախատեսված են մեքենայական ուսուցման մոդելների համար: GPT‑4‑ը զգալիորեն գերազանցում է գոյություն ունեցող մեծ լեզվի մոդելներին՝ ժամանակակից (SOTA) մոդելների մեծ մասի հետ, որոնք կարող են ներառել հենանիշային հատուկ մշակվածություն կամ լրացուցիչ ուսուցման արձանագրություններ։

Բեռնվում է...

Շատ առկա ML հենանիշներ գրված են անգլերենով: Այլ լեզուներով կարողությունների նախնական զգացում ստանալու համար մենք թարգմանեցինք MMLU հենանիշը՝ 57 առարկա ընդգրկող 14000 բազմակի ընտրության խնդիրների հավաքածու, մի շարք լեզուներով՝ օգտագործելով Azure Translate (տես Հավելված⁠): Փորձարկված 26 լեզուներից 24-ում GPT‑4‑ը գերազանցում է GPT‑3.5‑ի և այլ LLM-ների (Chinchilla, PaLM) անգլերեն կատարողականը, ներառյալ ցածր ռեսուրսային լեզուների համար, ինչպիսիք են լատվիերենը, ուելսերենը և սուահիլին:

Բեռնվում է...

Մենք նաև ներքին կարգով օգտագործում ենք GPT‑4‑ը՝ մեծ ազդեցություն ունենալով այնպիսի գործառույթների վրա, ինչպիսիք են աջակցումը, վաճառքը, բովանդակության մոդերացիան և ծրագրավորումը: Մենք նաև օգտագործում ենք այն՝ օգնելու մարդկանց գնահատել ԱԲ-ի արտածումները՝ սկսելով մեր համապատասխանեցման ռազմավարության երկրորդ փուլը⁠։

Վիզուալ մուտքագրումներ

GPT‑4‑ը կարող է ընդունել տեքստի և պատկերների հարցում, որը՝ տեքստային կարգավորմանը զուգահեռ, թույլ է տալիս օգտատիրոջը նշել ցանկացած տեսողական կամ լեզվական առաջադրանք։ Մասնավորապես, այն գեներացնում է տեքստային արտածումներ (բնական լեզու, կոդ և այլն)՝ տրված մուտքագրումներ, որոնք բաղկացած են խառը տեքստից և պատկերներից։ Տարբեր տիրույթներում՝ ներառյալ տեքստով և լուսանկարներով փաստաթղթերը, դիագրամները կամ սքրինշոթները, GPT‑4‑ը ցուցադրում է նույնատիպ հնարավորություններ, ինչպես միայն տեքստային մուտքագրումների դեպքում: Ավելին, այն կարող է լրացվել միայն տեքստային լեզվի մոդելների համար մշակված փորձարկման ժամանակի ներառյալ փոքր թվով օրինակներ և մտքերի շղթայական⁠(բացվում է նոր պատուհանում) հուշումներ։ Պատկերի մուտքագրումները դեռևս հետազոտական նախադիտման փուլում են և հրապարակայնորեն հասանելի չեն։

Բեռնվում է...

Մենք նախնականորեն գնահատում ենք GPT‑4‑ի արդյունավետությունը՝ օգտագործելով ակադեմիական տեսողության ստանդարտ թեստերի նեղ շարք։ Այնուամենայնիվ, այս թվերը լիովին չեն արտացոլում դրա հնարավորությունների ամբողջականությունը, քանի որ մենք անընդհատ հայտնաբերում ենք նոր և հետաքրքիր առաջադրանքներ, որոնք մոդելը կարողանում է լուծել: Մենք պլանավորում ենք շուտով թողարկել հետագա վերլուծություններն ու գնահատման թվերը, ինչպես նաև մանրակրկիտ ուսումնասիրություն փորձարկման ժամանակի տեխնիկաների ազդեցության վերաբերյալ։

ներքին ծանոթագրություն^A

Բեռնվում է...

Կառավարելիություն

Մենք աշխատել ենք մեր գրառման մեջ նշված ԱԲ-ների վարքագիծը սահմանելու⁠ պլանի յուրաքանչյուր ասպեկտի վրա, ներառյալ կառավարելիությունը: Ոչ թե դասական ChatGPT անհատականությունը՝ ֆիքսված խոսքի ծավալով, տոնով և ոճով, այլ այժմ ծրագրավորողները (և շուտով ChatGPT օգտատերերը) կարող են սահմանել իրենց ԱԲ-ի ոճն ու առաջադրանքը՝ նկարագրելով այդ ուղղությունները «համակարգի» հաղորդագրության մեջ: Համակարգի հաղորդագրությունները թույլ են տալիս API-ի օգտատերերին զգալիորեն հարմարեցնել իրենց օգտատերերի փորձը սահմաններում⁠(բացվում է նոր պատուհանում)։ Մենք կշարունակենք կատարել բարելավումներ այստեղ որ համակարգային հաղորդագրությունները ներկայիս մոդելը «ջեյլբրեյք» անելու ամենահեշտ ձևն են, այսինքն՝ սահմաններին հետևելը կատարյալ չէ), բայց մենք խրախուսում ենք ձեզ փորձել այն և տեղեկացնել մեզ, թե ինչ եք մտածում։

Բեռնվում է...

Սահմանափակումներ

Չնայած իր հնարավորություններին, GPT‑4‑ը ունի նմանատիպ սահմանափակումներ, ինչպես ավելի վաղ GPT մոդելները: Ամենակարևորը՝ այն դեռևս լիովին վստահելի չէ (այն «հալյուցինացնում» է փաստերը և պատճառաբանական սխալներ է թույլ տալիս)։ Լեզվի մոդելի արտածումները օգտագործելիս պետք է մեծ զգուշություն ցուցաբերել, մասնավորապես բարձր ռիսկային համատեքստերում, և ճշգրիտ արձանագրությունը (օրինակ՝ մարդկային վերանայում, լրացուցիչ համատեքստով հիմնավորում կամ բարձր ռիսկային օգտագործումներից ընդհանրապես խուսափել) համապատասխանեցնելով որոշակի օգտագործման դեպքի կարիքներին։

Թեև դեռևս իրական խնդիր է, GPT‑4‑ը զգալիորեն նվազեցնում է հալյուցինացիաները նախորդ մոդելների համեմատ (որոնք իրենց հերթին բարելավվում են յուրաքանչյուր կրկնության հետ): GPT‑4‑ի արդյունքները 40%-ով ավելի բարձր են, քան մեր վերջին GPT‑3.5 արդյունքները՝ հիմնված մեր ներքին հակադրական փաստահավաք գնահատումների վրա։

Բեռնվում է...

Մենք առաջընթաց ենք գրանցել արտաքին հենանիշների վրա, ինչպիսիք են TruthfulQA-ն, որը ստուգում է մոդելի կարողությունը՝ փաստերը հակառակորդ կեղծ պնդումների ամբողջությունից առանձնացնելու համար։ Այս հարցերը զուգորդվում են փաստացի սխալ պատասխաններով, որոնք վիճակագրորեն գրավիչ են։

Բեռնվում է...

GPT‑4 բազային մոդելը միայն մի փոքր ավելի լավ է այս առաջադրանքում, քան GPT‑3.5‑ը, այնուամենայնիվ, RLHF⁠ հետվերապատրաստումից հետո (կիրառելով նույն գործընթացը, որը մենք օգտագործում էինք GPT‑3.5⁠-ի հետ) մեծ բացթողում կա։ Ստորև բերված որոշ օրինակներ ուսումնասիրելիս, GPT‑4‑ը խուսափում է սովորական ասույթների ընտրությունից (հին շանը նոր հնարքներ չես սովորեցնի), սակայն այն դեռ կարող է բաց թողնել նուրբ մանրամասները (Էլվիս Փրեսլին դերասանի որդին չէր):

Բեռնվում է...

Մոդելը կարող է ունենալ տարբեր շեղումներ իր արդյունքներում. մենք առաջընթաց ենք գրանցել դրանց վրա, բայց դեռ շատ անելիք կա։ Մեր վերջին բլոգի գրառման⁠ համաձայն, մենք նպատակ ունենք մեր կառուցած ԱԲ համակարգերը դարձնել խելամիտ կանխադրված վարքագծերով, որոնք արտացոլում են օգտատերերի արժեքների լայն շրջանակը, թույլ են տալիս այդ համակարգերը հարմարեցնել լայն սահմաններում և ստանալ հանրության կարծիքը այդ սահմանների վերաբերյալ։

GPT‑4‑ը, ընդհանուր առմամբ, չունի տեղեկություններ այն իրադարձությունների մասին, որոնք տեղի են ունեցել իր տվյալների մեծամասնության ավարտից հետո (2021 թվականի սեպտեմբեր), և չի սովորում իր փորձից: Երբեմն նա կարող է պարզ սխալներ թույլ տալ դատողություններում, որոնք առաջին հայացքից չեն համապատասխանում նրա շատ ոլորտներում իրավասության հետ, կամ չափազանց վստահելի լինել՝ ընդունելով օգտատիրոջ հավատքի վերաբերյալ ակնհայտորեն կեղծ պնդումները։ Եվ երբեմն նա կարող է ձախողվել բարդ խնդիրներ լուծելու հարցում այնպես, ինչպես մարդիկ, օրինակ՝ իր գրած կոդում անվտանգության խոցելիություններ ներմուծելով։

GPT‑4‑ը նույնպես կարող է վստահորեն սխալ լինել իր կանխատեսումներում՝ չհոգալով կրկնակի ստուգել աշխատանքը, երբ այն, ամենայն հավանականությամբ, սխալվելու է։ Հետաքրքիր է, որ նախնական պատրաստված բազային մոդելը բարձր կարգավորում ունի (պատասխանի նկատմամբ նրա կանխատեսված վստահությունը սովորաբար համընկնում է դրա ճիշտ լինելու հավանականության հետ): Այնուամենայնիվ, մեր ընթացիկ հետուսուցման գործընթացի միջոցով տրամաչափումը նվազում է:

Բեռնվում է...

Ռիսկերը և մեղմացնող միջոցները

Մենք կատարելագործում ենք GPT‑4‑ը՝ այն ավելի անվտանգ և համահունչ դարձնելու համար ուսուցման սկզբից, ներառյալ նախապատրաստման տվյալների ընտրությունն ու զտումը, գնահատումները և փորձագետների ներգրավումը, մոդելի անվտանգության բարելավումները, ինչպես նաև մոնիտորինգը և կիրարկումը:

GPT‑4‑ը պարունակում է նմանատիպ ռիսկեր, ինչպես նախորդ մոդելները, ինչպիսիք են վնասակար խորհուրդներ գեներացնելը, սխալ կոդը կամ ոչ ճշգրիտ տեղեկատվությունը։ Այնուամենայնիվ, GPT‑4‑ի լրացուցիչ հնարավորությունները հանգեցնում են նոր ռիսկային մակերեսների առաջացմանը։ Այս ռիսկերի չափը հասկանալու համար մենք ներգրավել ենք ավելի քան 50 փորձագետի այնպիսի ոլորտներից, ինչպիսիք են արհեստական բանականության համապատասխանեցման ռիսկերը, կիբերանվտանգությունը, կենսաբանական ռիսկերը, վստահությունն ու անվտանգությունը, ինչպես նաև միջազգային անվտանգությունը՝ մոդելը մրցակցային կարգով փորձարկելու համար։ Նրանց արդյունքները մասնավորապես թույլ տվեցին մեզ փորձարկել մոդելային վարքագիծը բարձր ռիսկի գոտիներում, որոնց գնահատման համար անհրաժեշտ է փորձագիտություն։ Այս փորձագետների կարծիքն ու տվյալները նպաստեցին մեր մոդելի մեղմացումներին և բարելավումներին. օրինակ, մենք հավաքել ենք լրացուցիչ տվյալներ՝ բարելավելու GPT‑4‑ի ունակությունը մերժելու վտանգավոր քիմիական նյութերի սինթեզման վերաբերյալ հարցումները:

GPT‑4‑ը ներառում է լրացուցիչ անվտանգության պարգևատրման ազդանշան RLHF ուսուցման ընթացքում՝ վնասակար արտածումները նվազեցնելու համար (ինչպես սահմանված է մեր օգտագործման ուղեցույցներում⁠(բացվում է նոր պատուհանում))՝ մոդելին վերապատրաստելով նման բովանդակության հարցումներից հրաժարվելու համար։ Պարգևատրումը տրամադրվում է GPT‑4 զրոյական բարդության դասակարգիչի կողմից, որը գնահատում է անվտանգության սահմանները և ավարտի ոճը անվտանգության հետ կապված հարցումների վրա: Մոդելի կողմից վավեր հարցումների մերժումը կանխելու համար մենք հավաքում ենք բազմազան տվյալների հավաքածու տարբեր աղբյուրներից (օրինակ՝ պիտակավորված արտադրության տվյալներ, մարդկային կարմիր թիմ, մոդելի ստեղծած հարցումներ) և կիրառում անվտանգության պարգևատրման ազդանշանը (դրական կամ բացասական արժեքով) ինչպես թույլատրված, այնպես էլ արգելված կատեգորիաների վրա:

Մեր մեղմացումները զգալիորեն բարելավել են GPT‑4‑ի անվտանգության հատկություններից շատերը՝ համեմատած GPT‑3.5‑ի հետ։ Մենք կրճատել ենք մոդելի հակումը արձագանքելու արգելված բովանդակության հարցումներին 82%-ով՝ համեմատած GPT‑3.5‑ի հետ, իսկ GPT‑4‑ը 29%-ով ավելի հաճախ է պատասխանում զգայուն հարցումներին (օրինակ՝ բժշկական խորհրդատվություն և ինքնավնասում)՝ համաձայն մեր քաղաքականության:

Բեռնվում է...

Ընդհանուր առմամբ, մեր մոդելի մակարդակի միջամտությունները մեծացնում են վատ վարք դրսևորելու դժվարությունը, բայց դա դեռ հնարավոր է: Բացի այդ, դեռևս գոյություն ունեն “jailbreak”-ներ՝ բովանդակություն գեներացնելու համար, որոնք խախտում են մեր օգտագործման ուղեցույցները⁠։ Քանի որ ԱԲ համակարգերի «ռիսկը մեկ token-ի համար» մեծանում է, կարևոր կդառնա այս միջամտություններում հուսալիության չափազանց բարձր աստիճանների հասնելը. այժմ կարևոր է լրացնել այս սահմանափակումները տեղակայման ժամանակի անվտանգության տեխնիկայով, ինչպիսիք են չարաշահումների մոնիտորինգը:

GPT‑4 և հաջորդող մոդելները կարող են զգալիորեն ազդել հասարակության վրա՝ ինչպես դրական, այնպես էլ բացասական ձևերով։ Մենք համագործակցում ենք արտաքին հետազոտողների հետ՝ բարելավելու մեր ըմբռնումն ու գնահատումը պոտենցիալ ազդեցությունների, ինչպես նաև ստեղծելու գնահատականներ վտանգավոր կարողությունների համար, որոնք կարող են ի հայտ գալ ապագա համակարգերում։ Մենք շուտով ավելի մանրամասն կկիսվենք մեր մտքերով GPT‑4‑ի և այլ AI համակարգերի հնարավոր սոցիալական և տնտեսական ազդեցությունների վերաբերյալ:

Ուսուցման գործընթաց

Նախորդ GPT մոդելների նման, GPT‑4 բազային մոդելը վերապատրաստվել է փաստաթղթի հաջորդ բառը կանխատեսելու համար և վերապատրաստվել է՝ օգտագործելով հանրային հասանելի տվյալներ (օրինակ՝ ինտերնետային տվյալներ), ինչպես նաև մեր լիցենզավորված տվյալները: Տվյալները վեբ-մասշտաբային կորպուս են, որը ներառում է մաթեմատիկական խնդիրների ճիշտ և սխալ լուծումներ, թույլ և ուժեղ պատճառաբանություններ, ինքնահակասող և հետևողական հայտարարություններ և ներկայացնում է գաղափարախոսությունների և գաղափարների մեծ բազմազանություն:

Այսպիսով, երբ հարցում է տրվում, բազային մոդելը կարող է պատասխանել տարբեր ձևերով, որոնք կարող են հեռու լինել օգտատիրոջ մտադրությունից։ Որպեսզի այն համապատասխանեցվի օգտատիրոջ մտադրությանը սահմանափակումների շրջանակներում, մենք ճշգրտում ենք մոդելի վարքագիծը՝ օգտագործելով ամրապնդումով ուսուցում՝ մարդու կարծիքի հետ (RLHF):⁠

Նկատի ունեցեք, որ մոդելի հնարավորությունները հիմնականում գալիս են նախնական ուսուցման գործընթացից. RLHF-ը չի բարելավում քննության արդյունքները (առանց ակտիվ ջանքերի, այն իրականում վատթարացնում է դրանք): Բայց մոդելի կառավարումը գալիս է հետուսուցման գործընթացից՝ բազային մոդելը պահանջում է հարցումների կազմում, որպեսզի իմանա, որ պետք է պատասխանի հարցերին:

Կանխատեսելի մասշտաբավորում

GPT‑4 նախագծի մեծ ուշադրության կենտրոնում է եղել կանխատեսելիորեն մասշտաբավորվող խորքային ուսուցման հարթակի ստեղծումը։ Հիմնավորելու հիմնական պատճառը այն է, որ GPT‑4‑ի նման շատ մեծ ուսուցման վազքերի համար հնարավոր չէ մոդելի հատուկ լայնածավալ կարգաբերում իրականացնել: Մենք մշակել ենք ենթակառուցվածքներ և օպտիմալացում, որոնք ունեն շատ կանխատեսելի վարքագիծ բազմաթիվ մասշտաբներում։ Այս մասշտաբայնությունը հաստատելու համար մենք նախապես ճշգրիտ կանխատեսեցինք GPT‑4‑ի վերջնական կորուստը մեր ներքին կոդային բազայում (որը ուսուցման հավաքածուի մաս չէ)՝ նույն մեթոդաբանությամբ վերապատրաստված մոդելներից էքստրապոլացնելով, բայց օգտագործելով 10000 անգամ պակաս հաշվարկներ։

Բեռնվում է...

Այժմ, երբ մենք կարող ենք ճշգրիտ կանխատեսել ուսուցման ընթացքում օպտիմալացված չափիչը (կորուստը), մենք սկսում ենք մշակել մեթոդաբանություն՝ ավելի մեկնաբանելի չափիչներ կանխատեսելու համար: Օրինակ, մենք հաջողությամբ կանխատեսեցինք անցման տոկոսադրույքը HumanEval⁠(բացվում է նոր պատուհանում) տվյալների հավաքածուի մի ենթաբազմության վրա՝ էքստրապոլացնելով 1000x պակաս հաշվարկով մոդելներից։

Բեռնվում է...

Որոշ կարողություններ դեռևս դժվար է կանխատեսել։ Օրինակ, Հակադարձ մասշտաբային մրցանակը մրցույթ էր՝ գտնելու չափանիշ, որը վատթարանում է, երբ մոդելի հաշվարկը մեծանում է, և հետադարձ հայացքի անտեսումը⁠(բացվում է նոր պատուհանում) հաղթողներից մեկն էր։ Ճիշտ այնպես, ինչպես մեկ այլ վերջերս ստացված արդյունքի դեպքում,⁠(բացվում է նոր պատուհանում) GPT‑4‑ը հակադարձում է միտմանը:

Բեռնվում է...

Մենք հավատում ենք, որ ապագա մեքենայական ուսուցման հնարավորությունների ճշգրիտ կանխատեսումը անվտանգության կարևոր մասն է, որը համեմատած դրա պոտենցիալ ազդեցության հետ, գրեթե բավարար ուշադրություն չի ստանում (չնայած մեզ խրախուսել են մի քանի հաստատությունների ջանքերը): Մենք ընդլայնում ենք մեր ջանքերը՝ մշակելու մեթոդներ, որոնք հասարակությանը ավելի լավ ուղղորդում են այն մասին, թե ինչ ակնկալել ապագա համակարգերից, և հուսով ենք, որ դա կդառնա ոլորտում ընդհանուր նպատակ:

OpenAI Evals

Մենք բաց կոդով օգտագործում ենք OpenAI Evals⁠(բացվում է նոր պատուհանում)-ը, մեր ծրագրային շրջանակը, որը նախատեսված է GPT‑4‑ի նման մոդելների գնահատման չափորոշիչներ ստեղծելու և գործարկելու համար, միաժամանակ նմուշ առ նմուշ ստուգելով դրանց կատարողականը։ Մենք օգտագործում ենք Evals-ը մեր մոդելների զարգացումը առաջնորդելու համար (ինչպես բացահայտելով թերությունները, այնպես էլ կանխելով հետընթացները), և մեր օգտատերերը կարող են այն կիրառել մոդելի տարբեր տարբերակների կատարողականությունը հետևելու (որոնք այժմ պարբերաբար կհրապարակվեն) և պրոդուկտի ինտեգրացիաները զարգացնելու համար։ Օրինակ, Stripe-ը օգտագործել է Evals-ը՝ լրացնելու իրենց մարդկային գնահատականները՝ չափելու իրենց GPT‑ով աշխատող փաստաթղթավորման գործիքի ճշգրտությունը:

Քանի որ կոդը ամբողջությամբ բաց կոդով է, Evals-ը աջակցում է նոր դասեր գրելուն՝ հատուկ գնահատման տրամաբանություն⁠(բացվում է նոր պատուհանում) իրականացնելու համար։ Սակայն մեր սեփական փորձից ելնելով՝ շատ չափորոշիչներ հետևում են մի քանի «ձևանմուշներից» մեկին, ուստի մենք նաև ներառել ենք այն ձևանմուշները⁠(բացվում է նոր պատուհանում), որոնք առավել օգտակար են եղել ներքին օգտագործման համար (ներառյալ «մոդելով գնահատված գնահատումների» ձևանմուշը. մենք պարզել ենք, որ GPT‑4‑ը զարմանալիորեն կարող է ստուգել իր սեփական աշխատանքը): Ընդհանուր առմամբ, նոր eval կառուցելու ամենաարդյունավետ միջոցը⁠(բացվում է նոր պատուհանում) կլինի տվյալների տրամադրման հետ մեկտեղ այս ձևանմուշներից մեկը ստեղծել: Մենք ոգևորված ենք տեսնել, թե ինչ կարող են ուրիշները կառուցել այս ձևանմուշներով և ընդհանրապես Evals-ի հետ:

Մենք հույս ունենք, որ Evals-ը կդառնա չափորոշիչների փոխանակման և հավաքագրման միջոց, որոնք կներկայացնեն ձախողման ռեժիմների և դժվար առաջադրանքների առավելագույն լայն շրջանակ։ Որպես օրինակ՝ մենք ստեղծել ենք տրամաբանական հանելուկների⁠(բացվում է նոր պատուհանում) գնահատում, որը պարունակում է տասը հարցում, որոնցում GPT‑4‑ը չի լուծվում։ Evals-ը համատեղելի է նաև առկա չափանիշների իրականացման հետ. մենք որպես օրինակ ներառել ենք մի քանի նոթատետրեր⁠(բացվում է նոր պատուհանում), որոնք իրականացնում են ակադեմիական չափանիշներ և մի քանի տարբերակներ (փոքր ենթաբազմություններ) CoQA⁠(բացվում է նոր պատուհանում) ինտեգրելու համար։

Բոլորին հրավիրում ենք օգտվել Evals-ից՝ մեր մոդելները փորձարկելու և ամենահետաքրքիր օրինակները ուղարկելու համար։ Մենք հավատում ենք, որ Evals-ը կլինի մեր մոդելների օգտագործման և զարգացման գործընթացի անբաժանելի մասը, և մենք ողջունում ենք ուղղակի ներդրումները, հարցերը և կարծիքները⁠(բացվում է նոր պատուհանում)։

ChatGPT Plus

ChatGPT Plus բաժանորդները կստանան GPT‑4 մուտք chatgpt.com⁠(բացվում է նոր պատուհանում) կայքում՝ օգտագործման սահմանաչափով: Մենք կկարգավորենք օգտագործման սահմանաչափը՝ կախված պահանջարկից և համակարգի կատարողականից գործնականում, բայց ակնկալում ենք, որ կարողությունները խիստ սահմանափակված կլինեն (չնայած մենք առաջիկա ամիսներին կընդլայնենք և կօպտիմալացնենք գործողությունները):

Կախված մեր տեսած թրաֆիկի օրինաչափություններից, մենք կարող ենք ներկայացնել բաժանորդագրության նոր մակարդակ ավելի մեծ ծավալի GPT‑4 օգտագործման համար։ Մենք նաև հույս ունենք, որ ինչ-որ պահի կառաջարկենք որոշակի քանակությամբ անվճար GPT‑4 հարցումներ, որպեսզի բաժանորդագրություն չունեցողները նույնպես կարողանան փորձել այն։

API

GPT‑4 API-ին հասանելիություն ստանալու համար (որը օգտագործում է նույն ChatCompletions API⁠(բացվում է նոր պատուհանում) -ն, ինչ gpt-3.5-turbo), խնդրում ենք գրանցվել մեր սպասման ցուցակում⁠։ Մենք այսօր կսկսենք հրավիրել որոշ ծրագրավորողների և աստիճանաբար մեծացնել մասշտաբները՝ հավասարակշռելու կարողությունները պահանջարկի հետ։ Եթե դուք հետազոտող եք, որը ուսումնասիրում է արհեստական բանականության կամ ԱԲ-ի հավասարեցման խնդիրների հասարակական ազդեցությունը, կարող եք նաև դիմել սուբսիդավորվող հասանելիության համար մեր Հետազոտողների հասանելիության ծրագրի⁠ միջոցով:

Մուտք ունենալուց հետո կարող եք gpt-4 մոդելին միայն տեքստային հարցումներ անել (պատկերի մուտքագրումները դեռևս սահմանափակ ալֆա տարբերակում են), որը մենք ավտոմատ կերպով կթարմացնենք մեր առաջարկվող կայուն մոդելին՝ ժամանակի ընթացքում նոր տարբերակներ ստեղծելիս (կարող եք նշել ընթացիկ տարբերակը՝ զանգահարելով gpt-4-0314 հեռախոսահամարով, որը մենք կաջակցենք մինչև հունիսի 14-ը): Գները կազմում են $0,03 յուրաքանչյուր 100000 հարցման token-ի համար և $0,06 յուրաքանչյուր 100000 ավարտման token-ի համար: Կանխադրված սահմանափակումները 40 հազար token են մեկ րոպեում և 200 հարցում՝ մեկ րոպեում:

GPT‑4‑ը ունի 8192 token-ի համատեքստի երկարություն։ Մենք նաև սահմանափակ հասանելիություն ենք տրամադրում մեր 32768–համատեքստ (մոտ 50 էջ տեքստ) տարբերակին՝ gpt-4-32k, որը նույնպես ժամանակի ընթացքում ինքնաբերաբար կթարմացվի (ներկայիս տարբերակը gpt-4-32k-0314, աջակցվում է մինչև հունիսի 14-ը)։ Գները կազմում են $0,06 յուրաքանչյուր 1 հազար հարցում token-ի համար և $0,12 յուրաքանչյուր 1 հազար ավարտման token-ի համար: Մենք դեռևս բարելավում ենք մոդելի որակը երկարատև համատեքստի համար և կցանկանայինք ստանալ ձեր օգտագործման դեպքում դրա արդյունավետության վերաբերյալ կարծիքը։ Մենք մշակում ենք 8K և 32K շարժիչների հարցումները տարբեր սակագներով՝ կախված դրանց հզորությունից, ուստի դուք կարող եք դրանց հասանելիություն ունենալ տարբեր ժամանակներում։

Եզրակացություն

Մենք անհամբեր սպասում ենք, որ GPT‑4‑ը կդառնա արժեքավոր գործիք՝ բարելավելու մարդկանց կյանքը՝ հզորացնելով բազմաթիվ հավելվածներ։ Դեռ շատ աշխատանք կա անելու, և մենք անհամբեր սպասում ենք բարելավել այս մոդելը համայնքի հավաքական ջանքերով, որը կառուցում է, ուսումնասիրում և նպաստում մոդելին:

Ավելին․ Կարդացեք հոդվածը⁠(բացվում է նոր պատուհանում) / Դիտեք համակարգի քարտը⁠(բացվում է նոր պատուհանում) / Փորձեք ChatGPT Plus⁠(բացվում է նոր պատուհանում) / Փորձեք Playground-ում⁠(բացվում է նոր պատուհանում) / Վերադիտեք ցուցադրական ուղիղ հեռարձակումը⁠(բացվում է նոր պատուհանում) / Նպաստեք OpenAI-ի գնահատումներին⁠(բացվում է նոր պատուհանում)

Հավելված

MMLU հարցերի օրինակ, թարգմանված այլ լեզուներով։ Նկատի ունեցեք, որ մենք օգտագործում ենք հետևողական ընտրության token-ներ (A–D):

Բեռնվում է...

Ծանոթագրություններ

A
Մենք գնահատում ենք այս չափանիշը՝ օգտագործելով մտքի շղթայի հուշումը՝ համատեքստում ուսուցման հավաքածուի 4 օրինակներով: Հատուկ հարցումը ճշգրտվել է վավերացման հավաքածուի վրա:

Հղումներ

1
P. Arredondo (Casetext/Stanford CodeX), D. Katz (Stanford CodeX), M. Bommarito (Stanford CodeX), S. Gao (Casetext)։ Լրացուցիչ վերլուծությունը հասանելի է հոդվածում⁠(բացվում է նոր պատուհանում):