Ինչպես են մշակվում ChatGPT‑ն և մեր հիմքային մոդելները
Իմացեք ավելին այն մասին, թե ինչպես ենք զարգացնում և կիրառում մեր մոդելները այնպիսի արտադրանքերում, ինչպիսին ChatGPT‑ն է։
OpenAI-ի հիմքային մոդելները, այդ թվում՝ ChatGPT‑ն սնուցող մոդելները, մշակվում են՝ օգտագործելով տեղեկատվության երեք հիմնական աղբյուրներ՝ (1) տեղեկատվությունը, որը հրապարակայնորեն հասանելի է համացանցում, (2) տեղեկատվությունը, որը համաձայնեցվում է երրորդ կողմերի հետ՝ մուտքի թույլտվության նպատակով, և (3) տեղեկատվությունը, որը տրամադրում կամ ստեղծում են մեր օգտատերերը կամ մարդ-հրահանգիչները և հետազոտողները։
Այս հոդվածը ներկայացնում է այս մոդելների մշակման համար հանրությանը հասանելի տեղեկատվության ակնարկ, ինչպես նաև այն, թե ինչպես ենք մենք հավաքում և օգտագործում այդ տեղեկատվությունը՝ գաղտնիության օրենքներին համապատասխան: Մեր ծառայությունների օգտատերերից տվյալներ հավաքելու և օգտագործելու գործընթացը հասկանալու, այդ թվում՝ մեր մոդելները ուսուցանելու համար գործածվող ChatGPT‑ի զրույցներից հրաժարվելու կարգը իմանալու համար, խնդրում ենք ծանոթանալ մեր Գաղտնիության քաղաքականությանը և այս հոդվածին։
ChatGPT‑ն արհեստական բանականության հիման վրա ստեղծված ծառայություն է, որից կարելի է օգտվել համացանցի միջոցով։ ChatGPT‑ն կարելի է օգտագործել տարբեր առաջադրանքներ կատարելու, օրինակ՝ տեղեկություններ համակարգելու և ամփոփելու, բովանդակություն թարգմանելու, պատկեր վերլուծելու կամ ստեղծելու, ստեղծագործական ոգեշնչում և գաղափարներ ստանալու, ինչպես նաև ամենօրյա գործերի համար։ ChatGPT‑ն մշակված է այնպես, որ կարողանա հասկանալ և պատասխանել օգտատերերի հարցերին և հրահանգներին։ Սա արվում է մեծ քանակությամբ գոյություն ունեցող այնպիսի տեղեկատվության վերլուծության միջոցով, ինչպիսիք են տեքստը, պատկերները, աուդիոն կամ վիդեոն, ինչպես նաև ուսումնասիրելով այս տեղեկատվության փոխհարաբերությունները։ Օրինակ, մոդելը սովորում է, թե ինչպես են բառերը սովորաբար հայտնվում համատեքստում այլ բառերի հետ, և այնուհետև օգտագործում է այս գիտելիքները՝ կանխատեսելու հաջորդ ամենահավանական բառը, որը կարող է հայտնվել՝ ի պատասխան օգտատիրոջ հարցմանը, և դրանից հետո յուրաքանչյուր հաջորդ բառը։ Այս մոդելները կարող են նաև սովորել գեներացնել տեղեկատվության այլ ձևեր, ինչպիսիք են պատկերները՝ սովորելով, թե ինչպես են վերապատրաստման տվյալների մեջ պատկերներ կազմող պիքսելները առնչվում միմյանց և դրանք նկարագրող ենթագրերի հետ։
Որպես օրինակ, մոդելների վերապատրաստման ընթացքում (այսուհետ՝ «վերապատրաստում»), մենք կարող են ունենալ մոդել, որը փորձում է ավարտին հասցնել նախադասությունը․ «Ձախ թեքվելու փոխարեն, նա շրջվեց___»։ Նախքան վերապատրաստումը՝ մոդելը կպատասխանի պատահական բառերով, բայց քանի որ այն կարդում և սովորում է տեքստի բազմաթիվ տողերից, այն ավելի լավ է հասկանում տվյալ նախադասության տեսակը և կարող է ավելի ճշգրիտ գուշակել հաջորդող բառը: Այնուհետև այն կրկնում է այս գործընթացը շատ մեծ թվով նախադասությունների միջև:
Քանի որ կան բազմաթիվ հնարավոր բառեր, որոնք կարող են հաջորդել այս նախադասության մեջ (օրինակ՝ ձախ գնալու փոխարեն նա գնաց «աջ», «շուրջը» կամ «հետ»), կա պատահականության տարր, թե ինչպես կարող է մոդելը պատասխանել, և շատ դեպքերում մեր մոդելները նույն հարցին տարբեր կերպ կպատասխանեն։
Մեքենայական ուսուցման մոդելները բաղկացած են թվերի մեծ շարքերից, որոնք կոչվում են «կշիռներ» կամ «պարամետրեր» և կոդից, որը մեկնաբանում և գործարկում է այդ թվերը: Մոդելները չեն պարունակում կամ պահպանում այն տեղեկությունների պատճենները, որոնցից նրանք սովորում են: Փոխարենը, մոդելի վերապատրաստմանը զուգահեռ, որոշ թվեր, որոնք կազմում են մոդելը, փոքր-ինչ փոփոխվում են՝ արտացոլելու այն, ինչ նա սովորել է: Վերոնշյալ օրինակում մոդելը վերանայեց տեղեկատվությունը, որն օգնեց նրան բարելավվել պատահական սխալ բառերի կանխատեսումից մինչև ավելի ճշգրիտ բառեր կանխատեսելը, բայց այն ամենը, ինչ իրականում տեղի ունեցավ հենց մոդելում, այն էր, որ թվերը մի փոքր փոխվեցին։ Մոդելը չի պահպանում կամ պատճենում այն նախադասությունները, պատկերները կամ աուդիոն, որոնք վերանայել է։
Ինչպես նշվեց վերևում, ChatGPT‑ն և մեր այլ ծառայությունները մշակված են՝ օգտագործելով՝ (1) տեղեկատվությունը, որը հրապարակայնորեն հասանելի է համացանցում, (2) տեղեկատվությունը, որը համաձայնեցվում է երրորդ կողմերի հետ՝ մուտքի թույլտվության նպատակով, և (3) տեղեկատվությունը, որը տրամադրում կամ ստեղծում են մեր օգտատերերը կամ մարդ-հրահանգիչները և հետազոտողները։ Այս հոդվածի առանցքում առաջին կետն է՝ տեղեկատվությունը, որը հրապարակայնորեն հասանելի է համացանցում։
Տեղեկատվության այս փաթեթի համար մենք օգտագործում ենք միայն հանրությանը հասանելի տեղեկատվությունը, որն ազատ և բաց կերպով հասանելի է համացանցում, օրինակ մենք չենք փնտրում տեղեկատվություն, որը գիտենք, որ գտնվում է վճարային պատերի հետևում կամ «մութ ցանցում»։ Մենք կիրառում ենք զտիչներ և հեռացնում այն տեղեկությունները, որոնցից չենք ցանկանում, որ մեր մոդելները սովորեն կամ արտածեն, ինչպիսիք են ատելության խոսքը, մեծահասակների համար կոնտենտը, կայքերը, որոնք հիմնականում համախմբում են անձնական տվյալները, և սպամը։ Այնուհետև մենք օգտագործում ենք այդ տեղեկությունները մեր մոդելների վերապատրաստման համար։
Համացանցում մեծ քանակությամբ տվյալներ վերաբերում են մարդկանց, ուստի մեր ուսուցողական տեղեկությունները տվյալ դեպքում ներառում են անձնական տվյալներ: Մենք ակտիվորեն չենք փնտրում անձնական տեղեկություններ մեր մոդելներին վերապատրաստելու նպատակով։
Մենք օգտագործում ենք ուսուցողական տեղեկատվությունը միայն մեր մոդելներին բանականություն սովորեցնելու համար, օրինակ՝ կանխատեսելու, պատճառաբանելու և խնդիրներ լուծելու կարողությունը։ Մենք ուսուցողական տեղեկությունների մեջ չենք օգտագործում և չենք օգտագործի անձնական տվյալներ` մարդկանց պրոֆիլներ ստեղծելու, նրանց հետ կապ հաստատելու, նրանց որևէ բան գովազդելու, վաճառելու կամ հենց տեղեկատվությունը վաճառելու համար։
Մեր մոդելները կարող են սովորել անձնական տվյալների հիման վրա, որպեսզի հասկանան, թե ինչպես են անուններն ու հասցեները տեղավորվում լեզվի և նախադասությունների մեջ, կամ տեղեկանան հայտնի մարդկանց և հասարակական գործիչների մասին։ Սա թույլ է տալիս մեր մոդելներին ավելի լավ տրամադրել համապատասխան պատասխաններ:
Մենք նաև ձեռնարկում ենք քայլեր, որ մեր մոդելների վերապատրաստման ժամանակ նվազեցվի անձնական տվյալների մշակումը։ Օրինակ, մենք հեռացնում ենք կայքերը, որոնք հավաքում են մեծ ծավալի անձնական տեղեկություններ, և սովորեցնում ենք մեր մոդելներին մերժել մարդկանց մասին անձնական կամ զգայուն տեղեկատվության հարցումները։
Մենք օգտագործում ենք վերապատրաստման տեղեկատվությունն օրինական կերպով։ Մեր հիմքային մոդելներն ունեն բազմաթիվ կիրառություններ, որոնք ապահովում են զգալի առավելություններ և արդեն օգնում են մարդկանց ստեղծել բովանդակություն, բարելավել հաճախորդների սպասարկումը, մշակել ծրագրակազմ, հարմարեցնել կրթությունը, աջակցել գիտական հետազոտություններին և շատ ավելին։ Այս առավելությունները հնարավոր չէ իրականացնել առանց մոդելներին ուսուցանելու համար անհրաժեշտ մեծածավալ տեղեկատվության։ Բացի այդ, ուսուցողական տեղեկատվության մեր օգտագործումը չի կարող բացասաբար անդրադառնալ անհատների վրա, քանի որ այս ուսուցողական տեղեկատվության հիմնական աղբյուրներն արդեն հասանելի են հանրությանը։ Այս պատճառներով մենք հիմնում ենք մեր ուսուցողական տեղեկատվության մեջ ընդգրկված անձնական տվյալների հավաքագրումը և օգտագործումը օրինական շահերի հիման վրա՝ համաձայն Գաղտնիության մասին օրենքների, օրինակ՝ GDPR-ի, ինչպես ավելի մանրամասն նկարագրված է մեր Գաղտնիության քաղաքականությունում։ Մենք նաև տվյալների պաշտպանության ազդեցության գնահատում ենք իրականացրել՝ համոզվելու, որ մենք այս տեղեկությունները հավաքում և օգտագործում ենք օրինական և պատասխանատու կերպով:
Մենք արձագանքում ենք առարկությունների հայցերին և նմանատիպ իրավունքներին։ Լեզու սովորելու արդյունքում ChatGPT‑ի պատասխանները երբեմն կարող են ներառել անձնական տեղեկություններ այն անձանց մասին, որոնց անձնական տվյալներ բազմաթիվ անգամներ հայտնվում են համացանցում (օրինակ՝ հանրային գործիչներ)։ Որոշ իրավասությունների տարածաշրջաններում գտնվող անհատներ կարող են առարկել մեր մոդելների կողմից իրենց անձնական տեղեկատվության մշակմանը կամ տվյալների սուբյեկտի իրավունքների այլ հայցեր ներկայացնել մեր Գաղտնիության պորտալի(բացվում է նոր պատուհանում) միջոցով։ Դուք նաև կարող եք օգտվել այս իրավունքներից՝ գրելով dsar@openai.com հասցեին։
Տեղեկացնում ենք, որ գաղտնիության մասին օրենքների համաձայն՝ որոշ իրավունքներ կարող են բացարձակ չլինել։ Մենք կարող ենք մերժել հայտը, եթե ունենք դրա համար օրինական պատճառ։ Այնուամենայնիվ, մենք ձգտում ենք առաջնահերթությունը տալ անձնական տվյալների պաշտպանությանը և պահպանել գաղտնիության մասին բոլոր կիրառելի օրենքները։ Եթե կարծում եք, որ մենք պատշաճ լուծում չենք տվել որևէ խնդրի, Դուք իրավունք ունեք ամրագրում կատարել ու բողոք ներկայացնել Ձեր տեղական վերահսկիչ մարմնին։
Լրացուցիչ տեղեկություններ ստանալու OpenAI-ի գործելակերպի վերաբերյալ առ այն, թե ինչպես ենք մենք ձեռք բերում Անձնական տվյալները Ձեզնից կամ Ձեր մասին, երբ Դուք օգտվում եք մեր կայքից, հավելվածներից և ծառայություններից, կարող եք ստանալ մեր Գաղտնիության քաղաքականությունը։