2024 ж. 7 мамыр

Our approach to data and AI

Жүктелуде…

AI баршаға мүмкіндік аясын кеңейтуі керек. Ақпаратты жаңа тәсілдермен түрлендіру арқылы AI жүйелері бізге мәселелерді шешуге және өзімізді білдіруге көмектеседі. Бүгінде ChatGPT сияқты AI құралдарымыз әлемнің түкпір-түкпірінде Кения мен Үндістандағы фермерлерге егін өнімділігін арттыруға (Digital Green⁠), зерттеушілерге дәрі-дәрмек ашуды жеделдетуге (Moderna⁠), үкіметтерге еңбек күшін қолдауға (Пенсильвания штаты⁠(жаңа терезеде ашылады)), педагогтерге оқушылардың оқуын ілгерілетуге⁠ және көру қабілеті бұзылған адамдарға қоршаған ортада бағдарлануға көмектесу үшін қолданылып жатыр (Be My Eyes⁠). DALL·E⁠ және Sora⁠ (қазір зерттеу алдын ала көрсетілімінде) сияқты AI құралдары қолдау көрсетіп⁠, талпынысы бар суретшілерден кинорежиссерлерге дейінгі⁠ креаторлардың мүмкіндігін кеңейтіп жатыр.

Біздің миссиямыз — бүкіл адамзатқа пайда әкелу. Бұл тек пайдаланушыларымызды ғана емес, авторлар мен баспагерлерді де қамтиды. Біз құқықтық прецеденттер мен ұтымды мемлекеттік саясат оқытуды fair use аясындағы әрекет етеді деп сенсек те, AI дәуіріндегі контентке қатысты кең ауқымда пайдалы қоғамдық келісімді дамытуға өз үлесімізді қосу маңызды деп есептейміз.

Біз AI жүйелері авторлар мен контент иелеріне пайда әкеліп, олардың таңдауын құрметтеуі керек деп санаймыз. Біз контент иелерінің қалауын көрсету үшін саладағы озық жүйелерімізді үнемі жетілдіріп келеміз және авторлар мен баспагерлер үшін серпінді экожүйелерді қуаттандыратын өнімдер мен бизнес-модельдер құруға берілдік.

Біз кәсіби жазушылар, суретшілер немесе журналистер емеспіз, сондай-ақ бұл салаларда жұмыс істемейміз. Біздің назарымыз — осы мамандықтарға көбірек жасауға және көбірек нәтижеге жетуге көмектесетін құралдар құру. Осыны іске асыру үшін біз бұл қауымдастықтардың өкілдерін тыңдап, олармен тығыз жұмыс істейміз және диалогтарымыздың жалғасуын асыға күтеміз. Бүгін біз қай жерде тұрғанымыз және қайда бет алып бара жатқанымыз туралы көбірек бөлісіп отырмыз.

Біз AI саласында авторлар мен контент иелерінің таңдауын құрметтейміз

Бірнеше онжылдық бұрын robots.txt стандарты енгізіліп, веб-баспагерлер веб-сканерлердің сайттардың қай бөліктеріне кіре алатынын көрсетуі үшін интернет экожүйесі оны ерікті түрде қабылдады.

Өткен жазда OpenAI AI үшін веб-сканер рұқсаттарын пайдалануда бастамашы болып, веб-баспагерлерге өз контентінің AI жүйелерінде пайдаланылуына қатысты қалауын білдіруге мүмкіндік берді. Біз жаңа модельді әр үйреткен сайын осы сигналдарды ескереміз.

Сонымен қатар, бұл толық шешімдер емес екенін түсінеміз, өйткені көптеген авторлар өз контенті пайда болуы мүмкін веб-сайттарды басқармайды, ал контент жиі дәйексөзге алынады, шолынады, ремикс жасалады, қайта жарияланады және бірнеше доменде шабыт көзі ретінде пайдаланылады. Бізге контент иелері өз контентінің AI жүйелерінде пайдаланылуына қатысты қалауын білдіре алатын тиімді әрі ауқымды шешім қажет.

Контент иелері өз еңбектерінің AI-де қалай қолданылатынын басқара алуы үшін біз Media Manager жасап жатырмыз

OpenAI авторлар мен контент иелеріне өздеріне тиесілі нәрселерді бізге хабарлап, еңбектерінің машиналық оқыту зерттеулері мен үйретуге қалай енгізілуін немесе алынып тасталуын нақты көрсетуге мүмкіндік беретін Media Manager құралын әзірлеп жатыр. Уақыт өте келе қосымша таңдаулар мен мүмкіндіктерді енгізуді жоспарлап отырмыз.

Бұл үшін бізге әртүрлі көздерден авторлық құқықпен қорғалған мәтіндерді, суреттерді, аудионы және бейнені анықтауға көмектесетін әрі авторлардың қалауын ескеретін өз түріндегі алғашқы құралды жасауға арналған озық машиналық оқыту зерттеулері қажет болады.

Media Manager әзірлеу барысында біз авторлармен, контент иелерімен және реттеушілермен бірлесіп жұмыс істеп жатырмыз. Мақсатымыз — бұл құралды 2025 жылға қарай іске қосу, және ол бүкіл AI саласы үшін стандарт орнатады деп үміттенеміз.

Біз пайдаланушыларға, авторларға және баспагерлерге пайда әкелетін өнімдерді дамыған экожүйеде жасап жатырмыз

Бүгінде біз сападан гөрі санды, ал пайдаланушылардан гөрі жарнама берушілерді жоғары қоятын назар экономикасында өмір сүріп жатырмыз. Біздің мақсатымыз — мұны AI арқылы өзгерту: авторлар мен баспагерлердің мүмкіндігін кеңейтіп, пайдаланушы тәжірибесін жақсарту.

Біз өнімдерімізді барған сайын пайдалы іздеу және ашу тетіктеріне айналдырып келеміз. Жуырда ChatGPT‑тегі дереккөз сілтемелерін жақсарттық⁠(жаңа терезеде ашылады), осылайша пайдаланушылар жақсырақ мәнмәтін алып, веб-баспагерлер аудиториямызбен байланысудың жаңа жолдарына ие болды.

Сондай-ақ серіктестермен бірге олардың контентін өнімдерімізде көрсету және оқырмандармен байланысын арттыру бағытында жұмыс істеп жатырмыз. Біз жаһандық жаңалық баспагерлерімен Financial Times⁠-тан бастап Le Monde⁠, Prisa Media⁠, Axel Springer⁠ және басқа да ұйымдармен әріптестік туралы жарияладық, олардың контентін ChatGPT ішінде көрсетіп, жаңалық тақырыптарындағы пайдаланушы тәжірибесін байыту үшін. Алда бұдан да көп жаңалық бар. Бұл контент пайдаланушыларға тиісті баспагер контентін жақсырақ ұсыну және редакцияларға арналған құралдарымызды жетілдіру үшін ChatGPT‑ті үйретуде де қолданылуы мүмкін.

Біздің әріптестіктер серіктестер мен олардың пайдаланушыларына пайда әкелетіндей етіп құрылады, модельдерімізді олардың қызметкерлері, клиенттері және қауымдастықтары үшін анағұрлым пайдалы етеді. Білім беру ресурстарын дамытуға көмектесу үшін біз Khan Academy⁠ және Ұлыбританиядағы ExamSolutions⁠(жаңа терезеде ашылады) коммерциялық емес ұйымдарымен серіктестік орнатып, моделіміздің математикадағы нәтижесін жақсарттық, бұл оларға өз платформаларында жекелендірілген AI тәлімгерлігіне қолжетімділікті кеңейтуді жеделдетуге мүмкіндік береді.

Базалық модельдерімізді және оларды қалай жасайтынымызды түсіну

We design our AI models to be learning machines, not databases

AI модельдері жаңа нәрсе жасау үшін ақпарат ішіндегі байланыстардан үйренеді; олар дерекқор сияқты деректерді сақтамайды. Тілдік модельдерді үйреткенде, біз триллиондаған сөзді алып, компьютерден сөздер арасындағы және оларды тудырған негізгі үдеріс арасындағы байланысты барынша дәл сипаттайтын теңдеу құруды сұраймыз. Үйрету үдерісі аяқталғаннан кейін, AI моделі үйретуде талданған деректерге қолжетімділікті сақтамайды. ChatGPT — көп оқудан үйренген және ұғымдар арасындағы байланысты меңгергендіктен нәрселерді түсіндіре алатын, бірақ материалдарды басында сақтамайтын мұғалім сияқты.

Модельдеріміз контентті қайталау немесе оны «құсып шығару» үшін емес, жаңа контент пен идеялар жасауға көмектесу үшін жасалған. AI модельдері қоғамдық игіліктегі фактілерді айта алады. Сирек жағдайларда модель байқамай көркем мазмұндағы контентті қайталап жіберсе, бұл — машиналық оқыту үдерісінің сәтсіздігі. Мұндай сәтсіздік үйрету деректер жиынтықтарында жиі кездесетін контентпен, мысалы, жиі дәйексөз келтірілетіндіктен көптеген ашық веб-сайттарда кездесетін контентпен көбірек болуы мүмкін. Біз қайталауды болдырмау үшін үйрету барысында да, API немесе ChatGPT шығысында да ең озық тәсілдерді қолданамыз және үздіксіз зерттеу мен әзірлеу арқылы оларды үнемі жетілдіріп келеміз.

We use broad and diverse data to build the best AI for everyone

Біз AI модельдеріміз мүмкіндігінше көп адамға пайда әкелуі үшін олардың мүмкіндігінше көп тілден, мәдениеттен, тақырыптан және саладан үйренгенін қалаймыз. Деректер жиынтықтары неғұрлым алуан түрлі болса, модельдердің білімі, түсінігі және тілдері де соғұрлым алуан түрлі болады — бұл әртүрлі мәдени көзқарастар мен тәжірибелерге қанық болған адам сияқты — және AI соғұрлым көп адам мен елге қауіпсіз қызмет көрсете алады.

Базалық модельдердің әрбір жаңа буыны жаңа деректер жиынтығында нөлден бастап үйретіледі. Біз архитектурамызды үнемі жетілдіріп, деректер жиынтықтарымыздың ауқымы мен алуан түрлілігін алдыңғы модельдерімізден едәуір арттырамыз. AI саласындағы ірі компаниялардан айырмашылығы, ондаған жыл бойы жиналған үлкен деректер корпусымыз жоқ. Біз негізінен модельдерімізге пайдалы болуды үйрету үшін көпшілікке қолжетімді ақпаратқа сүйенеміз.

Біз модельдерімізді мына деректермен үйретеміз:

Таңдап алынған, көпшілікке қолжетімді деректер; олар көбіне сала стандартындағы машиналық оқыту деректер жиынтықтары мен іздеу жүйелеріне ұқсас веб-сканерлеулерден жиналады. Ақылы қабырға барын білетін, негізінен жеке сәйкестендірілетін ақпаратты жинақтайтын, саясаттарымызды бұзатын контенті бар немесе бас тартқан дереккөздерді қоспаймыз.
Деректер серіктестіктерінен⁠ алынған меншікті деректер. Біз мұрағаттар мен метадеректер сияқты көпшілікке ашық емес контентке қол жеткізу үшін серіктестік құрамыз. Серіктестеріміз Sora-ны үйретуге арналған суреттер мен бейнелердің ірі жеке кітапханасынан бастап, ана тілдерін сақтауға көмектесу үшін Исландия Үкіметіне⁠ дейін қамтиды. Тек көпшілікке ашық ақпарат үшін ақылы серіктестіктерді көздемейміз.
Деректерді басқару баптаулары модельді жақсартуға рұқсат беретін AI жаттықтырушыларынан, red team мамандарынан, қызметкерлерден және пайдаланушылардан алынған адам кері байланысы.

Біз жеке және сезімтал ақпаратты өңдеуді азайтуға мұқият қараймыз және модельдерімізді адамдар туралы жеке немесе сезімтал ақпаратты бермеуге үйретеміз. Шикі деректерді үйретуде қауіпсіз пайдалану үшін өңдеудің бірқатар тәсілдерін қолданамыз, әрі деректерді тазалау, дайындау және жасауға көмектесу үшін AI модельдерін барған сайын көбірек пайдаланамыз.

Біз тұтынушыларымыздың бизнес деректерімен, соның ішінде ChatGPT Team, ChatGPT Enterprise немесе API Platform деректерімен үйретпейміз. ChatGPT Free және Plus пайдаланушылары болашақ модельді жақсартуға үлес қосу-қоспауын өз баптауларында⁠(жаңа терезеде ашылады) басқара алады.

Біз серіктестік арқылы дамытып жатырмыз

AI жылдам дамып келеді, және біз мақсаттарымызға жалғыз жете алмайтынымызды білеміз. Біз авторлармен және баспагерлермен бірлесіп жұмыс істеуге, өзара пайдалы әріптестіктер құруға, салауатты экожүйелерді қолдауға және жаңа экономикалық модельдерді зерттеуге адалмыз. Осы маңызды тақырыптар бойынша бізбен бірге жұмыс істеп жүрген пайдаланушыларымыз бен серіктестерімізге алғыс айтамыз.

Авторлар

OpenAI