Submitted: 2024 ж. 2 ақпан

NIST-тің AI жөніндегі атқарушы бұйрығына жауап

Ұлттық стандарттар және технологиялар институтының (NIST) Жасанды интеллект туралы атқарушы бұйрықтың 4.1, 4.5 және 11-бөлімдері бойынша тапсырмаларына қатысты ақпарат сұрауы.

OpenAI 2015 жылы жалпы жасанды интеллект — қысқаша айтқанда, кемінде адамдай ақылды AI — бүкіл адамзат игілігіне қызмет етуін қамтамасыз ету үшін коммерциялық емес ұйым ретінде құрылды. Біз AI қауіпсіздігі, туралануы және басқаруы үшін озық AI технологиясын, сондай-ақ құралдар мен үздік тәжірибелерді зерттейміз, әзірлейміз және жариялаймыз. NIST-тің AI бойынша жалғасып жатқан маңызды жұмысына түсініктеме беру мүмкіндігін құптаймыз.

Мұнда біз RFI-де көтерілген үш тақырыпқа назар аударамыз: (1) AI қабілеттерін бағалау және аудиттен өткізу, (2) қауіпсіз, қорғалған және сенімді жүйелерді енгізуге мүмкіндік беру үшін редтиминг сынақтарын өткізу және (3) синтетикалық медиа мен шығу тегі.

AI жүйелеріндегі қауіпті қабілеттерді бағалау

Біз NIST-тің «AI қандай жолдармен зиян келтіруі мүмкін екенін бағалауға арналған нұсқаулықтар мен бенчмарктарды жасауға» назар аударуын құптаймыз. OpenAI Дайындық шеңберіне⁠(жаңа терезеде ашылады) міндеттеме алды — бұл қазіргі және болашақ AI модельдерінен туындайтын апатты қауіпті тәуекелдерді бағалау, бақылау және азайтуға арналған жан-жақты тәсіл. Дайындық шеңбері қазір тәуекелдің төрт бастапқы саласын қадағалайды: киберқауіпсіздік; химиялық, биологиялық, ядролық және радиологиялық қауіптер (CBRN); иландыру; және модель автономиясы. Шеңбер сондай-ақ әлі анықталмаған «белгісіз белгісіз» тәуекелдерге тұрақты қырағылық танытуға міндеттейді. Осы жұмыстың бір бөлігі ретінде OpenAI жақында CBRN бойынша бір ауқымды бағалауды бөлісті⁠: GPT‑4‑тің қолданыстағы ресурстардың (яғни интернеттің) базалық деңгейімен салыстырғанда зиянды акторлардың биологиялық қауіп тудыру туралы қауіпті ақпаратқа қолжетімділігін елеулі түрде арттыру қабілетін бағалау. Биология сарапшылары да, студенттер де қатысқан осындай ең ірі бағалауда біз GPT‑4 биологиялық қауіп тудыру ақпаратына ең көбі аздаған өсім беретінін анықтадық. Бұл өсім түпкілікті қорытынды жасауға жеткілікті болмаса да, бұл нәтиже NIST пен жаңа AI қауіпсіздігі институты басшылық ететін әрі қарайғы зерттеулер мен қауымдастық талқылауы үшін бастау нүктесі болады деп үміттенеміз. Бұл жұмыс AI жүйелерінен туындайтын тәуекелдерді бағалау жөніндегі бірнеше негізгі қағидатқа деген сенімімізді күшейтті:

AI жүйелерінің тәуекелдерге қосатын үлесі тиісті базалық деңгейге қатысты өзгеріс тұрғысынан өлшенуі тиіс.Қазіргі және болашақ AI жүйелері арттыруы мүмкін тәуекелдердің көбі (мысалы, киберқауіпсіздік не биоқауіпсіздік саласында) AI болмаса да белгілі бір деңгейде бар. Мысалы, интернет іздеуі биоқауіпсіздікке қатысты ақпаратқа айтарлықтай қолжетімділікті қазірдің өзінде береді. AI жүйелерінің тәуекелдерге қосатын үлесін бағалағанда, маңызды үздік тәжірибе — AI қолданыстағы ресурстардан тыс тәуекелді арттыра ма, соны тексеру. Биоқауіптер туралы жуырдағы зерттеуімізде біз мұны қатысушылардың жартысын тек AI емес білім көздерін (онлайн дерекқорлар, мақалалар және интернет іздеу жүйелері, сондай-ақ олардың бұрыннан бар білімі) ғана пайдалануға ерікті бақылау тобына, ал қалған жартысын осы ресурстарға және GPT‑4 моделіне толық қолжетімділігі бар емдеу тобына кездейсоқ бөлу арқылы іске асырдық.
Салалық сарапшылармен жұмыс істеу тәуекелдерді түсіну үшін аса маңызды.AI қауіпсіздігіне қатысты кең әрі сан алуан тақырыптардың бәрі бойынша әлемдік деңгейдегі сарапшыларды кез келген бір ұйымның жалдауы қиын. Ең жоғары деңгейдегі сараптамаға қол жеткізу үшін қауіпті қабілеттерді бағалауға қатысты салаларда сарапшылар жұмыс істейтін үшінші тараптармен серіктесу пайдалы. Бұған қоса, салалық сарапшыларды зерттеулерді бағалауға тарту бағалаулардың объективті жүргізіліп жатқанына қосымша сенім береді. Мысалы, биоқауіпті бағалауды әзірлеу мен жүргізу барысында біз зерттеу тапсырмаларын жобалау, қатысушыларға қауіпсіздік бойынша оқыту өткізу және орындалған тапсырмаларды бағалау үшін үшінші тарап биоқауіпсіздік сарапшыларымен тығыз жұмыс істедік. AI қауіпсіздігі мүддесі үшін бұл экожүйені кеңейтіп, әртараптандыру қажет.
Мұқият бағалау модель қабілеттерінің толық ауқымын тиімді ашу үшін AI сарапшыларымен жұмыс істеуді де талап етеді.AI модельдерінен туындайтын тәуекелдердің толық ауқымын түсіну үшін бағалау барысында мүмкін болған жерде модельдің барлық қабілеттерін ашу қажет. Бұл негізгі AI жүйелерін және оларды қалай тиімді пайдалануға болатынын терең түсінуді талап етеді. Біз бағалауларды AI сарапшыларымен тығыз ынтымақтастықта әзірлеуді ұсынамыз. Біздің биоқауіп зерттеуімізде бұған адам қатысушыларына тілдік модель қабілеттерін ашудың үздік тәжірибелері арқылы жақсырақ нәтиже алуға арналған оқыту, сондай-ақ модельдердің қабілеттерін жақсырақ ашу және зондтау үшін арнайы техникалық тәсілдер ұсыну кірді.
Тәуекелді бағалау нәтижелерін қалай түсіндіру жөнінде көбірек зерттеу қажет.Мысалы, AI модельдерінің биоқауіп ақпаратына қолжетімділікті арттыруын бағалау жағдайында, ақпаратқа қолжетімділіктің қандай деңгейде артуы биоқауіптің елеулі өсуіне айналатыны әзірге түсініксіз. AI жүйелерінің биоқауіпке әсері онлайн ақпаратты физикалық биологиялық қауіптерге айналдыра алатын жаңа технологиялар пайда болған сайын өзгеруі мүмкін. Дайындық шеңберін тәжірибеде іске асыруды жалғастыра отырып, біз NIST және AI қауіпсіздігі институтымен тәуекелдер мен тәуекел метрикаларын неғұрлым терең түсінуді қалыптастыру үшін жұмыс істеуге ынталымыз.
Адам қатысушыларына негізделген ең жоғары стандартты бағалаулар қымбатқа түседі.Тілдік модельдерге адамдық бағалау жүргізу қатысушыларға өтемақы төлеу, бағдарламалық қамтамасыз етуді әзірлеу және қауіпсіздік үшін едәуір бюджетті талап етеді. Біздің биоқауіп зерттеуімізде біз бұл шығындарды азайтудың әртүрлі жолдарын қарастырдық, бірақ бұл шығындардың басым бөлігі не (1) келіссөзге келмейтін қауіпсіздік талаптарымен, не (2) қажет қатысушылар саны мен әр қатысушының мұқият тексеруге жұмсауы тиіс уақытымен шартталды. Стандарттарды жобалағанда мұны ескеру керек.

Қосымша ақпаратты жуырдағы биоқауіп зерттеуі туралы блог жазбасынан табуға болады: LLM (үлкен тілдік модель) көмегімен биологиялық қауіп тудыруға арналған ерте ескерту жүйесін құру⁠.

Қауіпсіз AI жүйелерін енгізуге мүмкіндік беретін редтиминг

Редтиминг деген не?

OpenAI редтимингті «зиянды қабілеттерді, нәтижелерді немесе инфрақұрылымдық қауіптерді анықтау үшін AI жүйелері мен өнімдерін зондтаудың құрылымдалған процесі» деп анықтайды.^A
Редтиминг деген қолшатыр ұғым аясында қалыптасып келе жатқан әртүрлі әдістер бар, соның ішінде ішкі редтиминг (зертхана немесе компания ішіндегі арнайы топтар жүргізеді), сыртқы редтиминг (зертхана немесе компаниямен бірлесіп сыртқы мүдделі тараптар жүргізеді) немесе автоматтандырылған редтиминг (автоматтандырылған шабуылдарды жасау және нәтижелерді жіктеу үшін AI модельдерін пайдалану). Осы құжат контекстінде біз, негізінен, OpenAI сыртқы салалық сарапшылармен бірге AI моделі не жүйесінің қабілеттері мен қауіптерін бағалайтын сыртқы редтиминг күш-жігерін меңзеп отырмыз.

OpenAI-дің редтимингке көзқарасы қарсылас шабуылдарды немесе модель нәтижелерін оқшау түрде қарастырмайды. Керісінше, бұл — салалық сарапшылармен бірлесе отырып, қауіптерді контекстке байланған, тұтас түрде айқындау әдісі.^B Зиянды пайдалану мен қауіпсіздік қорғаныстарын айналып өту тәсілдерінен бөлек, редтиминг басқа қауіптерді де қарастырады: зиянсыз не күтілетін енгізулердің зиянды не қауіпті нәтижелерге әкелуі, қауіп ландшафтын өзгертуі мүмкін жаңа қабілет жақсартулары және жүйенің өзінен тыс факторлардың модель нәтижелерімен өзара әрекеттесіп, қауіп не зиян тудыруы. Бұл салаларды бағалау көбіне ықтимал мысалдарды жасау және алынған нәтижелерді нақты редтимердің сараптамасы контексінде растау үшін адамды процеске қосқанда көбірек пайда әкеледі.

Редтиминг не үшін пайдалы?

AI редтимингі мынадай жаңа модельдер мен жүйелерге байланысты ықтимал тәуекелдерді түсінуге көмектеседі:

Алдыңғы AI жүйелерінен немесе технологияларынан өзгеше болуы мүмкін және бағдарламалық бағалаулармен жеткілікті қамтылмайтын өзара әрекет түрлерін талап етеді (мысалы, DALL·E-дегі inpainting, GPTs).
Әлі бағаланбаған жаңа тәуекелдерді енгізуі мүмкін едәуір жақсартылған қабілеттерге ие (мысалы, ғылыми салалар, иландыру немесе ой қорыту).
Сынау мен тексеру үшін контекстік немесе салаға тән білімді талап етеді (мысалы, аймаққа тән саяси контент, мәдени біржақтылықтар, құқық және медицина сияқты ғылыми немесе сарапшылық салалар).
Пайдаланушы ағынын немесе нақты қолдану жағдайларын, соның ішінде жүйенің өзінен тыс болуы мүмкін факторларды түсінуді талап етеді (мысалы, көруі нашар адамдар үшін GPT‑4(V)‑ті сынау).

OpenAI редтимингті модель деңгейіндегі де, жүйе деңгейіндегі де тәуекелдерді бағалау құралы деп қарайды. Жүйе мүмкіндіктеріне мыналар кіруі мүмкін: классификаторлар, көмексөз сүзгілері / бұғаттау тізімдері, пайдаланушы интерфейсі деңгейіндегі араласулар, мониторинг және бағалау тәжірибелері және саясатты қолданудың басқа тетіктері. Кейде біз жаңа модель қатыспаса да, жаңа өнімге редтиминг жүргіземіз. Мысалы, GPTs⁠ жаңа базалық модель енгізбесе де, пайдаланушылардың модельмен өзара әрекеттесуінің жаңа жүйелерін енгізді.

OpenAI редтиминг күш-жігерімізді біздің технологиямыздың үстінде өнім жасап жатқан әзірлеушілер жүргізуі тиіс салаға тән қосымша редтимингпен өзара толықтырушы деп санайды. Мысалы, біз модельдеріміз бен жүйелерімізді белгілі бір уақытта және нақты шарттарда редтимингтен өткізсек, API негізінде құрып жатқан әзірлеушілер сол сабақтарды ескеріп, өздері жұмыс істейді деп күтілетін жүйелік және контекстік жағдайларға қарай қосымша редтиминг жүргізуі керек. OpenAI-дің өзгелер үйреніп, ары қарай дамыта алуы үшін редтиминг күш-жігерінің негізгі тұжырымдарын жүйе карталарында (және жалпыға қолжетімді құжаттаманың басқа түрлерінде) жариялауының себептерінің бірі осы.

OpenAI-дегі итеративті редтиминг

Біз озық модельдерді іске қосуға қатысты бірнеше редтиминг күш-жігерімізді жүйе карталарында құжаттадық:

OpenAI сарапшы редтимерлерге алдын ала үйретілген модельдерге, әртүрлі деңгейдегі fine-tuning және post-training нұсқаларына, сондай-ақ қауіпсіздік қорғаныстарының жетілу деңгейі әртүрлі нұсқаларына қолжетімділік берді.

Мұндағы мақсаттар мынадай:

Редтимингтен алынған түсініктер post-training деңгейіндегі қорғаныстарды, жүйе деңгейіндегі қорғаныстарды, саясаттарды және бағалауларды әзірлеуге ықпал етуі мүмкін.
Редтимингтен алынған түсініктер белгілі бір функцияларды шығару, релизді қалай итеративті түрде енгізу және қауіпсіздік қорғаныстарының тиімділігі туралы басшылық шешімдеріне ықпал етуі мүмкін.
Редтиминг нәтижелері ықтимал пайдаланушылар мен басқа мүдделі тараптарды азайтылған тәуекелдер, қалдық тәуекелдер және болашақта пайда болуы мүмкін тәуекелдер туралы хабардар ету үшін жария іске қосу материалдарымен қатар (мысалы, жүйе карталарында немесе басқа форматтарда) бөлісілуі мүмкін.

Біз редтимерлерді әзірлеу процесіне мүмкіндігінше ерте тартамыз, сонда редтимингтен алынған түсініктер қауіпсіздік жұмысы мен шешім қабылдауға тікелей ықпал ете алады. Сондай-ақ қосымша қауіпсіздік қорғаныстары енгізілгенге дейін модельдің базалық қабілеттерін түсіну маңызды, сонда модель әзірлеушілері модельдің базалық деңгейдегі тәуекелдері туралы саналы шешімдер қабылдай алады және қоғам барынша қуатты жүйелермен байланысты тәуекел ландшафтын жақсырақ түсіне алады.

Қауіпсіздік қорғаныстары енгізілгеннен кейін, редтиминг күш-жігері қосымша раундтарды қауіпсіздік қорғаныстары қамтымайтын олқылықтар мен қалдық тәуекелдерді анықтауға, сондай-ақ қорғаныстардың орнықтылығын бағалауға бағыттауы мүмкін.

Түптеп келгенде, модель әзірлеу процестерінің әлдеқайда ертерек кезеңдерінде қарастыру қажет маңызды қауіпсіздік қасиеттері бар болса да, редтиминг модель әзірлеушілері жұртшылыққа шығаратын тәжірибеге мүмкіндігінше жақын тәжірибені модельдеуді көздейді.

Редтимингтің шектеулері

Редтимингтің өзі тәуекелді өлшеудің жеткілікті жаттығуы емес. Өз бетінше редтиминг модельдің зиянды контент не AI жүйесін пайдаланумен байланысты тәуекелдерді шығару ықтималдығын немесе бейімділігін сандық тұрғыдан өлшемейді. Сондай-ақ редтиминг анықталған тәуекелдің немесе зиянның ауырлығын сандық түрде бағалау үшін жеткілікті ақпарат бермейді.

OpenAI-дің сарапшылық редтиминг күш-жігерінің көбі модельді немесе өнімді ірі енгізудің алдында өтсе де, өндірісте модельдер мен жүйелер жиі дамып отырады, сондықтан редтиминг қорытындыларын контекстке салғанда мұны ескеру маңызды. Сол сияқты, модельдерге негізделіп нақты қолдану жағдайлары үшін өнім құратын әзірлеушілер, егер қауіпсіздік профилі модельдің не жүйенің өзіне ішкі тән (немесе одан өзгермейтін) болмаса, модельдің не жүйенің қауіпсіздік профилін өзгертетін жобалық шешімдер қабылдауы мүмкін.

Редтиминг қосымша сынақтар мен бағалаулар түрлері үшін негіз қалайды және қауіпсіздік қорғаныстары төтеп бере алуы тиіс шабуыл векторлары немесе мәселелер туралы белгілі бір бағдар береді.

Мәселенің бірнеше мысалы мен нұсқаларын зерттеу белгілі бір тәуекел саласын қалай өлшеу керектігіне сенімділік қалыптастыруға көмектесе алады. Жобасы бойынша сарапшылық редтиминг тәуекел салаларының тереңдігінен гөрі ауқымын қамтуға бағытталған, сондықтан ол өз бетінше нақты тәуекелдерді өлшеуге жеткілікті бағалау бола бермейді. Оның орнына редтиминг неғұрлым мұқият бағалауға арналған «тұқымдар» деп қарастыруға болатын деректер жиынтықтарын жасай алады. Одан кейін нәтижелер анықталған нақты мәселе саласының көбірек мысалдарын жасау үшін пайдаланылуы мүмкін, ал белгіленген мысалдардың «алтын жиынтығы» (әдетте салалық сарапшылар жасайды) болашақ модельдерді анықталған мәселе саласы бойынша бағалау үшін қолданылуы мүмкін.

Редтимдер құрамы және салаларды басымдыққа қою

Әлем бойынша көптеген күтілетін және күтпеген қолдану жағдайларында әрі түрлі контекстерде пайдаланылатын жалпы мақсаттағы AI жүйелері тақырыптық салалардың кең ауқымын және көзқарастары мен дүниетанымдары әртүрлі адамдарды қамтуды талап етеді.

OpenAI модельдерімізге редтиминг жүргізу үшін әртүрлі сарапшыларды тартуға сенеді. Өткен жылы біз Red Teaming Network желісіне үміткерлерге шақыру жарияладық. Іріктеу өлшемшарттарына мыналар кірді:

Редтимингке қатысты белгілі бір саладағы дәлелденген сараптама не тәжірибе
AI қауіпсіздігін жақсартуға ынталы болу
Мүдделер қақтығысының болмауы
Әртүрлі орта және дәстүрлі түрде жеткіліксіз ұсынылған топтар
Географиялық әртүрлі өкілдік
Бірден көп тілді еркін меңгеру
Техникалық қабілет (пайдалы, бірақ міндетті емес)

Салаларды басымдыққа қоюға мыналар негіз бола алады: AI жүйелерінің немесе модельдің күтілетін қолданылуы, әсіресе белгісіздігі жоғары не ықтимал қауіптері бар контексттерде; модель әзірлеушілері қабілеттердің артуын күтуі мүмкін модельдерді ерте бағалау; контент саясатына қатысты бұрыннан белгілі проблемалық аймақтар; және өзекті әлеуметтік-саяси контекстер (мысалы, 2024 жыл — әлемнің көптеген жерінде ірі сайлау жылы). Әрбір модель не жүйе әртүрлі сараптама жиынтықтарын талап етуі мүмкін екенін, ал модельдің не жүйелердің дамып жатқан қабілеттері мен жаңа қолдану жағдайларына қарай жаңа салалар қарастырылуы мүмкін екенін атап өткен маңызды. Сондықтан редтимдер құрамының оңтайлы құрамы уақыт өте келе өзгеріп отырады.

Синтетикалық медиа және шығу тегі

Сутаңбалау: Бұл тәсілде жасалған аудиовизуалды медианың өзінде оның шығу тегін білдіретін сигнал болады — көрермен не тыңдаушыға байқалмайтын, бірақ бағдарламалық жасақтама арқылы анықталатын нәзік үлгі. Бұл тек құпия кілттің көмегімен ғана анықталатын сигнал болуы мүмкін немесе сутаңбаны анықтауға арналған бағдарламалық жасақтама жалпыға ашық болуы мүмкін. Осыған байланысты, егер OpenAI нәтижелерімізге сутаңба қоссақ, AI құн тізбегі бойынша ынтымақтастық қажет болар еді, сонда контентті тарататын әлеуметтік медиа платформалары сияқты басқа қатысушылар сутаңбаны пайдаланушыларға көрінетін әрі пайдалы ете алар еді. Егер анықтау процесінің өзі ашық болмаса, онда сол процеске қолжетімділік күрделі саяси мәселе болады. Техникалық қиындықтар да бар. Сутаңбаларды алып тастау басқа шығу тегі әдістеріне қарағанда қиынырақ болуы мүмкін болғанымен, белгіленген медиа қию, өлшемін өзгерту немесе басқа жолмен өңдеу кезінде сутаңбасынан айырылуы мүмкін. Осы себептерге байланысты сутаңбаларды, әсіресе уәжделген қарсылас акторлар, бәрібір айналып өте алады. Бұған қоса, жаман акторлар нәтижелеріне сутаңба қоспайтын модельдерге қол жеткізе алатындықтан, сутаңбалаудың әсері шектеулі болуы мүмкін.
Классификаторлар (AI жасаған нәтижені басқа медиадан ажырататын және берілген нәтижені қай модель не қызмет жасағанын анықтауы мүмкін үйретілген модельдер): Тиімді болғанда, бұл тәсілдер өте тартымды, өйткені олар кескінді тарататын адамның немесе басқа біреудің ынтымақтастығына сүйенбейді. Алайда олар қателесуі мүмкін — жалған оң және жалған теріс нәтижелер береді — әрі ауқымды түрде енгізу үшін есептеу тұрғысынан шығынды болуы мүмкін. Мысалы, жалған оң нәтиже адам суретшісінің туындысын AI нәтижесі деп қате сипаттауы мүмкін. Ал жалған теріс нәтиже, керісінше, шын мәнінде AI жасаған болса да, кескінді AI жасамаған деп қате белгілеуі мүмкін.
Метадеректерге негізделген тәсілдер(мысалы, C2PA⁠(жаңа терезеде ашылады)-ның қазіргі стандарты): Бұл тәсілдерде белгілі бір медиамен бірге жүретін метадеректер медианың шығу тегін растау үшін криптографиялық түрде қолтаңбаланады.

Бұл медианың, AI жасаған болсын, болмасын, шығу тегін дәлелдеуді қалайтын адамдарға мүмкіндік бере алады. Мысалы, C2PA жаңалық жариялаушыға белгілі бір сурет не бейнені шынымен жариялағанын және сол сурет не бейненің дұрыстығына кепіл болатынын көрсетуге, ал көрермендерге соны растауға мүмкіндік бере алады. Сол сияқты, генеративті AI жүйесі үшін іске асырылса, бұл әдіс суретшіге белгілі бір синтетикалық сурет не бейнені өзі жасағанын көрсетуге көмектесе алар еді. Бұл тәсілдердің артықшылығы — мазмұнның шығу тегі туралы тұтынушыға немесе жұртшылыққа көрінетін ақпарат беруі. Бұған қоса, оларды іске асыру үшін елеулі ресурстар талап етілмейтіні де артықшылық болып саналады.

Алайда метадеректер негізгі суреттен не бейнеден оңай алынып тасталуы мүмкін, сондықтан бұл әдіс жасалған контентті шынайы етіп көрсеткісі келетін жаман акторларға (мысалы, дезинформация науқандарына қатысатындарға) елеулі тосқауыл жасамайды.

Метадеректерге негізделген тәсілдер жұртшылыққа кеңінен пайда әкелуі үшін браузерлер мен тарату платформалары, мысалы әлеуметтік медиа платформалары, метадеректерді анықтап, көрсетуі керек. Сондықтан метадеректерге негізделген тәсілдерді сәтті іске асыру бүкіл құн тізбегі бойынша ынтымақтастықты талап етеді: аудиовизуалды материалдардың метадеректері криптографиялық түрде қолтаңбалануы жеткіліксіз, тарату платформалары тиісті метадеректерді анықтап, түпкі пайдаланушы медианың шығу тегін тексере алатындай етіп көрсетуге қабілетті болуы тиіс.

OpenAI-дің шығу тегіне қатысты тәсілдері

Шығу тегін анықтаудың әр әдісінің өз артықшылықтары мен шектеулері болғандықтан, OpenAI AI жасаған аудиовизуалды медианың шығу тегін анықтаудың бірқатар тәсілдерін зерттеп келеді.

DALL·E 3 кескіндеріне арналған C2PA метадеректері

Осы жылдың 15 қаңтарында OpenAI мәтіннен кескін жасайтын DALL·E 3 моделіміз арқылы жасалған кескіндер үшін C2PA метадеректері тәсілін енгізетінімізді жариялады. C2PA спецификациялары — баспагерлерге, авторларға және тұтынушыларға әртүрлі медиа түрлерінің шығу тегін қадағалау мүмкіндігін беретін ашық техникалық стандарт.

Бұл спецификациялар файлға метадеректерді тіркеуге мүмкіндік береді. Бұл метадеректерге кескіннің көзі туралы ақпарат (біздің жағдайда, кескін DALL·E-ден шыққаны) және жасалған уақыты кіреді. Қоғам мүшелері бұл метадеректерді тексере алады және егер олар бар болса, кескіннің DALL·E 3 арқылы жасалғанын растай алады.

Бұл бізге пайдаланушыларға DALL·E 3 арқылы жасалған кескіндердің шығу тегін көрсетуге мүмкіндік беруге көмектеседі. Алайда бұл метадеректерді оңай алып тастауға болады: уәжделген жаман актор кез келген кескінге қоса жүретін C2PA метадеректерін алып тастай алады. Бұған қоса, әлеуметтік медиа платформалары сияқты кең таралған кескін бөлісу платформалары қазір оларды анықтап, пайдаланушыларға көрсетудің орнына, әдепкі бойынша алып тастайды. C2PA-ны алып тастау оңай болғандықтан, қоғам мүшелері көрген әрбір DALL·E кескінінде мұндай деректер міндетті түрде болады деп болжай алмайды.

Алайда C2PA тек AI кескіндеріне ғана арналмаған және кеңірек қабылданса, маңызды артықшылықтар беруі мүмкін. Оны камера өндірушілері, жаңалық ұйымдары және басқалар да кескіндердің қайдан шыққанын растау үшін қабылдап жатыр. Біз ашып көрсету әдістерін кеңінен қабылдау және пайдаланушыларды осы сигналдарды іздеуге ынталандыру цифрлық ақпараттың сенімділігін арттыруға бағытталған маңызды қадамдар деп санаймыз.

DALL·E 3 кескіндеріне арналған эксперименттік классификатор

2023 жылғы 19 қазанда біз DALL·E 3 жүйеміз жасаған кескіндерді анықтауға арналған жаңа ішкі құрал — шығу тегін анықтау классификаторы бойынша жүргізіліп жатқан жұмысымызды жарияладық. Біз классификатордың дәлдігін ішкі бенчмарктар арқылы өлшейміз, олар кескіндерге қию, өлшемін өзгерту, JPEG қысу сияқты кең таралған өңдеулер жасалғанда немесе шынайы кескіндерден алынған мәтін не қиықтар жасалған кескіннің шағын бөліктеріне қабаттастырылғанда да үміт күттіретін нәтижелер көрсеткен. Ішкі тестілеудегі осы мықты нәтижелерге қарамастан, классификатор бізге тек кескіннің DALL·E арқылы жасалған болуы ықтимал екенін ғана айта алады және әзірге түпкілікті қорытынды жасауға мүмкіндік бермейді.

Біз классификаторымыздың орнықтылығын тексеруді жалғастырып жатырмыз және 2024 жылдың бірінші тоқсанында оны кері байланыс алу үшін сыртқы серіктестерге ұсынуды жоспарлап отырмыз. Алдағы жылы біз таңдап алынған сыртқы тараптарды оның өнімділігі мен пайдалығын бағалауға қатысуға шақыру арқылы кескін классификаторымен жүргізілетін тәжірибелерімізді кеңейтуді бастауды асыға күтеміз.

Классификатор осы модельге бейімделген және тек кескіннің DALL·E арқылы жасалған болуы ықтимал екенін ғана жіктей алады, сондықтан ол өз жіктеулерінде толық дәл болған күннің өзінде, оны кескіннің басқа генеративті құрал арқылы жасалған-жасалмағанын анықтау үшін пайдалану мүмкін болмас еді.

Осы бағыттағы жұмысыңыз жалғасқан сайын сізбен ынтымақтасу мүмкіндігін қуана құптаймыз.

Құрметпен,

Анна Адеола Маканджу
Жаһандық мәселелер жөніндегі вице-президент
OpenAI

Түсіндірме ескертпелер

A
Frontier Model Forum ұйымының редтимингке берген анықтамасын⁠(жаңа терезеде ашылады) қараңыз.
B
Біз «сарапшы» терминін әртүрлі салалық білім мен өмірлік тәжірибеге сүйенген сараптаманы білдіру үшін қолданамыз.