Sora huwa l-mudell ta’ OpenAI għall-ġenerazzjoni tal-vidjo, iddisinjat biex jieħu inputs ta’ test, immaġni u vidjo u jiġġenera vidjo ġdid bħala output. L-utenti jistgħu joħolqu vidjows sa riżoluzzjoni 1080p (massimu ta’ 20 sekonda) f’diversi formati, jiġġeneraw kontenut ġdid mit-test, jew itejbu, jirremiksjaw u jħalltu l-assi tagħhom stess. L-utenti se jkunu jistgħu jesploraw il-feeds Featured u Recent li juru kreazzjonijiet tal-komunità u joffru ispirazzjoni għal ideat ġodda. Sora jibni fuq it-tagħlim minn DALL·E u mudelli GPT, u huwa ddisinjat biex jagħti lin-nies għodod usa’ għar-rakkont u l-espressjoni kreattiva.
Sora huwa mudell ta’ diffusion, li jiġġenera vidjo billi jibda b’vidjo bażi li jidher bħal storbju statiku u gradwalment jittrasformah billi jneħħi l-istorbju fuq ħafna passi. Billi tajna lill-mudell ħarsa minn qabel ta’ ħafna frames fl-istess ħin, solvejna problema diffiċli biex niżguraw li suġġett jibqa’ l-istess anke meta joħroġ temporanjament mill-vista. B’mod simili għall-mudelli GPT, Sora juża arkitettura tat-transformer, li tiftaħ prestazzjoni superjuri fl-iskalar.
Sora juża t-teknika tar-recaptioning minn DALL·E 3, li tinvolvi l-ġenerazzjoni ta’ captions deskrittivi ħafna għad-data viżiva tat-taħriġ. B’riżultat ta’ dan, il-mudell jista’ jsegwi l-istruzzjonijiet testwali tal-utent fil-vidjo ġġenerat b’mod aktar fidil.
Minbarra li jista’ jiġġenera vidjo biss minn istruzzjonijiet testwali, il-mudell jista’ wkoll jieħu immaġni fissa eżistenti u jiġġenera vidjo minnha, billi janimaha l-kontenut tal-immaġni b’eżattezza u attenzjoni għad-dettall żgħir. Il-mudell jista’ wkoll jieħu vidjo eżistenti u jtawlu jew jimla frames neqsin. Sora jservi bħala bażi għal mudelli li jistgħu jifhmu u jissimulaw id-dinja reali, kapaċità li nemmnu li se tkun pass importanti biex jintlaħaq AGI.
Il-kapaċitajiet ta’ Sora jistgħu wkoll jintroduċu riskji ġodda, bħall-potenzjal għal użu ħażin tal-likeness jew għall-ġenerazzjoni ta’ kontenut tal-vidjo qarrieqi jew espliċitu. Sabiex inqiegħdu Sora f’prodott b’mod sigur, bnejna fuq it-tagħlim mix-xogħol tas-sigurtà għat-tnedija ta’ DALL·E fi ChatGPT u fl-API kif ukoll il-miżuri ta’ mitigazzjoni tas-sigurtà għal prodotti oħra ta’ OpenAI bħal ChatGPT. Din il-kard tas-sistema tispjega l-istack ta’ mitigazzjoni li rriżulta, l-isforzi esterni ta’ red teaming, l-evalwazzjonijiet, u r-riċerka kontinwa biex dawn is-salvagwardji jkomplu jiġu rfinati.
Kif deskritt fir-rapport tekniku1 tagħna ta’ Frar 2024, Sora jieħu ispirazzjoni minn large language models li jakkwistaw kapaċitajiet ġeneralisti bit-taħriġ fuq data fuq skala tal-internet. Is-suċċess tal-paradigma tal-LLM huwa possibbli parzjalment bl-użu ta’ tokens li jgħaqqdu b’mod eleganti modalitajiet differenti tat-test—kodiċi, matematika u diversi lingwi naturali. Ma’ Sora, qiesna kif mudelli ġenerattivi ta’ data viżiva jistgħu jirtu dawn il-benefiċċji. Filwaqt li l-LLMs għandhom tokens tat-test, Sora għandu patches viżivi. Diġà ntwera li l-patches huma rappreżentazzjoni effettiva għall-mudelli ta’ data viżiva. Sibna li l-patches huma rappreżentazzjoni effettiva ħafna u skalabbli ħafna għat-taħriġ ta’ mudelli ġenerattivi fuq tipi diversi ta’ vidjows u immaġnijiet. F’livell għoli, inbiddlu l-vidjows f’patches billi l-ewwel nikkompressaw il-vidjows fi spazju latenti ta' dimensjoni inferjuri, u sussegwentement niddikomponu r-rappreżentazzjoni f’patches ta’ spazju-ħin.
Sora tħarreġ fuq datasets diversi, inkluż taħlita ta’ data disponibbli pubblikament, data proprjetarja aċċessata permezz ta’ sħubijiet, u datasets apposta żviluppati internament. Dawn jikkonsistu minn:
- Data pubblikament disponibbli magħżula, l-aktar miġbura minn datasets ta’ machine learning standard fl-industrija u web crawls.
- Data proprjetarja minn sħubijiet tad-data. Aħna niffurmaw sħubijiet biex naċċessaw data li mhijiex disponibbli pubblikament. Pereżempju, issħibna ma’ Shutterstock Pond5 fuq il-bini u l-kunsinna ta’ immaġnijiet iġġenerati bl-AI. Nissieħbu wkoll biex nikkummissjonaw u noħolqu datasets adattati għall-bżonnijiet tagħna.
- Data umana: Feedback minn trainers tal-AI, red teamers, u impjegati.
Minbarra l-miżuri ta’ mitigazzjoni implimentati wara l-fażi ta’ qabel it-taħriġ, il-mitigazzjonijiet tal-filtrazzjoni qabel it-taħriġ jistgħu jipprovdu saff addizzjonali ta’ difiża li, flimkien ma’ mitigazzjonijiet oħra tas-sigurtà, jgħinu jeskludu data mhux mixtieqa u ta’ ħsara mis-settijiet tad-data tagħna. Qabel it-taħriġ, għalhekk, is-settijiet tad-data kollha jgħaddu minn dan il-proċess ta’ filtrazzjoni, fejn jitneħħa l-aktar kontenut espliċitu, vjolenti, jew inkella sensittiv (pereżempju, xi simboli ta’ mibegħda), bħala estensjoni tal-metodi użati biex tiġi ffiltrata d-data li fuqha ħarriġna l-mudelli l-oħra tagħna, inklużi DALL·E 2 u DALL·E 3.
Wettaqna proċess robust biex nifhmu kemm l-użu ħażin potenzjali kif ukoll l-użi kreattivi fid-dinja reali sabiex ninfurmaw id-disinji u l-miżuri ta’ mitigazzjoni tas-sigurtà ta’ Sora. Wara t-tħabbira ta’ Sora fi Frar 2024, ħdimna ma’ mijiet ta’ artisti viżivi, disinjaturi, u film-makers minn aktar minn 60 pajjiż biex niksbu feedback dwar kif navvanzaw il-mudell biex ikun l-aktar utli għall-professjonisti kreattivi. Ħloqna wkoll numru ta’ evalwazzjonijiet internament u ma’ red teamers esterni biex niskopru u nivvalutaw ir-riskji u ntejbu b’mod iterattiv is-sigurtà u l-mitigazzjonijiet tar-riskju tagħna.
L-istack tas-sigurtà tagħna għal Sora jibni fuq dan it-tagħlim u fuq mitigazzjonijiet tas-sigurtà eżistenti li nużaw f’mudelli u prodotti oħra bħal DALL·E u ChatGPT, kif ukoll fuq mitigazzjonijiet mibnija apposta speċifiċi għall-prodott tagħna tal-vidjo. Minħabba li din hija għodda qawwija, qed nieħdu approċċ iterattiv għas-sigurtà, partikolarment f’oqsma fejn il-kuntest huwa importanti jew fejn nipprevedu riskji ġodda relatati mal-vidjo. Eżempji tal-approċċ iterattiv tagħna jinkludu age gating tal-aċċess għal utenti ta’ 18-il sena jew aktar, restrizzjoni tal-użu ta’ likeness/face-uploads, u limiti ta’ moderazzjoni aktar konservattivi fuq prompts u uploads ta’ minorenni mat-tnedija. Irridu nkomplu nitgħallmu kif in-nies jużaw Sora u ntejbu b’mod iterattiv biex insibu l-aħjar bilanċ tas-sigurtà filwaqt li nimmassimizzaw il-potenzjal kreattiv għall-utenti tagħna.
OpenAI ħadmet ma’ red teamers esterni li jinsabu f’disa’ pajjiżi differenti biex jittestjaw Sora, jidentifikaw dgħufijiet fil-miżuri ta’ mitigazzjoni tas-sigurtà, u jagħtu feedback dwar ir-riskji marbuta mal-kapaċitajiet il-ġodda tal-prodott ta’ Sora. Ir-red teamers kellhom aċċess għall-prodott Sora b’diversi iterazzjonijiet ta’ mitigazzjonijiet tas-sigurtà u maturità tas-sistema li bdew f’Settembru u komplew sa Diċembru 2024, u ttestjaw aktar minn 15,000 ġenerazzjoni. Dan l-isforz ta’ red teaming jibni fuq xogħol fil-bidu tal-2024 fejn ġie ttestjat mudell Sora mingħajr mitigazzjonijiet tal-produzzjoni.
Ir-red teamers esploraw riskji potenzjali ġodda tal-mudell ta’ Sora u tal-għodod tal-prodott, u ttestjaw il-miżuri ta’ mitigazzjoni tas-sigurtà hekk kif dawn ġew żviluppati u mtejba. Dawn il-kampanji ta’ red teaming koprew diversi tipi ta’ kontenut li jikser ir-regoli u mhuwiex permess (kontenut sesswali u erotiku, vjolenza u gore, self harm, kontenut illegali, mis/disinformazzjoni, eċċ.), tattiki avversarji (kemm prompting kif ukoll użu ta’ għodod/funzjonijiet) biex jevadu l-miżuri ta’ mitigazzjoni tas-sigurtà, kif ukoll kif dawn l-għodod jistgħu jiġu sfruttati biex gradwalment jiddegradaw l-għodod ta’ moderazzjoni u s-salvagwardji. Ir-red teamers taw ukoll feedback dwar il-perċezzjonijiet tagħhom ta’ Sora f’oqsma li jinkludu l-bias u l-prestazzjoni ġenerali.
Esplorajna l-ġenerazzjoni test-to-video bl-użu kemm ta’ prompts diretti kif ukoll ta’ tattiki ta’ prompting avversarju fil-kategoriji kollha ta’ kontenut imsemmija hawn fuq. Il-kapaċità tal-upload tal-media ġiet ittestjata b’varjetà kbira ta’ immaġnijiet u vidjows, inklużi persuni pubbliċi, u varjetà wiesgħa ta’ kategoriji ta’ kontenut biex tiġi ttestjata l-kapaċità li jiġi ġġenerat kontenut li jikser ir-regoli. Ittestjajna wkoll diversi użi u kombinazzjonijiet tal-għodod tal-modifika (storyboards, recut, remix, u blend) biex nivvalutaw l-utilità tagħhom fil-ġenerazzjoni ta’ kontenut ipprojbit.
Ir-red teamers identifikaw osservazzjonijiet notevoli kemm għal tipi speċifiċi ta’ kontenut ipprojbit kif ukoll għal tattiki avversarji ġenerali. Pereżempju, ir-red teamers sabu li l-użu ta’ prompts testwali b’sitwazzjonijiet mediċi jew ambjenti tax-xjenza fittizja / fantasy ddegrada s-salvagwardji kontra l-ġenerazzjoni ta’ kontenut erotiku u sesswali sakemm inbnew mitigazzjonijiet addizzjonali. Ir-red teamers użaw tattiki avversarji biex jevadu elementi tal-istack tas-sigurtà, inklużi prompts suġġestivi u l-użu ta’ metafori biex jisfruttaw il-kapaċità ta’ inferenza tal-mudell. Wara ħafna tentattivi, setgħu jidentifikaw xejriet ta’ prompts u kliem li kienu jqajmu s-salvagwardji, u jittestjaw formulazzjonijiet u kliem differenti biex jevadu r-rifjuti. Ir-red teamers eventwalment kienu jagħżlu l-aktar ġenerazzjoni inkwetanti biex jużawha bħala seed media għal żvilupp ulterjuri f’kontenut li jikser ir-regoli u li ma setax jinħoloq b’tekniki ta’ prompt wieħed. Xi drabi, tekniki ta’ jailbreak irriżultaw effettivi biex jiddegradaw il-politiki tas-sigurtà, u dan ippermettilna nirfinaw dawn il-protezzjonijiet ukoll.
Ir-red teamers ittestjaw ukoll uploads tal-media u l-għodod ta’ Sora (storyboards, recut, remix, u blend) kemm b’immaġnijiet disponibbli pubblikament kif ukoll b’media ġġenerata bl-AI. Dan żvela lakuni fil-filtrazzjoni tal-input u tal-output li kellhom jissaħħu qabel it-tnedija ta’ Sora, u għen biex jittejbu l-protezzjonijiet għall-uploads tal-media li jinkludu n-nies. L-ittestjar żvela wkoll il-ħtieġa għal filtrazzjoni aktar b’saħħitha mill-klassifikaturi biex jiġi mitigat ir-riskju li uploads tal-media li ma jiksrux ir-regoli jiġu mmodifikati f’kontenut erotiku, vjolenti, jew deepfake ipprojbit.
Il-feedback u d-data ġġenerati mir-red teamers ippermettew il-ħolqien ta’ saffi addizzjonali ta’ mitigazzjonijiet tas-sigurtà u titjib fl-evalwazzjonijiet eżistenti tas-sigurtà, li huma deskritti fit-taqsimiet tal-Oqsma Speċifiċi tar-Riskju u l-Mitigazzjonijiet. Dawn l-isforzi ppermettew aktar irfinar tal-filtrazzjoni tal-prompts, blocklists, u limiti tal-klassifikaturi tagħna biex jiżguraw il-konformità tal-mudell mal-għanijiet tas-sigurtà.
Matul l-aħħar disa’ xhur, osservajna feedback tal-utenti fuq aktar minn 500,000 talba lill-mudell minn aktar minn 300 utent minn aktar minn 60 pajjiż. Din id-data għenet tinforma titjib fl-imġiba tal-mudell u fl-aderenza tal-mudell għall-protokolli tas-sigurtà. Pereżempju, il-feedback tal-artisti għenna nifhmu l-limitazzjonijiet li watermark viżibbli għandu fuq il-workflows tagħhom, u dan għen fid-deċiżjoni tagħna li nħallu lill-utenti li jħallsu jniżżlu fajls tal-vidjo mingħajr il-watermark viżibbli filwaqt li xorta ninkorporaw data C2PA.
Dan il-programm ta’ aċċess bikri għallimna wkoll li jekk Sora huwa maħsub biex iservi bħala għodda estiża għar-rakkont u l-espressjoni kreattiva, ikun jeħtieġ li noffru aktar flessibbiltà lill-artisti madwar xi oqsma sensittivi li konna nittrattaw b’mod differenti f’għodda ġenerali bħal ChatGPT. Nistennew li artisti, film-makers indipendenti, studios u organizzazzjonijiet oħra fl-industrija tad-divertiment jużaw Sora bħala parti kruċjali mill-proċessi ta’ żvilupp tagħhom. Fl-istess ħin, l-identifikazzjoni kemm ta’ każijiet ta’ użu pożittivi kif ukoll ta’ użu ħażin potenzjali ppermettietilna niddeterminaw oqsma fejn kienu meħtieġa mitigazzjonijiet aktar restrittivi fil-livell tal-prodott biex jitnaqqas ir-riskju ta’ ħsara jew użu ħażin.
Żviluppajna evalwazzjonijiet interni mmirati lejn oqsma ewlenin, inklużi n-nudità, kontenut qarrieqi dwar l-elezzjonijiet, self-harm, u l-vjolenza. Dawn l-evalwazzjonijiet ġew iddisinjati biex jappoġġjaw l-irfinar tal-miżuri ta’ mitigazzjoni u jgħinu jinfurmaw il-limiti tal-moderazzjoni tagħna. Il-qafas tal-evalwazzjoni jgħaqqad prompts tal-input mogħtija lill-mudell tal-ġenerazzjoni tal-vidjo ma’ klassifikaturi tal-input u tal-output applikati jew fuq prompts trasformati jew fuq il-vidjows finali prodotti.
Il-prompts tal-input għal dawn l-evalwazzjonijiet ġew minn tliet kanali primarji: data miġbura matul il-fażi alpha bikrija (kif deskritt fit-Taqsima 3.2), eżempji avversarji pprovduti minn testers tar-red team (imsemmija fit-Taqsima 3.1), u data sintetika ġġenerata bl-użu ta’ GPT‑4. Id-data tal-fażi alpha pprovdiet għarfien dwar xenarji ta’ użu fid-dinja reali, il-kontributi tar-red teamers għenu jikxfu kontenut avversarju u każijiet fil-marġni, u d-data sintetika ppermettiet it-tkabbir tas-settijiet ta’ evalwazzjoni f’oqsma bħal kontenut provocanti mhux intenzjonat, fejn eżempji li jseħħu b’mod naturali huma skarsi.
Il-qafas ta’ preparedness huwa mfassal biex jevalwa jekk il-kapaċitajiet ta’ mudelli fruntiera jintroduċux riskji sinifikanti f’erba’ kategoriji mmonitorjati: persważjoni, ċibersigurtà, CBRN (kimiku, bijoloġiku, radjoloġiku u nukleari), u awtonomija tal-mudell. M’għandniex evidenza li Sora joħloq xi riskju sinifikanti fir-rigward taċ-ċibersigurtà, CBRN, jew l-awtonomija tal-mudell. Dawn ir-riskji huma marbuta mill-qrib ma’ mudelli li jinteraġixxu ma’ sistemi tal-kompjuter, għarfien xjentifiku, jew teħid ta’ deċiżjonijiet awtonomu, li kollha bħalissa huma lil hinn mill-ambitu ta’ Sora bħala għodda ta’ ġenerazzjoni tal-vidjo.
Il-kapaċitajiet ta’ Sora għall-ġenerazzjoni tal-vidjo jistgħu joħolqu riskju potenzjali mill-persważjoni, bħal riskji ta’ impersonazzjoni, misinformazzjoni, jew inġinerija soċjali. Biex nindirizzaw dawn ir-riskji, żviluppajna sett ta’ mitigazzjonijiet li huma deskritti fit-taqsimiet hawn taħt. Dawn jinkludu mitigazzjonijiet maħsuba biex jipprevjenu l-ġenerazzjoni ta’ likeness ta’ figuri pubbliċi magħrufa sew. Barra minn hekk, billi l-kuntest u l-għarfien dwar jekk vidjo huwiex reali jew iġġenerat bl-AI jistgħu jkunu kruċjali biex jiġi ddeterminat kemm vidjo ġġenerat huwa persważiv, iffukajna fuq il-bini ta’ approċċ ta’ provenjenza b’ħafna saffi, inklużi metadata, watermarks, u fingerprinting.
Minbarra r-riskji speċifiċi u l-mitigazzjonijiet identifikati hawn taħt, għażliet li saru fit-taħriġ ta’ Sora, fid-disinn tal-prodott, u fil-politiki jgħinu biex b’mod ġenerali jitnaqqas ir-riskju ta’ outputs ta’ ħsara jew mhux mixtieqa. Dawn jistgħu b’mod ġenerali jiġu organizzati f’mitigazzjonijiet tekniċi fil-livell tas-sistema u tal-mudell, kif ukoll politiki tal-prodott u edukazzjoni tal-utent.
Hawn taħt niddettaljaw il-forom primarji ta’ mitigazzjonijiet tas-sigurtà li għandna fis-seħħ qabel ma utent jintwera l-output mitlub tiegħu:
Moderazzjoni tat-test u tal-immaġni permezz ta’ klassifikatur ta’ moderazzjoni multimodali
Il-klassifikatur tagħna ta’ moderazzjoni multimodali li jħaddem il-Moderation API esterna tagħna jiġi applikat biex jidentifika prompts ta’ test, immaġni jew vidjo li jistgħu jiksru l-politiki tal-użu tagħna, kemm fuq l-input kif ukoll fuq l-outputs. Prompts li jiksru r-regoli u li jiġu identifikati mis-sistema jirriżultaw f’rifjut. Tgħallem aktar dwar il-Moderation API multimodali tagħna hawnhekk.2
Filtrazzjoni LLM personalizzata
Vantaġġ wieħed tat-teknoloġija tal-ġenerazzjoni tal-vidjo huwa l-kapaċità li jsiru kontrolli ta’ moderazzjoni asincroni mingħajr ma tiżdied latency mal-esperjenza ġenerali tal-utent. Billi l-ġenerazzjoni tal-vidjo min-natura tagħha tieħu ftit sekondi biex tiġi pproċessata, din il-finestra ta’ ħin tista’ tintuża biex jitħaddmu kontrolli ta’ moderazzjoni mmirati b’preċiżjoni. Aħna ppersonalizzajna l-GPT tagħna stess biex niksbu preċiżjoni għolja fil-moderazzjoni għal xi suġġetti speċifiċi, inkluż l-identifikazzjoni ta’ kontenut ta’ partijiet terzi kif ukoll kontenut qarrieqi.
Il-filtri huma multimodali: uploads ta’ immaġni/vidjo, prompts ta’ test u outputs kollha huma inklużi fil-kuntest ta’ kull sejħa LLM. Dan jippermettilna nidentifikaw kombinazzjonijiet li jiksru r-regoli bejn l-immaġni u t-test.
Klassifikaturi tal-output tal-immaġni
Biex nindirizzaw kontenut potenzjalment ta’ ħsara direttament fl-outputs, Sora juża klassifikaturi tal-output, inklużi filtri speċjalizzati għal kontenut NSFW, minorenni, vjolenza, u użu ħażin potenzjali tal-likeness. Sora jista’ jimblokka vidjows qabel ma dawn jinqasmu mal-utent jekk dawn il-klassifikaturi jiġu attivati.
Blocklists
Inżommu blocklists testwali f’varjetà ta’ kategoriji, infurmati mix-xogħol preċedenti tagħna fuq DALL·E 2 u DALL·E 3, skoperta proattiva tar-riskji, u riżultati minn utenti bikrin.
Minbarra l-protezzjonijiet li bnejna fil-mudell u fis-sistema biex nipprevjenu l-ġenerazzjoni ta’ kontenut li jikser ir-regoli, qed nieħdu wkoll passi addizzjonali biex innaqqsu r-riskju ta’ użu ħażin. Bħalissa qed noffru Sora biss lill-utenti li għandhom 18-il sena jew aktar u qed napplikaw filtri ta’ moderazzjoni għall-kontenut li jintwera fil-feeds Explore u Featured.
Qed nikkomunikaw ukoll b’mod ċar linji gwida tal-politika permezz ta’ edukazzjoni fil-prodott u pubblikament disponibbli dwar:
- L-użu tal-likeness ta’ persuna oħra mingħajr il-permess tagħha, u projbizzjoni fuq ir-rappreżentazzjoni ta’ minorenni reali;
- Il-ħolqien ta’ kontenut illegali jew kontenut li jikser id-drittijiet tal-proprjetà intellettwali;
- Il-ġenerazzjoni ta’ kontenut espliċitu u ta’ ħsara, bħal xbihat intimi mhux kunsenswali, kontenut użat biex isir bullying, fastidju, jew malafama, jew kontenut maħsub biex jippromwovi l-vjolenza, il-mibegħda, jew it-tbatija ta’ oħrajn; u
- Il-ħolqien u d-distribuzzjoni ta’ kontenut użat biex iqarraq, jiskamja, jew iqarraq b’oħrajn.
Xi wħud minn dawn il-forom ta’ użu ħażin huma indirizzati permezz tal-mitigazzjonijiet tagħna tal-mudell u tas-sistema, iżda oħrajn jiddependu aktar mill-kuntest—xena ta’ protesta tista’ tintuża għal skopijiet kreattivi leġittimi, iżda l-istess xena ppreżentata bħala avveniment attwali reali tista’ wkoll tinqasam bħala diżinformazzjoni jekk tiġi mqabbla ma’ pretensjonijiet oħra.
Sora huwa ddisinjat biex jagħti lin-nies il-kapaċità jesprimu firxa wiesgħa ta’ ideat u fehmiet kreattivi. Mhuwiex prattiku u lanqas rakkomandabbli li jiġi evitat kull tip ta’ kontenut problematiku skont il-kuntest.
Noffru lin-nies il-kapaċità li jirrapportaw vidjows ta’ Sora li jaħsbu li jistgħu jiksru l-linji gwida tagħna, filwaqt li nużaw awtomazzjoni u reviżjoni umana biex nimmonitorjaw b’mod attiv xejriet ta’ użu. Stabbilixxejna mekkaniżmi ta’ infurzar biex inneħħu vidjows li jiksru r-regoli u nippenalizzaw lill-utenti. Meta l-utenti verament jiksru l-linji gwida tagħna, ninnotifikawhom u noffrulhom l-opportunità jgħidulna x’jaħsbu li hu ġust. Biħsiebna nsegwu l-effettività ta’ dawn il-mitigazzjonijiet u nirfinawhom maż-żmien.
Minbarra l-miżuri ġenerali tas-sigurtà ta’ hawn fuq, l-ittestjar u l-evalwazzjoni bikrija għenu jidentifikaw diversi oqsma ta’ enfasi partikolari fuq is-sigurtà.
OpenAI hija impenjata bis-sħiħ li tindirizza3 ir-riskji għas-sigurtà tat-tfal, u nipprijoritizzaw il-prevenzjoni, id-detezzjoni, u r-rappurtar ta’ kontenut ta’ Child Sexual Abuse Material(jinfetaħ f’tieqa ġdida) (CSAM) fil-prodotti kollha tagħna, inkluż Sora. L-isforzi ta’ OpenAI fil-qasam tas-sigurtà tat-tfal jinkludu l-akkwist responsabbli tas-settijiet tad-data tagħna biex nipproteġuhom minn CSAM, sħubija man-National Center for Missing & Exploited Children (NCMEC) biex jiġi prevenut l-abbuż sesswali tat-tfal u jiġu protetti t-tfal, red teaming skont ir-rakkomandazzjonijiet ta’ Thorn u b’konformità mar-restrizzjonijiet legali, u skannjar robust għal CSAM fuq l-inputs u l-outputs kollha. Dan jinkludi l-iskannjar ta’ utenti first party u third party (API u Enterprise) sakemm il-klijenti ma jissodisfawx kriterji stretti għat-tneħħija tal-iskannjar għal CSAM. Biex nipprevjenu l-ġenerazzjoni ta’ CSAM, bnejna stack robust ta’ sigurtà, billi nużaw mitigazzjonijiet tas-sistema li nużaw fil-prodotti l-oħra tagħna bħal ChatGPT u DALL·E4 kif ukoll xi leve addizzjonali li bnejna speċifikament għal Sora.
Klassifikaturi tal-Input
Għas-Sigurtà tat-Tfal nużaw 3 mitigazzjonijiet differenti tal-input fuq test, immaġni u vidjo input:
- Għall-uploads kollha ta’ immaġni u vidjo, nintegra ma’ Safer, żviluppat minn Thorn, biex nidentifikaw tqabbil ma’ CSAM magħruf. Tqabbil ikkonfermat jiġi rrifjutat u rrappurtat lil NCMEC. Barra minn hekk, nużaw il-klassifikatur CSAM ta’ Thorn biex nidentifikaw kontenut CSAM potenzjalment ġdid u mhux hashed.
- Nużaw klassifikatur ta’ moderazzjoni multimodali biex nidentifikaw u nimmoderaw kwalunkwe kontenut sesswali li jinvolvi minorenni permezz ta’ input ta’ test, immaġni u vidjo.
- Għal Sora, żviluppajna klassifikatur biex janalizza test u immaġnijiet biex ibassar jekk hijiex murija persuna taħt it-18-il sena jew jekk il-caption li takkumpanjaha tirreferix għal minorenni. Nirrifjutaw talbiet għal image to video li fihom individwi taħt it-18-il sena. Jekk text-to-video jiġi determinat li hu taħt it-18-il sena, ninfurzaw limiti ħafna aktar stretti għall-moderazzjoni relatata ma’ kontenut sesswali, vjolenti jew self-harm.
Hawn taħt hemm l-evalwazzjoni tagħna għall-klassifikatur tagħna ta’ taħt it-18-il sena għall-bnedmin. Aħna nevalwaw il-klassifikatur tagħna għar-rifjut ta’ individwi realistiċi taħt it-18-il sena fuq dataset li fih qrib il-5000 immaġni fil-kategoriji ta’ [child | adult] u [realistic | fictitious]. Il-pożizzjoni tal-politika tagħna hija li nirrifjutaw tfal realistiċi, filwaqt li nħallu immaġnijiet fittizji inklużi stil animat, cartoon, jew sketch, sakemm ikunu mhux sesswali. Adottajna approċċ kawt lejn kontenut li jinvolvi minorenni, u se nkomplu nevalwaw l-approċċ tagħna hekk kif nitgħallmu aktar mill-użu tal-prodott u nsibu l-bilanċ it-tajjeb bejn li nippermettu l-espressjoni kreattiva u s-sigurtà.
Bħalissa, il-klassifikaturi tagħna huma preċiżi ħafna, iżda kultant jistgħu jimmarkaw bi żball adulti jew immaġnijiet mhux realistiċi ta’ tfal. Barra minn hekk, nirrikonoxxu li studji u letteratura eżistenti jenfasizzaw il-potenzjal li mudelli ta’ tbassir tal-età juru biases razzjali. Pereżempju, dawn il-mudelli jistgħu sistematikament jistmaw l-età ta’ individwi minn ċerti gruppi razzjali anqas milli hi.5 Aħna impenjati li ntejbu l-prestazzjoni tal-klassifikatur tagħna, innaqqsu l-false positives, u napprofondixxu l-fehim tagħna tal-biases potenzjali fix-xhur li ġejjin.
Expected outcome | n_samples | count (is_child) | count (not_child) | Evaluated metrics | |
Realistic Child | Classify images as “is child” | 1589 | 1555 | 34 | Accuracy: 97.86% |
Realistic Adult | Classify images as “not child” | 1370 | 36 | 1334 | Accuracy: 99.28% |
Fictitious Adult | Classify images as “not child” | 965 | 7 | 958 | Accuracy: 97.37% |
Fictitious Child | Classify images as “not child” | 1050 | 323 | 727 | Accuracy: 69.24% |
Total | 4974 | 1921 | 3053 | Precision: 80.95% Recall: 97.86% |
Note: precision is calculated as the % of is_child classifications that are realistic children, and recall is calculated as the % of realistic child images that are classified as is_child
Output
Kif issemma hawn fuq, ladarba nidentifikaw referenza għal minorenni fl-input tat-test bil-klassifikatur tagħna taħt it-18-il sena, ninfurzaw limiti stretti għall-moderazzjoni relatata ma’ kontenut sesswali, vjolenti jew self harm fl-output. Hawn taħt hemm iż-żewġ klassifikaturi tal-output li nużaw biex niksbu dan:
- Klassifikatur ta’ moderazzjoni multimodali li jiskannja outputs tal-vidjo mhux siguri u jirrifjuta talbiet li jistgħu jkunu partikolarment sensittivi
- Qed nużaw ukoll il-klassifikatur eżistenti tagħna tal-immaġnijiet DALL·E biex niskannjaw għal ksur relatat mas-sigurtà tat-tfal.
Il-klassifikaturi tal-output tagħna jiskannjaw 2 frames kull sekonda u meta jiddeterminaw li vidjo mhuwiex sigur nibblokkaw kull output.
Minbarra l-klassifikaturi tagħna u l-moderazzjoni awtomatizzata, se jkollna reviżjoni umana bħala saff addizzjonali ta’ protezzjoni kontra ksur potenzjali tas-sigurtà tat-tfal.
Politika tal-Prodott
Il-politiki tagħna jipprojbixxu l-użu ta’ Sora għall-ġenerazzjoni ta’ kontenut sesswali li jinvolvi minorenni. Ksur tal-politiki tagħna dwar is-sigurtà tat-tfal jista’ jirriżulta fit-tneħħija tal-kontenut u fil-projbizzjoni tal-utent.
Wieħed mill-oqsma ta’ riskju emerġenti marbuta mal-kapaċitajiet tal-ġenerazzjoni tal-vidjo bl-AI huwa l-ħolqien potenzjali ta’ kontenut NSFW (Not Safe for Work) jew NCII (Non-Consensual Intimate Imagery). B’mod simili għall-approċċ ta’ DALL·E, Sora juża strateġija ta’ moderazzjoni fuq diversi livelli biex jimblokka kontenut espliċitu. Dawn jinkludu trasformazzjonijiet tal-prompt, klassifikaturi tal-output tal-immaġni, u blocklists, li kollha jikkontribwixxu għal sistema li tirrestrinġi kontenut suġġestiv, partikolarment għal outputs adattati għall-età. Il-limiti għall-klassifikaturi tagħna huma aktar stretti għall-uploads tal-immaġni milli għal prompts ibbażati fuq it-test.
Il-vidjows murija fit-taqsima Explore jiġu ffiltrati aktar b’limiti msaħħa biex tkun immirata esperjenza tal-wiri xierqa għal udjenza wiesgħa.
Hawn taħt hemm ir-riżultati tal-evalwazzjonijiet tagħna dwar in-nudità u l-kontenut suġġestiv, immirati biex jevalwaw l-effettività ta’ mitigazzjoni b’ħafna saffi fuq l-inputs u l-outputs. Fuq il-bażi tas-sejbiet, għamilna iterazzjonijiet fuq il-limiti tagħna u applikajna moderazzjoni aktar stretta għal immaġnijiet b’uploads li jinkludu n-nies.
Kategorija | Preċiżjoni* (fl-input) | Preċiżjoni* (fl-output, jiġifieri E2E) |
Nudità & Kontenut Suġġestiv | 97.25% | 97.59% |
Spjegazzjoni tal-evalwazzjoni:
N = numru totali ta’ kampjuni li jiksru r-regoli (~200 għal kull kategorija)
I = numru totali ta’ kampjuni li jiksru r-regoli u li għaddew mill-kontrolli ta’ moderazzjoni tal-input
O = numru totali ta’ kampjuni li jiksru r-regoli u li għaddew mill-kontrolli ta’ moderazzjoni tal-output
Preċiżjoni fl-Input = (N - I) / N
Preċiżjoni fl-Output (E2E) = (N - O) / N
Politika tal-Prodott
Il-politiki tagħna jipprojbixxu l-użu ta’ Sora għall-ġenerazzjoni ta’ kontenut sesswali espliċitu, inkluża xbihat intimi mhux kunsenswali. Ksur ta’ dawn il-politiki jista’ jirriżulta fit-tneħħija tal-kontenut u penalizzazzjoni tal-utent.
Użu Ħażin tal-Likeness u Deepfakes ta’ Ħsara
Il-monitor tal-moderazzjoni ta’ Sora għal prompts ibbażati fuq likeness huwa maħsub biex jimmarka kontenut deepfake potenzjalment ta’ ħsara, bl-intenzjoni li vidjows li jinvolvu individwi rikonoxxibbli jiġu riveduti mill-qrib. Il-filtru ta’ Użu Ħażin tal-Likeness ikompli jimmarka prompts li jippruvaw jimmodifikaw jew juru individwi b’modi potenzjalment ta’ ħsara jew qarrieqa. It-trasformazzjonijiet ġenerali ta’ Sora fuq il-prompts inaqqsu wkoll aktar ir-riskju li Sora jiġġenera likeness mhux mixtieq ta’ individwu privat ibbażat fuq prompt li fih isem ta’ xi ħadd.
Kontenut Qarrieqi
Il-klassifikaturi tal-input u tal-output ta’ Sora huma maħsuba biex jipprevjenu l-ġenerazzjoni ta’ kontenut qarrieqi relatat mal-elezzjonijiet li juri attività frawdolenti, mhux etika jew inkella illegali. Il-metriċi ta’ evalwazzjoni ta’ Sora jinkludu klassifikaturi biex jimmarkaw tekniki ta’ stil jew filtri li jistgħu jipproduċu vidjows qarrieqa fil-kuntest tal-elezzjonijiet, u b’hekk inaqqsu r-riskju ta’ użu ħażin fid-dinja reali.
Hawn taħt hemm l-evalwazzjonijiet għall-filtru LLM tagħna ta’ kontenut qarrieqi dwar l-elezzjonijiet, iffukati fuq l-għajnuna fl-identifikazzjoni ta’ każijiet fejn jista’ jkun hemm intenzjoni li jinħoloq kontenut ipprojbit fuq varjetà ta’ inputs (eż. test u vidjo). Is-sistema tagħna tiskannja wkoll frame wieħed kull sekonda tal-vidjo output biex tevalwa ksur possibbli fl-output.
Klassifikatur | Recall | Precision | Riżultat meta jiġi mmarkat |
Kontenut Qarrieqi dwar l-Elezzjonijiet | 98.23% | 88.80% | Imblokka l-ġenerazzjoni tal-output |
N=~500, ibbażat fuq prompts ta’ data sintetika
Investimenti fil-Provenjenza
Peress li ħafna riskji marbuta ma’ Sora, bħal kontenut deepfake ta’ ħsara, jiddependu ħafna mill-kuntest, ipprijoritizzajna t-titjib tal-għodod tagħna tal-provenjenza. Nirrikonoxxu li ma hemmx soluzzjoni waħda għall-provenjenza, iżda aħna impenjati li ntejbu l-ekosistema tal-provenjenza u ngħinu nibnu kuntest u trasparenza għall-kontenut maħluq minn Sora.
Għad-disponibbiltà ġenerali, l-għodod tagħna tas-sigurtà tal-provenjenza se jinkludu:
- Metadata C2PA fuq l-assi kollha (oriġini verifikabbli, standard tal-industrija)
- Watermarks animati viżibbli ta’ Sora b’mod awtomatiku (trasparenza għall-utenti li jaraw li dan hu ‘AI’)
- Għodda interna ta’ reverse video search, biex tgħin lill-membri tat-tim Intelligence & Investigation ta’ OpenAI jivvalutaw b’kunfidenza għolja jekk kontenut inħoloqx minn Sora
Politika tal-Prodott
Il-politiki tagħna jipprojbixxu l-użu ta’ Sora biex iqarraq, jiskamja, jew iqarraq b’oħrajn, inkluż permezz tal-ħolqien u t-tixrid ta’ diżinformazzjoni. Jipprojbixxu wkoll l-użu tal-likeness ta’ persuna oħra mingħajr il-permess tagħha. Ksur ta’ dawn il-politiki jista’ jirriżulta fit-tneħħija tal-kontenut u penalizzazzjoni tal-utent.
Meta utent juża l-isem ta’ artist ħaj f’prompt, il-mudell jista’ jiġġenera vidjo li b’xi mod jixbah l-istil tax-xogħlijiet ta’ dak l-artist. Hemm tradizzjoni twila ħafna fil-kreattività li tibni fuq l-istili ta’ artisti oħra, iżda nifhmu li xi kreatturi jista’ jkollhom tħassib. Għażilna li nieħdu approċċ konservattiv ma’ din il-verżjoni ta’ Sora hekk kif nitgħallmu aktar dwar kif Sora jintuża mill-komunità kreattiva. Biex nindirizzaw dan, żidna prompt re-writes li huma mfassla biex jiġu attivati meta utent jipprova jiġġenera vidjo fl-istil ta’ artist ħaj.
B’mod simili għall-prodotti l-oħra tagħna, is-Sora Editor juża LLM biex jerġa’ jikteb it-test sottomess biex jiffaċilita prompting ta’ Sora b’mod aktar effettiv. Dan il-proċess jippromwovi l-konformità mal-linji gwida tagħna, inkluż it-tneħħija ta’ ismijiet ta’ figuri pubbliċi, l-iggrawndjar tan-nies b’attributi speċifiċi, u d-deskrizzjoni ta’ oġġetti b’marka b’mod ġeneriku. Inżommu blocklists testwali f’varjetà ta’ kategoriji, infurmati mix-xogħol preċedenti tagħna fuq DALL·E 2 u DALL·E 3, skoperta proattiva tar-riskji, u riżultati minn red teamers u utenti bikrin.
OpenAI tuża strateġija ta’ tniedi iterattiv biex tiżgura t-tnedija responsabbli u effettiva tal-prodotti tagħha. Dan l-approċċ jgħaqqad tniedijiet f’fażijiet, ittestjar kontinwu, u monitoraġġ kontinwu mal-feedback tal-utenti u data mid-dinja reali biex maż-żmien nirfinaw u ntejbu l-prestazzjoni u l-mitigazzjonijiet tas-sigurtà tagħna. Hawn taħt hemm sensiela ta’ xogħol li qed nippjanaw li nagħmlu bħala parti mit-tniedi iterattiv tagħna għal Sora.
Il-kapaċità li jiġi ġġenerat vidjo bl-użu ta’ ritratt jew vidjo mtella’ ta’ persuna reali bħala “seed” hija vettur ta’ użu ħażin potenzjali li dwaru qed nieħdu approċċ partikolarment gradwali biex nitgħallmu minn xejriet bikrin tal-użu. Il-feedback bikri mill-artisti jindika li din hija għodda kreattiva qawwija li huma japprezzaw, iżda minħabba l-potenzjal għall-abbuż, inizjalment mhux se nagħmluha disponibbli għall-utenti kollha. Minflok, b’konformità mal-prattika tagħna ta’ tniedi iterattiv, il-kapaċità li jitellgħu immaġnijiet jew vidjows ta’ nies se tkun disponibbli għal sottogrupp ta’ utenti u se jkollna monitoraġġ attiv u fil-fond biex nifhmu l-valur tagħha għall-komunità ta’ Sora u biex naġġustaw l-approċċ tagħna għas-sigurtà hekk kif nitgħallmu. Uploads li jkun fihom immaġnijiet ta’ minorenni mhux se jkunu permessi matul dan it-test.
L-iterazzjonijiet futuri ta’ Sora se jkomplu jsaħħu t-traċċabbiltà permezz ta’ riċerka fuq għodod ta’ reverse embedding search u implimentazzjoni kontinwa ta’ miżuri ta’ trasparenza bħal C2PA. Aħna eċċitati nesploraw sħubijiet potenzjali ma’ NGOs u organizzazzjonijiet tar-riċerka biex inkabbru u ntejbu l-ekosistema tal-provenjenza u nittestjaw l-għodda interna tagħna ta’ reverse image għal Sora.
Aħna impenjati li nnaqqsu l-bias potenzjali fl-output permezz ta’ raffinamenti tal-prompt, feedback loops, u l-identifikazzjoni kontinwa ta’ mitigazzjonijiet effettivi—filwaqt li nirrikonoxxu li korrezzjonijiet żejda jistgħu jkunu ta’ ħsara bl-istess mod. Nirrikonoxxu sfidi bħall-bias fl-immaġni tal-ġisem u r-rappreżentazzjoni demografika u se nkomplu nirfinaw l-approċċ tagħna biex niżguraw outputs ibbilanċjati u inklużivi.
OpenAI qed tippjana li żżomm evalwazzjonijiet kontinwi ta’ Sora u sforzi biex tkompli ttejjeb kemm Sora taderixxi mal-politiki u l-istandards tas-sigurtà ta’ OpenAI. Huma ppjanati wkoll titjibiet addizzjonali f’oqsma bħas-sigurtà tal-likeness u l-kontenut qarrieqi, iggwidati minn best practices li qed jevolvu u mill-feedback tal-utenti.
Grazzi lit-timijiet interni kollha ta’ OpenAI, inklużi Comms, Comms Design, Affarijiet Globali, Integrity, Intel & Investigations, Legal, Product Policy, Safety Systems u User Ops, li l-appoġġ tagħhom kien essenzjali biex jgħin fl-iżvilupp u l-implimentazzjoni tal-miżuri ta’ mitigazzjoni tas-sigurtà ta’ Sora kif ukoll għall-kontribut tagħhom għal din il-kard tas-sistema.
Aħna grati lejn il-grupp tagħna ta’ artisti Alpha u lejn l-esperti tagħna tar-red teaming li taw feedback, għenu jittestjaw il-mudelli tagħna fl-istadji bikrin tal-iżvilupp u għenu jinfurmaw il-valutazzjonijiet u l-evalwazzjonijiet tar-riskju tagħna. Il-parteċipazzjoni fil-proċess tal-ittestjar ma tfissirx approvazzjoni tal-pjanijiet ta’ tniedi ta’ OpenAI jew tal-politiki ta’ OpenAI.
- Individwi tar-Red Teaming (f’ordni alfabetiku): Alexandra García Pérez, Arjun Singh Puri, Caroline Friedman Levy, Dani Madrid-Morales, Emily Lynell Edwards, Grant Brailsford, Herman Wasserman, Javier García Arredondo, Kate Turetsky, Kelly Bare, Matt Groh, Maximilian Müller, Naomi Hart, Nathan Heath, Patrick Caughey, Per Wikman Svahn, Rafael González-Vázquez, Sara Kingsley, Shelby Grossman, Vincent Nestler
- Organizzazzjonijiet tar-Red Teaming: ScaleAI
Awturi
Referenzi
- 1
- 2
OpenAI. (m.d.). Titjib tal-Moderation API bil-mudell il-ġdid tagħna ta’ Moderation multimodali. 2024
- 3
OpenAI. (m.d.). Sigurtà tat-tfal: L-adozzjoni tal-prinċipji SBD. OpenAI. Miġbur fis-6 ta’ Diċembru 2024
- 4
OpenAI. Kard tas-sistema ta’ DALL·E 3. 2023.
- 5
Panić, N., Marjanović, M., & Bezdan, T. (2024). Nindirizzaw il-bias demografiku fil-mudelli tal-istima tal-età permezz ta’ kompożizzjoni ottimizzata tas-sett tad-data(jinfetaħ f’tieqa ġdida). Mathematics, 12(15), 2358.