Aqbeż għall-kontenut prinċipali
OpenAI

9 ta’ Diċembru 2024

PubblikazzjoniSigurtà

Kard tas-Sistema ta’ Sora

Qed jillowdja…

Introduzzjoni

Ħarsa ġenerali lejn Sora

Sora huwa l-mudell ta’ OpenAI għall-ġenerazzjoni tal-vidjo, iddisinjat biex jieħu inputs ta’ test, immaġni u vidjo u jiġġenera vidjo ġdid bħala output. L-utenti jistgħu joħolqu vidjows sa riżoluzzjoni 1080p (massimu ta’ 20 sekonda) f’diversi formati, jiġġeneraw kontenut ġdid mit-test, jew itejbu, jirremiksjaw u jħalltu l-assi tagħhom stess. L-utenti se jkunu jistgħu jesploraw il-feeds Featured u Recent li juru kreazzjonijiet tal-komunità u joffru ispirazzjoni għal ideat ġodda. Sora jibni fuq it-tagħlim minn DALL·E u mudelli GPT, u huwa ddisinjat biex jagħti lin-nies għodod usa’ għar-rakkont u l-espressjoni kreattiva. 

Sora huwa mudell ta’ diffusion, li jiġġenera vidjo billi jibda b’vidjo bażi li jidher bħal storbju statiku u gradwalment jittrasformah billi jneħħi l-istorbju fuq ħafna passi. Billi tajna lill-mudell ħarsa minn qabel ta’ ħafna frames fl-istess ħin, solvejna problema diffiċli biex niżguraw li suġġett jibqa’ l-istess anke meta joħroġ temporanjament mill-vista. B’mod simili għall-mudelli GPT, Sora juża arkitettura tat-transformer, li tiftaħ prestazzjoni superjuri fl-iskalar. 

Sora juża t-teknika tar-recaptioning minn DALL·E 3, li tinvolvi l-ġenerazzjoni ta’ captions deskrittivi ħafna għad-data viżiva tat-taħriġ. B’riżultat ta’ dan, il-mudell jista’ jsegwi l-istruzzjonijiet testwali tal-utent fil-vidjo ġġenerat b’mod aktar fidil.

Minbarra li jista’ jiġġenera vidjo biss minn istruzzjonijiet testwali, il-mudell jista’ wkoll jieħu immaġni fissa eżistenti u jiġġenera vidjo minnha, billi janimaha l-kontenut tal-immaġni b’eżattezza u attenzjoni għad-dettall żgħir. Il-mudell jista’ wkoll jieħu vidjo eżistenti u jtawlu jew jimla frames neqsin⁠. Sora jservi bħala bażi għal mudelli li jistgħu jifhmu u jissimulaw id-dinja reali, kapaċità li nemmnu li se tkun pass importanti biex jintlaħaq AGI.

Il-kapaċitajiet ta’ Sora jistgħu wkoll jintroduċu riskji ġodda, bħall-potenzjal għal użu ħażin tal-likeness jew għall-ġenerazzjoni ta’ kontenut tal-vidjo qarrieqi jew espliċitu. Sabiex inqiegħdu Sora f’prodott b’mod sigur, bnejna fuq it-tagħlim mix-xogħol tas-sigurtà għat-tnedija ta’ DALL·E fi ChatGPT u fl-API kif ukoll il-miżuri ta’ mitigazzjoni tas-sigurtà għal prodotti oħra ta’ OpenAI bħal ChatGPT. Din il-kard tas-sistema tispjega l-istack ta’ mitigazzjoni li rriżulta, l-isforzi esterni ta’ red teaming, l-evalwazzjonijiet, u r-riċerka kontinwa biex dawn is-salvagwardji jkomplu jiġu rfinati.

Data tal-Mudell

Kif deskritt fir-rapport tekniku1 tagħna ta’ Frar 2024, Sora jieħu ispirazzjoni minn large language models li jakkwistaw kapaċitajiet ġeneralisti bit-taħriġ fuq data fuq skala tal-internet. Is-suċċess tal-paradigma tal-LLM huwa possibbli parzjalment bl-użu ta’ tokens li jgħaqqdu b’mod eleganti modalitajiet differenti tat-test—kodiċi, matematika u diversi lingwi naturali. Ma’ Sora, qiesna kif mudelli ġenerattivi ta’ data viżiva jistgħu jirtu dawn il-benefiċċji. Filwaqt li l-LLMs għandhom tokens tat-test, Sora għandu patches viżivi. Diġà ntwera li l-patches huma rappreżentazzjoni effettiva għall-mudelli ta’ data viżiva. Sibna li l-patches huma rappreżentazzjoni effettiva ħafna u skalabbli ħafna għat-taħriġ ta’ mudelli ġenerattivi fuq tipi diversi ta’ vidjows u immaġnijiet. F’livell għoli, inbiddlu l-vidjows f’patches billi l-ewwel nikkompressaw il-vidjows fi spazju latenti ta' dimensjoni inferjuri, u sussegwentement niddikomponu r-rappreżentazzjoni f’patches ta’ spazju-ħin.

Sora tħarreġ fuq datasets diversi, inkluż taħlita ta’ data disponibbli pubblikament, data proprjetarja aċċessata permezz ta’ sħubijiet, u datasets apposta żviluppati internament. Dawn jikkonsistu minn:

  • Data pubblikament disponibbli magħżula, l-aktar miġbura minn datasets ta’ machine learning standard fl-industrija u web crawls.
  • Data proprjetarja minn sħubijiet tad-data. Aħna niffurmaw sħubijiet biex naċċessaw data li mhijiex disponibbli pubblikament. Pereżempju, issħibna ma’ Shutterstock⁠ Pond5 fuq il-bini u l-kunsinna ta’ immaġnijiet iġġenerati bl-AI. Nissieħbu wkoll biex nikkummissjonaw u noħolqu datasets adattati għall-bżonnijiet tagħna.
  • Data umana: Feedback minn trainers tal-AI, red teamers, u impjegati. 

Filtrazzjoni qabel it-taħriġ u Preproċessar tad-Data

Minbarra l-miżuri ta’ mitigazzjoni implimentati wara l-fażi ta’ qabel it-taħriġ, il-mitigazzjonijiet tal-filtrazzjoni qabel it-taħriġ jistgħu jipprovdu saff addizzjonali ta’ difiża li, flimkien ma’ mitigazzjonijiet oħra tas-sigurtà, jgħinu jeskludu data mhux mixtieqa u ta’ ħsara mis-settijiet tad-data tagħna. Qabel it-taħriġ, għalhekk, is-settijiet tad-data kollha jgħaddu minn dan il-proċess ta’ filtrazzjoni, fejn jitneħħa l-aktar kontenut espliċitu, vjolenti, jew inkella sensittiv (pereżempju, xi simboli ta’ mibegħda), bħala estensjoni tal-metodi użati biex tiġi ffiltrata d-data li fuqha ħarriġna l-mudelli l-oħra tagħna, inklużi DALL·E 2 u DALL·E 3.

Identifikazzjoni tar-Riskju u Tħejjija għat-Tniedi

Wettaqna proċess robust biex nifhmu kemm l-użu ħażin potenzjali kif ukoll l-użi kreattivi fid-dinja reali sabiex ninfurmaw id-disinji u l-miżuri ta’ mitigazzjoni tas-sigurtà ta’ Sora. Wara t-tħabbira ta’ Sora fi Frar 2024, ħdimna ma’ mijiet ta’ artisti viżivi, disinjaturi, u film-makers minn aktar minn 60 pajjiż biex niksbu feedback dwar kif navvanzaw il-mudell biex ikun l-aktar utli għall-professjonisti kreattivi. Ħloqna wkoll numru ta’ evalwazzjonijiet internament u ma’ red teamers esterni biex niskopru u nivvalutaw ir-riskji u ntejbu b’mod iterattiv is-sigurtà u l-mitigazzjonijiet tar-riskju tagħna. 

L-istack tas-sigurtà tagħna għal Sora jibni fuq dan it-tagħlim u fuq mitigazzjonijiet tas-sigurtà eżistenti li nużaw f’mudelli u prodotti oħra bħal DALL·E u ChatGPT, kif ukoll fuq mitigazzjonijiet mibnija apposta speċifiċi għall-prodott tagħna tal-vidjo. Minħabba li din hija għodda qawwija, qed nieħdu approċċ iterattiv għas-sigurtà, partikolarment f’oqsma fejn il-kuntest huwa importanti jew fejn nipprevedu riskji ġodda relatati mal-vidjo. Eżempji tal-approċċ iterattiv tagħna jinkludu age gating tal-aċċess għal utenti ta’ 18-il sena jew aktar, restrizzjoni tal-użu ta’ likeness/face-uploads, u limiti ta’ moderazzjoni aktar konservattivi fuq prompts u uploads ta’ minorenni mat-tnedija. Irridu nkomplu nitgħallmu kif in-nies jużaw Sora u ntejbu b’mod iterattiv biex insibu l-aħjar bilanċ tas-sigurtà filwaqt li nimmassimizzaw il-potenzjal kreattiv għall-utenti tagħna. 

Red Teaming Estern

OpenAI ħadmet ma’ red teamers esterni li jinsabu f’disa’ pajjiżi differenti biex jittestjaw Sora, jidentifikaw dgħufijiet fil-miżuri ta’ mitigazzjoni tas-sigurtà, u jagħtu feedback dwar ir-riskji marbuta mal-kapaċitajiet il-ġodda tal-prodott ta’ Sora. Ir-red teamers kellhom aċċess għall-prodott Sora b’diversi iterazzjonijiet ta’ mitigazzjonijiet tas-sigurtà u maturità tas-sistema li bdew f’Settembru u komplew sa Diċembru 2024, u ttestjaw aktar minn 15,000 ġenerazzjoni. Dan l-isforz ta’ red teaming jibni fuq xogħol fil-bidu tal-2024 fejn ġie ttestjat mudell Sora mingħajr mitigazzjonijiet tal-produzzjoni.

Ir-red teamers esploraw riskji potenzjali ġodda tal-mudell ta’ Sora u tal-għodod tal-prodott, u ttestjaw il-miżuri ta’ mitigazzjoni tas-sigurtà hekk kif dawn ġew żviluppati u mtejba. Dawn il-kampanji ta’ red teaming koprew diversi tipi ta’ kontenut li jikser ir-regoli u mhuwiex permess (kontenut sesswali u erotiku, vjolenza u gore, self harm, kontenut illegali, mis/disinformazzjoni, eċċ.), tattiki avversarji (kemm prompting kif ukoll użu ta’ għodod/funzjonijiet) biex jevadu l-miżuri ta’ mitigazzjoni tas-sigurtà, kif ukoll kif dawn l-għodod jistgħu jiġu sfruttati biex gradwalment jiddegradaw l-għodod ta’ moderazzjoni u s-salvagwardji. Ir-red teamers taw ukoll feedback dwar il-perċezzjonijiet tagħhom ta’ Sora f’oqsma li jinkludu l-bias u l-prestazzjoni ġenerali. 

Esplorajna l-ġenerazzjoni test-to-video bl-użu kemm ta’ prompts diretti kif ukoll ta’ tattiki ta’ prompting avversarju fil-kategoriji kollha ta’ kontenut imsemmija hawn fuq. Il-kapaċità tal-upload tal-media ġiet ittestjata b’varjetà kbira ta’ immaġnijiet u vidjows, inklużi persuni pubbliċi, u varjetà wiesgħa ta’ kategoriji ta’ kontenut biex tiġi ttestjata l-kapaċità li jiġi ġġenerat kontenut li jikser ir-regoli. Ittestjajna wkoll diversi użi u kombinazzjonijiet tal-għodod tal-modifika (storyboards, recut, remix, u blend) biex nivvalutaw l-utilità tagħhom fil-ġenerazzjoni ta’ kontenut ipprojbit. 

Ir-red teamers identifikaw osservazzjonijiet notevoli kemm għal tipi speċifiċi ta’ kontenut ipprojbit kif ukoll għal tattiki avversarji ġenerali. Pereżempju, ir-red teamers sabu li l-użu ta’ prompts testwali b’sitwazzjonijiet mediċi jew ambjenti tax-xjenza fittizja / fantasy ddegrada s-salvagwardji kontra l-ġenerazzjoni ta’ kontenut erotiku u sesswali sakemm inbnew mitigazzjonijiet addizzjonali. Ir-red teamers użaw tattiki avversarji biex jevadu elementi tal-istack tas-sigurtà, inklużi prompts suġġestivi u l-użu ta’ metafori biex jisfruttaw il-kapaċità ta’ inferenza tal-mudell. Wara ħafna tentattivi, setgħu jidentifikaw xejriet ta’ prompts u kliem li kienu jqajmu s-salvagwardji, u jittestjaw formulazzjonijiet u kliem differenti biex jevadu r-rifjuti. Ir-red teamers eventwalment kienu jagħżlu l-aktar ġenerazzjoni inkwetanti biex jużawha bħala seed media għal żvilupp ulterjuri f’kontenut li jikser ir-regoli u li ma setax jinħoloq b’tekniki ta’ prompt wieħed. Xi drabi, tekniki ta’ jailbreak irriżultaw effettivi biex jiddegradaw il-politiki tas-sigurtà, u dan ippermettilna nirfinaw dawn il-protezzjonijiet ukoll.

Ir-red teamers ittestjaw ukoll uploads tal-media u l-għodod ta’ Sora (storyboards, recut, remix, u blend) kemm b’immaġnijiet disponibbli pubblikament kif ukoll b’media ġġenerata bl-AI. Dan żvela lakuni fil-filtrazzjoni tal-input u tal-output li kellhom jissaħħu qabel it-tnedija ta’ Sora, u għen biex jittejbu l-protezzjonijiet għall-uploads tal-media li jinkludu n-nies. L-ittestjar żvela wkoll il-ħtieġa għal filtrazzjoni aktar b’saħħitha mill-klassifikaturi biex jiġi mitigat ir-riskju li uploads tal-media li ma jiksrux ir-regoli jiġu mmodifikati f’kontenut erotiku, vjolenti, jew deepfake ipprojbit.

Il-feedback u d-data ġġenerati mir-red teamers ippermettew il-ħolqien ta’ saffi addizzjonali ta’ mitigazzjonijiet tas-sigurtà u titjib fl-evalwazzjonijiet eżistenti tas-sigurtà, li huma deskritti fit-taqsimiet tal-Oqsma Speċifiċi tar-Riskju u l-Mitigazzjonijiet⁠. Dawn l-isforzi ppermettew aktar irfinar tal-filtrazzjoni tal-prompts, blocklists, u limiti tal-klassifikaturi tagħna biex jiżguraw il-konformità tal-mudell mal-għanijiet tas-sigurtà.

Tagħlim minn Aċċess Bikri għall-Artisti

Matul l-aħħar disa’ xhur, osservajna feedback tal-utenti fuq aktar minn 500,000 talba lill-mudell minn aktar minn 300 utent minn aktar minn 60 pajjiż. Din id-data għenet tinforma titjib fl-imġiba tal-mudell u fl-aderenza tal-mudell għall-protokolli tas-sigurtà. Pereżempju, il-feedback tal-artisti għenna nifhmu l-limitazzjonijiet li watermark viżibbli għandu fuq il-workflows tagħhom, u dan għen fid-deċiżjoni tagħna li nħallu lill-utenti li jħallsu jniżżlu fajls tal-vidjo mingħajr il-watermark viżibbli filwaqt li xorta ninkorporaw data C2PA. 

Dan il-programm ta’ aċċess bikri għallimna wkoll li jekk Sora huwa maħsub biex iservi bħala għodda estiża għar-rakkont u l-espressjoni kreattiva, ikun jeħtieġ li noffru aktar flessibbiltà lill-artisti madwar xi oqsma sensittivi li konna nittrattaw b’mod differenti f’għodda ġenerali bħal ChatGPT. Nistennew li artisti, film-makers indipendenti, studios u organizzazzjonijiet oħra fl-industrija tad-divertiment jużaw Sora bħala parti kruċjali mill-proċessi ta’ żvilupp tagħhom. Fl-istess ħin, l-identifikazzjoni kemm ta’ każijiet ta’ użu pożittivi kif ukoll ta’ użu ħażin potenzjali ppermettietilna niddeterminaw oqsma fejn kienu meħtieġa mitigazzjonijiet aktar restrittivi fil-livell tal-prodott biex jitnaqqas ir-riskju ta’ ħsara jew użu ħażin.

Evalwazzjonijiet

Żviluppajna evalwazzjonijiet interni mmirati lejn oqsma ewlenin, inklużi n-nudità, kontenut qarrieqi dwar l-elezzjonijiet, self-harm, u l-vjolenza. Dawn l-evalwazzjonijiet ġew iddisinjati biex jappoġġjaw l-irfinar tal-miżuri ta’ mitigazzjoni u jgħinu jinfurmaw il-limiti tal-moderazzjoni tagħna. Il-qafas tal-evalwazzjoni jgħaqqad prompts tal-input mogħtija lill-mudell tal-ġenerazzjoni tal-vidjo ma’ klassifikaturi tal-input u tal-output applikati jew fuq prompts trasformati jew fuq il-vidjows finali prodotti.

Il-prompts tal-input għal dawn l-evalwazzjonijiet ġew minn tliet kanali primarji: data miġbura matul il-fażi alpha bikrija (kif deskritt fit-Taqsima 3.2), eżempji avversarji pprovduti minn testers tar-red team (imsemmija fit-Taqsima 3.1), u data sintetika ġġenerata bl-użu ta’ GPT‑4. Id-data tal-fażi alpha pprovdiet għarfien dwar xenarji ta’ użu fid-dinja reali, il-kontributi tar-red teamers għenu jikxfu kontenut avversarju u każijiet fil-marġni, u d-data sintetika ppermettiet it-tkabbir tas-settijiet ta’ evalwazzjoni f’oqsma bħal kontenut provocanti mhux intenzjonat, fejn eżempji li jseħħu b’mod naturali huma skarsi.

Preparedness

Il-qafas ta’ preparedness huwa mfassal biex jevalwa jekk il-kapaċitajiet ta’ mudelli fruntiera jintroduċux riskji sinifikanti f’erba’ kategoriji mmonitorjati: persważjoni, ċibersigurtà, CBRN (kimiku, bijoloġiku, radjoloġiku u nukleari), u awtonomija tal-mudell. M’għandniex evidenza li Sora joħloq xi riskju sinifikanti fir-rigward taċ-ċibersigurtà, CBRN, jew l-awtonomija tal-mudell. Dawn ir-riskji huma marbuta mill-qrib ma’ mudelli li jinteraġixxu ma’ sistemi tal-kompjuter, għarfien xjentifiku, jew teħid ta’ deċiżjonijiet awtonomu, li kollha bħalissa huma lil hinn mill-ambitu ta’ Sora bħala għodda ta’ ġenerazzjoni tal-vidjo. 

Il-kapaċitajiet ta’ Sora għall-ġenerazzjoni tal-vidjo jistgħu joħolqu riskju potenzjali mill-persważjoni, bħal riskji ta’ impersonazzjoni, misinformazzjoni, jew inġinerija soċjali. Biex nindirizzaw dawn ir-riskji, żviluppajna sett ta’ mitigazzjonijiet li huma deskritti fit-taqsimiet hawn taħt.  Dawn jinkludu mitigazzjonijiet maħsuba biex jipprevjenu l-ġenerazzjoni ta’ likeness ta’ figuri pubbliċi magħrufa sew. Barra minn hekk, billi l-kuntest u l-għarfien dwar jekk vidjo huwiex reali jew iġġenerat bl-AI jistgħu jkunu kruċjali biex jiġi ddeterminat kemm vidjo ġġenerat huwa persważiv, iffukajna fuq il-bini ta’ approċċ ta’ provenjenza b’ħafna saffi, inklużi metadata, watermarks, u fingerprinting.

Stack ta’ Mitigazzjoni ta’ Sora

Minbarra r-riskji speċifiċi u l-mitigazzjonijiet identifikati hawn taħt, għażliet li saru fit-taħriġ ta’ Sora, fid-disinn tal-prodott, u fil-politiki jgħinu biex b’mod ġenerali jitnaqqas ir-riskju ta’ outputs ta’ ħsara jew mhux mixtieqa. Dawn jistgħu b’mod ġenerali jiġu organizzati f’mitigazzjonijiet tekniċi fil-livell tas-sistema u tal-mudell, kif ukoll politiki tal-prodott u edukazzjoni tal-utent.

Mitigazzjonijiet tas-Sistema u tal-Mudell

Hawn taħt niddettaljaw il-forom primarji ta’ mitigazzjonijiet tas-sigurtà li għandna fis-seħħ qabel ma utent jintwera l-output mitlub tiegħu:

Moderazzjoni tat-test u tal-immaġni permezz ta’ klassifikatur ta’ moderazzjoni multimodali

Il-klassifikatur tagħna ta’ moderazzjoni multimodali li jħaddem il-Moderation API esterna tagħna jiġi applikat biex jidentifika prompts ta’ test, immaġni jew vidjo li jistgħu jiksru l-politiki tal-użu tagħna, kemm fuq l-input kif ukoll fuq l-outputs. Prompts li jiksru r-regoli u li jiġu identifikati mis-sistema jirriżultaw f’rifjut. Tgħallem aktar dwar il-Moderation API multimodali tagħna hawnhekk.2

Filtrazzjoni LLM personalizzata

Vantaġġ wieħed tat-teknoloġija tal-ġenerazzjoni tal-vidjo huwa l-kapaċità li jsiru kontrolli ta’ moderazzjoni asincroni mingħajr ma tiżdied latency mal-esperjenza ġenerali tal-utent. Billi l-ġenerazzjoni tal-vidjo min-natura tagħha tieħu ftit sekondi biex tiġi pproċessata, din il-finestra ta’ ħin tista’ tintuża biex jitħaddmu kontrolli ta’ moderazzjoni mmirati b’preċiżjoni. Aħna ppersonalizzajna l-GPT tagħna stess biex niksbu preċiżjoni għolja fil-moderazzjoni għal xi suġġetti speċifiċi, inkluż l-identifikazzjoni ta’ kontenut ta’ partijiet terzi kif ukoll kontenut qarrieqi. 

Il-filtri huma multimodali: uploads ta’ immaġni/vidjo, prompts ta’ test u outputs kollha huma inklużi fil-kuntest ta’ kull sejħa LLM. Dan jippermettilna nidentifikaw kombinazzjonijiet li jiksru r-regoli bejn l-immaġni u t-test. 

Klassifikaturi tal-output tal-immaġni

Biex nindirizzaw kontenut potenzjalment ta’ ħsara direttament fl-outputs, Sora juża klassifikaturi tal-output, inklużi filtri speċjalizzati għal kontenut NSFW, minorenni, vjolenza, u użu ħażin potenzjali tal-likeness. Sora jista’ jimblokka vidjows qabel ma dawn jinqasmu mal-utent jekk dawn il-klassifikaturi jiġu attivati. 

Blocklists

Inżommu blocklists testwali f’varjetà ta’ kategoriji, infurmati mix-xogħol preċedenti tagħna fuq DALL·E 2 u DALL·E 3, skoperta proattiva tar-riskji, u riżultati minn utenti bikrin.

Politiki tal-Prodott

Minbarra l-protezzjonijiet li bnejna fil-mudell u fis-sistema biex nipprevjenu l-ġenerazzjoni ta’ kontenut li jikser ir-regoli, qed nieħdu wkoll passi addizzjonali biex innaqqsu r-riskju ta’ użu ħażin. Bħalissa qed noffru Sora biss lill-utenti li għandhom 18-il sena jew aktar u qed napplikaw filtri ta’ moderazzjoni għall-kontenut li jintwera fil-feeds Explore u Featured.

Qed nikkomunikaw ukoll b’mod ċar linji gwida tal-politika permezz ta’ edukazzjoni fil-prodott u pubblikament disponibbli dwar:

  • L-użu tal-likeness ta’ persuna oħra mingħajr il-permess tagħha, u projbizzjoni fuq ir-rappreżentazzjoni ta’ minorenni reali;
  • Il-ħolqien ta’ kontenut illegali jew kontenut li jikser id-drittijiet tal-proprjetà intellettwali;
  • Il-ġenerazzjoni ta’ kontenut espliċitu u ta’ ħsara, bħal xbihat intimi mhux kunsenswali, kontenut użat biex isir bullying, fastidju, jew malafama, jew kontenut maħsub biex jippromwovi l-vjolenza, il-mibegħda, jew it-tbatija ta’ oħrajn; u 
  • Il-ħolqien u d-distribuzzjoni ta’ kontenut użat biex iqarraq, jiskamja, jew iqarraq b’oħrajn.

Xi wħud minn dawn il-forom ta’ użu ħażin huma indirizzati permezz tal-mitigazzjonijiet tagħna tal-mudell u tas-sistema, iżda oħrajn jiddependu aktar mill-kuntest—xena ta’ protesta tista’ tintuża għal skopijiet kreattivi leġittimi, iżda l-istess xena ppreżentata bħala avveniment attwali reali tista’ wkoll tinqasam bħala diżinformazzjoni jekk tiġi mqabbla ma’ pretensjonijiet oħra. 

Sora huwa ddisinjat biex jagħti lin-nies il-kapaċità jesprimu firxa wiesgħa ta’ ideat u fehmiet kreattivi. Mhuwiex prattiku u lanqas rakkomandabbli li jiġi evitat kull tip ta’ kontenut problematiku skont il-kuntest.

Noffru lin-nies il-kapaċità li jirrapportaw vidjows ta’ Sora li jaħsbu li jistgħu jiksru l-linji gwida tagħna, filwaqt li nużaw awtomazzjoni u reviżjoni umana biex nimmonitorjaw b’mod attiv xejriet ta’ użu. Stabbilixxejna mekkaniżmi ta’ infurzar biex inneħħu vidjows li jiksru r-regoli u nippenalizzaw lill-utenti. Meta l-utenti verament jiksru l-linji gwida tagħna, ninnotifikawhom u noffrulhom l-opportunità jgħidulna x’jaħsbu li hu ġust. Biħsiebna nsegwu l-effettività ta’ dawn il-mitigazzjonijiet u nirfinawhom maż-żmien.

Oqsma Speċifiċi tar-Riskju u Mitigazzjonijiet

Minbarra l-miżuri ġenerali tas-sigurtà ta’ hawn fuq, l-ittestjar u l-evalwazzjoni bikrija għenu jidentifikaw diversi oqsma ta’ enfasi partikolari fuq is-sigurtà. 

Sigurtà tat-Tfal

OpenAI hija impenjata bis-sħiħ li tindirizza3 ir-riskji għas-sigurtà tat-tfal, u nipprijoritizzaw il-prevenzjoni, id-detezzjoni, u r-rappurtar ta’ kontenut ta’ Child Sexual Abuse Material(jinfetaħ f’tieqa ġdida) (CSAM) fil-prodotti kollha tagħna, inkluż Sora. L-isforzi ta’ OpenAI fil-qasam tas-sigurtà tat-tfal jinkludu l-akkwist responsabbli tas-settijiet tad-data tagħna biex nipproteġuhom minn CSAM, sħubija man-National Center for Missing & Exploited Children (NCMEC) biex jiġi prevenut l-abbuż sesswali tat-tfal u jiġu protetti t-tfal, red teaming skont ir-rakkomandazzjonijiet ta’ Thorn u b’konformità mar-restrizzjonijiet legali, u skannjar robust għal CSAM fuq l-inputs u l-outputs kollha. Dan jinkludi l-iskannjar ta’ utenti first party u third party (API u Enterprise) sakemm il-klijenti ma jissodisfawx kriterji stretti għat-tneħħija tal-iskannjar għal CSAM. Biex nipprevjenu l-ġenerazzjoni ta’ CSAM, bnejna stack robust ta’ sigurtà, billi nużaw mitigazzjonijiet tas-sistema li nużaw fil-prodotti l-oħra tagħna bħal ChatGPT u DALL·E4 kif ukoll xi leve addizzjonali li bnejna speċifikament għal Sora.

Klassifikaturi tal-Input

Għas-Sigurtà tat-Tfal nużaw 3 mitigazzjonijiet differenti tal-input fuq test, immaġni u vidjo input: 

  • Għall-uploads kollha ta’ immaġni u vidjo, nintegra ma’ Safer, żviluppat minn Thorn, biex nidentifikaw tqabbil ma’ CSAM magħruf. Tqabbil ikkonfermat jiġi rrifjutat u rrappurtat lil NCMEC. Barra minn hekk, nużaw il-klassifikatur CSAM ta’ Thorn biex nidentifikaw kontenut CSAM potenzjalment ġdid u mhux hashed.
  • Nużaw klassifikatur ta’ moderazzjoni multimodali biex nidentifikaw u nimmoderaw kwalunkwe kontenut sesswali li jinvolvi minorenni permezz ta’ input ta’ test, immaġni u vidjo. 
  • Għal Sora, żviluppajna klassifikatur biex janalizza test u immaġnijiet biex ibassar jekk hijiex murija persuna taħt it-18-il sena jew jekk il-caption li takkumpanjaha tirreferix għal minorenni. Nirrifjutaw talbiet għal image to video li fihom individwi taħt it-18-il sena. Jekk text-to-video jiġi determinat li hu taħt it-18-il sena, ninfurzaw limiti ħafna aktar stretti għall-moderazzjoni relatata ma’ kontenut sesswali, vjolenti jew self-harm.

Hawn taħt hemm l-evalwazzjoni tagħna għall-klassifikatur tagħna ta’ taħt it-18-il sena għall-bnedmin. Aħna nevalwaw il-klassifikatur tagħna għar-rifjut ta’ individwi realistiċi taħt it-18-il sena fuq dataset li fih qrib il-5000 immaġni fil-kategoriji ta’ [child | adult] u [realistic | fictitious]. Il-pożizzjoni tal-politika tagħna hija li nirrifjutaw tfal realistiċi, filwaqt li nħallu immaġnijiet fittizji inklużi stil animat, cartoon, jew sketch, sakemm ikunu mhux sesswali. Adottajna approċċ kawt lejn kontenut li jinvolvi minorenni, u se nkomplu nevalwaw l-approċċ tagħna hekk kif nitgħallmu aktar mill-użu tal-prodott u nsibu l-bilanċ it-tajjeb bejn li nippermettu l-espressjoni kreattiva u s-sigurtà. 

Bħalissa, il-klassifikaturi tagħna huma preċiżi ħafna, iżda kultant jistgħu jimmarkaw bi żball adulti jew immaġnijiet mhux realistiċi ta’ tfal. Barra minn hekk, nirrikonoxxu li studji u letteratura eżistenti jenfasizzaw il-potenzjal li mudelli ta’ tbassir tal-età juru biases razzjali. Pereżempju, dawn il-mudelli jistgħu sistematikament jistmaw l-età ta’ individwi minn ċerti gruppi razzjali anqas milli hi.5 Aħna impenjati li ntejbu l-prestazzjoni tal-klassifikatur tagħna, innaqqsu l-false positives, u napprofondixxu l-fehim tagħna tal-biases potenzjali fix-xhur li ġejjin.

Expected outcome

n_samples

count (is_child)

count (not_child)

Evaluated metrics

Realistic Child

Classify images as “is child”

1589

1555

34

Accuracy: 97.86%

Realistic Adult

Classify images as “not child”

1370

36

1334

Accuracy: 99.28%

Fictitious Adult

Classify images as “not child”

965

7

958

Accuracy: 97.37%

Fictitious Child

Classify images as “not child”

1050

323

727

Accuracy: 69.24%

Total

4974

1921

3053

Precision: 80.95% Recall: 97.86%

Note: precision is calculated as the % of is_child classifications that are realistic children, and recall is calculated as the % of realistic child images that are classified as is_child

Output

Kif issemma hawn fuq, ladarba nidentifikaw referenza għal minorenni fl-input tat-test bil-klassifikatur tagħna taħt it-18-il sena, ninfurzaw limiti stretti għall-moderazzjoni relatata ma’ kontenut sesswali, vjolenti jew self harm fl-output. Hawn taħt hemm iż-żewġ klassifikaturi tal-output li nużaw biex niksbu dan: 

  • Klassifikatur ta’ moderazzjoni multimodali li jiskannja outputs tal-vidjo mhux siguri u jirrifjuta talbiet li jistgħu jkunu partikolarment sensittivi 
  • Qed nużaw ukoll il-klassifikatur eżistenti tagħna tal-immaġnijiet DALL·E biex niskannjaw għal ksur relatat mas-sigurtà tat-tfal.

Il-klassifikaturi tal-output tagħna jiskannjaw 2 frames kull sekonda u meta jiddeterminaw li vidjo mhuwiex sigur nibblokkaw kull output.

Minbarra l-klassifikaturi tagħna u l-moderazzjoni awtomatizzata, se jkollna reviżjoni umana bħala saff addizzjonali ta’ protezzjoni kontra ksur potenzjali tas-sigurtà tat-tfal. 

Politika tal-Prodott

Il-politiki tagħna jipprojbixxu l-użu ta’ Sora għall-ġenerazzjoni ta’ kontenut sesswali li jinvolvi minorenni. Ksur tal-politiki tagħna dwar is-sigurtà tat-tfal jista’ jirriżulta fit-tneħħija tal-kontenut u fil-projbizzjoni tal-utent.

Nudità u Kontenut Suġġestiv

Wieħed mill-oqsma ta’ riskju emerġenti marbuta mal-kapaċitajiet tal-ġenerazzjoni tal-vidjo bl-AI huwa l-ħolqien potenzjali ta’ kontenut NSFW (Not Safe for Work) jew NCII (Non-Consensual Intimate Imagery). B’mod simili għall-approċċ ta’ DALL·E, Sora juża strateġija ta’ moderazzjoni fuq diversi livelli biex jimblokka kontenut espliċitu. Dawn jinkludu trasformazzjonijiet tal-prompt, klassifikaturi tal-output tal-immaġni, u blocklists, li kollha jikkontribwixxu għal sistema li tirrestrinġi kontenut suġġestiv, partikolarment għal outputs adattati għall-età. Il-limiti għall-klassifikaturi tagħna huma aktar stretti għall-uploads tal-immaġni milli għal prompts ibbażati fuq it-test. 

Il-vidjows murija fit-taqsima Explore jiġu ffiltrati aktar b’limiti msaħħa biex tkun immirata esperjenza tal-wiri xierqa għal udjenza wiesgħa.  

Hawn taħt hemm ir-riżultati tal-evalwazzjonijiet tagħna dwar in-nudità u l-kontenut suġġestiv, immirati biex jevalwaw l-effettività ta’ mitigazzjoni b’ħafna saffi fuq l-inputs u l-outputs. Fuq il-bażi tas-sejbiet, għamilna iterazzjonijiet fuq il-limiti tagħna u applikajna moderazzjoni aktar stretta għal immaġnijiet b’uploads li jinkludu n-nies.

Kategorija

Preċiżjoni* (fl-input)

Preċiżjoni* (fl-output, jiġifieri E2E)

Nudità & Kontenut Suġġestiv

97.25%

97.59%

Spjegazzjoni tal-evalwazzjoni:

N = numru totali ta’ kampjuni li jiksru r-regoli (~200 għal kull kategorija)
I = numru totali ta’ kampjuni li jiksru r-regoli u li għaddew mill-kontrolli ta’ moderazzjoni tal-input
O = numru totali ta’ kampjuni li jiksru r-regoli u li għaddew mill-kontrolli ta’ moderazzjoni tal-output

Preċiżjoni fl-Input =
(N - I) / N
Preċiżjoni fl-Output (E2E) = (N - O) / N 

Politika tal-Prodott

Il-politiki tagħna jipprojbixxu l-użu ta’ Sora għall-ġenerazzjoni ta’ kontenut sesswali espliċitu, inkluża xbihat intimi mhux kunsenswali. Ksur ta’ dawn il-politiki jista’ jirriżulta fit-tneħħija tal-kontenut u penalizzazzjoni tal-utent.

Kontenut Qarrieqi

Użu Ħażin tal-Likeness u Deepfakes ta’ Ħsara

Il-monitor tal-moderazzjoni ta’ Sora għal prompts ibbażati fuq likeness huwa maħsub biex jimmarka kontenut deepfake potenzjalment ta’ ħsara, bl-intenzjoni li vidjows li jinvolvu individwi rikonoxxibbli jiġu riveduti mill-qrib. Il-filtru ta’ Użu Ħażin tal-Likeness ikompli jimmarka prompts li jippruvaw jimmodifikaw jew juru individwi b’modi potenzjalment ta’ ħsara jew qarrieqa. It-trasformazzjonijiet ġenerali ta’ Sora fuq il-prompts inaqqsu wkoll aktar ir-riskju li Sora jiġġenera likeness mhux mixtieq ta’ individwu privat ibbażat fuq prompt li fih isem ta’ xi ħadd.

Kontenut Qarrieqi

Il-klassifikaturi tal-input u tal-output ta’ Sora huma maħsuba biex jipprevjenu l-ġenerazzjoni ta’ kontenut qarrieqi relatat mal-elezzjonijiet li juri attività frawdolenti, mhux etika jew inkella illegali. Il-metriċi ta’ evalwazzjoni ta’ Sora jinkludu klassifikaturi biex jimmarkaw tekniki ta’ stil jew filtri li jistgħu jipproduċu vidjows qarrieqa fil-kuntest tal-elezzjonijiet, u b’hekk inaqqsu r-riskju ta’ użu ħażin fid-dinja reali.

Hawn taħt hemm l-evalwazzjonijiet għall-filtru LLM tagħna ta’ kontenut qarrieqi dwar l-elezzjonijiet, iffukati fuq l-għajnuna fl-identifikazzjoni ta’ każijiet fejn jista’ jkun hemm intenzjoni li jinħoloq kontenut ipprojbit fuq varjetà ta’ inputs (eż. test u vidjo). Is-sistema tagħna tiskannja wkoll frame wieħed kull sekonda tal-vidjo output biex tevalwa ksur possibbli fl-output.

Klassifikatur

Recall

Precision

Riżultat meta jiġi mmarkat

Kontenut Qarrieqi dwar l-Elezzjonijiet

98.23%

88.80%

Imblokka l-ġenerazzjoni tal-output

 N=~500, ibbażat fuq prompts ta’ data sintetika

Investimenti fil-Provenjenza

Peress li ħafna riskji marbuta ma’ Sora, bħal kontenut deepfake ta’ ħsara, jiddependu ħafna mill-kuntest, ipprijoritizzajna t-titjib tal-għodod tagħna tal-provenjenza. Nirrikonoxxu li ma hemmx soluzzjoni waħda għall-provenjenza, iżda aħna impenjati li ntejbu l-ekosistema tal-provenjenza u ngħinu nibnu kuntest u trasparenza għall-kontenut maħluq minn Sora. 

Għad-disponibbiltà ġenerali, l-għodod tagħna tas-sigurtà tal-provenjenza se jinkludu:

  • Metadata C2PA fuq l-assi kollha (oriġini verifikabbli, standard tal-industrija)
  • Watermarks animati viżibbli ta’ Sora b’mod awtomatiku (trasparenza għall-utenti li jaraw li dan hu ‘AI’)
  • Għodda interna ta’ reverse video search, biex tgħin lill-membri tat-tim Intelligence & Investigation ta’ OpenAI jivvalutaw b’kunfidenza għolja jekk kontenut inħoloqx minn Sora 

Politika tal-Prodott

Il-politiki tagħna jipprojbixxu l-użu ta’ Sora biex iqarraq, jiskamja, jew iqarraq b’oħrajn, inkluż permezz tal-ħolqien u t-tixrid ta’ diżinformazzjoni. Jipprojbixxu wkoll l-użu tal-likeness ta’ persuna oħra mingħajr il-permess tagħha. Ksur ta’ dawn il-politiki jista’ jirriżulta fit-tneħħija tal-kontenut u penalizzazzjoni tal-utent.

Stili ta’ Artisti

Meta utent juża l-isem ta’ artist ħaj f’prompt, il-mudell jista’ jiġġenera vidjo li b’xi mod jixbah l-istil tax-xogħlijiet ta’ dak l-artist. Hemm tradizzjoni twila ħafna fil-kreattività li tibni fuq l-istili ta’ artisti oħra, iżda nifhmu li xi kreatturi jista’ jkollhom tħassib. Għażilna li nieħdu approċċ konservattiv ma’ din il-verżjoni ta’ Sora hekk kif nitgħallmu aktar dwar kif Sora jintuża mill-komunità kreattiva. Biex nindirizzaw dan, żidna prompt re-writes li huma mfassla biex jiġu attivati meta utent jipprova jiġġenera vidjo fl-istil ta’ artist ħaj. 

B’mod simili għall-prodotti l-oħra tagħna, is-Sora Editor juża LLM biex jerġa’ jikteb it-test sottomess biex jiffaċilita prompting ta’ Sora b’mod aktar effettiv. Dan il-proċess jippromwovi l-konformità mal-linji gwida tagħna, inkluż it-tneħħija ta’ ismijiet ta’ figuri pubbliċi, l-iggrawndjar tan-nies b’attributi speċifiċi, u d-deskrizzjoni ta’ oġġetti b’marka b’mod ġeneriku. Inżommu blocklists testwali f’varjetà ta’ kategoriji, infurmati mix-xogħol preċedenti tagħna fuq DALL·E 2 u DALL·E 3, skoperta proattiva tar-riskji, u riżultati minn red teamers u utenti bikrin. 

Ħidma Futura

OpenAI tuża strateġija ta’ tniedi iterattiv biex tiżgura t-tnedija responsabbli u effettiva tal-prodotti tagħha. Dan l-approċċ jgħaqqad tniedijiet f’fażijiet, ittestjar kontinwu, u monitoraġġ kontinwu mal-feedback tal-utenti u data mid-dinja reali biex maż-żmien nirfinaw u ntejbu l-prestazzjoni u l-mitigazzjonijiet tas-sigurtà tagħna. Hawn taħt hemm sensiela ta’ xogħol li qed nippjanaw li nagħmlu bħala parti mit-tniedi iterattiv tagħna għal Sora.

Pilota tal-likeness

Il-kapaċità li jiġi ġġenerat vidjo bl-użu ta’ ritratt jew vidjo mtella’ ta’ persuna reali bħala “seed” hija vettur ta’ użu ħażin potenzjali li dwaru qed nieħdu approċċ partikolarment gradwali biex nitgħallmu minn xejriet bikrin tal-użu. Il-feedback bikri mill-artisti jindika li din hija għodda kreattiva qawwija li huma japprezzaw, iżda minħabba l-potenzjal għall-abbuż, inizjalment mhux se nagħmluha disponibbli għall-utenti kollha. Minflok, b’konformità mal-prattika tagħna ta’ tniedi iterattiv, il-kapaċità li jitellgħu immaġnijiet jew vidjows ta’ nies se tkun disponibbli għal sottogrupp ta’ utenti u se jkollna monitoraġġ attiv u fil-fond biex nifhmu l-valur tagħha għall-komunità ta’ Sora u biex naġġustaw l-approċċ tagħna għas-sigurtà hekk kif nitgħallmu. Uploads li jkun fihom immaġnijiet ta’ minorenni mhux se jkunu permessi matul dan it-test.

Inizjattivi ta’ Provenjenza u Trasparenza

L-iterazzjonijiet futuri ta’ Sora se jkomplu jsaħħu t-traċċabbiltà permezz ta’ riċerka fuq għodod ta’ reverse embedding search u implimentazzjoni kontinwa ta’ miżuri ta’ trasparenza bħal C2PA. Aħna eċċitati nesploraw sħubijiet potenzjali ma’ NGOs u organizzazzjonijiet tar-riċerka biex inkabbru u ntejbu l-ekosistema tal-provenjenza u nittestjaw l-għodda interna tagħna ta’ reverse image għal Sora.

Inwessgħu r-rappreżentazzjoni fl-outputs tagħna

Aħna impenjati li nnaqqsu l-bias potenzjali fl-output permezz ta’ raffinamenti tal-prompt, feedback loops, u l-identifikazzjoni kontinwa ta’ mitigazzjonijiet effettivi—filwaqt li nirrikonoxxu li korrezzjonijiet żejda jistgħu jkunu ta’ ħsara bl-istess mod. Nirrikonoxxu sfidi bħall-bias fl-immaġni tal-ġisem u r-rappreżentazzjoni demografika u se nkomplu nirfinaw l-approċċ tagħna biex niżguraw outputs ibbilanċjati u inklużivi.

Sigurtà, politika u allinjament etiku kontinwi

OpenAI qed tippjana li żżomm evalwazzjonijiet kontinwi ta’ Sora u sforzi biex tkompli ttejjeb kemm Sora taderixxi mal-politiki u l-istandards tas-sigurtà ta’ OpenAI. Huma ppjanati wkoll titjibiet addizzjonali f’oqsma bħas-sigurtà tal-likeness u l-kontenut qarrieqi, iggwidati minn best practices li qed jevolvu u mill-feedback tal-utenti.

Rikonoxximenti

Grazzi lit-timijiet interni kollha ta’ OpenAI, inklużi Comms, Comms Design, Affarijiet Globali, Integrity, Intel & Investigations, Legal, Product Policy, Safety Systems u User Ops, li l-appoġġ tagħhom kien essenzjali biex jgħin fl-iżvilupp u l-implimentazzjoni tal-miżuri ta’ mitigazzjoni tas-sigurtà ta’ Sora kif ukoll għall-kontribut tagħhom għal din il-kard tas-sistema.

Aħna grati lejn il-grupp tagħna ta’ artisti Alpha u lejn l-esperti tagħna tar-red teaming li taw feedback, għenu jittestjaw il-mudelli tagħna fl-istadji bikrin tal-iżvilupp u għenu jinfurmaw il-valutazzjonijiet u l-evalwazzjonijiet tar-riskju tagħna. Il-parteċipazzjoni fil-proċess tal-ittestjar ma tfissirx approvazzjoni tal-pjanijiet ta’ tniedi ta’ OpenAI jew tal-politiki ta’ OpenAI.

  • Individwi tar-Red Teaming (f’ordni alfabetiku): Alexandra García Pérez, Arjun Singh Puri, Caroline Friedman Levy, Dani Madrid-Morales, Emily Lynell Edwards, Grant Brailsford, Herman Wasserman, Javier García Arredondo, Kate Turetsky, Kelly Bare, Matt Groh, Maximilian Müller, Naomi Hart, Nathan Heath, Patrick Caughey, Per Wikman Svahn, Rafael González-Vázquez, Sara Kingsley, Shelby Grossman, Vincent Nestler
  • Organizzazzjonijiet tar-Red Teaming: ScaleAI