Submitted: 2 ta’ Frar 2024

Tweġiba għall-Ordni Eżekuttiva tan-NIST dwar l-AI

It-talba għal informazzjoni tal-Istitut Nazzjonali tal-Istandards u t-Teknoloġija (NIST) relatata mal-inkarigi tiegħu taħt it-taqsimiet 4.1, 4.5 u 11 tal-Ordni Eżekuttiva dwar l-Intelliġenza Artifiċjali.

OpenAI nħolqot bħala organizzazzjoni mingħajr skop ta’ qligħ fl-2015 biex tiżgura li l-intelliġenza artifiċjali ġenerali—fil-qosor, AI li hija tal-inqas intelliġenti daqs persuna—tkun ta’ benefiċċju għall-umanità kollha. Aħna nirriċerkaw, niżviluppaw, u noħorġu teknoloġija AI avvanzata kif ukoll għodod u l-aħjar prattiki għas-sikurezza, l-allinjament, u l-governanza tal-AI. Nilqgħu din l-opportunità biex ninfurmaw il-ħidma kontinwa u kritika tan-NIST dwar l-AI.

Hawnhekk, niffukaw fuq tliet suġġetti mqajma fl-RFI: (1) l-evalwazzjoni u l-awditjar tal-kapaċitajiet tal-AI, (2) it-twettiq ta’ testijiet ta’ red teaming biex jippermettu d-distribuzzjoni ta’ sistemi sikuri, siguri, u affidabbli, u (3) il-midja sintetika u l-provenjenza.

Valutazzjoni ta’ kapaċitajiet perikolużi f’sistemi tal-AI

Infaħħru l-enfasi tan-NIST fuq “il-ħolqien ta’ gwida u benchmarks għall-valutazzjoni tal-kapaċitajiet... li permezz tagħhom l-AI tista’ tikkawża ħsara.” OpenAI impenjat ruħha għal Qafas tat-Tħejjija⁠(jinfetaħ f’tieqa ġdida), approċċ komprensiv biex jevalwa, isegwi, u jnaqqas riskji katastrofikament perikolużi minn mudelli attwali u futuri tal-AI. Il-Qafas tat-Tħejjija bħalissa jsegwi erba’ oqsma inizjali ta’ riskju: iċ-ċibersigurtà; theddid kimiku, bijoloġiku, nukleari, u radjoloġiku (CBRN); persważjoni; u awtonomija tal-mudell. Il-Qafas jimpenjana wkoll għal viġilanza kontinwa għal riskji “mhux magħrufa mhux magħrufa” li għadhom ma ġewx identifikati.Bħala parti minn din il-ħidma, OpenAI reċentement qasmet⁠ evalwazzjoni waħda fuq skala kbira għas-CBRN: il-valutazzjoni tal-abbiltà ta’ GPT‑4 li żżid b’mod sinifikanti l-aċċess ta’ atturi malizzjużi għal informazzjoni perikoluża dwar il-ħolqien ta’ theddid bijoloġiku, meta mqabbel mal-linja bażi tar-riżorsi eżistenti (jiġifieri, l-internet). Fl-akbar evalwazzjoni tax-xorta tagħha li kienet tinvolvi kemm esperti tal-bijoloġija kif ukoll studenti, sibna li GPT‑4 jipprovdi l-aktar żieda ħafifa fl-informazzjoni dwar il-ħolqien ta’ theddid bijoloġiku. Għalkemm mhijiex żieda kbira biżżejjed biex tkun konklużiva, nittamaw li din is-sejba sservi bħala punt tat-tluq għal riċerka kontinwa u deliberazzjoni tal-komunità, li nittamaw li tkun immexxija min-NIST u l-Istitut il-ġdid għas-Sikurezza tal-AI.Din il-ħidma żiedet il-fiduċja tagħna f’diversi prinċipji ewlenin għall-valutazzjoni tar-riskji minn sistemi tal-AI:

Il-kontribut tas-sistemi tal-AI għar-riskji għandu jitkejjel f’termini ta’ bidla relattiva għal linja bażi xierqa.Ħafna mir-riskji li jistgħu jiżdiedu mis-sistemi attwali u futuri tal-AI (bħal fiċ-ċibersigurtà jew il-bijosigurtà) jeżistu sa ċertu livell anke mingħajr AI. Pereżempju, it-tiftix fuq l-internet diġà jippermetti grad sostanzjali ta’ aċċess għal informazzjoni rilevanti għall-bijosigurtà. Meta jiġi evalwat il-kontribut tas-sistemi tal-AI għar-riskji, prattika importanti ħafna hija li jiġi ttestjat jekk l-AI żżidx ir-riskju lil hinn mir-riżorsi eżistenti. Fl-istudju reċenti tagħna dwar ir-riskji bijoloġiċi, operazzjonalizzajna dan billi assenjajna b’mod każwali nofs il-parteċipanti għal grupp ta’ kontroll li seta’ juża biss sorsi ta’ għarfien mhux AI (inklużi databases online, artikli u magni tat-tiftix fuq l-internet, kif ukoll kwalunkwe għarfien preċedenti tagħhom), u assenjajna n-nofs l-ieħor għal grupp ta’ trattament b’aċċess sħiħ kemm għal dawn ir-riżorsi kif ukoll għall-mudell GPT‑4.
Il-ħidma ma’ esperti tad-dominju hija vitali biex nifhmu r-riskji.Hija sfida għal kwalunkwe entità waħda li timpjega esperti ta’ klassi dinjija fis-suġġetti kollha wesgħin u varjati li huma rilevanti għas-sikurezza tal-AI. Biex wieħed ikollu aċċess għal kompetenza tal-ogħla livell, huwa utli li jissieħeb ma’ partijiet terzi li jimpjegaw esperti tad-dominju fis-suġġetti rilevanti għall-valutazzjonijiet ta’ kapaċitajiet perikolużi. Barra minn hekk, l-involviment ta’ esperti tad-dominju fil-gradazzjoni tal-istudji jgħin biex jipprovdi assigurazzjoni li l-evalwazzjonijiet qed jitwettqu b’mod oġġettiv. Pereżempju, fl-iżvilupp u l-amministrazzjoni tal-valutazzjoni tar-riskju bijoloġiku, ħdimna mill-qrib ma’ esperti terzi fil-bijosigurtà fuq id-disinn tal-kompiti tar-riċerka, l-amministrazzjoni ta’ taħriġ dwar is-sikurezza għall-parteċipanti, u l-gradazzjoni tal-kompiti kompluti. Ikun fl-interess tas-sikurezza tal-AI li din l-ekosistema tespandi u ssir aktar diversa.
Evalwazzjoni bir-reqqa teħtieġ ukoll li naħdmu ma’ esperti tal-AI biex niġbdu b’mod effettiv il-firxa sħiħa tal-kapaċitajiet tal-mudell.Biex nifhmu l-firxa sħiħa tar-riskji minn mudelli tal-AI, huwa meħtieġ li jiġu elicited il-kapaċitajiet kollha tal-mudell kull fejn possibbli fl-evalwazzjoni. Dan jeħtieġ fehim profond tas-sistemi sottostanti tal-AI u kif jistgħu jiġu sfruttati b’mod effettiv. Nirrakkomandaw li l-evalwazzjonijiet jiġu mfassla b’kooperazzjoni mill-qrib ma’ esperti tal-AI. Fl-istudju tagħna dwar ir-riskju bijoloġiku, dan kien jinkludi li nipprovdu taħriġ lis-suġġetti umani dwar kif jiksbu prestazzjoni aħjar mill-aħjar prattiki tal-elicitation tal-kapaċitajiet tal-mudell tal-lingwa, kif ukoll approċċi tekniċi personalizzati biex jiġu elicited u ppruvati aħjar il-kapaċitajiet tal-mudelli.
Għandna bżonn aktar riċerka dwar kif ninterpretaw ir-riżultati tal-evalwazzjonijiet tar-riskju.Pereżempju, fil-każ tal-valutazzjoni taż-żieda tal-aċċess għall-informazzjoni dwar ir-riskju bijoloġiku minn mudelli tal-AI, għadu mhux ċar liema livell ta’ żieda fl-aċċess għall-informazzjoni jittraduċi f’żieda sinifikanti fir-riskju bijoloġiku. L-effett tas-sistemi tal-AI fuq ir-riskju bijoloġiku jista’ jinbidel hekk kif joħorġu teknoloġiji ġodda li jistgħu jittraduċu informazzjoni online f’theddid bijoloġiku fiżiku. Hekk kif inkomplu noperazzjonalizzaw il-Qafas tat-Tħejjija tagħna, aħna ħerqana li naħdmu man-NIST u l-Istitut għas-Sikurezza tal-AI biex nibnu fehim aktar b’saħħtu tar-riskji u tal-metriċi tar-riskju.
Evalwazzjonijiet ta’ suġġetti umani tal-ogħla livell jiswew ħafna.It-twettiq ta’ evalwazzjonijiet umani ta’ mudelli tal-lingwa jeħtieġ baġit konsiderevoli biex jiġu kkumpensati l-parteċipanti, żviluppat software, u żgurata s-sigurtà. Fl-istudju tagħna dwar ir-riskju bijoloġiku, esplorajna diversi modi biex innaqqsu dawn l-ispejjeż, iżda ħafna minn dawn l-ispejjeż kienu meħtieġa jew minħabba (1) kunsiderazzjonijiet ta’ sigurtà mhux negozjabbli, jew (2) in-numru ta’ parteċipanti meħtieġa u l-ammont ta’ ħin li kull parteċipant jeħtieġ iqatta’ għal eżami bir-reqqa. Dan għandu jitqies meta jiġu mfassla standards.

Aktar informazzjoni hija disponibbli fil-blog post tagħna dwar l-istudju reċenti tar-riskju bijoloġiku: Nibnu sistema ta’ twissija bikrija għall-ħolqien ta’ theddid bijoloġiku megħjun minn LLM⁠.

Red teaming biex jippermetti d-distribuzzjoni ta’ sistemi AI sikuri

X’inhu red teaming?

OpenAI tiddefinixxi red teaming bħala “proċess strutturat biex jiġu ppruvati sistemi u prodotti tal-AI għall-identifikazzjoni ta’ kapaċitajiet, outputs, jew theddid infrastrutturali ta’ ħsara.”^A
Hemm diversi metodi possibbli li qed jitfaċċaw taħt it-terminu umbrella ta’ red teaming, inkluż red teaming intern (magħmul minn timijiet interni dedikati f’laboratorju jew kumpanija), red teaming estern (magħmul minn partijiet interessati esterni f’kollaborazzjoni ma’ laboratorju jew kumpanija), jew red teaming awtomatizzat (bl-użu ta’ mudelli tal-AI biex jiġġeneraw attakki awtomatizzati u jikklassifikaw outputs). Fil-kuntest ta’ dan id-dokument, aħna qed nirreferu primarjament għal sforzi ta’ red teaming estern li jinvolvu lil OpenAI taħdem ma’ esperti esterni tad-dominju biex tivvaluta l-kapaċitajiet u r-riskji ta’ mudell jew sistema tal-AI.

L-approċċ ta’ OpenAI għar-red teaming ma jqisx attakki avversarjali jew outputs tal-mudell b’mod iżolat. Anzi, huwa metodu biex jiġu elicited riskji b’mod kuntestwalizzat u olistiku f’kollaborazzjoni ma’ esperti tad-dominju.^B Minbarra l-użu malizzjuż u l-metodi biex jiġu evitati mitigazzjonijiet ta’ sikurezza, red teaming iqis ukoll riskji oħra: inputs beninni jew mistennija li jwasslu għal outputs ta’ ħsara jew riskjużi, titjib ġdid fil-kapaċitajiet li jista’ jbiddel il-pajsaġġ tar-riskju, u kif fatturi barra mis-sistema nnifisha jistgħu jinteraġixxu mal-outputs tal-mudell biex jikkawżaw riskji jew ħsara. Il-valutazzjonijiet ta’ dawn l-oqsma spiss jibbenefikaw milli jkollhom bnedmin fil-loop biex jiġġeneraw eżempji potenzjali, u biex jivvalidaw l-outputs li jirriżultaw fil-kuntest tal-kompetenza ta’ red teamer partikolari.

Għal xiex huwa utli red teaming?

AI red teaming jgħin biex jinftiehmu r-riskji potenzjali assoċjati ma’ mudelli u sistemi ġodda li:

Jeħtieġu forom ta’ interazzjonijiet li jistgħu jkunu differenti minn sistemi jew teknoloġiji AI preċedenti u mhumiex koperti sew minn evalwazzjonijiet programmatiki (eż., in painting fuq DALL·E, GPTs).
Għandhom kapaċitajiet imtejba b’mod sinifikanti li jistgħu jintroduċu riskji ġodda li għadhom ma ġewx evalwati (eż., dominji xjentifiċi, persważjoni, jew raġunament).
Jeħtieġu kuntest jew għarfien speċifiku tad-dominju għat-testjar u l-verifika (eż., kontenut politiku speċifiku għal reġjun, preġudizzji kulturali, dominji xjentifiċi jew esperti bħall-liġi u l-mediċina).
Jeħtieġu fehim ta’ user flow jew każijiet ta’ użu speċifiċi, inklużi fatturi li jistgħu jkunu esterni għas-sistema nnifisha (eż., l-ittestjar ta’ GPT‑4(V) għal individwi b’vista baxxa).

OpenAI tqis red teaming bħala għodda għall-valutazzjoni kemm tar-riskji fil-livell tal-mudell kif ukoll fil-livell tas-sistema. Il-karatteristiċi tas-sistema jistgħu jinkludu: classifiers, filtri tal-prompt / listi ta’ imblukkar, interventi fil-livell tal-user interface, prattiki ta’ monitoraġġ u evalwazzjoni u mekkaniżmi oħra ta’ infurzar tal-politika. Xi drabi nwettqu red teaming għal prodott ġdid anke meta ma jkunx hemm mudell ġdid involut. Pereżempju, filwaqt li GPTs⁠ ma introduċewx mudell sottostanti ġdid, huma introduċew sistemi ġodda dwar kif l-utenti jinteraġixxu mal-mudell.

OpenAI tqis l-isforzi tagħna ta’ red teaming bħala komplementari għal aktar sforzi ta’ red teaming speċifiċi għad-dominju li għandhom jitwettqu minn żviluppaturi li jibnu fuq it-teknoloġija tagħna. Pereżempju, filwaqt li aħna nissuġġettaw il-mudelli u s-sistemi tagħna għal red teaming f’punti speċifiċi taż-żmien taħt kundizzjonijiet partikolari, l-iżviluppaturi li qed jibnu fuq l-API tagħna għandhom iqisu dak it-tagħlim, u jwettqu red teaming addizzjonali abbażi tas-sistema u l-kundizzjonijiet kuntestwali li jistennew li joperaw fihom. Din hija waħda mir-raġunijiet għaliex OpenAI tippubblika s-sejbiet ewlenin mill-isforzi ta’ red teaming f’kards tas-sistema (u forom oħra ta’ dokumentazzjoni disponibbli pubblikament) biex oħrajn jitgħallmu minnhom u jibnu fuqhom.

Red teaming iterattiv f’OpenAI

Iddokumentajna diversi mill-isforzi tagħna ta’ red teaming għal tniedijiet ta’ mudelli fruntiera f’kards tas-sistema:

OpenAI pprovdiet lil expert red teamers aċċess għal mudelli pre-trained b’livelli differenti ta’ fine-tuning u post-training kif ukoll livelli differenti ta’ maturità tal-mitigazzjonijiet ta’ sikurezza.

L-għanijiet ta’ dan huma kif ġej:

L-għarfien mir-red teaming jista’ jinforma l-iżvilupp ta’ mitigazzjonijiet fil-livell tal-post-training, mitigazzjonijiet fil-livell tas-sistema, politiki, u evalwazzjonijiet.
L-għarfien mir-red teaming jista’ jgħin biex jinforma t-teħid ta’ deċiżjonijiet tat-tmexxija dwar ir-rilaxx ta’ ċerti karatteristiċi, kif ir-rilaxx jiġi distribwit b’mod iterattiv, u l-effettività tal-mitigazzjonijiet ta’ sikurezza.
Ir-riżultati tar-red teaming jistgħu jinqasmu flimkien mal-materjali pubbliċi tat-tnedija (bħal f’kards tas-sistema jew formati oħra) biex jinfurmaw lill-utenti potenzjali u partijiet interessati oħra dwar riskji li ġew mitigati, riskji residwi, u riskji futuri possibbli.

Inqabbdu red teamers kmieni kemm hu raġonevoli fil-proċess ta’ żvilupp, sabiex l-għarfien mir-red teaming ikun jista’ jidħol direttament fl-isforzi ta’ sikurezza u t-teħid ta’ deċiżjonijiet. Huwa importanti wkoll li nitgħallmu dwar il-kapaċitajiet bażi tal-mudell qabel kwalunkwe mitigazzjoni ta’ sikurezza miżjuda, sabiex l-iżviluppaturi tal-mudell ikunu jistgħu jieħdu deċiżjonijiet infurmati dwar ir-riskji bażi tal-mudell, u għall-fehim tas-soċjetà dwar il-pajsaġġ tar-riskju assoċjat ma’ sistemi dejjem aktar b’saħħithom.

Ladarba jkunu ddaħħlu mitigazzjonijiet ta’ sikurezza, l-isforzi ta’ red teaming jistgħu jiffokaw rawnds addizzjonali ta’ red-teaming fuq l-identifikazzjoni ta’ lakuni u riskji residwi li mhumiex indirizzati mill-mitigazzjonijiet ta’ sikurezza, kif ukoll fuq il-valutazzjoni tar-robustezza tal-mitigazzjonijiet.

Fl-aħħar mill-aħħar, filwaqt li hemm proprjetajiet importanti ta’ sikurezza li għandhom jitqiesu aktar upstream mill-proċessi tal-iżvilupp tal-mudell, red teaming għandu l-intenzjoni li jissimula esperjenza kemm jista’ jkun qrib ta’ dak li l-iżviluppaturi tal-mudell joħorġu għall-pubbliku.

Limitazzjonijiet tar-red teaming

Red teaming fih innifsu mhuwiex eżerċizzju suffiċjenti ta’ kejl tar-riskju. Waħdu, red teaming mhux se jikkwantifika l-probabbiltà jew il-propensità ta’ mudell li jipproduċi kontenut ta’ ħsara jew riskji assoċjati mal-użu ta’ sistema tal-AI. Red teaming lanqas ma jipprovdi biżżejjed informazzjoni biex tikkwantifika s-severità ta’ riskju jew ħsara identifikata.

Filwaqt li l-biċċa l-kbira tal-isforzi ta’ red teaming bl-esperti ta’ OpenAI jseħħu qabel distribuzzjoni kbira ta’ mudell jew prodott, il-mudelli u s-sistemi jevolvu spiss ħafna fil-produzzjoni, u għalhekk, huwa importanti li dan jitqies meta jiġu kkuntestwalizzati s-sejbiet tar-red teaming. Bl-istess mod, l-iżviluppaturi li jibnu għal każijiet ta’ użu partikolari fuq il-mudelli jistgħu jieħdu deċiżjonijiet ta’ disinn li jbiddlu l-profil ta’ sikurezza ta’ mudell jew sistema jekk dan ma jkunx inerenti għal (jew immutabbli mill-) il-mudell jew is-sistema nnifisha.

Red teaming ipoġġi l-pedament għal tipi ta’ aktar testjar u evalwazzjoni, u jipprovdi xi gwida dwar vectors ta’ attakk jew kwistjonijiet li l-mitigazzjonijiet ta’ sikurezza jeħtieġ li jkunu robusti kontrihom.

L-eżami ta’ bosta eżempji u permutazzjonijiet ta’ kwistjoni jista’ jgħin biex jitnissel kunfidenza dwar kif jitkejjel qasam partikolari ta’ riskju. Red teaming bl-esperti skont id-disinn għandu l-għan li jkopri l-wisa’ minflok il-fond tal-oqsma ta’ riskju, u għalhekk, waħdu mhux bilfors joħloq evalwazzjoni suffiċjenti biex jitkejlu riskji speċifiċi. Minflok, red teaming jista’ jiġġenera datasets li jistgħu jitqiesu bħala ż-“żrieragħ” għal evalwazzjoni aktar bir-reqqa. Minn hemm, ir-riżultati jistgħu jintużaw biex jiġġeneraw aktar eżempji ta’ qasam partikolari ta’ kwistjoni li nkixef, u “golden set” ta’ eżempji ttikkettjati (ġeneralment, minn esperti tad-dominju) jista’ jintuża biex jevalwa mudelli futuri fuq qasam identifikat ta’ kwistjoni.

Kompożizzjoni tat-timijiet tar-red teaming u prijoritizzazzjoni tad-dominji

Sistemi ta’ AI għal skop ġenerali li se jintużaw għal ħafna każijiet ta’ użu antiċipati u mhux antiċipati u f’varjetà ta’ kuntesti madwar id-dinja jeħtieġu kopertura ta’ firxa wiesgħa ta’ oqsma tematiċi, b’nies li jirrappreżentaw firxa wiesgħa ta’ perspettivi u viżjonijiet tad-dinja.

OpenAI temmen fir-reklutaġġ ta’ varjetà wiesgħa ta’ esperti biex jagħmlu red teaming tal-mudelli tagħna. Is-sena li għaddiet, ħriġna sejħa għal applikanti għan-Network tar-Red Teaming. Il-kriterji tal-għażla kienu jinkludu:

Kompetenza jew esperjenza murija f’qasam partikolari rilevanti għar-red teaming
Passjoni għat-titjib tas-sikurezza tal-AI
Li ma jkollhom ebda kunflitt ta’ interess
Sfondi diversi u gruppi tradizzjonalment sottorappreżentati
Rappreżentanza ġeografika diversa
Fluwenza f’aktar minn lingwa waħda
Abbiltà teknika (ta’ għajnuna iżda mhux meħtieġa)

Il-prijoritizzazzjoni tad-dominji tista’ tkun infurmata minn: użi mistennija tas-sistemi jew tal-mudell tal-AI, speċjalment f’kuntesti b’ambigwità ogħla jew riskji possibbli, evalwazzjoni bikrija tal-mudelli fejn l-iżviluppaturi tal-mudelli jistgħu jistennew kapaċitajiet akbar, oqsma magħrufa ta’ kwistjonijiet preċedenti fil-politika tal-kontenut, u kuntesti soċjo-politiċi rilevanti (eż., l-2024 hija sena ewlenija ta’ elezzjonijiet f’ħafna postijiet madwar id-dinja). Huwa importanti li wieħed jinnota li kull mudell jew sistema jista’ jeħtieġ settijiet differenti ta’ kompetenza, u dominji ġodda jistgħu jitqiesu skont il-kapaċitajiet li qed javvanzaw u l-każijiet ta’ użu ġodda tal-mudell jew tas-sistemi. Għalhekk, il-kompożizzjoni ottimali tat-timijiet tar-red teaming se tevolvi maż-żmien.

Midja Sintetika u Provenjenza

Watermarking: Taħt dan l-approċċ, il-midja awdjoviżiva ġġenerata nnifisha fiha sinjal tal-oriġini tagħha – mudell sottili li ma jidhirx lit-telespettatur jew lis-semmiegħ, iżda li jista’ jinstab bis-software. Dan jista’ jkun sinjal li jista’ jinstab biss bl-għajnuna ta’ ċavetta sigrieta, jew inkella, is-software biex jinstab il-watermark jista’ jkun disponibbli pubblikament. Minħabba f’hekk, jekk OpenAI kellha żżid watermark mal-outputs tagħna, tkun meħtieġa kollaborazzjoni tul il-katina tal-valur tal-AI sabiex parteċipanti oħra, bħal pjattaformi tal-midja soċjali li jqassmu l-kontenut, ikunu jistgħu jagħmlu l-watermark evidenti u utli għall-utenti. Jekk il-proċess ta’ skoperta nnifsu ma jkunx pubbliku, allura l-aċċess għal dak il-proċess ikun kwistjoni ta’ politika kumplessa. Hemm ukoll sfidi tekniċi. Għalkemm il-watermarks jistgħu jkunu aktar diffiċli biex jitneħħew minn metodi oħra ta’ provenjenza, il-midja mmarkata xorta tista’ titlef il-watermark tagħha jekk tinqata’, tinbidel fid-daqs jew tiġi modifikata b’mod ieħor. Għal dawn ir-raġunijiet, il-watermarks xorta jistgħu jiġu evitati, partikolarment minn atturi avversarjali motivati. Barra minn hekk, l-impatt tal-watermarking jista’ jkun limitat minħabba li atturi ħżiena jistgħu jaċċessaw mudelli li ma jagħmlux watermark fuq l-outputs tagħhom.
Classifiers (mudelli mħarrġa li jiddistingwu output iġġenerat mill-AI minn midja oħra, u jistgħu jiskopru liema mudell jew servizz iġġenera output partikolari): Meta jkunu effettivi, dawn l-approċċi huma attraenti ħafna għax ma jiddependux fuq kooperazzjoni mill-persuna li tqassam immaġni jew minn xi ħadd ieħor. Madankollu, jistgħu jiżbaljaw—kemm false positives kif ukoll false negatives—u jistgħu jeħtieġu ħafna komputazzjoni biex jiġu distribwiti fuq skala kbira. False positives jistgħu, pereżempju, jiddeskrivu b’mod żbaljat ix-xogħol ta’ artist uman bħala output tal-AI. False negatives, min-naħa l-oħra, jistgħu jimmarkaw b’mod żbaljat immaġni bħala mhux iġġenerata mill-AI, meta fil-fatt tkun.
Approċċi bbażati fuq metadata(bħall-istandard attwali ta’C2PA⁠(jinfetaħ f’tieqa ġdida)): F’dawn l-approċċi, il-metadata li takkumpanja ċerta midja tiġi ffirmata kriptografikament biex tipprovdi attestazzjoni tal-oriġini tal-midja.

Dan jista’ jagħti s-setgħa lil nies li jixtiequ jippruvaw l-oriġini tal-midja, kemm jekk iġġenerata mill-AI kif ukoll jekk le. Pereżempju, C2PA tista’ tippermetti lil pubblikatur tal-aħbarijiet juri, u lit-telespettaturi jikkonfermaw, li l-pubblikatur fil-fatt ippubblika ċerta immaġni jew vidjo u jżomm mal-eżattezza ta’ dik l-immaġni jew vidjo. Bl-istess mod, jekk jiġi implimentat għal sistema ta’ AI ġenerattiva, dan il-metodu jista’ jgħin artist juri li hu ġġenera ċerta immaġni jew vidjo sintetiku. Dawn l-approċċi għandhom il-benefiċċju, apparentement, li jipprovdu viżibilità lill-konsumatur jew lill-pubbliku dwar il-provenjenza tal-kontenut. Barra minn hekk, għandhom il-vantaġġ li ma jeħtiġux riżorsi sinifikanti biex jiġu implimentati.

Madankollu, il-metadata tista’ titneħħa faċilment minn immaġni jew vidjo sottostanti, għalhekk din it-teknika ma toħloqx ostaklu sinifikanti għal atturi ħżiena (pereżempju dawk involuti f’kampanji ta’ diżinformazzjoni) li jistgħu jkunu jridu jgħaddu kontenut iġġenerat bħala reali.

Sabiex l-approċċi tal-metadata jkunu ta’ benefiċċju wiesa’ għall-pubbliku, browsers u pjattaformi ta’ distribuzzjoni, bħal pjattaformi tal-midja soċjali, ikollhom bżonn jiskopru u juru l-metadata. L-implimentazzjoni b’suċċess ta’ approċċi bbażati fuq metadata għalhekk teħtieġ kollaborazzjoni tul il-katina tal-valur: Mhux biżżejjed li l-materjali awdjoviżivi jkollhom metadata ffirmata kriptografikament, iżda l-pjattaformi tad-distribuzzjoni jridu jkunu jistgħu jiskopru l-metadata inkwistjoni u juruhielha lill-utent finali biex jivverifika l-oriġini tal-midja.

L-approċċi ta’ OpenAI għall-provenjenza

Minħabba li kull metodu ta’ provenjenza jiġi b’vantaġġi u limitazzjonijiet, OpenAI ilha tesplora firxa ta’ approċċi għall-provenjenza għal midja awdjoviżiva ġġenerata mill-AI.

Metadata C2PA għall-immaġnijiet DALL·E 3

Fil-15 ta’ Jannar ta’ din is-sena, OpenAI ħabbret li se nkunu qed nimplimentaw l-approċċ tal-metadata C2PA għal immaġnijiet iġġenerati bl-użu tal-mudell tagħna text-to-image DALL·E 3. L-ispeċifikazzjonijiet C2PA huma standard tekniku miftuħ li jipprovdi lill-pubblikaturi, lill-ħallieqa, u lill-konsumaturi l-abbiltà li jsegwu l-oriġini ta’ tipi differenti ta’ midja.

Dawn l-ispeċifikazzjonijiet jippermettu li metadata titwaħħal ma’ fajl. Din il-metadata tinkludi informazzjoni dwar is-sors ta’ immaġni (fil-każ tagħna, li l-immaġni ġiet minn DALL·E) u l-ħin tal-ħolqien. Membri tal-pubbliku jistgħu jittestjaw għal din il-metadata u, jekk il-metadata tkun preżenti, jikkonfermaw li immaġni ġiet iġġenerata minn DALL·E 3.

Dan se jgħinna nagħtu s-setgħa lill-utenti biex jindikaw l-oriġini tal-immaġnijiet li jiġġeneraw bl-użu ta’ DALL·E 3. Madankollu, din il-metadata tista’ titneħħa pjuttost faċilment: attur ħażin motivat jista’ jneħħi l-metadata C2PA li takkumpanja kwalunkwe immaġni. Barra minn hekk, pjattaformi komuni ta’ qsim ta’ immaġnijiet bħal pjattaformi tal-midja soċjali bħalissa jneħħuha b’mod awtomatiku, minflok ma jiskopruha u jippreżentawha lill-utenti. Minħabba kemm C2PA tista’ titneħħa faċilment, membri tal-pubbliku ma jistgħux jassumu li kull immaġni DALL·E li jaraw bilfors se jkollha din id-data.

Madankollu, C2PA mhix biss għall-immaġnijiet tal-AI, u tista’ jkollha benefiċċji importanti jekk tiġi adottata b’mod aktar wiesa’. Qed tiġi adottata wkoll minn manifatturi tal-kameras, organizzazzjonijiet tal-aħbarijiet, u oħrajn biex jivverifikaw minn fejn ġejjin l-immaġnijiet. Aħna nemmnu li adozzjoni aktar wiesgħa ta’ metodi ta’ divulgazzjoni, u l-inkoraġġiment tal-utenti biex ifittxu dawn is-sinjali, huma passi importanti lejn iż-żieda tal-affidabbiltà tal-informazzjoni diġitali.

Classifier sperimentali għall-immaġnijiet DALL·E 3

Fid-19 ta’ Ottubru 2023, ħabbarna il-ħidma kontinwa tagħna fuq classifier tal-provenjenza, għodda interna ġdida biex jinstabu immaġnijiet iġġenerati mis-sistema tagħna DALL·E 3. Aħna nkejlu l-eżattezza tal-classifier billi nużaw benchmarks interni li wrew riżultati promettenti, anke fejn l-immaġnijiet kienu suġġetti għal tipi komuni ta’ modifiki, bħall-cropping, resizing, kompressjoni JPEG, jew meta test jew cutouts minn immaġnijiet reali jitqiegħdu fuq porzjonijiet żgħar tal-immaġni ġġenerata. Minkejja dawn ir-riżultati b’saħħithom fit-testijiet interni, il-classifier jista’ biss jgħidilna li immaġni x’aktarx ġiet iġġenerata minn DALL·E, u għadu ma jippermettilniex naslu għal konklużjonijiet definittivi.

Aħna qed inkomplu nittestjaw il-classifier tagħna għar-robustezza u, fl-ewwel trimestru tal-2024, qed nippjanaw li nagħmluh disponibbli għal sħab esterni biex jagħtu feedback. Matul is-sena li ġejja, nistennew bil-ħerqa li nibdew inwessgħu l-esperimenti tagħna bil-classifier tal-immaġnijiet, billi nistiednu partijiet esterni magħżula biex jingħaqdu magħna fil-valutazzjoni tal-prestazzjoni u l-utilità tiegħu.

Il-classifier huwa mfassal għall-mudell u jista’ biss jikklassifika jekk immaġni x’aktarx ġiet iġġenerata minn DALL·E, u għalhekk, anke kieku kien kompletament eżatt fil-klassifikazzjonijiet tiegħu, ma jkunx possibbli li jintuża biex jiġi ddeterminat jekk immaġni ġietx iġġenerata minn għodda ġenerattiva oħra.

Nilqgħu l-opportunità li nikkollaboraw magħkom hekk kif il-ħidma tagħkom f’dan il-qasam tkompli.

Sinċerament,

Anna Adeola Makanju
Viċi President tal-Affarijiet Globali
OpenAI

Noti f’qiegħ il-paġna

A
Ara d-definizzjoni⁠(jinfetaħ f’tieqa ġdida) tar-red teaming tal-Frontier Model Forum.
B
Aħna nużaw it-terminu “espert” biex nirreferu għal kompetenza infurmata minn firxa ta’ għarfien tad-dominju u esperjenzi tal-ħajja.