Published: 26 ta’ Ottubru 2023

L-Approċċ ta’ OpenAI għar-Riskju tal-Fruntiera

Aġġornament għas-Summit tar-Renju Unit dwar is-Sikurezza tal-IA

Qed jillowdja…

Fil-21 ta’ Lulju 2023, OpenAI ingħaqdet ma’ laboratorji ewlenin oħra tal-IA biex tagħmel sett ta’ impenji volontarji biex tippromwovi s-sikurezza, is-sigurtà, u l-fiduċja fl-IA. Dawn l-impenji koprew firxa ta’ oqsma ta’ riskju, u b’mod ċentrali inkluż ir-riskji tal-fruntiera li huma l-fokus tas-Summit li jmiss dwar is-Sikurezza tal-IA.

F’dan l-aġġornament, niddeskrivu l-progress tagħna dwar dawk l-impenji volontarji u nispjegaw aktar fid-dettall l-approċċ li qed jevolvi tagħna għall-mitigazzjoni ta’ riskji tal-fruntiera, inkluż ix-xogħol kontinwu tagħna biex niżviluppaw Qafas tat-Tħejjija.

Fit-3 ta’ Ottubru 2023, ħriġna pubblikament il-kard tas-sistema⁠ għal il-mudell tagħna DALL-E 3 minn test għal immaġni⁠, l-ewwel rilaxx pubbliku kbir ta’ mudell ġdid tal-fruntiera fl-ambitu tal-impenji volontarji tagħna. F’konformità kemm mal-missjoni tagħna kif ukoll mal-impenji volontarji, wettaqna xogħol kritiku tas-sikurezza inklużi evalwazzjoni tas-sikurezza qabel l-implimentazzjoni u red teaming. Barra minn hekk, qed naħdmu lejn metodi ġodda biex nagħtu s-setgħa lin-nies isegwu l-provenjenza ta’ media ġġenerata mill-IA, u komplejna ninvestu fi prattiki responsabbli permezz tat-tnedija tagħna tal-kapaċitajiet tal-vuċi u tal-analiżi tal-immaġnijiet f’ChatGPT.

Wettaqna wkoll l-impenn volontarju⁠ tagħna li “nistabbilixxu jew ningħaqdu ma’ forum jew mekkaniżmu li permezz tiegħu [nistgħu] niżviluppaw, inmexxu ’l quddiem, u nadottaw standards komuni u l-aħjar prattiki għas-sikurezza tal-IA tal-fruntiera,” billi konna ko-fundaturi tal-Frontier Model Forum. Dan il-korp industrijali ġdid, stabbilit flimkien ma’ Microsoft, Google Deepmind, u Anthropic, huwa spazju biex tavvanza r-riċerka dwar is-sikurezza tal-IA u tippromwovi prattiki ta’ żvilupp responsabbli għal sistemi tal-IA tal-fruntiera.

Qafas tat-Tħejjija

Mudelli tal-IA tal-fruntiera għandhom il-potenzjal li jibbenefikaw lill-umanità kollha, iżda joħolqu wkoll riskji dejjem aktar serji. Biex nimmaniġġjaw dawn ir-riskji hekk kif il-mudelli tal-IA jkomplu jitjiebu, qed niżviluppaw Qafas tat-Tħejjija, li jsaħħaħ l-approċċ proattiv tagħna bbażat fuq ir-riskju għall-iżvilupp responsabbli ta’ mudelli tal-fruntiera, speċjalment fir-rigward ta’ riskji katastrofiċi.

Il-Qafas tat-Tħejjija se jiddettalja l-approċċ tagħna għall-iżvilupp ta’ evalwazzjonijiet u monitoraġġ rigorużi tal-kapaċitajiet tal-mudelli tal-fruntiera, kif ukoll għall-istabbiliment ta’ struttura ta’ governanza għall-obbligu ta’ rendikont u s-superviżjoni tul il-proċess tal-iżvilupp. Ir-riskji li qed nippjanaw li nsegwu bħala parti minn din il-politika jkopru bosta kategoriji inklużi ċ-ċibersigurtà, il-persważjoni, theddid kimiku u bijoloġiku, u l-awtonomija.

Il-Qafas tat-Tħejjija se jipprovdi wkoll firxa ta’ azzjonijiet biex jipproteġi kontra eżiti katastrofiċi. Il-fehim empiriku tar-riskju katastrofiku għadu fi stadju bikri u qed jiżviluppa malajr. Għalhekk se nkunu qed naġġornaw b’mod dinamiku l-valutazzjoni tagħna tal-livelli attwali ta’ riskju tal-mudelli tal-fruntiera biex niżguraw li nirriflettu l-aktar fehim reċenti tagħna tal-evalwazzjoni u l-monitoraġġ. Qed inwaqqfu tim iddedikat (Preparedness) li jmexxi dan l-isforz, inkluż it-twettiq tar-riċerka u l-monitoraġġ meħtieġa.

Il-Qafas tat-Tħejjija huwa maħsub biex jikkumplimenta u jestendi x-xogħol eżistenti tagħna ta’ mitigazzjoni tar-riskju, li jikkontribwixxi għas-sikurezza u l-allinjament ta’ sistemi ġodda, kapaċi ħafna, kemm qabel kif ukoll wara l-implimentazzjoni. Dawn l-isforzi eżistenti jinkludu x-xogħol tat-tim tagħna tas-Sistemi tas-Sikurezza biex iwettaq riċerka u jibni soluzzjonijiet sistematiċi biex jiżgura li l-aqwa mudelli tagħna jkunu jistgħu jiġu implimentati b’mod sikur u tat-tim tagħna ta’ Superalignment, li jiffoka fuq l-isfidi tat-tagħlim awtomatiku tal-allinjament ta’ sistemi tal-IA superintelliġenti mal-intenzjoni tal-bniedem.

Jinkludu wkoll Bord Konġunt għas-Sikurezza tal-Implimentazzjoni (DSB) ma’ Microsoft, li japprova deċiżjonijiet ta’ kwalunkwe parti biex timplimenta mudelli ’l fuq minn ċertu limitu ta’ kapaċità. Id-DSB jiffoka speċifikament fuq deċiżjonijiet ta’ implimentazzjoni aktar milli fuq passi preċedenti bħal jekk jitħarrġux jew le mudelli ta’ ċerta skala jew livell ta’ kapaċità. Għandu xi karatteristiċi li spiss jiġu diskussi fil-kuntest ta’ politiki responsabbli ta’ scaling, bħal fokus fuq is-sistemi l-aktar kapaċi, enfasi qawwija fuq ittestjar avversarju, u kunsiderazzjoni espliċita tal-allinjament. Tgħallimna lezzjonijiet ta’ valur mir-reviżjoni tad-DSB ta’ GPT‑4, li kienet l-ewwel implimentazzjoni eliġibbli, u se nkunu qed nużaw dawk il-lezzjonijiet biex ninfurmaw id-disinn u l-implimentazzjoni tal-Qafas tat-Tħejjija. Kemm id-DSB kif ukoll il-Qafas tat-Tħejjija, u r-rwoli rispettivi tagħhom, jistgħu jevolvu maż-żmien hekk kif nitgħallmu aktar dwar riskji u mitigazzjonijiet.

Nota: Nirreferu għall-politika tagħna bħala Qafas tat-Tħejjija aktar milli Politika ta’ Scaling Responsabbli għax nistgħu nesperjenzaw żidiet drammatiċi fil-kapaċità mingħajr żieda sinifikanti fl-iskala, eż. permezz ta’ titjib algoritmiku. Il-Qafas tat-Tħejjija jirregola l-iżvilupp tagħna ta’ mudelli tal-fruntiera dejjem aktar kapaċi irrispettivament minn jekk dawk il-kapaċitajiet dejjem jikbru jiġux mill-iskala, minn titjib algoritmiku, jew minn ottimizzazzjonijiet oħra.

Riċerka prijoritarja u investiment fuq riskji soċjali, ta’ sikurezza u ta’ sigurtà

Għandna bżonn skoperti xjentifiċi, tħejjija tas-soċjetà u sistemi avvanzati tas-sigurtà biex nikkontrollaw u nintegraw sistemi tal-IA ħafna aktar intelliġenti minna. Qed ninvestu f’dawn l-iskoperti billi noħolqu żewġ timijiet ġodda: Superalignment u Preparedness, u billi ninvestu aktar fis-sistemi tas-sigurtà tagħna.

It-tekniki attwali tagħna għall-allinjament tal-IA, bħal Apprendiment ta' Tisħiħ minn Feedback minn Bniedem, jiddependu fuq il-kapaċità tal-bniedem li jissorvelja l-IA. Iżda dawn it-tekniki mhux se jaħdmu għas-superintelliġenza, għax il-bnedmin mhux se jkunu jistgħu jissorveljaw b’mod affidabbli sistemi tal-IA ħafna aktar intelliġenti minna. Stabbilejna mira li nsolvu din il-problema fi żmien erba’ snin billi ninvestu f’tim ġdid imsejjaħ Superalignment⁠, immexxi flimkien minn Ilya Sutskever (ko-fundatur u Chief Scientist ta’ OpenAI) u Jan Leike (Kap tal-Allinjament). Il-mira tagħna hija li nibnu riċerkatur awtomatizzat tal-allinjament qrib il-livell uman u li nużaw ammont kbir ta’ compute biex nespandu l-isforzi tagħna biex nallinjaw is-superintelliġenza. Nippjanaw li niddedikaw 20% tal-compute li konna żgurajna sa Ġunju 2023 għal dan l-isforz. It-tim se jaqsam ir-riżultati b’mod wiesa’ biex jikkontribwixxi wkoll għall-allinjament u s-sikurezza ta’ mudelli mhux ta’ OpenAI.

Lil hinn mill-isfida tal-allinjament tas-superintelliġenza, nemmnu li jistgħu jitfaċċaw riskji dejjem aktar serji mill-użu ħażin potenzjali ta’ mudelli tal-fruntiera dejjem aktar kapaċi. Qed noħolqu tim ġdid iddedikat imsejjaħ Preparedness biex jidentifika, isegwi u jħejji għal dawn ir-riskji. Beħsiebna nsegwu riskji tal-fruntiera, inklużi ċ-ċibersigurtà, CBRN, il-persważjoni, u r-replikazzjoni u l-adattament awtonomi u naqsmu azzjonijiet biex nipproteġu kontra l-impatti tar-riskju katastrofiku. Minħabba li l-fehim empiriku tar-riskju katastrofiku għadu fi stadju bikri, se naġġornaw b’mod iterattiv il-valutazzjoni tagħna tal-livelli attwali ta’ riskju tal-mudelli tal-fruntiera biex niżguraw li nirriflettu l-aktar fehim reċenti tagħna tal-evalwazzjoni u l-monitoraġġ.

Qed inkomplu ninvestu fiċ-ċibersigurtà u f’salvagwardji kontra theddid minn ġewwa biex nipproteġu weights tal-mudelli proprjetarji u li għadhom ma ġewx rilaxxati. Nedejna l-Cybersecurity Grant Program u l-Programm Bug Bounty ta’ OpenAI biex nikkoordinaw riċerkaturi b’fehmiet simili li jaħdmu għas-sikurezza kollettiva tagħna. Il-Cybersecurity Grant Program huwa inizjattiva ta’ $1M biex issaħħaħ u tikkwantifika l-kapaċitajiet taċ-ċibersigurtà msaħħa bl-IA u biex trawwem diskors ta’ livell għoli dwar l-IA u ċ-ċibersigurtà. Nistiednu wkoll lill-pubbliku jirrapporta vulnerabbiltajiet, bugs, jew difetti tas-sigurtà li jiskopru fis-sistemi tagħna. Il-Programm Bug Bounty ta’ OpenAI jippermettilna nagħrfu u nippremjaw l-għarfien siewi ta’ individwi li jikkontribwixxu biex iżommu t-teknoloġija u l-kumpanija tagħna siguri.

Evalwazzjonijiet tal-mudelli u red teaming

Aħna nevalwaw kull mudell ġdid ewlieni rilaxxat għas-sikurezza, inkluż bl-użu ta’ red teaming. Pereżempju, qabel ma ħriġna pubblikament GPT‑4, red-teamers esterni ttestjaw il-mudell għar-riskji tal-fruntiera li ġejjin: (1) għajnuna fl-iżvilupp ta’ armi nukleari, radjoloġiċi, bijoloġiċi, u kimiċi (CBRN), (2) żieda fir-riskju ċibernetiku, (3) riskji li jirriżultaw mill-użu tal-għodod u (4) kapaċitajiet ta’ awtoreplikazzjoni. Bħala parti mir-red teaming tagħna ta’ DALL-E 3, fi ħdan l-ambitu tal-impenji volontarji tagħna, għamilna red teaming tal-kapaċità tal-mudell li jipprovdi informazzjoni viżiva meħtieġa biex jiġi żviluppat, akkwistat, jew mifrux CBRN.

Qsamna wkoll sejħa miftuħa għal OpenAI Red Teaming Network⁠ biex nistiednu pubblikament esperti tad-dominju interessati li jtejbu s-sikurezza tal-mudelli ta’ OpenAI biex jingħaqdu mal-isforzi tagħna ta’ red teaming.

CBRN. Ċerti kapaċitajiet tal-LLM jista’ jkollhom potenzjal ta’ użu doppju, jiġifieri li l-mudelli jistgħu jintużaw kemm għal applikazzjonijiet kummerċjali kif ukoll militari jew ta’ proliferazzjoni. Sottomettejna GPT‑4 għal stress testing, boundary testing, u red teaming f’erba’ oqsma ta’ użu doppju biex nesploraw jekk il-mudelli tagħna setgħux jipprovdu l-informazzjoni meħtieġa lil proliferaturi li jfittxu jiżviluppaw, jakkwistaw jew ixerrdu CBRN. Sibna li waħdu, l-aċċess għal GPT‑4 huwa kundizzjoni insuffiċjenti għall-proliferazzjoni, iżda li seta’ jibdel l-informazzjoni disponibbli għall-proliferaturi, speċjalment meta mqabbel ma’ għodod ta’ tfittxija tradizzjonali. Ir-red teamers għażlu sett ta’ mistoqsijiet biex jagħmlu prompt kemm lil GPT‑4 kif ukoll lil magni tat-tiftix tradizzjonali, u sabu li ż-żmien biex titlesta r-riċerka naqas meta ntuża GPT‑4. F’xi każijiet, il-proċess ta’ riċerka tqassar b’diversi sigħat mingħajr ma ġiet sagrifikata l-eżattezza tal-informazzjoni. Għalhekk ikkonkludejna li mutur ewlieni tar-riskju huwa l-kapaċità ta’ GPT‑4 li jiġġenera informazzjoni pubblikament aċċessibbli iżda diffiċli biex tinstab, inaqqas il-ħin li l-utenti jqattgħu fuq ir-riċerka u jiġbor din l-informazzjoni b’mod li jinftiehem minn utent mhux espert. Qabel ir-rilaxx ta’ DALL-E 3, evalwajna kif il-ġenerazzjoni minn test għal immaġni bidlet il-profil tar-riskju billi ttestjajna l-kapaċità tal-mudell li jiġġenera dijagrammi u struzzjonijiet viżivi biex tipproduċi u takkwista informazzjoni relatata mar-riskji CBRN. B’mod simili għal GPT‑4, wettaqna ttestjar intern u estern ta’ DALL-E 3, fejn ittestjajna l-mudell għar-riskji internament u pprovdejna aċċess bikri lil esperti esterni minn firxa ta’ industriji biex jgħinu jeżaminaw is-sistemi ħalli jiġbdu mappa u jevalwaw ir-riskji. Sottomettejna DALL·E 3 għal red teaming f’erba’ oqsma ta’ użu doppju biex nesploraw jekk setgħux jipprovdu l-informazzjoni meħtieġa biex jiġi żviluppat, akkwistat, jew mifrux CBRN. Ir-red teamers sabu riskju minimu f’dawn l-oqsma minħabba taħlita ta’ ineżattezza f’dawn is-suġġetti, rifjuti, u l-ħtieġa usa’ għal aktar aċċess u “ingredjenti” meħtieġa għal proliferazzjoni b’suċċess.

Kapaċitajiet ċibernetiċi. Evalwajna wkoll il-kapaċità ta’ GPT‑4 li jintuża għall-iskoperta u l-isfruttament ta’ vulnerabbiltajiet, u għall-inġinerija soċjali. Biex nittestjaw il-kapaċità tal-mudell li jgħin fl-iskoperta, il-valutazzjoni, u l-isfruttament ta’ vulnerabbiltajiet tal-kompjuter, ikkummissjonajna esperti esterni taċ-ċibersigurtà li sabu li GPT‑4 seta’ jispjega xi vulnerabbiltajiet jekk il-kodiċi sors kien żgħir biżżejjed biex joqgħod fil-context window tal-mudell, iżda li GPT‑4 kellu prestazzjoni dgħajfa fil-bini ta’ exploits għall-vulnerabbiltajiet li ġew identifikati. Biex nittestjaw il-kapaċitajiet tal-inġinerija soċjali, red teamers esperti ttestjaw jekk GPT‑4 kienx juri titjib fuq l-għodod attwali f’kompiti rilevanti bħall-identifikazzjoni tal-miri, spear-phishing, u phishing bait-and-switch. Huma sabu li l-mudell ma kienx titjib lest għall-użu fuq il-kapaċitajiet attwali tal-inġinerija soċjali peress li kellu diffikultà b’kompiti fattwali bħall-enumerazzjoni tal-miri u l-applikazzjoni ta’ informazzjoni reċenti biex jipproduċi kontenut ta’ phishing aktar effettiv. Madankollu, bl-għarfien xieraq dwar sfond ta’ mira, GPT‑4 kien effettiv fil-formulazzjoni ta’ kontenut realistiku ta’ inġinerija soċjali. Fuq il-bażi ta’ dawn is-sejbiet, għamilna wara t-taħriġ lil GPT‑4 biex jirrifjuta talbiet malizzjużi taċ-ċibersigurtà, u espandejna s-sistemi interni tas-sikurezza tagħna, inkluż fil-monitoraġġ, l-iskoperta u r-rispons.

Awtoreplikazzjoni. Qabel ir-rilaxx ta’ GPT‑4, iffaċilitajna wkoll evalwazzjoni preliminari tal-mudell miċ-Ċentru ta’ Riċerka dwar l-Allinjament (ARC) tal-kapaċità tal-mudell li jwettaq azzjonijiet biex awtonomament jirreplika ruħu u jiġbor riżorsi. Tajna lil ARC aċċess bikri għall-mudelli bħala parti mir-red teaming tagħna sabiex it-tim tagħhom ikun jista’ jevalwa riskji minn imġiba ta’ tfittxija tal-poter. Il-forma speċifika ta’ tfittxija tal-poter li ARC evalwa kienet il-kapaċità tal-mudell li awtonomament jirreplika ruħu u jakkwista riżorsi. ARC sab li verżjonijiet bikrija ta’ GPT‑4 ma kinux effettivi f’kompitu ta’ replikazzjoni awtonoma fl-esperimenti preliminari li wettqu. Għalhekk ikkonkludew li l-mudell x’aktarx ma setax awtonomament jirreplika lilu nnifsu.

Rapportar tal-mudelli u qsim tal-informazzjoni

It-trasparenza hija element importanti fil-bini ta’ sistemi tal-IA responsabbli. Parti ewlenija mill-approċċ tagħna għall-obbligu ta’ rendikont hija l-pubblikazzjoni ta’ dokument li bħalissa nsejħulu kard tas-sistema, għal sistemi ġodda tal-IA li nimplimentaw. Il-kards tas-sistema tagħna għandhom l-għan li jinfurmaw lill-qarrejja dwar fatturi ewlenin li jaffettwaw l-imġiba tas-sistema, speċjalment f’oqsma rilevanti għall-użu responsabbli, u jieħdu ispirazzjoni minn xogħol ta’ riċerka preċedenti dwar kards tal-mudelli u tas-sistemi. Qabel ma għamilna l-impenji volontarji, OpenAI kienet ippubblikat żewġ kards tas-sistema: il-GPT‑4 System Card u d-DALL-E 2 System Card. Minn dakinhar, ippubblikajna System Card qabel ir-rilaxx ta’ DALL-E 3 f’ChatGPT, l-ewwel rilaxx pubbliku ewlieni tagħna ta’ mudell ġdid minn meta ffirmajna l-impenji volontarji. Fl-isforzi kontinwi biex nirrilaxxaw it-teknoloġija tagħna b’mod responsabbli, ippubblikajna wkoll System Card għall-kapaċitajiet viżivi ta’ GPT‑4 qabel ma għamilnieha disponibbli f’ChatGPT.

Struttura ta’ rapportar għal vulnerabbiltajiet misjuba wara r-rilaxx tal-mudell

Sa minn meta għamilna l-impenji volontarji, bdejna grupp ta’ ħidma fi ħdan il-Frontier Model Forum biex noħolqu mekkaniżmu għall-iżvelar responsabbli ta’ kapaċitajiet perikolużi bejn laboratorji tal-IA. Dan il-mekkaniżmu għandu l-għan li jippermetti l-iżvelar kunfidenzjali ta’ riskji sinifikanti identifikati f’mudelli tal-fruntiera bejn laboratorji tal-fruntiera u laboratorji oħra tal-IA. Il-fokus inizjali tagħna jkopri oqsma relatati mas-sigurtà nazzjonali bħall-kapaċitajiet Kimiċi, Bijoloġiċi, Radjoloġiċi, u Nukleari (CBRN), flimkien ma’ kapaċitajiet perikolużi oħra bħall-awtoreplikazzjoni, il-qerq, u l-manipulazzjoni. Il-metodi ta’ żvelar se jinkludu evalwazzjonijiet, għarfien minn eżerċizzji ta’ red teaming, u evidenza oħra ta’ theddid komuni fost il-membri tal-laboratorji f’oqsma fejn żvelar usa’ jippreżenta riskji sinifikanti.

Ħabbarna wkoll il-Programm Bug Bounty ta’ OpenAI bħala mod biex nagħrfu u nippremjaw individwi li jirrappurtaw vulnerabbiltajiet tas-sigurtà fis-sistemi tagħna. Il-premjijiet tagħna jvarjaw minn $200 għal sejbiet ta’ severità baxxa sa $20,000 għal skoperti eċċezzjonali. Issieħebna ma’ Bugcrowd, pjattaforma ewlenija ta’ bug bounty, biex noħolqu proċess ta’ sottomissjoni u premjazzjoni, disponibbli fuq il-paġna tal-Programm Bug Bounty⁠(jinfetaħ f’tieqa ġdida).

Monitoraġġ wara l-implimentazzjoni għal xejriet ta’ użu ħażin

Naħdmu bis-sħiħ biex nipprevjenu riskji prevedibbli qabel l-implimentazzjoni. Madankollu, hemm ukoll limiti għal dak li kulħadd jista’ jitgħallem f’laboratorju. Anke wara riċerka u ttestjar estensivi, ma nistgħux inbassru l-modi kollha ta’ benefiċċju kif in-nies se jużaw it-teknoloġija tagħna, u lanqas il-modi kollha kif in-nies jistgħu jabbużaw minnha. Il-bini tal-kapaċità biex nidentifikaw u nindirizzaw malajr riskji mhux previsti huwa prijorità għolja għalina, peress li din il-kapaċità hija salvagwardja kritika għal sistemi tal-fruntiera fejn mhux ir-riskji kollha jistgħu jiġu antiċipati kompletament. Aħna nibnu miżuri interni mfassla biex jiskopru tipi mhux mistennija ta’ abbuż, għandna proċessi biex nirrispondu għalihom, u nużaw it-tagħlim minnhom biex intejbu l-politiki tal-użu tagħna, is-sistemi tas-sikurezza, u l-outputs tal-mudell. Wara li nirrilaxxaw sistema, nagħmlu investigazzjoni proattiva, monitoraġġ, u verifika ta’ rapporti deħlin biex nidentifikaw abbuż jew riskji mhux previsti. Imbagħad nimmiraw li nindirizzaw malajr u b’mod iterattiv il-kwistjonijiet li jfeġġu permezz ta’ politika u soluzzjonijiet tekniċi. Qed inkomplu nespandu l-operazzjonijiet tagħna u nnaqqsu l-ħin ta’ rispons.

Kontrolli tas-sigurtà inkluż l-iżgurar tal-weights tal-mudell

Niddedikaw riżorsi sinifikanti għall-protezzjoni tat-teknoloġija, il-proprjetà intellettwali, u d-data ta’ OpenAI.

Aħna nimplimentaw l-aktar mudelli qawwija tagħna tal-IA bħala servizzi. Aħna ma nqassmux weights għal dawn il-mudelli barra minn OpenAI u s-sieħeb teknoloġiku tagħna Microsoft, u nipprovdu aċċess ta’ partijiet terzi għall-aktar mudelli kapaċi tagħna permezz tal-API sabiex il-weights tal-mudell, il-kodiċi sors, u informazzjoni sensittiva oħra jibqgħu kkontrollati.

Nimplimentaw ukoll miżuri tekniċi, amministrattivi, u organizzattivi kummerċjalment raġonevoli mfassla biex jipprevjenu t-telf, l-użu ħażin, u l-aċċess mhux awtorizzat għal informazzjoni personali. Dan jinkludi li ngħaddu minn awditi minn partijiet terzi tal-programm ta’ sigurtà tagħna inkluż SOC 2 Type 2. Bdejna wkoll programm bug bounty li jistieden riċerkaturi indipendenti jirrappurtaw vulnerabbiltajiet fis-sistemi tagħna bi skambju għal premjijiet fi flus. Il-Portal tal-Fiduċja tagħna jippermetti lill-klijenti u partijiet interessati oħra jirrevedu l-kontrolli tas-sigurtà u r-rapporti tal-awditjar tagħna. Bħala parti mill-isforzi tagħna taċ-ċibersigurtà, regolarment inwettqu ttestjar ta’ penetrazzjoni intern u minn partijiet terzi, u nawditjaw l-adegwatezza u l-effettività tal-kontrolli tas-sigurtà tagħna.

Identifikaturi ta’ materjal iġġenerat mill-IA

Qed niżviluppaw approċċ tekniku għall-provenjenza sabiex ngħinu fl-identifikazzjoni ta’ kontenut awdjoviżiv maħluq mill-mudelli tagħna. Ladarba dan l-approċċ jiġi żviluppat, se nkunu qed nimplimentawh b’mod wiesa’ fis-sistemi l-ġodda tagħna tal-fruntiera. Qed nivvalutaw firxa ta’ tekniki tal-provenjenza, kull waħda b’vantaġġi u żvantaġġi distinti, li b’mod ġenerali jaqgħu fi tliet kategoriji: watermarking, classifiers, u approċċi bbażati fuq metadata.

Sa minn meta għamilna l-impenji volontarji tagħna, ilna nirriċerkaw u nittestjaw classifier tal-provenjenza biex jgħinna nidentifikaw jekk immaġni ġietx iġġenerata minn DALL·E 3 jew le. Bħalissa qed nivvalutaw dan internament u pprovdejna aġġornament pubbliku bħala parti mir-rilaxx ta’ DALL·E 3.

Kontrolli tal-Input tad-Data u Awditjar

Il-mudelli kbar tal-lingwa ta’ OpenAI, inklużi l-mudelli li jagħtu s-saħħa lil ChatGPT, jiġu żviluppati bl-użu ta’ tliet sorsi primarji ta’ informazzjoni: (1) informazzjoni li hija pubblikament disponibbli fuq l-internet, (2) informazzjoni li nilċenzjaw minn partijiet terzi, u (3) informazzjoni li jipprovdu l-utenti tagħna jew it-trainers umani tagħna.

Il-maġġoranza kbira tad-data tat-taħriġ tagħna ġejja minn informazzjoni disponibbli pubblikament li hija disponibbli liberament u miftuħa fuq l-Internet – pereżempju, aħna ma nfittxux informazzjoni wara paywalls jew mid-“deep web.” Aħna napplikaw filtri u nneħħu ċerta data li ma rridux li l-mudelli tagħna jitgħallmu minnha jew joħorġuha, bħal diskors ta’ mibegħda, kontenut għall-adulti, siti li prinċipalment jaggregaw informazzjoni personali, u spam.

Implimentajna wkoll miżuri biex nippermettu lill-kreaturi, lid-detenturi tad-drittijiet, u lill-operaturi tal-websajts jesprimu l-preferenzi tagħhom fir-rigward tat-taħriġ tal-IA fir-rigward tal-kontenut li huma għandhom jew jikkontrollaw. Pereżempju, OpenAI implimentat mezz faċli biex l-operaturi tal-websajts jeskludu l-kontenut tagħhom milli jiġi aċċessat mill-web crawler “GPTBot” ta’ OpenAI, billi tiddependi fuq l-istandard web robots.txt. Bl-istess mod, OpenAI ddokumentat il-user-agent-string (“ChatGPT‑user”) użat minn ChatGPT u l-plugins ta’ ChatGPT biex jaċċessaw websajts, sabiex l-operaturi tas-siti jkunu jistgħu jimblokkaw l-aċċess għal dawk l-iskopijiet ukoll. Nipprovdu istruzzjonijiet online dwar kif jiġi miċħud l-aċċess lil kwalunkwe wieħed miż-żewġ bots għas-siti. Nipprovdu wkoll formola self-service⁠(jinfetaħ f’tieqa ġdida) biex kreaturi tal-immaġnijiet jeskludu l-kontenut tagħhom mit-taħriġ tal-mudelli futuri tagħna ta’ ġenerazzjoni tal-immaġnijiet DALL-E.