Ippubblikat: 27 ta’ Marzu, 2024

Il-kumment ta’ OpenAI lill-NTIA dwar il-piżijiet tal-mudelli miftuħa

Dan il-kumment tressaq minn OpenAI bi tweġiba għat-Talba għal Informazzjoni ta’ Marzu 2024 tal-NTIA dwar Mudelli Bażiċi ta’ Użu Doppju b’Piżijiet Disponibbli B’mod Wiesgħa.

Hemm ħafna toroq lejn IA sigura u ta’ benefiċċju.

OpenAI temmen⁠(jinfetaħ f’tieqa ġdida) li l-bini, l-użu u t-tqegħid fis-servizz fuq skala wiesgħa tal-IA jistgħu jtejbu l-ħajja tan-nies u jiftħu futur aħjar. Il-progress jiddependi fuq l-innovazzjoni u l-kompetizzjoni tas-suq ħieles. Fi ħdan dawn il-linji gwida wesgħin, hemm ħafna mogħdijiet differenti li bihom in-nies jistgħu javvanzaw il-wegħda tal-IA. OpenAI kienet fost l-ewwel żviluppaturi tal-IA li tħabtu mal-mistoqsija ta’ kif iqassmu l-benefiċċji ta’ mudelli bażiċi b’kapaċità bla preċedent, u nibdew billi nipprovdu dan il-kuntest storiku biex ngħinu ninfurmaw id-deliberazzjonijiet tal-NTIA.

Fl-2019, ħloqna GPT‑2, li kellu l-kapaċità ġdida li jiġġenera paragrafi koerenti ta’ test, u ffaċċjajna l-mistoqsija ta’ kif nimplimentawh. Minn naħa, il-mudell deher utli ħafna; min-naħa l-oħra, ma konniex ċerti⁠ jekk setax ikun utli għal skopijiet malizzjużi bħall-ġenerazzjoni ta’ emails ta’ phishing. Għażilna li nesperimentaw b’“rilaxx fi stadji”. Kif ktibna⁠ dak iż-żmien, “rilaxx fi stadji jinvolvi r-rilaxx gradwali ta’ familja ta’ mudelli maż-żmien. L-iskop tar-rilaxx fi stadji tagħna ta’ GPT‑2 huwa li nagħtu lin-nies ħin biex jivvalutaw il-proprjetajiet ta’ dawn il-mudelli, jiddiskutu l-implikazzjonijiet soċjetali tagħhom, u jevalwaw l-impatti tar-rilaxx wara kull stadju.” Meta ma osservajniex effetti sinifikanti ta’ użu ħażin, dan tana l-kunfidenza biex b’mod miftuħ nirrilaxxaw il-piżijiet tal-mudell sħiħ⁠.

Fl-2020, ħloqna GPT‑3, li kien ħafna aktar kapaċi minn kull mudell tal-lingwa preċedenti fuq kull benchmark, u għal darb’oħra ffaċċjajna l-mistoqsija ta’ kif nirrilaxxawh. Din id-darba, iddeċidejna li nirrilaxxawh permezz tal-ewwel prodott tagħna, l-OpenAI API (Application Programming Interface, li tippermetti lill-iżviluppaturi jibnu apps fuq it-teknoloġija tagħna). Kif ktibna⁠ dak iż-żmien, kellna diversi motivazzjonijiet għal din l-istrateġija ġdida ta’ rilaxx: “il-kummerċjalizzazzjoni tat-teknoloġija tgħinna nħallsu għar-riċerka kontinwa tagħna fl-IA, is-sigurtà u l-isforzi ta’ politika” u “il-mudell tal-API jippermettilna nirrispondu aktar faċilment għall-użu ħażin tat-teknoloġija. Peress li hu diffiċli nbassru l-każijiet ta’ użu downstream tal-mudelli tagħna, iħossuna intrinsikament aktar sigur li nirrilaxxawhom permezz ta’ API u nwessgħu l-aċċess maż-żmien, aktar milli nirrilaxxaw mudell open source fejn l-aċċess ma jistax jiġi aġġustat jekk jirriżulta li għandu applikazzjonijiet dannużi.” Matul diversi snin, dan ir-rilaxx permezz tal-API għallimna lilna u lill-komunità lezzjonijiet dwar il-mudelli ta’ sigurtà u ta’ użu ħażin ta’ mudelli fil-livell ta’ GPT‑3⁠.

Fis-snin ta’ wara, komplejna nappoġġjaw u nemmnu fil-wegħda tal-ekosistema tal-IA open-source, inkluż billi b’mod miftuħ irrilaxxajna l-piżijiet ta’ xi wħud mill-mudelli tagħna state-of-the-art (bħal CLIP u Whisper) u żviluppajna infrastruttura open-source għal żviluppaturi oħra tal-IA (bħall-lingwa ta’ programmar GPU Triton). Rajna li l-piżijiet rilaxxati b’mod miftuħ iġibu varjetà ta’ benefiċċji sinifikanti, inkluż il-faċilitazzjoni ta’ riċerka akkademika dwar l-interni tal-mudelli tal-IA, l-għoti tal-possibbiltà lill-utenti u lill-organizzazzjonijiet li jmexxu mudelli lokalment fuq apparati edge tagħhom, u l-faċilitazzjoni ta’ modifiki kreattivi tal-mudelli biex jaqdu l-iskopijiet tal-utenti. Ħafna kumpaniji tal-IA għażlu li jinvestu ħafna fir-rilaxxi ta’ piżijiet ta’ mudelli miftuħa għal varjetà ta’ raġunijiet, inklużi l-marka, ir-reklutaġġ, u l-attirazzjoni ta’ ekosistema ta’ żviluppaturi biex tibni fuq u taċċellera l-interni tat-teknoloġija ta’ kumpanija.

Fl-istess ħin, l-approċċ tagħna biex nirrilaxxaw il-mudelli ewlenin tal-IA tagħna permezz ta’ APIs u prodotti kummerċjali bħal ChatGPT ppermettilna nkomplu nistudjaw u nnaqqsu r-riskji li skoprejna wara r-rilaxx inizjali, ħafna drabi b’modi li ma kinux ikunu possibbli kieku l-piżijiet infushom ġew rilaxxati. Pereżempju, dan l-aħħar ħdimna ma’ Microsoft biex nindividwaw, nistudjaw u nfixklu⁠ l-operazzjonijiet ta’ numru ta’ atturi ta’ theddid ċibernetiku marbuta ma’ stati li kienu qed jabbużaw mill-mudelli tagħna GPT‑3.5‑Turbo u GPT‑4 biex jgħinu f’operazzjonijiet ċibernetiċi offensivi. It-tfixkil ta’ dawn l-atturi tat-theddid ma kienx ikun possibbli kieku l-piżijiet ta’ dawn il-mudelli fruntiera ta’ dak iż-żmien ġew rilaxxati b’mod wiesa’, peress li l-istess atturi ta’ theddid ċibernetiku setgħu jospitaw il-mudell fuq il-hardware tagħhom stess, mingħajr qatt ma jinteraġixxu mal-iżviluppatur oriġinali. Dan l-approċċ ippermettilna nkomplu nqassmu l-benefiċċji tal-IA b’mod wiesa’, inkluż permezz ta’ servizzi b’xejn u bi prezz baxx disponibbli b’mod mifrux.

Dawn l-esperjenzi kkonvinċewna li kemm ir-rilaxxi ta’ piżijiet miftuħa kif ukoll ir-rilaxxi bbażati fuq APIs u prodotti huma għodod biex tinkiseb IA ta’ benefiċċju, u nemmnu li l-aħjar ekosistema Amerikana tal-IA se tinkludi t-tnejn.

Ngħaqqdu deploy iterattiv ma’ Qafas tat-Tħejjija

Għal darb’oħra, kemm fir-rilaxxi tal-prodotti kif ukoll fir-rilaxxi tal-piżijiet, rajna l-benefiċċji inkredibbli ta’ “deploy iterattiv”: it-tqegħid gradwali ta’ IA dejjem aktar kapaċi f’idejn in-nies sabiex ikunu jistgħu jużawha biex itejbu ħajjithom, u l-għajnuna lis-soċjetà tadatta għal dawn it-teknoloġiji ġodda. Kif ktibna⁠ fl-2023: “Naħdmu iebes biex nipprevjenu riskji prevedibbli qabel id-deploy, madankollu, hemm limitu għal dak li nistgħu nitgħallmu f’laboratorju. Minkejja riċerka u ittestjar estensivi, ma nistgħux inbassru l-modi kollha ta’ benefiċċju li bihom in-nies se jużaw it-teknoloġija tagħna, u lanqas il-modi kollha kif in-nies se jabbużaw minnha. Huwa għalhekk li nemmnu li t-tagħlim mill-użu fid-dinja reali huwa komponent kritiku fil-ħolqien u r-rilaxx ta’ sistemi tal-IA dejjem aktar siguri maż-żmien.”

Hekk kif il-mudelli tal-IA jsiru saħansitra aktar b’saħħithom u l-benefiċċji u r-riskji tad-deploy jew tar-rilaxx tagħhom isiru akbar, huwa wkoll importanti li nkunu dejjem aktar sofistikati fid-deċiżjoni ta’ jekk u kif nużaw mudell. Dan hu partikolarment minnu jekk il-kapaċitajiet tal-IA jaslu biex ikollhom implikazzjonijiet sinifikanti għas-sigurtà pubblika jew għas-sigurtà nazzjonali. Il-preżenza futura ta’ tali riskji “katastrofiċi” minn sistemi tal-IA aktar avvanzati hija intrinsikament inċerta, u hemm nuqqas ta’ qbil akkademiku dwar kemm huma probabbli u kemm malajr se jinqalgħu tali riskji. Ma nemmnux li għad hemm biżżejjed evidenza; ma nistgħux neskluduhom, u lanqas inkunu ċerti li huma imminenti. Bħala żviluppaturi li qed javvanzaw il-fruntiera tal-kapaċitajiet tal-IA biex jimmassimizzaw il-benefiċċji tagħhom, aħna nqisu l-bini tax-xjenza tar-riskji ta’ din it-teknoloġija (inkluż il-ġbir ta’ evidenza relatata ma’ dawk ir-riskji) bħala parti integrali mix-xogħol tagħna.

Biex innavigaw dawn l-inċertezzi b’mod immexxi empirikament, OpenAI nediet pubblikament il-Qafas tat-Tħejjija⁠(jinfetaħ f’tieqa ġdida) tagħna, approċċ ibbażat fuq ix-xjenza biex kontinwament nivvalutaw u nnaqqsu kull riskju katastrofiku li jista’ jkun ikkawżat mill-mudelli tal-IA tagħna. Il-Qafas tat-Tħejjija jiddefinixxi kif nivvalutaw il-livelli ta’ kapaċità tal-mudelli tal-IA tagħna f’diversi oqsma ta’ riskju għoli, inklużi ċ-ċibersigurtà, l-operazzjoni awtonoma, il-persważjoni individwalizzata, u theddid CBRN (Kimiku, Bijoloġiku, Radjoloġiku u Nukleari). Għal eżempju ta’ dan il-qafas fl-azzjoni, ara l-studju reċenti⁠ tagħna li jittestja l-kapaċità ta’ GPT‑4 li jgħin fil-ħolqien ta’ theddid bijoloġiku, li kkonkluda li ma joħloqx riskju marġinali sinifikanti.

Abbażi ta’ dawn il-valutazzjonijiet, nivvalutaw il-livelli ta’ riskju tal-mudelli f’kull kategorija bħala Baxx, Medju, Għoli, jew Kritiku. B’mod kruċjali, skont il-Qafas tat-Tħejjija tagħna, mhux se nimplimentaw sistemi tal-IA li joħolqu livell ta’ riskju “Għoli” jew “Kritiku” fit-tassonomija tagħna (u lanqas biss se nħarrġu dawk “Kritiċi”, minħabba l-livell ta’ riskju tagħhom), sakemm il-mitigazzjonijiet tagħna ma jkunux jistgħu jnaqqsu r-riskju ta’ dawn is-sistemi sa mhux aktar minn livell “Medju”. Il-Qafas tat-Tħejjija huwa importanti għax jippermettilna nibnu u naqsmu b’mod wiesa’ l-benefiċċji ta’ IA dejjem aktar kapaċi, filwaqt li jħejjina biex nindividwaw u nipproteġu kontra riskji katastrofiċi kemm jista’ jkun kmieni jekk dawn tassew jinqalgħu.

Prattiki għal żviluppaturi ta’ IA b’kapaċità għolja

Aħna nemmnu li n-nies u l-kumpaniji għandhom ikunu jistgħu jipparteċipaw fl-IA kif jagħżlu huma —li jista’ jinkludi l-iżvilupp jew l-użu ta’ IA li tirrifletti l-valuri u l-viżjoni tagħhom —sabiex jiksbu l-benefiċċji tal-IA. Fl-istess ħin, sistemi tal-IA b’kapaċità għolja għandhom jinbnew u jintużaw b’mod sigur, b’kull riskju katastrofiku li jiġi skopert jiġi mtaffi kif xieraq. Dawn l-interessi kultant jistgħu jkunu f’tensjoni, u jeħtieġ li jiġu ġestiti b’attenzjoni skont il-każ biex jinkisbu l-aħjar riżultati għas-soċjetà.

Fil-każ ta’ mudelli bażiċi b’kapaċità għolja li jeħtieġu riżorsi sinifikanti biex jinħolqu (fuq skala ta’ mijiet ta’ miljuni ta’ dollari jew aktar), aħna nemmnu li l-iżviluppaturi tal-IA għandhom jivvalutaw il-potenzjal tal-mudell tagħhom li joħloq riskji katastrofiċi, u, jekk il-livell ta’ riskju tal-mudell jinstab għoli, idaħħlu mitigazzjonijiet xierqa fis-seħħ qabel ma jqiegħduh fis-servizz jew jirrilaxxawh. Dan joħloq bilanċ xieraq bejn il-ġestjoni tar-riskju u l-innovazzjoni: dawn il-mudelli huma mistennija li jkollhom l-akbar kapaċitajiet⁠(jinfetaħ f’tieqa ġdida), filwaqt li l-ispiża tal-valutazzjoni hija l-aktar biss frazzjoni żgħira tal-ispiża tal-iżvilupp tagħhom. Valutazzjonijiet bħal dawn jagħmlu sens irrispettivament minn jekk il-piżijiet tal-mudell humiex maħsuba biex jiġu rilaxxati b’mod wiesa’ jew permezz ta’ API.

Fit-tarf l-ieħor tal-ispettru, fil-każ ta’ mudelli bażiċi li jeħtieġu inqas riżorsi, il-bilanċ tal-interessi huwa differenti. Skont l-evidenza attwali, mudelli bħal dawn jidhru ferm inqas probabbli li joħolqu riskji katastrofiċi, anke b’avvanzi probabbli fit-tekniki ta’ finetuning u ta’ modifika tal-mudell. Fl-istess waqt, valutazzjonijiet għar-riskju katastrofiku jistgħu jiswew frazzjoni sostanzjali mill-baġit ta’ taħriġ żgħir, li jista’ jwassal għal effett li jkessaħ fuq l-innovazzjoni u l-kompetizzjoni. Aħna nemmnu li tali valutazzjonijiet għal riskji katastrofiċi m’għandhomx ikunu mistennija għal dawn il-mudelli, peress li hemm valur enormi fil-protezzjoni tal-abbiltà ta’ diversità ta’ żviluppaturi li jinnovaw fuq kapaċitajiet ġodda u eċċitanti tal-IA u li jippermettu lis-suq tal-ideat u tal-prodotti jiffjorixxi, u x-xjenza tindika li r-riskju ta’ dawn il-mudelli huwa relattivament baxx.

Protokolli ta’ valutazzjoni bħall-Qafas tat-Tħejjija huma għodda utli biex jiġu evalwati r-riskji ex ante minn kull tip ta’ rilaxx ta’ mudell, inklużi rilaxxi miftuħa tal-piżijiet tal-mudell. Hemm ftit kunsiderazzjonijiet li huma speċifiċi għal kif jiġu applikati għal rilaxxi ta’ piżijiet miftuħa.

Waħda minn dawn il-kunsiderazzjonijiet hija li l-kundizzjonijiet tal-ittestjar idealment jirriflettu l-firxa ta’ modi kif atturi downstream jistgħu jimmodifikaw il-mudell. Waħda mill-aktar proprjetajiet utli tal-mudelli miftuħa hija li atturi downstream jistgħu jimmodifikaw il-mudelli biex jestendu l-kapaċitajiet inizjali tagħhom u jadattawhom għall-applikazzjonijiet speċifiċi tal-iżviluppatur. Madankollu, dan ifisser ukoll li partijiet malizzjużi jistgħu potenzjalment itejbu l-kapaċitajiet dannużi tal-mudell. Valutazzjoni rigoruża tar-riskji ta’ rilaxx ta’ piżijiet miftuħa għandha għalhekk tinkludi l-ittestjar ta’ firxa raġonevoli ta’ modi kif parti malizzjuża tista’ b’mod fattibbli timmodifika l-mudell, inkluż permezz ta’ finetuning. OpenAI diġà twettaq xi ittestjar tal-modifiki bħala parti mill-Qafas tat-Tħejjija tagħna (kif għamilna fil-valutazzjoni tar-riskju bijoloġiku⁠ tagħna).

Kunsiderazzjoni ewlenija oħra hija li l-iżviluppaturi ta’ mudelli miftuħa jistgħu ma jkunux jistgħu jiddependu fuq salvagwardji fil-livell tas-sistema biex inaqqsu r-riskju ta’ użu ħażin tal-mudell tagħhom, peress li s-salvagwardji spiss jistgħu jitneħħew minn utent downstream malizzjuż li jkollu l-piżijiet tal-mudell. Illum, din id-differenza fil-kapaċità ta’ mitigazzjoni għandha konsegwenzi limitati, peress li anke l-aktar mudelli attwali tagħna kapaċi mhumiex ikklassifikati bħala partikolarment riskjużi. Iżda jekk mudell futur jiġi xjentifikament iddeterminat li joħloq riskji serji jekk jiġi rilaxxat, allura t-triq biex jitnaqqas ir-riskju ta’ rilaxx ta’ piżijiet miftuħa tista’ tiddependi fuq iż-żieda fir-reżiljenza tal-ambjent estern li fih jiġi rilaxxat il-mudell.

Il-ħtieġa għal reżiljenza soċjetali kontra l-użu ħażin tal-IA hija usa’ minn deċiżjonijiet ta’ rilaxx ta’ organizzazzjoni waħda. Minħabba l-progress kontinwu fi u t-tixrid tal-algoritmi tal-IA, u aċċess dejjem aktar mifrux għall-compute (inkluż f’pajjiżi ta’ tħassib għall-Istati Uniti), il-kapaċitajiet tal-IA fruntiera tal-lum — li spiss ikunu aċċessibbli biss għal ftit atturi fil-ħin tal-ħolqien — eventwalment se jinfirxu b’mod wiesa’. L-Istati Uniti, u pajjiżi madwar id-dinja, għandhom ukoll opportunità li jinvestu fi u jmexxu mitigazzjonijiet li jillimitaw il-konsegwenza tal-użu ħażin, sabiex il-bilanċ tar-riżultati jkun massimament pożittiv.

Pereżempju, it-tisħiħ tar-reżiljenza kontra r-riskji ta’ attakki ċibernetiċi aċċellerati mill-IA jista’ jinvolvi li fornituri ta’ infrastruttura kritika jingħataw aċċess bikri għal dawk l-istess mudelli tal-IA, sabiex ikunu jistgħu jintużaw biex itejbu d-difiża ċibernetika (bħal fil-proġetti bikrin li ffinanzjajna bħala parti mill-Programm ta’ Għotjiet għaċ-Ċibersigurtà ta’ OpenAI⁠). It-tisħiħ tar-reżiljenza kontra r-riskji tal-ħolqien ta’ theddid bijoloġiku aċċellerat mill-IA jista’ jinvolvi soluzzjonijiet kompletament mhux relatati mal-IA, bħat-titjib tal-mekkaniżmi ta’ skrining tas-sinteżi tal-aċidu nuklejku (kif mitlub fl-Ordni Eżekuttiva 14110), jew it-titjib tal-kapaċità tas-sistemi tas-saħħa pubblika biex jagħmlu skrining għal u jidentifikaw tifqigħat ġodda ta’ patoġeni. Jekk jintwera b’mod rigoruż li mudell tal-IA joħloq riskji serji għas-sigurtà pubblika jew għas-sigurtà nazzjonali, allura l-iżviluppatur jista’ jkollu wkoll rwol importanti fil-bini tal-għarfien dwar il-kapaċitajiet il-ġodda qabel rilaxx wiesa’ (bħal billi jinnotifika lill-fornituri tal-infrastruttura jew jillimita d-deploy ta’ API), biex joħloq kemm ħin kif ukoll motivazzjoni għal sforzi ta’ reżiljenza meħtieġa b’urġenza. Dan jirrifletti n-norma ta’ “żvelar responsabbli” mid-dominju ċibernetiku, fejn ir-riċerkaturi tas-sigurtà temporanjament iżommu lura r-rilaxx tal-vulnerabbiltajiet li jsibu biex jagħtu ħin lid-difensuri jsewwu s-sistemi tagħhom, filwaqt li ma jnaqqsux ir-riċerka ulterjuri dwar is-sigurtà.

Għandna bżonn xjenza aħjar tar-riskji tal-IA

Filwaqt li nemmnu li hu importanti li jiġu vvalutati r-riskji tal-aktar mudelli kapaċi, ix-xjenza tal-valutazzjonijiet tar-riskju tal-IA għadha fil-bidu tagħha. OpenAI u l-komunità usa’ tal-IA għadhom qed jibnu l-pedamenti ta’ kif għandhom jiġu vvalutati r-riskji tal-IA, u għadna wkoll inkomplu nirrepetu u ntejbu ħafna mid-dettalji tal-operazzjonalizzazzjoni fil-Qafas tat-Tħejjija. Il-gvernijiet għandhom rwol importanti x’jaqdu biex jgħinu lill-ekosistema tal-IA timmatura l-prattiki tagħha ta’ valutazzjoni tar-riskju u tal-kapaċitajiet, bħal billi jiġbru flimkien esperti mid-dinja taċ-ċibersigurtà offensiva, l-infrastruttura kritika u l-IA biex jaqblu fuq sett ta’ mudelli ta’ theddid ċibernetiku tal-IA prijoritarji, u jibnu testbeds rigorużi u empiriċi biex jevalwawhom. Aħna nappoġġjaw b’mod qawwi l-approċċ volontarju, favur l-innovazzjoni u science-first li qed isegwi l-USAISI.

Sa minn meta OpenAI ffaċċjat l-għażla ta’ kif tirrilaxxa GPT‑2 fl-2019 – billi għall-ewwel għażlet li tirrilaxxa biss verżjoni żgħira tal-mudell — sejbiet u avvenimenti ġodda biddlu kontinwament ix-xenarju tal-kunsiderazzjonijiet dwar ir-rilaxx miftuħ tal-piżijiet tal-mudelli bażiċi, xi drabi kull ftit xhur. Nistennew li din it-tendenza tkompli. Kull approċċ ta’ politika tal-gvern għandu jkun flessibbli u adattabbli għal bidliet futuri.