7 ta’ Mejju 2024

Our approach to data and AI

Qed jillowdja…

L-IA għandha tespandi l-opportunitajiet għal kulħadd. Billi tittrasforma l-informazzjoni b’modi ġodda, is-sistemi tal-IA jgħinuna nsolvu problemi u nesprimu ruħna. Illum, l-għodod tal-IA tagħna bħal ChatGPT qed jintużaw madwar id-dinja biex jgħinu lill-bdiewa fil-Kenja u l-Indja jżidu r-rendiment tal-uċuħ (Digital Green⁠), lir-riċerkaturi jaċċelleraw l-iskoperta tal-mediċini (Moderna⁠), lill-gvernijiet jappoġġjaw il-forza tax-xogħol tagħhom (State of Pennsylvania⁠(jinfetaħ f’tieqa ġdida)), lill-edukaturi javvanzaw⁠ it-tagħlim tal-istudenti, u lin-nies b’indebolimenti fil-vista jinnavigaw id-dinja tagħna (Be My Eyes⁠). Għodod tal-IA bħal DALL·E⁠ u Sora⁠ (bħalissa f’riċerka preview) qed jagħtu s-setgħa⁠ lill-kreattivi minn artisti aspiranti sa produtturi tal-films⁠.

Il-missjoni tagħna hi li nibbenefikaw lill-umanità kollha. Dan jinkludi mhux biss lill-utenti tagħna, iżda wkoll lill-kreaturi u l-pubblikaturi. Filwaqt li nemmnu li l-preċedenti legali u politika pubblika soda jagħmlu t-tagħlim użu ġust, inħossu wkoll li hu importanti li nikkontribwixxu għall-iżvilupp ta’ kuntratt soċjali ta’ benefiċċju wiesa’ għall-kontenut fi żmien l-IA.

Aħna nemmnu li s-sistemi tal-IA għandhom jibbenefikaw u jirrispettaw l-għażliet tal-kreaturi u s-sidien tal-kontenut. Qed intejbu kontinwament is-sistemi tagħna li huma mexxejja fl-industrija biex jirriflettu l-preferenzi tas-sidien tal-kontenut, u aħna ddedikati biex nibnu prodotti u mudelli tan-negozju li jsaħħu ekosistemi vibranti għall-kreaturi u l-pubblikaturi.

Aħna m’aħniex kittieba professjonali, artisti, jew ġurnalisti, u lanqas ma noperaw f’dawk l-oqsma tan-negozju. Aħna niffokaw fuq il-bini ta’ għodod biex ngħinu lil dawn il-professjonijiet joħolqu u jiksbu aktar. Biex nagħmlu dan, nisimgħu u naħdmu mill-qrib mal-membri ta’ dawn il-komunitajiet, u nħarsu ’l quddiem għad-djalogi kontinwi tagħna. Illum, qed naqsmu aktar dwar fejn ninsabu u fejn sejrin.

Nirrispettaw l-għażliet tal-kreaturi u s-sidien tal-kontenut dwar l-IA

Għexieren ta’ snin ilu, ġie introdott l-istandard robots.txt u ġie adottat volontarjament mill-ekosistema tal-Internet biex il-pubblikaturi tal-web jindikaw liema partijiet tal-websajts il-web crawlers setgħu jaċċessaw.

Fis-sajf li għadda, OpenAI kienet pijuniera fl-użu ta’ permessi għall-web crawlers għall-IA, u ppermettiet lill-pubblikaturi tal-web jesprimu l-preferenzi tagħhom dwar l-użu tal-kontenut tagħhom fl-IA. Aħna nqisu dawn is-sinjali kull darba li nħarrġu mudell ġdid.

Madankollu, nifhmu li dawn huma soluzzjonijiet mhux kompluti, għax ħafna kreaturi ma jikkontrollawx websajts fejn il-kontenut tagħhom jista’ jidher, u l-kontenut spiss jiġi kkwotat, rivedut, remixed, ripostjat u użat bħala ispirazzjoni f’diversi dominji. Għandna bżonn soluzzjoni effiċjenti u skalabbli biex is-sidien tal-kontenut jesprimu l-preferenzi tagħhom dwar l-użu tal-kontenut tagħhom fis-sistemi tal-IA.

Qed nibnu Media Manager biex is-sidien tal-kontenut ikunu jistgħu jimmaniġġjaw kif ix-xogħlijiet tagħhom jintużaw fl-IA

OpenAI qed tiżviluppa Media Manager, għodda li se tippermetti lill-kreaturi u lis-sidien tal-kontenut jgħidulna x’għandhom u jispeċifikaw kif iridu li x-xogħlijiet tagħhom jiġu inklużi jew esklużi mir-riċerka u t-taħriġ tal-machine learning. Maż-żmien, qed nippjanaw li nintroduċu għażliet u karatteristiċi addizzjonali.

Dan se jeħtieġ riċerka avvanzata fil-machine learning biex nibnu l-ewwel għodda tax-xorta tagħha li tgħinna nidentifikaw test, immaġnijiet, awdjo u vidjo protetti bid-drittijiet tal-awtur f’diversi sorsi u nirriflettu l-preferenzi tal-kreaturi.

Qed nikkollaboraw mal-kreaturi, is-sidien tal-kontenut, u r-regolaturi hekk kif niżviluppaw Media Manager. L-għan tagħna hu li jkollna l-għodda lesta sal-2025, u nittamaw li tistabbilixxi standard fl-industrija tal-IA kollha.

Qed nibnu prodotti biex jibbenefikaw lill-utenti, lill-kreaturi u lill-pubblikaturi f’ekosistema vibranti

Illum, ngħixu f’ekonomija tal-attenzjoni mibnija għall-min jirreklama aktar milli għall-utenti u għall-kwantità aktar milli għall-kwalità. L-ambizzjoni tagħna hi li nużaw l-IA biex nibdlu dan: biex nagħtu s-setgħa lill-kreaturi u lill-pubblikaturi u biex intejbu l-esperjenza tal-utent.

Qed inkomplu nagħmlu l-prodotti tagħna aktar utli bħala magni ta’ skoperta. Riċentement tejibna l-links għas-sorsi f’ChatGPT⁠(jinfetaħ f’tieqa ġdida) biex nagħtu lill-utenti kuntest aħjar u lill-pubblikaturi tal-web modi ġodda biex jgħaqqdu mal-udjenzi tagħna.

Qed naħdmu wkoll ma’ sħab biex nuru l-kontenut tagħhom fil-prodotti tagħna u nżidu l-konnessjoni tagħhom mal-qarrejja. Ħabbarna sħubijiet ma’ pubblikaturi tal-aħbarijiet globali mill-Financial Times⁠, sa Le Monde⁠, Prisa Media⁠, Axel Springer⁠ u oħrajn, biex nuru l-kontenut tagħhom f’ChatGPT u nagħnu l-esperjenza tal-utent fuq suġġetti tal-aħbarijiet. Aktar innovazzjoni tinsab fit-triq. Dan il-kontenut jista’ jintuża wkoll biex jitħarreġ ChatGPT sabiex juri aħjar lill-utenti kontenut rilevanti tal-pubblikaturi u biex intejbu l-għodod tagħna għall-kmamar tal-aħbarijiet.

Is-sħubijiet tagħna huma mfassla biex jibbenefikaw lis-sħab u lill-utenti tagħhom, u jagħmlu l-mudelli tagħna aktar utli għall-impjegati, il-klijenti u l-komunitajiet tagħhom. Biex ngħinu navvanzaw riżorsi edukattivi, għamilna sħubija ma’ nonprofits Khan Academy⁠ u l-ExamSolutions⁠(jinfetaħ f’tieqa ġdida) ibbażata fir-Renju Unit biex intejbu l-prestazzjoni fil-matematika tal-mudell tagħna, li tħaffef il-kapaċità tagħhom li jespandu l-aċċess għal tutoring personalizzat bl-IA fuq il-pjattaforma tagħhom.

Nifhmu l-mudelli fundamentali tagħna u kif nibnuhom

We design our AI models to be learning machines, not databases

Il-mudelli tal-IA jitgħallmu mir-relazzjonijiet fl-informazzjoni biex joħolqu xi ħaġa ġdida; ma jaħżnux data bħal database. Meta nħarrġu mudelli tal-lingwa, nieħdu triljuni ta’ kliem, u nitolbu lil kompjuter joħroġ b’ekwazzjoni li tiddeskrivi bl-aħjar mod ir-relazzjoni bejn il-kliem u l-proċess sottostanti li pproduċiehom. Wara li jitlesta l-proċess tat-taħriġ, il-mudell tal-IA ma jżommx aċċess għad-data analizzata fit-taħriġ. ChatGPT huwa bħal għalliema li tgħallmet minn ħafna studju preċedenti u tista’ tispjega l-affarijiet għax tgħallmet ir-relazzjonijiet bejn il-kunċetti, iżda ma żżommx il-materjali f’rasha.

Il-mudelli tagħna huma mfassla biex jgħinuna niġġeneraw kontenut u ideat ġodda – mhux biex jirrepetu jew “ireġġgħu” kontenut. Il-mudelli tal-IA jistgħu jsemmu fatti, li jinsabu fid-dominju pubbliku. Jekk f’okkażjonijiet rari mudell mingħajr intenzjoni jirrepeti kontenut espressiv, dan ikun falliment tal-proċess tal-machine learning. Dan il-falliment hu aktar probabbli li jseħħ b’kontenut li jidher ta’ spiss fid-datasets tat-taħriġ, bħal kontenut li jidher fuq ħafna websajts pubbliċi differenti minħabba li jiġi kkwotat ta’ spiss. Nużaw tekniki tal-ogħla livell matul it-taħriġ u fl-output, għall-API tagħna jew ChatGPT, biex nipprevjenu r-ripetizzjoni, u qed inkomplu nagħmlu titjib permezz ta’ riċerka u żvilupp kontinwi.

We use broad and diverse data to build the best AI for everyone

Irridu li l-mudelli tal-IA tagħna jitgħallmu minn kemm jista’ jkun lingwi, kulturi, suġġetti u industriji sabiex ikunu jistgħu jibbenefikaw kemm jista’ jkun nies. Iktar ma d-datasets ikunu diversi, aktar l-għarfien, il-fehim u l-lingwi tal-mudelli jsiru diversi – bħal persuna li kienet esposta għal firxa wiesgħa ta’ perspettivi u esperjenzi kulturali – u aktar nies u pajjiżi l-IA tista’ sservi b’mod sigur.

Kull ġenerazzjoni ġdida ta’ mudelli fundamentali titħarreġ mill-bidu fuq dataset ġdid. Aħna ntejbu kontinwament l-arkitettura tagħna u nżidu l-iskala u d-diversità tad-datasets tagħna b’mod sinifikanti lil hinn mill-mudelli preċedenti tagħna. B’differenza minn kumpaniji akbar fil-qasam tal-IA, m’għandniex korpus kbir ta’ data miġbura tul għexieren ta’ snin. Aħna niddependu primarjament fuq informazzjoni disponibbli pubblikament biex ngħallmu lill-mudelli tagħna kif ikunu ta’ għajnuna.

Inħarrġu l-mudelli tagħna billi nużaw:

Data magħżula disponibbli pubblikament, l-aktar miġbura minn datasets standard tal-industrija tal-machine learning u web crawls, simili għall-magni tat-tiftix. Neskludu sorsi li nafu li għandhom paywalls, prinċipalment jiġbru informazzjoni personalment identifikabbli, għandhom kontenut li jikser il-politiki tagħna, jew għażlu li ma jipparteċipawx.
Data proprjetarja minn sħubijiet tad-data⁠. Nagħmlu sħubijiet biex niksbu aċċess għal kontenut mhux disponibbli pubblikament, bħal arkivji u metadata. Is-sħab tagħna jvarjaw minn librerija privata kbira tal-vidjo għal immaġnijiet u vidjos biex inħarrġu Sora sal-Gvern tal-Iżlanda⁠ biex ngħinu nippreservaw il-lingwi nattivi tagħhom. Aħna ma nfittxux sħubijiet imħallsa għal informazzjoni purament disponibbli pubblikament.
Feedback uman minn trainers tal-IA, red teamers, impjegati, u utenti li s-settings tal-kontroll tad-data tagħhom jippermettu titjib fil-mudell.

Noqogħdu attenti biex innaqqsu l-ipproċessar ta’ informazzjoni personali u sensittiva, u nħarrġu lill-mudelli tagħna biex ma jipprovdux informazzjoni privata jew sensittiva dwar in-nies. Nużaw għadd ta’ tekniki biex nipproċessaw data mhux maħduma għal użu sigur fit-taħriġ, u dejjem aktar nużaw mudelli tal-IA biex jgħinuna nnaddfu, inħejju u niġġeneraw id-data.

Aħna ma nħarrġux fuq id-data tan-negozju tal-klijenti tagħna, inkluża data minn ChatGPT Team, ChatGPT Enterprise, jew il-API Platform tagħna. L-utenti ta’ ChatGPT Free u Plus jistgħu jikkontrollaw jekk jikkontribwixxux għal titjib futur fil-mudell mis-settings⁠(jinfetaħ f’tieqa ġdida) tagħhom.

Qed nibnu f’sħubija

L-IA tevolvi malajr, u nafu li l-għanijiet tagħna ma jistgħux jintlaħqu waħedna. Aħna impenjati li nikkollaboraw mal-kreaturi u l-pubblikaturi, noħolqu sħubijiet ta’ benefiċċju reċiproku, nappoġġjaw ekosistemi b’saħħithom, u nesploraw mudelli ekonomiċi ġodda. Nirringrazzjaw lill-utenti u lis-sħab tagħna talli qed jaħdmu magħna fuq dawn is-suġġetti importanti.

Awturi

OpenAI