7 de maig del 2024

Our approach to data and AI

S'està carregant…

La IA hauria d’ampliar les oportunitats per a tothom. En transformar la informació de noves maneres, els sistemes d’IA ens ajuden a resoldre problemes i a expressar-nos. Avui, les nostres eines d’IA com ChatGPT s’utilitzen arreu del món per ajudar agricultors de Kenya i l’Índia a augmentar el rendiment dels cultius (Digital Green⁠), investigadors a accelerar el descobriment de fàrmacs (Moderna⁠), governs a donar suport a les seves plantilles (State of Pennsylvania⁠(s'obre en una finestra nova)), educadors a impulsar⁠ l’aprenentatge dels estudiants i persones amb discapacitat visual a orientar-se pel nostre món (Be My Eyes⁠). Eines d’IA com DALL·E⁠ i Sora⁠ (actualment en vista prèvia de recerca) estan empoderant⁠ creatius, des d’artistes emergents fins a cineastes⁠.

La nostra missió és beneficiar tota la humanitat. Això inclou no només els nostres usuaris, sinó també creadors i editors. Tot i que creiem que els precedents legals i les bones polítiques públiques fan que l’aprenentatge sigui un ús legítim, també considerem important contribuir al desenvolupament d’un contracte social àmpliament beneficiós per al contingut en l’era de la IA.

Creiem que els sistemes d’IA haurien de beneficiar i respectar les decisions dels creadors i propietaris de contingut. Continuem millorant els nostres sistemes líders del sector perquè reflecteixin les preferències dels propietaris de contingut, i ens dediquem a crear productes i models de negoci que impulsin ecosistemes vibrants per a creadors i editors.

No som escriptors, artistes ni periodistes professionals, ni ens dediquem a aquests sectors. Ens centrem a crear eines per ajudar aquestes professions a crear i aconseguir més. Per fer-ho, escoltem i treballem estretament amb membres d’aquestes comunitats, i esperem continuar aquests diàlegs. Avui compartim més sobre on som i cap a on anem.

Respectem les decisions dels creadors i propietaris de contingut sobre la IA

Fa dècades es va introduir l’estàndard robots.txt i l’ecosistema d’Internet el va adoptar voluntàriament perquè els editors web indiquessin quines parts dels llocs web podien ser accessibles als rastrejadors web.

L’estiu passat, OpenAI va ser pionera en l’ús de permisos de rastrejadors web per a la IA, fet que permet als editors web expressar les seves preferències sobre l’ús del seu contingut en la IA. Tenim en compte aquests senyals cada vegada que entrenem un nou model.

Dit això, entenem que són solucions incompletes, ja que molts creadors no controlen els llocs web on pot aparèixer el seu contingut, i el contingut sovint se cita, es ressenya, es remescla, es torna a publicar i es fa servir com a inspiració en múltiples dominis. Necessitem una solució eficient i escalable perquè els propietaris de contingut expressin les seves preferències sobre l’ús del seu contingut en sistemes d’IA.

Estem creant Media Manager perquè els propietaris de contingut puguin gestionar com s’utilitzen les seves obres en la IA

OpenAI està desenvolupant Media Manager, una eina que permetrà als creadors i propietaris de contingut dir-nos què posseeixen i especificar com volen que les seves obres s’incloguin o s’excloguin de la recerca i l’entrenament en aprenentatge automàtic. Amb el temps, tenim previst introduir opcions i funcions addicionals.

Això requerirà recerca puntera en aprenentatge automàtic per crear una eina inèdita d’aquest tipus que ens ajudi a identificar text, imatges, àudio i vídeo amb drets d’autor a través de múltiples fonts i reflectir les preferències dels creadors.

Estem col·laborant amb creadors, propietaris de contingut i reguladors mentre desenvolupem Media Manager. El nostre objectiu és tenir l’eina implantada el 2025, i esperem que estableixi un estàndard a tota la indústria de la IA.

Estem creant productes per beneficiar usuaris, creadors i editors en un ecosistema vibrant

Avui vivim en una economia de l’atenció construïda per als anunciants per sobre dels usuaris i per a la quantitat per sobre de la qualitat. La nostra ambició és fer servir la IA per canviar-ho: empoderar creadors i editors i millorar l’experiència d’usuari.

Millorem contínuament els nostres productes perquè siguin motors de descobriment més útils. Fa poc hem millorat els enllaços a les fonts a ChatGPT⁠(s'obre en una finestra nova) per oferir als usuaris un millor context i als editors web noves maneres de connectar amb les nostres audiències.

També treballem amb socis per mostrar el seu contingut als nostres productes i augmentar la seva connexió amb els lectors. Hem anunciat acords amb editors de notícies globals, des del Financial Times⁠ fins a Le Monde⁠, Prisa Media⁠, Axel Springer⁠ i altres, per mostrar el seu contingut a ChatGPT i enriquir l’experiència de l’usuari en temes d’actualitat. Hi ha més innovació en camí. Aquest contingut també es pot fer servir per entrenar ChatGPT perquè mostri millor contingut rellevant dels editors als usuaris i per millorar les nostres eines per a les redaccions.

Els nostres acords estan dissenyats per beneficiar els socis i els seus usuaris, fent que els nostres models siguin més útils per als seus empleats, clients i comunitats. Per ajudar a impulsar els recursos educatius, ens hem associat amb les entitats sense ànim de lucre Khan Academy⁠ i la britànica ExamSolutions⁠(s'obre en una finestra nova) per millorar el rendiment matemàtic del nostre model, cosa que accelera la seva capacitat d’ampliar l’accés a la tutoria d’IA personalitzada a la seva plataforma.

Entendre els nostres models fundacionals i com els construïm

We design our AI models to be learning machines, not databases

Els models d’IA aprenen de les relacions de la informació per crear alguna cosa nova; no emmagatzemen dades com una base de dades. Quan entrenem models de llenguatge, prenem bilions de paraules i demanem a un ordinador que elabori una equació que descrigui de la millor manera la relació entre les paraules i el procés subjacent que les ha produït. Un cop finalitzat el procés d’entrenament, el model d’IA no conserva accés a les dades analitzades durant l’entrenament. ChatGPT és com una professora que ha après de molts estudis previs i pot explicar coses perquè ha après les relacions entre conceptes, però no emmagatzema els materials al seu cap.

Els nostres models estan dissenyats per ajudar-nos a generar contingut i idees noves, no per repetir o «regurgitar» contingut. Els models d’IA poden afirmar fets, que són de domini públic. Si en rares ocasions un model repeteix inadvertidament contingut expressiu, això és un error del procés d’aprenentatge automàtic. És més probable que aquest error es produeixi amb contingut que apareix sovint en els conjunts de dades d’entrenament, com el contingut que apareix en molts llocs web públics diferents perquè se cita amb freqüència. Fem servir tècniques d’última generació durant tot l’entrenament i en la sortida, tant per a la nostra API com per a ChatGPT, per evitar repeticions, i continuem introduint millores amb recerca i desenvolupament continus.

We use broad and diverse data to build the best AI for everyone

Volem que els nostres models d’IA aprenguin de tantes llengües, cultures, matèries i indústries com sigui possible perquè puguin beneficiar tanta gent com sigui possible. Com més diversos siguin els conjunts de dades, més diversos seran el coneixement, la comprensió i les llengües dels models —com una persona que ha estat exposada a una àmplia gamma de perspectives i experiències culturals—, i més persones i països podrà servir la IA de manera segura.

Cada nova generació de models fundacionals s’entrena des de zero amb un nou conjunt de dades. Millorem constantment la nostra arquitectura i augmentem significativament l’escala i la diversitat dels nostres conjunts de dades molt més enllà dels nostres models anteriors. A diferència de les empreses més grans del camp de la IA, no disposem d’un gran corpus de dades recopilat durant dècades. Ens basem principalment en informació disponible públicament per ensenyar als nostres models a ser útils.

Entrenem els nostres models fent servir:

Dades públiques seleccionades, recopilades sobretot de conjunts de dades d’aprenentatge automàtic estàndard del sector i de rastreigs web, de manera similar als motors de cerca. Excloem fonts que sabem que tenen murs de pagament, que principalment agreguen informació personal identificable, que tenen contingut que infringeix les nostres polítiques o que han optat per excloure’s.
Dades propietàries procedents de partnerships de dades⁠. Ens associem per accedir a contingut no disponible públicament, com ara arxius i metadades. Els nostres socis van des d’una gran videoteca privada per a imatges i vídeos per entrenar Sora fins al Govern d’Islàndia⁠ per ajudar a preservar les seves llengües natives. No busquem associacions de pagament per a informació exclusivament disponible públicament.
Feedback humà de trainers d’IA, red teamers, empleats i usuaris la configuració de control de dades dels quals permet millores del model.

Tenim cura de reduir el tractament d’informació personal i sensible, i entrenem els nostres models perquè no proporcionin informació privada o sensible sobre les persones. Fem servir diverses tècniques per processar dades en brut perquè es puguin utilitzar de manera segura en l’entrenament, i cada vegada fem servir més models d’IA per ajudar-nos a netejar, preparar i generar dades.

No entrenem amb les dades empresarials dels nostres clients, incloses les dades de ChatGPT Team, ChatGPT Enterprise o la nostra plataforma API. Els usuaris de ChatGPT Free i Plus poden controlar si contribueixen a futures millores del model a la seva configuració⁠(s'obre en una finestra nova).

Estem construint en col·laboració

La IA evoluciona ràpidament, i sabem que els nostres objectius no es poden assolir sols. Ens comprometem a col·laborar amb creadors i editors, crear associacions mútuament beneficioses, donar suport a ecosistemes saludables i explorar nous models econòmics. Agraïm als nostres usuaris i socis que treballin amb nosaltres en aquests temes importants.

Autors

OpenAI