Com es desenvolupen ChatGPT i els nostres models fundacionals
Més informació sobre com desenvolupem els nostres models i els apliquem a productes com ChatGPT
Els models fundacionals d'OpenAI, inclosos els models que alimenten ChatGPT, es desenvolupen utilitzant tres fonts primàries d'informació: (1) informació que està disponible públicament a internet, (2) informació que, per accedir-hi, ens obliga a associar-nos amb tercers, i (3) informació que faciliten o generen els nostres usuaris o els nostres entrenadors i investigadors humans.
Aquest article proporciona una visió general sobre la informació disponible públicament que utilitzem per desenvolupar aquests models, i sobre com recollim i utilitzem aquesta informació de conformitat amb les lleis de privacitat. Per entendre com recollim i utilitzem la informació dels usuaris dels nostres serveis, inclòs com excloure les converses amb ChatGPT perquè no es facin servir per ajudar a entrenar els nostres models, vegeu la nostra Política de Privacitat i aquest article.
ChatGPT és un servei basat en intel·ligència artificial al qual podeu accedir a través d'internet. Podeu fer servir ChatGPT per a diverses tasques, com ara organitzar o resumir informació, traduir, analitzar o generar imatges, fomentar la creativitat i generar idees, i obtenir suport en tasques quotidianes. ChatGPT s'ha desenvolupat de tal manera que entén les preguntes i instruccions dels usuaris i pot donar-hi resposta. Això ho fa revisant una gran quantitat d'informació existent, com ara text, imatges, àudio o vídeo, i aprenent a partir de les relacions que s’estableixen dins la informació. Per exemple, el model aprèn quines paraules acostumen a aparèixer en context amb altres paraules i aleshores utilitza el que ha après per predir la paraula que té més probabilitats d'aparèixer a continuació com a resposta a la consulta d'un usuari, i després les paraules següents. Aquests models també poden aprendre a generar altres formes d'informació com ara imatges aprenent com els píxels que formen les imatges en les dades d'entrenament es relacionen entre ells i amb les explicacions que els acompanyen.
Com a exemple, durant el procés d'aprenentatge del model (anomenat “entrenament”), és possible que tinguem un model que hagi de completar la frase: “en lloc de girar a l'esquerra, va girar ___.” Abans de l'entrenament, el model respondria amb paraules aleatòries, però a mesura que llegeix i aprèn de múltiples línies de text, entén millor aquest tipus de frase i pot predir la paraula següent de manera més precisa. A continuació, repeteix aquest procés en un nombre molt gran de frases.
Com que hi ha moltes paraules possibles que podrien aparèixer a continuació de la frase (per exemple, en lloc de girar a l'esquerra, va girar “a la dreta”, “completament”, etc.), hi ha un component d'arbitrarietat en la manera en què un model pot respondre, i en molts casos els nostres models respondran la mateixa pregunta de maneres diferents.
Els models d'aprenentatge automàtic estan formats per grans cadenes de números, anomenades “ponderacions” o “paràmetres”, i codi que interpreta i executa aquests números. Els models no contenen ni emmagatzemen còpies de la informació de la qual aprenen, sinó que, a mesura que aprenen, alguns dels números que els conformen poden canviar lleugerament per reflectir allò que han après. A l'exemple anterior, el model havia revisat informació que l'havia ajudat a millorar per passar de predir paraules incorrectes aleatòries a predir paraules més precises, però l'únic que ha passat realment al model és que els números han canviat lleugerament. El model no ha emmagatzemat ni copiat les frases, imatges o àudio que ha revisat.
Com s'ha indicat més amunt, ChatGPT i la resta dels nostres serveis es desenvolupen fent servir (1) informació que està disponible públicament a internet, (2) informació associada a tercers per accedir-hi, i (3) informació que faciliten o generen els nostres usuaris o els nostres entrenadors humans. Aquest article se centra en el primer conjunt: la informació que està disponible públicament a internet.
En relació amb aquest conjunt d'informació, només utilitzem la informació que està disponible a internet de manera pública, gratuïta i oberta; per exemple, no cerquem informació darrere de murs de pagament ni al “web fosc”. Apliquem filtres i suprimim la informació de la qual no volem que els nostres models aprenguin o reprodueixin, com ara discursos d'odi, contingut per a adults, llocs que principalment acumulen informació personal i contingut brossa. A continuació, fem servir la informació per entrenar els nostres models.
Un gran volum de dades a internet fa referència a persones, de manera que la nostra informació d'entrenament indirectament inclou informació personal. No busquem activament informació personal per entrenar els nostres models.
Utilitzem informació d'entrenament només per ensenyar intel·ligència als nostres models, com ara la capacitat de predir, raonar i resoldre problemes. No utilitzem ni utilitzarem informació personal en la informació d'entrenament per elaborar perfils de persones, posar-nos-hi en contacte, enviar-los publicitat, intentar vendre'ls alguna cosa o vendre la informació en qüestió.
És possible que els nostres models aprenguin de la informació personal per entendre com elements com els noms i les adreces encaixen dins del llenguatge i les frases, o per aprendre sobre persones famoses o personatges públics. Això fa que els nostres models siguin millors a l'hora d'oferir respostes rellevants.
També prenem mesures per reduir el tractament de la informació personal quan entrenem els nostres models. Per exemple, eliminem els llocs web que acumulen grans volums d'informació personal i entrenem els nostres models perquè rebutgin sol·licituds d'informació privada o confidencial sobre persones.
Utilitzem la informació d'entrenament legalment. Els nostres models fundacionals tenen moltes aplicacions que proporcionen beneficis considerables i que ja estan ajudant la gent a crear contingut, millorar els serveis d'atenció al client, desenvolupar programari, personalitzar l'educació, donar suport a la recerca científica i molt més. Aquests beneficis no es poden obtenir sense grans volums d'informació per entrenar els models. A més, l'ús que fem de la informació d'entrenament no està pensat per tenir un impacte negatiu en els individus, i les fonts primàries d'aquesta informació d'entrenament ja estan disponibles públicament. Per aquests motius, basem la recollida i l'ús de la informació personal que s'inclou en la informació d'entrenament en interessos legítims de conformitat amb lleis de privacitat com ara el RGPD, tal com s'explica més detalladament a la nostra Política de privacitat. També hem dut a terme una avaluació d'impacte en la protecció de dades per ajudar a garantir que estem recollint i utilitzant la informació de manera legal i responsable.
Responem a sol·licituds d'oposició i drets similars. Com a resultat de l'aprenentatge del llenguatge, és possible que les respostes de ChatGPT incloguin de vegades informació personal de persones les dades personals de les quals apareixen sovint a la internet pública (per exemple, personatges públics). Les persones de determinades jurisdiccions poden oposar-se al tractament de les seves dades personals per part dels nostres models o demanar l’aplicació d’altres drets relacionats amb les dades mitjançant el Portal de privacitat(s'obre en una finestra nova). També podeu exercir aquests drets escrivint a dsar@openai.com.
Heu de tenir en compte que, de conformitat amb les lleis sobre privacitat, és possible que alguns drets no siguin absoluts. Podem denegar una sol·licitud si tenim un motiu legal per fer-ho. No obstant això, ens esforcem per prioritzar la protecció de la informació personal i per complir amb totes les lleis sobre privacitat aplicables. Si creieu que no hem abordat adequadament una qüestió, teniu dret a presentar una reclamació davant la vostra autoritat de supervisió local.
Per a més informació sobre les pràctiques d'OpenAI en relació amb la informació personal que recollim sobre vós quan feu servir el nostre lloc web, aplicacions i serveis, vegeu la nostra Política de privacitat.