Publicat: 27 de març de 2024

Comentari d’OpenAI a la NTIA sobre els pesos dels models oberts

Aquest comentari va ser presentat per OpenAI en resposta a la Sol·licitud d’informació de març de 2024 de la NTIA sobre models fundacionals de doble ús amb pesos àmpliament disponibles.

Hi ha molts camins cap a una IA segura i beneficiosa.

OpenAI creu⁠(s'obre en una finestra nova) que construir, desplegar àmpliament i utilitzar la IA pot millorar la vida de les persones i obrir un futur millor. El progrés depèn de la innovació i de la competència del lliure mercat. Dins d’aquestes directrius generals, hi ha molts camins diferents pels quals les persones poden fer avançar la promesa de la IA. OpenAI va ser entre els primers desenvolupadors d’IA a enfrontar-se a la qüestió de com distribuir els beneficis dels models fundacionals amb capacitats sense precedents, i comencem aportant aquest context històric per ajudar a informar les deliberacions de la NTIA.

El 2019, vam crear GPT‑2, que tenia la nova capacitat de generar paràgrafs de text coherents, i ens vam enfrontar a la qüestió de com desplegar-lo. D’una banda, el model semblava molt útil; de l’altra, no estàvem segurs⁠ que pogués ser útil per a finalitats malicioses, com ara la generació de correus electrònics de phishing. Vam optar per experimentar amb una «publicació esglaonada». Tal com vam escriure⁠ aleshores, «la publicació esglaonada implica la publicació gradual d’una família de models al llarg del temps. La finalitat de la nostra publicació esglaonada de GPT‑2 és donar temps a les persones per avaluar les propietats d’aquests models, debatre les seves implicacions socials i avaluar els impactes de la publicació després de cada etapa». Quan no vam observar efectes significatius d’ús indegut, això ens va donar la confiança per publicar obertament els pesos del model complet⁠.

El 2020, vam crear GPT‑3, que era molt més capaç que qualsevol model lingüístic anterior en tots els punts de referència, i novament ens vam enfrontar a la qüestió de com publicar-lo. Aquesta vegada, vam decidir publicar-lo mitjançant el nostre primer producte, l’API d’OpenAI (una interfície de programació d’aplicacions, que permet als desenvolupadors crear aplicacions sobre la nostra tecnologia). Tal com vam escriure⁠ aleshores, teníem diverses motivacions per a aquesta nova estratègia de publicació: «comercialitzar la tecnologia ens ajuda a pagar la nostra recerca contínua en IA, seguretat i polítiques» i «el model API ens permet respondre més fàcilment a l’ús indegut de la tecnologia. Com que és difícil predir els casos d’ús posteriors dels nostres models, sembla intrínsecament més segur publicar-los a través d’una API i ampliar-ne l’accés amb el temps, en lloc de publicar un model de codi obert on l’accés no es pot ajustar si resulta que té aplicacions perjudicials». Al llarg de diversos anys, aquesta publicació via API ens va ensenyar a nosaltres i a la comunitat lliçons sobre els patrons de seguretat i ús indegut dels models del nivell de GPT‑3⁠.

En els anys posteriors, hem continuat donant suport i creient en la promesa de l’ecosistema d’IA de codi obert, incloent-hi la publicació oberta dels pesos d’alguns dels nostres models més avançats (com CLIP i Whisper) i el desenvolupament d’infraestructura de codi obert per a altres desenvolupadors d’IA (com el llenguatge de programació de GPU Triton). Hem vist que la publicació oberta de pesos aporta una varietat de beneficis significatius, incloent-hi facilitar la recerca acadèmica sobre els mecanismes interns dels models d’IA, permetre als usuaris i a les organitzacions executar models localment als seus dispositius perifèrics, i facilitar modificacions creatives dels models per adaptar-los als objectius dels usuaris. Moltes empreses d’IA han optat per invertir fortament en la publicació oberta dels pesos dels models per diversos motius, incloent-hi la marca, la captació de talent i l’atracció d’un ecosistema de desenvolupadors que construeixi sobre la tecnologia interna d’una empresa i l’acceleri.

Al mateix temps, el nostre enfocament de publicar els nostres models d’IA insígnia mitjançant API i productes comercials com ChatGPT ens ha permès continuar estudiant i mitigant riscos que vam descobrir després de la publicació inicial, sovint de maneres que no haurien estat possibles si els mateixos pesos s’haguessin publicat. Per exemple, recentment ens vam associar amb Microsoft per detectar, estudiar i interrompre⁠ les operacions d’un cert nombre d’actors estatals d’amenaça cibernètica que estaven abusant dels nostres models GPT‑3.5‑Turbo i GPT‑4 per ajudar en operacions cibernètiques ofensives. Interrompre aquests actors d’amenaça no hauria estat possible si els pesos d’aquells models d'avantguarda en aquell moment s’haguessin publicat àmpliament, ja que els mateixos actors d’amenaça cibernètica haurien pogut allotjar el model en el seu propi maquinari, sense interactuar mai amb el desenvolupador original. Aquest enfocament ens ha permès continuar distribuint àmpliament els beneficis de la IA, incloent-hi mitjançant serveis gratuïts i de baix cost àmpliament disponibles.

Aquestes experiències ens han convençut que tant les publicacions obertes de pesos com les publicacions basades en API i productes són eines per aconseguir una IA beneficiosa, i creiem que el millor ecosistema d’IA nord-americà inclourà totes dues.

Combinar el desplegament iteratiu amb un Entorn de treball de preparació

Una vegada i una altra, tant en les publicacions de productes com en les publicacions de pesos, hem vist els increïbles beneficis del «desplegament iteratiu»: posar gradualment a les mans de les persones una IA cada cop més capaç perquè la puguin utilitzar per millorar les seves vides, i ajudar la societat a adaptar-se a aquestes noves tecnologies. Tal com vam escriure⁠ el 2023: «Treballem intensament per prevenir riscos previsibles abans del desplegament; tanmateix, hi ha un límit al que podem aprendre en un laboratori. Malgrat una extensa recerca i proves, no podem predir totes les maneres beneficioses en què les persones utilitzaran la nostra tecnologia, ni totes les maneres en què en faran un ús indegut. Per això creiem que aprendre de l’ús en el món real és un component crític per crear i publicar sistemes d’IA cada vegada més segurs al llarg del temps.»

A mesura que els models d’IA esdevenen encara més potents i els beneficis i riscos del seu desplegament o publicació augmenten, també és important que siguem cada vegada més sofisticats a l’hora de decidir si s’ha de desplegar un model i com fer-ho. Això és especialment cert si les capacitats de la IA arriben a tenir implicacions significatives per a la seguretat pública o la seguretat nacional. La futura presència d’aquests riscos «catastròfics» derivats de sistemes d’IA més avançats és inherentment incerta, i hi ha desacord acadèmic sobre com de probables són i quan podrien sorgir. No creiem que encara hi hagi proves suficients; no els podem descartar, ni tampoc podem estar segurs que siguin imminents. Com a desenvolupadors que impulsem les capacitats d’IA d'avantguarda per maximitzar-ne els beneficis, considerem que construir la ciència dels riscos d’aquesta tecnologia (incloent-hi recopilar proves relacionades amb aquests riscos) és part integral del nostre treball.

Per navegar aquestes incerteses d’una manera guiada empíricament, OpenAI va llançar públicament el nostre Entorn de treball de preparació⁠(s'obre en una finestra nova), un enfocament basat en la ciència per avaluar i mitigar contínuament qualsevol risc catastròfic que puguin plantejar els nostres models d’IA. L’Entorn de treball de preparació defineix com avaluem els nivells de capacitat dels nostres models d’IA en diversos àmbits d’alt risc, incloent-hi la ciberseguretat, l’operació autònoma, la persuasió individualitzada i les amenaces QBRN (químiques, biològiques, radiològiques i nuclears). Per veure un exemple d’aquest entorn de treball en acció, consulteu el nostre estudi recent⁠ que prova la capacitat de GPT‑4 per ajudar en la creació d’amenaces biològiques, el qual va concloure que no planteja cap risc marginal significatiu.

Basant-nos en aquestes avaluacions, classifiquem els nivells de risc dels models en cada categoria com a Baix, Mitjà, Alt o Crític. És crucial que, d’acord amb el nostre Entorn de treball de preparació, no desplegarem sistemes d’IA que plantegin un nivell de risc «Alt» o «Crític» en la nostra taxonomia (i ni tan sols n’entrenarem de «Crítics», atès el seu nivell de risc), tret que les nostres mitigacions puguin reduir el risc d’aquests sistemes com a màxim a un nivell «Mitjà». L’Entorn de treball de preparació és important perquè ens permet construir i compartir àmpliament els beneficis d’una IA cada vegada més capaç, alhora que ens prepara per detectar i protegir-nos contra riscos catastròfics tan aviat com sigui possible si arriben a aparèixer.

Pràctiques per a desenvolupadors d’IA molt capaç

Creiem que les persones i les empreses han de poder participar en la IA com triïn —cosa que pot incloure desenvolupar o utilitzar una IA que reflecteixi els seus valors i la seva visió— per tal d’aconseguir els beneficis de la IA. Al mateix temps, els sistemes d’IA molt capaços s’han de construir i utilitzar de manera segura, amb qualsevol risc catastròfic descobert mitigat adequadament. Aquests interessos de vegades poden entrar en tensió, i cal gestionar-los amb cura cas per cas per aconseguir els millors resultats per a la societat.

En el cas dels models fundacionals molt capaços que requereixen recursos significatius per crear-se (de l’ordre de centenars de milions de dòlars o més), creiem que els desenvolupadors d’IA haurien d’avaluar el potencial del seu model per plantejar riscos catastròfics i, si es considera que el nivell de risc del model és alt, aplicar mitigacions adequades abans de desplegar-lo o publicar-lo. Això aconsegueix un equilibri adequat entre la gestió del risc i la innovació: es preveu que aquests models tinguin les capacitats més grans⁠(s'obre en una finestra nova), mentre que el cost de l’avaluació és, com a màxim, una petita fracció del seu cost de desenvolupament. Aquestes avaluacions tenen sentit independentment de si es pretén publicar àmpliament els pesos del model o fer-lo disponible mitjançant una API.

A l’altre extrem de l’espectre, en el cas dels models fundacionals que requereixen menys recursos, l’equilibri d’interessos és diferent. Segons les proves actuals, sembla molt menys probable que aquests models plantegin riscos catastròfics, fins i tot amb els avenços probables en les tècniques d’ajust fi i modificació de models. Mentrestant, les avaluacions del risc catastròfic poden costar una fracció substancial del pressupost de petits entrenaments, fet que podria tenir un efecte dissuasiu sobre la innovació i la competència. Creiem que no s’haurien d’esperar aquestes avaluacions de riscos catastròfics per a aquests models, ja que és molt valuós protegir la capacitat d’innovació d’una diversitat de desenvolupadors sobre noves i prometedores capacitats d’IA i permetre que floreixi el mercat d’idees i productes, i la ciència indica que el risc d’aquests models és relativament baix.

Els protocols d’avaluació com l’Entorn de treball de preparació són una eina útil per avaluar els riscos ex ante de qualsevol tipus de publicació de model, incloses les publicacions obertes de pesos de models. Hi ha algunes consideracions específiques sobre com aplicar-los a les publicacions obertes de pesos.

Una d’aquestes consideracions és que les condicions de prova idealment reflectirien el ventall de maneres en què els actors posteriors poden modificar el model. Una de les propietats més útils dels models oberts és que els actors posteriors poden modificar els models per ampliar-ne les capacitats inicials i adaptar-los a les aplicacions específiques del desenvolupador. Tanmateix, això també vol dir que parts malicioses podrien potencialment millorar les capacitats nocives del model. Per tant, avaluar rigorosament els riscos d’una publicació oberta de pesos hauria d’incloure proves d’un ventall raonable de maneres en què una part maliciosa podria modificar el model de manera factible, inclòs mitjançant ajust fi. OpenAI ja fa algunes proves de modificació com a part del nostre Entorn de treball de preparació (com vam fer en la nostra avaluació del risc biològic⁠).

Una altra consideració clau és que els desenvolupadors de models oberts poden no ser capaços de confiar en salvaguardes a nivell de sistema per reduir el risc d’ús indegut del seu model, ja que sovint aquestes salvaguardes poden ser eliminades per un usuari maliciós posterior que posseeixi els pesos del model. Avui dia, aquesta diferència en la capacitat de mitigació té conseqüències limitades, ja que fins i tot els nostres models actuals més capaços no estan classificats com especialment arriscats. Però si es determina científicament que un model futur planteja riscos greus si es publica, aleshores la via per reduir el risc d’una publicació oberta de pesos pot dependre d’augmentar la resiliència de l’entorn extern en què es publica el model.

La necessitat de resiliència social davant l’ús indegut de la IA és més àmplia que les decisions de publicació de qualsevol organització. Atès el progrés continu i la difusió dels algorismes d’IA, i l’accés cada cop més estès a la capacitat de càlcul (incloent-hi en països que preocupen els Estats Units), les capacitats d’IA d'avantguarda actuals —sovint accessibles només a uns pocs actors en el moment de la seva creació— acabaran proliferant àmpliament. Els Estats Units, i els països d’arreu del món, també tenen l’oportunitat d’invertir i liderar mitigacions que limitin les conseqüències de l’ús indegut, de manera que el balanç de resultats sigui al màxim de positiu.

Per exemple, enfortir la resiliència contra els riscos de ciberatacs accelerats per la IA podria implicar proporcionar als proveïdors d’infraestructures crítiques accés anticipat a aquests mateixos models d’IA, perquè es puguin utilitzar per millorar la ciberdefensa (com en els primers projectes que hem finançat com a part de l’OpenAI Cybersecurity Grant Program⁠). Enfortir la resiliència contra els riscos de creació d’amenaces biològiques accelerades per la IA pot implicar solucions totalment no relacionades amb la IA, com ara millorar els mecanismes de control de la síntesi d’àcids nucleics (com demana l’Ordre executiva 14110), o millorar la capacitat dels sistemes de salut pública per detectar i identificar nous brots de patògens. Si es demostra rigorosament que un model d’IA planteja riscos greus per a la seguretat pública o la seguretat nacional, aleshores el desenvolupador també pot tenir un paper important a l’hora de conscienciar sobre les noves capacitats abans de la publicació generalitzada (com ara mitjançant la notificació als proveïdors d’infraestructura o limitant el desplegament de l’API), per crear tant temps com motivació per a esforços de resiliència urgentment necessaris. Això reflecteix la norma de «divulgació responsable» de l’àmbit cibernètic, en què els investigadors de seguretat embarguen temporalment la divulgació de les vulnerabilitats que troben per donar temps als defensors a corregir els seus sistemes, sense alentir alhora més investigació en seguretat.

Necessitem una millor ciència dels riscos de la IA

Tot i que creiem que és important avaluar els riscos dels models més capaços, la ciència de les avaluacions del risc de la IA encara és incipient. OpenAI i la comunitat d’IA en general encara estan construint els fonaments de com avaluar els riscos de la IA, i encara estem iterant constantment en molts dels detalls d’operacionalització de l’Entorn de treball de preparació. Els governs tenen un paper important a l’hora d’ajudar l’ecosistema d’IA a madurar les seves pràctiques d’avaluació de riscos i capacitats, per exemple reunint experts dels mons de la ciberseguretat ofensiva, les infraestructures crítiques i la IA per acordar un conjunt prioritari de models d’amenaça cibernètica de la IA, i construir bancs de proves rigorosos i empírics per avaluar-los. Donem un ferm suport a l’enfocament voluntari, favorable a la innovació i basat primer en la ciència que està impulsant la USAISI.

Des que OpenAI es va enfrontar el 2019 a l’elecció de com publicar GPT‑2 —optant al principi per publicar només una versió petita del model—, nous descobriments i esdeveniments han canviat contínuament el panorama de consideracions al voltant de la publicació oberta dels pesos dels models fundacionals, de vegades cada pocs mesos. Esperem que aquesta tendència continuï. Qualsevol enfocament de política governamental hauria de ser flexible i adaptable als canvis futurs.