Submitted: 2 de febrer del 2024

Resposta a l’Ordre executiva de NIST sobre IA

La sol·licitud d’informació del National Institute of Standards and Technology (NIST) relacionada amb els seus encàrrecs en virtut de les seccions 4.1, 4.5 i 11 de l’Ordre executiva sobre intel·ligència artificial.

OpenAI es va crear com a entitat sense ànim de lucre el 2015 per garantir que la intel·ligència artificial general —en resum, una IA almenys tan intel·ligent com una persona— beneficiï tota la humanitat. Investiguem, desenvolupem i llancem tecnologia d’IA d’avantguarda, així com eines i bones pràctiques per a la seguretat, l’alineació i la governança de la IA. Agraïm aquesta oportunitat d’informar sobre la feina en curs i fonamental de NIST en matèria d’IA.

Aquí ens centrem en tres temes plantejats a la RFI: (1) avaluar i auditar les capacitats de la IA, (2) fer proves d’equip vermell per permetre el desplegament de sistemes segurs, protegits i fiables, i (3) mitjans sintètics i procedència.

Avaluació de capacitats perilloses en sistemes d’IA

Aplaudim que NIST se centri a «crear orientacions i referències per avaluar capacitats... a través de les quals la IA podria causar danys». OpenAI s’ha compromès amb un Entorn de treball de preparació⁠(s'obre en una finestra nova), un enfocament integral per avaluar, seguir i mitigar riscos catastròficament perillosos dels models d’IA actuals i futurs. Actualment, l’Entorn de treball de preparació fa seguiment de quatre àrees inicials de risc: ciberseguretat; amenaces químiques, biològiques, nuclears i radiològiques (CBRN); persuasió; i autonomia del model. L’Entorn de treball també ens compromet a mantenir una vigilància contínua sobre riscos «desconeguts desconeguts» que encara no s’han identificat. Com a part d’aquest treball, OpenAI recentment ha compartit⁠ una avaluació a gran escala per a CBRN: avaluar la capacitat de GPT‑4 d’augmentar de manera significativa l’accés d’actors maliciosos a informació perillosa sobre la creació d’amenaces biològiques, en comparació amb la base de recursos existents (és a dir, internet). En l’avaluació més gran del seu tipus, amb experts en biologia i estudiants, vam constatar que GPT‑4 proporciona com a màxim un lleu augment de la informació sobre la creació d’amenaces biològiques. Tot i que aquest augment no és prou gran per ser concloent, esperem que aquesta troballa serveixi de punt de partida per a la recerca continuada i la deliberació de la comunitat, que esperem que NIST i el nou AI Safety Institute liderin. Aquest treball va augmentar la nostra confiança en diversos principis clau per avaluar riscos dels sistemes d’IA:

La contribució dels sistemes d’IA als riscos s’hauria de mesurar en termes de canvi respecte d’una base de referència adequada.Molts dels riscos que poden augmentar els sistemes d’IA actuals i futurs (com ara en ciberseguretat o bioseguretat) existeixen en algun grau fins i tot sense IA. Per exemple, la cerca a internet ja permet un grau substancial d’accés a informació rellevant per a la bioseguretat. En avaluar la contribució dels sistemes d’IA als riscos, una bona pràctica important és comprovar si la IA augmenta el risc més enllà dels recursos existents. En el nostre estudi recent sobre bioriscos, ho vam operacionalitzar assignant aleatòriament la meitat dels participants a un grup de control que només podia utilitzar fonts de coneixement no basades en IA (incloses bases de dades en línia, articles i motors de cerca d’internet, així com qualsevol coneixement previ), i assignant l’altra meitat a un grup de tractament amb accés complet tant a aquests recursos com al model GPT‑4.
Treballar amb experts del domini és vital per entendre els riscos.És difícil per a una sola entitat contractar experts de primer nivell mundial en tots els temes amplis i diversos que són rellevants per a la seguretat de la IA. Per accedir a expertesa de referència, és útil associar-se amb tercers que comptin amb experts del domini en les matèries rellevants per a les avaluacions de capacitats perilloses. A més, implicar experts del domini en la qualificació dels estudis ajuda a oferir garanties que les avaluacions es duen a terme de manera objectiva. Per exemple, en el desenvolupament i l’administració de l’avaluació de biorisc, vam treballar estretament amb experts externs en bioseguretat en el disseny de les tasques de recerca, l’administració de formacions de seguretat per als participants i la qualificació de les tasques completades. Seria d’interès per a la seguretat de la IA ampliar i diversificar aquest ecosistema.
Una avaluació exhaustiva també requereix treballar amb experts en IA per fer emergir de manera eficaç tot el ventall de capacitats del model.Per entendre tot el ventall de riscos dels models d’IA, cal fer emergir totes les capacitats del model sempre que sigui possible dins de l’avaluació. Això requereix una comprensió profunda dels sistemes d’IA subjacents i de com es poden aprofitar de manera eficaç. Recomanem que les avaluacions es dissenyin en estreta cooperació amb experts en IA. En el nostre estudi de biorisc, això incloïa oferir formació a participants humans sobre bones pràctiques per obtenir un millor rendiment en l’elicitació de capacitats de models de llenguatge, així com enfocaments tècnics personalitzats per fer emergir i sondejar millor les capacitats dels models.
Necessitem més recerca sobre com interpretar els resultats de les avaluacions de risc.Per exemple, en el cas d’avaluar si els models d’IA augmenten l’accés a informació de biorisc, encara no és clar quin nivell d’augment de l’accés a la informació es traduiria en un increment significatiu del biorisc. L’efecte dels sistemes d’IA sobre el biorisc pot canviar a mesura que apareguin noves tecnologies capaces de convertir informació en línia en bioamenaces físiques. A mesura que continuem operacionalitzant el nostre Entorn de treball de preparació, tenim moltes ganes de treballar amb NIST i l’AI Safety Institute per construir una comprensió més sòlida dels riscos i de les mètriques de risc.
Les avaluacions de referència amb subjectes humans són cares.Dur a terme avaluacions humanes de models de llenguatge requereix un pressupost considerable per compensar els participants, desenvolupar programari i garantir la seguretat. En el nostre estudi de biorisc, vam explorar diverses maneres de reduir aquests costos, però la major part d’aquestes despeses eren necessàries per (1) consideracions de seguretat no negociables, o bé (2) el nombre de participants requerit i la quantitat de temps que cada participant ha de dedicar a un examen exhaustiu. Això s’hauria de tenir en compte a l’hora de dissenyar estàndards.

Hi ha informació addicional disponible a la nostra entrada de blog sobre l’estudi recent de biorisc: Building an early warning system for LLM-aided biological threat creation⁠.

Equip vermell per permetre el desplegament de sistemes d’IA segurs

Què és l’equip vermell?

OpenAI defineix l’equip vermell com «un procés estructurat per sondejar sistemes i productes d’IA amb l’objectiu d’identificar capacitats perjudicials, sortides perjudicials o amenaces infraestructurals».^A
Hi ha diversos mètodes possibles que estan sorgint sota el terme paraigua d’equip vermell, com ara l’equip vermell intern (fet per equips interns i dedicats d’un laboratori o empresa), l’equip vermell extern (fet per parts interessades externes en col·laboració amb un laboratori o empresa) o l’equip vermell automatitzat (utilitzant models d’IA per generar atacs automatitzats i classificar-ne les sortides). En el context d’aquest document, ens referim principalment a iniciatives d’equip vermell externes en què OpenAI treballa amb experts externs del domini per avaluar les capacitats i els riscos d’un model o sistema d’IA.

L’enfocament d’OpenAI respecte de l’equip vermell no considera els atacs adversaris ni les sortides del model de manera aïllada. Més aviat, és un mètode per fer emergir riscos d’una manera contextualitzada i holística en col·laboració amb experts del domini.^B A més de l’ús maliciós i dels mètodes per eludir les mitigacions de seguretat, l’equip vermell també té en compte altres riscos: entrades benignes o esperades que generen sortides perjudicials o arriscades, millores de capacitats noves que poden alterar el panorama de riscos i com els factors externs al mateix sistema poden interactuar amb les sortides del model per causar riscos o danys. Les avaluacions d’aquestes àrees sovint es beneficien de tenir humans en el procés per generar exemples potencials i validar les sortides resultants en el context de l’expertesa d’un determinat membre de l’equip vermell.

Per a què serveix l’equip vermell?

L’equip vermell d’IA ajuda a entendre els riscos potencials associats a nous models i sistemes que:

Requereixen formes d’interacció que poden ser diferents de les dels sistemes o tecnologies d’IA anteriors i que no estan ben cobertes per avaluacions programàtiques (p. ex., inpainting a DALL·E, GPTs).
Tenen capacitats significativament millorades que poden introduir riscos nous que encara no s’han avaluat (p. ex., dominis científics, persuasió o raonament).
Requereixen context o coneixement específic del domini per a les proves i la verificació (p. ex., contingut polític específic d’una regió, biaixos culturals, o dominis científics o experts com el dret i la medicina).
Requereixen entendre un flux d’usuari o casos d’ús específics, inclosos factors que poden ser externs al mateix sistema (p. ex., provar GPT‑4(V) per a persones amb baixa visió).

OpenAI considera l’equip vermell una eina per avaluar tant riscos a escala de model com de sistema. Les funcionalitats del sistema poden incloure: classificadors, filtres d’indicacions / llistes de bloqueig, intervencions a escala d’interfície d’usuari, pràctiques de supervisió i avaluació, i altres mecanismes d’aplicació de polítiques. De vegades fem equip vermell per a un producte nou encara que no impliqui un model nou. Per exemple, tot i que GPTs⁠ no van introduir un nou model subjacent, sí que van introduir nous sistemes per a la manera com els usuaris interactuen amb el model.

OpenAI considera que les nostres iniciatives d’equip vermell complementen iniciatives addicionals d’equip vermell específiques del domini que haurien de dur a terme els desenvolupadors que construeixen sobre la nostra tecnologia. Per exemple, tot i que sotmetem els nostres models i sistemes a equip vermell en moments concrets i sota condicions particulars, els desenvolupadors que construeixen sobre la nostra API haurien de tenir en compte aquests aprenentatges i fer equip vermell addicional basat en les condicions del sistema i del context en què esperen operar. Aquesta és una de les raons per les quals OpenAI publica les conclusions clau de les iniciatives d’equip vermell a les fitxes del model (i altres formes de documentació disponible públicament) perquè altres puguin aprendre’n i construir-hi al damunt.

Equip vermell iteratiu a OpenAI

Hem documentat diverses de les nostres iniciatives d’equip vermell per a llançaments de models d’avantguarda a les fitxes del model:

OpenAI ha proporcionat als membres experts de l’equip vermell accés a models preentrenats amb diversos graus d’ajust fi i postentrenament, així com diferents nivells de maduresa de les mitigacions de seguretat.

Els objectius d’això són els següents:

Les conclusions de l’equip vermell poden informar el desenvolupament de mitigacions a nivell de postentrenament, mitigacions a nivell de sistema, polítiques i avaluacions.
Les conclusions de l’equip vermell poden ajudar a orientar la presa de decisions de la direcció sobre el llançament de determinades funcionalitats, com desplegar iterativament el llançament i l’eficàcia de les mitigacions de seguretat.
Els resultats de l’equip vermell es poden compartir juntament amb els materials públics de llançament (com ara a les fitxes del model o en altres formats) per informar usuaris potencials i altres parts interessades sobre riscos mitigats, riscos residuals i possibles riscos futurs.

Impliquem els membres de l’equip vermell tan aviat com és raonable en el procés de desenvolupament, perquè les seves conclusions puguin alimentar directament els esforços de seguretat i la presa de decisions. També és important conèixer les capacitats bàsiques del model abans d’afegir-hi mitigacions de seguretat, perquè els desenvolupadors de models puguin prendre decisions informades sobre els riscos bàsics del model i perquè la societat entengui millor el panorama de riscos associat a sistemes cada cop més potents.

Un cop s’han implementat les mitigacions de seguretat, les iniciatives d’equip vermell poden centrar rondes addicionals d’equip vermell a identificar llacunes i riscos residuals que no aborden les mitigacions de seguretat, així com a avaluar la robustesa d’aquestes mitigacions.

En última instància, tot i que hi ha propietats importants de seguretat que cal considerar molt abans en el procés de desenvolupament del model, l’equip vermell pretén simular una experiència tan propera com sigui possible a allò que els desenvolupadors de models llancen al públic.

Limitacions de l’equip vermell

L’equip vermell, per si sol, no és un exercici suficient de mesura del risc. Per si sol, l’equip vermell no quantificarà la probabilitat o la propensió d’un model a produir contingut perjudicial ni els riscos associats a l’ús d’un sistema d’IA. L’equip vermell tampoc no proporciona prou informació per quantificar la gravetat d’un risc o dany identificat.

Tot i que la majoria de les iniciatives d’equip vermell expert d’OpenAI tenen lloc abans d’un desplegament important de model o producte, els models i sistemes evolucionen força sovint en producció i, per tant, és important tenir-ho en compte a l’hora de contextualitzar les conclusions de l’equip vermell. De manera similar, els desenvolupadors que creen per a casos d’ús particulars sobre models poden prendre decisions de disseny que alterin el perfil de seguretat d’un model o sistema si això no és inherent al mateix model o sistema (o immutable respecte d’aquest).

L’equip vermell posa els fonaments per a tipus de proves i avaluacions posteriors i ofereix certa orientació sobre vectors d’atac o qüestions davant les quals les mitigacions de seguretat han de ser robustes.

Examinar múltiples exemples i permutacions d’un problema pot ajudar a generar confiança en la manera de mesurar una determinada àrea de risc. L’equip vermell expert, per disseny, pretén cobrir l’amplitud en lloc de la profunditat de les àrees de risc i, per tant, per si sol no necessàriament generaria una avaluació suficient per mesurar riscos específics. En canvi, l’equip vermell pot generar conjunts de dades que es podrien considerar les «llavors» d’una avaluació més exhaustiva. A partir d’aquí, els resultats es poden utilitzar per generar més exemples d’una àrea problemàtica concreta que s’hagi descobert, i es pot utilitzar un «conjunt d’or» d’exemples etiquetats (normalment per experts del domini) per avaluar futurs models en una àrea problemàtica identificada.

Composició dels equips vermells i priorització de dominis

Els sistemes d’IA de propòsit general que s’utilitzaran per a molts casos d’ús previstos i imprevistos i en una gran varietat de contextos arreu del món exigeixen cobrir una àmplia gamma d’àrees temàtiques, amb persones que representin una gran varietat de perspectives i visions del món.

OpenAI creu en la contractació d’una gran varietat d’experts per fer equip vermell dels nostres models. L’any passat, vam obrir una convocatòria de sol·licituds per a la Xarxa d’equip vermell. Els criteris de selecció incloïen:

Expertesa o experiència demostrada en un domini concret rellevant per a l’equip vermell
Passió per millorar la seguretat de la IA
No tenir cap conflicte d’interessos
Orígens diversos i grups tradicionalment infrarepresentats
Representació geogràfica diversa
Fluïdesa en més d’una llengua
Capacitat tècnica (útil, però no necessària)

La priorització de dominis es pot orientar per: usos previstos dels sistemes d’IA o del model, especialment en contextos amb més ambigüitat o possibles riscos; avaluació primerenca de models en què els desenvolupadors de models poden esperar capacitats més grans; àrees problemàtiques conegudes prèvies de la política de contingut; i contextos sociopolítics rellevants (p. ex., el 2024 és un any electoral important en molts llocs del món). És important tenir en compte que cada model o sistema pot requerir conjunts d’expertesa diferents, i que es poden considerar nous dominis en funció de l’avenç de les capacitats i dels nous casos d’ús del model o dels sistemes. Per tant, la composició òptima dels equips vermells evolucionarà amb el temps.

Mitjans sintètics i procedència

Marcatge d’aigua: Segons aquest enfocament, el mateix contingut audiovisual generat conté un senyal del seu origen: un patró subtil no aparent per a l’espectador o l’oient, però detectable amb programari. Pot ser un senyal que només es pugui detectar amb l’ajuda d’una clau secreta o, alternativament, el programari per detectar la marca d’aigua podria estar disponible públicament. Per això, si OpenAI afegís una marca d’aigua a les nostres sortides, caldria col·laboració a tota la cadena de valor de la IA perquè altres participants, com les plataformes de xarxes socials que distribueixen contingut, poguessin fer la marca d’aigua visible i útil per als usuaris. Si el procés de detecció no és públic en si mateix, l’accés a aquest procés és una qüestió de política complexa. També hi ha reptes tècnics. Encara que les marques d’aigua poden ser més difícils d’eliminar que altres mètodes de procedència, el contingut marcat encara pot perdre la seva marca d’aigua si es retalla, es redimensiona o es modifica d’una altra manera. Per aquests motius, les marques d’aigua encara es poden eludir, especialment per part d’actors adversaris motivats. A més, l’impacte del marcatge d’aigua pot ser limitat, atès que els mals actors poden accedir a models que no marquen les seves sortides.
Classificadors (models entrenats que distingeixen la sortida generada per IA d’altres mitjans, i poden detectar quin model o servei ha generat una sortida determinada): Quan són eficaços, aquests enfocaments són molt atractius perquè no depenen de la cooperació de la persona que distribueix una imatge ni de ningú més. Tanmateix, poden equivocar-se —tant amb falsos positius com amb falsos negatius— i poden requerir molta capacitat computacional per desplegar-se a escala. Els falsos positius podrien, per exemple, descriure erròniament l’obra d’un artista humà com si fos una sortida d’IA. Els falsos negatius, en canvi, podrien marcar erròniament una imatge com a no generada per IA quan, en realitat, sí que ho és.
Enfocaments basats en metadades(com l’estàndard actual de C2PA⁠(s'obre en una finestra nova)): En aquests enfocaments, els metadades que acompanyen determinats continguts es signen criptogràficament per proporcionar una attestació de l’origen del contingut.

Això pot empoderar les persones que volen demostrar l’origen del contingut, tant si ha estat generat per IA com si no. Per exemple, C2PA podria permetre a un editor de notícies demostrar, i als espectadors confirmar, que l’editor realment ha publicat una determinada imatge o vídeo i respon de l’exactitud d’aquesta imatge o vídeo. De manera semblant, si s’implementa per a un sistema d’IA generativa, aquesta tècnica podria ajudar un artista a mostrar que ha generat una determinada imatge o vídeo sintètic. Aquests enfocaments tenen l’avantatge aparent d’oferir visibilitat als consumidors o al públic sobre la procedència del contingut. A més, tenen l’avantatge de no requerir recursos significatius per implementar-los.

Tanmateix, els metadades es poden eliminar fàcilment d’una imatge o vídeo subjacents, de manera que aquesta tècnica no crea una barrera significativa per als mals actors (per exemple, els que participen en campanyes de desinformació) que poden voler fer passar contingut generat com si fos real.

Perquè els enfocaments basats en metadades beneficiïn àmpliament el públic, els navegadors i les plataformes de distribució, com les plataformes de xarxes socials, haurien de detectar i mostrar els metadades. Per tant, implementar amb èxit enfocaments basats en metadades requereix col·laboració al llarg de tota la cadena de valor: no n’hi ha prou que els materials audiovisuals tinguin metadades signats criptogràficament, sinó que les plataformes de distribució han de poder detectar els metadades en qüestió i mostrar-los perquè l’usuari final pugui verificar l’origen del contingut.

Els enfocaments d’OpenAI sobre la procedència

Com que cada mètode de procedència comporta avantatges i limitacions, OpenAI ha estat explorant una sèrie d’enfocaments de procedència per als mitjans audiovisuals generats per IA.

Metadades C2PA per a imatges de DALL·E 3

El 15 de gener d’aquest any, OpenAI va anunciar que implementarem l’enfocament de metadades C2PA per a les imatges generades amb el nostre model de text a imatge DALL·E 3. Les especificacions C2PA són un estàndard tècnic obert que ofereix a editors, creadors i consumidors la capacitat de rastrejar l’origen de diferents tipus de contingut.

Aquestes especificacions permeten adjuntar metadades a un fitxer. Aquestes metadades inclouen informació sobre l’origen d’una imatge (en el nostre cas, que la imatge prové de DALL·E) i el moment de la creació. Els membres del públic poden comprovar aquestes metadades i, si hi són presents, confirmar que una imatge ha estat generada per DALL·E 3.

Això ens ajudarà a donar als usuaris la possibilitat d’indicar l’origen de les imatges que generen amb DALL·E 3. Tanmateix, aquestes metadades es poden eliminar amb força facilitat: un mal actor motivat pot eliminar les metadades C2PA que acompanyen qualsevol imatge. A més, les plataformes habituals per compartir imatges, com les xarxes socials, actualment les eliminen per defecte, en lloc de detectar-les i presentar-les als usuaris. Atès com de fàcilment es poden eliminar les C2PA, els membres del públic no poden assumir que totes les imatges de DALL·E que vegin tindran necessàriament aquestes dades.

Tanmateix, C2PA no és només per a imatges d’IA, i podria tenir beneficis importants si s’adoptés més àmpliament. També l’estan adoptant fabricants de càmeres, organitzacions de notícies i altres per avalar d’on provenen les imatges. Creiem que una adopció més àmplia de mètodes de divulgació, i animar els usuaris a buscar aquests senyals, són passos importants cap a una major fiabilitat de la informació digital.

Classificador experimental per a imatges de DALL·E 3

El 19 d’octubre de 2023 vam anunciar el nostre treball en curs sobre un classificador de procedència, una nova eina interna per detectar imatges generades pel nostre sistema DALL·E 3. Mesurem la precisió del classificador amb referències internes que han mostrat resultats prometedors, fins i tot quan les imatges han estat sotmeses a tipus habituals de modificacions, com ara retalls, canvis de mida, compressió JPEG, o quan se superposen text o retalls d’imatges reals sobre petites parts de la imatge generada. Malgrat aquests bons resultats en proves internes, el classificador només ens pot indicar que una imatge probablement ha estat generada per DALL·E, i encara no ens permet treure conclusions definitives.

Continuem provant la robustesa del nostre classificador i, durant el primer trimestre de 2024, tenim previst posar-lo a disposició de socis externs perquè ens facin arribar comentaris. Durant l’any vinent, esperem començar a ampliar els nostres experiments amb el classificador d’imatges convidant determinades parts externes a unir-se a nosaltres per avaluar-ne el rendiment i la utilitat.

El classificador està adaptat al model i només és capaç de classificar si una imatge probablement ha estat generada per DALL·E i, per tant, encara que fos completament precís en les seves classificacions, no es podria utilitzar per determinar si una imatge ha estat generada per una altra eina generativa.

Agraïm l’oportunitat de col·laborar amb vostè mentre el seu treball en aquest àmbit continua.

Atentament,

Anna Adeola Makanju
VP of Global Affairs
OpenAI

Notes al peu

A
Vegeu la definició⁠(s'obre en una finestra nova) d’equip vermell del Frontier Model Forum.
B
Utilitzem el terme «expert» per referir-nos a una expertesa informada per un ventall de coneixements de domini i experiències viscudes.