Presentat: 12 de juny de 2023

Comentari sobre la política de rendició de comptes de la IA de la NTIA

Sol·licitud de comentaris de la National Telecommunications and Information Administration (NTIA) sobre la política de rendició de comptes de la IA.

OpenAI es complau a respondre a la sol·licitud de comentaris (RFC) del 13 d’abril de 2023 de la National Telecommunications and Information Administration (NTIA) sobre la política de rendició de comptes de la IA.

En aquest comentari, descrivim la nostra visió sobre la rendició de comptes de la IA a partir de les pràctiques de seguretat que apliquem als serveis que oferim avui, i de les pràctiques que preveiem aplicar als serveis que anticipem oferir en el futur. Acollim amb satisfacció la decisió de la NTIA de plantejar aquest debat en termes d’un «ecosistema» de rendició de comptes de la IA. Tal com observa la RFC, els actors de les polítiques públiques estan explorant una «gamma d’objectius de sistemes d’IA fiables i contextos de desplegament».¹ Les polítiques i pràctiques dissenyades per aconseguir la rendició de comptes variaran en conseqüència. Alhora, les mesures específiques de rendició de comptes hauran de coexistir entre elles, i el que més importa és l’impacte que tenen conjuntament.

Creiem que un ecosistema madur de rendició de comptes de la IA inclourà tant elements horitzontals com verticals. És a dir, esperem tant que hi hagi alguns elements que s’apliquin a determinats sistemes d’IA en diversos àmbits d’aplicació, com altres elements adaptats a dominis particulars. Participem en el desenvolupament i el desplegament de models fundacionals altament capaços: models que aprenen a partir d’una gran quantitat de dades per poder dur a terme una àmplia gamma de tasques posteriors. Segons el nostre parer, els desenvolupadors d’IA com nosaltres han d’actuar de manera responsable i adoptar un enfocament acurat i centrat en la seguretat en el desenvolupament i el desplegament de les capacitats més avançades. Això és cert independentment dels dominis concrets en què aquests models es puguin utilitzar.

Una àmplia gamma de lleis existents ja s’apliquen a la IA —incloent-hi els nostres productes— i el panorama jurídic evoluciona ràpidament, amb iniciatives legislatives al Congrés, l’AI Act en desenvolupament a Europa i iniciatives legislatives i polítiques que avancen arreu del món. Al mateix temps, cossos legals, reguladors i altres expectatives de llarga trajectòria en àmbits com la medicina, l’educació i l’ocupació ja s’estan interpretant i adaptant de maneres que configuraran el paper que la IA jugarà en aquests dominis. Considerem aquests esforços específics per sectors, informats per una profunda expertesa de domini, com una part crítica del panorama de rendició de comptes de la IA.

Donem un suport ferm als esforços per harmonitzar les expectatives emergents de rendició de comptes per a la IA, inclosos els esforços del NIST AI Risk Management Framework, del U.S.-E.U. Trade and Technology Council i d’una sèrie d’altres iniciatives globals. Mentre aquests esforços continuen avançant, i fins i tot abans que les noves lleis s’implementin plenament, veiem un paper per a nosaltres i per a altres empreses a l’hora d’assumir compromisos voluntaris sobre qüestions com ara les proves prèvies al desplegament, la procedència del contingut i la confiança i la seguretat.

El nostre enfocament actual d’enginyeria requereix una escala única de recursos computacionals, i ho considerem una base prometedora per definir expectatives addicionals i distintives de rendició de comptes que s’aplicarien a actors com nosaltres. Donem suport a delimitar amb cura qualsevol nova regulació per als models fundacionals altament capaços, a fi de preservar la capacitat de tots els actors de competir i innovar de manera justa.

La rendició de comptes té un paper al llarg de tot el cicle de vida de la tecnologia. Els nostres esforços per fer que els nostres models siguin segurs i fiables comencen abans que n’iniciem el desenvolupament, continuen durant el desplegament i l’operació dels nostres models, i s’adrecen tant als creadors com als usuaris dels models fundacionals altament capaços. Oferim als desenvolupadors capacitats capdavanteres al món per a les seves aplicacions, i proporcionem capacitats potents directament als milions de persones que fan servir ChatGPT i els nostres altres serveis cada dia. Les nostres polítiques d’ús s’apliquen a tots els usuaris dels nostres models, eines i serveis.² Complim les lleis existents i exigim que els nostres desenvolupadors i usuaris també les compleixin quan utilitzen els nostres serveis.

Centrem la resta d’aquest comentari en els nostres enfocaments actuals sobre la rendició de comptes de la IA, i descrivim àrees importants en què nosaltres i altres estem treballant per reforçar l’ecosistema. Observem que els responsables polítics als Estats Units i arreu del món estan considerant una àmplia gamma de polítiques i mesures destinades a aconseguir la rendició de comptes de la IA, incloses la legislació, les regulacions, els acords internacionals, els programes d’autoregulació i els estàndards tècnics i d’altres tipus exigibles. Agraïm aquests esforços i estem preparats per col·laborar amb altres parts interessades per desenvolupar i implementar enfocaments eficaços de rendició de comptes de la IA.

Enfocaments actuals d’OpenAI

Estem perfeccionant les nostres pràctiques en paral·lel a l’evolució de la conversa pública general. Aquí oferim detalls sobre diversos aspectes del nostre enfocament.

System Cards

La transparència és un element important per construir sistemes d’IA responsables. Una part clau del nostre enfocament de la rendició de comptes és publicar un document que actualment anomenem System Card, per als nous sistemes d’IA que despleguem. El nostre enfocament s’inspira en treballs de recerca previs sobre fitxes del model i system cards.³ Fins avui, OpenAI ha publicat dues system cards: la GPT‑4 System Card i la DALL-E 2 System Card.⁴

Creiem que en la majoria dels casos és important que aquests documents analitzin i descriguin els impactes d’un sistema —en lloc de centrar-se només en el model mateix— perquè els impactes d’un sistema depenen en part de factors diferents del model, inclosos el cas d’ús, el context i les interaccions al món real. De la mateixa manera, els impactes d’un sistema d’IA depenen de mitigacions de risc com ara les polítiques d’ús, els controls d’accés i la supervisió dels abusos. Creiem que és raonable que les parts interessades externes esperin informació sobre aquests temes i tinguin l’oportunitat d’entendre el nostre enfocament.

Les nostres System Cards tenen com a objectiu informar els lectors sobre factors clau que afecten el comportament del sistema, especialment en àrees pertinents per a un ús responsable. Hem comprovat que el valor de les System Cards i documents similars no prové només de la visió general dels problemes de rendiment del model que ofereixen, sinó també dels exemples il·lustratius que aporten. Aquests exemples poden donar als usuaris i desenvolupadors una comprensió més fonamentada del rendiment i els riscos del sistema descrit, i de les mesures que prenem per mitigar aquests riscos. La preparació d’aquests documents també ajuda a donar forma a les nostres pràctiques internes i les il·lustra per a altres que busquen maneres d’operativitzar enfocaments responsables de la IA.

Avaluacions qualitatives dels models mitjançant equip vermell

L’equip vermell és el procés de provar qualitativament els nostres models i sistemes en diversos àmbits per crear una visió més holística del perfil de seguretat dels nostres models. Duem a terme exercicis d’equip vermell internament amb el nostre propi personal com a part del desenvolupament del model, així com amb persones que operen de manera independent de l’equip que construeix el sistema que s’està provant. A més d’explorar les capacitats i la resiliència de la nostra organització davant d’atacs, els equips vermells també utilitzen mètodes de proves d’estrès i de límits, que se centren a fer aflorar casos extrems i altres possibles modes de fallada amb potencial de causar danys.

L’equip vermell complementa les avaluacions automatitzades i quantitatives de les capacitats i els riscos dels models que també duem a terme, i que descrivim a la secció següent. Pot aportar llum sobre riscos que encara no són quantificables, o sobre aquells per als quals encara no s’han desenvolupat avaluacions més estandarditzades. El nostre treball previ sobre equip vermell es descriu a la fitxa del model de DALL-E 2 i a la fitxa del model de GPT‑4.

Les nostres activitats d’equip vermell i de proves es duen a terme generalment durant la fase de desenvolupament d’un model o sistema nou. Separadament de les nostres pròpies proves internes, seleccionem persones provadores de fora d’OpenAI i els proporcionem accés anticipat a un sistema que està en desenvolupament. OpenAI selecciona aquestes persones segons el seu treball previ en els àmbits d’interès (recerca o expertesa pràctica), i acostumen a ser una combinació d’investigadors acadèmics i professionals del sector (p. ex., persones amb experiència laboral en entorns de Trust & Safety). Avaluem i validem els resultats d’aquestes proves, i prenem mesures per fer ajustos i desplegar mitigacions quan escau.

OpenAI continua prenent mesures per millorar la qualitat, la diversitat i l’experiència de les persones provadores externes per a avaluacions actuals i futures.

Avaluacions quantitatives dels models

A més de l’equip vermell qualitatiu descrit anteriorment, creem avaluacions automatitzades i quantitatives per a diverses capacitats i riscos orientats a la seguretat, inclosos riscos que detectem mitjançant mètodes com l’equip vermell. Aquestes avaluacions ens permeten comparar diferents versions dels nostres models entre si, iterar sobre metodologies de recerca que milloren la seguretat i, en última instància, actuar com a aportació a la presa de decisions sobre quines versions del model decidim desplegar. Les avaluacions existents abasten temes com ara el contingut eròtic, el contingut d’odi i el contingut relacionat amb l’autolesió, entre d’altres, i mesuren la propensió dels models a generar aquest tipus de contingut.

Polítiques d’ús

OpenAI no permet l’ús dels nostres models i eines per a determinades activitats i continguts, tal com s’exposa a les nostres polítiques d’ús.⁵ Aquestes polítiques estan dissenyades per prohibir l’ús dels nostres models i eines de maneres que causin dany individual o social. Actualitzem aquestes polítiques en resposta a nous riscos i a informació actualitzada sobre com s’estan utilitzant els nostres models. L’accés als nostres models i el seu ús també estan subjectes a les condicions d’ús d’OpenAI que, entre altres coses, prohibeixen l’ús dels nostres serveis per perjudicar els drets de les persones, i prohibeixen presentar resultats dels nostres serveis com si haguessin estat generats per humans quan no és així.⁶

Prenem mesures per limitar l’ús dels nostres models per a activitats perjudicials ensenyant als models a rebutjar respondre a determinats tipus de sol·licituds que poden conduir a respostes potencialment perjudicials. A més, fem servir una combinació de revisors i sistemes automatitzats per identificar i actuar contra l’ús indegut dels nostres models. Els nostres sistemes automatitzats inclouen un conjunt de deteccions de classificadors basats en aprenentatge automàtic i en regles dissenyats per identificar contingut que podria vulnerar les nostres polítiques. Quan un usuari introdueix repetidament indicacions amb contingut que infringeix les polítiques als nostres models, prenem mesures com emetre un advertiment, suspendre temporalment l’usuari o, en casos greus, expulsar-lo.

Reptes oberts en la rendició de comptes de la IA

Tal com es comenta a la RFC, hi ha moltes preguntes importants relacionades amb la rendició de comptes de la IA que encara no s’han resolt. A les seccions següents, oferim una perspectiva addicional sobre diverses d’aquestes qüestions.

Avaluació de capacitats potencialment perilloses

Els models fundacionals altament capaços tenen tant capacitats beneficioses com el potencial de causar danys. A mesura que les capacitats d’aquests models es tornen més avançades, també augmenten l’escala i la gravetat dels riscos que poden plantejar, especialment si estan sota la direcció d’un actor maliciós o si el model no està correctament alineat amb els valors humans.

Mesurar rigorosament els avenços en capacitats potencialment perilloses és essencial per avaluar i gestionar el risc de manera efectiva. Ho estem abordant explorant i desenvolupant avaluacions per a capacitats potencialment perilloses que van des d’eines simples, escalables i automatitzades fins a avaluacions a mida i intensives realitzades per experts humans. Estem col·laborant amb experts del món acadèmic i de la indústria, i en última instància aspirem a contribuir al desenvolupament d’un conjunt divers d’avaluacions que pugui contribuir a la formació de bones pràctiques per avaluar riscos emergents en models fundacionals altament capaços. Creiem que les avaluacions de capacitats perilloses són un component cada vegada més important per a la rendició de comptes i la governança en el desenvolupament d’IA d’avantguarda.

Preguntes obertes sobre avaluacions independents

Les avaluacions independents de models i sistemes, incloses les de tercers, poden ser cada vegada més valuoses a mesura que les capacitats dels models continuen augmentant. Aquestes avaluacions poden reforçar la rendició de comptes i la transparència sobre els comportaments i riscos dels sistemes d’IA.

Algunes formes d’avaluació poden tenir lloc dins d’una sola organització, com ara quan un equip avalua la seva pròpia feina o quan un equip o una part de l’organització produeix un model i un altre equip o part, actuant de manera independent, posa a prova aquest model. Un enfocament diferent és que una tercera part externa dugui a terme una avaluació. Tal com s’ha descrit abans, actualment ens basem en una combinació d’avaluacions internes i externes dels nostres models.

Les avaluacions de tercers poden centrar-se en desplegaments específics, en un model o sistema en un moment determinat, en les pràctiques de governança organitzativa i gestió del risc, en aplicacions específiques d’un model o sistema, o en alguna combinació d’aquests elements. El pensament i els possibles marcs que s’utilitzaran en aquestes avaluacions continuen evolucionant ràpidament, i estem observant-los i considerant el nostre propi enfocament de les avaluacions.

Per a qualsevol avaluació de tercers, el procés de selecció d’auditors/avaluadors amb l’expertesa adequada i estructures d’incentius apropiades es beneficiaria de més claredat. A més, seleccionar les expectatives adequades respecte de les quals avaluar organitzacions o models és un àmbit obert d’exploració que requerirà aportacions de diferents parts interessades. Finalment, serà important que les avaluacions considerin com els sistemes poden evolucionar amb el temps i incorporin això al procés d’una avaluació / auditoria.

Registre i llicències per a models fundacionals altament capaços

Donem suport al desenvolupament de requisits de registre i llicència per a futures generacions dels models fundacionals més altament capaços. Aquests models poden tenir capacitats prou perilloses per plantejar riscos significatius per a la seguretat pública; si és així, creiem que haurien d’estar subjectes a requisits de rendició de comptes proporcionals.

Podria ser adequat considerar expectatives de divulgació i registre per als processos d’entrenament que es preveu que produeixin models fundacionals altament capaços. Aquesta divulgació podria ajudar a proporcionar als responsables polítics la visibilitat necessària per dissenyar solucions reguladores eficaces i anticipar-se a les tendències a la frontera del progrés de la IA. És crucial que qualsevol règim d’aquest tipus prioritzi la seguretat de la informació divulgada.

Es podria exigir als desenvolupadors d’IA que obtinguessin una llicència per crear models fundacionals altament capaços que probablement demostraran ser més capaços que models que anteriorment s’hagin demostrat segurs. L’atorgament de llicències és habitual en contextos crítics per a la seguretat i altres contextos d’alt risc, com ara el transport aeri, la generació d’energia, la fabricació de medicaments i la banca. Es podria exigir als titulars de llicència que duguessin a terme avaluacions de risc prèvies al desplegament i adoptessin salvaguardes de seguretat i de desplegament de l’estat de l’art; de fet, moltes de les pràctiques de rendició de comptes que la NTIA estarà considerant podrien ser requisits apropiats de llicència. Introduir requisits de llicència a escala del proveïdor de computació també podria ser una eina complementària potent per fer-ne complir l’aplicació.

Encara hi ha moltes preguntes obertes en el disseny de mecanismes de registre i llicència per aconseguir la rendició de comptes a la frontera del desenvolupament de la IA. Esperem amb interès col·laborar amb els responsables polítics per abordar aquestes qüestions.