Published: 26 d’octubre del 2023

L'enfocament d'OpenAI sobre el risc fronterer

Una actualització per a l'AI Safety Summit del Regne Unit

S'està carregant…

El 21 de juliol de 2023, OpenAI es va unir a altres laboratoris d'IA capdavanters per assumir un conjunt de compromisos voluntaris per promoure la seguretat, la protecció i la confiança en la IA. Aquests compromisos abastaven una sèrie d'àrees de risc, incloent-hi principalment els riscos d'avantguarda que són l'objecte de la propera AI Safety Summit.

En aquesta actualització, descrivim el nostre progrés en aquests compromisos voluntaris i detallem més el nostre enfocament en evolució per mitigar els riscos d'avantguarda, inclòs el nostre treball continuat per desenvolupar un Entorn de treball de preparació.

El 3 d'octubre de 2023 vam publicar públicament la fitxa del model⁠ del nostre model de text a imatge DALL-E 3⁠, la primera gran publicació pública d'un nou model d'avantguarda dins de l'abast dels nostres compromisos voluntaris. En línia tant amb la nostra missió com amb els compromisos voluntaris, vam dur a terme un treball de seguretat crític, incloent-hi l'avaluació de seguretat prèvia al desplegament i l'equip vermell. A més, estem treballant en nous mètodes per capacitar les persones per rastrejar la procedència dels continguts generats per IA, i hem continuat invertint en pràctiques responsables amb el desplegament de capacitats de veu i anàlisi d'imatges a ChatGPT.

També hem complert el nostre compromís voluntari⁠ d'«establir o unir-nos a un fòrum o mecanisme a través del qual [puguem] desenvolupar, avançar i adoptar estàndards compartits i bones pràctiques per a la seguretat de la IA d'avantguarda», cofundant el Frontier Model Forum. Aquest nou organisme del sector, establert conjuntament amb Microsoft, Google Deepmind i Anthropic, és un espai per impulsar la recerca en seguretat de la IA i promoure pràctiques de desenvolupament responsables per als sistemes d'IA d'avantguarda.

Entorn de treball de preparació

Els models d'IA d'avantguarda tenen el potencial de beneficiar tota la humanitat, però també plantegen riscos cada cop més greus. Per gestionar aquests riscos a mesura que els models d'IA continuen millorant, estem desenvolupant un Entorn de treball de preparació, que aprofundeix el nostre enfocament proactiu i basat en el risc per al desenvolupament responsable de models d'avantguarda, especialment en relació amb els riscos catastròfics.

L'Entorn de treball de preparació detallarà el nostre enfocament per desenvolupar avaluacions rigoroses de les capacitats dels models d'avantguarda i el seu seguiment, així com per establir una estructura de governança per a la rendició de comptes i la supervisió al llarg del procés de desenvolupament. Els riscos que preveiem seguir com a part d'aquesta política abasten diverses categories, com ara la ciberseguretat, la persuasió, les amenaces químiques i biològiques, i l'autonomia.

L'Entorn de treball de preparació també preveurà un espectre d'accions per protegir contra resultats catastròfics. La comprensió empírica del risc catastròfic és incipient i evoluciona ràpidament. Per tant, actualitzarem de manera dinàmica la nostra avaluació dels nivells actuals de risc dels models d'avantguarda per assegurar que reflectim la nostra comprensió més recent de l'avaluació i el seguiment. Estem creant un equip dedicat (Preparedness) que impulsa aquest esforç, inclosa la realització de la recerca i el seguiment necessaris.

L'Entorn de treball de preparació vol complementar i ampliar el nostre treball existent de mitigació de riscos, que contribueix a la seguretat i l'alineació de nous sistemes molt capaços, tant abans com després del desplegament. Aquests esforços existents inclouen el treball del nostre equip Safety Systems per dur a terme recerca i crear solucions sistemàtiques per garantir que els nostres millors models es puguin desplegar de manera segura, i el nostre equip Superalignment, que se centra en els reptes d'aprenentatge automàtic d'alinear sistemes d'IA superintel·ligents amb la intenció humana.

També inclouen una Deployment Safety Board (DSB) conjunta amb Microsoft, que aprova les decisions de qualsevol de les parts de desplegar models per sobre d'un determinat llindar de capacitat. La DSB se centra específicament en les decisions de desplegament més que no pas en passos anteriors, com ara decidir si s'han d'entrenar o no models d'una determinada escala o nivell de capacitat. Té algunes de les característiques que sovint es debaten en el context de les polítiques d'escalat responsable, com ara un enfocament en els sistemes més capaços, un fort èmfasi en les proves adversàries i una consideració explícita de l'alineació. Hem après lliçons valuoses de la revisió de la DSB de GPT‑4, que va ser el primer desplegament elegible, i utilitzarem aquestes lliçons per orientar el disseny i la implementació de l'Entorn de treball de preparació. Tant la DSB com l'Entorn de treball de preparació, i els seus respectius rols, poden evolucionar amb el temps a mesura que aprenguem més sobre els riscos i les mitigacions.

Nota: Ens referim a la nostra política com a Entorn de treball de preparació en lloc de Responsible Scaling Policy perquè podem experimentar augments dràstics de capacitat sense un augment significatiu d'escala, per exemple, mitjançant millores algorítmiques. L'Entorn de treball de preparació regula el nostre desenvolupament de models d'avantguarda cada vegada més capaços, independentment de si aquests augments de capacitat provenen de l'escala, de millores algorítmiques o d'altres optimitzacions.

Recerca i inversió prioritàries en riscos socials, de seguretat i protecció

Necessitem avenços científics, preparació social i sistemes de seguretat avançats per controlar i integrar sistemes d'IA molt més intel·ligents que nosaltres. Estem invertint en aquests avenços creant dos equips nous: Superalignment i Preparedness, i invertint encara més en els nostres sistemes de seguretat.

Les nostres tècniques actuals per alinear la IA, com ara l'aprenentatge per reforç a partir de la retroacció humana, depenen de la capacitat humana de supervisar la IA. Però aquestes tècniques no funcionaran per a la superintel·ligència, perquè els humans no podran supervisar de manera fiable sistemes d'IA molt més intel·ligents que nosaltres. Ens hem fixat l'objectiu de resoldre aquest problema en quatre anys invertint en un nou equip anomenat Superalignment⁠, codirigit per Ilya Sutskever (cofundador i científic en cap d'OpenAI) i Jan Leike (director d'Alignment). El nostre objectiu és construir un investigador automatitzat d'alineació proper al nivell humà i utilitzar una gran quantitat de capacitat de càlcul per ampliar els nostres esforços per alinear la superintel·ligència. Tenim previst dedicar a aquest esforç el 20% de la capacitat de càlcul que havíem assegurat el juny de 2023. L'equip compartirà àmpliament els resultats per contribuir també a l'alineació i la seguretat de models que no són d'OpenAI.

Més enllà del repte d'alinear la superintel·ligència, creiem que poden sorgir riscos cada cop més greus del possible ús indegut de models d'avantguarda cada vegada més capaços. Estem creant un nou equip dedicat anomenat Preparedness per identificar, fer seguiment i preparar-nos per a aquests riscos. Tenim la intenció de fer seguiment dels riscos d'avantguarda, incloent-hi la ciberseguretat, la CBRN, la persuasió i la replicació i adaptació autònomes, i compartir accions per protegir contra els impactes del risc catastròfic. Com que la comprensió empírica del risc catastròfic és incipient, actualitzarem de manera iterativa la nostra avaluació dels nivells actuals de risc dels models d'avantguarda per assegurar que reflectim la nostra comprensió més recent de l'avaluació i el seguiment.

Continuem invertint en ciberseguretat i en salvaguardes contra amenaces internes per protegir els pesos de models propietaris i no publicats. Hem posat en marxa el Cybersecurity Grant Program i el programa Bug Bounty d'OpenAI per coordinar investigadors afins que treballen per a la nostra seguretat col·lectiva. El Cybersecurity Grant Program és una iniciativa d'1 milió de dòlars per impulsar i quantificar les capacitats de ciberseguretat potenciades per IA i fomentar un debat d'alt nivell sobre IA i ciberseguretat. També convidem el públic a informar de vulnerabilitats, errors o fallades de seguretat que descobreixin en els nostres sistemes. El programa Bug Bounty d'OpenAI ens permet reconèixer i recompensar les valuoses aportacions de les persones que contribueixen a mantenir segura la nostra tecnologia i la nostra empresa.

Avaluacions de models i equip vermell

Avaluem la seguretat de cada nou model principal que publiquem, també amb l'ús d'equip vermell. Per exemple, abans de publicar GPT‑4, red teamers externs van posar a prova el model per als següents riscos d'avantguarda: (1) ajuda al desenvolupament d'armes nuclears, radiològiques, biològiques i químiques (CBRN), (2) augment del risc cibernètic, (3) riscos derivats de l'ús d'eines i (4) capacitats d'autoreplicació. Com a part del nostre equip vermell de DALL-E 3, dins de l'abast dels nostres compromisos voluntaris, vam sotmetre el model a equip vermell per la seva capacitat de proporcionar informació visual necessària per desenvolupar, adquirir o dispersar CBRN.

També hem compartit una convocatòria oberta per a una xarxa d'equip vermell d'OpenAI⁠ per convidar públicament experts de domini interessats a millorar la seguretat dels models d'OpenAI a unir-se als nostres esforços d'equip vermell.

CBRN. Determinades capacitats dels LLM poden tenir un potencial d'ús dual, cosa que significa que els models es poden utilitzar tant per a aplicacions comercials com militars o de proliferació. Vam sotmetre GPT‑4 a proves d'estrès, proves de límits i equip vermell en quatre àmbits d'ús dual per explorar si els nostres models podien proporcionar la informació necessària a proliferadors que busquessin desenvolupar, adquirir o dispersar CBRN. Vam constatar que, per si sol, l'accés a GPT‑4 és una condició insuficient per a la proliferació, però que podria alterar la informació disponible per als proliferadors, especialment en comparació amb les eines de cerca tradicionals. Els red teamers van seleccionar un conjunt de preguntes per donar tant a GPT‑4 com als motors de cerca tradicionals, i van trobar que el temps fins a completar la recerca es reduïa quan s'utilitzava GPT‑4. En alguns casos, el procés de recerca es va escurçar diverses hores sense sacrificar l'exactitud de la informació. Per tant, vam concloure que un factor clau de risc és la capacitat de GPT‑4 per generar informació d'accés públic però difícil de trobar, escurçant el temps que els usuaris dediquen a la recerca i recopilant aquesta informació d'una manera entenedora per a un usuari no expert. Abans de publicar DALL-E 3, vam avaluar com la generació de text a imatge canviava el perfil de risc posant a prova la capacitat del model de generar diagrames i instruccions visuals per produir i adquirir informació relacionada amb riscos CBRN. De manera similar a GPT‑4, vam dur a terme proves internes i externes de DALL-E 3, en què vam provar internament els riscos del model i vam proporcionar accés anticipat a experts externs d'una sèrie de sectors per ajudar a analitzar els sistemes per cartografiar i avaluar riscos. Vam sotmetre DALL·E 3 a equip vermell en quatre àmbits d'ús dual per explorar si podia proporcionar la informació necessària per desenvolupar, adquirir o dispersar CBRN. Els red teamers van trobar un risc mínim en aquestes àrees a causa d'una combinació d'inexactitud en aquestes matèries, negatives i la necessitat general de més accés i «ingredients» necessaris per a una proliferació reeixida.

Capacitats cibernètiques. També vam avaluar la capacitat de GPT‑4 de ser utilitzat per al descobriment i l'explotació de vulnerabilitats, així com per a l'enginyeria social. Per posar a prova la capacitat del model d'ajudar en el descobriment, l'avaluació i l'explotació de vulnerabilitats informàtiques, vam contractar experts externs en ciberseguretat que van trobar que GPT‑4 podia explicar algunes vulnerabilitats si el codi font era prou petit per cabre a la finestra de context del model, però que GPT‑4 rendia malament a l'hora de construir exploits per a les vulnerabilitats identificades. Per provar les capacitats d'enginyeria social, experts d'equip vermell van provar si GPT‑4 representava una millora respecte de les eines actuals en tasques rellevants com la identificació d'objectius, el spear phishing i el phishing d'esquer i canvi. Van trobar que el model no era una millora llesta per usar de les capacitats actuals d'enginyeria social, ja que tenia dificultats amb tasques factuals com enumerar objectius i aplicar informació recent per produir contingut de phishing més eficaç. Tanmateix, amb el coneixement previ adequat sobre un objectiu, GPT‑4 era eficaç a l'hora de redactar contingut realista d'enginyeria social. A partir d'aquestes conclusions, vam aplicar un entrenament posterior a l'entrenament previ a GPT‑4 perquè rebutgés sol·licituds malicioses de ciberseguretat, i vam ampliar els nostres sistemes interns de seguretat, incloent-hi el seguiment, la detecció i la resposta.

Autoreplicació. Abans de publicar GPT‑4, també vam facilitar una avaluació preliminar del model per part de l'Alignment Research Center (ARC) sobre la capacitat del model de dur a terme accions per autoreplicar-se i reunir recursos de manera autònoma. Vam concedir a ARC accés anticipat als models com a part del nostre equip vermell perquè el seu equip pogués avaluar els riscos de comportament orientat al poder. La forma específica de recerca de poder que ARC va avaluar era la capacitat del model d'autoreplicar-se i adquirir recursos de manera autònoma. ARC va trobar que les primeres versions de GPT‑4 eren ineficaces en una tasca d'autoreplicació autònoma en els experiments preliminars que van dur a terme. Per tant, van concloure que era poc probable que el model fos capaç d'autoreplicar-se de manera autònoma.

Informes sobre models i intercanvi d'informació

La transparència és un element important per construir sistemes d'IA responsables. Una part clau del nostre enfocament de la rendició de comptes és publicar un document que actualment anomenem fitxa del model, per als nous sistemes d'IA que despleguem. Les nostres fitxes del model tenen com a objectiu informar els lectors sobre factors clau que afecten el comportament del sistema, especialment en àrees pertinents per a un ús responsable, i s'inspiren en treballs de recerca previs sobre fitxes de models i de sistemes. Abans d'assumir els compromisos voluntaris, OpenAI havia publicat dues fitxes del model: la GPT‑4 System Card i la DALL-E 2 System Card. Des d'aleshores, vam publicar una fitxa del model abans de llançar DALL-E 3 a ChatGPT, la nostra primera gran publicació pública d'un nou model des que vam signar els compromisos voluntaris. En els esforços continus per publicar la nostra tecnologia de manera responsable, també vam publicar una fitxa del model per a les capacitats de visió de GPT‑4 abans de posar-les a disposició a ChatGPT.

Estructura d'informes de vulnerabilitats trobades després del llançament del model

Des que vam assumir els compromisos voluntaris, hem iniciat un grup de treball dins del Frontier Model Forum per crear un mecanisme de divulgació responsable de capacitats perilloses entre laboratoris d'IA. Aquest mecanisme tindrà com a objectiu permetre la divulgació confidencial de riscos significatius identificats en models d'avantguarda entre laboratoris d'avantguarda i altres laboratoris d'IA. El nostre enfocament inicial abasta àmbits relacionats amb la seguretat nacional, com ara les capacitats químiques, biològiques, radiològiques i nuclears (CBRN), juntament amb altres capacitats perilloses com l'autoreplicació, l'engany i la manipulació. Els mètodes de divulgació inclouran avaluacions, informació derivada d'exercicis d'equip vermell i altres proves d'amenaces comunes entre els membres dels laboratoris en àrees en què una divulgació més àmplia presentaria riscos significatius.

També vam anunciar el programa Bug Bounty d'OpenAI com una manera de reconèixer i recompensar les persones que informen de vulnerabilitats de seguretat en els nostres sistemes. Les nostres recompenses van des de 200 $ per troballes de baixa gravetat fins a 20.000 $ per descobriments excepcionals. Ens hem associat amb Bugcrowd, una plataforma líder de bug bounty, per crear un procés d'enviament i recompensa, disponible a la pàgina del programa Bug Bounty⁠(s'obre en una finestra nova).

Seguiment posterior al desplegament de patrons d'ús indegut

Treballem intensament per prevenir els riscos previsibles abans del desplegament. Tanmateix, també hi ha límits al que qualsevol persona pot aprendre en un laboratori. Fins i tot després d'una recerca i unes proves exhaustives, no podem predir totes les maneres beneficioses en què la gent utilitzarà la nostra tecnologia, ni totes les maneres en què la poden fer servir indegudament. Desenvolupar la capacitat de detectar i abordar ràpidament riscos imprevistos és una prioritat molt alta per a nosaltres, ja que aquesta capacitat és una salvaguarda crítica per als sistemes d'avantguarda, en què no tots els riscos es poden anticipar completament. Desenvolupem mesures internes dissenyades per detectar tipus inesperats d'ús indegut, tenim processos per respondre-hi i utilitzem els aprenentatges per millorar les nostres polítiques d'ús, els sistemes de seguretat i les sortides del model. Després de llançar un sistema, fem una investigació proactiva, un seguiment i una revisió dels informes rebuts per detectar abusos o riscos imprevistos. Després, pretenem abordar ràpidament i de manera iterativa els problemes detectats mitjançant solucions polítiques i tècniques. Continuem ampliant les nostres operacions i reduint el temps de resposta.

Controls de seguretat, inclosa la protecció dels pesos del model

Dediquem recursos significatius a la protecció de la tecnologia, la propietat intel·lectual i les dades d'OpenAI.

Despleguem els nostres models d'IA més potents com a serveis. No distribuïm els pesos d'aquests models fora d'OpenAI i del nostre soci tecnològic Microsoft, i proporcionem accés de tercers als nostres models més capaços mitjançant API perquè els pesos del model, el codi font i altra informació sensible romanguin sota control.

També implementem mesures tècniques, administratives i organitzatives comercialment raonables dissenyades per evitar la pèrdua d'informació personal, el seu ús indegut i l'accés no autoritzat. Això inclou sotmetre el nostre programa de seguretat a auditories de tercers, inclosa la SOC 2 Type 2. També hem iniciat un programa Bug Bounty que convida investigadors independents a informar de vulnerabilitats en els nostres sistemes a canvi de recompenses econòmiques. El nostre Portal de confiança permet als clients i a altres parts interessades revisar els nostres controls de seguretat i informes d'auditoria. Com a part dels nostres esforços de ciberseguretat, duem a terme regularment proves internes i de tercers de penetració, i auditem la idoneïtat i l'eficàcia dels nostres controls de seguretat.

Identificadors de material generat per IA

Estem desenvolupant un enfocament tècnic de procedència per ajudar a identificar continguts audiovisuals creats pels nostres models. Un cop aquest enfocament estigui desenvolupat, el desplegarem àmpliament en els nostres nous sistemes d'avantguarda. Estem avaluant una gamma de tècniques de procedència, cadascuna amb avantatges i inconvenients diferenciats, que es divideixen a grans trets en tres grups: marques d'aigua, classificadors i enfocaments basats en metadades.

Des que vam assumir els nostres compromisos voluntaris, hem estat investigant i provant un classificador de procedència per ajudar-nos a identificar si una imatge va ser generada o no per DALL·E 3. Actualment ho estem avaluant internament i vam proporcionar una actualització pública com a part del llançament de DALL·E 3.

Controls d'entrada de dades i auditoria

Els grans models de llenguatge d'OpenAI, inclosos els models que impulsen ChatGPT, es desenvolupen utilitzant tres fonts principals d'informació: (1) informació que està disponible públicament a internet, (2) informació que obtenim amb llicència de tercers i (3) informació que proporcionen els nostres usuaris o els nostres entrenadors humans.

La gran majoria de les nostres dades d'entrenament provenen d'informació disponible públicament que es troba de manera lliure i oberta a Internet; per exemple, no busquem informació darrere de murs de pagament ni de la «web profunda». Apliquem filtres i eliminem determinades dades de les quals no volem que els nostres models aprenguin ni generin, com ara discurs d'odi, contingut per a adults, llocs que principalment agreguen informació personal i correu brossa.

També hem implementat mesures perquè creadors, titulars de drets i operadors de llocs web puguin expressar les seves preferències pel que fa a l'entrenament d'IA respecte al contingut que posseeixen o controlen. Per exemple, OpenAI ha implementat un mètode senzill perquè els operadors de llocs web excloguin el seu contingut de l'accés del rastrejador web «GPTBot» d'OpenAI, basant-se en l'estàndard web robots.txt. De manera similar, OpenAI ha documentat la cadena d'agent d'usuari («ChatGPT‑user») utilitzada per ChatGPT i els connectors de ChatGPT per accedir a llocs web, de manera que els operadors dels llocs també en puguin bloquejar l'accés per a aquests fins. Oferim instruccions en línia sobre com impedir l'accés de qualsevol dels dos bots als llocs. També oferim un formulari d'autoservei⁠(s'obre en una finestra nova) perquè els creadors d'imatges excloguin el seu contingut de l'entrenament dels nostres futurs models de generació d'imatges DALL-E.