Respuesta de OpenAI para mitigar los riesgos de la IA de frontera
Actualización sobre la Cumbre de Seguridad de la IA del Reino Unido
El 21 de julio de 2023, OpenAI se unió a otros laboratorios de IA líderes para adoptar una serie de compromisos voluntarios con el fin de promover la seguridad y la fiabilidad de la IA. Estos compromisos cubren varias áreas de riesgo, especialmente los riesgos de los modelos de frontera, que serán el tema central de la próxima Cumbre de Seguridad de la IA.
En esta actualización, describimos cómo hemos avanzado en el cumplimiento de estos compromisos voluntarios y explicamos con detalle nuestra respuesta para mitigar los riesgos de los modelos de frontera, por ejemplo, mediante el desarrollo en curso de un marco de preparación.
El 3 de octubre de 2023 hicimos pública la tarjeta del sistema de nuestro modelo de texto a imagen DALL·E 3, lo que supone el primer gran lanzamiento público de un nuevo modelo de frontera bajo el marco de nuestros compromisos voluntarios. De conformidad con nuestra misión y compromisos voluntarios, hemos llevado a cabo tareas de seguridad críticas, entre otras, una evaluación de la seguridad previa al despliegue y pruebas de equipos rojos. Además, estamos desarrollando nuevos métodos para permitir que los usuarios rastreen la procedencia del contenido generado por IA, y seguimos invirtiendo en prácticas responsables mediante el despliegue de capacidades de análisis de voz e imagen en ChatGPT.
También hemos cumplido nuestro compromiso voluntario de «crear o unirnos a un foro o mecanismo a través del cual [podamos] desarrollar, avanzar y adoptar normas comunes y buenas prácticas para la seguridad de la IA de frontera» al convertirnos en cofundadores del Frontier Model Forum. Este nuevo organismo, que fundamos con Microsoft, Google DeepMind y Anthropic, es un lugar donde podemos seguir avanzando en la investigación de la seguridad de la IA y promover prácticas responsables para el desarrollo de sistemas de IA de frontera.
Los modelos de IA de frontera tienen el potencial de beneficiar a toda la humanidad, pero también plantean riesgos cada vez mayores. Para gestionar estos riesgos a medida que los modelos de IA siguen mejorando, estamos desarrollando un marco de preparación, que profundiza en nuestro enfoque proactivo para desarrollar un modelo de frontera responsable, sobre todo en lo que respecta a los riesgos catastróficos.
El marco de preparación definirá nuestro planteamiento para desarrollar evaluaciones rigurosas de las capacidades de los modelos de frontera y su seguimiento, y permitirá establecer una estructura de gobernanza con el fin de asegurar la rendición de cuentas y la supervisión en todo el proceso de desarrollo. Como parte de esta política, los riesgos que pretendemos rastrear abarcan diversas categorías, como la ciberseguridad, la persuasión, las amenazas químicas y biológicas, y la autonomía.
El marco de preparación también incluirá un conjunto de medidas para protegernos de resultados catastróficos. La comprensión empírica del riesgo catastrófico es muy reciente y cambia con rapidez. Por ello, actualizaremos constantemente nuestra evaluación de los niveles actuales de riesgo del modelo de frontera para reflejar lo que vamos aprendiendo en materia de evaluación y supervisión. Estamos estableciendo un equipo específico (Preparación) para dirigir este esfuerzo mediante las labores necesarias de investigación y supervisión.
El marco de preparación pretende complementar y ampliar nuestro trabajo actual de mitigación de riesgos, que contribuye a la seguridad y la alineación de nuevos sistemas de alta capacidad, tanto antes como después de su desarrollo. Entre las iniciativas vigentes está el trabajo de nuestro equipo de Sistemas de Seguridad para investigar y crear soluciones sistemáticas que garanticen el despliegue seguro de nuestros mejores modelos, así como la labor del equipo de Superalineación, que se centra en los retos de aprendizaje automático al alinear sistemas de IA superinteligentes con la voluntad humana.
Cabe destacar además la labor de la Junta de Seguridad de Despliegue (DSB) junto con Microsoft, responsable de aprobar las decisiones de ambas partes a la hora de desplegar modelos por encima de una capacidad determinada. Dicha junta se dedica específicamente a las decisiones de despliegue y no tanto a los pasos previos, como si se entrenan o no modelos de una determinada escala o nivel de capacidad. Cuenta con algunas funciones que suelen abordarse en las políticas de escalado responsable, como el enfoque en los sistemas de mayor capacidad, un gran énfasis en las pruebas adversas y la consideración explícita de la alineación. Gracias a la revisión que la DSB realizó de GPT‑4, nuestro primer despliegue elegible, extrajimos grandes lecciones que aprovecharemos para diseñar y aplicar el marco de preparación. Tanto la junta como el marco, y sus respectivas funciones, podrían evolucionar a medida que aprendemos más sobre los riesgos y las medidas de mitigación.
Nota: Nos referimos a nuestra política como un marco de preparación en lugar de una política de escalado responsable porque es posible observar un aumento drástico de la capacidad sin que crezca significativamente la escala, por ejemplo, a través de mejoras algorítmicas. El marco de preparación rige nuestro desarrollo de modelos de frontera con mayor capacidad, independientemente de si esas capacidades se derivan de la escala, de mejoras algorítmicas o de otras optimizaciones.
Necesitamos avances científicos, que la sociedad esté preparada y sistemas de seguridad avanzados para controlar e integrar sistemas de IA mucho más inteligentes que nosotros. Estamos invirtiendo en dichos avances mediante la creación de dos nuevos equipos: el de Superalineación y el de Preparación, además de seguir invirtiendo en sistemas de seguridad.
Nuestras tecnologías actuales para alinear la IA, como el aprendizaje de refuerzo mediante la retroalimentación humana, dependen de la capacidad humana para supervisar la IA. Sin embargo, estas técnicas no servirán en el caso de la superinteligencia, puesto que no podremos supervisar de forma fiable los sistemas de IA que sean mucho más inteligentes que nosotros. Nos hemos propuesto resolver este problema dentro de un plazo de cuatro años invirtiendo en un nuevo equipo, Superalineación, codirigido por Ilya Sutskever (cofundador y científico jefe de OpenAI) y Jan Leike (director de Alineación). Nuestro objetivo es crear un investigador de alineación automatizada con un nivel prácticamente humano y utilizar una gran cantidad de computación con el fin de ampliar nuestros esfuerzos para alinear la superinteligencia. Tenemos previsto dedicar a este esfuerzo el 20 % de la computación que teníamos garantizada hasta junio de 2023. El equipo compartirá los resultados con terceros para contribuir a la alineación y a la seguridad de modelos no vinculados a OpenAI.
Más allá del reto de alinear la superinteligencia, creemos que la posibilidad de que los modelos de frontera con una capacidad cada vez mayor se puedan utilizar indebidamente puede plantear riesgos graves. Por ello, estamos creando un nuevo equipo especializado, Preparación, cuya finalidad será identificar y rastrear estos riesgos y prepararnos para hacerles frente. Nuestro objetivo es realizar un seguimiento de los riesgos de frontera, como la ciberseguridad, las armas QBRN, la persuasión, y la replicación y adaptación autónomas, así como compartir medidas que nos protejan de las consecuencias de los riesgos catastróficos. Puesto que la comprensión empírica del riesgo catastrófico es muy reciente, actualizaremos constantemente nuestra evaluación de los niveles actuales de riesgo del modelo de frontera para reflejar lo que vayamos aprendiendo en materia de evaluación y supervisión.
Seguimos invirtiendo en ciberseguridad y en medidas contra amenazas internas para proteger las ponderaciones de los modelos patentados y no publicados. Hemos lanzado el programa de subvenciones para ciberseguridad y el programa Bug Bounty de OpenAI para coordinar a investigadores con ideas afines que trabajan para proteger nuestra seguridad colectiva. El programa de subvenciones para ciberseguridad pretende destinar un millón de dólares a impulsar y cuantificar las capacidades de ciberseguridad potenciadas mediante IA y promover un discurso de alto nivel sobre la IA y la ciberseguridad. También pedimos al público general que notifique cualquier vulnerabilidad, error o fallo de seguridad que detecte en nuestros sistemas. El programa Bug Bounty de OpenAI nos permite reconocer y recompensar el esfuerzo de quienes contribuyen a mantener la seguridad de nuestra tecnología y empresa.
Evaluamos la seguridad de los principales modelos que lanzamos, por ejemplo, mediante los equipos rojos. Así, antes del lanzamiento público de GPT‑4, un equipo rojo externo probó el modelo para detectar los siguientes riesgos de frontera: 1) ayuda al desarrollo de armas químicas, biológicas, radiológicas y nucleares (QBRN), 2) aumento del riesgo cibernético, 3) riesgos derivados del uso de herramientas y 4) capacidades de autorreplicación. Como parte de nuestro equipo rojo de DALL·E 3, pusimos a prueba la capacidad del modelo para proporcionar la información visual necesaria para crear, adquirir o distribuir QBRN en el marco de nuestros compromisos voluntarios.
También hemos publicado una convocatoria abierta para crear una red de equipos rojos de OpenAI, en la que invitamos a expertos interesados en mejorar la seguridad de los modelos de OpenAI a unirse a la labor de nuestro equipo rojo.
QBRN. Algunas capacidades del LLM podrían tener un doble uso, es decir, los modelos podrían utilizarse tanto para aplicaciones comerciales como militares o de proliferación. Sometimos a GPT‑4 a pruebas de estrés, de límites y del equipo rojo en cuatro dominios de doble uso para comprobar si nuestros modelos podrían proporcionar la información necesaria a quienes pretenden crear, adquirir o distribuir QBRN. Descubrimos que el mero acceso a GPT‑4 no es suficiente para contribuir a la proliferación, pero podría modificar la información de la que disponen quienes pretenden fomentarla, especialmente si lo comparamos con herramientas de búsqueda tradicionales. Los miembros del equipo rojo seleccionaron un conjunto de preguntas tanto para GPT‑4 como para los motores de búsqueda tradicionales, y descubrieron que el tiempo necesario para completar la búsqueda era menor con GPT‑4. En algunos casos, esto significaba ahorrar varias horas en el proceso de investigación sin sacrificar la precisión de la información. Por lo tanto, llegamos a la conclusión de que la capacidad de GPT‑4 para generar información que, si bien es de acceso público, es difícil de encontrar, es un factor de riesgo clave, ya que reduce el tiempo de búsqueda y presenta la información de forma que un usuario no experto pueda comprenderla. Antes de lanzar DALL·E 3, evaluamos cómo la generación de texto a imagen cambiaba el perfil de riesgo poniendo a prueba la capacidad del modelo a la hora de generar diagramas e instrucciones visuales para producir y recopilar información relacionada con los riesgos de armas QBRN. Al igual que con GPT‑4, sometimos a DALL·E 3 a pruebas internas y externas: comprobamos internamente los riesgos del modelo y facilitamos a expertos externos de diversos sectores acceso anticipado al sistema para que nos ayudaran a analizarlo con el fin de detectar y evaluar los riesgos. El equipo rojo sometió a DALL·E 3 a pruebas en cuatro dominios de doble uso para comprobar si podía proporcionar la información necesaria para crear, adquirir o distribuir armas QBRN. Los miembros del equipo rojo detectaron un riesgo mínimo en estas áreas debido a una combinación de imprecisiones, denegaciones y a la necesidad general de disponer de un mayor acceso y de los «ingredientes» necesarios para el éxito de la proliferación.
Capacidades cibernéticas. También evaluamos la capacidad de GPT‑4 para descubrir y explotar vulnerabilidades, así como para la ingeniería social. Con el fin de poner a prueba la capacidad del modelo a la hora de descubrir, evaluar y explotar vulnerabilidades informáticas, contratamos a expertos externos en ciberseguridad, que llegaron a la conclusión de que GPT‑4 podía explicar algunas vulnerabilidades si el código fuente era lo suficientemente pequeño como para caber en la ventana contextual del modelo, pero que su rendimiento no era adecuado para crear exploits de las vulnerabilidades identificadas. En cuanto a la comprobación de las capacidades de ingeniería social, los expertos del equipo rojo evaluaron si GPT‑4 representaba una mejora con respecto a las herramientas actuales en tareas como la identificación de objetivos, el spear phishing y el phishing de señuelo y cambio. Concluyeron que el modelo no estaba preparado para mejorar dichas capacidades, ya que tenía dificultades para realizar tareas como la enumeración de objetivos y la utilización de información reciente para producir contenidos de phishing más eficaces. Sin embargo, cuando disponía de información contextual adecuada sobre un objetivo, GPT‑4 podía redactar con éxito contenido realista de ingeniería social. Basándonos en estas conclusiones, volvimos a entrenar a GPT‑4 para que rechazara solicitudes de ciberseguridad maliciosas y ampliamos nuestros sistemas internos de seguridad en áreas como la supervisión, la detección y la respuesta.
Autorreplicación. Antes de lanzar GPT‑4, también encargamos a Alignment Research Center (ARC) que llevara a cabo una evaluación preliminar de la capacidad del modelo para realizar acciones de replicación autónoma y recopilación de recursos. Dimos a ARC acceso anticipado a los modelos como parte de nuestro equipo rojo para que pudiera evaluar los riesgos de búsqueda de poder. ARC evaluó específicamente la capacidad del modelo para replicarse de forma autónoma y recopilar recursos. Según los experimentos preliminares de ARC, las primeras versiones de GPT‑4 no eran eficaces en tareas de replicación autónoma. Por consiguiente, concluyó que era poco probable que el modelo pudiera replicarse de forma autónoma.
La transparencia es un elemento vital para crear sistemas de IA responsables. Una parte importante de nuestro enfoque de responsabilidad consiste en publicar un documento, que actualmente denominamos tarjeta del sistema, para todos los sistemas de IA que desplegamos. Nuestras tarjetas de sistema pretenden informar a los lectores sobre los factores clave que influyen en el comportamiento del sistema, especialmente en áreas relacionadas con el uso responsable. Se basan en investigaciones previas de tarjetas del sistema y modelos. Antes de adoptar los compromisos voluntarios, OpenAI había publicado dos tarjetas del sistema: la de GPT‑4 y la de DALL·E 2. Desde entonces, hemos publicado una tarjeta del sistema antes de lanzar DALL·E 3 en ChatGPT, nuestro mayor lanzamiento público de un nuevo modelo desde que firmamos dichos compromisos. En nuestro esfuerzo incesante por lanzar nuestra tecnología de forma responsable, también publicamos una tarjeta del sistema para las capacidades de visión de GPT‑4 antes de que estuviera disponible en ChatGPT.
Desde que adoptamos nuestros compromisos voluntarios, hemos puesto en marcha un grupo de trabajo dentro del Frontier Model Forum con el fin de crear un mecanismo de notificación responsable de capacidades peligrosas entre los laboratorios de IA. El objetivo de este mecanismo es permitir que los laboratorios de frontera y otros laboratorios de IA compartan de forma confidencial los principales riesgos que detecten en los modelos de frontera. Nuestro enfoque inicial engloba dominios relacionados con la seguridad nacional, como capacidades QBRN, y otras capacidades peligrosas como la autorreplicación, el engaño y la manipulación. Entre los métodos de divulgación se incluyen evaluaciones, información sobre los ejercicios del equipo rojo y otras pruebas de amenazas comunes que se compartirán entre los miembros de los laboratorios en áreas en las que una divulgación más amplia plantearía grandes riesgos.
También anunciamos el programa Bug Bounty de OpenAI para reconocer y recompensar a las personas que informen sobre vulnerabilidades de seguridad en nuestros sistemas. Nuestras recompensas van desde 200 $ para hallazgos de poca gravedad hasta 20 000 $ para casos excepcionales. Nos hemos asociado con Bugcrowd, una de las principales plataformas de recompensas por fallos, para crear un proceso de notificación y recompensa al que se puede acceder en la página del programa Bug Bounty(se abre en una ventana nueva).
Hacemos todo lo posible por prevenir cualquier riesgo previsible antes de desplegar nuestros sistemas. Sin embargo, lo que se puede aprender en un laboratorio es limitado. Incluso después de llevar a cabo investigaciones y pruebas exhaustivas, no podemos predecir todas las formas en las que se utilizará nuestra tecnología adecuadamente, ni tampoco cómo podrían abusar de ella. Desarrollar la capacidad para detectar y abordar con rapidez riesgos no previstos es nuestra prioridad, ya que esta capacidad es una protección esencial para los sistemas de frontera, en los que es imposible anticipar todos los riesgos. Diseñamos medidas internas para detectar usos indebidos no previstos, aplicar procesos para responder a ellos y utilizar lo aprendido para mejorar nuestras políticas de uso, sistemas de seguridad y resultados de los modelos. Tras el lanzamiento de un sistema, llevamos a cabo una investigación proactiva y labores de supervisión, y examinamos los informes que recibimos para detectar usos indebidos o riesgos imprevistos. A continuación, intentamos abordar de forma rápida e iterativa los problemas mediante políticas y soluciones técnicas. Seguimos ampliando nuestras operaciones y reduciendo el tiempo de respuesta.
Destinamos una cantidad importante de recursos a proteger la tecnología, la propiedad intelectual y los datos de OpenAI.
Desplegamos nuestros modelos de IA más potentes como servicios. No distribuimos las ponderaciones de dichos modelos fuera de OpenAI y de Microsoft, nuestro socio tecnológico. En el caso de terceros, les proporcionamos acceso a nuestros modelos de mayor capacidad a través de la API para controlar en todo momento las ponderaciones, el código fuente y otra información sensible.
También adoptamos medidas técnicas, administrativas y organizativas razonables desde un punto de vista comercial con el fin de evitar la pérdida, el uso indebido y el acceso no autorizado a información personal, como las auditorías externas de nuestro programa de seguridad, por ejemplo, la SOC 2 tipo 2. Asimismo, hemos puesto en marcha un programa de recompensas por fallos que invita a investigadores independientes a informar de vulnerabilidades en nuestros sistemas a cambio de recompensas en metálico. Nuestro Trust Portal permite a los clientes y a otras partes interesadas revisar nuestros controles de seguridad e informes de auditoría. Como parte de nuestras iniciativas de ciberseguridad, realizamos regularmente pruebas de penetración internas y externas, y auditamos la idoneidad y eficacia de nuestros controles de seguridad.
Estamos desarrollando un enfoque técnico de procedencia para identificar qué contenidos audiovisuales han sido creados por nuestros modelos. Una vez que esté desarrollado, lo desplegaremos en nuestros nuevos sistemas de frontera. Estamos evaluando diversas técnicas de procedencia, cada una con sus pros y contras, divididas en tres grandes grupos: marcas de agua, clasificadores y enfoques basados en metadatos.
Desde que adoptamos nuestros compromisos voluntarios, hemos estado investigando y poniendo a prueba un clasificador de procedencia que nos ayudará a identificar si una imagen ha sido o no generada por DALL·E 3. En estos momentos seguimos evaluándolo internamente e informamos al público al respecto como parte del lanzamiento de DALL·E 3.
Los grandes modelos lingüísticos de OpenAI, entre otros, los modelos que alimentan ChatGPT, se desarrollan utilizando tres fuentes principales de datos: información disponible públicamente en Internet; información que obtenemos de terceros bajo licencia; e información que nos proporcionan nuestros usuarios o entrenadores humanos.
La gran mayoría de nuestros datos de entrenamiento procede de información de dominio público gratuita y disponible en internet, es decir, no buscamos información detrás de muros de pago ni en la «internet profunda». Aplicamos filtros y eliminamos ciertos datos que no queremos que nuestros modelos aprendan ni usen para crear respuestas, como discursos de odio, contenido adulto, páginas que acumulan datos personales y correo no deseado.
También hemos aplicado medidas para permitir que los creadores, titulares de derechos y operadores de sitios web puedan expresar sus preferencias en relación con el entrenamiento de la IA mediante los contenidos que poseen o controlan. Por ejemplo, OpenAI ha establecido un método sencillo para que los operadores de sitios web puedan excluir su contenido del acceso del rastreador web GPTBot de OpenAI, basándose en el estándar web robots.txt. Del mismo modo, OpenAI ha documentado la cadena de agente de usuario que utiliza ChatGPT («ChatGPT‑user») y los plugins de ChatGPT para acceder a sitios web, de modo que los operadores también puedan bloquear el acceso con esos fines. Hemos publicado instrucciones en línea sobre cómo impedir que cualquiera de los bots acceda a los sitios. También contamos con un formulario de autoservicio(se abre en una ventana nueva) para que los creadores de imágenes puedan excluir sus contenidos del entrenamiento de nuestros futuros modelos de generación de imágenes DALL·E.