Publicado: 26 de octubre de 2023

Enfoque de OpenAI para mitigar los riesgos fronterizos

Novedades de la Cumbre sobre Seguridad de la IA en el Reino Unido

Cargando...

El 21 de julio de 2023, OpenAI se asoció a otros laboratorios líderes en IA para asumir una serie de compromisos voluntarios con el fin de promover la seguridad y la confianza de la IA. Estos compromisos abarcaban diversos ámbitos de riesgo, entre los que se incluyen los riesgos fronterizos en los que se centrará la próxima Cumbre sobre Seguridad de la IA.

En esta actualización, describimos el progreso de estos compromisos voluntarios y más detalles sobre nuestro enfoque evolutivo para mitigar los riesgos fronterizos, incluida nuestra labor en curso para desarrollar un marco de preparación.

El 3 de octubre de 2023, publicamos la tarjeta del sistema⁠de nuestro modelo de texto a imagen DALL·E 3⁠, el primer lanzamiento público importante de un modelo fronterizo en el marco de nuestros compromisos voluntarios. Conforme a nuestra misión y los compromisos voluntarios, realizamos un trabajo de seguridad crítico que incluía la evaluación de seguridad previa a la implementación y a los equipos rojos. Además, estamos trabajando en nuevos métodos para que las personas puedan rastrear la procedencia de los medios generados por IA, y hemos seguido invirtiendo en prácticas responsables a través de nuestro desarrollo de capacidades de análisis de voz e imagen en ChatGPT.

También hemos cumplido nuestro compromiso voluntario⁠ para “establecer o unirnos a un foro a través del cual podamos desarrollar, avanzar y adoptar estándares compartidos y mejores prácticas para la seguridad fronteriza de la IA”, mediante la cofundación con Frontier Model Forum. Este nuevo organismo industrial, creado conjuntamente con Microsoft, Google DeepMind y Anthropic, es un lugar de encuentro para avanzar en la investigación sobre la seguridad de la IA y promover prácticas de desarrollo responsables para los sistemas de IA fronterizos.

Marco de preparación

Los modelos de IA fronterizos tienen el potencial de beneficiar a toda la humanidad, pero también plantean riesgos cada vez más graves. Para gestionar estos riesgos a medida que los modelos de IA siguen mejorando, estamos desarrollando un marco de preparación que profundiza nuestro enfoque proactivo y basado en el riesgo del desarrollo responsable de modelos fronterizos, especialmente en relación con los riesgos catastróficos.

El marco de preparación detallará nuestro planteamiento para desarrollar evaluaciones rigurosas de la capacidad y el seguimiento de los modelos fronterizos, así como para establecer una estructura de gobernanza para la rendición de cuentas y la supervisión en todo el proceso de desarrollo. Los riesgos que planeamos seguir como parte de esta política abarcan varias categorías, como la ciberseguridad, la persuasión, las amenazas químicas y biológicas, y la autonomía.

El marco de preparación también establecerá una serie de medidas de protección contra las catástrofes. La comprensión empírica del riesgo catastrófico es incipiente y se desarrolla rápidamente. Por lo cual, estaremos actualizando de forma dinámica nuestra evaluación de los niveles de riesgo de los modelos fronterizos actuales para asegurarnos de reflejar nuestros últimos conocimientos en cuanto a la evaluación y al seguimiento. Estamos creando un equipo dedicado (Preparación) que impulsa este trabajo, incluida la realización de las investigaciones y el seguimiento necesarios.

El marco de preparación pretende complementar y ampliar nuestra labor actual de mitigación de riesgos, que contribuye a la seguridad y a la alineación de sistemas nuevos altamente capaces, tanto antes como después de su implementación. Estos trabajos incluyen la labor del equipo de Sistemas de Seguridad para llevar a cabo investigaciones y crear soluciones sistemáticas con el fin de garantizar que nuestros mejores modelos puedan implementarse de forma segura y la labor del equipo de Superalineación, que se enfoca en los desafíos del aprendizaje automático para alinear sistemas de IA superinteligentes con la intención humana.

También incluyen un Comité de Seguridad de Implementación (Deployment Safety Board, DSB) conjuntamente con Microsoft, que aprueba decisiones por cualquiera de las partes para implementar modelos por encima de un determinado umbral de capacidad. El DSB se enfoca específicamente en las decisiones de implementación y no en los pasos previos, como decidir si se entrenan o no modelos de una determinada escala o nivel de capacidad. Tiene algunas de las funciones que se suelen debatir en el contexto de las políticas de ampliación responsable, como la atención en los sistemas más capaces, un fuerte énfasis en las pruebas adversariales y la consideración explícita de la alineación. Hemos obtenido lecciones valiosas de la revisión del DSB de GPT‑4, que fue la primera implementación admisible, y utilizaremos esas lecciones para informar el diseño y la implementación del marco de preparación. Tanto el DSB como el marco de preparación y sus respectivas funciones pueden evolucionar con el tiempo a medida que conozcamos mejor los riesgos y las medidas de mitigación.

Nota: Hacemos referencia a nuestra política del marco de preparación en lugar de una política de ampliación responsable porque podemos experimentar aumentos extraordinarios de la capacidad sin un aumento significativo de la escala, por ejemplo, mediante mejoras algorítmicas. El marco de preparación dirige nuestro desarrollo de modelos fronterizos cada vez más capaces, independientemente de si esas capacidades crecientes proceden de la escala, de mejoras algorítmicas o de otras optimizaciones.

Investigación e inversión prioritarias en riesgos sociales, de seguridad y protección

Necesitamos avances científicos, preparación de la sociedad y sistemas avanzados de seguridad para controlar e integrar sistemas de IA mucho más inteligentes que nosotros. Estamos invirtiendo en estos avances mediante la creación de dos equipos nuevos: los equipos de Superalineación y Preparación, y más inversión en nuestros sistemas de seguridad.

Las técnicas actuales para alinear la IA, como el aprendizaje por refuerzo a partir de opiniones humanas, dependen de la capacidad humana para supervisar la IA. Sin embargo, estas técnicas no servirán para la superinteligencia, ya que los humanos seremos incapaces de supervisar de forma fiable sistemas de IA mucho más inteligentes que nosotros. Hemos fijado un objetivo para solucionar este problema dentro de cuatro años mediante la inversión en un nuevo equipo llamado Superalineación⁠, codirigido por Ilya Sutskever (cofundador y director científico de OpenAI) y Jan Leike (responsable de Alineación). Nuestro objetivo es crear un investigador de alineación automática de nivel casi humano y utilizar una gran cantidad de computación para escalar nuestros esfuerzos para alinear la superinteligencia. Tenemos proyectado dedicar a este esfuerzo el 20 % de la computación que habíamos asegurado para junio de 2023. El equipo compartirá los resultados ampliamente para contribuir también a la alineación y a la seguridad de modelos que no son de OpenAI.

Además del desafío de alinear la superinteligencia, creemos que pueden surgir riesgos cada vez más graves del posible mal uso de modelos fronterizos cada vez más capaces. Estamos creando un nuevo equipo especializado, llamado Preparación, para identificar estos riesgos, realizar un seguimiento de ellos y prepararnos. Tenemos la intención de seguir los riesgos fronterizos, que incluyen la ciberseguridad, NRBQ, la persuasión, la réplica y la adaptación autónomas, y compartir medidas para protegerse de los impactos del riesgo catastrófico. Dado que la comprensión empírica del riesgo catastrófico es incipiente, actualizaremos de forma dinámica nuestra evaluación de los niveles de riesgo de los modelos fronterizos actuales para asegurarnos de reflejar nuestros últimos conocimientos en cuanto a la evaluación y al seguimiento.

Seguimos invirtiendo en ciberseguridad y en medidas de protección contra amenazas internas para proteger los modelos patentados y no publicados. Hemos lanzado el Programa de subvenciones de ciberseguridad y el programa de recompensa por detección de errores Bug Bounty Program de OpenAI para coordinar a investigadores con ideas afines que trabajan por nuestra seguridad colectiva. El programa de subvenciones de ciberseguridad es una iniciativa de un millón de dólares para promover y cuantificar las capacidades de ciberseguridad impulsadas por IA y fomentar un discurso de alto nivel sobre IA y ciberseguridad. Esta es una invitación para que reporten las vulnerabilidades, errores y fallas de seguridad que detecten en nuestros sistemas. El programa Bug Bounty Program de OpenAI es una forma de agradecer y premiar a los investigadores de seguridad por la información estratégica e invaluable que aportan para proteger nuestra tecnología y empresa.

Evaluaciones de modelos y equipos rojos

Evaluamos la seguridad de cada uno de los principales modelos que se lanzan al mercado, incluido el uso de equipos rojos. Por ejemplo, antes de dar a conocer públicamente el GPT‑4, equipos externos de expertos probaron el modelo para detectar los siguientes riesgos fronterizos: (1) ayuda al desarrollo de armas nucleares, radiológicas, biológicas y químicas (NRBQ), (2) aumento del riesgo cibernético, (3) riesgos derivados del uso de herramientas y (4) capacidad de autorreplicación. Como parte de los equipos rojos de DALL·E 3, en el marco de nuestros compromisos voluntarios, hemos examinado en equipo la capacidad del modelo para proporcionar la información visual necesaria para desarrollar, adquirir o dispersar NRBQ.

También hemos compartido una convocatoria abierta para una red de equipos rojos de OpenAI⁠ con el fin de invitar públicamente a los expertos interesados en mejorar la seguridad de los modelos de OpenAI a unirse a nuestros esfuerzos de equipo rojo.

NRBQ. Algunas capacidades del LLM pueden tener un potencial de doble uso, lo que significa que los modelos pueden utilizarse tanto para aplicaciones comerciales como militares o de proliferación. Sometimos a GPT‑4 a pruebas de estrés, de límites y de equipo rojo en cuatro dominios de doble uso para explorar si nuestros modelos podrían proporcionar la información necesaria a los proliferadores que buscan desarrollar, adquirir o dispersar NRBQ. Descubrimos que, por sí solo, el acceso a GPT‑4 es una condición insuficiente para la proliferación, pero podría alterar la información disponible para los proliferadores, especialmente en comparación con las herramientas de búsqueda tradicionales. Los miembros del equipo rojo seleccionaron un conjunto de preguntas para utilizar tanto GPT‑4 como los motores de búsqueda tradicionales, y descubrieron que el tiempo necesario para completar la investigación se reducía cuando se utilizaba GPT‑4. En algunos casos, el proceso de investigación se redujo por varias horas sin sacrificar la precisión de la información. Por lo tanto, concluimos que un factor de riesgo clave es la capacidad de GPT‑4 para generar información de acceso público pero difícil de encontrar, reduciendo el tiempo que los usuarios dedican a la investigación y recopilando esta información de forma comprensible para un usuario no experto. Antes de lanzar DALL·E 3, evaluamos cómo la generación de texto a imagen cambiaba el perfil de riesgo al probar la capacidad del modelo de generar diagramas e instrucciones visuales para producir y adquirir información relacionada con los riesgos NRBQ. De igual forma con GPT‑4, llevamos a cabo pruebas internas y externas de DALL·E 3, donde probamos internamente el modelo de riesgos y facilitamos el acceso temprano a expertos externos de diversos sectores para que nos ayudaran a analizar los sistemas con el fin de detectar y evaluar los riesgos. Sometimos a DALL·E 3 a pruebas del equipo rojo en cuatro dominios de doble uso para comprobar si podía proporcionar la información necesaria para crear, adquirir o distribuir armas NRBQ. Los miembros del equipo rojo detectaron un riesgo mínimo en estas áreas debido a una combinación de imprecisión sobre estos temas, rechazos y la necesidad más amplia de mayor acceso e “ingredientes” necesarios para el éxito de la proliferación.

Capacidades cibernéticas. También evaluamos la capacidad de GPT‑4 para su uso en el descubrimiento y la explotación de vulnerabilidades y en ingeniería social. Para probar la capacidad del modelo de ayudar a descubrir, evaluar y explotar vulnerabilidades informáticas, contratamos a expertos externos en ciberseguridad, que descubrieron que GPT‑4 podía explicar algunas vulnerabilidades si el código fuente era lo suficientemente pequeño como para encajar en la ventana contextual del modelo, pero que GPT‑4 no funcionaba bien a la hora de crear exploits para las vulnerabilidades identificadas. Para comprobar las capacidades de ingeniería social, los expertos de los equipos rojos comprobaron si GPT‑4 representaba una mejora con respecto a las herramientas actuales en tareas relevantes como la identificación de objetivos, la suplantación de identidad y phishing de señuelo. Descubrieron que el modelo no estaba listo para mejorar las capacidades actuales de ingeniería social, ya que tenía dificultades para realizar tareas como la enumeración de objetivos y el uso de información reciente para producir contenidos de phishing más eficaces. Sin embargo, con el conocimiento previo adecuado sobre un objetivo, GPT‑4 fue eficaz en la redacción de contenidos realistas de ingeniería social. En función de estos hallazgos, entrenamos posteriormente a GPT‑4 para que rechazara las solicitudes maliciosas de ciberseguridad, y ampliamos nuestros sistemas de seguridad interna, incluso en supervisión, detección y respuesta.

Autorreplicación. Antes de lanzar GPT‑4, también facilitamos una evaluación preliminar del modelo gracias al Alignment Research Center (ARC) de la capacidad del modelo de llevar a cabo acciones para replicarse y reunir recursos de forma autónoma. Concedimos a ARC acceso anticipado a los modelos como parte de nuestro equipo rojo para que su equipo pudiera evaluar los riesgos derivados del comportamiento de búsqueda de poder. La forma específica de búsqueda de poder que evaluó ARC fue la capacidad del modelo para reproducirse de forma autónoma y adquirir recursos. En experimentos preliminares que llevaron a cabo, ARC descubrió que las primeras versiones de GPT‑4 eran ineficaces en la tarea de replicación autónoma. Por lo tanto, concluyeron que era improbable que el modelo fuera capaz de reproducirse de forma autónoma.

Modelo de notificación e intercambio de información

La transparencia es un elemento importante para crear sistemas de IA responsables. Una parte fundamental de nuestro enfoque de la responsabilidad es la publicación de un documento que actualmente denominamos tarjeta del sistema, para los nuevos sistemas de IA que implementamos. El objetivo de las tarjetas de sistema es informar a los lectores sobre los factores clave que influyen en el comportamiento del sistema, especialmente en áreas pertinentes para un uso responsable, y se inspiran en anteriores trabajos de investigación sobre tarjetas de modelo y de sistema. Antes de asumir los compromisos voluntarios, OpenAI había publicado dos tarjetas de sistema: la tarjeta de sistema GPT‑4 y la tarjeta de sistema DALL·E 2. Desde entonces, publicamos una tarjeta de sistema antes de lanzar DALL·E 3 en ChatGPT, nuestro primer lanzamiento público importante de un nuevo modelo desde la firma de los compromisos voluntarios. En nuestro continuo esfuerzo por divulgar nuestra tecnología de forma responsable, también publicamos una tarjeta de sistema para las capacidades de visión de GPT‑4 antes de ponerla a disposición en ChatGPT.

Estructura de notificación de las vulnerabilidades detectadas después de la publicación del modelo

Desde que asumimos los compromisos voluntarios, hemos puesto en marcha un grupo de trabajo dentro del Frontier Model Forum para crear un mecanismo de divulgación responsable de las capacidades peligrosas entre los laboratorios de IA. El objetivo de este mecanismo será permitir la divulgación confidencial de los riesgos significativos detectados en los modelos de frontera entre los laboratorios de frontera y otros laboratorios de IA. Nuestro objetivo inicial abarca ámbitos relacionados con la seguridad nacional, como las capacidades nucleares, radiológicas, biológicas y químicas (NRBQ), junto con otras capacidades peligrosas como la autorreplicación, el engaño y la manipulación. Los métodos de divulgación abarcarán evaluaciones, conclusiones de ejercicios del equipo rojo y otras pruebas de amenazas comunes entre los miembros del laboratorio en áreas en las que una divulgación más amplia presentaría riesgos significativos.

También anunciamos el programa Bug Bounty Program de OpenAI como una forma de reconocer y recompensar a las personas que reportan vulnerabilidades de seguridad en nuestros sistemas. Las recompensas van desde 200 USD por aquellos datos de errores que no sean graves hasta 20 000 USD por los hallazgos excepcionales. Nos hemos asociado con Bugcrowd, una de las principales plataformas de recompensas por fallos, para crear un proceso de presentación y recompensa, disponible en la web de Bug Bounty Program⁠(se abre en una nueva ventana).

Supervisión posterior a la implementación para detectar patrones de uso indebido

Trabajamos duro para prevenir los riesgos previsibles antes de su implementación. Sin embargo, también hay límites a lo que cualquiera puede aprender en un laboratorio. Incluso tras investigaciones y pruebas exhaustivas, no podemos predecir todas las formas beneficiosas en que las personas usarán nuestra tecnología ni todas las formas en que abusarán de ella. Desarrollar la capacidad de detectar y afrontar rápidamente riesgos imprevistos es una de nuestras principales prioridades, ya que esta capacidad es una protección fundamental para los sistemas fronterizos, en los que no todos los riesgos pueden preverse por completo. Establecemos medidas internas para detectar tipos de abuso inesperados, disponemos de procesos para responder a ellos, y utilizamos lo aprendido para mejorar las políticas de uso, los sistemas de seguridad y los resultados de los modelos. Tras lanzar un sistema, llevamos a cabo una investigación proactiva, realizamos supervisiones y examinamos los informes entrantes para detectar abusos o riesgos imprevistos. Luego, tratamos de resolver los problemas de forma rápida e iterativa mediante soluciones políticas y técnicas. Continuamos escalando nuestras operaciones y reduciendo el tiempo de respuesta.

Controles de seguridad, incluida la garantía de los pesos de los modelos

Dedicamos importantes recursos para la protección de la tecnología, la propiedad intelectual y los datos de OpenAI.

Desplegamos nuestros modelos de IA más potentes como servicios. No distribuimos los pesos de dichos modelos fuera de OpenAI y de nuestro socio tecnológico Microsoft, y proporcionamos a terceros acceso a nuestros modelos más capaces a través de la API para que los pesos de los modelos, el código fuente y otra información sensible permanezcan controlados.

También aplicamos medidas técnicas, administrativas y organizativas comercialmente razonables diseñadas para evitar la pérdida de información personal, el uso indebido y el acceso no autorizado. Esto incluye someternos a auditorías de terceros de nuestro programa de seguridad, incluida la SOC 2 de tipo 2. También hemos comenzado con el programa Bug Bounty Program que invita a los investigadores independientes a informar sobre vulnerabilidades en nuestros sistemas a cambio de recompensas económicas. Nuestro Portal de confianza permite a los clientes y a otras partes interesadas revisar nuestros controles de seguridad e informes de auditoría. Como parte de nuestros esfuerzos de ciberseguridad, llevamos a cabo regularmente pruebas de penetración internas y de terceros, y auditamos la idoneidad y eficacia de nuestros controles de seguridad.

Identificadores del material generado por la IA

Estamos desarrollando un enfoque técnico de la procedencia para ayudar a identificar los contenidos audiovisuales creados por nuestros modelos. Una vez que se desarrolle el enfoque, lo implementaremos ampliamente en nuestros nuevos sistemas fronterizos. Estamos evaluando una serie de técnicas de procedencia, cada una con sus ventajas y sus desventajas, que a grandes rasgos se dividen en tres grupos: marcas de agua, clasificadores y enfoques basados en metadatos.

Desde que asumimos nuestros compromisos voluntarios, hemos estado investigando y probando un clasificador de procedencia que nos ayude a identificar si una imagen ha sido generada o no por DALL·E 3. Actualmente estamos evaluando esto a nivel interno y proporcionamos una actualización pública como parte del lanzamiento de DALL·E 3.

Controles de introducción de datos y auditoría

Los grandes modelos de lenguaje de OpenAI, incluidos los modelos que impulsan ChatGPT, se desarrollan utilizando tres fuentes principales de información: (1) información que está disponible al público en internet, (2) información que obtenemos bajo licencia de terceros, (3) información que nos proporcionan nuestros usuarios o nuestros formadores humanos.

La amplia mayoría de nuestros datos de entrenamiento provienen de la información disponible a nivel público, que está abierta libremente y al alcance en internet. Por ejemplo, no buscamos información detrás de contrafuegos de pago o de la “deep web”. Aplicamos filtros y eliminamos determinados datos que no queremos que los modelos aprendan ni usen como base para generar respuestas, como las incitaciones al odio, el contenido para adultos, los sitios webs que principalmente recaban datos personales y los correos no deseados.

También hemos implementado medidas para que los creadores, los titulares de derechos y los operadores de sitios web puedan expresar sus preferencias en relación con la formación en IA respecto a los contenidos que poseen o controlan. Por ejemplo, OpenAI ha establecido un método sencillo para que los operadores de sitios web excluyan su contenido del acceso del rastreador web “GPTBot” de OpenAI, basándose en el estándar web robots.txt. De igual manera, OpenAI ha documentado la cadena agente-usuario (“usuario de ChatGPT”) utilizada por ChatGPT y los plugins de ChatGPT para acceder a páginas web, de modo que los operadores de los sitios también puedan bloquear el acceso con esos fines. Disponemos de instrucciones en línea sobre cómo impedir que cualquiera de los bots acceda a las páginas. También contamos con un formulario de autoservicio⁠(se abre en una nueva ventana) para que los creadores de imágenes excluyan sus contenidos del entrenamiento de nuestros futuros modelos de generación de imágenes DALL·E.