Publicación: 2 de febrero de 2024

OpenAI responde a la orden ejecutiva del NIST sobre la inteligencia artificial

El Instituto Nacional de Estándares y Tecnología (NIST) solicita información relacionada con sus actividades según lo dispuesto en los artículos 4.1, 4.5, y 11 de la orden ejecutiva sobre la inteligencia artificial

En 2015 fundamos OpenAI como organización sin ánimo de lucro a los efectos de garantizar que la humanidad pudiera sacarle provecho a la inteligencia artificial general; es decir, a una IA con una capacidad no menor a la de las personas. Nuestra misión es investigar, desarrollar y lanzar tecnología de IA innovadora, así como herramientas y prácticas recomendadas para su seguridad, cumplimiento y gobernanza. Por ello, quisiéramos hacer un aporte a la importante labor que está haciendo el NIST sobre la IA.

En este artículo, tratamos tres temas planteados en la solicitud de información: (1) la evaluación y auditoría de las competencias de IA; (2) la ejecución de las pruebas de los equipos rojos para posibilitar la implementación segura y fiable de los sistemas; y (3) la procedencia de los materiales multimedia sintéticos.

Evaluamos las funcionalidades peligrosas de los sistemas de IA

Celebramos el interés del NIST en “definir pautas de orientación y pruebas de referencia en pos de evaluar las capacidades… por medio de las cuales la IA podría provocar daños”. En OpenAI, hemos adoptado el compromiso de ceñirnos a un marco de preparación⁠(se abre en una nueva ventana), un sistema integral de análisis, seguimiento y control de riesgos potencialmente catastróficos que puede haber en los modelos de IA actuales y futuros. En la actualidad, este marco supervisa cuatro áreas de riesgo iniciales: la ciberseguridad; las amenazas nucleares, radiológicas, biológicas y químicas (NRBQ); la persuasión; y la autonomía de los modelos. Asimismo, el marco nos compromete a vigilar de forma permanente los riesgos desconocidos que aún no se han identificado. Como parte de esta labor, OpenAI hace poco dio a conocer⁠ un análisis NRBQ a gran escala, en la que se evaluó la capacidad de GPT‑4 para facilitar a organismos malintencionados mayor acceso a información peligrosa sobre la creación de amenazas biológicas, en comparación con la disponibilidad actual al material de referencia que se encuentra en internet. En esta evaluación inédita por su magnitud en la que participaron tanto especialistas en biología como estudiantes de la disciplina, determinamos que GPT‑4 suministra como mucho apenas algo más de información sobre la creación de amenazas biológicas. La cantidad de información adicional no era suficiente como para llegar a conclusiones definitivas, pero esperamos que este resultado sirva como punto de partida para continuar investigando y debatiendo bajo la dirección del NIST y el flamante Instituto de Seguridad para la IA. Este estudio afianzó nuestra convicción en varios principios fundamentales a la hora de considerar los riesgos de los sistemas de IA:

Los riesgos relacionados los sistemas de IA deben determinarse en función de los cambios apreciables que haya con respecto a valores de referencia pertinentes.Muchos de los riesgos que pueden agravarse con los sistemas de IA tanto actuales como futuros, en cierto grado, existen desde antes de la llegada de la IA, como las amenazas a la ciberseguridad y la bioseguridad. Por ejemplo, las búsquedas en internet ya posibilitaban un nivel de acceso importante a información de interés sobre la bioseguridad. Al analizar los riesgos relacionados con los sistemas de IA y su repercusión, se recomienda como práctica óptima evaluar si la IA potencia los riesgos más allá de los recursos existentes. En una investigación reciente sobre riesgos biológicos, aplicamos este procedimiento asignando la mitad de los participantes de forma aleatoria a un grupo de referencia que podía usar únicamente fuentes de información fuera del ámbito de la IA (como bases de datos en línea, artículos y búsquedas en internet, así como sus conocimientos previos) y la otra mitad a un grupo de tratamiento con acceso total a dichos materiales y al modelo GPT‑4.
El trabajo conjunto con especialistas en diversos campos es fundamental para analizar los riesgos.A cualquier entidad le resultaría difícil contratar especialistas de primera en la amplísima variedad de temas que competen a la seguridad de la IA. Por ello, para acceder a expertos de prestigio, conviene asociarse con terceros que convoquen a especialistas en las disciplinas correspondientes a fin de evaluar las competencias peligrosas de la IA. Además, la participación de especialistas en la corrección de los estudios garantiza que las evaluaciones sean objetivas. Por ejemplo, al confeccionar y llevar a cabo el análisis sobre riesgos biológicos, trabajamos codo a codo con especialistas externos en bioseguridad a la hora de diseñar tareas de investigación, dictar capacitaciones sobre seguridad a los participantes y calificar las tareas realizadas. En aras de la seguridad de la IA, es conveniente ampliar y diversificar este grupo de trabajo.
Llevar a cabo una evaluación exhaustiva también requiere de un trabajo en equipo con especialistas en IA a fin de generar resultados eficientes al probar todo el abanico de competencias de los modelos.Para abarcar la diversidad de riesgos que pueden suponer los modelos de IA, es necesario poner a prueba sus competencias en toda situación posible durante la evaluación. Para ello, hace falta conocer a fondo los sistemas de IA subyacentes y cómo se usan de manera eficaz. Por ende, lo recomendable es que las evaluaciones sean el fruto de la colaboración mutua con especialistas en IA. En nuestra investigación sobre riesgos biológicos, el trabajo en equipo implicó entrenar a sujetos humanos sobre cómo podían mejorar el desempeño de los modelos de lenguaje al aplicar prácticas óptimas para su exploración, así como sobre métodos técnicos personalizados para obtener mejores resultados al indagar las competencias de los modelos.
Se necesitan más investigaciones sobre cómo interpretar los resultados de las evaluaciones sobre riesgos.Por ejemplo, al evaluar si los modelos de IA ofrecen mayor acceso a información sobre riesgos biológicos, aún no se determinó con claridad qué nivel de disponibilidad de información acarrearía un riesgo biológico considerablemente mayor. Conforme aparecen tecnologías novedosas que pueden transmutar la información en línea en amenazas biológicas físicas, el efecto que tienen los sistemas de IA sobre los riesgos biológicos podría variar. Por nuestra parte, seguimos poniendo a punto nuestro marco de preparación y estamos felices de poder colaborar con el NIST y el Instituto de Seguridad para la IA en pos de investigar más a fondo los riesgos y los parámetros relacionados con ellos.
Las evaluaciones de especialistas humanos son muy costosas.La evaluación de modelos de lenguaje llevada a cabo por humanos requiere de un presupuesto abultado tanto para remunerar a los participantes como para desarrollar software y establecer medidas de seguridad. En nuestro trabajo sobre riesgos biológicos, analizamos varias formas de abaratar estos costos, pero la mayoría de los gastos se debían a (1) ciertos aspectos de la seguridad no negociables o (2) la cantidad de participantes necesarios y el tiempo que le lleva a cada uno de ellos hacer un examen minucioso. Este planteo debe tenerse en cuenta al pautar criterios.

Encontrarás más información en nuestro artículo de una investigación reciente sobre riesgos biológicos: Desarrollo de un sistema de alerta temprana para la creación de amenazas biológicas asistida por modelos de lenguaje grande (LLM)⁠.

Pruebas de los equipos rojos para posibilitar la aplicación de sistemas de IA seguros

¿Qué son las pruebas de los equipos rojos?

OpenAI define pruebas de equipo rojo como un “proceso estructurado mediante el cual se investigan sistemas y productos de IA a fin de detectar funciones o resultados perjudiciales o amenazas a la infraestructura”.^A
El término genérico “pruebas de equipo rojo” abarca los diversos métodos que están surgiendo, como las de un equipo rojo interno (llevadas a cabo por equipos internos especializados en un laboratorio o empresa), las de un equipo rojo externo (realizadas por colaboradores externos junto con un laboratorio o empresa) y las de un equipo rojo automatizado (se usan modelos de IA para generar ataques automatizados y clasificar los resultados). En el marco de este artículo, aludimos principalmente al trabajo de equipos rojos externos, lo cual implica la participación de OpenAI y especialistas externos en diversos ámbitos a fin de evaluar las competencias y los riesgos de un modelo o sistema de IA.

La estrategia de OpenAI en relación con las pruebas de los equipos rojos no examina los ataques adversos ni las salidas de los modelos de manera aislada, sino que pone de manifiesto los riesgos en un entorno integral y contextualizado de la mano de especialistas en diversas áreas.^B Las pruebas de los equipos rojos tienen en cuenta el uso malintencionado de la IA, los métodos pensados para eludir las medidas de seguridad y otros riesgos, como las solicitudes de buena fe o habituales que pueden generar resultados peligrosos o perjudiciales, las mejoras de funciones novedosas que pueden modificar el panorama actual de los riesgos, así como los factores ajenos al sistema que pueden interactuar con los resultados de los modelos y ocasionar riesgos y perjuicios. La evaluación de estos aspectos suele ser más provechosa cuando hay personas en el proceso para generar posibles ejemplos y convalidar los resultados en función de los conocimientos especializados de un determinado experto del equipo rojo.

¿Para qué sirven las pruebas de los equipos rojos?

Las pruebas de los equipos rojos permiten comprender los riesgos relacionados con los nuevos modelos y sistemas de IA que realizan lo siguiente:

Posibilitan nuevas formas de interacción a las de los sistemas o tecnologías de IA anteriores y no pueden probarse con evaluaciones programáticas (por ejemplo, pintar en DALL·E, GPT).
Ofrecen competencias muchísimo mejores que pueden acarrear nuevos riesgos que aún no se han evaluado (p. ej., en campos científicos, el arte de la persuasión o la lógica de razonamiento).
Precisan contexto o conocimientos propios de ciertas áreas para poder realizar pruebas y corroborar datos (p. ej., información sobre la coyuntura política de una región, sesgos culturales, ciertos campos científicos o áreas de especialización, como el derecho o la medicina).
Necesitan conocer el proceso de un usuario o un caso de uso concreto, tales como factores ajenos al sistema en sí (p. ej., probar GPT‑4V en personas con dificultades para ver).

En OpenAI, consideramos las pruebas de los equipos rojos como una herramienta para evaluar riesgos tanto en modelos como en sistemas de IA. Entre algunas de las funciones de sistema se destacan los clasificadores, los filtros de consultas y las listas negras, las intervenciones en la interfaz de usuario, las prácticas de supervisión y evaluación y otras estrategias para el cumplimiento de normas. En algunas ocasiones, ejecutamos pruebas de los equipos rojos en un producto novedoso aun cuando no se usa un modelo nuevo. Por ejemplo, los GPT⁠ no plantearon un modelo de lenguaje innovador, pero introdujeron nuevos modos en que los usuarios interactuaban con ellos.

En OpenAI, consideramos que las iniciativas de nuestros equipos rojos complementan las de otros ámbitos, las cuales deben ser llevadas a cabo por los desarrolladores encargados de crear soluciones basadas en nuestra tecnología. Por ejemplo, nosotros sometemos nuestros modelos y sistemas de IA a pruebas de equipos rojos en momentos particulares y en circunstancias determinadas, pero los desarrolladores que crean aplicaciones basándose en nuestra API deberían tener en cuenta dichos estudios y llevar a cabo otras pruebas en función del sistema y las condiciones concretas en las que tienen previsto trabajar. De hecho, ese es uno de los motivos por los cuales OpenAI publica las observaciones más importantes de las pruebas de los equipos rojos en las tarjetas de sistema (y otros tipos de documentación de carácter público), para que terceros tengan acceso a estas y puedan basarse en ellas.

Pruebas iterativas de los equipos rojos en OpenAI

Hemos resumido varias de las iniciativas de nuestros equipos rojos sobre los modelos más avanzados en las debidas tarjetas de sistema:

OpenAI proporciona a los expertos de los equipos rojos acceso a modelos entrenados previamente con diversos niveles de optimización y entrenamiento posterior, así como a medidas paliativas de seguridad con distintos grados de madurez.

Estos son los objetivos de dicha decisión:

Las apreciaciones hechas a partir de las pruebas de los equipos rojos pueden influir en el desarrollo de las normas, las evaluaciones, las medidas paliativas posteriores al entrenamiento y las que se aplican en el sistema.
La información estratégica basada en las pruebas de los equipos rojos pueden influenciar las decisiones de los directivos sobre el lanzamiento de ciertas características, sobre cómo implementarlas de forma iterativa y sobre la eficacia de las medidas paliativas de seguridad.
Los resultados de las pruebas de los equipos rojos pueden difundirse junto con los materiales públicos en la presentación de los productos (como las tarjetas de sistema u otros formatos) para comunicar a los usuarios y otros interesados sobre los riesgos atenuados, los residuales y aquellos que pueda haber a futuro.

OpenAI hace partícipes a los especialistas de los equipos rojos apenas se puede en la fase inicial de desarrollo, para que sus observaciones puedan tenerse en cuenta directamente en las iniciativas de seguridad y la toma de decisiones. Además, antes de añadir medidas de seguridad, es fundamental conocer las competencias básicas de los modelos a fin de que los desarrolladores puedan tomar decisiones con conocimiento de causa sobre los riesgos de base y que la sociedad comprenda los riesgos actuales relacionados conocer sistemas cada vez más avanzados.

Cuando ya se han aplicado medidas paliativas de seguridad, los equipos rojos dan prioridad a más ciclos de pruebas no solo para determinar las deficiencias y los riesgos residuales que no han sido resueltos por las medidas sino también para evaluar la solidez de estas últimas.

En definitiva, a la hora de plantear la fase inicial de desarrollo de los modelos de IA, es fundamental tener en cuenta características de seguridad importantes; pero el objetivo de las pruebas de los equipos rojos es simular una experiencia lo más parecida a la que ofrecería un modelo presentado en el mercado.

Limitaciones de las pruebas de los equipos rojos

Como herramienta aislada, las pruebas de los equipos rojos no permiten analizar riesgos de forma suficiente. Por un lado, no son capaces de determinar la probabilidad ni la predisposición que tienen los modelos de generar contenido peligroso o de acarrear riesgos relacionados con el uso de un sistema de IA. Por el otro, no aportan información suficiente como para sopesar la gravedad de un riesgo identificado o un perjuicio confirmado.

La mayoría de las iniciativas especializadas de los equipos rojos de OpenAI se ejecutan antes de la implementación de un modelo o producto importante, pero lo cierto es que los modelos y sistemas suelen evolucionar durante su producción y, por ende, es imprescindible tener eso en cuenta al contextualizar los resultados de las pruebas de los equipos rojos. Asimismo, los desarrolladores que programan casos de uso especiales pueden tomar decisiones de diseño que modifiquen el perfil de seguridad de los modelos o los sistemas si esta característica no es inherente o inalterable dentro de los parámetros.

Las pruebas de los equipos rojos sientan los fundamentos para llevar a cabo estudios y evaluaciones de otra índole, a la vez que proporcionan orientación básica sobre los vectores de ataque y los problemas que deben poder abordar con consistencia las medidas paliativas de seguridad.

Estudiar diversos ejemplos y diferentes versiones de un mismo problema permite ganar confianza en cómo se cuantifica una determinada área de riesgo. Las pruebas especializadas de los equipos rojos pretenden abarcar una variedad de problemas en lugar de profundizar en las áreas de riesgo y, por ende, por sí solas no constituyen una evaluación para analizar riesgos concretos. No obstante, generan conjuntos de datos que pueden considerarse el origen que permiten desarrollar evaluaciones minuciosas. A partir de allí, los resultados pueden usarse para producir más ejemplos en una determinada área problemática que se ha detectado, así como para obtener un “conjunto de datos excepcional” con ejemplos clasificados (normalmente por especialistas) que pueden usarse para evaluar modelos futuros en relación con una área problemática confirmada.

Constitución de los equipos rojos y prioridad de las disciplinas

Los sistemas de IA de uso general que van a emplearse en muchos casos de uso tanto previstos como no previstos, así como en diferentes escenarios en todo el mundo, deben abarcar una diversidad de temas y contar con la representación de un amplio espectro de perspectivas y puntos de vista.

En OpenAI apostamos a sumar a especialistas de diversas disciplinas a fin de poner a prueba nuestros modelos. El año pasado, hicimos una convocatoria para la red de equipos rojos. Dentro de los criterios de selección, tuvimos en cuenta lo siguiente:

Contar con experiencia comprobada en una disciplina de interés para las pruebas de los equipos rojos
Mostrar pasión por fortalecer la seguridad de la IA
No tener conflictos de interés
Poseer una formación diversa y pertenecer a grupos históricamente infrarrepresentados
Contar con una representación geográfica amplia
Dominar varios idiomas
Demostrar destrezas técnicas (útil pero no excluyente)

La prioridad que se da a las disciplinas se basa en diversos factores, como los usos previstos de los modelos o sistemas de IA (sobre todo en circunstancias de mayor ambigüedad o posibles riesgos); la evaluación inicial que se hace de los modelos en los casos en que los desarrolladores prevén competencias más avanzadas; las áreas en las que ya se sabe que el contenido contravino las normas; y la coyuntura sociopolítica pertinente (p. ej., el 2024 fue año electoral en muchos lugares del mundo). Cabe destacar que cada modelo o sistema puede precisar de diversos conjuntos de datos especializados y que pueden considerarse nuevas disciplinas en función de la evolución de las competencias y las nuevas aplicaciones de los modelos o sistemas. Por consiguiente, la constitución de los equipos rojos se modificará con el tiempo.

Procedencia de los materiales multimedia sintéticos

Marcas de agua: Según este criterio, el material audiovisual generado indica su origen con un sutil diseño que los espectadores u oyentes no pueden percibir, pero que puede detectar software especializado. Las marcas bien pueden tomar la forma de una señal distinguible únicamente con la ayuda de una clave secreta, o bien pueden identificarse con un software público para ese fin. Por ello, si OpenAI decidiera agregar una marca de agua a todos los resultados generados, la cooperación a lo largo de toda la cadena de valor basada en IA se volvería imprescindible, de modo que las demás partes interesadas (como las redes sociales que distribuyen contenido) pudieran mostrar la marca de agua a los usuarios con fines prácticos. Si el proceso de detección no se hace de forma pública, el acceso a este plantea no solo un complejo problema normativo, sino dificultades técnicas. Quizás sea más trabajoso eliminar las marcas de agua en comparación con otros métodos de procedencia, pero de todas formas es posible recortar y modificar los archivos marcados o ajustar su tamaño. Por este motivo, las marcas de agua igual pueden eludirse, sobre todo si intervienen personas con un motivo y malas intenciones. Por otra parte, el efecto de las marcas de agua es nulo si las personas malintencionadas pueden acceder a modelos que no agregan marcas de agua a los resultados generados.
Clasificadores (modelos entrenados capaces de distinguir los resultados generados con IA de otros archivos multimedia y de detectar qué modelo o servicio produjo determinado resultado): Cuando este sistema funciona, se vuelve muy atractivo porque no depende de la buena fe de las personas que comparten el material. No obstante, puede cometer errores (tanto falsos positivos como negativos), con lo cual su implementación masiva requiere de muchísima capacidad informática. Por ejemplo, los falsos positivos suponen erróneamente que la obra de un artista es el resultado de una IA; mientras que los falsos negativos clasifican una imagen no generada por una IA como tal de forma errada.
Enfoques basados en metadatos (como la norma actual de C2PA⁠(se abre en una nueva ventana)): En estos sistemas, los metadatos que acompañan ciertos archivos multimedia tienen una firma criptográfica a fin de convalidar el origen del material.

Esto posibilita a las personas que quieren demostrar el origen de los archivos multimedia haya sido generados con IA o no. Por ejemplo, la norma C2PA les permite a los medios de noticias mostrar la autenticidad de cierta imagen o video publicados y a los lectores corroborar su procedencia. De igual manera, si se llegara a implementar en un sistema de IA generativa, esta técnica podría servirle a un artista para indicar que generó determinada imagen o video sintético. Estos sistemas ofrecen la ventaja evidente de mostrar a los consumidores o al público general la procedencia del contenido. Además, tienen la virtud de que no precisan la aplicación de otros instrumentos.

No obstante, es muy fácil quitar los metadatos de una imagen o un video, por lo que esta técnica no constituye un obstáculo mayor para las personas malintencionadas que quieren hacer pasar como real contenido generado con IA (por ejemplo, quienes difunden campañas de desinformación).

Para que la población general pudiera beneficiarse de enfoques basados en metadatos, los navegadores y las plataformas de distribución, como las redes sociales, deberían detectar y mostrar los metadatos. Para ello, una implementación satisfactoria de este método exige cooperación a lo largo de toda la cadena de valor: no basta con que los materiales audiovisuales tengan una firma criptográfica en sus metadatos, sino que las plataformas de distribución deben ser capaces de detectarlos y mostrárselos a los usuarios finales para que estos puedan verificar la procedencia de los archivos.

Métodos de procedencia de OpenAI

Dado que cada método de procedencia tiene sus ventajas y limitaciones, OpenAI ha estado investigando una serie de métodos para determinar la procedencia del material audiovisual generado con IA.

Metadatos de C2PA en las imágenes de DALL·E 3

El 15 de enero de 2024, OpenAI hizo público que implementará el sistema de metadatos de C2PA en las imágenes generadas con DALL·E 3, el modelo de texto a imagen. Las especificaciones de C2PA son una norma técnica de carácter público que ofrece a los editores, creadores y consumidores la posibilidad de rastrear el origen de archivos multimedia de diferentes tipos.

Gracias a estos requisitos, se puede incorporar metadatos a un archivo, los cuales consisten en información sobre la fuente de las imágenes (en nuestro caso, que la imagen procede de DALL·E) y la hora de creación. La población general puede buscar estos metadatos y, si están presentes, corroborar que se trata de una imagen generada con DALL·E 3.

Este enfoque permite a los usuarios indicar el origen de las imágenes que crean con DALL·E 3. Sin embargo, los metadatos son fáciles de quitar, por lo que una persona con malas intenciones podría quitar la información de C2PA integrada en las imágenes. Además, las plataformas de intercambio de imágenes más usadas, como las redes sociales, actualmente eliminan estos datos de forma predeterminada, en vez de detectarlos y mostrárselos a los usuarios. Dada la facilidad con la que pueden quitarse los metadatos de C2PA, la población general no puede dar por sentado que todas las imágenes hechas con DALL·E que ve indefectiblemente tienen estos datos.

No obstante, la norma C2PA no aplica únicamente a imágenes generadas con IA y podría reportar ventajas notables si se implementara a nivel generalizado. En la actualidad, los fabricantes de cámaras, los medios de comunicación y otras entidades la están empleando para dar fe de la procedencia de las imágenes que publican. En OpenAI estamos convencidos de que la adopción generalizada de sistemas de publicación, junto con la recomendación a los usuarios de verificar la autenticidad del contenido, es una medida fundamental para fortalecer la veracidad de la información digital.

Clasificador experimental para las imágenes de DALL·E 3

El 19 de octubre de 2023, dimos a conocer un trabajo que estamos llevando a cabo sobre un clasificador de procedencia, una herramienta interna novedosa capaz de detectar imágenes generadas con el sistema de DALL·E 3. Evaluamos la precisión del clasificador con datos de referencia internos que han demostrado resultados prometedores, incluso cuando las imágenes habían sido objeto de modificaciones frecuentes, como recortes, ajustes de tamaño, compresión JPEG o cuando se había agregado texto o recortes de imágenes reales a pequeños fragmentos de una imagen generada con IA. Pese a los resultados convincentes de las pruebas internas, el clasificador solo es capaz de indicar la probabilidad de que una imagen haya sido creada con DALL·E y aún no nos permite llegar a conclusiones definitivas.

Vamos a seguir experimentando con el clasificador para evaluar su solidez y, en el primer trimestre de 2024, pensamos ponerlo al servicio de colaboradores externos para que nos den su opinión. El año que viene, queremos empezar a ampliar las pruebas con el clasificador de imágenes, con la asistencia de equipos externos especializados que nos ayudarán a evaluar su desempeño y utilidad.

No obstante, el clasificador está adaptado al modelo y solo es capaz de clasificar la probabilidad de si una imagen se ha generado con DALL·E. Por lo tanto, aunque clasificara las imágenes con una precisión matemática, no podría determinar si una imagen se ha hecho con otra herramienta generativa.

Nos complace tener la oportunidad de colaborar con el NIST en sus investigaciones relacionadas con la IA.

Saludos cordiales,

Anna Adeola Makanju
Vicepresidenta de Asuntos Internacionales
OpenAI

Notas al pie

A
Consulta la definición⁠(se abre en una nueva ventana) de pruebas de equipo rojo establecida por el Frontier Model Forum.
B
Usamos la expresión “especialista” para aludir tanto a conocimientos adquiridos sobre diversos saberes de una disciplina como a experiencias profesionales.