Publicado: 27 de marzo de 2024

Comentario de OpenAI a la NTIA sobre las ponderaciones de los modelos disponibles para el público

OpenAI ha presentado este comentario en respuesta a la solicitud de información de la NTIA en marzo de 2024 sobre los modelos fundacionales de doble uso con ponderaciones ampliamente disponibles para el público.

Existen muchos caminos para alcanzar una IA segura y beneficiosa

En OpenAI, pensamos⁠(se abre en una ventana nueva) que crear, desplegar de manera amplia y utilizar la IA pueden mejorar la vida de la gente y abrir las puertas a un futuro mejor. A fin de cuentas, el progreso depende de la innovación y de la libre competencia del mercado. Así pues, dentro de estas directrices generales, se pueden tomar muchos caminos diferentes para llegar a la IA deseada. OpenAI fue uno de los primeros desarrolladores de IA en hacer frente a la cuestión de cómo distribuir los beneficios de los modelos fundacionales, modelos que contaban con capacidades sin precedentes. Por ello, comenzamos este comentario con este contexto histórico para ayudar a informar las deliberaciones de la NTIA.

En 2019, creamos GPT‑2. Este tenía la capacidad de generar párrafos de texto coherentes, por lo que nos enfrentamos a la cuestión de cómo desplegarlo. Por un lado, el modelo resultaba muy útil pero, por otro lado, no estábamos seguros⁠ de si podría usarse con fines maliciosos como la generación de correos electrónicos de suplantación de identidad. Finalmente, optamos por experimentar con un «lanzamiento escalonado». Tal y como escribimos⁠ en su momento, «el lanzamiento escalonado implica la publicación gradual de una familia de modelos a lo largo del tiempo. El objetivo del lanzamiento escalonado de GPT‑2 es darle a la gente tiempo suficiente para evaluar las propiedades de estos modelos, debatir sobre sus implicaciones sociales y analizar el impacto del lanzamiento después de cada etapa». Al no observar efectos significativos de uso indebido, ganamos la confianza necesaria para publicar abiertamente las ponderaciones completas del modelo⁠.

En 2020, creamos GPT‑3. Este era mucho más capaz que cualquier otro modelo del lenguaje visto anteriormente en todas las pruebas comparativas. Por ende, nos enfrentamos de nuevo a la cuestión de cómo publicarlo. Esta vez, decidimos publicarlo a través de nuestro primer producto, la API de OpenAI (una interfaz de programación de aplicaciones que permite que los desarrolladores puedan crear aplicaciones con nuestra tecnología). Tal y como escribimos⁠ en su momento, había muchos asuntos que nos motivaban para esta nueva estrategia de lanzamiento: «comercializar la tecnología nos ayuda a financiar nuestros esfuerzos en investigación, seguridad y política de la IA» y «el modelo API nos permite hacer frente al uso indebido de la tecnología con más facilidad. Puesto que predecir los casos de uso de nuestros modelos en el futuro es difícil, publicar un modelo de código abierto en el que no se pueda modificar el acceso si resulta que tiene implicaciones perjudiciales no es viable. Creemos que es mucho más seguro publicarlos a través de una API e ir ampliando el acceso con el tiempo». A lo largo de varios años, este lanzamiento de la API nos ha enseñado, tanto a nosotros como a la comunidad, valiosas lecciones sobre la seguridad y los patrones de uso indebido de los modelos GPT‑3⁠.

Desde entonces, hemos seguido fomentando y creyendo en la promesa de un ecosistema de IA de código abierto. Esto incluye publicar abiertamente las ponderaciones de algunos de nuestros modelos más avanzados (como CLIP y Whisper) y desarrollar una infraestructura de código abierto para otros desarrolladores de IA (como el lenguaje de programación Triton GPU). Hemos comprobado que publicar abiertamente las ponderaciones aporta una amplia gama de beneficios significativos. Por ejemplo, facilita la investigación académica sobre los aspectos internos de los modelos de IA, permite que los usuarios y organizaciones ejecuten los modelos de forma local en sus dispositivos avanzados y facilita las modificaciones creativas de los modelos para adaptarlos a los requisitos de los usuarios. Muchas empresas de IA han optado por hacer grandes inversiones en las publicaciones de las ponderaciones de los modelos, y lo han hecho por varias razones. Entre estas, se incluyen fichar, reclutar y atraer a un ecosistema de desarrolladores para aprovechar y acelerar los aspectos internos de la tecnología de la empresa.

A su vez, nuestro enfoque a la hora de publicar nuestros modelos de IA más emblemáticos mediante la API y productos comerciales como ChatGPT nos ha permitido seguir estudiando y mitigando los riesgos que descubrimos después de la publicación inicial. Además, a menudo, lo hemos hecho de formas que no habrían sido posibles si se hubieran publicado las ponderaciones anteriormente. Por ejemplo, hace poco comenzamos una asociación con Microsoft para detectar, estudiar y desarticular⁠ las operaciones de varias ciberamenazas nacionales que estaban abusando de nuestros modelos GPT‑3.5‑Turbo y GPT‑4 para ayudar en operaciones de ciberataques. Desarticular estas operaciones maliciosas no habría sido posible si hubiéramos publicado ampliamente las ponderaciones de estos modelos, que en su momento eran los más avanzados. Esto se debe a que esas mismas operaciones de ciberamenazas podrían haber alojado el modelo en su propio hardware para eliminar la necesidad de interactuar con el desarrollador original. Así pues, este enfoque nos ha permitido seguir distribuyendo ampliamente los beneficios de la IA, lo que incluye servicios gratuitos y de bajo coste disponibles para todo el mundo.

Estas experiencias nos han convencido de que tanto las publicaciones de las ponderaciones como los lanzamientos basados en API y productos son herramientas estupendas para conseguir una IA que sea beneficiosa. Creemos que el mejor ecosistema de IA de los Estados Unidos incluirá ambas.

Combinamos un despliegue iterativo con un marco de preparación

En repetidas ocasiones, tanto en los lanzamientos de productos como en los de las ponderaciones, hemos comprobado los impresionantes beneficios del «despliegue iterativo». Primero, nos permite poner a disposición del público, de manera gradual, una IA cada vez más capacitada para que puedan usarla para mejorar su vida. Segundo, este despliegue ayuda a que la sociedad se adapte, poco a poco, a las nuevas tecnologías. Tal y como escribimos⁠ en 2023: «Hemos trabajado arduamente para prevenir los riesgos previsibles antes del despliegue. No obstante, lo que podemos aprender dentro de un laboratorio tiene un límite. A pesar de que llevamos a cabo investigaciones y pruebas exhaustivas, no podemos predecir todas las formas beneficiosas en las que las personas utilizarán nuestra tecnología, ni tampoco todas las formas en las que abusarán de ella. Por eso, creemos que aprender del uso en el mundo real es un componente crítico para crear y lanzar sistemas de IA cada vez más seguros con el tiempo».

A medida que los modelos se vuelven más potentes y aumentan los beneficios y riesgos de su despliegue o lanzamiento, es fundamental que tengamos un criterio cada vez más sofisticado a la hora de decidir si desplegar un modelo y cómo hacerlo. Esto cobra vital importancia si las capacidades de la IA llegan a tener implicaciones significativas para la seguridad pública o nacional. La posibilidad de que los sistemas de IA más avanzados entrañen riesgos «catastróficos» es incierta. Además, los expertos discrepan sobre la probabilidad de que se produzcan y la rapidez con la que lo harán. No consideramos que haya pruebas suficientes todavía, pero no podemos descartar estos riesgos, ni estar seguros de que vayan a ser inminentes. Como desarrolladores que avanzan en la vanguardia de las capacidades de la IA para maximizar sus beneficios, creemos que una parte integral de nuestro trabajo es crear la ciencia de los riesgos de esta tecnología (incluida la recopilación de pruebas relacionadas con esos riesgos).

Para afrontar estas incertidumbres de forma empírica, desde OpenAI hemos publicado nuestro marco de preparación⁠(se abre en una ventana nueva), un enfoque basado en la ciencia para evaluar y mitigar de forma continua cualquier riesgo catastrófico que nuestros modelos de IA puedan suponer. Nuestro marco de preparación define cómo evaluamos los niveles de capacidad de nuestros modelos de IA en varios ámbitos de alto riesgo. Entre ellos, se incluyen la ciberseguridad, el funcionamiento autónomo, la persuasión individualizada y las amenazas QBRN (química, biológica, radiológica y nuclear). Si te gustaría ver un ejemplo de este marco en acción, echa un vistazo a nuestro estudio reciente⁠ en el que probamos la capacidad de GPT‑4 para ayudar en la creación de amenazas biológicas. En este estudio, se concluyó que el modelo no plantea ningún riesgo marginal significativo.

En función de estas evaluaciones, clasificamos los niveles de riesgo de los modelos en cada una de las categorías como bajo, medio, alto o crítico. Lo más importante es que, dentro de nuestro marco de preparación, no desplegaremos sistemas de IA que conlleven un riesgo alto o crítico en nuestra taxonomía. De hecho, debido a su nivel de riesgo, ni siquiera entrenamos a los críticos. Solo lo haremos si nuestras medidas de mitigación pueden reducir el riesgo de estos sistemas a un nivel medio como máximo. La importancia de este marco de preparación reside en que nos permite crear y compartir ampliamente los beneficios de una IA cada vez más capacitada. Y, de igual manera, nos prepara para detectar y protegernos contra riesgos catastróficos lo antes posible en caso de que surgieran.

Prácticas para los desarrolladores de sistemas de IA de altas capacidades

Para sacar el máximo partido a la IA, creemos que tanto las personas como las empresas deberían poder participar en ella como ellos quieran. Esto puede incluir el desarrollo o el uso de una IA que refleje sus valores y su visión. Sin embargo, al mismo tiempo, los sistemas de IA de altas capacidades deben crearse y usarse de forma segura, y cualquier riesgo catastrófico que se descubra debe mitigarse adecuadamente. En algunos casos, estos intereses pueden verse enfrentados, por lo que es necesario gestionarlos con extremo cuidado en función de cada caso para conseguir el mejor resultado para la sociedad. Para sacar el máximo partido a la IA, creemos que tanto las personas como las empresas deberían poder participar en ella como ellos quieran. Esto puede incluir el desarrollo o el uso de una IA que refleje sus valores y su visión. Sin embargo, al mismo tiempo, los sistemas de IA de altas capacidades deben crearse y usarse de forma segura, y cualquier riesgo catastrófico que se descubra debe mitigarse adecuadamente. En algunos casos, estos intereses pueden verse enfrentados, por lo que es necesario gestionarlos con extremo cuidado en función de cada caso para conseguir el mejor resultado para la sociedad.

En el caso de los modelos fundacionales de altas capacidades que, para su creación, requieren importantes recursos (en torno a los cientos de millones de dólares o más), consideramos que los desarrolladores de IA deberían evaluar el potencial que tiene su modelo para presentar riesgos catastróficos. Si se determina que el nivel de riesgo del modelo es alto, deberían poner en marcha las medidas de mitigación correspondientes antes de desplegarlo o publicarlo. De esta forma, se logra un equilibrio adecuado entre la gestión de riesgos y la innovación. Se prevé que estos modelos tengan unas capacidades asombrosas⁠(se abre en una ventana nueva), mientras que el coste de la evaluación es, como mucho, una pequeña fracción del coste de su desarrollo. Así mismo, estas evaluaciones están justificadas independientemente de si las ponderaciones del modelo se publican ampliamente o a través de una API.

Por otro lado, en el caso de los modelos fundacionales que requieren menos recursos, el equilibrio de intereses es diferente. Según las pruebas actuales, la aparición de riesgos catastróficos en estos modelos parece mucho menos probable, incluso si se tienen en cuenta los posibles avances en las técnicas de optimización y modificación de modelos. Al mismo tiempo, las evaluaciones de riesgos catastróficos pueden suponer un coste significativo dentro del presupuesto de las pequeñas ejecuciones de entrenamiento, lo que podría tener un efecto disuasorio en la innovación y la competencia. Creemos que estas evaluaciones de riesgos catastróficos no son aplicables a estos modelos, ya que proteger la capacidad de los desarrolladores para innovar y descubrir capacidades nuevas e interesantes de la IA es de vital importancia, así como permitir que el mercado de ideas y productos prospere. Además, la ciencia indica que el riesgo de estos modelos es relativamente bajo.

Los protocolos de evaluación, como el marco de preparación, son una herramienta muy útil para evaluar con antelación los riesgos de cualquier tipo de lanzamiento de modelos, incluidas las publicaciones de las ponderaciones de modelos. No obstante, existen algunas consideraciones específicas sobre cómo aplicarlos a las publicaciones de ponderaciones.

Una de esas consideraciones es que lo ideal sería que las condiciones de prueba reflejaran las diferentes vías por las que los actores intermedios pueden modificar el modelo. Y es que, una de las propiedades más útiles de los modelos disponibles para el público es que los actores intermedios pueden modificar los modelos para ampliar sus capacidades iniciales y adaptarlos a las aplicaciones específicas del desarrollador. No obstante, esto también implica que las partes malintencionadas podrían mejorar, potencialmente, las capacidades perjudiciales del modelo. Por lo tanto, la evaluación rigurosa de los riesgos de una publicación abierta de ponderaciones debería incluir comprobaciones de una variedad razonable de vías por las que una parte malintencionada podría modificar el modelo, incluida la optimización. Desde OpenAI, ya llevamos a cabo algunas pruebas de modificación como parte de nuestro marco de preparación (tal y como hicimos en nuestra evaluación de riesgos biológicos⁠).

Otra consideración clave es que puede ser que los desarrolladores de modelos disponibles para el público no confíen plenamente en las medidas de seguridad del sistema para reducir el riesgo de uso indebido de su modelo. Esto se debe a que, a menudo, un usuario posterior con malas intenciones que cuente con las ponderaciones del modelo puede eliminar las medidas de seguridad. A día de hoy, esta diferencia en la capacidad de mitigación tiene consecuencias limitadas, ya que incluso nuestros modelos actuales más capacitados no están considerados como de alto riesgo. Sin embargo, en el caso de que se determine científicamente que un futuro modelo pueda plantear grandes riesgos si se publica, el camino a seguir para reducir los riesgos de la publicación de las ponderaciones puede depender del aumento de la resiliencia del entorno externo en el que se publique el modelo.

Debemos tener en cuenta que la necesidad de resiliencia social ante el uso indebido de la IA es mucho mayor que las decisiones sobre lanzamientos que pueda tomar una organización. Gracias a la difusión de los algoritmos de la IA y a sus continuos avances, así como al acceso cada vez más generalizado a la informática (incluso en países que son motivo de preocupación para los Estados Unidos), las capacidades de la IA de frontera actual, a menudo accesibles solo para unos pocos actores en el momento de su creación, acabarán extendiéndose ampliamente. Tanto los Estados Unidos como el resto de países del mundo también tienen la oportunidad de invertir y liderar en la creación de medidas de mitigación que limiten las consecuencias del uso indebido. De esta forma, se puede conseguir que el balance de resultados sea lo más positivo posible.

Por ejemplo, mejorar la resiliencia frente al riesgo de ciberataques acelerados por la IA podría implicar proporcionar a los proveedores de infraestructuras críticas un acceso anticipado a esos mismos modelos de IA. De esta forma, podrían utilizarse para mejorar la ciberdefensa (al igual que en los primeros proyectos que financiamos como parte del programa de subvenciones para ciberseguridad de OpenAI⁠). Sin embargo, reforzar la resiliencia frente a los riesgos de creación de amenazas biológicas aceleradas por la IA también puede implicar soluciones totalmente ajenas a la IA. Por ejemplo, mejorar los mecanismos de detección de síntesis de ácidos nucleicos (como requiere la Orden Ejecutiva 14110) o mejorar la capacidad de los sistemas de salud pública para detectar e identificar nuevos brotes de patógenos. Si se demuestra rigurosamente que un modelo de IA supone riesgos graves para la seguridad pública o nacional, el desarrollador puede desempeñar un papel importante en la concienciación sobre las nuevas capacidades antes de su publicación. Por ejemplo, notificándoselo a los proveedores de infraestructuras o limitando el despliegue de la API. De esta forma, pueden dar tiempo y motivar los esfuerzos de resiliencia que se necesitan con urgencia. Esto coincide con la norma de «comunicación responsable» del ámbito cibernético. Gracias a ella, los investigadores de seguridad embargan temporalmente la publicación de las vulnerabilidades que encuentran para dar tiempo a los expertos a corregir sus sistemas sin ralentizar la investigación sobre la seguridad.

Hace falta una mejor ciencia de los riesgos de la IA

Aunque consideramos que evaluar los riesgos de los modelos más capacitados es de vital importancia, la ciencia de las evaluaciones de riesgos de la IA todavía es muy reciente. Es decir, OpenAI y la comunidad de la IA en general todavía están sentando las bases de cómo evaluar los riesgos de la IA. Igualmente, nosotros seguimos iterando constantemente sobre muchos de los detalles operativos del marco de preparación. Además, no hay que perder de vista que los gobiernos tienen un importante papel que desempeñar para ayudar al ecosistema de la IA a consolidar sus prácticas de evaluación de riesgos y capacidades. Por ejemplo, pueden reunir a expertos de los sectores de la ciberseguridad ofensiva, las infraestructuras críticas y la IA para llegar a un acuerdo sobre el conjunto de modelos de ciberamenazas de la IA prioritarios y crear bancos de pruebas rigurosas y empíricas para evaluarlos. Desde OpenAI, apoyamos firmemente el uso del enfoque voluntario, que favorezca la innovación y que esté centrado en la ciencia, que persigue el USAISI (U.S. Artificial Intelligence Safety Institute).

Desde que, en 2019, tuvimos que tomar la decisión de cómo lanzar GPT‑2 (optamos por lanzar primero una pequeña versión del modelo), los nuevos hallazgos y eventos han cambiado continuamente las consideraciones que debemos tener en cuenta a la hora de publicar las ponderaciones del modelo fundacional, a veces, incluso cada pocos meses. Esperamos que esta tendencia continúe. Por ello, cualquier enfoque de política gubernamental debe ser flexible y debe tener la capacidad de adaptarse a futuros cambios.