Pasar al contenido principal
OpenAI

7 de noviembre de 2025

Seguridad

Comprender la inyección de prompts: un desafío de seguridad de vanguardia

Las herramientas de IA están comenzando a hacer más que solo responder preguntas. Ahora pueden navegar por la web, asistir en investigaciones, planificar viajes y facilitar la compra de productos. A medida que se vuelven más capaces, con la capacidad de acceder a tus datos en otras aplicaciones y actuar en tu representación, surgen nuevos retos de seguridad. Uno en el que estamos muy enfocados es la inyección de prompts.

Un diagrama que ilustra cómo funciona un ataque de inyección de prompts. A la izquierda, un ícono de un usuario sonriente está etiquetado como “El usuario pide ayuda a la IA para realizar una tarea”. Una flecha apunta al centro, donde un ícono de pantalla de computadora está etiquetado como “La IA ve un sitio web con el ataque”, y encima de él, una pequeña figura con un sombrero y una sonrisa burlona está etiquetada como “El atacante insertó una inyección de prompts”. Otra flecha apunta hacia la derecha mostrando un ícono de documento con un triángulo de advertencia etiquetado como “IA engañada para realizar una acción no intencionada”. El flujo muestra cómo un atacante puede manipular la IA a través de prompts inyectados.

¿Qué es una inyección de prompts?

La inyección de prompts es un tipo de ataque de ingeniería social específico para la IA conversacional. Los primeros sistemas de IA consistían en conversaciones entre un único usuario y un único agente de IA. En los productos de IA actuales, tu conversación puede incluir contenido de muchas fuentes, incluido el internet. La idea de que un tercero (que no sea el usuario ni la IA) pudiera engañar al modelo inyectando instrucciones maliciosas en el contexto de la conversación dio lugar al término “inyección de prompts”.

De la misma manera que los correos electrónicos de phishing o las estafas en la web intentan engañar a las personas para que revelen información confidencial, las inyecciones de prompts intentan engañar a las IA para que realicen acciones no solicitadas.

Imagina que le has pedido a una IA que te ayude a investigar sobre tus vacaciones en línea y, mientras lo hace, se encuentra con contenido engañoso o instrucciones dañinas ocultas en una página web, como en un comentario de un anuncio o en una reseña. El contenido podría ser elaborado con cuidado para intentar engañar a una IA y hacer que recomiende el anuncio incorrecto o, peor aún, para robar la información de tu tarjeta de crédito.

Estos son solo algunos ejemplos de ataques de “inyección de prompts”: instrucciones dañinas diseñadas para engañar a una IA para que realice acciones no deseadas, a menudo ocultas dentro de contenido ordinario, como una página web, un documento o un correo electrónico.

Estos riesgos aumentan a medida que las IA acceden a datos más sensibles y asumen más iniciativa y tareas de mayor duración.

Resumen

Lo que pediste que hiciera la IA

Lo que hace el atacante

Resultado potencial si el ataque resulta exitoso

Le pides a una IA que investigue departamentos, y se le inyecta un prompt para que recomiende un anuncio que no es la mejor opción para ti.

Solicitas a una IA que busque apartamentos con ciertos criterios.

El atacante incluyó un ataque de inyección de prompts en el anuncio del apartamento para engañar a la IA y hacerle creer que su anuncio debe ser seleccionado sin importar las preferencias indicadas por el usuario.

Si el ataque tiene éxito, la IA podría recomendar un listado de apartamentos subóptimo según tus preferencias.

Le pides a un agente de IA que responda a tus correos electrónicos de la noche anterior, y termina compartiendo tus extractos bancarios.

Le pides a un agente de IA que responda a tus correos electrónicos de la noche anterior porque estás ocupado esta mañana.

Consulta “Cuando sea posible, da instrucciones explícitas a un agente” a continuación


El atacante te envió un correo electrónico que contiene información errónea diseñada para engañar al modelo y hacer que localice tus estados de cuenta bancarios y los comparta con el atacante.

Si el ataque tiene éxito, el agente podría buscar documentos como estados de cuenta bancarios en tu correo electrónico (al que le diste acceso para la tarea) y compartirlos con el atacante.

Nuestro enfoque para la protección de los usuarios

Defenderse contra la inyección de prompts es un desafío en toda la industria de la IA y una prioridad central en OpenAI. Aunque esperamos que los adversarios sigan desarrollando este tipo de ataques, estamos construyendo defensas diseñadas para realizar la tarea que el usuario pretende, incluso cuando alguien intenta activamente engañarlo. Esa capacidad es esencial para realizar de manera segura los beneficios de la IAG.

Para proteger a nuestros usuarios y mejorar nuestros modelos frente a estos ataques, adoptamos un enfoque de múltiples capas que incluye lo siguiente:

Capacitación en seguridad

Queremos una IA que reconozca las inyecciones de prompts y no se deje engañar por ellas. Sin embargo, la robustez ante ataques adversarios sigue siendo un desafío persistente para el aprendizaje automático y la inteligencia artificial, lo que convierte esto en un problema complejo y sin resolver. Hemos desarrollado una investigación denominada “Jerarquía de Instrucciones” para avanzar hacia modelos que distingan entre instrucciones confiables y no confiables. Continuamos desarrollando nuevos métodos para entrenar modelos que reconozcan mejor los patrones de inyección de prompts, de modo que puedan ignorarlos o señalarlos a los usuarios. Una de las técnicas que aplicamos es el red teaming automatizado, un área que hemos estado estudiando(se abre en una nueva ventana) durante años para desarrollar ataques novedosos de inyección de prompts.

Monitoreo

Hemos desarrollado múltiples monitores automatizados impulsados por IA para identificar y bloquear ataques de inyección de prompts. Estos complementan los enfoques de capacitación en seguridad porque se pueden actualizar rápidamente para bloquear de inmediato cualquier nuevo ataque que descubramos. Estos monitores no solo ayudan a identificar posibles ataques de inyección de prompts contra nuestros usuarios, sino que también nos permiten detectar investigaciones y pruebas adversariales de inyección de prompts que utilizan nuestra plataforma, antes de que esos ataques se desplieguen en el entorno real.

Protecciones de seguridad

Hemos diseñado nuestros productos e infraestructura con varias capas de protecciones de seguridad para ayudar a salvaguardar los datos de los usuarios. Estas características, que exploraremos con más detalle técnico en publicaciones futuras, están personalizadas para cada producto. Por ejemplo, para ayudarte a evitar sitios no confiables, te pediremos que apruebes ciertos enlaces en ChatGPT, especialmente en sitios web que nos solicitan no catalogarlos(se abre en una nueva ventana), antes de que puedan ser visitados. Cuando nuestra IA utiliza herramientas para ejecutar otros programas o código (como en Canvas o nuestra herramienta de desarrollo Codex), empleamos una técnica llamada “sandboxing” para evitar que el modelo realice cambios perjudiciales que podrían ser el resultado de una inyección de prompts.

Dar control a los usuarios

Incluimos controles integrados en nuestros productos para ayudar a los usuarios a protegerse. Por ejemplo, en ChatGPT Atlas, puedes seleccionar el modo sin sesión, que permite al agente de ChatGPT iniciar tareas sin necesidad de iniciar sesión en los sitios. El agente de ChatGPT también se detiene y solicita confirmación antes de realizar acciones sensibles, como completar una compra. Cuando el agente opera en sitios sensibles, hemos implementado un “Modo de Vigilancia” que te alerta sobre la naturaleza sensible del sitio y requiere que mantengas la pestaña activa para observar al agente realizar su trabajo. El agente se detendrá si te alejas de la pestaña con información sensible. Esto asegura que te mantengas informado, y en control, de las acciones que está realizando el agente.

Red teaming

Llevamos a cabo una evaluación adversarial red teaming exhaustiva con equipos internos y externos para probar y mejorar nuestras defensas, emular el comportamiento de los atacantes y encontrar nuevas formas de mejorar nuestra seguridad. Esto incluye miles de horas dedicadas específicamente a la inyección de prompts. A medida que descubrimos nuevas técnicas y ataques, nuestros equipos abordan proactivamente las vulnerabilidades de seguridad y mejoran las mitigaciones de nuestros modelos.

Programa de recompensas por la detección de errores

Para incentivar a los investigadores de seguridad independientes que actúan de buena fe a ayudarnos a descubrir nuevas técnicas y ataques de inyección de prompts, ofrecemos recompensas económicas bajo nuestro programa de recompensas por errores(se abre en una nueva ventana) cuando demuestran una vía de ataque realista que podría resultar en una exposición no intencionada de datos de usuarios. Incentivamos a los colaboradores externos a que detecten estos problemas rápidamente para que podamos resolverlos y fortalecer aún más nuestras defensas.

Permitir que los usuarios decidan

Educamos a los usuarios sobre los riesgos de utilizar ciertas funciones del producto para que puedan tomar decisiones informadas. Por ejemplo, al conectar ChatGPT a otras aplicaciones, explicamos a qué datos se puede acceder, cómo se pueden utilizar y qué riesgos podrían surgir, como que un sitio intente robar tus datos, junto con un enlace para aprender a mantenerte seguro. También otorgamos a las organizaciones el control sobre qué funciones pueden habilitar o usar los usuarios en sus espacios de trabajo.

Pasos que puedes seguir para estar más seguro

La inyección de prompts es un desafío de seguridad de vanguardia que anticipamos seguirá evolucionando con el tiempo. Nuevos niveles de inteligencia y capacidad requieren que la tecnología, la sociedad y la estrategia de mitigación de riesgos coevolucionen. Al igual que con los virus informáticos de principios de los 2000, creemos que es importante que todos comprendan la amenaza de las inyecciones de prompts y cómo gestionar el riesgo, para que todos podamos aprender a beneficiarnos de esta tecnología de manera segura. Mantenerse al tanto y ser cauteloso ayuda a mantener los datos más seguros al usar IA y funciones de agentes que pueden actuar en su nombre.

Utiliza las funciones integradas para limitar el acceso a datos sensibles.

Cuando sea posible, limita el acceso de un agente solo a los datos sensibles o credenciales que necesita para completar la tarea. Por ejemplo, al utilizar el modo agente en ChatGPT Atlas para investigar sobre vacaciones, si el agente solo está realizando investigaciones y no necesita acceso con sesión iniciada, utiliza el modo “sesión cerrada”.

Cuando un agente solicite confirmación, revisa detenidamente que esté a punto de hacer lo correcto

A menudo diseñamos agentes para obtener una confirmación final de su parte antes de realizar ciertas acciones importantes, como completar una compra o enviar un correo electrónico. Cuando un agente te solicite confirmar una acción, verifica cuidadosamente que la acción sea correcta y que cualquier información compartida sea adecuada para ese contexto.

Cuando un agente está operando en un sitio sensible, como un banco, observa al agente realizar su trabajo. Esto es como supervisar un coche autónomo manteniendo las manos en el volante.

Cuando sea posible, proporciona instrucciones explícitas a un agente

Dar a un agente una instrucción muy amplia como "revisa mis correos electrónicos y toma cualquier acción necesaria" puede facilitar que el contenido malicioso oculto engañe al modelo, aunque está diseñado para consultarte antes de realizar acciones sensibles.

Es más seguro solicitar a tu agente que realice tareas específicas y no otorgarle una amplia libertad para seguir potencialmente instrucciones perjudiciales de otras fuentes, como correos electrónicos. Aunque esto no garantiza que no ocurran ataques, dificulta que los atacantes logren su objetivo.

Mantente informado y sigue las mejores prácticas de seguridad

A medida que la tecnología de IA evoluciona, surgirán nuevos riesgos y salvaguardias. Sigue las actualizaciones de OpenAI y otras fuentes confiables para aprender sobre las mejores prácticas.

De cara al futuro

La inyección de prompts sigue siendo un problema de investigación de vanguardia y desafiante, y al igual que las estafas tradicionales en la web, esperamos que nuestro trabajo continúe. Aunque aún no hemos observado una adopción significativa de esta técnica por parte de los atacantes, anticipamos que los adversarios invertirán tiempo y recursos considerables en encontrar maneras de hacer que las IA sucumban a estos ataques. Seguimos invirtiendo considerablemente en garantizar la seguridad de nuestros productos y en la investigación para mejorar la robustez de la IA ante este riesgo. Compartiremos actualizaciones a medida que sepamos más, incluido el progreso continuo en nuestro trabajo de seguridad en esta área. Por ejemplo, estamos elaborando un informe que publicaremos pronto para compartir más detalles sobre cómo detectamos si la comunicación de tu IA con internet podría transmitir información de tu conversación.

Nuestro objetivo es hacer que estos sistemas sean tan confiables y seguros como trabajar con tu colega o amigo más confiable y experto en seguridad. Continuaremos aprendiendo del uso en el mundo real, iterando de manera segura y publicando lo que aprendamos a medida que la tecnología avance.