Ir al contenido principal
OpenAI

7 de noviembre de 2025

Seguridad

Comprender las inyecciones de prompts: un desafío de seguridad de vanguardia

Las herramientas de IA están comenzando a hacer más que responder preguntas. Ahora pueden navegar por la web, asistir en investigaciones, planificar viajes y facilitar la compra de productos. A medida que se vuelven más capaces, con la capacidad de acceder a tus datos en otras aplicaciones y realizar acciones en tu nombre, surgen nuevos retos de seguridad. Uno en el que estamos muy enfocados es la inyección de prompts.

Un diagrama que ilustra cómo funciona un ataque de inyección de prompts. A la izquierda, un icono de un usuario sonriente está etiquetado como «El usuario pide ayuda a la IA con una tarea». Una flecha apunta al centro, donde un icono de pantalla de ordenador está etiquetado como «La IA ve un sitio web con el ataque», y encima de él una pequeña figura con sombrero y una sonrisa burlona está etiquetada como «El atacante insertó una inyección de prompts». Otra flecha apunta hacia la derecha mostrando un icono de documento con un triángulo de advertencia etiquetado como «IA engañada para realizar una acción no intencionada». El flujo muestra cómo un atacante puede manipular la IA a través de prompts inyectados.

¿Qué es una inyección de prompts?

La inyección de prompts es un tipo de ataque de ingeniería social específico de la IA conversacional. Los primeros sistemas de IA consistían en conversaciones entre un solo usuario y un solo agente de IA. En los productos de IA actuales, tu conversación puede incluir contenido de muchas fuentes, incluido internet. La idea de que un tercero (es decir, que no es el usuario ni la IA) pudiera engañar al modelo inyectando instrucciones maliciosas en el contexto de la conversación dio lugar al término «inyección de prompts».

De la misma manera que los correos electrónicos de phishing o las estafas en la web intentan engañar a las personas para que revelen información sensible, las inyecciones de prompts intentan engañar a las IA para que realicen acciones no solicitadas.

Imagina que has solicitado a una IA que te ayude a investigar en línea para tus vacaciones y, mientras lo hace, se encuentra con contenido engañoso o instrucciones dañinas ocultas en una página web, como en un comentario de un anuncio o en una reseña. El contenido podría estar cuidadosamente diseñado para intentar engañar a una IA y hacer que recomiende el listado incorrecto o, peor aún, para robar la información de tu tarjeta de crédito.

Estos son solo algunos ejemplos de ataques de «inyección de prompts»—instrucciones dañinas diseñadas para engañar a una IA y hacer que realice acciones no deseadas, a menudo ocultas dentro de contenido ordinario como una página web, un documento o un correo electrónico.

Estos riesgos aumentan a medida que las IA acceden a datos más sensibles y asumen más iniciativa y tareas más prolongadas.

Resumen

Lo que pediste a la IA que hiciera

Lo que hace el atacante

Resultado potencial si el ataque tiene éxito

Solicitas a una IA que investigue apartamentos, y se le inyecta un prompt para que recomiende un anuncio que no es la mejor opción para ti.

Solicitas a una IA que busque apartamentos con ciertos criterios específicos.

El atacante ha incluido un ataque de inyección de prompts en el anuncio del apartamento para engañar a la IA y hacerle creer que su anuncio debe ser seleccionado independientemente de las preferencias indicadas por el usuario.

Si el ataque tiene éxito, la IA podría recomendar incorrectamente un anuncio de apartamento subóptimo según tus preferencias.

Le pides a un agente de IA que responda a tus correos electrónicos de la noche anterior, y termina compartiendo tus extractos bancarios.

Le pides a un agente de IA que responda en general a tus correos electrónicos de la noche anterior porque estás ocupado esta mañana.

Consulta «Cuando sea posible, da a un agente instrucciones explícitas» a continuación


El atacante te envió un correo electrónico que contiene información errónea que engaña al modelo para localizar tus extractos bancarios y compartirlos con el atacante.

Si el ataque tiene éxito, el agente podría buscar documentos como extractos bancarios en tu correo electrónico (al que diste acceso para la tarea) y compartirlos con el atacante.

Nuestro enfoque para proteger a los usuarios

La defensa contra la inyección de prompts es un desafío en toda la industria de la IA y un enfoque central en OpenAI. Aunque esperamos que los adversarios continúen desarrollando este tipo de ataques, estamos construyendo defensas diseñadas para realizar la tarea prevista por el usuario incluso cuando alguien intenta activamente inducirle a error. Esa capacidad es esencial para realizar de manera segura los beneficios de la IAG.

Para proteger a nuestros usuarios y mejorar nuestros modelos contra estos ataques, adoptamos un enfoque de múltiples capas, que incluye lo siguiente:

Capacitación en seguridad

Queremos una IA que reconozca las inyecciones de prompts y no se deje engañar por ellas. Sin embargo, la robustez ante ataques adversarios es un desafío de larga data para el aprendizaje automático y la IA, lo que convierte esto en un problema difícil y abierto. Hemos desarrollado una investigación denominada Jerarquía de Instrucciones para avanzar hacia modelos que distingan entre instrucciones confiables y no confiables. Continuamos desarrollando nuevos enfoques para entrenar modelos que reconozcan mejor los patrones de inyección de prompts, para que puedan ignorarlos o señalarlos a los usuarios. Una de las técnicas que aplicamos es el red-teaming automatizado, un área que hemos estado estudiando(se abre en una ventana nueva) durante años, para desarrollar nuevos ataques de inyección de prompts.

Monitorización

Hemos desarrollado varios monitores automatizados basados en IA para identificar y bloquear ataques de inyección de prompts. Estos complementan los enfoques de seguridad porque pueden actualizarse rápidamente para bloquear con rapidez cualquier nuevo ataque que detectemos. Estos monitores no solo ayudan a identificar posibles ataques de inyección de prompts contra nuestros usuarios, sino que también nos permiten detectar investigaciones y pruebas adversarias de inyección de prompts que utilicen nuestra plataforma, antes de que esos ataques se desplieguen en el entorno real.

Protecciones de seguridad

Hemos diseñado nuestros productos e infraestructura con varias capas de protecciones de seguridad para ayudar a proteger los datos de los usuarios. Estas características, que exploraremos con más detalle técnico en futuras publicaciones, están adaptadas a cada producto. Por ejemplo, para ayudarte a evitar sitios no confiables, te pediremos que apruebes ciertos enlaces en ChatGPT, especialmente en sitios web que nos solicitan no catalogarlos(se abre en una ventana nueva), antes de que puedan ser visitados. Cuando nuestra IA utiliza herramientas para ejecutar otros programas o código (como en Canvas o nuestra herramienta de desarrollo Codex), empleamos una técnica llamada sandboxing para evitar que el modelo realice cambios perjudiciales que podrían ser el resultado de una inyección de prompts.

Dar control a los usuarios

Incluimos controles integrados en nuestros productos para ayudar a las personas usuarias a protegerse. Por ejemplo, en ChatGPT Atlas, puedes seleccionar el modo desconectado, que permite que el agente de ChatGPT inicie tareas sin necesidad de iniciar sesión en los sitios. El agente de ChatGPT también se detiene y solicita confirmación antes de proceder con pasos sensibles, como completar una compra. Cuando el agente opera en sitios sensibles, también hemos implementado un «Modo de Vigilancia» que te alerta sobre la naturaleza sensible del sitio y requiere que mantengas la pestaña activa para observar al agente realizar su trabajo. El agente se detendrá si te alejas de la pestaña con información sensible. Esto asegura que te mantengas al tanto—y en control—de las acciones que está realizando el agente.

Red-teaming

Llevamos a cabo un extenso red-teaming con equipos internos y externos para probar y mejorar nuestras defensas, emular el comportamiento de los atacantes y encontrar nuevas formas de mejorar nuestra seguridad. Esto incluye miles de horas centradas específicamente en la inyección de prompts. A medida que descubrimos nuevas técnicas y ataques, nuestros equipos abordan proactivamente las vulnerabilidades de seguridad y mejoran las mitigaciones de nuestro modelo.

Bug bounty

Para fomentar que los investigadores de seguridad independientes de buena fe nos ayuden a descubrir nuevas técnicas y ataques de inyección de prompts, ofrecemos recompensas económicas a través de nuestro programa de recompensas por la detección de errores(se abre en una ventana nueva) cuando demuestran una vía de ataque realista que podría resultar en una exposición no intencionada de datos de usuarios. Incentivamos a los colaboradores externos a identificar rápidamente estos problemas para que podamos resolverlos y fortalecer aún más nuestras defensas.

Permitir a los usuarios decidir

Informamos a los usuarios sobre los riesgos de utilizar ciertas funciones del producto para que puedan tomar decisiones informadas. Por ejemplo, al conectar ChatGPT con otras aplicaciones, explicamos a qué datos se puede acceder, cómo se pueden usar y qué riesgos podrían surgir, como que un sitio intente robar tus datos, junto con un enlace para aprender a mantenerte más seguro. También otorgamos a las organizaciones el control sobre qué funciones pueden habilitarse o utilizarse por los usuarios en sus áreas de trabajo.

Pasos que puedes seguir para estar más seguro/a

La inyección de prompts es un desafío de seguridad de vanguardia que prevemos seguirá evolucionando con el tiempo. Nuevos niveles de inteligencia y capacidad requieren que la tecnología, la sociedad y la estrategia de mitigación de riesgos coevolucionen. Y, al igual que con los virus informáticos a principios de la década de 2000, creemos que es importante que todas las personas comprendan la amenaza de las inyecciones de prompts y cómo gestionar el riesgo, para que todas podamos aprender a beneficiarnos de esta tecnología de forma segura. Mantenerse al tanto y ser prudente ayuda a mantener tus datos más seguros al usar funciones de IA y funciones agénticas que pueden actuar en tu nombre.

Usa las funciones integradas para limitar el acceso a datos sensibles

Cuando sea posible, limita el acceso de un agente únicamente a los datos confidenciales o credenciales necesarios para completar la tarea. Por ejemplo, al utilizar el modo agente en ChatGPT Atlas para investigar sobre vacaciones, si el agente solo está realizando la investigación y no necesita acceso con sesión iniciada, utiliza el modo «sin sesión iniciada».

Cuando un agente solicite confirmación, revisa cuidadosamente que esté a punto de hacer lo correcto

A menudo diseñamos agentes para obtener una confirmación final de tu parte antes de realizar ciertas acciones importantes, como completar una compra o enviar un correo electrónico. Cuando un agente te solicite confirmar una acción, verifica detenidamente que la acción sea correcta y que cualquier información compartida sea apropiada para ese contexto.

Cuando un agente esté operando en un sitio sensible, como tu banco, observa al agente mientras realiza su trabajo. Esto es similar a vigilar un coche autónomo manteniendo las manos en el volante.

Cuando sea posible, proporciona instrucciones explícitas a un agente

Dar a un agente una instrucción muy amplia como «revisa mis correos electrónicos y toma cualquier acción necesaria» puede facilitar que el contenido malicioso oculto engañe al modelo, aunque esté diseñado para consultarte antes de realizar acciones sensibles.

Es más seguro solicitar a tu agente que realice tareas específicas y no otorgarle un amplio margen para que potencialmente siga instrucciones perjudiciales de otras fuentes, como correos electrónicos. Aunque esto no garantiza que no habrá ataques, dificulta el éxito de los atacantes.

Mantente informado y sigue las mejores prácticas de seguridad

A medida que evoluciona la tecnología de la IA, surgirán nuevos riesgos y salvaguardias. Sigue las actualizaciones de OpenAI y otras fuentes confiables para aprender sobre las mejores prácticas.

De cara al futuro

La inyección de prompts sigue siendo un problema de investigación desafiante y de vanguardia, y al igual que las estafas tradicionales en la web, esperamos que nuestro trabajo continúe. Aunque todavía no hemos observado una adopción significativa de esta técnica por parte de los atacantes, anticipamos que los adversarios invertirán tiempo y recursos considerables en encontrar maneras de hacer que las inteligencias artificiales sucumban a estos ataques. Seguimos invirtiendo mucho en garantizar la seguridad de nuestros productos y en la investigación para mejorar la robustez de la IA ante este riesgo. Compartiremos actualizaciones a medida que obtengamos más información, incluyendo el progreso continuo en nuestro trabajo de seguridad en este ámbito. Por ejemplo, estamos preparando un informe que publicaremos pronto, en el que compartiremos más detalles sobre cómo detectamos si la comunicación de tu IA con internet podría transmitir información de tu conversación.

Nuestro objetivo es hacer que estos sistemas sean tan fiables y seguros como trabajar con tu colega o amigo más confiable y experto en seguridad. Seguiremos aprendiendo del uso en el mundo real, iterando de manera segura y publicando lo que aprendamos a medida que la tecnología avance.