Pasar al contenido principal
OpenAI

Presentamos OpenAI Privacy Filter

Nuestro modelo puntero para enmascarar información de identificación personal (PII) en textos

Cargando...

Hoy lanzamos OpenAI Privacy Filter, un modelo de pesos abiertos para detectar y ocultar información de identificación personal (PII) en textos. Este lanzamiento forma parte de un esfuerzo más amplio por impulsar un ecosistema de software más resiliente y ofrecer a los desarrolladores una infraestructura práctica para trabajar con IA de forma segura, con herramientas y modelos que facilitan, desde el principio, la implementación de protecciones sólidas de privacidad y seguridad.

Privacy Filter es un modelo pequeño con una capacidad puntera de detección de datos personales. Está diseñado para flujos de trabajo de privacidad de alto rendimiento y detecta PII en texto no estructurado a partir del contexto. Se puede ejecutar de forma local, lo que significa que la PII se puede enmascarar o censurar sin salir de tu equipo. Procesa entradas largas de forma eficiente y toma decisiones de censura en una única pasada rápida.

En OpenAI usamos una versión ajustada de Privacy Filter en nuestros propios flujos de trabajo de preservación de la privacidad. Desarrollamos Privacy Filter porque creemos que, con los últimos avances en IA, podíamos elevar el nivel de privacidad más allá de lo que ofrecía el mercado. La versión de Privacy Filter que lanzamos hoy alcanza un rendimiento puntero en el benchmark PII-Masking-300k, tras corregir los problemas de anotación que detectamos durante la evaluación.

Con este lanzamiento, los desarrolladores pueden ejecutar Privacy Filter en sus propios entornos, ajustarlo a sus casos de uso e integrar protecciones de privacidad más sólidas en los flujos de entrenamiento, indexación, registro y revisión.

Un modelo pequeño con capacidad de detección de datos personales de vanguardia

La protección de la privacidad en los sistemas de IA modernos depende de algo más que la comparación de patrones. Las herramientas tradicionales de detección de PII suelen basarse en reglas deterministas para formatos como los números de teléfono y las direcciones de correo electrónico. Funcionan bien en casos acotados, pero a menudo se les escapa la información personal más sutil y tienen problemas con el contexto.

Privacy Filter se ha construido con un mayor conocimiento del lenguaje y del contexto, para ofrecer un rendimiento más matizado. Al combinar una sólida comprensión del lenguaje con un sistema de etiquetado específico para la privacidad, puede detectar un abanico más amplio de PII en texto no estructurado, incluidos casos en los que la decisión correcta depende del contexto. Distingue mejor entre la información que debe conservarse por ser pública y la información que debe enmascararse o censurarse por referirse a un particular.

El resultado es un modelo suficientemente sólido para ofrecer un rendimiento de filtrado de privacidad de vanguardia. Al mismo tiempo, el modelo es suficientemente pequeño para ejecutarse localmente, lo que significa que los datos aún no filtrados pueden permanecer en el dispositivo, con menor riesgo de exposición, en lugar de enviarse a un servidor para su desidentificación. 

Descripción general del modelo

Privacy Filter es un modelo bidireccional de clasificación de tokens con decodificación de spans. Parte de un punto de control autorregresivo preentrenado y se adapta para convertirse en un clasificador de tokens sobre una taxonomía fija de etiquetas de privacidad. En lugar de generar texto token a token, etiqueta la secuencia de entrada en una sola pasada y luego decodifica spans coherentes mediante un procedimiento de Viterbi restringido.

Esta arquitectura le otorga al Filtro de Privacidad algunas propiedades útiles para el uso en producción:

  • Rápido y eficiente: todos los tokens se etiquetan en una sola pasada.
  • Sensible al contexto: el conocimiento lingüístico previo del modelo permite detectar spans de PII a partir del contexto circundante.
  • Contexto extenso: el modelo publicado admite hasta 128 000 tokens de contexto.
  • Configurable: los desarrolladores pueden ajustar los puntos de operación para equilibrar la recuperación y la precisión según su flujo de trabajo.

El modelo publicado tiene 1 500 millones de parámetros en total, de los cuales 50 millones son activos.

Privacy Filter identifica fragmentos en ocho categorías

  • private_person
  • private_address
  • private_email
  • private_phone
  • private_url
  • private_date
  • account_number
  • secret

La categoría account_number ayuda a enmascarar una amplia variedad de números de cuenta, incluyendo información bancaria como números de tarjetas de crédito y cuentas bancarias, mientras que secret sirve para enmascarar elementos como contraseñas y claves de API.

Estas etiquetas se decodifican con etiquetas de fragmentos BIOES, lo que ayuda a generar límites de enmascaramiento más limpios y coherentes.

Texto de entrada de ejemplo

Asunto: seguimiento de la planificación del segundo trimestre

Hola, Jordan:

Gracias de nuevo por la reunión de esta mañana. Quería platicar sobre las fechas revisadas para el despliegue del T2 y confirmar que el lanzamiento del producto está previsto para el 18 de septiembre de 2026. Como referencia, el archivo del proyecto figura con el código 4829-1037-5581. Si cambia algo de tu parte, escríbeme a maya.chen@example.com o llámame al +1 (415) 555-0124.

Atentamente,

Maya Chen

Texto tras enmascarar los identificadores personales

Asunto: seguimiento de la planificación del segundo trimestre

Hola, [PRIVATE_PERSON]:

Gracias de nuevo por la reunión de esta mañana. Quería comentarte el calendario revisado para el despliegue del T2 y confirmar que el lanzamiento del producto está previsto para el [PRIVATE_DATE]. Como referencia, el archivo del proyecto figura con [ACCOUNT_NUMBER]. Si algo cambia de tu parte, escribe a [PRIVATE_EMAIL] o llámame al [PRIVATE_PHONE].

Atentamente,

[PRIVATE_PERSON]

Cómo lo construimos

Desarrollamos Privacy Filter en varias fases.

Primero, desarrollamos una taxonomía de privacidad que define los tipos de fragmentos que el modelo debe detectar. Incluye identificadores personales, datos de contacto, direcciones, fechas privadas, muchos tipos distintos de números de cuenta (como información de crédito y banca) y credenciales confidenciales (secrets) como claves API y contraseñas.

En segundo lugar, convertimos un modelo de lenguaje preentrenado en un clasificador de tokens bidireccional sustituyendo la cabeza de modelado de lenguaje por la de clasificación de tokens, y lo reentrenamos con un objetivo de clasificación supervisada.

En tercer lugar, entrenamos el modelo con una combinación de datos públicos y sintéticos, diseñados para capturar tanto textos realistas como patrones de privacidad difíciles. En las partes de los datos públicos donde las etiquetas estaban incompletas, utilizamos anotación y revisión asistidas por modelo para mejorar la cobertura. También generamos ejemplos sintéticos para aumentar la diversidad en formatos, contextos y subtipos de privacidad.

En el momento de la inferencia, las predicciones a nivel de token del modelo se decodifican en segmentos coherentes mediante decodificación restringida de secuencias. Este enfoque preserva la amplia comprensión del lenguaje del modelo preentrenado, a la vez que lo especializa para la detección de privacidad.

Rendimiento de Privacy Filter

Evaluamos Privacy Filter en benchmarks estándar y en evaluaciones adicionales sintéticas y de tipo conversacional, diseñadas para poner a prueba casos más difíciles y más sensibles al contexto.

En la evaluación comparativa PII-Masking-300k(se abre en una nueva ventana) , Privacy Filter alcanza una puntuación F1 del 96 % (94.04 % de precisión y 98.04 % de exhaustividad). En una versión corregida de la evaluación de referencia que toma en cuenta los problemas de anotación del conjunto de datos identificados durante la revisión, la puntuación F1 es del 97.43 % (96.79 % de precisión y 98.08 % de exhaustividad).

También hemos comprobado que el modelo puede adaptarse de forma eficiente. El ajuste fino con una pequeña cantidad de datos mejora rápidamente la precisión en tareas específicas de un dominio: aumenta la puntuación F1 del 54 % al 96 % y se acerca a la saturación en el benchmark de adaptación de dominio que evaluamos.

Más allá del rendimiento en evaluaciones comparativas, Privacy Filter está diseñado para el filtrado práctico de la privacidad en textos reales con ruido. Entre estos casos se incluyen documentos largos, referencias ambiguas, cadenas con formato mixto y secretos relacionados con el software. La tarjeta del modelo (se abre en una nueva ventana)también recoge una evaluación específica sobre la detección de secretos en bases de código y pruebas de estrés con ejemplos multilingües, adversariales y dependientes del contexto.

Limitaciones

Privacy Filter no es una herramienta de anonimización, ni una certificación de cumplimiento, ni un sustituto de la revisión de políticas en entornos críticos. Es un componente dentro de un sistema más amplio de privacidad desde el diseño.

Su comportamiento refleja la taxonomía de etiquetas y los límites de decisión con los que se entrenó. Cada organización puede querer políticas de detección o enmascaramiento distintas, y estas pueden requerir una evaluación específica del dominio o un ajuste fino adicional. El rendimiento también puede variar según los idiomas, los sistemas de escritura, las convenciones de nomenclatura y los dominios que difieran de la distribución de entrenamiento.

Como todos los modelos, Privacy Filter puede cometer errores. Puede pasar por alto identificadores poco comunes o referencias privadas ambiguas, y puede ocultar entidades de más o de menos cuando el contexto es limitado, especialmente en secuencias cortas. En dominios de alta sensibilidad, como los flujos de trabajo legales, médicos y financieros, la revisión humana y la evaluación y el ajuste fino específicos del dominio siguen siendo importantes.

Disponibilidad

Lanzamos OpenAI Privacy Filter para apoyar una protección de la privacidad más sólida en todo el ecosistema.

El modelo está disponible hoy bajo la licencia Apache 2.0 en Hugging Face(se abre en una nueva ventana) y Github(se abre en una nueva ventana). Está diseñado para la experimentación, la personalización y la implementación comercial, y se puede ajustar para diferentes distribuciones de datos y políticas de privacidad.

Junto con el modelo, compartimos documentación que abarca la arquitectura del modelo, la taxonomía de etiquetas, los controles de decodificación, los casos de uso previstos, la configuración de la evaluación y las limitaciones conocidas, para que los equipos puedan comprender tanto lo que el modelo hace bien como dónde debe usarse con cuidado.

De cara al futuro

La protección de la privacidad de los sistemas de IA es un esfuerzo continuo en la investigación, el diseño de productos, la evaluación y la implementación.

Privacy Filter refleja una dirección que consideramos importante: modelos pequeños y eficientes con capacidad puntera en tareas acotadas que son importantes para los sistemas de IA del mundo real. Lo lanzamos porque creemos que la infraestructura de preservación de la privacidad debería ser más fácil de inspeccionar, ejecutar, adaptar y mejorar.

Nuestro objetivo es que los modelos aprendan sobre el mundo, no sobre particulares. Privacy Filter ayuda a conseguirlo.

Lanzamos esta versión preliminar de Privacy Filter para recibir comentarios de la comunidad de investigación y privacidad, y seguir mejorando el rendimiento del modelo.