Ir al contenido principal
OpenAI

Presentamos OpenAI Privacy Filter

Nuestro modelo puntero para enmascarar información de identificación personal (PII) en textos

Cargando…

Hoy lanzamos OpenAI Privacy Filter, un modelo de pesos abiertos para detectar y ocultar información de identificación personal (PII) en textos. Este lanzamiento forma parte de un esfuerzo más amplio por impulsar un ecosistema de software más resiliente y ofrecer a los desarrolladores una infraestructura práctica para trabajar con IA de forma segura, con herramientas y modelos que facilitan desde el principio la implementación de protecciones sólidas de privacidad y seguridad.

Privacy Filter es un modelo pequeño con una capacidad puntera de detección de datos personales. Está diseñado para flujos de trabajo de privacidad de alto rendimiento y detecta PII en texto no estructurado a partir del contexto. Se puede ejecutar de forma local, lo que significa que la PII se puede enmascarar o censurar sin salir de tu equipo. Procesa entradas largas de forma eficiente y toma decisiones de censura en una única pasada rápida.

En OpenAI usamos una versión ajustada de Privacy Filter en nuestros propios flujos de trabajo de preservación de la privacidad. Desarrollamos Privacy Filter porque creemos que, con los últimos avances en IA, podíamos elevar el nivel de privacidad más allá de lo que ofrecía el mercado. La versión de Privacy Filter que lanzamos hoy alcanza un rendimiento puntero en el benchmark PII-Masking-300k, tras corregir los problemas de anotación que detectamos durante la evaluación.

Con este lanzamiento, los desarrolladores pueden ejecutar Privacy Filter en sus propios entornos, ajustarlo a sus casos de uso e integrar protecciones de privacidad más sólidas en los flujos de entrenamiento, indexación, registro y revisión.

Un modelo pequeño con una capacidad puntera de detección de datos personales

La protección de la privacidad en los sistemas de IA modernos depende de algo más que la comparación de patrones. Las herramientas tradicionales de detección de PII suelen basarse en reglas deterministas para formatos como los números de teléfono y las direcciones de correo electrónico. Funcionan bien en casos acotados, pero a menudo se les escapa la información personal más sutil y tienen problemas con el contexto.

Privacy Filter se ha construido con un mayor conocimiento del lenguaje y del contexto, para ofrecer un rendimiento más matizado. Al combinar una sólida comprensión del lenguaje con un sistema de etiquetado específico para la privacidad, puede detectar un abanico más amplio de PII en texto no estructurado, incluidos casos en los que la decisión correcta depende del contexto. Distingue mejor entre la información que debe conservarse por ser pública y la información que debe enmascararse o censurarse por referirse a un particular.

El resultado es un modelo lo suficientemente potente para ofrecer un filtrado de privacidad de nivel puntero. Al mismo tiempo, el modelo es lo bastante pequeño para ejecutarse en local, lo que significa que los datos aún sin filtrar pueden permanecer en el dispositivo, con menos riesgo de exposición, en vez de tener que enviarse a un servidor para su desidentificación.

Arquitectura del modelo

Privacy Filter es un modelo bidireccional de clasificación de tokens con decodificación de spans. Parte de un punto de control autorregresivo preentrenado y se adapta para convertirse en un clasificador de tokens sobre una taxonomía fija de etiquetas de privacidad. En lugar de generar texto token a token, etiqueta la secuencia de entrada en una sola pasada y luego decodifica spans coherentes mediante un procedimiento de Viterbi restringido.

Esta arquitectura aporta a Privacy Filter algunas propiedades útiles para su uso en producción:

  • Rápido y eficiente: todos los tokens se etiquetan en una única pasada hacia adelante.
  • Sensible al contexto: el conocimiento lingüístico previo del modelo permite detectar spans de PII a partir del contexto circundante.
  • Contexto extenso: el modelo publicado admite hasta 128 000 tokens de contexto.
  • Configurable: los desarrolladores pueden ajustar los puntos de funcionamiento para equilibrar recall y precisión en función de su flujo de trabajo.

El modelo publicado tiene 1 500 millones de parámetros en total, de los cuales 50 millones son activos.

Privacy Filter predice spans en ocho categorías:

  • private_person
  • private_address
  • private_email
  • private_phone
  • private_url
  • private_date
  • account_number
  • secret

La categoría account_number ayuda a enmascarar una amplia variedad de números de cuenta, incluida información bancaria como números de tarjetas de crédito y de cuentas bancarias, mientras que secret ayuda a enmascarar elementos como contraseñas y claves API.

Estas etiquetas se decodifican con etiquetas de span BIOES, lo que permite generar límites de enmascaramiento más limpios y coherentes.

Texto de entrada de ejemplo

Asunto: Seguimiento de la planificación del T2

Hola, Jordan:

Gracias de nuevo por la reunión de esta mañana. Quería comentarte el calendario revisado para el despliegue del T2 y confirmar que el lanzamiento del producto está previsto para el 18 de septiembre de 2026. Como referencia, el archivo del proyecto figura con el código 4829-1037-5581. Si cambia algo por tu parte, escríbeme a maya.chen@example.com o llámame al +1 (415) 555-0124.

Atentamente,

Maya Chen

Texto tras enmascarar los identificadores personales

Asunto: Seguimiento de la planificación del T2

Hola, [PRIVATE_PERSON]:

Gracias de nuevo por la reunión de esta mañana. Quería comentarte el calendario revisado para el despliegue del T2 y confirmar que el lanzamiento del producto está previsto para el [PRIVATE_DATE]. Como referencia, el archivo del proyecto figura con el código [ACCOUNT_NUMBER]. Si cambia algo por tu parte, escríbeme a [PRIVATE_EMAIL] o llámame al [PRIVATE_PHONE].

Atentamente,

[PRIVATE_PERSON]

Cómo lo construimos

Desarrollamos Privacy Filter en varias fases.

En primer lugar, construimos una taxonomía de privacidad que define los tipos de spans que el modelo debe detectar. Incluye identificadores personales, datos de contacto, direcciones, fechas privadas, muchos tipos distintos de números de cuenta (como información de crédito y banca) y secretos como claves API y contraseñas.

En segundo lugar, convertimos un modelo de lenguaje preentrenado en un clasificador de tokens bidireccional sustituyendo la cabeza de modelado de lenguaje por la de clasificación de tokens, y lo reentrenamos con un objetivo de clasificación supervisada.

En tercer lugar, entrenamos el modelo con una combinación de datos públicos y sintéticos, diseñados para capturar tanto textos realistas como patrones de privacidad difíciles. En las partes de los datos públicos donde las etiquetas estaban incompletas, utilizamos anotación y revisión asistidas por modelo para mejorar la cobertura. También generamos ejemplos sintéticos para aumentar la diversidad en formatos, contextos y subtipos de privacidad.

En tiempo de inferencia, las predicciones a nivel de token del modelo se decodifican en spans coherentes mediante decodificación de secuencias restringidas. Este enfoque conserva la amplia comprensión del lenguaje del modelo preentrenado al tiempo que lo especializa para la detección de privacidad.

Rendimiento de Privacy Filter

Evaluamos Privacy Filter en benchmarks estándar y en evaluaciones adicionales sintéticas y de tipo conversacional, diseñadas para poner a prueba casos más difíciles y más sensibles al contexto.

En el benchmark PII-Masking-300k(se abre en una ventana nueva), Privacy Filter alcanza una puntuación F1 del 96 % (94,04 % de precisión y 98,04 % de recall). En una versión corregida del benchmark que tiene en cuenta los problemas de anotación del conjunto de datos detectados durante la revisión, la puntuación F1 es del 97,43 % (96,79 % de precisión y 98,08 % de recall).

También hemos comprobado que el modelo puede adaptarse de forma eficiente. El ajuste fino con una pequeña cantidad de datos mejora rápidamente la precisión en tareas específicas de un dominio: aumenta la puntuación F1 del 54 % al 96 % y se acerca a la saturación en el benchmark de adaptación de dominio que evaluamos.

Más allá del rendimiento en benchmarks, Privacy Filter está diseñado para el filtrado práctico de la privacidad en textos reales con ruido. Entre estos casos se incluyen documentos largos, referencias ambiguas, cadenas con formato mixto y secretos relacionados con el software. La tarjeta del modelo(se abre en una ventana nueva) también recoge una evaluación específica sobre la detección de secretos en bases de código y pruebas de estrés con ejemplos multilingües, adversariales y dependientes del contexto.

Limitaciones

Privacy Filter no es una herramienta de anonimización, ni una certificación de cumplimiento, ni un sustituto de la revisión de políticas en entornos críticos. Es un componente dentro de un sistema más amplio de privacidad desde el diseño.

Su comportamiento refleja la taxonomía de etiquetas y los límites de decisión con los que se entrenó. Cada organización puede querer políticas de detección o enmascaramiento distintas, y estas pueden requerir una evaluación específica del dominio o un ajuste fino adicional. El rendimiento también puede variar según los idiomas, los sistemas de escritura, las convenciones de nomenclatura y los dominios que difieran de la distribución de entrenamiento.

Como todos los modelos, Privacy Filter puede cometer errores. Puede pasar por alto identificadores poco habituales o referencias privadas ambiguas, y puede censurar en exceso o en defecto ciertas entidades cuando el contexto es limitado, sobre todo en secuencias cortas. En ámbitos de alta sensibilidad, como los flujos de trabajo legales, médicos y financieros, siguen siendo importantes la revisión humana y la evaluación y el ajuste fino específicos del dominio.

Disponibilidad

Lanzamos OpenAI Privacy Filter para apoyar una protección de la privacidad más sólida en todo el ecosistema.

El modelo ya está disponible bajo licencia Apache 2.0 en Hugging Face(se abre en una ventana nueva) y GitHub(se abre en una ventana nueva). Está pensado para la experimentación, la personalización y el despliegue comercial, y puede ajustarse para diferentes distribuciones de datos y políticas de privacidad.

Junto con el modelo, compartimos documentación que cubre la arquitectura, la taxonomía de etiquetas, los controles de decodificación, los casos de uso previstos, la configuración de evaluación y las limitaciones conocidas, para que los equipos entiendan tanto los puntos fuertes del modelo como los casos en los que conviene usarlo con cautela.

De cara al futuro

La protección de la privacidad en los sistemas de IA es un esfuerzo continuo que abarca la investigación, el diseño de productos, la evaluación y el despliegue.

Privacy Filter refleja una dirección que consideramos importante: modelos pequeños y eficientes con capacidad puntera en tareas acotadas que son importantes para los sistemas de IA del mundo real. Lo lanzamos porque creemos que la infraestructura de preservación de la privacidad debería ser más fácil de inspeccionar, ejecutar, adaptar y mejorar.

Nuestro objetivo es que los modelos aprendan sobre el mundo, no sobre particulares. Privacy Filter ayuda a conseguirlo.

Lanzamos esta versión preliminar de Privacy Filter para recibir comentarios de la comunidad de investigación y privacidad, y seguir mejorando el rendimiento del modelo.