Zum Hauptinhalt springen
OpenAI

Einführung von OpenAI Privacy Filter

Unser hochmodernes Modell zur Maskierung personenbezogener Daten (PII) in Texten

Laden …

Heute veröffentlichen wir OpenAI Privacy Filter, ein Open-Weight-Modell zur Erkennung und Schwärzung personenbezogener Daten (PII) in Texten. Diese Veröffentlichung ist Teil unserer umfassenderen Bestrebungen, ein resilienteres Software-Ökosystem zu unterstützen, indem wir Entwickler:innen eine praktische Infrastruktur bereitstellen, um sicher mit KI zu entwickeln, einschließlich Werkzeuge und Modelle, die es erleichtern, robuste Datenschutz- und Sicherheitsvorkehrungen von Anfang an umzusetzen.

Privacy Filter ist ein kleines Modell mit Frontier-Fähigkeit zur Erkennung personenbezogener Daten. Es ist für Datenschutz-Workflows mit hohem Durchsatz konzipiert und kann eine kontextsensitive Erkennung von PII in unstrukturiertem Text durchführen. Es kann lokal ausgeführt werden, was bedeutet, dass personenbezogene Daten maskiert oder geschwärzt werden können, ohne deinen Rechner zu verlassen. Es verarbeitet lange Eingaben effizient und trifft Entscheidungen zur Schwärzung in einem einzigen schnellen Durchlauf.

Bei OpenAI verwenden wir in unseren eigenen datenschutzwahrenden Workflows eine feinabgestimmte Version von Privacy Filter. Wir haben Privacy Filter entwickelt, weil wir überzeugt sind, dass wir mit den neuesten KI-Fähigkeiten die Standards für den Datenschutz über das hinaus anheben können, was bereits auf dem Markt verfügbar war. Die Version von Privacy Filter, die wir heute veröffentlichen, erzielt Spitzenleistungen beim Benchmark PII-Masking-300k, nachdem die Korrektur der Annotationsprobleme berücksichtigt wurde, die wir während der Evaluierung identifiziert haben.

Mit dieser Version können Entwickler:innen Privacy Filter in ihren eigenen Umgebungen ausführen, für ihre eigenen Anwendungsfälle optimieren und stärkere Datenschutzvorkehrungen in Training-, Indexierungs-, Protokollierungs- und Überprüfungs-Pipelines integrieren.

Ein kleines Modell mit Frontier-Fähigkeit zur Erkennung personenbezogener Daten

Der Schutz der Privatsphäre in modernen KI-Systemen hängt von mehr ab als nur von Mustererkennung. Herkömmliche PII-Erkennungstools basieren häufig auf deterministischen Regeln für Formate wie Telefonnummern und E-Mail-Adressen. Sie können für eng begrenzte Fälle gut geeignet sein, übersehen jedoch oft subtilere personenbezogene Informationen und haben Schwierigkeiten mit dem Kontext.

Privacy Filter ist mit einem tieferen Sprach- und Kontextbewusstsein ausgestattet und sorgt so für eine differenziertere Leistung. Durch die Kombination eines ausgeprägten Sprachverständnisses mit einem datenschutzspezifischen Kennzeichnungssystem kann es in unstrukturiertem Text ein breiteres Spektrum an PII erkennen, einschließlich Fällen, in denen die richtige Entscheidung vom Kontext abhängt. Es kann besser zwischen Informationen unterscheiden, die erhalten bleiben sollen, weil sie öffentlich sind, und Informationen, die maskiert oder geschwärzt werden sollen, weil sie sich auf eine Privatperson beziehen.

Das Ergebnis ist ein Modell, das stark genug ist, um eine Leistung bei der Datenschutzfilterung auf Frontier-Niveau zu liefern. Gleichzeitig ist das Modell klein genug, um lokal ausgeführt zu werden – das heißt, Daten, die noch gefiltert werden müssen, können auf dem Gerät verbleiben, mit geringerem Offenlegungsrisiko, anstatt zur De-Identifizierung an einen Server gesendet werden zu müssen. 

Modellüberblick

Privacy Filter ist ein bidirektionales Token-Klassifizierungsmodell mit Span-Decodierung. Es beginnt mit einem autoregressiven vortrainierten Checkpoint und wird anschließend zu einem Token-Klassifikator über eine feste Taxonomie von Datenschutz-Labels angepasst. Anstatt Text Token für Token zu generieren, versieht es eine Eingabesequenz in einem Durchgang mit Labels und dekodiert anschließend zusammenhängende Spannen mit einem eingeschränkten Viterbi-Verfahren.

Diese Architektur verleiht dem Privacy Filter einige nützliche Eigenschaften für den Produktionseinsatz:

  • Schnell und effizient: Alle Tokens werden in einem einzigen Forward-Pass gekennzeichnet.
  • Kontextbewusst: Das Sprachmodell ermöglicht es, PII-Spannen anhand des umgebenden Kontexts zu erkennen.
  • Langer Kontext: Das veröffentlichte Modell unterstützt einen Kontext von bis zu 128.000 Token.
  • Konfigurierbar: Entwickler:innen können Betriebspunkte anpassen, um je nach Workflow zwischen Erkennungsrate und Präzision abzuwägen.

Das veröffentlichte Modell hat 1,5 Mrd. Gesamtparameter, davon sind 50 Mio. aktive Parameter.

Privacy Filter prognostiziert Bereiche in acht Kategorien:

  • private_person
  • private_address
  • private_email
  • private_phone
  • private_url
  • private_date
  • account_number
  • secret

Die Kategorie account_number hilft dabei, eine Vielzahl von Kontonummern zu maskieren, einschließlich Bankinformationen wie Kreditkartennummern und Bankkontonummern, während secret dabei hilft, Passwörter, API-Schlüssel und ähnliches zu maskieren.

Diese Labels werden mit BIOES-Span-Tags dekodiert, was zu saubereren und kohärenteren Maskierungsgrenzen beiträgt.

Beispiel-Eingabetext

Betreff: Q2-Planung – Nachbereitung

Hallo Herr Schmitt,

nochmals vielen Dank, dass Sie sich heute bereits früher Zeit genommen haben. Ich wollte mich mit dem überarbeiteten Zeitplan für den Q2-Rollout noch einmal melden und bestätigen, dass die Produkteinführung für den 18. September 2026 geplant ist. Zur Referenz ist die Projektdatei unter 4829-1037-5581 aufgeführt. Falls sich bei Ihnen etwas ändert, können Sie mir gern hier unter maya.chen@example.com antworten oder mich unter +1 (415) 555-0124 anrufen.

Mit freundlichen Grüßen

Maya Chen

Text nach dem Maskieren personenbezogener Identifikatoren

Betreff: Q2-Planung – Nachbereitung

Hallo [PRIVATE_PERSON],

nochmals vielen Dank, dass Sie sich heute bereits früher Zeit genommen haben. Ich wollte mich noch einmal mit dem überarbeiteten Zeitplan für die Produkteinführung im 2. Quartal melden und bestätigen, dass die Produkteinführung für [PRIVATE_DATE] geplant ist. Zur Orientierung ist die Projektdatei unter [ACCOUNT_NUMBER] aufgeführt. Falls sich bei Ihnen etwas ändert, können Sie mir hier unter [PRIVATE_EMAIL] antworten oder mich unter [PRIVATE_PHONE] anrufen.

Mit freundlichen Grüßen

[PRIVATE_PERSON]

Entwicklung

Wir haben Privacy Filter in mehreren Phasen entwickelt.

Zunächst haben wir eine Datenschutz-Taxonomie entwickelt, die die Arten von Textspannen definiert, die das Modell erkennen soll. Dazu gehören persönliche Identifikationsmerkmale, Kontaktdaten, Adressen, private Termine, viele verschiedene Arten von Kontonummern, etwa Kreditkarten- und Bankdaten, sowie Geheimnisse wie API-Schlüssel und Passwörter.

Zweitens wandelten wir ein vortrainiertes Sprachmodell in einen bidirektionalen Token-Klassifikator um, indem wir den Sprachmodellierungs-Head durch einen Token-Klassifikations-Head ersetzten und es anschließend mit einem überwachten Klassifikationsziel nachtrainierten. 

Drittens wurden es anhand einer Mischung aus öffentlich verfügbaren und synthetischen Daten trainiert, die sowohl realistischen Text als auch schwierige Datenschutzmuster abbilden sollten. In Teilen der öffentlichen Daten, in denen Kennzeichnungen unvollständig waren, nutzten wir modellgestützte Annotation und Überprüfung, um die Abdeckung zu verbessern. Wir haben außerdem synthetische Beispiele erstellt, um die Vielfalt über verschiedene Formate, Kontexte und Datenschutz-Untertypen hinweg zu erhöhen.

Zum Inferenzzeitpunkt werden die Token-Vorhersagen des Modells mithilfe einer eingeschränkten Sequenzdecodierung in kohärente Spannen decodiert. Dieser Ansatz bewahrt das breite Sprachverständnis des vortrainierten Modells, während es gleichzeitig auf die Erkennung sensibler Daten spezialisiert wird.

Funktionsweise von Privacy Filter

Wir haben Privacy Filter anhand von Standard-Benchmarks sowie zusätzlichen synthetischen und Chat-ähnlichen Bewertungen bewertet, die darauf ausgelegt sind, schwierigere, kontextsensitivere Fälle zu testen.

Bei dem PII-Masking-300k(wird in einem neuen Fenster geöffnet)-Benchmark erzielt Privacy Filter ein F1-Ergebnis von 96 % (94,04 % Präzision und 98,04 % Recall). Bei einer korrigierten Version des Benchmarks, die die während der Überprüfung identifizierten Probleme bei der Datensatzannotation berücksichtigt, beträgt das F1-Ergebnis 97,43 % (96,79 % Precision und 98,08 % Recall).

Wir haben außerdem festgestellt, dass das Modell effizient angepasst werden kann. Die Feinabstimmung mit selbst einer kleinen Datenmenge verbessert die Genauigkeit bei bereichsspezifischen Aufgaben schnell, erhöht das F1-Ergebnis von 54 % auf 96 % und nähert sich bei dem von uns evaluierten Benchmark zur Domänenanpassung der Sättigung.

Über Benchmark-Ergebnisse hinaus ist Privacy Filter für die praktische Datenschutzfilterung in verrauschten Texten aus der realen Welt konzipiert. Dazu gehören lange Dokumente, mehrdeutige Verweise, Zeichenfolgen in gemischten Formaten und softwarebezogene Geheimnisse. Die Modellkarte (wird in einem neuen Fenster geöffnet)enthält außerdem gezielte Evaluierungen zur Erkennung von Geheimnissen in Codebasen sowie Stresstests anhand mehrsprachiger, adversarialer und kontextabhängiger Beispiele.

Einschränkungen

Privacy Filter ist weder ein Anonymisierungstool noch eine Compliance-Zertifizierung oder ein Ersatz für eine Richtlinienprüfung in kritischen Umgebungen. Es ist ein Bestandteil eines umfassenderen Systems für Datenschutz durch Technikgestaltung.

Sein Verhalten spiegelt die Bezeichnungstaxonomie und die Entscheidungsgrenzen wider, mit denen es trainiert wurde. Unterschiedliche Organisationen können unterschiedliche Richtlinien zur Erkennung oder Maskierung wünschen, und diese Richtlinien können eine Evaluierung innerhalb der Domäne oder eine weitere Feinabstimmung erfordern. Die Leistung kann auch zwischen Sprachen, Schriftsystemen, Namenskonventionen und Fachbereichen variieren, die von der Trainingsverteilung abweichen.

Wie alle Modelle kann Privacy Filter Fehler machen. Ungewöhnliche Bezeichner oder mehrdeutige private Verweise können übersehen werden, und Entitäten können unzureichend oder übermäßig geschwärzt werden, wenn nur begrenzter Kontext vorliegt, insbesondere in kurzen Sequenzen. In sensiblen Bereichen wie rechtlichen, medizinischen und finanziellen Arbeitsabläufen sind menschliche Überprüfung sowie domänenspezifische Evaluierung und Feinabstimmung weiterhin wichtig.

Verfügbarkeit

Wir veröffentlichen den OpenAI Privacy Filter, um einen stärkeren Schutz der Privatsphäre im gesamten Ökosystem zu unterstützen.

Das Modell ist ab heute unter der Apache-2.0-Lizenz auf Hugging Face(wird in einem neuen Fenster geöffnet) und Github(wird in einem neuen Fenster geöffnet) verfügbar. Es ist für Experimente, Anpassungen und den kommerziellen Einsatz vorgesehen und kann auf unterschiedliche Datenverteilungen und die Datenschutzrichtlinie feinabgestimmt werden.

Zusammen mit dem Modell stellen wir Dokumentation zur Modellarchitektur, Label-Taxonomie, Dekodierungssteuerungen, vorgesehenen Anwendungsfällen, zum Evaluierungsaufbau und zu bekannten Einschränkungen bereit, damit Teams sowohl verstehen können, was das Modell gut kann, als auch, wo es mit Vorsicht eingesetzt werden sollte.

Blick in die Zukunft

Der Schutz der Privatsphäre in KI-Systemen ist eine fortlaufende Aufgabe in den Bereichen Forschung, Produktdesign, Bewertung und Bereitstellung.

Privacy Filter steht für eine Richtung, die wir für wichtig halten: kleine, effiziente Modelle mit Frontier-Fähigkeiten bei eng umrissenen Aufgaben, die für reale KI-Systeme relevant sind. Wir veröffentlichen es, weil wir der Meinung sind, dass datenschutzfreundliche Infrastruktur leichter zu prüfen, zu betreiben, anzupassen und zu verbessern sein sollte.

Unser Ziel ist es, dass Modelle Erkenntnisse über die Welt gewinnen, nicht über einzelne Personen. Privacy Filter hilft dabei, das möglich zu machen.

Wir veröffentlichen diese Vorschau von Privacy Filter, um Feedback aus der Forschungs- und Datenschutz-Community zu erhalten und die Modellleistung weiter zu verbessern.