Entwickler:innen helfen, sicherere KI-Erlebnisse für Jugendliche zu entwickeln
Wir führen eine Reihe von Richtlinien zum Schutz von Jugendlichen ein, die als Prompts für gpt-oss-safeguard formatiert sind
Heute veröffentlichen wir promptbasierte Sicherheitsrichtlinien(wird in einem neuen Fenster geöffnet), um Entwickler:innen dabei zu unterstützen, altersgerechte Schutzmaßnahmen für Jugendliche zu entwickeln. Diese Richtlinien wurden für die Verwendung mit unserem Open-Weight-Sicherheitsmodell gpt-oss-safeguard(wird in einem neuen Fenster geöffnet) entwickelt und machen es Entwickler:innen leichter, Sicherheitsanforderungen in nutzbare Klassifikatoren für reale Systeme umzusetzen.
Wir haben Open-Weight-Modelle veröffentlicht, um den Zugang zu leistungsstarker KI zu demokratisieren und umfassende Innovationen zu fördern. Gleichzeitig sind wir überzeugt, dass Sicherheit und Innovation Hand in Hand gehen und dass Entwickler:innen Zugang zu leistungsfähigen Modellen sowie zu den nötigen Tools und Richtlinien haben sollten, um sie sicher und verantwortungsvoll bereitzustellen. Wir haben diese Richtlinien entwickelt, um Entwickler:innen bei ihren Sicherheitsbemühungen zum Schutz junger Nutzer:innen zu unterstützen. Dabei haben wir uns auf Beiträge von vertrauenswürdigen externen Organisationen wie Common Sense Media(wird in einem neuen Fenster geöffnet) und everyone.ai(wird in einem neuen Fenster geöffnet) gestützt.
Uns ist bewusst, dass Jugendliche und Erwachsene unterschiedliche Bedürfnisse haben und dass Jugendliche zusätzlichen Schutz benötigen. Diese Richtlinien sollen Entwickler:innen dabei helfen, diesen Unterschieden Rechnung zu tragen und Erlebnisse zu schaffen, die für jüngere Nutzer:innen sowohl bekräftigend als auch angemessen sind.
Wir setzen uns seit Langem dafür ein, KI zu entwickeln, die jungen Menschen neue Möglichkeiten eröffnet und sie gleichzeitig schützt. Im Rahmen dieser Arbeit haben wir unsere Modellspezifikation(wird in einem neuen Fenster geöffnet) – die Richtlinien, die das beabsichtigte Verhalten der Modelle von OpenAI festlegen – um U18-Prinzipien(wird in einem neuen Fenster geöffnet) (Prinzipien für Unter-18-Jährige) ergänzt und produktspezifische Schutzmaßnahmen wie Kindersicherung und Altersvorhersage eingeführt, um jüngere Nutzer:innen besser zu schützen. Wir haben uns außerdem mit unserem Teen Safety Blueprint für branchenweite Schutzmaßnahmen eingesetzt.
Die heutige Veröffentlichung baut auf diesem Fundament auf. Wir machen diese Sicherheitsrichtlinien für Entwickler:innen verfügbar, um sie bei der Implementierung von Sicherheitsvorkehrungen für Jugendliche zu unterstützen und den Zugang im gesamten Open-Weights-Ökosystem zu demokratisieren.
Sicherheitsklassifizierer wie gpt-oss-safeguard können zwar schädliche Inhalte erkennen, doch sind sie dabei auf klare Definitionen dessen angewiesen, was diese Inhalte ausmacht. In der Praxis besteht eine der größten Herausforderungen für Entwickler:innen darin, Richtlinien zu definieren, die jugendspezifische Risiken präzise erfassen und in realen Systemen konsistent angewendet werden können.
Selbst erfahrene Teams haben oft Schwierigkeiten, übergeordnete Sicherheitsziele in präzise, operative Regeln zu übersetzen, insbesondere da dies sowohl Fachwissen als auch tiefgehendes KI-Wissen erfordert. Dies kann zu Schutzlücken, uneinheitlicher Durchsetzung oder übermäßig weit gefasster Filterung führen. Klare, gut abgegrenzte Richtlinien sind eine entscheidende Grundlage für effektive Sicherheitssysteme.
Um dieser Herausforderung zu begegnen, veröffentlichen wir eine Reihe von Sicherheitsrichtlinien(wird in einem neuen Fenster geöffnet), die auf die häufigen Risiken zugeschnitten sind, denen Jugendliche ausgesetzt sind, und die auf einer sorgfältigen Auswertung bestehender Forschung zu den besonderen Entwicklungsunterschieden von Jugendlichen basieren. Diese Richtlinien sind als Prompts strukturiert, die direkt mit gpt-oss-safeguard(wird in einem neuen Fenster geöffnet) und anderen Reasoning-Modellen verwendet werden können, sodass Entwickler:innen leichter konsistente Sicherheitsstandards in ihren Systemen anwenden können.
Die erste Version umfasst Richtlinien zu:
- Grafischen Gewaltdarstellungen
- Sexuell expliziten Inhalten
- Schädlichen Körperidealen und Verhaltensweisen
- Gefährlichen Aktivitäten und „Challenges“
- Romantischen oder gewalttätigen Rollenspielen
- Altersbeschränkten Waren und Dienstleistungen
Diese Richtlinien können für die Echtzeit-Inhaltsfilterung sowie für die Offlineanalyse von nutzergenerierten Inhalten verwendet werden.
Indem Richtlinien als Prompts strukturiert werden, können Entwickler:innen sie leichter in bestehende Arbeitsabläufe integrieren, an ihre Anwendungsfälle anpassen und im Laufe der Zeit iterativ weiterentwickeln.

Wir haben mit externen Organisationen, darunter Common Sense Media(wird in einem neuen Fenster geöffnet) und everyone.ai(wird in einem neuen Fenster geöffnet), zusammengearbeitet, um die Entwicklung dieser Richtlinien zu unterstützen. Ihre Expertise hat dazu beigetragen, den Umfang der abzudeckenden Inhalte mitzugestalten, die Struktur der Prompts zu verbessern und die Randfälle zu verfeinern, die bei ihrer Evaluierung berücksichtigt werden sollten.
Diese Arbeit ist Ausdruck unserer kontinuierlichen Bemühungen, gemeinsam mit Expert:innen und dem gesamten Ökosystem daran zu arbeiten, die Unterstützung junger Menschen durch KI-Systeme zu verbessern.
„Eine der größten Lücken bei der KI-Sicherheit für Jugendliche war das Fehlen klarer, umsetzbarer Richtlinien, an denen sich Entwickler:innen orientieren können. Oft fangen Entwickler:innen ganz von vorne an. Diese Prompt-basierten Richtlinien tragen dazu bei, im gesamten Ökosystem ein bedeutendes Mindestmaß an Sicherheit zu schaffen, und da sie als Open Source veröffentlicht werden, können sie im Laufe der Zeit angepasst und verbessert werden. „Es ist ermutigend zu sehen, dass diese Art von Infrastruktur allgemein zugänglich gemacht wird, und wir hoffen, dass dies branchenweit zu weiteren gemeinsamen Ansätzen für die Sicherheit von Jugendlichen führt.“
–Robbie Torney, Head of AI & Digital Assessments, Common Sense Media
„Initiativen wie diese, die Richtlinien zum Schutz von Jugendlichen stärker operationalisieren, sind wertvoll, weil sie dabei helfen, Fachwissen in Leitlinien zu übersetzen, die in realen Systemen genutzt werden können. Inhaltsrichtlinien sind ein wichtiger erster Schritt und ebnen zudem den Weg für umfassendere Arbeit daran, wie das Modellverhalten im Laufe der Zeit jugendrelevante Risiken prägen kann. Inspiriert von dieser Arbeit und unserer eigenen Forschung hat everyone.ai(wird in einem neuen Fenster geöffnet) ebenfalls eine erste Verhaltensrichtlinie entwickelt, die auf Risiken wie Exklusivität und übermäßige Abhängigkeit ausgerichtet ist.“
–Dr. Mathilde Cerioli, Chief Scientist bei everyone.AI
Die Richtlinien sind als Ausgangspunkt gedacht, nicht als vollständige oder endgültige Definition oder Garantie für die Sicherheit von Jugendlichen. Jede Anwendung birgt spezifische Risiken, richtet sich an unterschiedliche Zielgruppen und steht in einem bestimmten Kontext; die Entwickler:innen sind daher am besten in der Lage, die Risiken zu erkennen, die ihre Produkte und KI-Integrationen mit sich bringen können. Wir empfehlen Entwickler:innen nachdrücklich, diese Richtlinien an ihre spezifischen Anforderungen anzupassen, sie zu erweitern und sie mit anderen Schutzmaßnahmen wie Produktdesignentscheidungen, Nutzerkontrollen, jugendgerechter Transparenz, Überwachungssystemen und durchdachten, altersgerechten Reaktionen zu kombinieren.
Wir glauben, dass ein mehrschichtiger Defense-in-Depth-Ansatz für die Entwicklung sicherer KI-Systeme unerlässlich ist. Diese Richtlinien basieren auf unseren internen Erfahrungen, spiegeln jedoch nicht den gesamten Umfang der internen Richtlinien oder Schutzmaßnahmen von OpenAI wider.
Wir stellen diese Richtlinien über die ROOST Model Community(wird in einem neuen Fenster geöffnet) als Open Source bereit, um Zusammenarbeit und Iteration zu fördern. Um beizutragen, Feedback zu geben oder zusätzliche Richtlinien zur Sicherheit von Jugendlichen zu teilen, besuche das GitHub-Repository von RMC.(wird in einem neuen Fenster geöffnet)
Entwickler:innen und Organisationen können diese Richtlinien an ihre spezifischen Anwendungen anpassen, sie in verschiedene Sprachen übersetzen und sie erweitern, um zusätzliche Risikobereiche abzudecken. Im Laufe der Zeit hoffen wir, dass dies zu einer robusteren gemeinsamen Grundlage für die Umsetzung von Sicherheitsrichtlinien in KI-Systemen beiträgt.
Um mit gpt-oss-safeguard loszulegen, lade es von Hugging Face(wird in einem neuen Fenster geöffnet) herunter.


