Προγραμματιστές δημιουργούν πιο ασφαλείς εμπειρίες ΤΝ για εφήβους
Παρουσιάζουμε μια σειρά πολιτικών ασφάλειας για εφήβους με τη μορφή προτροπών για το gpt-oss-safeguard
Σήμερα κυκλοφορούμε πολιτικές ασφάλειας(ανοίγει σε νέο παράθυρο) βασισμένες σε προτροπές, ώστε να βοηθήσουμε τους προγραμματιστές να δημιουργούν κατάλληλους μηχανισμούς προστασίας για εφήβους. Σχεδιασμένες να λειτουργούν με το gpt-oss-safeguard(ανοίγει σε νέο παράθυρο), οι πολιτικές αυτές απλοποιούν τη διαδικασία μετατροπής των απαιτήσεων ασφάλειας σε πρακτικά εργαλεία ταξινόμησης για πραγματικά συστήματα.
Κυκλοφορήσαμε μοντέλα ανοικτής στάθμισης για να διευρύνουμε την πρόσβαση σε ισχυρή TN και να ενισχύσουμε την καινοτομία. Ταυτόχρονα, θεωρούμε ότι ασφάλεια και καινοτομία πάνε μαζί και ότι οι προγραμματιστές πρέπει να έχουν πρόσβαση όχι μόνο σε ικανά μοντέλα, αλλά και στα εργαλεία και τις πολιτικές που χρειάζονται για να τα χρησιμοποιούν με ασφάλεια και υπευθυνότητα. Αναπτύξαμε αυτές τις πολιτικές για να υποστηρίξουμε τους προγραμματιστές στις προσπάθειές τους για την ασφάλεια με στόχο την προστασία των νεαρών χρηστών, με τη συμβολή αξιόπιστων εξωτερικών οργανισμών, συμπεριλαμβανομένων των Common Sense Media(ανοίγει σε νέο παράθυρο) και everyone.ai(ανοίγει σε νέο παράθυρο).
Αναγνωρίζουμε ότι οι έφηβοι έχουν διαφορετικές ανάγκες από τους ενήλικες και χρειάζονται επιπλέον προστασία. Οι πολιτικές αυτές έχουν σχεδιαστεί ώστε να βοηθούν τους προγραμματιστές να λαμβάνουν υπόψη αυτές τις διαφορές και να δημιουργούν εμπειρίες που είναι ταυτόχρονα ενδυναμωτικές και κατάλληλες για νεότερους χρήστες.
Έχουμε εδώ και καιρό δεσμευτεί να αναπτύσσουμε TN που διευρύνει τις δυνατότητες των νέων, διατηρώντας παράλληλα την ασφάλειά τους. Στο πλαίσιο αυτής της εργασίας, ενημερώσαμε τις Προδιαγραφές Μοντέλου(ανοίγει σε νέο παράθυρο)μας —τις κατευθυντήριες γραμμές που ορίζουν την επιδιωκόμενη συμπεριφορά των μοντέλων της OpenAI— ώστε να περιλαμβάνουν Αρχές για άτομα κάτω των 18 (U18)(ανοίγει σε νέο παράθυρο), και εισαγάγαμε δικλίδες ασφαλείας σε επίπεδο προϊόντος, όπως γονικούς ελέγχους και πρόβλεψη ηλικίας, για την καλύτερη προστασία των νεότερων χρηστών. Έχουμε επίσης ζητήσει τη θέσπιση μέτρων προστασίας σε ολόκληρο τον κλάδο μέσω του Σχεδίου ασφάλειας για εφήβους.
Η σημερινή κυκλοφορία βασίζεται σε αυτό το θεμέλιο. Διαθέτουμε αυτές τις πολιτικές στους προγραμματιστές για να τους υποστηρίξουμε στην εφαρμογή μέτρων ασφάλειας για εφήβους και να ενισχύσουμε την πρόσβαση σε όλο το οικοσύστημα ανοικτής στάθμισης.
Παρότι εργαλεία ταξινόμησης ασφάλειας όπως το gpt-oss-safeguard μπορούν να εντοπίζουν επιβλαβές περιεχόμενο, εξαρτώνται από σαφείς ορισμούς για το τι θεωρείται επιβλαβές. Στην πράξη, μία από τις μεγαλύτερες προκλήσεις που αντιμετωπίζουν οι προγραμματιστές είναι ο καθορισμός πολιτικών που αποτυπώνουν με ακρίβεια τους ειδικούς κινδύνους για τους εφήβους και μπορούν να εφαρμόζονται με συνέπεια σε πραγματικά συστήματα.
Ακόμη και έμπειρες ομάδες δυσκολεύονται να μετατρέψουν γενικούς στόχους ασφάλειας σε συγκεκριμένους, λειτουργικούς κανόνες, καθώς αυτό απαιτεί τόσο εξειδίκευση στο αντικείμενο όσο και βαθιά γνώση TN. Αυτό μπορεί να οδηγήσει σε κενά προστασίας, ασυνέπειες στην εφαρμογή ή υπερβολικά αυστηρό φιλτράρισμα. Οι σαφείς και καλά οριοθετημένες πολιτικές αποτελούν βασικό θεμέλιο για αποτελεσματικά συστήματα ασφάλειας.
Για να αντιμετωπίσουμε αυτήν την πρόκληση, δημοσιεύουμε ένα σύνολο πολιτικών ασφάλειας(ανοίγει σε νέο παράθυρο), προσαρμοσμένων στους συνήθεις κινδύνους που αντιμετωπίζουν οι έφηβοι και οι οποίες βασίζονται σε προσεκτική εξέταση της υπάρχουσας έρευνας σχετικά με τις μοναδικές αναπτυξιακές διαφορές των εφήβων. Αυτές οι πολιτικές έχουν διαρθρωθεί ως προτροπή που μπορεί να χρησιμοποιηθεί απευθείας με το gpt-oss-safeguard(ανοίγει σε νέο παράθυρο) και άλλα μοντέλα συλλογιστικής, επιτρέποντας στους προγραμματιστές να εφαρμόζουν ευκολότερα συνεπή πρότυπα ασφαλείας σε όλα τα συστήματά τους.
Η αρχική έκδοση περιλαμβάνει πολιτικές που καλύπτουν τα εξής:
- Ρεαλιστικό περιεχόμενο με βία
- Ρεαλιστικό σεξουαλικό περιεχόμενο
- Επιβλαβή πρότυπα και συμπεριφορές σχετικά με το σώμα
- Επικίνδυνες δραστηριότητες και προκλήσεις
- Ρομαντικό ή βίαιο παιχνίδι ρόλων
- Αγαθά και υπηρεσίες με ηλικιακούς περιορισμούς
Οι πολιτικές αυτές μπορούν να χρησιμοποιηθούν τόσο για φιλτράρισμα περιεχομένου σε πραγματικό χρόνο όσο και για εκ των υστέρων ανάλυση περιεχομένου που δημιουργείται από χρήστες.
Δομώντας τις πολιτικές ως προτροπές, οι προγραμματιστές μπορούν να τις ενσωματώνουν πιο εύκολα στις υφιστάμενες ροές εργασίας, να τις προσαρμόζουν στα σενάρια χρήσης τους και να τις εξελίσσουν με την πάροδο του χρόνου.

Συνεργαστήκαμε με εξωτερικούς οργανισμούς, όπως η Common Sense Media(ανοίγει σε νέο παράθυρο) και η everyone.ai(ανοίγει σε νέο παράθυρο) για τη διαμόρφωση αυτών των πολιτικών. Η εξειδίκευσή τους βοήθησε να καθοριστεί το εύρος του περιεχομένου που καλύπτεται, να ενισχυθεί η δομή των προτροπών και να αποσαφηνιστούν οι οριακές περιπτώσεις που πρέπει να λαμβάνονται υπόψη κατά την αξιολόγηση.
Αυτή η προσπάθεια αποτελεί μέρος μιας ευρύτερης, διαρκούς συνεργασίας με ειδικούς και το οικοσύστημα, με στόχο τη βελτίωση του τρόπου με τον οποίο τα συστήματα TN υποστηρίζουν τους νέους.
«Ένα από τα μεγαλύτερα κενά στην ασφάλεια TN για εφήβους είναι η απουσία σαφών, εφαρμόσιμων πολιτικών πάνω στις οποίες μπορούν να βασιστούν οι προγραμματιστές. Συχνά ξεκινούν από το μηδέν. Οι πολιτικές αυτές, βασισμένες σε προτροπές, θέτουν ένα ουσιαστικό ελάχιστο επίπεδο ασφάλειας για όλο το οικοσύστημα και, επειδή διατίθενται ως ανοιχτός κώδικας, μπορούν να προσαρμόζονται και να εξελίσσονται με τον χρόνο. Είναι ενθαρρυντικό να βλέπουμε τέτοιες υποδομές να γίνονται ευρέως διαθέσιμες και ελπίζουμε να λειτουργήσουν ως αφετηρία για κοινές προσεγγίσεις στην ασφάλεια των νέων σε όλη τη βιομηχανία.»
—Ρόμπι Τόρνεϊ, Επικεφαλής ΤΝ και Ψηφιακών Αξιολογήσεων, Common Sense Media
«Πρωτοβουλίες όπως αυτή, που καθιστούν τις πολιτικές ασφάλειας για νέους πιο εφαρμόσιμες, έχουν αξία γιατί μετατρέπουν την εξειδικευμένη γνώση σε καθοδήγηση που μπορεί να χρησιμοποιηθεί σε πραγματικά συστήματα. Οι πολιτικές περιεχομένου είναι ένα σημαντικό πρώτο βήμα, ενώ ταυτόχρονα ανοίγουν τον δρόμο για ευρύτερη δουλειά γύρω από το πώς η συμπεριφορά των μοντέλων επηρεάζει κινδύνους που αφορούν τους νέους με την πάροδο του χρόνου. Με έμπνευση από αυτή την προσπάθεια και τη δική μας έρευνα, το everyone.ai(ανοίγει σε νέο παράθυρο) έχει επίσης δημιουργήσει μια αρχική πολιτική συμπεριφοράς που εστιάζει σε κινδύνους όπως η αποκλειστικότητα και η υπερεξάρτηση.»
—Δρ Ματίλντε Τσεριόλι, Επικεφαλής Επιστήμονας στην everyone.AI
Οι πολιτικές αυτές αποτελούν σημείο εκκίνησης και όχι μια πλήρη ή οριστική λύση για την ασφάλεια των εφήβων. Κάθε εφαρμογή έχει διαφορετικούς κινδύνους, κοινά και συμφραζόμενα, και οι προγραμματιστές είναι οι πλέον κατάλληλοι να αξιολογήσουν τους κινδύνους που προκύπτουν από τα προϊόντα και τις ενσωματώσεις TN τους. Συνιστούμε να προσαρμόζονται και να επεκτείνονται ανάλογα με τις ανάγκες, σε συνδυασμό με άλλα μέτρα, όπως επιλογές σχεδιασμού προϊόντος, έλεγχοι χρηστών, διαφάνεια φιλική προς εφήβους, συστήματα παρακολούθησης και προσεκτικά διατυπωμένες, κατάλληλες για την ηλικία αποκρίσεις.
Πιστεύουμε ότι μια πολυεπίπεδη προσέγγιση άμυνας σε βάθος είναι απαραίτητη για την ανάπτυξη ασφαλέστερων συστημάτων ΤΝ. Οι πολιτικές αυτές βασίζονται στην εσωτερική μας εμπειρία, χωρίς να αντικατοπτρίζουν το σύνολο των εσωτερικών πολιτικών ή μηχανισμών προστασίας της OpenAI.
Δημοσιεύουμε αυτές τις πολιτικές ως ανοιχτό κώδικα μέσω της ROOST Model Community(ανοίγει σε νέο παράθυρο) για να ενθαρρύνουμε τη συνεργασία και τη συνεχή βελτίωση. Για να συνεισφέρετε, να αφήσετε σχόλια ή να κοινοποιήσετε πρόσθετες πολιτικές ασφάλειας για εφήβους, επισκεφθείτε το αποθετήριο GitHub της RMC.(ανοίγει σε νέο παράθυρο)
Οι προγραμματιστές και οι οργανισμοί μπορούν να προσαρμόσουν αυτές τις πολιτικές στις δικές τους εφαρμογές, να τις μεταφράσουν σε άλλες γλώσσες και να τις επεκτείνουν ώστε να καλύπτουν επιπλέον κινδύνους. Με τον χρόνο, αυτό μπορεί να συμβάλει στη δημιουργία μιας πιο ισχυρής και κοινής βάσης για την εφαρμογή πολιτικών ασφάλειας στα συστήματα TN.
Για να κάνετε τα πρώτα σας βήματα με το gpt-oss-safeguard, κατεβάστε το από το Hugging Face(ανοίγει σε νέο παράθυρο).


