Μετάβαση στο κύριο περιεχόμενο
OpenAI

Παρουσιάζουμε το Πρόγραμμα Ανταμοιβής για Εντοπισμό Ευπαθειών Ασφαλείας της OpenAI

Δοκιμές για ζητήματα ασφάλειας και κατάχρησης σε όλο το φάσμα της OpenAI

Σήμερα, η OpenAI εγκαινιάζει ένα δημόσιο Πρόγραμμα Ανταμοιβής για Εντοπισμό Ευπαθειών Ασφαλείας(ανοίγει σε νέο παράθυρο) με στόχο τον εντοπισμό καταχρήσεων ΤΝ και κινδύνων ασφάλειας στα προϊόντα μας. Καθώς η τεχνολογία της ΤΝ εξελίσσεται ραγδαία, αυξάνονται και οι πιθανοί τρόποι κακής χρήσης της. Στόχος μας είναι να διασφαλίσουμε ότι τα συστήματά μας παραμένουν ασφαλή και προστατευμένα από κακή χρήση ή κατάχρηση που θα μπορούσε να οδηγήσει σε πραγματική βλάβη. 

Το νέο αυτό πρόγραμμα θα λειτουργεί συμπληρωματικά προς το Πρόγραμμα Ανταμοιβής για Εντοπισμό Ευπαθειών Ασφαλείας(ανοίγει σε νέο παράθυρο) της OpenAI, δεχόμενο αναφορές για ζητήματα που ενέχουν ουσιαστικούς κινδύνους κατάχρησης και ασφάλειας, ακόμη και αν δεν πληρούν τα κριτήρια μιας ευπάθειας ασφάλειας. Μέσω του προγράμματος, ανυπομονούμε να συνεχίσουμε τη συνεργασία με ερευνητές ασφάλειας και προστασίας, ώστε να εντοπίζουμε και να αντιμετωπίζουμε ζητήματα που δεν εμπίπτουν στις παραδοσιακές ευπάθειες ασφάλειας αλλά εξακολουθούν να αποτελούν πραγματικούς κινδύνους. Οι υποβολές θα αξιολογούνται από τις ομάδες του Προγράμματος Ανταμοιβής για Εντοπισμό Ευπαθειών Ασφαλείας και Προστασίας της OpenAI και ενδέχεται να ανακατευθύνονται μεταξύ των δύο προγραμμάτων ανάλογα με το πεδίο και την αρμοδιότητα.

Επισκόπηση προγράμματος

Το νέο πρόγραμμα Πρόγραμμα Ανταμοιβής για Εντοπισμό Ευπαθειών Ασφαλείας(ανοίγει σε νέο παράθυρο) επικεντρώνεται σε σενάρια ασφάλειας ειδικά για την ΤΝ, όπως περιγράφονται παρακάτω:

Κίνδυνοι πρακτόρων, συμπεριλαμβανομένου του MCP

  • Επιθέσεις μέσω έγχυσης προτροπών από τρίτους και εξαγωγή δεδομένων: όταν κακόβουλο κείμενο μπορεί να καταλάβει με αξιοπιστία τον έλεγχο ενός πράκτορα χρήστη (συμπεριλαμβανομένων προγραμμάτων περιήγησης, του πράκτορα του ChatGPT και παρόμοιων προϊόντων με πράκτορες) και να τον εξαπατήσει ώστε να εκτελέσει επιβλαβή ενέργεια ή να διαρρεύσει ευαίσθητες πληροφορίες του χρήστη. Η συμπεριφορά πρέπει να μπορεί να αναπαραχθεί τουλάχιστον στο 50% των περιπτώσεων. 
  • Ένα προϊόν με πράκτορα της OpenAI εκτελεί μη επιτρεπόμενη ενέργεια στον ιστότοπο της OpenAI σε κλίμακα.
  • Ένα προϊόν με πράκτορα της OpenAI εκτελεί κάποια δυνητικά επιβλαβή ενέργεια που δεν περιγράφεται παραπάνω. Οι έγκυρες αναφορές πρέπει να τεκμηριώνουν πιθανή και ουσιαστική βλάβη.
  • Οποιαδήποτε δοκιμή για κινδύνους MCP πρέπει να συμμορφώνεται με τους όρους χρήσης τρίτων.

Ιδιοκτησιακές πληροφορίες της OpenAI

  • Παραγωγές μοντέλου που επιστρέφουν ιδιοκτησιακές πληροφορίες σχετικές με τη συλλογιστική.
  • Ευπάθειες που εκθέτουν σε κίνδυνο άλλες ιδιοκτησιακές πληροφορίες της OpenAI.

Ακεραιότητα λογαριασμών και πλατφόρμας

  • Ευπάθειες που επηρεάζουν την ακεραιότητα λογαριασμών και τα σήματα ακεραιότητας της πλατφόρμας, όπως παράκαμψη μηχανισμών αποτροπής αυτοματοποίησης, χειραγώγηση σημάτων εμπιστοσύνης λογαριασμού, αποφυγή περιορισμών/αναστολών/αποκλεισμών λογαριασμών και παρόμοια ζητήματα.
  • Ζητήματα που επιτρέπουν σε χρήστες να αποκτούν πρόσβαση σε λειτουργίες, δεδομένα ή δυνατότητες πέρα από τα εξουσιοδοτημένα δικαιώματα θα πρέπει να αναφέρονται στο Πρόγραμμα Ανταμοιβής για Εντοπισμό Ευπαθειών Ασφαλείας(ανοίγει σε νέο παράθυρο).

Αν και οι προσπάθειες παραβίασης περιορισμών δεν εμπίπτουν στο πεδίο αυτού του προγράμματος, πραγματοποιούμε περιοδικά ιδιωτικές καμπάνιες ανταμοιβής εντοπισμού ευπαθειών που εστιάζουν σε συγκεκριμένους τύπους βλάβης, όπως ζητήματα βιολογικού κινδύνου στον πράκτορα ChatGPT και στο GPT‑5. Προσκαλούμε τους ενδιαφερόμενους ερευνητές να υποβάλουν αίτηση σε αυτά τα προγράμματα όταν είναι διαθέσιμα. 

Πέρα από τις παραπάνω κατηγορίες, αν οι ερευνητές εντοπίσουν αδυναμίες που οδηγούν άμεσα σε βλάβη χρηστών και συνοδεύονται από εφαρμόσιμα και συγκεκριμένα βήματα αποκατάστασης, αυτές ενδέχεται να εξεταστούν για ανταμοιβή κατά περίπτωση. Γενικές παρακάμψεις πολιτικών περιεχομένου χωρίς αποδεδειγμένο αντίκτυπο στην ασφάλεια ή την κατάχρηση δεν εμπίπτουν στο πεδίο του προγράμματος. Για παράδειγμα, τα «jailbreak» (προσπάθειες παραβίασης περιορισμών) που οδηγούν το μοντέλο σε αγενή γλώσσα ή στην επιστροφή πληροφοριών που βρίσκονται εύκολα μέσω μηχανών αναζήτησης δεν εμπίπτουν στο πεδίο.

Πώς να συμμετάσχετε

Οι ερευνητές που ενδιαφέρονται να συμμετάσχουν μπορούν να υποβάλουν αίτηση μέσω του Προγράμματος Ανταμοιβής για Εντοπισμό Ευπαθειών Ασφαλείας(ανοίγει σε νέο παράθυρο). Ανυπομονούμε να συνεργαστούμε με ερευνητές, χάκερ που δρουν βάσει ηθικής και την κοινότητα ασφάλειας και προστασίας για τη δημιουργία ενός ασφαλούς οικοσυστήματος ΤΝ.

Συντάκτης

OpenAI