Κατανόηση της επίθεσης μέσω έγχυσης προτροπών: μια κορυφαία πρόκληση ασφάλειας
Τα εργαλεία τεχνητής νοημοσύνης αρχίζουν να κάνουν περισσότερα από το να απαντούν σε ερωτήσεις. Μπορούν πλέον να περιηγηθούν στο διαδίκτυο, να βοηθήσουν στην έρευνα, να σχεδιάσουν ταξίδια και να συνδράμουν στην αγορά προϊόντων. Καθώς αποκτούν περισσότερες δυνατότητες, με την ικανότητα να έχουν πρόσβαση στα δεδομένα σας σε άλλες εφαρμογές και να εκτελούν ενέργειες για λογαριασμό σας, αναδύονται νέες προκλήσεις ασφάλειας. Ένα από τα πράγματα στα οποία δίνουμε μεγάλη έμφαση είναι η επίθεση μέσω έγχυσης προτροπών.
Η επίθεση μέσω έγχυσης προτροπών είναι ένας τύπος επίθεσης κοινωνικής μηχανικής που αφορά ειδικά τη συνομιλιακή τεχνητή νοημοσύνη. Τα πρώτα συστήματα τεχνητής νοημοσύνης ήταν συνομιλίες μεταξύ ενός μόνο χρήστη και ενός μόνο πράκτορα τεχνητής νοημοσύνης. Στα προϊόντα τεχνητής νοημοσύνης σήμερα, η συνομιλία σας μπορεί να περιλαμβάνει περιεχόμενο από πολλές πηγές, συμπεριλαμβανομένου του διαδικτύου. Η ιδέα ότι ένα τρίτο μέρος (που δεν είναι ο χρήστης και δεν είναι η τεχνητή νοημοσύνη) θα μπορούσε να παραπλανήσει το μοντέλο εισάγοντας κακόβουλες οδηγίες στο πλαίσιο της συνομιλίας οδήγησε στον όρο «επίθεση μέσω έγχυσης προτροπών».
Με τον ίδιο τρόπο που τα email ηλεκτρονικού «ψαρέματος» ή οι απάτες στο διαδίκτυο προσπαθούν να εξαπατήσουν τους ανθρώπους ώστε να αποκαλύψουν ευαίσθητες πληροφορίες, οι επιθέσεις μέσω έγχυσης προτροπών προσπαθούν να εξαπατήσουν την τεχνητή νοημοσύνη ώστε να εκτελέσει κάτι που δεν ζητήσατε.
Φανταστείτε ότι έχετε ζητήσει από μια τεχνητή νοημοσύνη να σας βοηθήσει να κάνετε κάποια έρευνα για διακοπές στο διαδίκτυο, και ενώ το κάνει αυτό, συναντά παραπλανητικό περιεχόμενο ή επιβλαβείς οδηγίες κρυμμένες σε μια ιστοσελίδα, όπως σε ένα σχόλιο σε μια καταχώριση ή σε μια κριτική. Το περιεχόμενο θα μπορούσε να είναι προσεκτικά διαμορφωμένο σε μια προσπάθεια να παραπλανήσει μια τεχνητή νοημοσύνη ώστε να προτείνει την εσφαλμένη καταχώριση ή, ακόμα χειρότερα, να υποκλέψει τις πληροφορίες της πιστωτικής κάρτας σας.
Αυτά είναι μόνο μερικά παραδείγματα «επίθεσης μέσω έγχυσης προτροπών»—επιβλαβών οδηγιών που έχουν σχεδιαστεί για να ξεγελάσουν μια τεχνητή νοημοσύνη ώστε να εκτελέσει κάτι που δεν είχατε σκοπό, συχνά κρυμμένων μέσα σε συνηθισμένο περιεχόμενο, όπως μια ιστοσελίδα, ένα έγγραφο ή ένα email.
Αυτοί οι κίνδυνοι αυξάνονται καθώς οι τεχνητές νοημοσύνες έχουν πρόσβαση σε πιο ευαίσθητα δεδομένα και αναλαμβάνουν περισσότερες πρωτοβουλίες και εργασίες μεγαλύτερης διάρκειας.
Σύνοψη | Τι ζητήσατε από την τεχνητή νοημοσύνη να κάνει | Τι κάνει ο επιτιθέμενος | Πιθανό αποτέλεσμα σε περίπτωση επιτυχίας της επίθεσης |
Ζητάτε από μια τεχνητή νοημοσύνη να κάνει έρευνα για διαμερίσματα και αυτή σας προτείνει αμέσως μια αγγελία που δεν είναι η καλύτερη επιλογή για εσάς. | Ζητάτε από μια τεχνητή νοημοσύνη να κάνει έρευνα για διαμερίσματα με ορισμένα κριτήρια. | Ο επιτιθέμενος έχει συμπεριλάβει μια επίθεση μέσω έγχυσης προτροπών στην αγγελία διαμερίσματος για να ξεγελάσει την τεχνητή νοημοσύνη ώστε να πιστέψει ότι η αγγελία τους πρέπει να επιλεγεί ανεξάρτητα από τις δηλωμένες προτιμήσεις του χρήστη. | Εάν η επίθεση είναι επιτυχής, η τεχνητή νοημοσύνη μπορεί να προτείνει λανθασμένα μια μη βέλτιστη καταχώριση διαμερίσματος με βάση τις προτιμήσεις σας. |
Ζητάτε από έναν πράκτορα τεχνητής νοημοσύνης να απαντήσει στα email που λαμβάνετε κατά τη διάρκεια της νύχτα και καταλήγει να κοινοποιεί τις τραπεζικές αναλυτικές κινήσεις σας. | Ζητάτε από έναν πράκτορα τεχνητής νοημοσύνης να απαντά γενικά στα email που λαμβάνετε κατά τη διάρκεια της νύχτας επειδή είστε απασχολημένοι σήμερα το πρωί. Δείτε την ενότητα «Όταν είναι δυνατόν, δώστε σε έναν πράκτορα σαφείς οδηγίες» παρακάτω. | Ο επιτιθέμενος σάς έστειλε email που περιέχει παραπληροφόρηση, η οποία ξεγελά το μοντέλο ώστε να βρει τις τραπεζικές αναλυτικές κινήσεις σας και να τις μοιραστεί με τον επιτιθέμενο. | Εάν η επίθεση επιτύχει, ο πράκτορας μπορεί να αναζητήσει στοιχεία όπως τραπεζικές αναλυτικές κινήσεις στο email σας (στο οποίο έχετε δώσει πρόσβαση για την εργασία) και θα τα κοινοποιήσει στον επιτιθέμενο. |
Η άμυνα κατά της επίθεσης μέσω έγχυσης προτροπών αποτελεί πρόκληση σε ολόκληρο τον κλάδο της τεχνητής νοημοσύνης και είναι βασική προτεραιότητα για την OpenAI. Ενώ αναμένουμε από τους αντιπάλους να συνεχίσουν να αναπτύσσουν τέτοιες επιθέσεις, κατασκευάζουμε άμυνες σχεδιασμένες να εκτελούν την προβλεπόμενη εργασία του χρήστη, ακόμη και όταν κάποιος προσπαθεί ενεργά να τον παραπλανήσει. Αυτή η δυνατότητα είναι απαραίτητη για ασφαλή αξιοποίηση των οφελών της AGI.
Για να προστατεύσουμε τους χρήστες μας και να βελτιώσουμε τα μοντέλα μας έναντι αυτών των επιθέσεων, ακολουθούμε μια πολυεπίπεδη προσέγγιση, που περιλαμβάνει τα εξής:
Θέλουμε μια τεχνητή νοημοσύνη που να αναγνωρίζει τις επιθέσεις μέσω εγχύσεων προτροπών και να μην πέφτει θύμα τους. Ωστόσο, η ανθεκτικότητα σε αντιμαχητικές επιθέσεις αποτελεί μακροχρόνια πρόκληση για τη μηχανική μάθηση και την τεχνητή νοημοσύνη, καθιστώντας το ένα δύσκολο και ανοιχτό πρόβλημα. Έχουμε αναπτύξει μια έρευνα με τίτλο Ιεραρχία οδηγιών για να προχωρήσουμε προς την ανάπτυξη μοντέλων που διακρίνουν μεταξύ αξιόπιστων και μη αξιόπιστων οδηγιών. Συνεχίζουμε να αναπτύσσουμε νέες προσεγγίσεις για την εκπαίδευση μοντέλων ώστε να αναγνωρίζουν καλύτερα μοτίβα επίθεσης μέσω έγχυσης προτροπών, ώστε να μπορούν να τα αγνοούν ή να τα επισημαίνουν στους χρήστες. Μία από τις τεχνικές που εφαρμόζουμε είναι ο αυτοματοποιημένος αντιπαραθετικός έλεγχος ασφαλείας (red teaming), ένας τομέας που μελετάμε(ανοίγει σε νέο παράθυρο) εδώ και χρόνια, για να αναπτύξουμε νέες επιθέσεις μέσω έγχυσης προτροπών.
Έχουμε αναπτύξει πολλαπλά αυτοματοποιημένα συστήματα παρακολούθησης με τεχνητή νοημοσύνη για εντοπισμό και αποκλεισμό επιθέσεων μέσω έγχυσης προτροπών παρακολούθησης. Αυτά συμπληρώνουν τις προσεγγίσεις εκπαίδευσης για την ασφάλεια, επειδή μπορούν να ενημερώνονται γρήγορα για να αποκλείουν άμεσα οποιεσδήποτε νέες επιθέσεις εντοπίζουμε. Αυτά τα συστήματα παρακολούθησης όχι μόνο βοηθούν στον εντοπισμό πιθανών επιθέσεων μέσω έγχυσης προτροπών κατά των χρηστών μας, αλλά μπορούν επίσης να μας επιτρέψουν να εντοπίζουμε εχθρική έρευνα και δοκιμές επίθεσης μέσω έγχυσης προτροπών που χρησιμοποιούν την πλατφόρμα μας, πριν αυτές οι επιθέσεις αναπτυχθούν στο ευρύ κοινό.
Έχουμε σχεδιάσει τα προϊόντα και την υποδομή μας με διάφορες επικαλυπτόμενες προστασίες ασφαλείας για να βοηθήσουμε στην προστασία των δεδομένων των χρηστών. Αυτά τα χαρακτηριστικά, τα οποία θα διερευνήσουμε με περισσότερες τεχνικές λεπτομέρειες σε μελλοντικές αναρτήσεις, προσαρμόζονται σε κάθε προϊόν ξεχωριστά. Για παράδειγμα, για να σας βοηθήσουμε να αποφεύγετε μη αξιόπιστους ιστότοπους, θα σας ζητήσουμε να εγκρίνετε ορισμένους συνδέσμους στο ChatGPT, ειδικά σε ιστότοπους που μας ζητούν να μην τους καταχωρίσουμε σε κατάλογο(ανοίγει σε νέο παράθυρο), προτού μπορέσετε να τους επισκεφθείτε. Όταν η τεχνητή νοημοσύνη μας χρησιμοποιεί εργαλεία για εκτέλεση άλλων προγραμμάτων ή κώδικα (όπως στο Καμβάς ή στο εργαλείο ανάπτυξής μας Codex), χρησιμοποιούμε μια τεχνική που ονομάζεται δημιουργία περιβάλλοντος δοκιμής για να αποτρέψουμε το μοντέλο από το να κάνει επιβλαβείς αλλαγές οι οποίες μπορεί να είναι αποτέλεσμα επίθεσης μέσω έγχυσης προτροπών.
Περιλαμβάνουμε ενσωματωμένα στοιχεία ελέγχου στα προϊόντα μας για να βοηθήσουμε τους χρήστες να προστατεύσουν τον εαυτό τους. Για παράδειγμα, στο ChatGPT Atlas, μπορείτε να επιλέξετε τη λειτουργία αποσύνδεσης, η οποία επιτρέπει στον πράκτορα ChatGPT να αρχίζει εργασίες χωρίς να είναι συνδεδεμένος σε ιστότοπους. Ο πράκτορας ChatGPT κάνει επίσης παύση και ζητά επιβεβαίωση προτού προβεί σε ευαίσθητα βήματα, όπως η ολοκλήρωση μιας αγοράς. Όταν ο πράκτορας λειτουργεί σε ευαίσθητους ιστότοπους, έχουμε επίσης υλοποιήσει μια «Λειτουργία παρακολούθησης» που σας ειδοποιεί για την ευαίσθητη φύση του ιστότοπου και απαιτεί να έχετε την καρτέλα ενεργή για να παρακολουθείτε τον πράκτορα να εκτελεί τη δουλειά του. Ο πράκτορας θα κάνει παύση αν απομακρυνθείτε από την καρτέλα με ευαίσθητες πληροφορίες. Αυτό διασφαλίζει ότι παραμένετε ενήμεροι—και έχετε τον έλεγχο—για τις ενέργειες που εκτελεί ο πράκτορας.
Διεξάγουμε εκτεταμένες ασκήσεις αντιπαραθετικού ελέγχου ασφαλείας (red teaming) με εσωτερικές και εξωτερικές ομάδες για να δοκιμάσουμε και να βελτιώσουμε τις άμυνές μας, να προσομοιώσουμε τη συμπεριφορά των επιτιθέμενων και να ανακαλύψουμε νέους τρόπους για να ενισχύσουμε την ασφάλειά μας. Αυτό περιλαμβάνει χιλιάδες ώρες που εστιάζουν ειδικά στην επίθεση μέσω έγχυσης προτροπών. Καθώς ανακαλύπτουμε νέες τεχνικές και επιθέσεις, οι ομάδες μας αντιμετωπίζουν προληπτικά τις ευπάθειες ασφαλείας και βελτιώνουν τα μέτρα μετριασμού των μοντέλων μας.
Για να ενθαρρύνουμε ανεξάρτητους ερευνητές ασφάλειας που ενεργούν με καλή πίστη να μας βοηθήσουν να ανακαλύψουμε νέες τεχνικές επίθεσης μέσω έγχυσης προτροπών, προσφέρουμε χρηματικές ανταμοιβές στο πλαίσιο του προγράμματος ανταμοιβής για εντοπισμό ευπαθειών (bug bounty)(ανοίγει σε νέο παράθυρο) όταν παρουσιάζουν μια ρεαλιστική διαδρομή επίθεσης που θα μπορούσε να οδηγήσει σε ακούσια έκθεση δεδομένων χρήστη. Παρέχουμε κίνητρα σε εξωτερικούς συνεργάτες ώστε να αναδεικνύουν γρήγορα αυτά τα ζητήματα, για να μπορούμε να τα επιλύουμε και να ενισχύουμε περαιτέρω τις άμυνές μας.
Εκπαιδεύουμε τους χρήστες για τους κινδύνους που ενέχει η χρήση ορισμένων λειτουργιών του προϊόντος, ώστε να μπορούν να λαμβάνουν ενημερωμένες αποφάσεις. Για παράδειγμα, όταν συνδέετε το ChatGPT με άλλες εφαρμογές, εξηγούμε ποια δεδομένα μπορεί να αποκτηθούν, πώς μπορεί να χρησιμοποιηθούν και ποιοι κίνδυνοι μπορεί να προκύψουν, όπως ένας ιστότοπος που προσπαθεί να κλέψει τα δεδομένα σας, μαζί με έναν σύνδεσμο για να μάθετε πώς να παραμένετε ασφαλείς. Παρέχουμε επίσης στους οργανισμούς τη δυνατότητα να ελέγχουν ποιες λειτουργίες μπορούν να ενεργοποιηθούν ή να χρησιμοποιηθούν από τους χρήστες στους χώρους εργασίας τους.
Η επίθεση μέσω έγχυσης προτροπών αποτελεί κορυφαία πρόκληση για την ασφάλεια, την οποία αναμένουμε να συνεχίσει να εξελίσσεται με την πάροδο του χρόνου. Τα νέα επίπεδα νοημοσύνης και ικανοτήτων απαιτούν την ταυτόχρονη εξέλιξη της τεχνολογίας, της κοινωνίας και της στρατηγικής μετριασμού του κινδύνου. Και όπως και με τους ιούς υπολογιστών στις αρχές της δεκαετίας του 2000, πιστεύουμε ότι είναι σημαντικό για όλους να κατανοήσουν την απειλή των επιθέσεων μέσω έγχυσης προτροπών και πώς να διαχειριστούν τον κίνδυνο, ώστε να μπορέσουμε όλοι να μάθουμε να επωφελούμαστε από αυτήν την τεχνολογία με ασφάλεια. Η επίγνωση και η προσοχή σας βοηθούν να διατηρείτε τα δεδομένα σας ασφαλέστερα όταν χρησιμοποιείτε λειτουργίες τεχνητής νοημοσύνης και πρακτόρων που μπορούν να ενεργήσουν εκ μέρους σας.
Όπου είναι εφικτό, περιορίστε την πρόσβαση ενός πράκτορα μόνο στα ευαίσθητα δεδομένα ή τα διαπιστευτήρια που χρειάζεται για την ολοκλήρωση της εργασίας. Για παράδειγμα, όταν χρησιμοποιείτε τη λειτουργία πράκτορα στο ChatGPT Atlas για να κάνετε έρευνα για διακοπές, αν ο πράκτορας κάνει μόνο έρευνα και δεν χρειάζεται πρόσβαση με σύνδεση, χρησιμοποιήστε τη λειτουργία «αποσύνδεση».
Συχνά σχεδιάζουμε πράκτορες για να λαμβάνουν την τελική επιβεβαίωσή σας προτού προβούν σε ορισμένες σημαντικές ενέργειες, όπως η ολοκλήρωση μιας αγοράς ή η αποστολή ενός email. Όταν ένας πράκτορας σας ζητήσει να επιβεβαιώσετε μια ενέργεια, ελέγξτε προσεκτικά ότι η ενέργεια φαίνεται σωστή και πως οι πληροφορίες που κοινοποιούνται είναι κατάλληλες για το συγκεκριμένο πλαίσιο.
Όταν ένας πράκτορας λειτουργεί σε έναν ευαίσθητο ιστότοπο, όπως η τράπεζά σας, παρακολουθήστε τον πράκτορα να εκτελεί την εργασία του. Αυτό είναι σα να παρακολουθείτε ένα αυτοοδηγούμενο αυτοκίνητο διατηρώντας τα χέρια σας στο τιμόνι.
Η παροχή σε έναν πράκτορα μιας πολύ γενικής εντολής, όπως «ελέγξτε τα email μου και προβείτε σε όποια ενέργεια χρειαστεί», μπορεί να διευκολύνει το κρυφό κακόβουλο περιεχόμενο να παραπλανήσει το μοντέλο, παρόλο που έχει σχεδιαστεί για να επικοινωνεί μαζί σας πριν από την εκτέλεση ευαίσθητων ενεργειών.
Είναι πιο ασφαλές να ζητήσετε από τον πράκτορά σας να εκτελεί συγκεκριμένες ενέργειες και να μην του δώσετε ευρεία ελευθερία να ακολουθήσει πιθανώς επιβλαβείς οδηγίες από άλλες πηγές, όπως τα email. Αν και αυτό δεν εγγυάται ότι δεν θα υπάρξουν επιθέσεις, καθιστά πιο δύσκολο για τους επιτιθέμενους να επιτύχουν.
Καθώς η τεχνολογία της τεχνητής νοημοσύνης εξελίσσεται, θα εμφανίζονται νέοι κίνδυνοι και μέτρα ασφαλείας. Παρακολουθήστε ενημερώσεις από την OpenAI και άλλες αξιόπιστες πηγές για να ενημερώνεστε για τις βέλτιστες πρακτικές.
Η επίθεση μέσω έγχυσης προτροπών παραμένει ένα κορυφαίο και δύσκολο ερευνητικό πρόβλημα, και όπως οι παραδοσιακές απάτες στο διαδίκτυο, αναμένουμε ότι η εργασία μας θα συνεχιστεί. Ενώ δεν έχουμε δει ακόμη σημαντική υιοθέτηση αυτής της τεχνικής από τους εισβολείς, αναμένουμε ότι οι αντίπαλοι θα αφιερώσουν σημαντικό χρόνο και πόρους για να βρουν τρόπους ώστε να καταστήσουν τις τεχνητές νοημοσύνη θύματα αυτών των επιθέσεων. Συνεχίζουμε να επενδύουμε σε μεγάλο βαθμό στην ασφάλεια των προϊόντων μας και στην έρευνα για την ενίσχυση της ανθεκτικότητας της τεχνητής νοημοσύνης σε αυτόν τον κίνδυνο. Θα κοινοποιούμε ενημερώσεις καθώς μαθαίνουμε περισσότερα, συμπεριλαμβανομένης της συνεχιζόμενης προόδου στο έργο μας για την ασφάλεια σε αυτόν τον τομέα. Για παράδειγμα, ετοιμάζουμε μια αναφορά που θα δημοσιεύσουμε σύντομα, η οποία θα παρέχει περισσότερες λεπτομέρειες σχετικά με το πώς ανιχνεύουμε εάν η επικοινωνία της τεχνητής νοημοσύνης σας με το διαδίκτυο θα μετέδιδε πληροφορίες από τη συνομιλία σας.
Στόχος μας είναι να κάνουμε αυτά τα συστήματα τόσο αξιόπιστα και ασφαλή όσο το να συνεργάζεστε με τον πιο αξιόπιστο και ενημερωμένο για την ασφάλεια συνάδελφο ή φίλο σας. Θα συνεχίσουμε να μαθαίνουμε από τη χρήση στον πραγματικό κόσμο, να επαναλαμβάνουμε με ασφάλεια και να δημοσιεύουμε όσα μαθαίνουμε καθώς η τεχνολογία προοδεύει.


