Βελτίωση της ιεραρχίας εντολών στα κορυφαία LLM
Παρουσιάζουμε το IH-Challenge, ένα σύνολο δεδομένων εκπαίδευσης που ενισχύει την ιεραρχία εντολών, την κατευθυνσιμότητα ασφάλειας και την ανθεκτικότητα στην επίθεση μέσω έγχυσης προτροπών.
Τα συστήματα ΤΝ συχνά λαμβάνουν οδηγίες από πολλαπλές πηγές. Αυτές μπορεί να περιλαμβάνουν πολιτικές ασφάλειας από μηνύματα συστήματος, καθοδήγηση προϊόντος από προγραμματιστές, αιτήματα από χρήστες και πληροφορίες που βρίσκονται στο διαδίκτυο. Η εκπαίδευση των μοντέλων ώστε να ιεραρχούν αξιόπιστα τις πιο έμπιστες οδηγίες μεταξύ αυτών των πηγών αποτελεί βασικό μέρος της ασφαλούς ανάπτυξης.
Πολλά ζητήματα ασφάλειας και αξιοπιστίας της ΤΝ μπορεί να προκύψουν όταν αυτή η ιεράρχηση αποτυγχάνει. Τα μοντέλα μπορεί να λαμβάνουν αιτήματα για μη επιτρεπόμενο περιεχόμενο, προσπάθειες αποκάλυψης ιδιωτικών πληροφοριών ή επιθέσεις με έγχυση εντολών ενσωματωμένες σε διαδικτυακά δεδομένα. Η αδυναμία κατάλληλης συμπεριφοράς σε καθεμία από αυτές τις περιπτώσεις έχει την ίδια βασική αιτία: το μοντέλο μπορεί να ακολουθήσει τη λάθος οδηγία.
Όταν αυτές οι οδηγίες συγκρούονται, το μοντέλο πρέπει να αποφασίσει σε ποιες να δώσει προτεραιότητα. Αν αντιμετωπίσει μια μη αξιόπιστη οδηγία ως αυθεντική, μπορεί να συμπεριφερθεί με τρόπους που παραβιάζουν πολιτικές ή την πρόθεση των προγραμματιστών και των χρηστών.
Δείχνουμε ότι κατάλληλα σχεδιασμένες εργασίες ιεράρχησης οδηγιών, οι οποίες εκπαιδεύουν τα μοντέλα να δίνουν προτεραιότητα στις οδηγίες ανάλογα με το επίπεδο εμπιστοσύνης τους, βελτιώνουν αρκετές πραγματικές ιδιότητες ασφάλειας. Τα μοντέλα που εκπαιδεύονται σε αυτές τις εργασίες ανταποκρίνονται καλύτερα στις προδιαγραφές ασφάλειας σε προτροπές συστήματος (βελτιώνοντας την κατευθυνσιμότητα ασφάλειας) και πιο ανθεκτικά σε επιθέσεις μέσω έγχυσης εντολών που ενσωματώνονται στα αποτελέσματα εργαλείων.
Για να διαχειρίζονται συγκρούσεις, τα μοντέλα της OpenAI εκπαιδεύονται να ακολουθούν μια σαφή ιεραρχία οδηγιών:
Σύστημα > προγραμματιστής > χρήστης > εργαλείο
Οι οδηγίες υψηλότερης προτεραιότητας θεωρούνται πιο αξιόπιστες. Το μοντέλο πρέπει να ακολουθεί οδηγίες χαμηλότερης προτεραιότητας μόνο όταν δεν συγκρούονται με περιορισμούς υψηλότερης προτεραιότητας. Αυτές οι αρχές περιγράφονται στις Προδιαγραφές μοντέλου της OpenAI(ανοίγει σε νέο παράθυρο).
Για παράδειγμα, αν ένα μήνυμα συστήματος περιλαμβάνει μια πολιτική ασφάλειας και ένας χρήστης ζητήσει από το μοντέλο να την παραβιάσει, το μοντέλο πρέπει να αρνηθεί. Αν η έξοδος ενός εργαλείου περιέχει κακόβουλες οδηγίες, το μοντέλο πρέπει να τις αγνοήσει αντί να τις αντιμετωπίσει ως εντολές.
Η σωστή εφαρμογή αυτού του πλαισίου είναι θεμελιώδης για την ασφάλεια, την προστασία και την αξιοπιστία.
Το μοντέλο στα δεξιά ακολουθεί σωστά την οδηγία του προγραμματιστή, η οποία έχει υψηλότερη προτεραιότητα, αντί της οδηγίας του χρήστη όταν οι δύο οδηγίες συγκρούονται.
Η ενισχυτική μάθηση αποτελεί μια φυσική προσέγγιση για τη διδασκαλία της ιεραρχίας οδηγιών. Μπορούμε να δημιουργήσουμε συνομιλίες με αντικρουόμενες οδηγίες, να ζητήσουμε από το μοντέλο να απαντήσει και να το ανταμείψουμε όταν ακολουθεί τη σωστή οδηγία.
Έχουμε εντοπίσει τρεις παγίδες όταν αυτή η προσέγγιση εφαρμόζεται αφελώς:
- Οι αποτυχίες στην ακολουθία οδηγιών μπορεί να εμφανίζονται και ως αποτυχίες στην ιεραρχία οδηγιών: το μοντέλο μπορεί να μην επιλύει μια σύγκρουση οδηγιών όχι επειδή δεν κατανοεί την ιεραρχία των ρόλων, αλλά επειδή οι ίδιες οι οδηγίες είναι υπερβολικά περίπλοκες.
- Οι συγκρούσεις οδηγιών μπορεί να είναι λεπτές και ακόμη και υποκειμενικές. Μια συνηθισμένη προσέγγιση είναι να αναθέτεται σε ένα ξεχωριστό LLM ο ρόλος του «κριτή» που αποδίδει ανταμοιβές στο μοντέλο που εκπαιδεύεται, όμως και οι ίδιοι οι κριτές μπορεί να κάνουν λάθη.
- Τα μοντέλα τείνουν να μαθαίνουν συντομεύσεις που οδηγούν σε υψηλή ανταμοιβή αλλά είναι άχρηστες στην πράξη(ανοίγει σε νέο παράθυρο). Το κλασικό παράδειγμα είναι οι υπερβολικές αρνήσεις: τα μοντέλα μπορεί να μάθουν να μεγιστοποιούν την ασφάλεια απορρίπτοντας ακόμη και αβλαβή αιτήματα.
Σχεδιάζουμε το IH-Challenge, ένα σύνολο δεδομένων εκπαίδευσης ενισχυτικής μάθησης, για να αντιμετωπίσουμε καθεμία από αυτές τις παγίδες. Ακολουθούμε τις εξής αρχές:
- Οι εργασίες είναι απλές ως προς την ακολουθία οδηγιών
- Είναι αντικειμενικά αξιολογήσιμες με ένα απλό script σε Python
- Δεν υπάρχουν προφανείς συντομεύσεις που να εγγυώνται υψηλή ανταμοιβή σε όλες τις εργασίες
Κάθε εργασία στο IH-Challenge είναι ουσιαστικά μια συνομιλία με τα εξής μηνύματα:
- Ένα μήνυμα οδηγίας από ρόλο υψηλότερων προνομίων, π.χ. «Απάντησε μόνο 'Ναι' ή 'Όχι'».
- Ένα μήνυμα οδηγίας από ρόλο χαμηλότερων προνομίων, που προσπαθεί να κάνει το μοντέλο να παραβιάσει τις οδηγίες του μηνύματος υψηλότερων προνομίων.
Το μοντέλο που εκπαιδεύεται δημιουργεί το επόμενο μήνυμα. Σχεδιάζουμε τις εργασίες/περιβάλλοντα έτσι ώστε να είναι δυνατό να ελέγχεται προγραμματιστικά αν η απάντηση του μοντέλου ικανοποιεί τον περιορισμό υψηλότερου επιπέδου.
Εκπαιδεύουμε ένα μοντέλο στο IH‑Challenge και δημιουργούμε ένα εσωτερικό μοντέλο, το οποίο ονομάζουμε GPT‑5 Mini-R, με τις ακόλουθες βελτιώσεις:
- Καλύτερη απόδοση σε δείκτες αξιολόγησης ιεραρχίας οδηγιών
- Η βελτιωμένη απόδοση γενικεύεται σε δοκιμές ιεραρχίας οδηγιών εκτός συνόλου εκπαίδευσης και σε επιθετικά σενάρια
- Διατηρεί τη συνολική χρησιμότητα, χωρίς να καταλήγει σε υπερβολικές αρνήσεις
Αυτό είναι που καθιστά την προσέγγιση ιδιαίτερα σημαντική για την ασφάλεια: εκπαιδεύοντας άμεσα τα μοντέλα να επιλύουν σωστά συγκρούσεις οδηγιών σε εργασίες IH-Challenge, επιτυγχάνουμε βελτιώσεις στην ιεραρχία οδηγιών που γενικεύονται σε νέες επιθέσεις και σε νέες καταστάσεις.
Ανθεκτικότητα στους ακαδημαϊκούς δείκτες αξιολόγησης
Αξιολόγηση | GPT‑5‑Mini | GPT‑5 Mini-R |
Gandalf Password (sys-user) | 0,99 | 0,99 (+0) |
Gandalf Password (dev-user) | 0,98 | 1,00 (+0,02) |
TensorTrust (sys-user) | 0,86 | 0,94 (+0,08) |
TensorTrust (dev-user) | 0,76 | 0,91 (+0,15) |
RealGuardrails (Αποσπαστικοί παράγοντες) | 0,88 | 0,95 (+0,07) |
RealGuardrails (Χειρόγραφο) | 0,82 | 0,89 (+0,07) |
Σύστημα IFEval | 0,92 | 0,96 (+0,04) |
Ανθεκτικότητα σε εσωτερικούς δείκτες αξιολόγησης
Αξιολόγηση | GPT‑5‑Mini | GPT‑5 Mini-R |
TutorJailbreak (sys-user) | 0,96 | 0,99 (+0,03) |
Προσπάθεια παράκαμψης περιορισμών Tutor (dev-user) | 0,97 | 0,99 (+0,02) |
Σύστημα <> Σύγκρουση με χρήστη | 0,84 | 0,95 (+0,11) |
Σύστημα <> Σύγκρουση με προγραμματιστή | 0,86 | 0,86 (+0) |
Προγραμματιστής <> Σύγκρουση με χρήστη | 0,83 | 0,95 (+0,12) |
Χωρίς υποχωρήσεις δυνατοτήτων
Αξιολόγηση | GPT‑5‑Mini | GPT‑5 Mini-R |
IH-Challenge (υπερβολική απόρριψη) | 0,79 | 1,00 (+0,21) |
TensorTrust (υπερβολική απόρριψη) | 0,91 | 0,90 (-0,01) |
GPQA Diamond | 0,83 | 0,83 (+0) |
AIME 2024 | 0,93 | 0,94 (+0,01) |
Chat WinRate έναντι o1 | 0,71 | 0,66 (-0,05) |
Βαθμολογία προτίμησης | 0,46 | 0,40 (-0,06) |
Η ισχυρότερη ιεραρχία οδηγιών προσφέρει πολλαπλά οφέλη ασφάλειας ταυτόχρονα, συμπεριλαμβανομένων της κατευθυνσιμότητας ασφάλειας και της ανθεκτικότητας σε επιθέσεις μέσω έγχυσης προτροπών.
Αξιολογούμε την κατευθυνσιμότητα ασφάλειας προσθέτοντας προδιαγραφές ασφάλειας ανά κατηγορία στην προτροπή συστήματος και μετρώντας τη συμπεριφορά στα Production Benchmarks ασφάλειας της OpenAI (ένα σύνολο συνομιλιών ευαίσθητων ως προς την ασφάλεια που είναι αντιπροσωπευτικές της λειτουργίας του ChatGPT σε περιβάλλον παραγωγής).
Το μοντέλο που έχει εκπαιδευτεί με IH δείχνει συνεπή βελτίωση: όταν υπάρχει η προδιαγραφή ασφάλειας, επιτυγχάνει υψηλότερα ποσοστά άρνησης και ασφαλούς ολοκλήρωσης σε κατηγορίες μη επιτρεπόμενου περιεχομένου, γεγονός που δείχνει ότι η ισχυρότερη συμπεριφορά ιεραρχίας οδηγιών το βοηθά να επιλύει καλύτερα συγκρούσεις όταν μη ασφαλή αιτήματα προέρχονται από οδηγίες χαμηλότερης προτεραιότητας. Αξιοσημείωτο είναι ότι αυτή η βελτίωση δεν συνοδεύεται από αντίστοιχη μείωση του ποσοστού χρησιμότητας (δηλαδή το μοντέλο δεν γίνεται λιγότερο «χρήσιμο» απλώς επειδή αρνείται περισσότερα αιτήματα συνολικά).


Παράδειγμα του πώς το μοντέλο που έχει εκπαιδευτεί με IH αντιστέκεται σε επιθέσεις μέσω έγχυσης προτροπών στις οποίες το GPT‑5 Mini (Baseline) πέφτει θύμα.
Η ιεραρχία οδηγιών είναι επίσης καθοριστική για την αντίσταση σε επιθέσεις μέσω έγχυσης προτροπών, όταν κακόβουλες οδηγίες ενσωματώνονται στα αποτελέσματα εργαλείων. Αξιολογούμε το μοντέλο που έχει εκπαιδευτεί με IH σε δύο δείκτες αξιολόγησης επιθέσεων μέσω έγχυσης εντολών, έναν ακαδημαϊκό δείκτη αξιολόγησης, το CyberSecEval 2, και έναν εσωτερικό δείκτη αξιολόγησης επιθέσεων μέσω έγχυσης εντολών της OpenAI που περιλαμβάνει επιθέσεις όπως αυτή που είχε παρουσιαστεί σε παλαιότερη έκδοση του ChatGPT Atlas.
Σε σχέση με το βασικό μοντέλο, το μοντέλο GPT‑5 Mini-R που έχει εκπαιδευτεί με IH βελτιώνει την ανθεκτικότητα σε επιθέσεις prompt injection και στους δύο δείκτες αξιολόγησης και βελτιώνει σημαντικά την απόδοση στην εσωτερική στατική αξιολόγηση prompt injection στα συγκεκριμένα πειράματα.
Καθώς τα μοντέλα βασίζονται ολοένα και περισσότερο σε πράκτορες —με κλήσεις εργαλείων, ανάγνωση μη αξιόπιστων εγγράφων και ενέργειες στον πραγματικό κόσμο— η ικανότητα να δίνουν σταθερά προτεραιότητα σε αξιόπιστες οδηγίες έναντι μη αξιόπιστων γίνεται βασική ιδιότητα ασφάλειας.
Αυτή η εργασία δείχνει ότι αρκετές παγίδες της εκπαίδευσης ανθεκτικότητας στην ιεραρχία οδηγιών μπορούν να ξεπεραστούν σχεδιάζοντας περιβάλλοντα εκπαίδευσης που αντιμετωπίζουν αυτές τις παγίδες. Παρότι το σύνολο δεδομένων IH-Challenge φαίνεται απλό, η συμπεριφορά ιεραρχίας οδηγιών που μαθαίνουν τα μοντέλα από αυτά τα περιβάλλοντα γενικεύεται σε πιο ρεαλιστικούς δείκτες αξιολόγησης, οι οποίοι συχνά δεν είναι αντικειμενικά αξιολογήσιμοι.
Η ενίσχυση της ιεραρχίας οδηγιών δεν βελτιώνει μόνο την αξιοπιστία, αλλά ξεκλειδώνει ταυτόχρονα πολλαπλά οφέλη ασφάλειας και προστασίας — μια βάση που γίνεται ολοένα πιο σημαντική καθώς τα συστήματα ΤΝ γίνονται πιο ικανά και πιο αυτόνομα.
Για να υποστηρίξουμε περαιτέρω έρευνα σε αυτόν τον τομέα, δημοσιεύουμε το σύνολο δεδομένων IH‑Challenge εδώ(ανοίγει σε νέο παράθυρο).


