Μετάβαση στο κύριο περιεχόμενο
OpenAI

5 Σεπτεμβρίου 2025

ΈρευναΔημοσίευση

Γιατί τα γλωσσικά μοντέλα παρουσιάζουν παραισθήσεις

Αφηρημένη εικόνα με σαρωτικές διαβαθμίσεις τιρκουάζ, μπλε και λιλά, που αναμειγνύονται διαγώνια στο πλαίσιο σε απαλές, ρέουσες γραμμές.
Φόρτωση…

Στην OpenAI, εργαζόμαστε σκληρά για να κάνουμε τα συστήματα TN πιο χρήσιμα και αξιόπιστα. Αν και τα γλωσσικά μοντέλα αποκτούν όλο και περισσότερες δεξιότητες, εξακολουθεί να υφίσταται μια πρόκληση που δύσκολα θα επιλυθεί πλήρως: οι παραισθήσεις. Με τον όρο «παραισθήσεις» αναφερόμαστε σε περιπτώσεις όπου ένα μοντέλο δίνει με σιγουριά μια απάντηση η οποία δεν ισχύει. Η νέα μας ερευνητική μελέτη(ανοίγει σε νέο παράθυρο) υποστηρίζει ότι τα γλωσσικά μοντέλα παρουσιάζουν παραισθήσεις, επειδή οι τυπικές διαδικασίες εκπαίδευσης και αξιολόγησης επιβραβεύουν την εικασία αντί να αναγνωρίζουν την αβεβαιότητα.

Και το ChatGPT παρουσιάζει παραισθήσεις. Είναι σημαντικά λιγότερες ειδικά σε κατάσταση συλλογιστικής, παρ' όλα αυτά εξακολουθούν να υφίστανται. Οι παραισθήσεις εξακολουθούν να αποτελούν θεμελιώδη πρόκληση για όλα τα μεγάλα γλωσσικά μοντέλα, αλλά καταβάλλουμε προσπάθειες για να τις μειώσουμε περαιτέρω.

Τι είναι οι παραισθήσεις;

Οι παραισθήσεις είναι αληθοφανείς αλλά ψευδείς δηλώσεις που δημιουργούν τα γλωσσικά μοντέλα. Μπορεί να προκύψουν ξαφνικά, ακόμη και σε φαινομενικά απλές ερωτήσεις. Για παράδειγμα, όταν ρωτήσαμε ένα ευρέως χρησιμοποιούμενο chatbot για τον τίτλο της διδακτορικής διατριβής του Άνταμ Τάουμαν Καλάι (συντάκτη αυτής της μελέτης), εκείνο έδωσε με σιγουριά τρεις διαφορετικές απαντήσεις — και καμία δεν ήταν σωστή. Όταν το ρωτήσαμε πότε έχει τα γενέθλιά του, μας έδωσε τρεις διαφορετικές ημερομηνίες, αλλά ήταν όλες λάθος. 

Διαβάζοντας για τις εξετάσεις

Οι παραισθήσεις εξακολουθούν εν μέρει να υφίστανται, επειδή οι τρέχουσες μέθοδοι αξιολόγησης δίνουν λάθος κίνητρα στα γλωσσικά μοντέλα. Αν και οι ίδιες οι αξιολογήσεις δεν παρουσιάζουν άμεσα παραισθήσεις, οι περισσότερες αξιολογήσεις μετρούν την απόδοση ενός μοντέλου κατά τρόπο που το ενθαρρύνει να κάνει εικασίες αντί να επιβραβεύει την ειλικρίνειά του όταν είναι αβέβαιο.

Φανταστείτε το ως ένα τεστ πολλαπλής επιλογής. Αν δεν γνωρίζετε την απάντηση αλλά μαντέψετε κάτι αυθόρμητα, μπορεί να είστε τυχεροί και να απαντήσετε σωστά. Αν αφήσετε την απάντηση κενό, θα μηδενιστεί σίγουρα. Με την ίδια λογική, όταν τα μοντέλα αξιολογούνται μόνο με βάση την ακρίβεια και το ποσοστό των ερωτήσεων που απαντούν σωστά, ενθαρρύνονται να μαντεύουν αντί να λένε απλώς «Δεν ξέρω».

Θα σας δώσουμε ένα άλλο παράδειγμα: Ας υποθέσουμε ότι ρωτάμε ένα γλωσσικό μοντέλο για τα γενέθλια κάποιου, αλλά εκείνο δεν γνωρίζει πότε είναι. Αν μαντέψει «10 Σεπτεμβρίου», έχει 1 στις 365 πιθανότητες να βγει σωστό. Αν απαντήσει «Δεν ξέρω», θα πάρει σίγουρα μηδέν. Μέσα από χιλιάδες δοκιμαστικές ερωτήσεις, το μοντέλο που κάνει εικασίες καταλήγει να εμφανίζεται σε καλύτερη θέση στη βαθμολογία σε σχέση με ένα προσεκτικό μοντέλο που αποδέχεται την αβεβαιότητά του.

Στις ερωτήσεις όπου υπάρχει μία μόνο «σωστή απάντηση», υπάρχουν τρεις κατηγορίες απαντήσεων: ακριβείς απαντήσεις, εσφαλμένες απαντήσεις και αποχή από την απάντηση, όταν το μοντέλο δεν το διακινδυνεύει με εικασίες. Η αποχή ανήκει στη λογική της ταπεινότητας, που αποτελεί μία από τις θεμελιώδεις αρχές της OpenAI. Οι περισσότεροι πίνακες βαθμολόγησης κατατάσσουν τα μοντέλα με βάση την ακρίβειά τους, αλλά ένα λάθος είναι χειρότερο από την αποχή. Οι προδιαγραφές των μοντέλων(ανοίγει σε νέο παράθυρο) μας αναφέρουν ότι είναι προτιμότερο ένα μοντέλο να εκφράζει ότι είναι αβέβαιο ή να ζητά διευκρινίσεις, από το να απαντά με σιγουριά δίνοντας εσφαλμένες πληροφορίες. 

Μέτρηση

gpt-5-thinking-mini

OpenAI o4-mini

Ποσοστό αποχής
(δεν δίνεται συγκεκριμένη απάντηση) 

52%

1%

Ποσοστό ακρίβειας
(σωστή απάντηση, όσο υψηλότερο τόσο καλύτερο)

22%

24%

Ποσοστό σφάλματος
(λάθος απάντηση, όσο χαμηλότερο τόσο καλύτερο)

26%

75%

Σύνολο

100%

100%

Όσον αφορά την ακρίβεια, το παλαιότερο μοντέλο OpenAI o4-mini αποδίδει ελαφρώς καλύτερα. Ωστόσο, το ποσοστό σφάλματός του (δηλαδή, το ποσοστό παραισθήσεων) είναι σημαντικά υψηλότερο. Με το να μαντεύει για στρατηγικούς λόγους, ενώ είναι αβέβαιο, βελτιώνεται η βαθμολογία του ως προς την ακρίβεια, αλλά αυξάνονται τα λάθη και οι παραισθήσεις. 

Όταν υπολογίζουν τον μέσο όρο των αποτελεσμάτων μέσα από δεκάδες αξιολογήσεις, οι περισσότεροι δείκτες αξιολόγησης δίνουν προτεραιότητα στη μέτρηση για την ακρίβεια. Ωστόσο, αυτό δεν αποτυπώνει την πραγματικότητα ως προς το τι είναι σωστό και τι λάθος. Σε απλοϊκές αξιολογήσεις όπως το SimpleQA, κάποια μοντέλα επιτυγχάνουν σχεδόν 100% ακρίβεια και έτσι εξαλείφουν τις παραισθήσεις. Ωστόσο, σε πιο απαιτητικές αξιολογήσεις και στην πραγματική χρήση, η ακρίβεια περιορίζεται κάτω από το 100%, επειδή υπάρχουν ορισμένες ερωτήσεις των οποίων η απάντηση δεν μπορεί να καθοριστεί για διάφορους λόγους, όπως μη διαθέσιμες πληροφορίες, περιορισμένη ικανότητα συλλογιστικής από μικρά μοντέλα ή ασάφειες που πρέπει να διευκρινιστούν.

Παρ' όλα αυτά, οι πίνακες βαθμολόγησης που βασίζονται αποκλειστικά στην ακρίβεια κυριαρχούν στους πίνακες κατάταξης και στις κάρτες μοντέλων, παροτρύνοντας τους προγραμματιστές να δημιουργούν μοντέλα που μαντεύουν αντί να είναι πιο συγκρατημένα. Αυτός είναι ένας λόγος για τον οποίο, αν και τα μοντέλα γίνονται όλο και πιο προηγμένα, εξακολουθούν να παρουσιάζουν παραισθήσεις, επειδή απαντούν με σιγουριά εσφαλμένα αντί να παραδέχονται ότι δεν είναι βέβαια.

Καλύτερη βαθμολόγηση στις αξιολογήσεις

Όλα αυτά μπορούν να διορθωθούν με έναν απλό τρόπο. Με το να τιμωρούνται τα σφάλματα που αποπνέουν σιγουριά με μεγαλύτερη βαρύτητα από την αβεβαιότητα, και με το να επιβραβεύεται μερικώς η ορθή έκφραση της αβεβαιότητας. Η ιδέα δεν είναι καινούργια. Ορισμένα τυποποιημένα τεστ εφαρμόζουν εδώ και καιρό εκδοχές αρνητικής βαθμολόγησης για εσφαλμένες απαντήσεις ή μερικής βαθμολόγησης για την απουσία απαντήσεων, ώστε να αποθαρρύνουν τις τυφλές εικασίες. Αρκετές ερευνητικές ομάδες έχουν επίσης δημιουργήσει αξιολογήσεις που λαμβάνουν υπόψη την αβεβαιότητα και τη βαθμονόμηση.

Εμείς λέμε κάτι διαφορετικό. Δεν αρκεί να προσθέσει κανείς μερικές νέες δοκιμές που θα λαμβάνουν υπόψη παρεμπιπτόντως την αβεβαιότητα. Οι ευρέως χρησιμοποιούμενες αξιολογήσεις που βασίζονται στην ακρίβεια πρέπει να ενημερωθούν, ώστε τα αποτελέσματά τους να αποθαρρύνουν τις εικασίες. Αν οι βασικοί πίνακες κατάταξης συνεχίσουν να επιβραβεύουν τις τυχαίες εικασίες, τα μοντέλα θα συνεχίσουν να εκπαιδεύονται να μαντεύουν. Με τη διόρθωση των πινάκων κατάταξης, μπορεί να διευρυνθεί η υιοθέτηση τεχνικών μείωσης των παραισθήσεων, τόσο εκείνων που έχουν σχεδιαστεί πρόσφατα όσο και όσων έχουν προκύψει από προηγούμενες έρευνες.

Γιατί η πρόβλεψη της επόμενης λέξης γεννά παραισθήσεις

Μιλήσαμε για τους λόγους που είναι δύσκολο να απαλλαγούμε από τις παραισθήσεις. Ωστόσο, από πού προέρχονται εξαρχής αυτές οι εξαιρετικά συγκεκριμένες ανακρίβειες; Είναι αλήθεια ότι τα μεγάλα προεκπαιδευμένα μοντέλα σπάνια εμφανίζουν άλλα είδη σφαλμάτων, όπως ορθογραφικά λάθη και ασύμβατες παρενθέσεις. Η διαφορά έχει να κάνει με τα είδη των μοτίβων που παρατηρούνται στα δεδομένα.

Τα γλωσσικά μοντέλα αρχικά εκπαιδεύονται μέσω προεκπαίδευσης, μιας διαδικασίας που περιλαμβάνει και την πρόβλεψη της επόμενης λέξης σε τεράστιους όγκους κειμένων. Σε αντίθεση με τα παραδοσιακά προβλήματα μηχανικής μάθησης, σε κάθε δήλωση που προκύπτει απ' το μοντέλο δεν τοποθετούνται ετικέτες με την επισήμανση «σωστό/λάθος». Το μοντέλο έρχεται σε επαφή μόνο με σωστά παραδείγματα με άπταιστη διατύπωση και πρέπει να προσεγγίσει τη συνολική κατανομή της γλώσσας. 

Είναι πιο δύσκολο να διακριθούν οι έγκυρες από τις μη έγκυρες δηλώσεις, όταν δεν υπάρχουν παραδείγματα που να επισημαίνονται ως μη έγκυρα. Αλλά ακόμα και με επισημάνσεις, κάποια λάθη είναι αναπόφευκτα. Για να κατανοήσετε τους λόγους, φέρτε στο μυαλό σας μια απλή αναλογία. Στην αναγνώριση εικόνων, αν εκατομμύρια φωτογραφίες με γάτες και σκύλους φέρουν την επισήμανση «γάτα» ή «σκύλος», οι αλγόριθμοι μπορούν να μάθουν να τις ταξινομούν αξιόπιστα. Φανταστείτε τώρα να πρέπει να επισημανθεί κάθε φωτογραφία με βάση τα γενέθλια κάθε κατοικιδίου. Επειδή τα γενέθλια είναι ουσιαστικά μια τυχαία ημερομηνία, αυτή η εργασία ενδέχεται να παράγει πάντα σφάλματα, ανεξάρτητα από το πόσο προηγμένος είναι ο αλγόριθμος.

Η ίδια αρχή ισχύει και για την προεκπαίδευση. Η ορθογραφία και οι παρενθέσεις ακολουθούν συνεπή μοτίβα, οπότε σε μεγάλη κλίμακα δεν υφίστανται τέτοιου είδους σφάλματα. Όμως, τα αυθαίρετα στοιχεία χαμηλής συχνότητας, όπως τα γενέθλια ενός κατοικίδιου, δεν μπορούν να προβλεφθούν μόνο βάσει μοτίβων και συνεπώς οδηγούν σε παραισθήσεις. Η ανάλυσή μας εξηγεί ποια είδη παραισθήσεων θα πρέπει να προκύπτουν από την πρόβλεψη της επόμενης λέξης. Ιδανικά, στα επόμενα στάδια μετά την προεκπαίδευση θα έπρεπε να μην υφίστανται τέτοιου είδους παραισθήσεις, αλλά αυτό δεν ισχύει εντελώς για τους λόγους που περιγράφονται στην προηγούμενη ενότητα. 

Συμπεράσματα

Ελπίζουμε η στατιστική προσέγγιση της μελέτης μας να αποσαφηνίζει τη φύση των παραισθήσεων και να καταρρίπτει κοινές παρανοήσεις:

  • Ισχυρισμός: Οι παραισθήσεις μπορούν να εξαλειφθούν με τη βελτίωση της ακρίβειας, επειδή ένα μοντέλο με 100% ακρίβεια δεν έχει ποτέ παραισθήσεις.
    Εύρημα:
    Η ακρίβεια δεν θα φτάσει ποτέ στο 100%, επειδή, ανεξάρτητα από το μέγεθος ενός μοντέλου, και τις δυνατότητες αναζήτησης και συλλογισμού του, ορισμένα ερωτήματα που αφορούν στον πραγματικό κόσμο είναι εγγενώς αναπάντητα. 
  • Ισχυρισμός: Οι παραισθήσεις είναι αναπόφευκτες.
    Εύρημα:
    Δεν ισχύει. Τα γλωσσικά μοντέλα μπορούν να επιλέξουν να μην απαντήσουν όταν δεν είναι βέβαια.
  • Ισχυρισμός: Η αποφυγή των παραισθήσεων απαιτεί ένα επίπεδο νοημοσύνης που είναι εφικτό αποκλειστικά σε μεγαλύτερα μοντέλα.
    Εύρημα:
    Μπορεί να είναι πιο εύκολο για ένα μικρό μοντέλο να γνωρίζει τα όριά του. Για παράδειγμα, όταν πρέπει να απαντήσει κάτι στα Μαορί, ένα μικρό μοντέλο που δεν γνωρίζει καθόλου τη γλώσσα μπορεί απλώς να πει «Δεν ξέρω», ενώ όταν ένα μοντέλο γνωρίζει λίγο τη γλώσσα, αυτό θα καθορίσει τον βαθμό σιγουριάς που θα επιδεικνύει όταν απαντήσει. Όπως αναφέρεται στη μελέτη, η «βαθμονόμηση» απαιτεί πολύ λιγότερους υπολογισμούς από την ακρίβεια.
  • Ισχυρισμός: Οι παραισθήσεις είναι ένα πρόβλημα που προκύπτει μυστηριωδώς στα σύγχρονα γλωσσικά μοντέλα.
    Εύρημα:
    Έχουμε κατανοήσει τους στατιστικούς μηχανισμούς μέσω των οποίων προκύπτουν οι παραισθήσεις και επιβραβεύονται στις αξιολογήσεις.
  • Ισχυρισμός: Για να υπολογίσουμε τις παραισθήσεις, χρειαζόμαστε απλώς μια καλή αξιολόγηση παραισθήσεων.
    Εύρημα:
    Αξιολογήσεις παραισθήσεων έχουν ήδη δημοσιευτεί. Ωστόσο, μια καλή αξιολόγηση παραισθήσεων έχει μικρό αντίκτυπο σε σχέση με τις εκατοντάδες παραδοσιακές αξιολογήσεις που βασίζονται στην ακρίβεια, τιμωρούν την ταπεινότητα και επιβραβεύουν τις εικασίες. Αντίθετα, όλες οι βασικές μετρήσεις αξιολόγησης πρέπει να επανασχεδιαστούν ώστε να επιβραβεύουν την εκδήλωση της αβεβαιότητας.

Τα τελευταία μοντέλα μας παρουσιάζουν χαμηλότερα ποσοστά παραισθήσεων και καταβάλλουμε προσπάθειες για να μειώσουμε περαιτέρω τα ποσοστά των σφαλμάτων που εκφράζονται με σιγουριά από τα γλωσσικά μοντέλα μας.

Συνεισφέροντες ανακοίνωσης

Adam Kalai, Santosh Vempala (Georgia Tech), Ofir Nachum, Eddie Zhang, David Robinson, Saachi Jain, Eric Mitchell, Alex Beutel, Johannes Heidecke