Οι πρώτες μας υποβολές για το First Proof
Μοιραζόμαστε τις προσπάθειες απόδειξης μας για το First Proof, μια πρόκληση μαθηματικών που εξετάζει αν η ΤΝ μπορεί να παράγει επαληθεύσιμες αποδείξεις σε προβλήματα ειδικού πεδίου.
Εκτελέσαμε ένα εσωτερικό μοντέλο και στα 10 προβλήματα του First Proof(ανοίγει σε νέο παράθυρο), μιας πρόκλησης μαθηματικών σε ερευνητικό επίπεδο που έχει σχεδιαστεί για να ελέγξει αν τα συστήματα ΤΝ μπορούν να παράγουν σωστές και ελέγξιμες προσπάθειες απόδειξης. Σε αντίθεση με τα μαθηματικά σύντομης απάντησης ή διαγωνιστικού τύπου, αυτά τα προβλήματα απαιτούν τη διαμόρφωση ολοκληρωμένων επιχειρημάτων σε εξειδικευμένους τομείς, και η ορθότητα είναι δύσκολο να τεκμηριωθεί χωρίς αξιολόγηση από ειδικό. Οι συγγραφείς των προβλημάτων του First Proof είναι κορυφαίοι ειδικοί στους αντίστοιχους τομείς τους, και τουλάχιστον μερικά από τα προβλήματα παρέμειναν ανοιχτά για χρόνια πριν οι συγγραφείς βρουν λύσεις. Ένα ακαδημαϊκό τμήμα με σημαντική επικάλυψη στα γνωστικά αντικείμενα θα μπορούσε ενδεχομένως να επιλύσει πολλά από τα προβλήματα μέσα σε μία εβδομάδα.
Εμείς παρουσιάσαμε(ανοίγει σε νέο παράθυρο) τις δικές μας προσπάθειες απόδειξης το Σάββατο, 14 Φεβρουαρίου 2026 στις 12:00 π.μ. PT. Με βάση τα σχόλια των ειδικών, πιστεύουμε ότι τουλάχιστον πέντε από τις προσπάθειες απόδειξης του μοντέλου (προβλήματα 4, 5, 6, 9 και 10) έχουν υψηλή πιθανότητα να είναι σωστές, ενώ αρκετές άλλες παραμένουν υπό εξέταση. Αρχικά πιστεύαμε ότι η προσπάθειά μας για το πρόβλημα 2 ήταν πιθανώς σωστή. Με βάση τον επίσημο σχολιασμό του First Proof και την περαιτέρω ανάλυση της κοινότητας, πιστεύουμε πλέον ότι είναι εσφαλμένη. Είμαστε ευγνώμονες για τη συμμετοχή και ανυπομονούμε για τη συνέχιση της αξιολόγησης. Το πλήρες σύνολο των προσπαθειών απόδειξης μπορείτε να το βρείτε εδώ(ανοίγει σε νέο παράθυρο). Η προδημοσίευση περιλαμβάνει και τις δέκα προσπάθειες απόδειξης, καθώς και ένα νέο παράρτημα με μοτίβα προτροπών και παραδείγματα που αποσκοπούν στην προσομοίωση των χειροκίνητων αλληλεπιδράσεών μας με τα μοντέλα κατά τη διάρκεια της διαδικασίας.
Πιστεύουμε ότι η καινοτόμος κορυφαία έρευνα είναι ίσως ο πιο σημαντικός τρόπος για να αξιολογήσουμε τις δυνατότητες των μοντέλων τεχνητής νοημοσύνης επόμενης γενιάς. Οι συγκριτικές αξιολογήσεις είναι χρήσιμες, αλλά μπορεί να παραλείπουν μερικά από τα πιο δύσκολα μέρη της έρευνας: τη διατήρηση μακρών αλυσίδων συλλογιστικής, την επιλογή των κατάλληλων αφαιρέσεων, τη διαχείριση της ασάφειας στις διατυπώσεις προβλημάτων και την παραγωγή επιχειρημάτων που αντέχουν στον έλεγχο των ειδικών. Κορυφαίες προκλήσεις όπως το First Proof μας βοηθούν να δοκιμάζουμε αυτές τις δυνατότητες σε περιβάλλοντα όπου η ορθότητα είναι σημαντικό να επαληθευτεί και οι τρόποι αποτυχίας είναι διαφωτιστικοί.
«Αυτή τη στιγμή εκπαιδεύουμε ένα νέο μοντέλο, για το οποίο ένας βασικός στόχος είναι η αύξηση του επιπέδου αυστηρότητας στη σκέψη του, με σκοπό το μοντέλο να μπορεί να σκέφτεται συνεχώς για πολλές ώρες και να παραμένει ιδιαίτερα βέβαιο για τα συμπεράσματά του. Όταν ανακοινώθηκαν τα προβλήματα του First Proof, φάνηκε σαν το τέλειο πεδίο δοκιμών, οπότε το δοκίμασα το Σαββατοκύριακο. Ήδη κατάφερε να λύσει δύο από τα προβλήματα (αρ. 9 και αρ. 10). Καθώς εκπαιδευόταν, γινόταν όλο και πιο ικανό, και κατάφερε τελικά να επιλύσει –κατά την εκτίμησή μας– τουλάχιστον τρία ακόμη προβλήματα. Μας χαροποίησε ιδιαίτερα όταν έλυσε το αρ. 6 και, δύο ημέρες αργότερα, το αρ. 4, καθώς αυτά τα προβλήματα προέρχονταν από πεδία οικεία σε πολλούς από εμάς. Είναι πραγματικά απίστευτο να παρακολουθείς ένα μοντέλο να γίνεται αισθητά πιο έξυπνο μέρα με τη μέρα».
– James R. Lee (Ερευνητής της OpenAI, Συλλογιστική)
Εκτελέσαμε το μοντέλο με περιορισμένη ανθρώπινη επίβλεψη. Όταν προτρέπαμε εκδόσεις του μοντέλου κατά τη διάρκεια της εκπαίδευσης, μερικές φορές προτείναμε στρατηγικές εκ νέου δοκιμής που είχαν αποδειχθεί καρποφόρες σε προηγούμενες προσπάθειες. Για ορισμένες προσπάθειες, ζητήσαμε από το μοντέλο να επεκτείνει ή να διευκρινίσει μέρη μιας απόδειξης μετά από σχόλια ειδικών, ώστε η συλλογιστική να είναι πιο εύκολα επαληθεύσιμη. Συντονίσαμε, επίσης, μια αμφίδρομη επικοινωνία μεταξύ αυτού του μοντέλου και του ChatGPT για επαλήθευση, μορφοποίηση και στυλ. Για ορισμένα προβλήματα, παρουσιάζουμε τις καλύτερες από μερικές προσπάθειες, επιλεγμένες με ανθρώπινη κρίση. Αυτό ήταν ένα γρήγορο σπριντ, και η διαδικασία μας δεν ήταν τόσο καθαρή όσο θα θέλαμε σε μια σωστά ελεγχόμενη αξιολόγηση. Ανυπομονούμε να συζητήσουμε με τους διοργανωτές του First Proof για ένα πιο αυστηρό πλαίσιο πειραματισμού και αξιολόγησης για μελλοντικές επαναλήψεις.
Αυτή η εργασία βασίζεται σε προηγούμενα αποτελέσματα από κορυφαία μοντέλα συλλογιστικής στα μαθηματικά και τις επιστήμες. Τον Ιούλιο του 2025, επιτύχαμε επίδοση επιπέδου χρυσού μεταλλίου(ανοίγει σε νέο παράθυρο) στη Διεθνή Μαθηματική Ολυμπιάδα με ένα γενικό μοντέλο συλλογιστικής (35/42 βαθμοί). Τον Νοέμβριο του 2025, παρουσιάσαμε τα «Πρώιμα πειράματα για την επιτάχυνση της επιστήμης με το GPT‑5», ένα σύνολο μελετών περιπτώσεων όπου το GPT‑5 βοήθησε τους ερευνητές να σημειώσουν απτή πρόοδο στα μαθηματικά, τη φυσική, τη βιολογία και άλλα πεδία, μαζί με τους περιορισμούς που παρατηρήσαμε. Και πιο πρόσφατα, αναφέραμε μια συνεργασία στη φυσική όπου το GPT‑5.2 πρότεινε μια υποψήφια έκφραση για έναν τύπο πλάτους γλουονίου, η οποία στη συνέχεια αποδείχθηκε επίσημα από ένα εσωτερικό μοντέλο και επαληθεύτηκε από τους συγγραφείς.
Ανυπομονούμε για μια πιο βαθιά συνεργασία με την κοινότητα σχετικά με την αξιολόγηση της συλλογιστικής ερευνητικού επιπέδου, καθώς και για την ανατροφοδότηση από ειδικούς για αυτές τις προσπάθειες, και είμαστε ενθουσιασμένοι που θα διαθέσουμε αυτές τις νέες δυνατότητες σε μελλοντικά δημόσια μοντέλα.


