Καλωσορίστε τον πράκτορα ChatGPT: συνδυάζει έρευνα και δράση
Το ChatGPT πλέον σκέφτεται και πράττει, επιλέγοντας αυτόνομα βοηθήματα από μια εργαλειοθήκη δεξιοτήτων, για να ολοκληρώσει εργασίες για εσάς, χρησιμοποιώντας τον υπολογιστή του.
Το ChatGPT μπορεί πλέον να εργάζεται για εσάς, χρησιμοποιώντας τον δικό του υπολογιστή, εκτελώντας πολύπλοκες εργασίες από την αρχή μέχρι το τέλος.
Τώρα μπορείτε να ζητήσετε από το ChatGPT να χειριστεί αιτήματα όπως «δες το ημερολόγιό μου και ενημέρωσέ με για τις επερχόμενες συναντήσεις με πελάτες βάσει των πρόσφατων εξελίξεων», «προγραμμάτισε και αγόρασε τα υλικά για να φτιάξω ιαπωνικό πρωινό για τέσσερις» ή «ανάλυσε τα στοιχεία τριών ανταγωνιστών και δημιούργησε μια παρουσίαση». Το ChatGPT περιηγείται έξυπνα σε ιστοσελίδες, φιλτράρει αποτελέσματα, σας προτρέπει να συνδεθείτε με ασφάλεια όταν χρειάζεται, εκτελεί κώδικα, κάνει ανάλυση και παραδίδει ακόμη και επεξεργάσιμες παρουσιάσεις σε μορφή διαφανειών ή υπολογιστικά φύλλα που συνοψίζουν τα ευρήματά του.
Στην καρδιά αυτής της νέας δυνατότητας βρίσκεται ένα ενοποιημένο σύστημα πράκτορα. Συνδυάζει τρία πλεονεκτήματα προηγούμενων καινοτομιών: την ικανότητα του Operator να αλληλεπιδρά με ιστότοπους, τη δεξιότητα της έρευνας σε βάθος στη σύνθεση πληροφοριών και την ευφυΐα και την ευχέρεια συνομιλίας του ChatGPT.
Το ChatGPT εκτελεί αυτές τις εργασίες χρησιμοποιώντας τον δικό του εικονικό υπολογιστή, κάνοντας αρμονικά εναλλαγή μεταξύ συλλογιστικής και ενέργειας για να χειριστεί πολύπλοκες ροές εργασίας από την αρχή μέχρι το τέλος, πάντα με βάση τις οδηγίες σας.
Και το πιο σημαντικό, έχετε πάντα εσείς τον έλεγχο. Το ChatGPT ζητά άδεια πριν προβεί σε ενέργειες που ενδέχεται να έχουν συνέπειες, ενώ μπορείτε εύκολα να το διακόψετε, να αναλάβετε τον έλεγχο του προγράμματος περιήγησης ή να σταματήσετε εργασίες ανά πάσα στιγμή.
Από σήμερα, οι χρήστες των προγραμμάτων Pro, Plus και Team μπορούν να ενεργοποιήσουν τις νέες δυνατότητες πράκτορα του ChatGPT απευθείας μέσω του αναπτυσσόμενου μενού εργαλείων από το πεδίο προσθήκης κειμένου, επιλέγοντας τη «λειτουργία πράκτορα» σε οποιοδήποτε σημείο οποιασδήποτε συζήτησης.
Ενώ ο πράκτορας ChatGPT είναι ήδη ένα ισχυρό εργαλείο για τον χειρισμό σύνθετων εργασιών, η σημερινή κυκλοφορία αποτελεί μόνο την αρχή. Θα συνεχίσουμε να κάνουμε σημαντικές βελτιώσεις σε τακτική βάση, καθιστώντας το πιο ικανό και χρήσιμο σε περισσότερους ανθρώπους με τον καιρό.
Παλιότερα, το Operator και η έρευνα σε βάθος είχαν το καθένα τα δικά τους μοναδικά πλεονεκτήματα: το Operator μπορούσε να κάνει κύλιση, να κάνει κλικ και να πληκτρολογεί στο διαδίκτυο, ενώ η έρευνα σε βάθος είχε εξαιρετικές επιδόσεις στην ανάλυση και τη σύνοψη πληροφοριών. Αλλά είχαν τις καλύτερες επιδόσεις σε διαφορετικές καταστάσεις: το Operator δεν μπορούσε να εμβαθύνει στην ανάλυση ή να συντάξει λεπτομερείς αναφορές, και η βαθιά έρευνα δεν μπορούσε να αλληλεπιδράσει με ιστότοπους για να βελτιώσει τα αποτελέσματα ή να αποκτήσει πρόσβαση σε περιεχόμενο που απαιτεί έλεγχο ταυτότητας χρήστη. Για την ακρίβεια, διαπιστώσαμε ότι πολλά ερωτήματα που έκαναν οι χρήστες με το Operator ήταν καλύτερα προσαρμοσμένα για έρευνα σε βάθος, οπότε συνδυάσαμε τα καλύτερα στοιχεία και των δύο.
Με την ενσωμάτωση αυτών των συμπληρωματικών πλεονεκτημάτων στο ChatGPT και την εισαγωγή πρόσθετων εργαλείων, ανοίξαμε τον δρόμο για εντελώς νέες δυνατότητες μέσα σε ένα μόνο μοντέλο. Το μοντέλο μπορεί πλέον να αλληλεπιδρά ενεργά με ιστότοπους, κάνοντας κλικ, φιλτράροντας και συλλέγοντας τα πιο ακριβή και ουσιαστικά αποτελέσματα. Μπορείτε επίσης να μεταβείτε με φυσικό τρόπο από μια απλή συζήτηση σε ένα αίτημα για να γίνει κάποια ενέργεια, απευθείας μέσα από την ίδια συνομιλία.
Εξοπλίσαμε τον πράκτορα ChatGPT με μια σειρά εργαλείων: ένα οπτικό πρόγραμμα περιήγησης που αλληλεπιδρά με το διαδίκτυο μέσω ενός γραφικού περιβάλλοντος χρήστη, ένα πρόγραμμα περιήγησης βασισμένο σε κείμενο για απλούστερα ερωτήματα στο διαδίκτυο που βασίζονται σε συλλογιστική, ένα τερματικό και άμεση πρόσβαση στο API. Ο πράκτορας μπορεί επίσης να αξιοποιήσει τους συνδέσμους του ChatGPT(ανοίγει σε νέο παράθυρο), που σας επιτρέπουν να συνδέετε εφαρμογές όπως το Gmail και το Github, ώστε το ChatGPT να μπορεί να βρίσκει πληροφορίες σχετικά με τις προτροπές σας και να τις χρησιμοποιεί στις απαντήσεις του. Μπορείτε επίσης να συνδεθείτε σε οποιονδήποτε ιστότοπο, αναλαμβάνοντας τον έλεγχο του προγράμματος περιήγησης και επιτρέποντάς του να εκτελέσει έρευνα και εργασίες σε μεγαλύτερο βάθος και ευρύτερα. Το γεγονός ότι το ChatGPT πλέον διαθέτει αυτά τα χαρακτηριστικά για πρόσβαση και αλληλεπίδραση με πληροφορίες στο διαδίκτυο, του επιτρέπει να επιλέξει την καλύτερη διαδρομή για να εκτελέσει εργασίες με τον πιο αποτελεσματικό τρόπο. Για παράδειγμα, μπορεί να συλλέγει πληροφορίες για το ημερολόγιό σας μέσω ενός API, να συλλογίζεται αποτελεσματικά αξιοποιώντας μεγάλους όγκους κειμένων μέσω του προγράμματος περιήγησης που βασίζεται σε κείμενο, ενώ παράλληλα έχει τη δυνατότητα να αλληλεπιδρά οπτικά με ιστότοπους που έχουν σχεδιαστεί κυρίως για ανθρώπους.
Όλα αυτά τα καταφέρνει χρησιμοποιώντας τον δικό του εικονικό υπολογιστή, ο οποίος διατηρεί το απαραίτητο θεματικό πλαίσιο για την εκάστοτε εργασία, ακόμα και όταν χρησιμοποιούνται πολλά εργαλεία. Το μοντέλο μπορεί να επιλέξει να ανοίξει μια σελίδα με το πρόγραμμα περιήγησης κειμένου ή με το οπτικό πρόγραμμα περιήγησης, να κατεβάσει ένα αρχείο από το διαδίκτυο, να το επεξεργαστεί εκτελώντας μια εντολή στο τερματικό και, στη συνέχεια, να δει το αποτέλεσμα ξανά στο οπτικό πρόγραμμα περιήγησης. Το μοντέλο προσαρμόζει την προσέγγισή του προκειμένου να εκτελεί εργασίες με ταχύτητα, ακρίβεια και αποτελεσματικότητα.
Ο πράκτορας ChatGPT έχει σχεδιαστεί για διορθωτικές, συνεργατικές ροές εργασίας, πολύ πιο διαδραστικές και ευέλικτες από τα προηγούμενα μοντέλα. Την ώρα που το ChatGPT εργάζεται, μπορείτε να το διακόψετε ανά πάσα στιγμή για να δώσετε διευκρινιστικές οδηγίες, να το κατευθύνετε προς τα επιθυμητά αποτελέσματα ή να αλλάξετε εντελώς την εργασία που του έχετε ζητήσει να κάνει. Θα συνεχίσει από εκεί που σταμάτησε, αλλά πλέον θα έχει στη διάθεσή του και τις νέες πληροφορίες, χωρίς όμως να χάνει και την πρόοδο που είχε κάνει μέχρι στιγμής. Ομοίως, το ίδιο το ChatGPT μπορεί να αναζητήσει πρόσθετες λεπτομέρειες από εσάς, προκειμένου να διασφαλίσει ότι η εργασία που κάνει εξακολουθεί να εναρμονίζεται με τους στόχους σας. Αν μια εργασία διαρκεί περισσότερο από το αναμενόμενο ή θεωρείτε ότι έχει κολλήσει, μπορείτε να τη διακόψετε, να ζητήσετε μια σύνοψη που να αποτυπώνει την πρόοδο που έχει γίνει ή να τη σταματήσετε εντελώς και να δείτε μέρος του αποτελέσματος. Εάν έχετε την εφαρμογή ChatGPT στο κινητό σας, θα σας σταλεί μια ειδοποίηση όταν ολοκληρωθεί η εργασία σας.
Αυτές οι ενοποιημένες δυνατότητες του πράκτορα ενισχύουν σημαντικά τη χρησιμότητα του ChatGPT τόσο σε καθημερινά όσο και σε επαγγελματικά περιβάλλοντα. Σε επαγγελματικά περιβάλλοντα, μπορείτε να αυτοματοποιήσετε επαναλαμβανόμενες εργασίες, όπως τη μετατροπή στιγμιότυπων οθόνης ή πινάκων εργαλείων σε παρουσιάσεις που αποτελούνται από επεξεργάσιμα διανυσματικά στοιχεία, την αλλαγή συναντήσεων, τον προγραμματισμό και την κράτηση εξωτερικών χώρων, και την ενημέρωση υπολογιστικών φύλλων με νέα οικονομικά δεδομένα, διατηρώντας την ίδια μορφοποίηση. Στην προσωπική σας ζωή, μπορείτε να το χρησιμοποιείτε για να σχεδιάζετε και να κλείνετε ταξίδια χωρίς κόπο, για να οργανώνετε και να κλείνετε τις λεπτομέρειες για μια έξοδο για φαγητό ή μέχρι και για να βρίσκετε μάστορες και να κλείνετε ραντεβού.
Οι ανεπτυγμένες δυνατότητες του μοντέλου αποτυπώνονται στην κορυφαία απόδοσή του (SOTA) σε αξιολογήσεις που καταμετρούν την περιήγηση στο διαδίκτυο και τις δυνατότητες ολοκλήρωσης εργασιών στον πραγματικό κόσμο.
Στο Humanity’s Last Exam(ανοίγει σε νέο παράθυρο)*, μια αξιολόγηση που μετρά την απόδοση της ΤΝ σε ένα ευρύ φάσμα θεμάτων, με εξειδικευμένες ερωτήσεις, το μοντέλο που τροφοδοτεί τον πράκτορα ChatGPT επιτυγχάνει νέο pass@1 SOTA με 41.6. Επειδή ο πράκτορας δημιουργεί το δικό του πρόγραμμα δυναμικά και επιλέγει τα δικά του εργαλεία, μπορεί να εκτελέσει την ίδια εργασία με διαφορετικούς τρόπους σε διαφορετικές φάσεις εκτέλεσης. Όταν κλιμακώσαμε αυτήν τη δυνατότητα με μια απλή στρατηγική παράλληλης ανάπτυξης —εκτελώντας έως και οκτώ προσπάθειες ταυτόχρονα και επιλέγοντας εκείνη με την υψηλότερη αυτοαναφερόμενη σιγουριά—, η βαθμολογία HLE του πράκτορα αυξήθηκε στα 44,4.
Το FrontierMath** είναι ο πιο απαιτητικός, γνωστός, μαθηματικός δείκτης αξιολόγησης, με νέα, αδημοσίευτα προβλήματα που συχνά χρειάζονται ώρες ή και ημέρες για να λυθούν από μαθηματικούς. Με τη χρήση εργαλείων, όπως είναι η πρόσβαση σε τερματικό για εκτέλεση κώδικα, ο πράκτορας ChatGPT επιτυγχάνει ακρίβεια 27,4%, ξεπερνώντας κατά πολύ και τα δύο προηγούμενα μοντέλα.
Αξιολογήσαμε επίσης το μοντέλο, χρησιμοποιώντας δείκτες αξιολόγησης που διαμορφώθηκαν με βάση πολύπλοκες εργασίες του πραγματικού κόσμου. Σε έναν εσωτερικό δείκτη αξιολόγησης που έχει σχεδιαστεί για την αξιολόγηση της απόδοσης του μοντέλου σε σύνθετες εργασίες με οικονομικά στοιχεία, η επίδοση του πράκτορα ChatGPT είναι συγκρίσιμη ή καλύτερη από των ανθρώπων σε περίπου τις μισές περιπτώσεις, σε διάφορους χρόνους ολοκλήρωσης εργασιών, ενώ υπερτερεί σημαντικά σε σχέση με τα o3 και o4-mini. Τα αποτελέσματα των μοντέλων αξιολογούνται από ειδικούς με βάση υψηλής ποιότητας ανθρώπινες προδιαγραφές που ορίζονται από άτομα κορυφαία σε επιδόσεις στον εκάστοτε τομέα. Αυτές οι εργασίες, που προέρχονται από ειδικούς από διάφορα επαγγελματικά πεδία και κλάδους, αντικατοπτρίζουν την επαγγελματική εργασία στον πραγματικό κόσμο, όπως είναι η προετοιμασία μιας ανάλυσης ανταγωνισμού φορέων παροχής ιατρικής βοήθειας σε έκτακτα περιστατικά, η δημιουργία αναλυτικών προγραμμάτων εξόφλησης χρεών και ο εντοπισμός βιώσιμων πηγαδιών νερού για μια νέα εγκατάσταση πράσινου υδρογόνου.
Στο DSBench(ανοίγει σε νέο παράθυρο), που έχει σχεδιαστεί για την αξιολόγηση πρακτόρων σε ρεαλιστικές εργασίες επιστήμης δεδομένων, οι οποίες περιλαμβάνουν ανάλυση και μοντελοποίηση δεδομένων, ο πράκτορας ChatGPT ξεπερνά την ανθρώπινη απόδοση με σημαντική διαφορά.
Στο SpreadsheetBench, που αξιολογεί τα μοντέλα με βάση την ικανότητά τους να επεξεργάζονται υπολογιστικά φύλλα από πραγματικά σενάρια, ο πράκτορας ChatGPT υπερέχει των υφιστάμενων μοντέλων με μεγάλη διαφορά. Όταν του δίνεται η δυνατότητα να επεξεργάζεται απευθείας υπολογιστικά φύλλα, ο πράκτορας ChatGPT βαθμολογείται ακόμη υψηλότερα, με 45,5%, σε σύγκριση με το 20,0% του Copilot στο Excel.
Μεθοδολογία: Οι συντάκτες του SpreadsheetBench χρησιμοποίησαν ένα περιβάλλον Windows με το Microsoft Excel για να αξιολογήσουν υπολογιστικά φύλλα. Χρησιμοποιήσαμε ένα περιβάλλον OSX και το LibreOffice, γεγονός που μπορεί να εξηγεί μικρές διαφορές βαθμολόγησης. Για παράδειγμα, οι συντάκτες βρήκαν έναν συνολικό απόλυτο περιορισμό 15,02% για το GPT‑4o, και εμείς βρήκαμε 13,38%. Χρησιμοποιήσαμε τον πλήρη δείκτη αξιολόγησης 912 ερωτήσεων.
Σε έναν εσωτερικό δείκτη αξιολόγησης που μετρά την ικανότητα ενός μοντέλου να αναλαμβάνει εργασίες μοντελοποίησης αναλυτών επενδυτικής τραπεζικής πρώτου έως τρίτου έτους —όπως η δημιουργία ενός χρηματοοικονομικού μοντέλου τριών καταστάσεων για μια εταιρεία Fortune 500 με σωστή μορφοποίηση και παραπομπές, ή η δημιουργία ενός μοντέλου εξαγοράς με μόχλευση για μια ιδιωτική εξαγορά— το μοντέλο που στηρίζει τον πράκτορα ChatGPT ξεπερνά σημαντικά την έρευνα σε βάθος και το o3. Κάθε εργασία βαθμολογείται με βάση εκατοντάδες κριτήρια που αφορούν την ορθότητα και τη χρήση τύπων.
Αξιολογήσαμε επίσης τον πράκτορα ChatGPT στο BrowseComp, έναν δείκτη αξιολόγησης, τα αποτελέσματα του οποίου δημοσιεύτηκαν φέτος και ο οποίος μετρά την ικανότητα των πρακτόρων περιήγησης να εντοπίζουν δυσεύρετες πληροφορίες στο διαδίκτυο. Το μοντέλο έκανε νέο SOTA με 68,9%, 17,4 ποσοστιαίες μονάδες υψηλότερα από την έρευνα σε βάθος.
Τέλος, στο WebArena(ανοίγει σε νέο παράθυρο), έναν δείκτη αξιολόγησης που έχει σχεδιαστεί για να αξιολογεί την απόδοση των πρακτόρων περιήγησης στο διαδίκτυο ως προς την ολοκλήρωση πραγματικών εργασιών στο διαδίκτυο, το μοντέλο παρουσιάζει βελτίωση σε σχέση με το CUA που υποστηρίζεται από το o3 (το μοντέλο που υποστηρίζει το Operator).
Μπορείτε να ενεργοποιήσετε τις νέες δυνατότητες πράκτορα του ChatGPT απευθείας μέσω του αναπτυσσόμενου μενού εργαλείων από το πεδίο προσθήκης κειμένου, επιλέγοντας τη «λειτουργία πράκτορα» σε οποιοδήποτε σημείο οποιασδήποτε συζήτησης. Απλώς περιγράψτε του τι θέλετε να κάνει, είτε πρόκειται για έρευνα σε βάθος είτε για δημιουργία μιας παρουσίασης με διαφάνειες ή για την υποβολή δαπανών. Την ώρα που εκτελεί την εργασία σας, η αφήγηση στην οθόνη σας επιτρέπει να παρακολουθείτε τι ακριβώς κάνει το ChatGPT. Μπορείτε να διακόπτετε και να αναλαμβάνετε τον έλεγχο του προγράμματος περιήγησης όποτε χρειάζεται, διασφαλίζοντας ότι η εργασία που κάνει εναρμονίζεται με τους στόχους σας.
Ο πράκτορας ChatGPT μπορεί να έχει πρόσβαση στους συνδέσμους σας, γεγονός που του επιτρέπει να ενσωματώνει δεδομένα στις ροές εργασίας σας, αλλά και σε σχετικές, αξιοποιήσιμες πληροφορίες. Αφού γίνει ο έλεγχος ταυτότητας, αυτοί οι σύνδεσμοι επιτρέπουν στο ChatGPT να βλέπει πληροφορίες και να κάνει διάφορες εργασίες, όπως να συνοψίζει τα εισερχόμενά σας για την ημέρα ή να βρίσκει χρονικά διαστήματα που είστε διαθέσιμοι για μια συνάντηση. Ωστόσο, για να κάνει ενέργειες σε αυτούς τους ιστότοπους, θα σας ζητήσει να συνδεθείτε και να πάρετε τον έλεγχο του προγράμματος περιήγησης.
Επιπλέον, μπορείτε να το ορίσετε ώστε να κάνει αυτόματα επαναλαμβανόμενες εργασίες, όπως να δημιουργεί αναφορές μετρήσεων σε εβδομαδιαία βάση, κάθε Δευτέρα πρωί.
Αυτή η έκδοση σηματοδοτεί την πρώτη φορά που οι χρήστες έχουν τη δυνατότητα να ζητήσουν από το ChatGPT να προβεί σε ενέργειες στο διαδίκτυο. Η δυνατότητα αυτή συνδέεται με νέους κινδύνους, ιδίως επειδή ο πράκτορας ChatGPT μπορεί να εργαστεί απευθείας με τα δεδομένα σας, είτε πρόκειται για πληροφορίες στις οποίες έχει πρόσβαση μέσω των συνδέσμων είτε για ιστότοπους στους οποίους έχετε συνδεθεί μέσω της λειτουργίας ανάληψης ελέγχου. Ενισχύσαμε τους ισχυρούς ελέγχους από την προεπισκόπηση έρευνας του Operator και προσθέσαμε μηχανισμούς ασφαλείας για διάφορους κινδύνους, όπως είναι η διαχείριση ευαίσθητων πληροφοριών στο ζωντανό διαδίκτυο, η ευρύτερη προσέγγιση χρηστών και η (περιορισμένη) πρόσβαση στο δίκτυο τερματικών. Ενώ αυτά τα μέτρα μειώνουν σημαντικά τον κίνδυνο, η διευρυμένη δυνατότητα χρήσης εργαλείων του πράκτορα ChatGPT και η ευρύτερη πρόσβαση σε χρήστες συνεπάγονται ότι το συνολικό προφίλ κινδύνου είναι υψηλότερο.
Δώσαμε ιδιαίτερη έμφαση στην προστασία του πράκτορα ChatGPT από αντιπαραθετική χειραγώγηση μέσω έγχυσης προτροπών, η οποία αποτελεί κίνδυνο για τα πρακτορικά συστήματα γενικά, και έχουμε προετοιμάσει και πιο εκτεταμένα μέτρα για την αντιμετώπιση κινδύνων. Η έγχυση προτροπών αφορά σε προσπάθειες τρίτων να χειραγωγήσουν τη συμπεριφορά του πράκτορα ChatGPT μέσω κακόβουλων οδηγιών που μπορεί να συναντήσει στο διαδίκτυο, κατά την ολοκλήρωση μιας εργασίας. Για παράδειγμα, μια κακόβουλη προτροπή κρυμμένη σε μια ιστοσελίδα, όπως σε αόρατα στοιχεία ή μεταδεδομένα, θα μπορούσε να εξαπατήσει τον πράκτορα να προβεί σε ακούσιες ενέργειες, όπως να κοινοποιήσει στον εισβολέα ιδιωτικά δεδομένα από έναν σύνδεσμο ή να προβεί σε επιβλαβείς ενέργειες σε έναν ιστότοπο στον οποίο έχει συνδεθεί ο χρήστης. Επειδή ο πράκτορας ChatGPT μπορεί να κάνει απευθείας ενέργειες, οι επιτυχημένες επιθέσεις μπορεί να έχουν μεγαλύτερο αντίκτυπο και ενέχουν υψηλότερους κινδύνους.
Έχουμε εκπαιδεύσει και δοκιμάσει τον πράκτορα ώστε να εντοπίζει και να αντιστέκεται στις επιθέσεις που γίνονται μέσω έγχυσης προτροπών, ενώ παράλληλα χρησιμοποιεί τεχνικές παρακολούθησης για να εντοπίζει και να ανταποκρίνεται γρήγορα σε τέτοιου τύπου επιθέσεις. Η απαίτηση ρητής επιβεβαίωσης από τον χρήστη πριν από σημαντικές ενέργειες μειώνει περαιτέρω τον κίνδυνο που ενέχουν αυτές οι επιθέσεις, ενώ οι χρήστες μπορούν να παρεμβαίνουν στις εργασίες αναλόγως, αναλαμβάνοντας τον έλεγχο ή διακόπτοντας τις ενέργειες του πράκτορα. Οι χρήστες πρέπει να ζυγίζουν αυτούς τους παράγοντες όταν αποφασίζουν ποιες πληροφορίες θα δώσουν στον πράκτορα, καθώς και να λαμβάνουν μέτρα για να ελαχιστοποιούν την έκθεσή τους σε αυτούς τους κινδύνους, όπως το να απενεργοποιούν τους συνδέσμους όταν δεν είναι απαραίτητοι για μια εργασία.
Έχουμε επίσης εφαρμόσει μέτρα προστασίας για τα σφάλματα του μοντέλου, ειδικά από τη στιγμή που το μοντέλο μπορεί πλέον να εκτελεί εργασίες που έχουν απήχηση στον πραγματικό κόσμο:
- Ρητή επιβεβαίωση από τον χρήστη: Το ChatGPT εκπαιδεύεται ώστε να ζητά ρητά την άδειά σας πριν προβεί σε ενέργειες που έχουν αντίκτυπο στην πραγματική ζωή, όπως για την πραγματοποίηση μιας αγοράς.
- Ενεργή επίβλεψη («Λειτουργία παρακολούθησης»): Ορισμένες κρίσιμες εργασίες, όπως η αποστολή email, απαιτούν ενεργή επίβλεψη από μέρους σας.
- Προληπτική προστασία από κινδύνους: Το ChatGPT έχει εκπαιδευτεί ώστε να αρνείται να εκτελέσει εργασίες υψηλού κινδύνου, όπως τραπεζικές συναλλαγές.
Τέλος, έχουμε εισαγάγει επιπλέον στοιχεία ελέγχου ώστε να περιορίσουμε τα δεδομένα στα οποία έχει πρόσβαση το μοντέλο:
- Στοιχεία ελέγχου απορρήτου: Με ένα μόνο κλικ στις ρυθμίσεις του ChatGPT, μπορείτε να διαγράψετε όλα τα δεδομένα περιήγησης και να αποσυνδεθείτε άμεσα από όλες τις ενεργές περιόδους λειτουργίας ενός ιστοτόπου. Διαφορετικά, τα cookie παραμένουν σύμφωνα με τις πολιτικές cookie κάθε ιστότοπου που επισκέπτεστε, γεγονός που ενδέχεται να κάνει τις επαναλαμβανόμενες επισκέψεις σε ιστότοπους πιο αποτελεσματικές.
- Ασφαλής λειτουργία ανάληψης ελέγχου προγράμματος περιήγησης: Όταν αλληλεπιδράτε στο διαδίκτυο χρησιμοποιώντας το πρόγραμμα περιήγησης του ChatGPT («λειτουργία ανάληψης ελέγχου»), οι εισαγωγές σας παραμένουν ιδιωτικές. Το ChatGPT δεν συλλέγει ούτε αποθηκεύει δεδομένα που εισάγετε κατά τη διάρκεια αυτών των περιόδων λειτουργίας, όπως κωδικούς πρόσβασης, επειδή το μοντέλο δεν τα χρειάζεται και είναι πιο ασφαλές να μην τα δει ποτέ.
Χάρη στις αυξημένες δυνατότητες του μοντέλου, αποφασίσαμε να αντιμετωπίσουμε τον πράκτορα ChatGPT ως υψηλών δυνατοτήτων στον τομέα της βιολογίας και χημείας στο Πλαίσιο Ετοιμότητας, ενεργοποιώντας τους σχετικούς μηχανισμούς ασφαλείας. Παρόλο που δεν έχουμε οριστικά στοιχεία ότι το μοντέλο θα μπορούσε να βοηθήσει ουσιαστικά έναν αρχάριο να προκαλέσει σοβαρή βιολογική βλάβη —το όριό μας για υψηλή δυνατότητα—, ακολουθούμε μια προληπτική προσέγγιση και ενεργοποιούμε τις απαιτούμενες διασφαλίσεις τώρα. Κατά συνέπεια, αυτό το μοντέλο διαθέτει την πιο ισχυρή σειρά διασφαλίσεων μέχρι σήμερα, με ενισχυμένους μηχανισμούς ασφαλείας σε βιολογικούς κινδύνους: ολοκληρωμένη μοντελοποίηση απειλών, εκπαίδευση άρνησης διπλής χρήσης, πάντα ενεργά εργαλεία ταξινόμησης και εργαλεία παρατήρησης συλλογιστικής, και σαφείς διαδικασίες επιβολής.
Παρά τις προσπάθειές μας για την προστασία του πράκτορα ChatGPT, γνωρίζουμε ότι η πολυεπίπεδη βιοασφάλεια λειτουργεί καλύτερα όταν οι διασφαλίσεις εκτείνονται πέρα από τους χώρους δοκιμών. Γι' αυτό έχουμε συνεργασίες σε όλο το οικοσύστημα για να ενισχύσουμε την άμυνά του. Από την πρώτη μέρα, συνεργαζόμαστε με εξωτερικούς ειδικούς στη βιοασφάλεια, με ινστιτούτα ασφάλειας και με ακαδημαϊκούς ερευνητές για να διαμορφώσουμε το μοντέλο, τις αξιολογήσεις και τις πολιτικές μας για τις απειλές. Οι συνεργάτες μας που έχουν κατάρτιση στους βιολογικούς κινδύνους επικύρωσαν τα δεδομένα αξιολόγησής μας, και οι ειδικοί που εκτελούν αντιπαραθετικό έλεγχο ασφαλείας (red teaming) δοκίμασαν τους μηχανισμούς ασφαλείας μας σε ρεαλιστικά σενάρια. Νωρίτερα αυτόν τον μήνα, διοργανώσαμε ένα εργαστήριο για τη βιοάμυνα με ειδικούς από την κυβέρνηση, τον ακαδημαϊκό χώρο, τα εθνικά εργαστήρια και τις ΜΚΟ, για να επιταχύνουμε τη συνεργασία και να προάγουμε την έρευνα για τη βιοάμυνα που υποστηρίζεται από την ΤΝ. Οι παγκόσμιες συνεργασίες μας σε αυτό το επίπεδο θα συνεχιστούν, με στόχο να προλαμβάνουμε τους αναδυόμενους κινδύνους.
Μάθετε περισσότερα για την ισχυρή προσέγγιση ασφαλείας μας για το ενοποιημένο μοντέλο πράκτορα στην κάρτα συστήματος του μοντέλου. Επίσης, ξεκινάμε ένα πρόγραμμα ανταμοιβής για εντοπισμό ευπαθειών ώστε να μπορούμε να εντοπίζουμε και να διορθώνουμε πραγματικούς κινδύνους.
Ο πράκτορας ChatGPT θα είναι διαθέσιμος από σήμερα για τους χρήστες των προγραμμάτων Pro, Plus και Team. Οι χρήστες του Pro θα έχουν πρόσβαση μέχρι το τέλος της ημέρας, ενώ οι χρήστες των Plus και Team θα έχουν πρόσβαση τις επόμενες ημέρες. Οι χρήστες των προγραμμάτων Enterprise και Education θα έχουν πρόσβαση τις επόμενες εβδομάδες. Οι χρήστες του Pro έχουν στη διάθεσή τους 400 μηνύματα τον μήνα, ενώ οι υπόλοιποι χρήστες των επί πληρωμή προγραμμάτων έχουν στη διάθεσή τους 40 μηνύματα μηνιαίως, με επιπλέον μηνύματα διαθέσιμα μέσω ευέλικτων επιλογών που βασίζονται σε πίστωση.
Εξακολουθούμε να κάνουμε ενέργειες ώστε να επιτραπεί η πρόσβαση από τον Ευρωπαϊκό Οικονομικό Χώρο και την Ελβετία.
Ο ιστότοπος προεπισκόπησης έρευνας για το Operator θα παραμείνει λειτουργικός για λίγες ακόμη εβδομάδες και κατόπιν θα διακοπεί η λειτουργία του. Η έρευνα σε βάθος αποτελεί μέρος των δυνατοτήτων του πράκτορα ChatGPT. Αν προτιμάτε την αρχική δυνατότητα έρευνας σε βάθος —η οποία μπορεί να απαιτεί περισσότερο χρόνο, αλλά δίνει πιο λεπτομερείς και ουσιαστικές απαντήσεις από προεπιλογή—, μπορείτε και πάλι να έχετε πρόσβαση σε αυτήν, επιλέγοντας «έρευνα σε βάθος» από το αναπτυσσόμενο μενού του πεδίου προσθήκης κειμένου.
Ο πράκτορας ChatGPT κάνει ακόμα τα πρώτα του βήματα. Έχει τη δυνατότητα να αναλαμβάνει μια σειρά από σύνθετες εργασίες, αλλά μπορεί να κάνει και λάθη.
Αν και βλέπουμε σημαντικές προοπτικές στην ικανότητά του να δημιουργεί παρουσιάσεις, αυτή η λειτουργία βρίσκεται επί του παρόντος σε έκδοση beta. Προς το παρόν, τα αποτελέσματα ενδέχεται μερικές φορές να φαίνονται στοιχειώδη στη μορφοποίηση και στην τελική τους εμφάνιση, ιδιαίτερα όταν ξεκινάτε χωρίς υπάρχον έγγραφο. Εστιάσαμε τις αρχικές δυνατότητες του μοντέλου στη δημιουργία στοιχείων που οργανώνουν πληροφορίες σε ροή και μορφή κατάλληλη για παρουσιάσεις, με στοιχεία όπως κείμενο, διαγράμματα, εικόνες και σχήματα που είναι εγγενώς και εύκολα επεξεργάσιμα μετά την εξαγωγή, βελτιστοποιώντας τη δομή και την ευελιξία. Για την ώρα, παρατηρούνται επίσης περιστασιακά αποκλίσεις μεταξύ των διαφανειών στο πρόγραμμα προβολής και του εξαγόμενου PowerPoint, και προσπαθούμε να τις μειώσουμε. Επιπλέον, ενώ μπορείτε αυτήν τη στιγμή να ανεβάζετε ένα υπάρχον υπολογιστικό φύλλο για επεξεργασία ή χρήση από το ChatGPT ως πρότυπο, αυτή η δυνατότητα δεν είναι ακόμη διαθέσιμη για παρουσιάσεις με διαφάνειες. Ήδη εκπαιδεύουμε την επόμενη έκδοση του ChatGPT στο κομμάτι της δημιουργίας διαφανειών, ώστε να παράγει πιο καλοδουλεμένα και σωστά αποτελέσματα, με ευρύτερες δυνατότητες και βελτιωμένη μορφοποίηση.
Συνολικά, θα ακολουθήσουν με τον καιρό βελτιώσεις που σχετίζονται με την αποτελεσματικότητα, το βάθος και την ευελιξία του πράκτορα ChatGPT, συμπεριλαμβανομένων πιο απρόσκοπτων αλληλεπιδράσεων, καθώς συνεχίζουμε να προσαρμόζουμε το επίπεδο εποπτείας που απαιτείται από τον χρήστη ώστε ο πράκτορας να είναι πιο χρήσιμος και παράλληλα ασφαλής.
SpreadsheetBench | ||||
Μοντέλο | Περιβάλλον αξιολόγησης | Ήπιος περιορισμός (%): Επίπεδο κελιού | Ήπιος περιορισμός (%): Επίπεδο φύλλου | Ήπιος περιορισμός (%): Συνολικά |
GPT‑4 | Windows, Excel | 15,03 | 23,65 | 18,35 |
Copilot στο Excel | Windows, Excel | 23,33 | 15,00 | 20,00 |
GPT‑4 | OSX, LibreOffice | 15,86 | 18,33 | 16,81 |
OpenAI o3 | OSX, LibreOffice | 22,40 | 24,60 | 23,25 |
Πράκτορας ChatGPT | OSX, LibreOffice | 38,27 | 30,48 | 35,27 |
Πράκτορας ChatGPT με .xlsx | OSX, LibreOffice | 50,56 | 37,51 | 45,54 |
Άνθρωπος | 75,56 | 65,00 | 71,33 |
Συντάκτης
Υποσημειώσεις
* Όταν ενεργοποιείτε την περιήγηση, το μοντέλο μπορεί μερικές φορές να βρει ακριβείς απαντήσεις στο διαδίκτυο, για παράδειγμα, διαβάζοντας αναρτήσεις από blog με δείγματα προβλημάτων από ένα σύνολο δεδομένων. Μειώνουμε τους προβληματισμούς για το ενδεχόμενο να «κλέψει» το μοντέλο κατά την περιήγηση με δύο στρατηγικές:
1. Αποκλείσαμε τομείς από τους οποίους έχουμε παρατηρήσει ότι το μοντέλο έκλεβε στο παρελθόν.
2. Χρησιμοποιήθηκε ένα μοντέλο συλλογιστικής ως παρατηρητής για την εξέταση όλων των token αποτελέσματος σε κάθε προσπάθεια, με σκοπό τον εντοπισμό ύποπτης συμπεριφοράς. Ως ύποπτη συμπεριφορά ορίζεται «μια σελίδα, ένα αρχείο ή ένα απόσπασμα κώδικα του οποίου ο κύριος σκοπός είναι να παρέχει την ακριβή απάντηση σε αυτήν τη συγκεκριμένη ερώτηση — π.χ. ένα επίσημο κλειδί βαθμολόγησης, διαρροή σύνοψης των “λύσεων” ή συζήτηση που παραθέτει την ολοκληρωμένη απάντηση αυτολεξεί». Ως εύλογη συμπεριφορά ορίζεται «Οποιοσδήποτε έγκυρος πόρος που μπορεί να συμβουλευτεί ένας επιμελής άνθρωπος (τεκμηρίωση, εγχειρίδια, επιστημονικές εργασίες, αξιόπιστα άρθρα) ακόμη και αν περιέχει παρεμπιπτόντως τη σωστή απάντηση». Οποιεσδήποτε προσπάθειες κατά τις οποίες ο παρατηρητής έκρινε την κυκλοφορία ύποπτη μετρώνται ως λανθασμένες. Τα περισσότερα δείγματα που απέτυχαν σε αυτόν τον έλεγχο ήταν προβλήματα των οποίων η ακριβής λύση ήταν διαθέσιμη σε πολλαπλές πηγές στο διαδίκτυο που δεν σχετίζονται με το HLE.
**Η OpenAI έχει αποκλειστική πρόσβαση σε 237 από τις 290 ιδιωτικές ερωτήσεις του συνόλου δεδομένων Tier 1-3. Οι ερωτήσεις της βαθμίδας 4 του FrontierMath δεν περιλαμβάνονται σε αυτήν την αξιολόγηση. Τα αποτελέσματα αξιολογήθηκαν ως ο μέσος όρος 16 προσπαθειών για να απαντηθεί κάθε ερώτηση. Τα αποτελέσματα του πράκτορα ChatGPT προέρχονται από την OpenAI και βαθμολογούνται από την Epoch AI, με πρόσβαση στο πρόγραμμα περιήγησης και στο τερματικό και όριο 128.000 token ανά απάντηση. Οι αξιολογήσεις των o4-mini και o3 της OpenAI προέρχονται και βαθμολογούνται από την Epoch AI, χωρίς πρόσβαση σε πρόγραμμα περιήγησης και τερματικό, με χρήση σεναρίων Python μέσω κλήσης συναρτήσεων και όριο 100.000 token ανά απάντηση.
*** Το Oracle@64 αναφέρεται στην καλύτερη βαθμολογία που επιτεύχθηκε σε 64 δειγματοληπτικές εκτελέσεις, επιλεγμένες με βάση την πραγματική απόδοση (δηλαδή, επιλέγουμε την προσπάθεια με την υψηλότερη βαθμολογία για κάθε εργασία με βάση την πραγματική βαθμολογημένη απόδοση). Αναφέρουμε τον μέσο όρο αυτών των καλύτερων βαθμολογιών ανά εργασία σε όλες τις εργασίες. Αυτή η μέτρηση αναδεικνύει το ανώτατο όριο δυνατοτήτων του μοντέλου και τη διακύμανση της απόδοσης των εργασιών, καταδεικνύοντας πόσο ικανό μπορεί να είναι το μοντέλο όταν πετυχαίνει και υποδεικνύοντας περιθώρια βελτίωσης της συνέπειάς του μέσω περαιτέρω εκπαίδευσης. Σε αντίθεση με τις τυπικές μετρήσεις «best of N», οι οποίες κάνουν επιλογή με βάση τη σιγουριά του μοντέλου, το oracle@64 χρησιμοποιεί την πραγματική απόδοση για την επιλογή και εφαρμόζεται σε εργασίες που βαθμολογούνται σε συνεχή κλίμακα 0–1 και όχι σε δυαδική κλίμακα επιτυχίας/αποτυχίας.


