25 Σεπτεμβρίου 2025

Η μέτρηση της απόδοσης των μοντέλων μας σε πραγματικές εργασίες

Παρουσιάζουμε το GDPval, μια νέα αξιολόγηση που μετρά την απόδοση του μοντέλου σε οικονομικά πολύτιμες, πραγματικές εργασίες σε 44 επαγγέλματα.

Διάβασε την εργασία Επισκεφθείτε το evals.openai.com

Αποστολή μας είναι να διασφαλίσουμε ότι η γενική τεχνητή νοημοσύνη ωφελεί όλη την ανθρωπότητα. Στο πλαίσιο της αποστολής μας, θέλουμε να εκφράσουμε με διαφάνεια την πρόοδο που έχει σημειωθεί στη βοήθεια που μπορούν να προσφέρουν τα μοντέλα ΤΝ σε ανθρώπους σε πραγματικές συνθήκες. Για αυτό παρουσιάζουμε το GDPval: μια νέα αξιολόγηση που έχει σχεδιαστεί για να μας βοηθήσει να παρακολουθούμε πόσο καλά αποδίδουν τα δικά μας μοντέλα μας και άλλα μοντέλα σε πραγματικές εργασίες με οικονομική αξία. Αποκαλούμε αυτή την αξιολόγηση GDPval επειδή ξεκινήσαμε με την έννοια του Ακαθάριστου Εγχώριου Προϊόντος (ΑΕΠ ή GDP στα Αγγλικά) ως βασικού οικονομικού δείκτη και αντλήσαμε εργασίες από τα κύρια επαγγέλματα στους κλάδους που συμβάλλουν περισσότερο στο ΑΕΠ.

Οι άνθρωποι συχνά κάνουν εικασίες όσον αφορά τον ευρύτερο αντίκτυπο της ΤΝ στην κοινωνία, αλλά ο πιο σαφής τρόπος να κατανοήσουμε τις δυνατότητές της είναι να εξετάσουμε όσα είναι ήδη ικανά να κάνουν τα μοντέλα. Το ιστορικό δείχνει ότι οι μεγάλες τεχνολογίες — από το διαδίκτυο έως τα smartphone — χρειάστηκαν πάνω από μια δεκαετία από την εφεύρεσή τους για να υιοθετηθούν ευρέως. Αξιολογήσεις όπως το GDPval συμβάλλουν στο να θεμελιώνονται οι συζητήσεις για μελλοντικές βελτιώσεις της τεχνητής νοημοσύνης σε στοιχεία αντί σε εικασίες και μπορούν να σας βοηθήσουν να παρακολουθείτε τη βελτίωση των μοντέλων με την πάροδο του χρόνου.

Προηγούμενες αξιολογήσεις της ΤΝ, όπως απαιτητικές ακαδημαϊκές εξετάσεις και ανταγωνιστικές προκλήσεις προγραμματισμού, έπαιξαν καθοριστική ρόλο στην διεύρυνση των ορίων των συλλογιστικών ικανοτήτων των μοντέλων, αλλά συχνά υστερούν σε σχέση με το είδος των εργασιών που αναλαμβάνουν πολλοί άνθρωποι κατά την καθημερινή τους εργασία.

Για να γεφυρώσουμε αυτό το χάσμα, έχουμε αναπτύξει αξιολογήσεις που μετρούν όλο και πιο ρεαλιστικές και οικονομικά συναφείς ικανότητες. Αυτή η εξέλιξη έχει μετακινηθεί από κλασικά ακαδημαϊκά κριτήρια όπως το MMLU (ερωτήσεις τύπου εξετάσεων σε δεκάδες θέματα), σε πιο εφαρμοσμένες αξιολογήσεις όπως το SWE-Bench (εργασίες διόρθωσης σφαλμάτων μηχανικής λογισμικού), το MLE-Bench (εργασίες μηχανικής εκμάθησης, όπως εκπαίδευση και ανάλυση μοντέλων), το Paper-Bench (επιστημονική λογική και κριτική σε ερευνητικές εργασίες) και, πιο πρόσφατα, σε αξιολογήσεις βασισμένες στην αγορά όπως το SWE-Lancer (έργα μηχανικής λογισμικού βασισμένα σε πραγματικές εργολαβίες ελεύθερων επαγγελματιών).

Το GDPval είναι το επόμενο βήμα σε αυτήν την πορεία. Μετρά την απόδοση των μοντέλων σε εργασίες που προέρχονται άμεσα από την πραγματική εργασία ειδικών γνώσεων διαφόρων έμπειρων επαγγελματιών σε ένα ευρύ φάσμα επαγγελμάτων και τομέων, παρέχοντας μια πιο σαφή εικόνα για το πώς τα μοντέλα αποδίδουν σε οικονομικά πολύτιμες εργασίες. Η αξιολόγηση των μοντέλων σε ρεαλιστικές επαγγελματικές εργασίες μας βοηθά να κατανοήσουμε όχι μόνο πόσο καλά αποδίδουν στο εργαστήριο, αλλά και πώς μπορεί να παρέχουν υποστήριξη στους ανθρώπους στην εργασία που κάνουν καθημερινά.

Τι μετρά το GDPval

Το GDPval, η πρώτη έκδοση αυτής της αξιολόγησης, καλύπτει 44 επαγγέλματα που επιλέχθηκαν από τους 9 κορυφαίους κλάδους που συμβάλλουν στο ΑΕΠ των ΗΠΑ. Το πλήρες σύνολο GDPval περιλαμβάνει 1.320 εξειδικευμένες εργασίες (220 στο χρυσό ανοικτού κώδικα σύνολο), καθεμία από τις οποίες έχει επιμεληθεί και ελεγχθεί σχολαστικά από έμπειρους επαγγελματίες με μέσο όρο άνω των 14 ετών εμπειρίας σε αυτούς τους τομείς. Κάθε εργασία βασίζεται σε πραγματικά παραδοτέα προϊόντα, όπως ένα νομικό υπόμνημα, ένα σχεδιάγραμμα μηχανικής, μια συζήτηση εξυπηρέτησης πελατών ή ένα πρόγραμμα φροντίδας ευγηρίας.

Το GDPval ξεχωρίζει τόσο για τον ρεαλισμό του όσο και για την ποικιλία των εργασιών που αξιολογούνται. Σε αντίθεση με άλλες αξιολογήσεις που συνδέονται με την οικονομική αξία και επικεντρώνονται σε συγκεκριμένους τομείς (π.χ., SWE-Lancer), το GDPval καλύπτει πολλές εργασίες και επαγγέλματα. Και σε αντίθεση με τα σημεία αναφοράς που περιλαμβάνουν τη συνθετική δημιουργία εργασιών στο στυλ μιας ακαδημαϊκής εξέτασης ή ενός τεστ (π.χ., Humanity’s Last Exam ή MMLU), το GDPval επικεντρώνεται σε εργασίες που βασίζονται σε παραδοτέα, τα οποία είναι είτε ένα πραγματικό έργο ή προϊόν που υπάρχει σήμερα είτε ένα παρόμοια κατασκευασμένο έργο.

Σε αντίθεση με τα παραδοσιακά πρότυπα, οι εργασίες του GDPval δεν είναι απλές προτροπές κειμένου. Συνοδεύονται από αρχεία αναφοράς και θεματικό πλαίσιο, και τα αναμενόμενα παραδοτέα περιλαμβάνουν έγγραφα, διαφάνειες, διαγράμματα, υπολογιστικά φύλλα και πολυμέσα. Αυτός ο ρεαλισμός καθιστά το GDPval μια πιο ρεαλιστική δοκιμή για το πώς τα μοντέλα μπορεί να παρέχουν υποστήριξη στους επαγγελματίες.

Το GDPval είναι ένα πρώιμο βήμα που δεν αντικατοπτρίζει πλήρως τις λεπτές αποχρώσεις πολλών οικονομικών εργασιών. Αν και καλύπτει 44 επαγγέλματα και εκατοντάδες εργασίες στον τομέα της γνώσης, περιορίζεται σε αξιολογήσεις μίας αλληλεπίδρασης και συνεχπώς δεν αποτυπώνει περιπτώσεις όπου ένα μοντέλο θα χρειαζόταν να δημιουργήσει θεματικό πλαίσιο ή να βελτιωθεί δημιουργώντας πολλαπλά προσχέδια. Οι μελλοντικές εκδόσεις θα επεκταθούν σε πιο διαδραστικές ροές εργασίας και εργασίες πλούσιες σε πλαίσιο εφαρμογής, για να αντικατοπτρίζουν καλύτερα την πολυπλοκότητα της πραγματικής εργασίας γνώσης (δείτε περισσότερα στην ενότητα Περιορισμοί παρακάτω).

Πώς επιλέξαμε τα επαγγέλματα

Το GDPval καλύπτει εργασίες σε 9 κλάδους και 44 επαγγέλματα, και οι μελλοντικές εκδόσεις θα συνεχίσουν να επεκτείνουν αυτήν την κάλυψη. Οι αρχικοί 9 κλάδοι επιλέχθηκαν με βάση εκείνους που συνεισφέρουν πάνω από 5% στο ΑΕΠ των ΗΠΑ, όπως καθορίστηκε από τα δεδομένα της Ομοσπονδιακής Τράπεζας του St. Louis. Στη συνέχεια, επιλέξαμε τα 5 επαγγέλματα σε κάθε κλάδο που συμβάλλουν περισσότερο στους συνολικούς μισθούς και αμοιβές, και τα οποία αποτελούν κυρίως επαγγέλματα γνώσης, χρησιμοποιώντας δεδομένα μισθών και απασχόλησης από την έκθεση επαγγελματικής απασχόλησης του Γραφείου Στατιστικών Εργασίας των ΗΠΑ για τον Μάιο 2024⁠(ανοίγει σε νέο παράθυρο). Για να καθορίσουμε αν τα επαγγέλματα ήταν κυρίως εργασίες γνώσης, χρησιμοποιήσαμε δεδομένα εργασιών από το O*NET⁠(ανοίγει σε νέο παράθυρο), μια βάση δεδομένων με πληροφορίες για επαγγέλματα στις Ηνωμένες Πολιτείες που υποστηρίζεται από το Υπουργείο Εργασίας των Ηνωμένων Πολιτειών. Κατατάξαμε κάθε εργασία για κάθε επάγγελμα στο O*NET ως εργασία γνώσης ή υλική εργασία/χειρωνακτική εργασία (όσες απαιτούν ενέργειες που γίνονται στον υλικό κόσμο). Ένα επάγγελμα χαρακτηρίζεται συνολικά ως «κυρίως εργασία γνώσης» εάν τουλάχιστον το 60% των συστατικών εργασιών του ταξινομούνται ότι δεν περιλαμβάνουν υλική ή χειρωνακτική εργασία. Επιλέξαμε αυτό το όριο του 60% ως σημείο εκκίνησης για την πρώτη έκδοση του GDPval, εστιάζοντας την προσοχή σε επαγγέλματα όπου η ΤΝ θα μπορούσε να έχει τον μεγαλύτερο αντίκτυπο στην παραγωγικότητα σε πραγματικές συνθήκες.

Αυτή η διαδικασία απέφερε 44 επαγγέλματα για συμπερίληψη.

Ακίνητα, ενοικίαση και μίσθωση

Υπάλληλοι υποδοχής
Διαχειριστές ακινήτων, ακίνητης περιουσίας και διαχειριστές κοινοτικών ενώσεων
Πράκτορες πωλήσεων ακινήτων
Μεσίτες ακινήτων
Υπάλληλοι γκισέ και ενοικίασης

Κυβέρνηση

Εργαζόμενοι σε δραστηριότητες αναψυχής
Υπεύθυνοι συμμόρφωσης
Επόπτες πρώτης γραμμής των διαφόρων σωμάτων της αστυνομίας
Διευθυντές διοικητικών υπηρεσιών
Κοινωνικοί λειτουργοί για παιδιά, οικογένειες και σχολεία

Βιομηχανία

Μηχανολόγοι μηχανικοί
Βιομηχανικοί μηχανικοί
Αγοραστές και υπεύθυνοι προμηθειών
Υπάλληλοι αποστολής, παραλαβής και διαχείρισης αποθεμάτων
Επόπτες πρώτης γραμμής εργαζομένων παραγωγής και λειτουργίας

Επαγγελματικές, επιστημονικές και τεχνικές υπηρεσίες

Προγραμματιστές λογισμικού
Δικηγόροι
Λογιστές και ελεγκτές
Διευθυντές συστημάτων υπολογιστών και πληροφορικής
Ειδικοί στη διαχείριση έργων

Υγειονομική περίθαλψη και κοινωνική βοήθεια

Εγγεγραμμένοι νοσηλευτές
Εξειδικευμένοι νοσηλευτές
Διευθυντές ιατρικών και υγειονομικών υπηρεσιών
Επόπτες πρώτης γραμμής υπαλλήλων γραφείου και διοικητικής υποστήριξης
Ιατρικοί γραμματείς και διοικητικοί βοηθοί

Χρηματοοικονομικά και ασφάλιση

Εκπρόσωποι εξυπηρέτησης πελατών
Χρηματοοικονομικοί και επενδυτικοί αναλυτές
Οικονομικοί διαχειριστές
Προσωπικοί χρηματοοικονομικοί σύμβουλοι
Πράκτορες πωλήσεων κινητών αξιών, εμπορευμάτων και χρηματοοικονομικών υπηρεσιών

Λιανικό εμπόριο

Φαρμακοποιοί
Προϊστάμενοι πρώτης γραμμής των εργαζομένων στις πωλήσεις λιανικής
Γενικοί διευθυντές και διευθυντές λειτουργιών
Ιδιωτικοί ντετέκτιβ και ερευνητές

Χονδρικό εμπόριο

Διευθυντές πωλήσεων
Υπάλληλοι παραγγελιών
Επόπτες πρώτης γραμμής εργαζομένων πωλήσεων εκτός λιανικής
Εκπρόσωποι πωλήσεων, χονδρικής και κατασκευής, εκτός από τεχνικά και επιστημονικά προϊόντα
Εκπρόσωποι πωλήσεων, χονδρική και παραγωγή, τεχνικά και επιστημονικά προϊόντα

Πληροφορία

Τεχνικοί ήχου και βίντεο
Παραγωγοί και σκηνοθέτες
Αναλυτές ειδήσεων, ρεπόρτερ και δημοσιογράφοι
Μοντέρ ταινιών και βίντεο
Συντάκτες

Το GDPval καλύπτει 44 επαγγέλματα γνώσης σε 9 τομείς, από προγραμματιστές λογισμικού και δικηγόρους έως εγγεγραμμένες νοσηλεύτριες και μηχανολόγους μηχανικούς. Αυτά τα επαγγέλματα επιλέχθηκαν για την οικονομική τους σημασία και αντιπροσωπεύουν τους τύπους καθημερινής εργασίας όπου η τεχνητή νοημοσύνη μπορεί να βοηθήσει ουσιαστικά τους επαγγελματίες.

Πώς δημιουργήσαμε το σύνολο δεδομένων

Για κάθε επάγγελμα, συνεργαστήκαμε με έμπειρους επαγγελματίες για να δημιουργήσουμε αντιπροσωπευτικές εργασίες που αντικατοπτρίζουν την καθημερινή τους εργασία. Αυτοί οι επαγγελματίες είχαν κατά μέσο όρο 14 χρόνια εμπειρίας, με ισχυρή πορεία εξέλιξης. Στρατολογήσαμε συνειδητά συμμετέχοντες από ένα ευρύ φάσμα ειδικών —όπως δικηγόρους από διάφορους τομείς και εταιρείες διαφορετικών μεγεθών— για να μεγιστοποιήσουμε την αντιπροσωπευτικότητα του δείγματος.

Κάθε εργασία πέρασε από μια διαδικασία αξιολόγησης πολλαπλών βημάτων για να διασφαλιστεί ότι ήταν αντιπροσωπευτική της πραγματικής εργασίας, παρείχε τη δυνατότητα ολοκλήρωσης από άλλους επαγγελματίες και ήταν σαφής για αξιολόγηση. Κατά μέσο όρο, κάθε εργασία υποβλήθηκε σε 5 γύρους αξιολόγησης από εμπειρογνώμονες, καθώς και σε ελέγχους από άλλους συγγραφείς εργασιών, επιπλέον επαγγελματικούς αξιολογητές και επικύρωση βάσει μοντέλου.

Το σύνολο δεδομένων που προέκυψε περιλαμβάνει 30 πλήρως αξιολογημένες εργασίες ανά επάγγελμα (πλήρες σύνολο) με 5 εργασίες ανά επάγγελμα στο χρυσό μας σύνολο ανοιχτού κώδικα, παρέχοντας μια ισχυρή βάση για την αξιολόγηση της απόδοσης του μοντέλου σε πραγματικές εργασίες ειδικών γνώσεων.

Παραδείγματα εργασιών GDPval

Προτροπή + θεματικό πλαίσιο εργασίας

This is June 2025 and you are a Manufacturing Engineer, in an automobile assembly line. The product is a cable spooling truck for underground mining operations, and you are reviewing the final testing step. In the final testing step, a big spool of cable needs to be reeled in and reeled out 2 times, to ensure the cable spooling works as per requirement. The current operation requires 2 persons to work on this test. The first person needs to bring and position the spool near the test unit, the second person will connect the open end of the cable spool to the test unit and start the reel in step. While the cable is being unreeled from the spool, and onto the truck, the first person will need to rotate the spool in order to facilitate the unreeling. When the cable is fully reeled onto the truck, the next step is to perform the operation in reverse order, so the cable gets reeled out of the truck and back onto its own reel. This test is done another time to ensure functionality. This task is complicated, has associated risks, requires high labor and makes the work area cluttered. Your manager has requested you to develop a jig/fixture to simplify reel in and reel out of the cable reel spool, so the test can be done by one person. Attached to this request is an information document which provides basic details about the cable reel drum size, information to design the cable reel spooling jig and to structure the deliverable. The deliverable for this task will be a preliminary concept design only. Separate tasks will be done to calculate design foundations such as stress, strength, cost benefit analysis, etc. Design a jig using 3d modelling software and create a presentation using Microsoft PowerPoint. As part of the deliverable, upload only a pdf document summarizing the design, using snapshots of the 3d design created. The 3d design file is not required for submission.

Cable reel project requirements.pdf

Παραδοτέο από έμπειρο άτομο

Αναλυτική απεικόνιση ενός σχεδίου για καρούλι καλωδίου

Κάθε εργασία στο GDPval σχεδιάζεται από έναν έμπειρο επαγγελματία και αντικατοπτρίζει πραγματική γνώση εργασίας από το επάγγελμά του. Η προτροπή είναι μια ρεαλιστική ανάθεση εργασίας που δημιουργήθηκε από έναν ειδικό του τομέα, και το χρυσό παραδοτέο είναι η λύση του ίδιου του ειδικού.

Πώς βαθμολογούμε την απόδοση του μοντέλου

Για να αξιολογήσουμε την απόδοση του μοντέλου σε εργασίες GDPval, βασιζόμαστε σε ειδικούς «βαθμολογητές» — μια ομάδα έμπειρων επαγγελματιών από τα ίδια επαγγέλματα που εκπροσωπούνται στο σύνολο δεδομένων. Αυτοί οι αξιολογητές συγκρίνουν τυφλά παραδοτέα που δημιουργούνται από μοντέλα με εκείνα που παράγονται από συγγραφείς εργασιών (χωρίς να γνωρίζουν ποια είναι δημιουργημένο από ΤΝ και ποια από άνθρωπο) και προσφέρουν κριτικές και κατατάξεις. Οι βαθμολογητές στη συνέχεια κατατάσσουν τα παραδοτέα από ανθρώπους και ΤΝ και ταξινομούν κάθε παραδοτέο ΤΝ ως «καλύτερο», «εξίσου καλό» ή «χειρότερο» από τα άλλα.

Οι συγγραφείς εργασιών δημιούργησαν επίσης λεπτομερείς οδηγίες αξιολόγησης για τα επαγγέλματά τους, οι οποίες προσθέτουν συνέπεια και διαφάνεια στη διαδικασία βαθμολόγησης. Δημιουργήσαμε επίσης έναν «αυτοματοποιημένο βαθμολογητή», ένα σύστημα τεχνητής νοημοσύνης που έχει εκπαιδευτεί να εκτιμά πώς θα έκριναν οι ανθρώπινοι ειδικοί ένα συγκεκριμένο παραδοτέο. Με άλλα λόγια, αντί να γίνεται πλήρης αξιολόγηση από ειδικούς κάθε φορά, ο αυτοματοποιημένος αξιολογητής μπορεί γρήγορα να προβλέψει ποιο αποτέλεσμα θα προτιμούσε πιθανότατα ένας άνθρωπος. Παρουσιάζουμε αυτό το εργαλείο μέσω του evals.openai.com ως πειραματική ερευνητική υπηρεσία, αλλά δεν είναι ακόμα τόσο αξιόπιστο όσο οι ειδικοί βαθμολογητές, οπότε δεν το χρησιμοποιούμε για να τους αντικαταστήσουμε.

Πρώτα αποτελέσματα

Διαπιστώσαμε ότι τα σημερινά καλύτερα κορυφαία μοντέλα πλησιάζουν ήδη την ποιότητα της εργασίας που παράγεται από τους ειδικούς της βιομηχανίας. Για να το δοκιμάσουμε αυτό, πραγματοποιήσαμε τυφλές αξιολογήσεις όπου ειδικοί του κλάδου συνέκριναν παραδοτέα από διάφορα κορυφαία μοντέλα—GPT‑4o, o4-mini, OpenAI o3, GPT‑5, Claude Opus 4.1, Gemini 2.5 Pro και Grok 4—με έργα που έχουν παραχθεί από ανθρώπους. Σε 220 εργασίες του συνόλου GDPval gold, καταγράψαμε πότε οι έξοδοι του μοντέλου αξιολογήθηκαν ως καλύτερες από («νίκες») ή ισάξιες με («ισοπαλίες») τις παραδόσεις από ειδικούς του κλάδου, όπως φαίνεται στο ραβδόγραμμα παρακάτω. Το Claude Opus 4.1 ήταν το μοντέλο με την καλύτερη απόδοση στο σύνολο, υπερέχοντας ιδιαίτερα στην αισθητική (π.χ. μορφοποίηση εγγράφων, διάταξη διαφανειών), ενώ το GPT‑5 διακρίθηκε ιδιαίτερα στην ακρίβεια (π.χ. εύρεση γνώσης συγκεκριμένου τομέα). Βλέπουμε επίσης σαφή πρόοδο με την πάροδο του χρόνου σε αυτές τις εργασίες. Η απόδοση έχει υπερδιπλασιαστεί από το GPT‑4o (κυκλοφόρησε την άνοιξη του 2024) στο GPT‑5 (κυκλοφόρησε το καλοκαίρι του 2025), ακολουθώντας μια σαφή γραμμική τάση.

Επιπλέον, διαπιστώσαμε ότι τα πρωτοποριακά μοντέλα μπορούν να ολοκληρώσουν εργασίες GDPval περίπου 100 φορές ταχύτερα και 100 φορές πιο οικονομικά από τους ειδικούς του κλάδου. Ωστόσο, αυτά τα στοιχεία αντικατοπτρίζουν τον καθαρό χρόνο εκτέλεσης του μοντέλου και τις τιμές χρέωσης του API, και επομένως δεν περιλαμβάνουν την ανθρώπινη εποπτεία, την επανάληψη και τα βήματα ενσωμάτωσης που απαιτούνται σε πραγματικές εργασιακές συνθήκες για να χρησιμοποιηθούν τα μοντέλα μας. Ωστόσο, ειδικά στο υποσύνολο των εργασιών στις οποίες τα μοντέλα επιδεικνύουν ιδιαίτερα δυνατές επιδόσεις, αναμένουμε ότι η ανάθεση μιας εργασίας σε μοντέλο πριν να δοκιμαστεί με άνθρωπο θα εξοικονομήσει χρόνο και χρήματα.

Οι ειδικοί βαθμολογητές συνέκριναν τα παραδοτέα προϊόντα από κορυφαία μοντέλα με εκείνα των ανθρώπινων ειδικών. Τα σημερινά πρωτοποριακά μοντέλα πλησιάζουν ήδη την ποιότητα της εργασίας που παράγεται από ειδικούς του κλάδου. Οι έξοδοι που παρήγαγε το Claude Opus 4.1 αξιολογήθηκαν ως εξίσου καλές ή καλύτερες από αυτές των ανθρώπων στις μισές σχεδόν εργασίες.

Σε σχέση με το GPT‑4o, η απόδοση του GPT‑5 στις εργασίες GDPval υπερτριπλασιάστηκε μέσα σε έναν χρόνο.

Τέλος, εκπαιδεύσαμε σταδιακά μια εσωτερική, πειραματική έκδοση του GPT‑5 για να αξιολογήσουμε αν θα μπορούσαμε να βελτιώσουμε την απόδοση στο GDPval. Διαπιστώσαμε ότι αυτή η διαδικασία βελτίωσε την απόδοση, δημιουργώντας μια οδό για περαιτέρω πιθανές βελτιώσεις. Άλλα ελεγχόμενα πειράματα επιβεβαιώνουν αυτό το συμπέρασμα: Η αύξηση του μεγέθους του μοντέλου, η ενθάρρυνση περισσότερων βημάτων συλλογισμού και η παροχή πλουσιότερου πλαισίου εφαρμογής εργασίας οδήγησαν σε μετρήσιμες βελτιώσεις.

Μπορείτε να διαβάσεις τα πλήρη αποτελέσματα στην εργασία μας. Κυκλοφορούμε επίσης ένα χρυσό υποσύνολο εργασιών GDPval και μια δημόσια υπηρεσία αξιολόγησης, ώστε άλλοι ερευνητές να μπορούν να βασιστούν σε αυτή την εργασία.

Το μέλλον της εργασίας και της ΤΝ

Καθώς η ΤΝ γίνεται πιο ικανή, είναι πιθανό να προκαλέσει αλλαγές στην αγορά εργασίας. Τα πρώιμα αποτελέσματα του GDPval δείχνουν ότι τα μοντέλα μπορούν ήδη να αναλάβουν ορισμένες επαναλαμβανόμενες, καλά προσδιορισμένες εργασίες πιο γρήγορα και με χαμηλότερο κόστος από τους ειδικούς. Ωστόσο, οι περισσότερες δουλειές είναι κάτι περισσότερο από μια απλή συλλογή εργασιών που μπορούν να καταγραφούν. Το GDPval αναδεικνύει τις περιπτώσεις στις οποίες η ΤΝ μπορεί να αναλάβει εργασίες ρουτίνας, ώστε οι άνθρωποι να αφιερώνουν περισσότερο χρόνο στα δημιουργικά μέρη της εργασίας τους που απαιτούν ικανότητες κρίσης. Όταν η ΤΝ συμπληρώνει με αυτόν τον τρόπο τις ικανότητες των εργαζομένων, μπορεί να οδηγήσει σε σημαντική οικονομική ανάπτυξη. Στόχος μας είναι επωφεληθούν όλοι από την Τεχνητή Νοημοσύνη, δημοκρατικοποιώντας την πρόσβαση σε αυτά τα εργαλεία, στηρίζοντας τους εργαζόμενους όσο πραγματοποιούνται αυτές οι αλλαγές και δημιουργώντας συστήματα που επιβραβεύουν γενικά τη συμβολή.

Περιορισμοί και επόμενα βήματα

Το GDPval είναι ένα πρώιμο βήμα. Ενώ καλύπτει 44 επαγγέλματα και εκατοντάδες εργασίες, συνεχίζουμε να βελτιώνουμε την προσέγγισή μας για να διευρύνουμε το πεδίο των δοκιμών μας και να κάνουμε τα αποτελέσματα πιο ουσιαστικά. Η τρέχουσα έκδοση της αξιολόγησης είναι επίσης one-shot, οπότε δεν καταγράφει περιπτώσεις όπου ένα μοντέλο θα χρειαζόταν να δημιουργήσει θεματικό πλαίσιο ή να βελτιωθεί μέσω πολλαπλών προσχεδίων—όπως για παράδειγμα, στην αναθεώρηση ενός νομικού υπομνήματος μετά από σχόλια πελάτη ή την πραγματοποίηση βελτιώσεων σε ανάλυση δεδομένων μετά από την ανίχνευση κάποιας ανωμαλίας. Επιπλέον, στον πραγματικό κόσμο, οι εργασίες δεν είναι πάντα σαφώς καθορισμένες με μια προτροπή και αρχεία αναφοράς. Για παράδειγμα, ένας δικηγόρος μπορεί να χρειαστεί να διαχειριστεί την αμφισημία και να μιλήσει με τον πελάτη του πριν αποφασίσει ότι η δημιουργία ενός νομικού υπομνήματος είναι η σωστή προσέγγιση για να τον βοηθήσει. Σχεδιάζουμε να επεκτείνουμε το GDPval ώστε να περιλαμβάνει περισσότερα επαγγέλματα, κλάδους και τύπους εργασιών, με αυξημένη διαδραστικότητα και περισσότερες εργασίες που περιλαμβάνουν τη διαχείριση αμφισημίας, με μακροπρόθεσμο στόχο τη βελτίωση της μέτρησης της προόδου σε διάφορες εργασίες ειδικών γνώσεων.

Συμμετέχετε

Εάν είστε ειδικός στον κλάδο και ενδιαφέρεστε να συνεισφέρετε στο GDPval, εκδηλώστε το ενδιαφέρον σας εδώ.
Εάν είστε πελάτης που συνεργάζεται με την OpenAI και θέλετε να συνεισφέρετε σε έναν μελλοντικό γύρο GDPval, εκδηλώστε το ενδιαφέρον σας εδώ.

Η συμμετοχή της κοινότητας έχει κεφαλαιώδη σημασία. Είμαστε ενθουσιασμένοι που θα δημιουργήσουμε το GDPval μαζί με ερευνητές, επαγγελματίες και οργανισμούς που μοιράζονται τον στόχο μας να κάνουμε τη Γενική Τεχνητή Νοημοσύνη (AGI) πιο χρήσιμη για τους ανθρώπους που εργάζονται.

Συντάκτης

OpenAI

Συνεχίστε να διαβάζετε

Εμφάνιση όλων

GPT-Red: Ξεκλειδώνοντας την αυτοβελτίωση για ανθεκτικότητα

Ασφάλεια15 Ιουλ 2026

Διαχωρισμός σήματος από θόρυβο στις αξιολογήσεις προγραμματισμού

Έρευνα8 Ιουλ 2026

Ανακαλύψτε το GeneBench-Pro

Έρευνα30 Ιουν 2026