Sari la conținutul principal
OpenAI

25 septembrie 2025

PublicareCercetare

Măsurarea performanței modelelor noastre în sarcini reale

Îți prezentăm GDPval, o nouă evaluare care măsoară performanța modelului în sarcini reale, cu valoare economică, pentru 44 de profesii.

Misiunea noastră este să ne asigurăm că inteligența artificială generală aduce beneficii întregii omeniri. Conform misiunii noastre, dorim să comunicăm transparent progresele înregistrate privind modul în care modelele de inteligență artificială pot fi de ajutor în condiții reale. De aceea, îți prezentăm GDPval: o nouă evaluare concepută pentru a ne ajuta să urmărim cât de bine funcționează modelele noastre și ale altora în sarcini reale, cu valoare economică. Am denumit această evaluare GDPval deoarece am pornit de la conceptul Produsului Intern Brut (PIB) ca indicator economic cheie și am selectat sarcini din principalele profesii din domeniile care contribuie cel mai mult la PIB.

Se fac multe speculații despre impactul extins al inteligenței artificiale asupra societății, dar cel mai clar mod de a-i înțelege potențialul este să analizăm ce sunt deja capabile să facă modelele existente. Istoria ne arată că tehnologiile majore — de la internet la smartphone-uri — au necesitat mai bine de un deceniu pentru a trece de la stadiul de invenție la cel de adoptare pe scară largă. Evaluările precum GDPval contribuie la fundamentarea discuțiilor privind îmbunătățirile viitoare ale inteligenței artificiale pe baza dovezilor și nu a presupunerilor, precum și la urmărirea îmbunătățirii modelului pe parcursul timpului.

Evaluările anterioare ale inteligenței artificiale, cum ar fi testele academice dificile și provocările competitive de programare, au fost esențiale pentru extinderea limitelor capacităților de raționament ale modelelor, dar de multe ori nu sunt suficiente pentru sarcinile îndeplinite de multe persoane în activitatea zilnică.

Pentru a reduce acest decalaj, am dezvoltat evaluări care măsoară capacități tot mai realiste și relevante din punct de vedere economic. Această progresie a trecut de la teste de performanță academice clasice, precum MMLU (întrebări de tip examen din zeci de discipline), la evaluări mai aplicate, precum SWE-Bench (sarcini de corectare a bugurilor de inginerie de software), MLE-Bench (sarcini de inginerie de învățare automată, cum ar fi instruirea și analiza modelelor) și Paper-Bench (raționament științific și critică asupra lucrărilor de cercetare) și, mai recent, la evaluări bazate pe piață, precum SWE-Lancer (proiecte freelance de inginerie de software bazate pe plăți reale).

GDPval este următorul pas în această evoluție. Măsoară performanța modelului în cadrul unor sarcini extrase direct din activitatea profesională reală a unor specialiști cu experiență dintr-o mare varietate de profesii și sectoare, oferind o imagine mai clară asupra performanței modelelor în cadrul unor sarcini cu valoare economică. Evaluarea modelelor în cadrul unor sarcini profesionale realiste ne ajută să înțelegem nu doar cât de bine funcționează în laborator, ci și cum ar putea sprijini activitatea zilnică a persoanelor.  

Ce măsoară GDPval

GDPval, prima versiune a acestei evaluări, vizează 44 de profesii selectate din primele 9 sectoare care contribuie la PIB-ul SUA. Setul complet GDPval include 1.320 de sarcini specializate (220 în setul open-source gold), fiecare fiind meticulos elaborată și verificată de profesioniști cu o experiență medie de peste 14 ani în aceste domenii. Fiecare sarcină se bazează pe produse reale, cum ar fi un memoriu juridic, un plan tehnic, o conversație cu serviciul de asistență pentru clienți sau un plan de îngrijire medicală.

GDPval se distinge atât prin realism, cât și prin diversitatea sarcinilor evaluate. Spre deosebire de alte evaluări legate de valoarea economică, care se concentrează pe domenii specifice (de exemplu, SWE-Lancer), GDPval vizează numeroase sarcini și ocupații. Și, spre deosebire de testele de performanță care implică crearea sintetică de sarcini în stilul unui examen sau test academic (de exemplu, Humanity’s Last Exam sau MMLU), GDPval se concentrează pe sarcini bazate pe rezultate, adică fie o lucrare sau un produs real care există în prezent, fie o lucrare sau un produs construit similar. 

Spre deosebire de testele de performanță tradiționale, sarcinile GDPval nu sunt simple solicitări text. Sunt însoțite de fișiere de referință și context, iar rezultatele așteptate includ documente, diapozitive, diagrame, foi de calcul și materiale multimedia. Acest realism face ca GDPval să fie un test mai realist al modului în care modelele pot sprijini profesioniștii.

GDPval este o etapă inițială care nu reflectă întreaga complexitate a multor sarcini economice. Deși vizează 44 de profesii și sute de sarcini intelectuale, se limitează la evaluări de tip one-shot, deci nu surprinde cazurile în care un model ar trebui să creeze context sau să evolueze prin mai multe versiuni preliminare. Versiunile viitoare vor include fluxuri de lucru mai interactive și sarcini cu context bogat, pentru a reflecta mai bine complexitatea activității intelectuale reale (pentru mai multe detalii, consultă secțiunea Limitări de mai jos).

Cum am ales profesiile

GDPval acoperă sarcini din 9 industrii și 44 de ocupații, iar versiunile viitoare vor continua să extindă acoperirea. Cele 9 industrii inițiale au fost alese pe baza celor care contribuie cu peste 5% la PIB-ul SUA, conform datelor de la Banca Rezervei Federale din St. Louis. Apoi, am selectat cele 5 ocupații din fiecare industrie care contribuie cel mai mult la salariile și compensațiile totale și care sunt predominant ocupații de muncă bazate pe cunoștințe, folosind datele privind salariile și ocuparea forței de muncă din raportul de ocupare a forței de muncă din mai 2024 al US Bureau of Labor Statistics (BLS)(se deschide într-o fereastră nouă). Pentru a determina dacă ocupațiile erau predominant munci bazate pe cunoștințe, am utilizat date despre sarcini de la O*NET(se deschide într-o fereastră nouă), o bază de date cu informații ocupaționale din SUA, sponsorizată de Departamentul Muncii din SUA. Am clasificat fiecare sarcină pentru fiecare ocupație din O*NET dacă era muncă bazată pe cunoștințe sau muncă fizică/manuală (care necesita acțiuni în lumea fizică). O ocupație se califica în general drept „muncă predominant bazată pe cunoștințe” dacă cel puțin 60% din sarcinile sale componente erau clasificate ca neimplicând muncă fizică sau manuală. Am ales acest prag de 60% ca punct de plecare pentru prima versiune a GDPval, concentrându-ne pe ocupațiile unde AI ar putea avea cel mai mare impact asupra productivității în lumea reală. 

Acest proces a dus la includerea a 44 de profesii.

Imobiliare, închiriere și leasing

  • Conciergi

  • Administratori de proprietăți, imobiliare și asociații comunitare

  • Agenți imobiliari

  • Brokeri imobiliari

  • Funcționari la ghișeu și pentru închirieri

Instituții guvernamentale

  • Lucrători în activități de recreere și timp liber

  • Ofițeri de conformitate

  • Supervizori de primă linie ai poliției și detectivilor

  • Manageri de servicii administrative

  • Asistenți sociali pentru copii, familie și școală

Producție

  • Ingineri mecanici

  • Ingineri industriali

  • Cumpărători și agenți de achiziții

  • Personalul responsabil cu expedierea, recepția și inventarierea mărfurilor

  • Supervizori de primă linie ai angajaților din producție și operațiuni

Servicii profesionale, științifice și tehnice

  • Dezvoltatori de software

  • Avocați

  • Contabili și auditori

  • Manageri de sisteme informatice și informaționale

  • Specialiști în managementul proiectelor

Îngrijire medicală și asistență socială

  • Asistenți medicali autorizați

  • Asistenți medicali

  • Manageri de servicii medicale și de sănătate

  • Supervizori de primă linie ai angajaților din domeniul administrativ și de birou

  • Secretari medicali și asistenți administrativi

Finanțe și asigurări

  • Reprezentanți ai serviciului pentru clienți

  • Analiști financiari și de investiții

  • Manageri financiari

  • Consultanți financiari personali

  • Agenți de vânzări de valori mobiliare, mărfuri și servicii financiare

Comerț cu amănuntul

  • Farmaciști

  • Supervizori de primă linie ai lucrătorilor de vânzări din comerțul cu amănuntul

  • Manageri generali și de operațiuni

  • Detectivi și investigatori privați

Comerț cu ridicata

  • Manageri de vânzări

  • Operatori de comenzi

  • Supervizori de primă linie ai lucrătorilor care nu lucrează în vânzări cu amănuntul

  • Reprezentanți de vânzări, angro și producție, cu excepția produselor tehnice și științifice

  • Reprezentanți de vânzări, comerț cu ridicata și producție, produse tehnice și științifice

Informații

  • Tehnicieni audio și video

  • Producători și regizori

  • Analiști de știri, reporteri și jurnaliști

  • Editori de film și video

  • Editori

GDPval vizează 44 de profesii din domeniul cunoașterii, din 9 sectoare, de la dezvoltatori de software și avocați la asistenți medicali autorizați și ingineri mecanici. Aceste profesii au fost selectate pentru importanța lor economică și reprezintă tipurile de activități zilnice în care inteligența artificială poate ajuta în mod semnificativ specialiștii.

Cum am elaborat setul de date

Pentru fiecare profesie, am colaborat cu specialiști cu experiență pentru a crea sarcini reprezentative care să le reflecte activitatea zilnică. Acești specialiști au avut în medie 14 ani de experiență, cu rezultate remarcabile în privința avansării în carieră. Am recrutat intenționat o mare varietate de experți — cum ar fi avocați din diferite domenii de practică și firme de diferite dimensiuni — pentru a maximiza reprezentativitatea.

Fiecare sarcină a trecut printr-un proces de revizuire în mai multe etape pentru a garanta că este reprezentativă pentru munca reală, că poate fi realizată de un alt specialist și că este adecvată pentru evaluare. În medie, fiecare sarcină a fost revizuită de 5 ori de către experți, fiind verificată și de alți autori de sarcini, de revizori ocupaționali suplimentari și prin validare bazată pe modele. 

Setul de date rezultat include 30 de sarcini complet revizuite pentru fiecare profesie (setul complet), cu 5 sarcini pentru fiecare profesie în setul nostru open-source gold, oferind o bază solidă pentru evaluarea performanței modelului privind activitatea intelectuală reală.

Exemple de sarcini GDPval

Solicitarea + contextul sarcinii

This is June 2025 and you are a Manufacturing Engineer, in an automobile assembly line. The product is a cable spooling truck for underground mining operations, and you are reviewing the final testing step. In the final testing step, a big spool of cable needs to be reeled in and reeled out 2 times, to ensure the cable spooling works as per requirement. The current operation requires 2 persons to work on this test. The first person needs to bring and position the spool near the test unit, the second person will connect the open end of the cable spool to the test unit and start the reel in step. While the cable is being unreeled from the spool, and onto the truck, the first person will need to rotate the spool in order to facilitate the unreeling. When the cable is fully reeled onto the truck, the next step is to perform the operation in reverse order, so the cable gets reeled out of the truck and back onto its own reel. This test is done another time to ensure functionality. This task is complicated, has associated risks, requires high labor and makes the work area cluttered. Your manager has requested you to develop a jig/fixture to simplify reel in and reel out of the cable reel spool, so the test can be done by one person. Attached to this request is an information document which provides basic details about the cable reel drum size, information to design the cable reel spooling jig and to structure the deliverable. The deliverable for this task will be a preliminary concept design only. Separate tasks will be done to calculate design foundations such as stress, strength, cost benefit analysis, etc. Design a jig using 3d modelling software and create a presentation using Microsoft PowerPoint. As part of the deliverable, upload only a pdf document summarizing the design, using snapshots of the 3d design created. The 3d design file is not required for submission.
Cable reel project requirements.pdf

Livrabile realizate de persoane cu experiență

Vedere explodată a unui proiect pentru o bobină de cablu
Fiecare sarcină din GDPval este concepută de un specialist cu experiență și reflectă cunoștințele reale din profesia sa. Solicitarea este o sarcină de lucru realistă creată de un expert în domeniu, iar rezultatul final este soluția proprie a expertului.

Cum evaluăm performanța modelelor

Pentru a evalua performanța modelelor în cadrul sarcinilor GDPval, am apelat la „evaluatori” experți — un grup de specialiști cu experiență din aceleași domenii profesionale reprezentate în setul de date. Acești evaluatori au comparat în condiții de obiectivitate rezultatele generate de model cu cele produse de autorii sarcinilor (fără a ști care sunt generate de inteligența artificială și care sunt generate de persoane) și au oferit critici și clasamente. Apoi, evaluatorii au clasificat rezultatele obținute de persoane și de inteligența artificială și au clasificat fiecare rezultat al inteligenței artificiale ca fiind „mai bun”, „la fel de bun” sau „mai slab” decât celălalt.

Autorii sarcinilor au creat și rubrici detaliate de punctaj pentru profesiile lor, asigurând astfel consecvența și transparența procesului de evaluare. De asemenea, am creat un „evaluator automat”, un sistem de inteligență artificială instruit să estimeze modul în care experții umani ar evalua un anumit rezultat. Cu alte cuvinte, în loc să rulăm de fiecare dată o evaluare completă de către experți, sistemul automat de notare poate anticipa rapid ce rezultat ar prefera persoanele. Lansăm acest instrument pe evals.openai.com ca serviciu de cercetare experimentală, dar nu este încă la fel de fiabil ca evaluatorii experți, așa că nu-l folosim pentru a-i înlocui. 

Rezultate preliminare

Am constatat că cele mai bune modele de frontieră actuale se apropie deja de calitatea activității experților din sectoarele vizate. Pentru a testa acest lucru, am efectuat evaluări în condiții de obiectivitate, prin care experți din anumite sectoare au comparat rezultatele obținute de mai multe modele de vârf — GPT‑4o, o4-mini, OpenAI o3, GPT‑5, Claude Opus 4.1, Gemini 2.5 Pro și Grok 4 — cu cele obținute de persoane. În cadrul a 220 de sarcini din setul GDPval Gold, am înregistrat momentele în care datele de ieșire ale modelului au fost evaluate ca fiind mai bune („câștiguri”) sau la egalitate („egalități”) cu rezultatele obținute de experții din anumite sectoare, așa cum se arată în diagrama cu bare de mai jos. Claude Opus 4.1 a fost modelul cu cele mai bune performanțe din set, excelând în special la capitolul estetică (de exemplu, formatarea documentului, aspectul diapozitivelor), iar GPT‑5 a excelat în special la capitolul acuratețe (de exemplu, găsirea de cunoștințe specifice domeniului). De asemenea, am constatat progrese clare de-a lungul timpului în privința acestor sarcini. Performanța a crescut de peste două ori de la GPT‑4o (lansat în primăvara anului 2024) la GPT‑5 (lansat în vara anului 2025), urmând o tendință liniară clară.

În plus, am constatat că modelele de frontieră pot finaliza sarcinile GDPval de aproximativ 100 de ori mai rapid și de 100 de ori mai ieftin decât experții din anumite sectoare. Totuși, aceste cifre reflectă timpul pur de inferență al modelului și ratele de facturare ale API-ului și, prin urmare, nu țin cont de etapele de supraveghere, iterație și integrare umane necesare în mediile de lucru reale pentru utilizarea modelelor noastre. Chiar și așa, mai ales în cazul sarcinilor în care modelele sunt deosebit de eficiente, ne așteptăm ca atribuirea unei sarcini unui model înainte de a o încerca cu o persoană să economisească timp și bani.

Evaluatori experți au comparat rezultatele obținute de modelele de vârf cu cele ale experților umani. Modelele de frontieră actuale se apropie deja de calitatea activității experților din sectoarele vizate. Claude Opus 4.1 a produs rezultate considerate la fel de bune sau mai bune decât cele umane în aproape jumătate din sarcini.

De la GPT‑4o la GPT‑5, performanța în cadrul sarcinilor GDPval s-a triplat în mai puțin de un an. 

Nu în ultimul rând, am instruit treptat o versiune internă, experimentală, a modelului GPT‑5 pentru a evalua dacă putem îmbunătăți performanța în cadrul GDPval. Am constatat că acest proces a îmbunătățit performanța, creând posibilitatea unor îmbunătățiri suplimentare. Alte experimente controlate confirmă acest lucru: mărirea dimensiunii modelului, încurajarea mai multor etape de raționament și oferirea unui context mai bogat pentru sarcini au determinat câștiguri măsurabile.

Poți citi rezultatele complete în lucrarea noastră. De asemenea, lansăm un subset gold de sarcini GDPval și un serviciu public de evaluare, pentru ca și alți cercetători să poată valorifica această realizare.

Viitorul muncii și al inteligenței artificiale 

Odată cu dezvoltarea inteligenței artificiale, este probabil ca piața muncii să sufere schimbări. Rezultatele inițiale ale GDPval arată că modelele pot deja prelua anumite sarcini repetitive, bine definite, mai rapid și la un cost mai mic decât experții. Totuși, majoritatea locurilor de muncă nu sunt doar o colecție de sarcini care pot fi notate undeva. GDPval evidențiază domeniile în care inteligența artificială poate gestiona sarcinile de rutină, pentru ca angajații să poată dedica mai mult timp aspectelor creative și care necesită o judecată profundă. Când inteligența artificială vine în completarea activității angajaților în acest fel, poate duce la o creștere economică semnificativă. Ne dorim ca nimeni să nu piardă ascensiunea inteligenței artificiale, democratizând accesul la aceste instrumente, sprijinind angajații în procesul de schimbare și creând sisteme care să recompenseze contribuțiile extinse. 

Limitări și ce urmează

GDPval este un prim pas. Deși vizează 44 de profesii și sute de sarcini, continuăm să ne perfecționăm abordarea pentru a extinde domeniul de aplicare al testelor noastre și a face rezultatele mai semnificative. În plus, versiunea actuală a evaluării este de tip one-shot, deci nu surprinde cazurile în care un model ar trebui să construiască contextul sau să evolueze prin mai multe versiuni preliminare — cum ar fi revizuirea unui document juridic după feedbackul clientului sau repetarea unei analize de date după identificarea unei anomalii. În plus, în realitate, sarcinile nu sunt întotdeauna clar definite, cu instrucțiuni și fișiere de referință; de exemplu, un avocat ar putea fi nevoit să gestioneze ambiguități și să discute cu clientul înainte de a decide că redactarea unui memoriu juridic este cea mai potrivită soluție. Intenționăm să extindem GDPval pentru a include mai multe profesii, sectoare și tipuri de sarcini, cu o interactivitate sporită și mai multe sarcini care implică gestionarea ambiguităților, având ca obiectiv, pe termen lung, o mai bună măsurare a progresului în diverse activități intelectuale.

Implică-te

Implicarea comunității este esențială — suntem încântați să dezvoltăm GDPval în colaborare cu cercetători, specialiști și organizații care împărtășesc obiectivul nostru de a face AGI mai utilă pentru angajați.