Măsurarea performanței modelelor noastre în sarcini reale
Îți prezentăm GDPval, o nouă evaluare care măsoară performanța modelului în sarcini reale, cu valoare economică, pentru 44 de profesii.
Misiunea noastră este să ne asigurăm că inteligența artificială generală aduce beneficii întregii omeniri. Conform misiunii noastre, dorim să comunicăm transparent progresele înregistrate privind modul în care modelele de inteligență artificială pot fi de ajutor în condiții reale. De aceea, îți prezentăm GDPval: o nouă evaluare concepută pentru a ne ajuta să urmărim cât de bine funcționează modelele noastre și ale altora în sarcini reale, cu valoare economică. Am denumit această evaluare GDPval deoarece am pornit de la conceptul Produsului Intern Brut (PIB) ca indicator economic cheie și am selectat sarcini din principalele profesii din domeniile care contribuie cel mai mult la PIB.
Se fac multe speculații despre impactul extins al inteligenței artificiale asupra societății, dar cel mai clar mod de a-i înțelege potențialul este să analizăm ce sunt deja capabile să facă modelele existente. Istoria ne arată că tehnologiile majore — de la internet la smartphone-uri — au necesitat mai bine de un deceniu pentru a trece de la stadiul de invenție la cel de adoptare pe scară largă. Evaluările precum GDPval contribuie la fundamentarea discuțiilor privind îmbunătățirile viitoare ale inteligenței artificiale pe baza dovezilor și nu a presupunerilor, precum și la urmărirea îmbunătățirii modelului pe parcursul timpului.
Evaluările anterioare ale inteligenței artificiale, cum ar fi testele academice dificile și provocările competitive de programare, au fost esențiale pentru extinderea limitelor capacităților de raționament ale modelelor, dar de multe ori nu sunt suficiente pentru sarcinile îndeplinite de multe persoane în activitatea zilnică.
Pentru a reduce acest decalaj, am dezvoltat evaluări care măsoară capacități tot mai realiste și relevante din punct de vedere economic. Această progresie a trecut de la teste de performanță academice clasice, precum MMLU (întrebări de tip examen din zeci de discipline), la evaluări mai aplicate, precum SWE-Bench (sarcini de corectare a bugurilor de inginerie de software), MLE-Bench (sarcini de inginerie de învățare automată, cum ar fi instruirea și analiza modelelor) și Paper-Bench (raționament științific și critică asupra lucrărilor de cercetare) și, mai recent, la evaluări bazate pe piață, precum SWE-Lancer (proiecte freelance de inginerie de software bazate pe plăți reale).
GDPval este următorul pas în această evoluție. Măsoară performanța modelului în cadrul unor sarcini extrase direct din activitatea profesională reală a unor specialiști cu experiență dintr-o mare varietate de profesii și sectoare, oferind o imagine mai clară asupra performanței modelelor în cadrul unor sarcini cu valoare economică. Evaluarea modelelor în cadrul unor sarcini profesionale realiste ne ajută să înțelegem nu doar cât de bine funcționează în laborator, ci și cum ar putea sprijini activitatea zilnică a persoanelor.
GDPval, prima versiune a acestei evaluări, vizează 44 de profesii selectate din primele 9 sectoare care contribuie la PIB-ul SUA. Setul complet GDPval include 1.320 de sarcini specializate (220 în setul open-source gold), fiecare fiind meticulos elaborată și verificată de profesioniști cu o experiență medie de peste 14 ani în aceste domenii. Fiecare sarcină se bazează pe produse reale, cum ar fi un memoriu juridic, un plan tehnic, o conversație cu serviciul de asistență pentru clienți sau un plan de îngrijire medicală.
GDPval se distinge atât prin realism, cât și prin diversitatea sarcinilor evaluate. Spre deosebire de alte evaluări legate de valoarea economică, care se concentrează pe domenii specifice (de exemplu, SWE-Lancer), GDPval vizează numeroase sarcini și ocupații. Și, spre deosebire de testele de performanță care implică crearea sintetică de sarcini în stilul unui examen sau test academic (de exemplu, Humanity’s Last Exam sau MMLU), GDPval se concentrează pe sarcini bazate pe rezultate, adică fie o lucrare sau un produs real care există în prezent, fie o lucrare sau un produs construit similar.
Spre deosebire de testele de performanță tradiționale, sarcinile GDPval nu sunt simple solicitări text. Sunt însoțite de fișiere de referință și context, iar rezultatele așteptate includ documente, diapozitive, diagrame, foi de calcul și materiale multimedia. Acest realism face ca GDPval să fie un test mai realist al modului în care modelele pot sprijini profesioniștii.
GDPval este o etapă inițială care nu reflectă întreaga complexitate a multor sarcini economice. Deși vizează 44 de profesii și sute de sarcini intelectuale, se limitează la evaluări de tip one-shot, deci nu surprinde cazurile în care un model ar trebui să creeze context sau să evolueze prin mai multe versiuni preliminare. Versiunile viitoare vor include fluxuri de lucru mai interactive și sarcini cu context bogat, pentru a reflecta mai bine complexitatea activității intelectuale reale (pentru mai multe detalii, consultă secțiunea Limitări de mai jos).
GDPval acoperă sarcini din 9 industrii și 44 de ocupații, iar versiunile viitoare vor continua să extindă acoperirea. Cele 9 industrii inițiale au fost alese pe baza celor care contribuie cu peste 5% la PIB-ul SUA, conform datelor de la Banca Rezervei Federale din St. Louis. Apoi, am selectat cele 5 ocupații din fiecare industrie care contribuie cel mai mult la salariile și compensațiile totale și care sunt predominant ocupații de muncă bazate pe cunoștințe, folosind datele privind salariile și ocuparea forței de muncă din raportul de ocupare a forței de muncă din mai 2024 al US Bureau of Labor Statistics (BLS)(se deschide într-o fereastră nouă). Pentru a determina dacă ocupațiile erau predominant munci bazate pe cunoștințe, am utilizat date despre sarcini de la O*NET(se deschide într-o fereastră nouă), o bază de date cu informații ocupaționale din SUA, sponsorizată de Departamentul Muncii din SUA. Am clasificat fiecare sarcină pentru fiecare ocupație din O*NET dacă era muncă bazată pe cunoștințe sau muncă fizică/manuală (care necesita acțiuni în lumea fizică). O ocupație se califica în general drept „muncă predominant bazată pe cunoștințe” dacă cel puțin 60% din sarcinile sale componente erau clasificate ca neimplicând muncă fizică sau manuală. Am ales acest prag de 60% ca punct de plecare pentru prima versiune a GDPval, concentrându-ne pe ocupațiile unde AI ar putea avea cel mai mare impact asupra productivității în lumea reală.
Acest proces a dus la includerea a 44 de profesii.
Imobiliare, închiriere și leasing
Conciergi
Administratori de proprietăți, imobiliare și asociații comunitare
Agenți imobiliari
Brokeri imobiliari
Funcționari la ghișeu și pentru închirieri
Instituții guvernamentale
Lucrători în activități de recreere și timp liber
Ofițeri de conformitate
Supervizori de primă linie ai poliției și detectivilor
Manageri de servicii administrative
Asistenți sociali pentru copii, familie și școală
Producție
Ingineri mecanici
Ingineri industriali
Cumpărători și agenți de achiziții
Personalul responsabil cu expedierea, recepția și inventarierea mărfurilor
Supervizori de primă linie ai angajaților din producție și operațiuni
Servicii profesionale, științifice și tehnice
Dezvoltatori de software
Avocați
Contabili și auditori
Manageri de sisteme informatice și informaționale
Specialiști în managementul proiectelor
Îngrijire medicală și asistență socială
Asistenți medicali autorizați
Asistenți medicali
Manageri de servicii medicale și de sănătate
Supervizori de primă linie ai angajaților din domeniul administrativ și de birou
Secretari medicali și asistenți administrativi
Finanțe și asigurări
Reprezentanți ai serviciului pentru clienți
Analiști financiari și de investiții
Manageri financiari
Consultanți financiari personali
Agenți de vânzări de valori mobiliare, mărfuri și servicii financiare
Comerț cu amănuntul
Farmaciști
Supervizori de primă linie ai lucrătorilor de vânzări din comerțul cu amănuntul
Manageri generali și de operațiuni
Detectivi și investigatori privați
Comerț cu ridicata
Manageri de vânzări
Operatori de comenzi
Supervizori de primă linie ai lucrătorilor care nu lucrează în vânzări cu amănuntul
Reprezentanți de vânzări, angro și producție, cu excepția produselor tehnice și științifice
Reprezentanți de vânzări, comerț cu ridicata și producție, produse tehnice și științifice
Informații
Tehnicieni audio și video
Producători și regizori
Analiști de știri, reporteri și jurnaliști
Editori de film și video
Editori
Pentru fiecare profesie, am colaborat cu specialiști cu experiență pentru a crea sarcini reprezentative care să le reflecte activitatea zilnică. Acești specialiști au avut în medie 14 ani de experiență, cu rezultate remarcabile în privința avansării în carieră. Am recrutat intenționat o mare varietate de experți — cum ar fi avocați din diferite domenii de practică și firme de diferite dimensiuni — pentru a maximiza reprezentativitatea.
Fiecare sarcină a trecut printr-un proces de revizuire în mai multe etape pentru a garanta că este reprezentativă pentru munca reală, că poate fi realizată de un alt specialist și că este adecvată pentru evaluare. În medie, fiecare sarcină a fost revizuită de 5 ori de către experți, fiind verificată și de alți autori de sarcini, de revizori ocupaționali suplimentari și prin validare bazată pe modele.
Setul de date rezultat include 30 de sarcini complet revizuite pentru fiecare profesie (setul complet), cu 5 sarcini pentru fiecare profesie în setul nostru open-source gold, oferind o bază solidă pentru evaluarea performanței modelului privind activitatea intelectuală reală.
Exemple de sarcini GDPval
Solicitarea + contextul sarcinii
Livrabile realizate de persoane cu experiență

Pentru a evalua performanța modelelor în cadrul sarcinilor GDPval, am apelat la „evaluatori” experți — un grup de specialiști cu experiență din aceleași domenii profesionale reprezentate în setul de date. Acești evaluatori au comparat în condiții de obiectivitate rezultatele generate de model cu cele produse de autorii sarcinilor (fără a ști care sunt generate de inteligența artificială și care sunt generate de persoane) și au oferit critici și clasamente. Apoi, evaluatorii au clasificat rezultatele obținute de persoane și de inteligența artificială și au clasificat fiecare rezultat al inteligenței artificiale ca fiind „mai bun”, „la fel de bun” sau „mai slab” decât celălalt.
Autorii sarcinilor au creat și rubrici detaliate de punctaj pentru profesiile lor, asigurând astfel consecvența și transparența procesului de evaluare. De asemenea, am creat un „evaluator automat”, un sistem de inteligență artificială instruit să estimeze modul în care experții umani ar evalua un anumit rezultat. Cu alte cuvinte, în loc să rulăm de fiecare dată o evaluare completă de către experți, sistemul automat de notare poate anticipa rapid ce rezultat ar prefera persoanele. Lansăm acest instrument pe evals.openai.com ca serviciu de cercetare experimentală, dar nu este încă la fel de fiabil ca evaluatorii experți, așa că nu-l folosim pentru a-i înlocui.
Am constatat că cele mai bune modele de frontieră actuale se apropie deja de calitatea activității experților din sectoarele vizate. Pentru a testa acest lucru, am efectuat evaluări în condiții de obiectivitate, prin care experți din anumite sectoare au comparat rezultatele obținute de mai multe modele de vârf — GPT‑4o, o4-mini, OpenAI o3, GPT‑5, Claude Opus 4.1, Gemini 2.5 Pro și Grok 4 — cu cele obținute de persoane. În cadrul a 220 de sarcini din setul GDPval Gold, am înregistrat momentele în care datele de ieșire ale modelului au fost evaluate ca fiind mai bune („câștiguri”) sau la egalitate („egalități”) cu rezultatele obținute de experții din anumite sectoare, așa cum se arată în diagrama cu bare de mai jos. Claude Opus 4.1 a fost modelul cu cele mai bune performanțe din set, excelând în special la capitolul estetică (de exemplu, formatarea documentului, aspectul diapozitivelor), iar GPT‑5 a excelat în special la capitolul acuratețe (de exemplu, găsirea de cunoștințe specifice domeniului). De asemenea, am constatat progrese clare de-a lungul timpului în privința acestor sarcini. Performanța a crescut de peste două ori de la GPT‑4o (lansat în primăvara anului 2024) la GPT‑5 (lansat în vara anului 2025), urmând o tendință liniară clară.
În plus, am constatat că modelele de frontieră pot finaliza sarcinile GDPval de aproximativ 100 de ori mai rapid și de 100 de ori mai ieftin decât experții din anumite sectoare. Totuși, aceste cifre reflectă timpul pur de inferență al modelului și ratele de facturare ale API-ului și, prin urmare, nu țin cont de etapele de supraveghere, iterație și integrare umane necesare în mediile de lucru reale pentru utilizarea modelelor noastre. Chiar și așa, mai ales în cazul sarcinilor în care modelele sunt deosebit de eficiente, ne așteptăm ca atribuirea unei sarcini unui model înainte de a o încerca cu o persoană să economisească timp și bani.
Evaluatori experți au comparat rezultatele obținute de modelele de vârf cu cele ale experților umani. Modelele de frontieră actuale se apropie deja de calitatea activității experților din sectoarele vizate. Claude Opus 4.1 a produs rezultate considerate la fel de bune sau mai bune decât cele umane în aproape jumătate din sarcini.
De la GPT‑4o la GPT‑5, performanța în cadrul sarcinilor GDPval s-a triplat în mai puțin de un an.
Nu în ultimul rând, am instruit treptat o versiune internă, experimentală, a modelului GPT‑5 pentru a evalua dacă putem îmbunătăți performanța în cadrul GDPval. Am constatat că acest proces a îmbunătățit performanța, creând posibilitatea unor îmbunătățiri suplimentare. Alte experimente controlate confirmă acest lucru: mărirea dimensiunii modelului, încurajarea mai multor etape de raționament și oferirea unui context mai bogat pentru sarcini au determinat câștiguri măsurabile.
Poți citi rezultatele complete în lucrarea noastră. De asemenea, lansăm un subset gold de sarcini GDPval și un serviciu public de evaluare, pentru ca și alți cercetători să poată valorifica această realizare.
Odată cu dezvoltarea inteligenței artificiale, este probabil ca piața muncii să sufere schimbări. Rezultatele inițiale ale GDPval arată că modelele pot deja prelua anumite sarcini repetitive, bine definite, mai rapid și la un cost mai mic decât experții. Totuși, majoritatea locurilor de muncă nu sunt doar o colecție de sarcini care pot fi notate undeva. GDPval evidențiază domeniile în care inteligența artificială poate gestiona sarcinile de rutină, pentru ca angajații să poată dedica mai mult timp aspectelor creative și care necesită o judecată profundă. Când inteligența artificială vine în completarea activității angajaților în acest fel, poate duce la o creștere economică semnificativă. Ne dorim ca nimeni să nu piardă ascensiunea inteligenței artificiale, democratizând accesul la aceste instrumente, sprijinind angajații în procesul de schimbare și creând sisteme care să recompenseze contribuțiile extinse.
GDPval este un prim pas. Deși vizează 44 de profesii și sute de sarcini, continuăm să ne perfecționăm abordarea pentru a extinde domeniul de aplicare al testelor noastre și a face rezultatele mai semnificative. În plus, versiunea actuală a evaluării este de tip one-shot, deci nu surprinde cazurile în care un model ar trebui să construiască contextul sau să evolueze prin mai multe versiuni preliminare — cum ar fi revizuirea unui document juridic după feedbackul clientului sau repetarea unei analize de date după identificarea unei anomalii. În plus, în realitate, sarcinile nu sunt întotdeauna clar definite, cu instrucțiuni și fișiere de referință; de exemplu, un avocat ar putea fi nevoit să gestioneze ambiguități și să discute cu clientul înainte de a decide că redactarea unui memoriu juridic este cea mai potrivită soluție. Intenționăm să extindem GDPval pentru a include mai multe profesii, sectoare și tipuri de sarcini, cu o interactivitate sporită și mai multe sarcini care implică gestionarea ambiguităților, având ca obiectiv, pe termen lung, o mai bună măsurare a progresului în diverse activități intelectuale.
- Dacă ești expert într-un anumit sector și te interesează să contribui la GDPval,exprimă-ți interesul aici.
- Dacă ești un client care lucrează cu OpenAI și dorești să contribui la o rundă viitoare de GDPval, exprimă-ți interesul aici.
Implicarea comunității este esențială — suntem încântați să dezvoltăm GDPval în colaborare cu cercetători, specialiști și organizații care împărtășesc obiectivul nostru de a face AGI mai utilă pentru angajați.


