Przejdź do treści głównej
OpenAI

25 września 2025

PublikacjaBadania

Pomiar działania naszych modeli w rzeczywistych zadaniach

Przedstawiamy GDPval, nową ocenę służącą do pomiaru działania modeli w przypadku cennych z punktu widzenia gospodarki i rzeczywistych zadań wykonywanych w 44 zawodach.

Naszą misją jest, by ogólna sztuczna inteligencja przynosiła korzyści całej ludzkości. W ramach naszej misji chcemy w sposób transparentny informować o postępach dotyczących sposobu, w jaki modele AI mogą pomagać ludziom w prawdziwym świecie. Właśnie dlatego udostępniamy GDPval: nową ocenę pozwalającą nam sprawdzić, na ile dobrze nasze modele i inne modele radzą sobie w rzeczywistych zadaniach, które są cenne z punktu widzenia gospodarki. Nazywamy ją GDPval, ponieważ zaczęliśmy od koncepcji produktu krajowego brutto (ang. Gross Domestic Product, GDP) jako kluczowego wskaźnika ekonomicznego i zaczerpnęliśmy zadania z kluczowych zawodów w branżach, które mają największy udział w wytwarzaniu PKB.

Ludzie często spekulują na temat wpływu AI na społeczeństwo. Najlepszym sposobem zrozumienia jej potencjału jest sprawdzenie, co modele potrafią już teraz. Historia pokazuje, że w przypadku kluczowych technologii — od Internetu po smartfony — czas potrzebny na ich upowszechnienie wynosi ponad 10 lat od momentu wynalezienia. Dzięki ocenom takim jak GDPval dyskusje na temat przyszłych ulepszeń AI możemy prowadzić na podstawie dowodów, a nie domysłów. Pomagają nam też one śledzić postępy w ulepszaniu modeli.

Wcześniejsze oceny AI, takie jak trudne testy akademickie i zawody w programowaniu, były niezbędne z punktu widzenia przesuwania granic zdolności rozumowania modeli. Jednak często nie odpowiadają one zadaniom, które wiele osób wykonuje w swojej codziennej pracy.

Aby rozwiązać ten problem, opracowaliśmy oceny, które mierzą coraz bardziej realistyczne i istotne z punktu widzenia gospodarki zdolności. Przeszliśmy od klasycznych akademickich testów porównawczych, takich jak MMLU (pytania egzaminacyjne z kilkudziesięciu przedmiotów), do bardziej praktycznych ocen, takich jak SWE-Bench (zadania inżynieryjne dotyczące naprawy błędów w oprogramowaniu), MLE-Bench (zadania dotyczące inżynierii uczenia maszynowego, takie jak trenowanie i analiza modeli) oraz Paper-Bench (naukowe rozumowanie i recenzowanie artykułów naukowych), a ostatnio do ocen opartych na rynku, takich jak SWE-Lancer (projekty inżynierii oprogramowania dla wolnych strzelców oparte na rzeczywistych wynagrodzeniach).

GDPval to kolejny krok w tym procesie. Służy on do pomiaru działania modeli w zadaniach zaczerpniętych bezpośrednio z rzeczywistej pracy umysłowej doświadczonych profesjonalistów z różnych zawodów i sektorów, co daje lepszy obraz tego, jak modele radzą sobie z zadaniami cennymi z punktu widzenia gospodarki. Przeprowadzanie ocen modeli na podstawie realistycznych zadań wykonywanych w pracy pomaga nam zrozumieć nie tylko, na ile dobre wyniki mają one w laboratorium, ale także, w jaki sposób mogą pomagać ludziom w codziennej pracy. 

Co mierzy GDPval

Pierwsza wersja oceny GDPval obejmuje 44 zawody wybrane spośród 9 największych branż o największym udziale w PKB Stanów Zjednoczonych. Pełny zestaw GDPval zawiera 1320 specjalistycznych zadań (220 w zestawie open source gold), z których każde zostało starannie opracowane i zweryfikowane przez doświadczonych profesjonalistów ze średnio ponad 14-letnim stażem w danym obszarze. Każde zadanie opiera się na rzeczywistych efektach pracy, takich jak dokumentacja prawna, projekt inżynieryjny, konwersacja z obsługą klienta lub plan opieki pielęgniarskiej.

GDPval wyróżnia się zarówno realizmem, jak i zróżnicowaniem ocenianych zadań. W przeciwieństwie do innych ocen związanych z wartością dla gospodarki, które koncentrują się na konkretnych dziedzinach (np. SWE-Lancer), GDPval obejmuje wiele zadań i zawodów. W przeciwieństwie do testów porównawczych, które polegają na syntetycznym tworzeniu zadań przypominających egzaminy lub testy akademickie (np. Humanity’s Last Exam lub MMLU), GDPval koncentruje się na zadaniach opartych na efektach pracy, które są rzeczywistymi rezultatami, materiałami lub wyrobami istniejącymi obecnie albo przypominającymi je wynikami. 

W przeciwieństwie do tradycyjnych testów porównawczych zadania GDPval nie są prostymi poleceniami tekstowymi. Zawierają one pliki referencyjne i kontekst, a oczekiwane efekty pracy obejmują dokumenty, slajdy, schematy, arkusze kalkulacyjne i multimedia. Dzięki temu GDPval to bardziej realistyczny test tego, na ile modele mogą pomagać w pracy zawodowej.

GDPval to krok na wczesnym etapie, który nie odzwierciedla wszystkich niuansów wielu zadań istotnych dla gospodarki. Chociaż obejmuje 44 zawody i setki zadań związanych z pracą umysłową, jest ograniczony do ocen z jednym podejściem, dlatego nie uwzględnia przypadków, w których model musiałby budować kontekst lub dokonywać ulepszeń przy użyciu wielu wersji roboczych. W przyszłych wersjach wprowadzimy bardziej interaktywne procesy i zadania kontekstowe w celu lepszego odzwierciedlenia złożoności pracy umysłowej (więcej informacji zawiera punkt „Ograniczenia” poniżej).

Jak wybraliśmy zawody

GDPval obejmuje zadania z 9 branż i 44 zawodów. W przyszłości poszerzymy ten zakres. Pierwsze 9 branż wybraliśmy na podstawie danych Federal Reserve Bank of St. Louis jako te, które mają ponad 5% udziału w PKB Stanów Zjednoczonych. Następnie z każdej branży wybraliśmy 5 zawodów o największym udziale w całkowitych wynagrodzeniach. Są to głównie zawody umysłowe. Wykorzystaliśmy dane dotyczące wynagrodzeń i zatrudnienia z raportu o zatrudnieniu zawodowym amerykańskiego Bureau of Labor Statistics (BLS) z maja 2024 r.(otwiera nowe okno) Aby ustalić, czy były to głównie zawody umysłowe, wykorzystaliśmy dane dotyczące zadań z O*NET(otwiera nowe okno), bazy danych zawierającej informacje o zawodach w Stanach Zjednoczonych, wspieranej finansowo przez Departament Pracy Stanów Zjednoczonych. Poszczególne zadania dla każdego zawodu w O*NET sklasyfikowaliśmy jako pracę umysłową lub pracę fizyczną/ręczną (wymagającą wykonywania czynności o manualnym charakterze). Zawód kwalifikował się ogólnie jako „głównie praca umysłowa”, jeśli co najmniej 60% zadań wchodzących w jego skład nie było sklasyfikowanych jako praca fizyczna lub ręczna. Wybraliśmy próg 60% jako punkt wyjścia dla pierwszej wersji GDPval, koncentrując się na zawodach, w których AI może mieć największy wpływ na rzeczywistą produktywność. 

W wyniku tego procesu wybrano 44 zawody.

Nieruchomości, zakup i wynajem

  • Konsjerżowie

  • Zarządcy nieruchomości, wspólnot i osiedli

  • Agenci sprzedaży nieruchomości

  • Pośrednicy w obrocie nieruchomościami

  • Pracownicy obsługi klienta i wynajmu

Administracja publiczna

  • Pracownicy rekreacji

  • Urzędnicy ds. zgodności z przepisami

  • Bezpośredni przełożeni funkcjonariuszy operacyjnych policji

  • Kierownicy ds. usług administracyjnych

  • Pracownicy opieki społecznej i edukacji

Produkcja przemysłowa

  • Inżynierowie mechanicy

  • Inżynierowie przemysłowi

  • Zaopatrzeniowcy i agenci ds. zakupów

  • Pracownicy odpowiedzialni za wysyłkę, odbiór i stany magazynowe

  • Bezpośredni przełożeni pracowników produkcji i obsługi maszyn

Usługi specjalistyczne, naukowe i techniczne

  • Programiści

  • Prawnicy

  • Księgowi i audytorzy

  • Kierownicy ds. komputerów i systemów informatycznych

  • Specjaliści ds. zarządzania projektami

Opieka zdrowotna i pomoc społeczna

  • Dyplomowane pielęgniarki

  • Dyplomowane pielęgniarki specjalistki

  • Kierownicy ds. usług medycznych i zdrowotnych

  • Bezpośredni przełożeni pracowników biurowych i administracyjnych

  • Sekretarki medyczne i asystenci administracyjni

Finanse i ubezpieczenia

  • Przedstawiciele obsługi klienta

  • Analitycy finansowi i inwestycyjni

  • Kierownicy finansowi

  • Osobiści doradcy finansowi

  • Agenci ds. sprzedaży papierów wartościowych, towarów i usług finansowych

Handel detaliczny

  • Farmaceuci

  • Bezpośredni przełożeni pracowników sprzedaży detalicznej

  • Kierownicy ds. ogólnych i operacyjni

  • Prywatni detektywi i śledczy

Handel hurtowy

  • Kierownicy ds. sprzedaży

  • Pracownicy ds. zamówień

  • Bezpośredni przełożeni pracowników sprzedaży niedetalicznej

  • Przedstawiciele handlowi, hurt i branża produkcyjna, z wyjątkiem produktów technicznych i naukowych

  • Przedstawiciele ds. sprzedaży, hurt i branża produkcyjna, produkty techniczne i naukowe

Serwisy informacyjne

  • Technicy audio i wideo

  • Producenci i reżyserzy

  • Analitycy wiadomości, reporterzy i dziennikarze

  • Montażyści filmowi i wideo

  • Redaktorzy

GDPval obejmuje 44 zawody umysłowe z 9 sektorów, od programistów i prawników po dyplomowane pielęgniarki i inżynierów mechaników. Te zawody zostały wybrane ze względu na ich znaczenie dla gospodarki. Reprezentują one rodzaje codziennej pracy, w których AI może w znaczący sposób pomóc profesjonalistom.

Jak stworzyliśmy zestaw danych

W przypadku każdego zawodu współpracowaliśmy z doświadczonymi profesjonalistami nad stworzeniem reprezentatywnych zadań, które odzwierciedlają ich codzienną pracę. Mieli średnio 14 lat doświadczenia i duże osiągnięcia zawodowe. Celowo zatrudniliśmy szerokie grono ekspertów, np. prawników z różnych dziedzin i kancelarii o różnej wielkości, aby zapewnić jak największą reprezentatywność.

Każde zadanie przeszło wieloetapowy proces weryfikacji gwarantujący, że jest ono reprezentatywne dla rzeczywistej pracy, możliwe do wykonania przez innego profesjonalistę i możliwe do oceny. Średnio każde zadanie zostało poddane 5 rundom weryfikacji przez ekspertów, w tym zostało sprawdzone przez innych autorów zadań, dodatkowych recenzentów z danego zawodu oraz zweryfikowane przy użyciu modelu. 

Powstały zestaw danych zawiera 30 w pełni zweryfikowanych zadań dla każdego zawodu (pełny zestaw) oraz 5 zadań dla każdego zawodu w naszym zestawie open source gold. Stanowi on solidną podstawę do oceny działania modeli w rzeczywistych zadaniach związanych z pracą umysłową.

Przykłady zadań GDPval

Polecenie + kontekst zadania

This is June 2025 and you are a Manufacturing Engineer, in an automobile assembly line. The product is a cable spooling truck for underground mining operations, and you are reviewing the final testing step. In the final testing step, a big spool of cable needs to be reeled in and reeled out 2 times, to ensure the cable spooling works as per requirement. The current operation requires 2 persons to work on this test. The first person needs to bring and position the spool near the test unit, the second person will connect the open end of the cable spool to the test unit and start the reel in step. While the cable is being unreeled from the spool, and onto the truck, the first person will need to rotate the spool in order to facilitate the unreeling. When the cable is fully reeled onto the truck, the next step is to perform the operation in reverse order, so the cable gets reeled out of the truck and back onto its own reel. This test is done another time to ensure functionality. This task is complicated, has associated risks, requires high labor and makes the work area cluttered. Your manager has requested you to develop a jig/fixture to simplify reel in and reel out of the cable reel spool, so the test can be done by one person. Attached to this request is an information document which provides basic details about the cable reel drum size, information to design the cable reel spooling jig and to structure the deliverable. The deliverable for this task will be a preliminary concept design only. Separate tasks will be done to calculate design foundations such as stress, strength, cost benefit analysis, etc. Design a jig using 3d modelling software and create a presentation using Microsoft PowerPoint. As part of the deliverable, upload only a pdf document summarizing the design, using snapshots of the 3d design created. The 3d design file is not required for submission.
Cable reel project requirements.pdf

Produkt końcowy doświadczonego człowieka

Rysunek złożeniowy projektu bębna na kabel
Każde zadanie w GDPval zostało opracowane przez doświadczonego specjalistę i odzwierciedla rzeczywistą pracę umysłową wykonywaną w ramach danego zawodu. Polecenie zawiera realistyczny opis zadania do wykonania w pracy. Został stworzony przez eksperta danej dziedziny, a najlepszym efektem pracy jest rozwiązanie opracowane przez tego eksperta.

Jak oceniamy działanie modeli

Aby móc ocenić działanie modeli w zadaniach GDPval, korzystamy z pomocy ekspertów dokonujących ocen — grupy doświadczonych profesjonalistów z tych samych zawodów, które są reprezentowane w zestawie danych. Porównują oni „na ślepo” efekty pracy generowane przez modele z tymi, które zostały stworzone przez autorów zadań (nie wiedzą, które z nich zostały wygenerowane przez AI, a które stworzone przez ludzi), recenzują je oraz przyznają im punkty. Oceniający następnie szeregują efekty pracy człowieka i AI oraz klasyfikują każdy wynik AI jako „lepszy”, „tak samo dobry” lub „gorszy” od innych.

Autorzy zadań stworzyli również szczegółowe rubryki do oceniania dla swoich zawodów, które zwiększają spójność i transparentność procesu oceny. Stworzyliśmy również zautomatyzowane rozwiązanie do oceniania: system AI wytrenowany do szacowania, jak ludzie eksperci oceniliby dany efekt pracy. Innymi słowy, zamiast za każdym razem przeprowadzać pełną ocenę z udziałem ekspertów, można użyć zautomatyzowanego rozwiązania do szybkiego przewidywania, którą odpowiedź modelu prawdopodobnie preferowaliby ludzie. Narzędzie do oceniania udostępniamy na stronie evals.openai.com jako eksperymentalną usługę w ramach badań. Nie jest ono jednak jeszcze tak niezawodne jak ocena z udziałem ekspertów, dlatego nie zastępujemy nim ich pracy. 

Wstępne rezultaty

Stwierdziliśmy, że jakość efektów pracy najlepszych obecnie pionierskich modeli zbliża się już do jakości pracy wykonywanej przez ekspertów branżowych. Aby to sprawdzić, przeprowadziliśmy oceny „na ślepo“, w których eksperci branżowi porównali efekty pracy kilku wiodących modeli — GPT‑4o, o4-mini, OpenAI o3, GPT‑5, Claude Opus 4.1, Gemini 2.5 Pro i Grok 4 — z efektami pracy ludzi. W 220 zadaniach z zestawu GDPval gold odnotowaliśmy, kiedy dane wyjściowe modelu zostały ocenione jako lepsze („wygrane”) od efektów pracy ekspertów branżowych lub im równe („remisy”), jak pokazano na poniższym wykresie słupkowym. Model Claude Opus 4.1 uzyskał najlepsze wyniki w zestawie, szczególnie dobrze radząc sobie pod względem estetyki (np. formatowanie dokumentów, układ slajdów), a model GPT‑5 bardzo dobrze radził sobie pod względem dokładności (np. wyszukiwanie wiedzy dotyczącej danej dziedziny). Z czasem zauważyliśmy również wyraźny postęp dotyczący wykonywania zadań. Od udostępnienia modelu GPT‑4o (wydanego wiosną 2024 r.) do udostępnienia modelu GPT‑5 (wydanego latem 2025 r.) wynik wzrósł ponad dwukrotnie zgodnie z wyraźną tendencją liniową.

Ponadto ustaliliśmy, że pionierskie modele mogą wykonywać zadania GDPval około 100 razy szybciej i 100 razy taniej niż eksperci branżowi. Trzeba podkreślić, że te liczby odzwierciedlają tylko czas wnioskowania modelu i stawki rozliczeń za korzystanie z interfejsów API. Zatem nie uwzględniają kroków nadzoru człowieka, powtórzeń i integracji wymaganych podczas rzeczywistego korzystania z naszych modeli w miejscu pracy. Niemniej jednak, szczególnie w przypadku podzbioru zadań, w których modele radzą sobie szczególnie dobrze, oczekujemy, że powierzenie zadania modelowi przed wypróbowaniem go przez człowieka pozwoli zaoszczędzić czas i pieniądze.

Eksperci oceniający porównali efekty pracy wiodących modeli z pracą ekspertów ludzi. Jakość efektów pracy obecnych pionierskich modeli zbliża się już do jakości pracy wykonywanej przez ekspertów branżowych. Model Claude Opus 4.1 stworzył rezultaty oceniane jako równie dobre lub lepsze od wyników człowieka w prawie połowie zadań.

W ciągu roku od momentu wydania modelu GPT‑4o do udostępnienia modelu GPT‑5 wyniki w zadaniach GDPval poprawiły się ponad trzykrotnie. 

Ponadto stopniowo trenowaliśmy wewnętrzną, eksperymentalną wersję modelu GPT‑5 w celu sprawdzenia, czy możemy poprawić wynik w ocenie GDPval. Ustaliliśmy, że ten proces poprawił wydajność, otwierając drogę do dalszych potencjalnych ulepszeń. Potwierdzają to inne kontrolowane eksperymenty. Wymierne korzyści przyniosło zwiększenie rozmiaru modelu, zachęcenie do większej liczby kroków rozumowania oraz udostępnienie większego kontekstu zadania.

Pełne wyniki można znaleźć w naszej pracy. Udostępniamy również podzbiór zadań GDPval gold oraz publiczną usługę do oceniania, aby inni badacze mogli wykorzystać rezultaty naszej pracy.

Przyszłość pracy i AI 

Wraz z rozwojem zdolności AI prawdopodobnie spowoduje ona zmiany na rynku pracy. Wstępne rezultaty GDPval pokazują, że modele mogą już wykonywać niektóre powtarzalne i dobrze określone zadania szybciej i taniej niż eksperci. Jednak większość zawodów to więcej niż tylko zbiór zadań do zapisania. Ocena GDPval pokazuje, gdzie AI może wykonywać rutynowe zadania, pozwalając ludziom poświęcić więcej czasu na te aspekty pracy, które są bardziej kreatywne i wymagają bardziej złożonych decyzji. AI, uzupełniając w ten sposób pracę człowieka, może przyczynić się do znacznego wzrostu gospodarczego. Naszym celem jest umożliwić wszystkim czerpanie korzyści z AI poprzez demokratyzację dostępu do narzędzi, wspieranie pracowników podczas zmian oraz tworzenie systemów, które wynagradzają szeroki wkład. 

Ograniczenia i plany na przyszłość

GDPval to krok na wczesnym etapie. Chociaż obejmuje on 44 zawody i setki zadań, nadal udoskonalamy nasze podejście. Chcemy rozszerzyć zakres naszych testów i sprawić, aby wyniki były bardziej znaczące. Obecna wersja oceny jest również ograniczona do jednego podejścia, dlatego nie uwzględnia przypadków, w których model musiałby budować kontekst lub dokonywać ulepszeń przy użyciu wielu wersji roboczych — na przykład dokonując zmian w dokumencie prawnym po otrzymaniu opinii od klienta lub powtarzając analizę danych po wykryciu anomalii. Ponadto w prawdziwym świecie zakres zadań nie zawsze jest jasno określony przy użyciu polecenia i plików referencyjnych. Na przykład prawnik musi czasem wyjaśnić niektóre kwestie podczas rozmowy z klientem, zanim zdecyduje, czy sporządzenie dokumentu prawnego pomoże klientowi. Planujemy rozszerzyć ocenę GDPval o więcej zawodów, branż i rodzajów zadań, zwiększyć interaktywność i liczbę zadań wymagających poradzenia sobie z niejasnościami. W długim okresie chcemy lepiej mierzyć postępy w zróżnicowanej pracy umysłowej.

Weź udział

Udział społeczności jest niezwykle ważny — cieszymy się, że możemy rozwijać ocenę GDPval wspólnie z badaczami, praktykami i organizacjami, które razem z nami dążą do tego samego celu: żeby AI była bardziej użyteczna jako narzędzie pracy.