Pomiar działania naszych modeli w rzeczywistych zadaniach
Przedstawiamy GDPval, nową ocenę służącą do pomiaru działania modeli w przypadku cennych z punktu widzenia gospodarki i rzeczywistych zadań wykonywanych w 44 zawodach.
Naszą misją jest, by ogólna sztuczna inteligencja przynosiła korzyści całej ludzkości. W ramach naszej misji chcemy w sposób transparentny informować o postępach dotyczących sposobu, w jaki modele AI mogą pomagać ludziom w prawdziwym świecie. Właśnie dlatego udostępniamy GDPval: nową ocenę pozwalającą nam sprawdzić, na ile dobrze nasze modele i inne modele radzą sobie w rzeczywistych zadaniach, które są cenne z punktu widzenia gospodarki. Nazywamy ją GDPval, ponieważ zaczęliśmy od koncepcji produktu krajowego brutto (ang. Gross Domestic Product, GDP) jako kluczowego wskaźnika ekonomicznego i zaczerpnęliśmy zadania z kluczowych zawodów w branżach, które mają największy udział w wytwarzaniu PKB.
Ludzie często spekulują na temat wpływu AI na społeczeństwo. Najlepszym sposobem zrozumienia jej potencjału jest sprawdzenie, co modele potrafią już teraz. Historia pokazuje, że w przypadku kluczowych technologii — od Internetu po smartfony — czas potrzebny na ich upowszechnienie wynosi ponad 10 lat od momentu wynalezienia. Dzięki ocenom takim jak GDPval dyskusje na temat przyszłych ulepszeń AI możemy prowadzić na podstawie dowodów, a nie domysłów. Pomagają nam też one śledzić postępy w ulepszaniu modeli.
Wcześniejsze oceny AI, takie jak trudne testy akademickie i zawody w programowaniu, były niezbędne z punktu widzenia przesuwania granic zdolności rozumowania modeli. Jednak często nie odpowiadają one zadaniom, które wiele osób wykonuje w swojej codziennej pracy.
Aby rozwiązać ten problem, opracowaliśmy oceny, które mierzą coraz bardziej realistyczne i istotne z punktu widzenia gospodarki zdolności. Przeszliśmy od klasycznych akademickich testów porównawczych, takich jak MMLU (pytania egzaminacyjne z kilkudziesięciu przedmiotów), do bardziej praktycznych ocen, takich jak SWE-Bench (zadania inżynieryjne dotyczące naprawy błędów w oprogramowaniu), MLE-Bench (zadania dotyczące inżynierii uczenia maszynowego, takie jak trenowanie i analiza modeli) oraz Paper-Bench (naukowe rozumowanie i recenzowanie artykułów naukowych), a ostatnio do ocen opartych na rynku, takich jak SWE-Lancer (projekty inżynierii oprogramowania dla wolnych strzelców oparte na rzeczywistych wynagrodzeniach).
GDPval to kolejny krok w tym procesie. Służy on do pomiaru działania modeli w zadaniach zaczerpniętych bezpośrednio z rzeczywistej pracy umysłowej doświadczonych profesjonalistów z różnych zawodów i sektorów, co daje lepszy obraz tego, jak modele radzą sobie z zadaniami cennymi z punktu widzenia gospodarki. Przeprowadzanie ocen modeli na podstawie realistycznych zadań wykonywanych w pracy pomaga nam zrozumieć nie tylko, na ile dobre wyniki mają one w laboratorium, ale także, w jaki sposób mogą pomagać ludziom w codziennej pracy.
Pierwsza wersja oceny GDPval obejmuje 44 zawody wybrane spośród 9 największych branż o największym udziale w PKB Stanów Zjednoczonych. Pełny zestaw GDPval zawiera 1320 specjalistycznych zadań (220 w zestawie open source gold), z których każde zostało starannie opracowane i zweryfikowane przez doświadczonych profesjonalistów ze średnio ponad 14-letnim stażem w danym obszarze. Każde zadanie opiera się na rzeczywistych efektach pracy, takich jak dokumentacja prawna, projekt inżynieryjny, konwersacja z obsługą klienta lub plan opieki pielęgniarskiej.
GDPval wyróżnia się zarówno realizmem, jak i zróżnicowaniem ocenianych zadań. W przeciwieństwie do innych ocen związanych z wartością dla gospodarki, które koncentrują się na konkretnych dziedzinach (np. SWE-Lancer), GDPval obejmuje wiele zadań i zawodów. W przeciwieństwie do testów porównawczych, które polegają na syntetycznym tworzeniu zadań przypominających egzaminy lub testy akademickie (np. Humanity’s Last Exam lub MMLU), GDPval koncentruje się na zadaniach opartych na efektach pracy, które są rzeczywistymi rezultatami, materiałami lub wyrobami istniejącymi obecnie albo przypominającymi je wynikami.
W przeciwieństwie do tradycyjnych testów porównawczych zadania GDPval nie są prostymi poleceniami tekstowymi. Zawierają one pliki referencyjne i kontekst, a oczekiwane efekty pracy obejmują dokumenty, slajdy, schematy, arkusze kalkulacyjne i multimedia. Dzięki temu GDPval to bardziej realistyczny test tego, na ile modele mogą pomagać w pracy zawodowej.
GDPval to krok na wczesnym etapie, który nie odzwierciedla wszystkich niuansów wielu zadań istotnych dla gospodarki. Chociaż obejmuje 44 zawody i setki zadań związanych z pracą umysłową, jest ograniczony do ocen z jednym podejściem, dlatego nie uwzględnia przypadków, w których model musiałby budować kontekst lub dokonywać ulepszeń przy użyciu wielu wersji roboczych. W przyszłych wersjach wprowadzimy bardziej interaktywne procesy i zadania kontekstowe w celu lepszego odzwierciedlenia złożoności pracy umysłowej (więcej informacji zawiera punkt „Ograniczenia” poniżej).
GDPval obejmuje zadania z 9 branż i 44 zawodów. W przyszłości poszerzymy ten zakres. Pierwsze 9 branż wybraliśmy na podstawie danych Federal Reserve Bank of St. Louis jako te, które mają ponad 5% udziału w PKB Stanów Zjednoczonych. Następnie z każdej branży wybraliśmy 5 zawodów o największym udziale w całkowitych wynagrodzeniach. Są to głównie zawody umysłowe. Wykorzystaliśmy dane dotyczące wynagrodzeń i zatrudnienia z raportu o zatrudnieniu zawodowym amerykańskiego Bureau of Labor Statistics (BLS) z maja 2024 r.(otwiera nowe okno) Aby ustalić, czy były to głównie zawody umysłowe, wykorzystaliśmy dane dotyczące zadań z O*NET(otwiera nowe okno), bazy danych zawierającej informacje o zawodach w Stanach Zjednoczonych, wspieranej finansowo przez Departament Pracy Stanów Zjednoczonych. Poszczególne zadania dla każdego zawodu w O*NET sklasyfikowaliśmy jako pracę umysłową lub pracę fizyczną/ręczną (wymagającą wykonywania czynności o manualnym charakterze). Zawód kwalifikował się ogólnie jako „głównie praca umysłowa”, jeśli co najmniej 60% zadań wchodzących w jego skład nie było sklasyfikowanych jako praca fizyczna lub ręczna. Wybraliśmy próg 60% jako punkt wyjścia dla pierwszej wersji GDPval, koncentrując się na zawodach, w których AI może mieć największy wpływ na rzeczywistą produktywność.
W wyniku tego procesu wybrano 44 zawody.
Nieruchomości, zakup i wynajem
Konsjerżowie
Zarządcy nieruchomości, wspólnot i osiedli
Agenci sprzedaży nieruchomości
Pośrednicy w obrocie nieruchomościami
Pracownicy obsługi klienta i wynajmu
Administracja publiczna
Pracownicy rekreacji
Urzędnicy ds. zgodności z przepisami
Bezpośredni przełożeni funkcjonariuszy operacyjnych policji
Kierownicy ds. usług administracyjnych
Pracownicy opieki społecznej i edukacji
Produkcja przemysłowa
Inżynierowie mechanicy
Inżynierowie przemysłowi
Zaopatrzeniowcy i agenci ds. zakupów
Pracownicy odpowiedzialni za wysyłkę, odbiór i stany magazynowe
Bezpośredni przełożeni pracowników produkcji i obsługi maszyn
Usługi specjalistyczne, naukowe i techniczne
Programiści
Prawnicy
Księgowi i audytorzy
Kierownicy ds. komputerów i systemów informatycznych
Specjaliści ds. zarządzania projektami
Opieka zdrowotna i pomoc społeczna
Dyplomowane pielęgniarki
Dyplomowane pielęgniarki specjalistki
Kierownicy ds. usług medycznych i zdrowotnych
Bezpośredni przełożeni pracowników biurowych i administracyjnych
Sekretarki medyczne i asystenci administracyjni
Finanse i ubezpieczenia
Przedstawiciele obsługi klienta
Analitycy finansowi i inwestycyjni
Kierownicy finansowi
Osobiści doradcy finansowi
Agenci ds. sprzedaży papierów wartościowych, towarów i usług finansowych
Handel detaliczny
Farmaceuci
Bezpośredni przełożeni pracowników sprzedaży detalicznej
Kierownicy ds. ogólnych i operacyjni
Prywatni detektywi i śledczy
Handel hurtowy
Kierownicy ds. sprzedaży
Pracownicy ds. zamówień
Bezpośredni przełożeni pracowników sprzedaży niedetalicznej
Przedstawiciele handlowi, hurt i branża produkcyjna, z wyjątkiem produktów technicznych i naukowych
Przedstawiciele ds. sprzedaży, hurt i branża produkcyjna, produkty techniczne i naukowe
Serwisy informacyjne
Technicy audio i wideo
Producenci i reżyserzy
Analitycy wiadomości, reporterzy i dziennikarze
Montażyści filmowi i wideo
Redaktorzy
W przypadku każdego zawodu współpracowaliśmy z doświadczonymi profesjonalistami nad stworzeniem reprezentatywnych zadań, które odzwierciedlają ich codzienną pracę. Mieli średnio 14 lat doświadczenia i duże osiągnięcia zawodowe. Celowo zatrudniliśmy szerokie grono ekspertów, np. prawników z różnych dziedzin i kancelarii o różnej wielkości, aby zapewnić jak największą reprezentatywność.
Każde zadanie przeszło wieloetapowy proces weryfikacji gwarantujący, że jest ono reprezentatywne dla rzeczywistej pracy, możliwe do wykonania przez innego profesjonalistę i możliwe do oceny. Średnio każde zadanie zostało poddane 5 rundom weryfikacji przez ekspertów, w tym zostało sprawdzone przez innych autorów zadań, dodatkowych recenzentów z danego zawodu oraz zweryfikowane przy użyciu modelu.
Powstały zestaw danych zawiera 30 w pełni zweryfikowanych zadań dla każdego zawodu (pełny zestaw) oraz 5 zadań dla każdego zawodu w naszym zestawie open source gold. Stanowi on solidną podstawę do oceny działania modeli w rzeczywistych zadaniach związanych z pracą umysłową.
Przykłady zadań GDPval
Polecenie + kontekst zadania
Produkt końcowy doświadczonego człowieka

Aby móc ocenić działanie modeli w zadaniach GDPval, korzystamy z pomocy ekspertów dokonujących ocen — grupy doświadczonych profesjonalistów z tych samych zawodów, które są reprezentowane w zestawie danych. Porównują oni „na ślepo” efekty pracy generowane przez modele z tymi, które zostały stworzone przez autorów zadań (nie wiedzą, które z nich zostały wygenerowane przez AI, a które stworzone przez ludzi), recenzują je oraz przyznają im punkty. Oceniający następnie szeregują efekty pracy człowieka i AI oraz klasyfikują każdy wynik AI jako „lepszy”, „tak samo dobry” lub „gorszy” od innych.
Autorzy zadań stworzyli również szczegółowe rubryki do oceniania dla swoich zawodów, które zwiększają spójność i transparentność procesu oceny. Stworzyliśmy również zautomatyzowane rozwiązanie do oceniania: system AI wytrenowany do szacowania, jak ludzie eksperci oceniliby dany efekt pracy. Innymi słowy, zamiast za każdym razem przeprowadzać pełną ocenę z udziałem ekspertów, można użyć zautomatyzowanego rozwiązania do szybkiego przewidywania, którą odpowiedź modelu prawdopodobnie preferowaliby ludzie. Narzędzie do oceniania udostępniamy na stronie evals.openai.com jako eksperymentalną usługę w ramach badań. Nie jest ono jednak jeszcze tak niezawodne jak ocena z udziałem ekspertów, dlatego nie zastępujemy nim ich pracy.
Stwierdziliśmy, że jakość efektów pracy najlepszych obecnie pionierskich modeli zbliża się już do jakości pracy wykonywanej przez ekspertów branżowych. Aby to sprawdzić, przeprowadziliśmy oceny „na ślepo“, w których eksperci branżowi porównali efekty pracy kilku wiodących modeli — GPT‑4o, o4-mini, OpenAI o3, GPT‑5, Claude Opus 4.1, Gemini 2.5 Pro i Grok 4 — z efektami pracy ludzi. W 220 zadaniach z zestawu GDPval gold odnotowaliśmy, kiedy dane wyjściowe modelu zostały ocenione jako lepsze („wygrane”) od efektów pracy ekspertów branżowych lub im równe („remisy”), jak pokazano na poniższym wykresie słupkowym. Model Claude Opus 4.1 uzyskał najlepsze wyniki w zestawie, szczególnie dobrze radząc sobie pod względem estetyki (np. formatowanie dokumentów, układ slajdów), a model GPT‑5 bardzo dobrze radził sobie pod względem dokładności (np. wyszukiwanie wiedzy dotyczącej danej dziedziny). Z czasem zauważyliśmy również wyraźny postęp dotyczący wykonywania zadań. Od udostępnienia modelu GPT‑4o (wydanego wiosną 2024 r.) do udostępnienia modelu GPT‑5 (wydanego latem 2025 r.) wynik wzrósł ponad dwukrotnie zgodnie z wyraźną tendencją liniową.
Ponadto ustaliliśmy, że pionierskie modele mogą wykonywać zadania GDPval około 100 razy szybciej i 100 razy taniej niż eksperci branżowi. Trzeba podkreślić, że te liczby odzwierciedlają tylko czas wnioskowania modelu i stawki rozliczeń za korzystanie z interfejsów API. Zatem nie uwzględniają kroków nadzoru człowieka, powtórzeń i integracji wymaganych podczas rzeczywistego korzystania z naszych modeli w miejscu pracy. Niemniej jednak, szczególnie w przypadku podzbioru zadań, w których modele radzą sobie szczególnie dobrze, oczekujemy, że powierzenie zadania modelowi przed wypróbowaniem go przez człowieka pozwoli zaoszczędzić czas i pieniądze.
Eksperci oceniający porównali efekty pracy wiodących modeli z pracą ekspertów ludzi. Jakość efektów pracy obecnych pionierskich modeli zbliża się już do jakości pracy wykonywanej przez ekspertów branżowych. Model Claude Opus 4.1 stworzył rezultaty oceniane jako równie dobre lub lepsze od wyników człowieka w prawie połowie zadań.
W ciągu roku od momentu wydania modelu GPT‑4o do udostępnienia modelu GPT‑5 wyniki w zadaniach GDPval poprawiły się ponad trzykrotnie.
Ponadto stopniowo trenowaliśmy wewnętrzną, eksperymentalną wersję modelu GPT‑5 w celu sprawdzenia, czy możemy poprawić wynik w ocenie GDPval. Ustaliliśmy, że ten proces poprawił wydajność, otwierając drogę do dalszych potencjalnych ulepszeń. Potwierdzają to inne kontrolowane eksperymenty. Wymierne korzyści przyniosło zwiększenie rozmiaru modelu, zachęcenie do większej liczby kroków rozumowania oraz udostępnienie większego kontekstu zadania.
Pełne wyniki można znaleźć w naszej pracy. Udostępniamy również podzbiór zadań GDPval gold oraz publiczną usługę do oceniania, aby inni badacze mogli wykorzystać rezultaty naszej pracy.
Wraz z rozwojem zdolności AI prawdopodobnie spowoduje ona zmiany na rynku pracy. Wstępne rezultaty GDPval pokazują, że modele mogą już wykonywać niektóre powtarzalne i dobrze określone zadania szybciej i taniej niż eksperci. Jednak większość zawodów to więcej niż tylko zbiór zadań do zapisania. Ocena GDPval pokazuje, gdzie AI może wykonywać rutynowe zadania, pozwalając ludziom poświęcić więcej czasu na te aspekty pracy, które są bardziej kreatywne i wymagają bardziej złożonych decyzji. AI, uzupełniając w ten sposób pracę człowieka, może przyczynić się do znacznego wzrostu gospodarczego. Naszym celem jest umożliwić wszystkim czerpanie korzyści z AI poprzez demokratyzację dostępu do narzędzi, wspieranie pracowników podczas zmian oraz tworzenie systemów, które wynagradzają szeroki wkład.
GDPval to krok na wczesnym etapie. Chociaż obejmuje on 44 zawody i setki zadań, nadal udoskonalamy nasze podejście. Chcemy rozszerzyć zakres naszych testów i sprawić, aby wyniki były bardziej znaczące. Obecna wersja oceny jest również ograniczona do jednego podejścia, dlatego nie uwzględnia przypadków, w których model musiałby budować kontekst lub dokonywać ulepszeń przy użyciu wielu wersji roboczych — na przykład dokonując zmian w dokumencie prawnym po otrzymaniu opinii od klienta lub powtarzając analizę danych po wykryciu anomalii. Ponadto w prawdziwym świecie zakres zadań nie zawsze jest jasno określony przy użyciu polecenia i plików referencyjnych. Na przykład prawnik musi czasem wyjaśnić niektóre kwestie podczas rozmowy z klientem, zanim zdecyduje, czy sporządzenie dokumentu prawnego pomoże klientowi. Planujemy rozszerzyć ocenę GDPval o więcej zawodów, branż i rodzajów zadań, zwiększyć interaktywność i liczbę zadań wymagających poradzenia sobie z niejasnościami. W długim okresie chcemy lepiej mierzyć postępy w zróżnicowanej pracy umysłowej.
- Jeśli jesteś ekspertem branżowym i chcesz wnieść swój wkład w rozwój prac nad oceną GDPval, prześlij swoje zgłoszenie tutaj.
- Jeśli jesteś klientem współpracującym z OpenAI i chcesz wziąć udział w kolejnej rundzie prac nad oceną GDPval, prześlij swoje zgłoszenie poniżej.
Udział społeczności jest niezwykle ważny — cieszymy się, że możemy rozwijać ocenę GDPval wspólnie z badaczami, praktykami i organizacjami, które razem z nami dążą do tego samego celu: żeby AI była bardziej użyteczna jako narzędzie pracy.


