2025년 9월 25일

실제 작업에서 OpenAI 모델의 성능 측정하기

OpenAI가 44개의 직업에서 경제적 가치가 있는 실제 작업에 대한 모델 성능을 측정하는 새로운 평가인 GDPval을 소개합니다.

우리의 사명은 인류 전체가 범용 인공지능의 이점을 누리게 하는 것입니다. 그 사명의 일환으로 AI가 실제로 사람들을 돕는 방식에 대한 진행 상황을 투명하게 소통하고자 합니다. 이를 위해 경제적 가치가 있는 실제 작업에서 OpenAI의 모델 및 다른 플랫폼이 얼마나 잘 작동하는지 추적하는 데 도움이 되도록 설계된 새로운 평가인 GDPval을 공개합니다. 이 평가를 GDPval이라고 부르는 이유는 국내 총생산(GPD)라는 개념을 주요 경제적 지표로 보는 데서 시작했으며, GDP에 가장 많이 기여하는 산업의 주요 직업에서 실제 작업을 가져왔기 때문입니다.

사람들은 사회에 대한 AI의 광범위한 영향력을 추측하지만, AI의 잠재력을 명확하게 이해하는 방법은 모델이 이미 우수한 성능을 보이는 부분을 파악하는 것입니다. 역사적으로 인터넷부터 스마트폰까지 주요 기술은 개발에서 광범위한 도입까지 도달하는 데 10년 이상의 시간이 걸렸습니다. GDPval과 같은 평가는 추측보다는 확실히 드러나는 미래 AI 개선에 대한 기반 대화에 도움이 되며, 시간 경과에 따른 모델 개선을 추적하는 데에도 도움이 됩니다.

학술적 시험에 도전하거나 코딩 과제를 경쟁하는 등의 기존 AI 평가는 모델의 추론 기능 경계를 확장하는 데 필수적인 역할을 했지만, 많은 사람이 일상 업무에서 다루는 작업에 대한 측면이 부족한 경우가 많았습니다.

이 격차를 해소하기 위해 현실적으로, 그리고 경제적으로 관련성이 높은 기능을 측정할 수 있는 평가를 개발했습니다. 이러한 평가는 MMLU(수십 가지 주제에 대한 시험 형식의 질문)과 같은 전통적인 학술적 벤치마크에서 SWE-Bench(소프트웨어 엔지니어링 버그 수정 작업), MLE-Bench(모델 훈련 및 분석 등의 머신 러닝 엔지니어링 작업), Paper-Bench(연구 논문에 대한 과학적 추론 및 비평) 등의 더 실용적인 평가와 SWE-Lancer(실제 레이아웃을 기반으로 한 프리랜서 소프트웨어 엔지니어링 프로젝트)와 같은 시장 기반 평가로 진전되어 왔습니다.

GDPval은 이러한 진전의 다음 단계입니다. 이 평가는 다양한 직업 및 분야 전반의 숙련된 전문가의 실제 지식 작업에서 직접 가져온 작업에 대한 모델 성능을 평가하여, 경제적 가치가 있는 작업을 모델이 어떻게 수행하는지 명확하게 파악할 수 있게 해줍니다. 현실적인 직업상 작업에 대해 모델을 평가하면 연구실에서 모델이 작업을 수행하는 방식뿐 아니라 일상 업무에서 사람들을 지원할 수 있는 방식을 이해하는 데 도움이 됩니다.

GDPval이 측정하는 것

이 평가의 첫 번째 버전인 GDPval은 미국에 기여하는 상위 9개 산업에서 선택된 44개 직업을 대상으로 합니다. GDP. GDPval의 전체 세트는 1,320개(골드 오픈 소스 세트 220개)의 전문적인 작업을 포함하고 있으며, 각 작업은 해당 분야에서 평균 14년 넘게 경력을 쌓은 숙련된 전문가가 세심하게 제작되고 점검했습니다. 모든 작업은 법률 문서, 엔지니어링 청사진, 고객 지원 대화, 간호 계획 등과 같이 현실에서 이루어지는 업무를 기반으로 합니다.

GDPval은 현실성과 평가되는 작업의 다양성에 그 특징이 있습니다. 특정 분야에 집중하는 경제적 가치와 연결된 다른 평가(예: SWE-Lancer)와는 달리, GDPval은 다양한 작업과 직업을 다룹니다. 또한 학술적 시험이나 테스트 형식으로 작업을 종합적으로 생성하여 수반하는 벤치마크(예: Humanity’s Last Exam, MMLU)와 달리, GDPval은 현재 존재하는 업무나 제품, 또는 이와 유사하게 구성된 업무 제품을 기반으로 하는 작업에 중점을 둡니다.

기존 벤치마크와 달리, GDPval 작업은 단순한 텍스트 프롬프트가 아닙니다. 참조 파일 및 콘텍스트를 포함하며, 예상되는 결과물은 문서, 슬라이드, 다이어그램, 스프레드시트, 멀티미디어 등으로 다양합니다. 이러한 현실성은 GPDval이 전문가를 지원하는 모델에 대한 더 현실적인 테스트를 가능하게 합니다.

GDPval은 초기 단계이므로 다양한 경제적 작업의 미묘한 차이를 전체적으로 반영하지 않습니다. 이 평가가 44개의 직업과 수백 가지의 지식 작업을 다루지만, 일회성 평가로 제한되어 있어 모델이 컨텍스트를 구축해야 하거나 다양한 초안을 통해 개선되어야 하는 사례를 포착하지는 못합니다. 향후 버전은 실제 지식 작업의 복잡함을 더 잘 반영하기 위해 향상된 인터랙티브 워크플로와 컨텍스트가 풍부한 작업으로 확장할 예정입니다(아래의 제한 섹션을 참조하세요).

직업을 선정한 방식

GDPval은 9개의 산업과 44개의 직업 전반의 작업을 다루며, 향후 버전은 그 범위를 확장할 것입니다. 초기 9개 산업은 미국에 5% 이상 기여하는 산업을 기반으로 선정되었습니다. GDP는 세인트루이스의 연방준비은행의 데이터로 결정됩니다. 이어서 2024년 5월 미국 노동통계국(BLS) 직업 고용 보고서⁠(새 창에서 열기)의 임금 및 고용 데이터를 사용하여 총급여 및 보상에 가장 크게 기여하는 각 산업 내에서 업무의 대부분 지식 작업을 진행하는 5개의 직업을 선택했습니다. 업무의 대부분이 지식 작업을 진행하는 직업인지 확인하기 위해, 미국 노동부가 지원하는 미국 직업 정보 데이터베이스인 O*NET⁠(새 창에서 열기)의 작업 데이터를 사용했습니다. OpenAI는 O*NET의 각 직업에 대한 작업이 지식 작업인지, 육체 노동(물리적으로 조치해야 하는)인지 분류했습니다. 업무를 구성하는 작업의 최소 60%가 육체 노동을 수반하지 않는 것으로 분류되는 경우 “지식 작업에 가까운” 직업으로 분류되었습니다. 이 60%의 한계를 GDPval의 시작점으로 잡고, AI가 실제 생산성에 가장 높은 영향을 미칠 수 있는 직업에 집중했습니다.

이 과정을 통해 44개의 직업이 선정되었습니다.

부동산 및 임대

컨시어지
부동산, 지역 협회 관리자
부동산 판매 에이전트
부동산 중개인
응대 및 임대 담당 직원

정부

개편 담당자
규정 준수 책임자
경찰 및 형사 일선 감독관
행정 서비스 관리자
아동, 가족 및 학교 사회 복지사

제조

기계 엔지니어
산업 엔지니어
구매자 및 구매 에이전트
배송, 수신, 인벤토리 담당 직원
생산 및 운영 담당 직원 일선 감독관

전문, 과학 및 기술 서비스

소프트웨어 개발자
변호사
회계사 및 감사관
컴퓨터 및 정보 시스템 관리자
프로젝트 관리 전문가

의료 및 사회 지원

등록 간호사
임상 전문 간호사
의료 및 보건 서비스 관리자
사무 및 행정 지원 근로자 일선 감독관
의료 비서 및 행정 보조 담당자

금융 및 보험

고객 서비스 담당자
금융 및 투자 분석가
재무 관리자
개인 재무 상담 담당자
증권, 상품 및 금융 서비스 영업 에이전트

소매업

약사
소매 판매 근로자 일선 감독관
일반 및 운영 관리자
사설 탐정 및 조사관

도매업

영업 관리자
주문 담당자
비소매 판매 근로자 일선 감독관
영업 담당자, 도매 및 제조업(기술 및 과학 제품 제외)
영업 담당자, 도매 및 제조업(기술 및 과학 제품)

정보

오디오 및 비디오 기술자
프로듀서 및 감독
뉴스 분석가, 기자 및 저널리스트
영화 및 비디오 편집자
편집자

GDPval은 소프트웨어 개발자, 변호사부터 간호사, 기계 엔지니어까지 9개 분야에 걸쳐 44개 지식 작업 직종을 포괄합니다. 이러한 직업은 경제적 중요성을 고려하여 선정되었으며, AI가 전문가를 의미있게 지원할 수 있는 일상 업무 유형을 나타냅니다.

데이터세트를 구축한 방법

각 직업에 대해 숙련된 전문가와 협력하여 일상 업무를 반영하는 작업을 만들었습니다. 평균 14년의 경력을 보유하고 있으며 뛰어난 실적을 보인 전문가들입니다. OpenAI는 대표성을 극대화하기 위해 여러 실무 분야의 변호사와 다양한 규모의 로펌 등에서 광범위한 전문가들을 신중하게 고용했습니다.

각 작업은 실제 업무를 대표하고 다른 전문가가 완료할 수 있으며 평가가 가능한지 확인하기 위해 여러 단계의 검토 과정을 거쳤습니다. 각 작업은 평균적으로 다른 작업 작성자의 확인, 별도의 직업별 검토자, 모델 기반 검증 등을 포함한 5회의 전문가 검토를 거쳤습니다.

결과로 나온 데이터세트는 OpenAI 오픈 소스 골드 세트의 직업당 5개의 작업을 포함한 직업당 30개의 완전히 검토된 작업(완전한 세트)를 포함하여 실제 지식 작업에 있어서 모델 성능을 평가하기 위한 탄탄한 기반을 마련하게 되었습니다.

GDPval 작업 예시

프롬프트 + 작업 컨텍스트

This is June 2025 and you are a Manufacturing Engineer, in an automobile assembly line. The product is a cable spooling truck for underground mining operations, and you are reviewing the final testing step. In the final testing step, a big spool of cable needs to be reeled in and reeled out 2 times, to ensure the cable spooling works as per requirement. The current operation requires 2 persons to work on this test. The first person needs to bring and position the spool near the test unit, the second person will connect the open end of the cable spool to the test unit and start the reel in step. While the cable is being unreeled from the spool, and onto the truck, the first person will need to rotate the spool in order to facilitate the unreeling. When the cable is fully reeled onto the truck, the next step is to perform the operation in reverse order, so the cable gets reeled out of the truck and back onto its own reel. This test is done another time to ensure functionality. This task is complicated, has associated risks, requires high labor and makes the work area cluttered. Your manager has requested you to develop a jig/fixture to simplify reel in and reel out of the cable reel spool, so the test can be done by one person. Attached to this request is an information document which provides basic details about the cable reel drum size, information to design the cable reel spooling jig and to structure the deliverable. The deliverable for this task will be a preliminary concept design only. Separate tasks will be done to calculate design foundations such as stress, strength, cost benefit analysis, etc. Design a jig using 3d modelling software and create a presentation using Microsoft PowerPoint. As part of the deliverable, upload only a pdf document summarizing the design, using snapshots of the 3d design created. The 3d design file is not required for submission.

Cable reel project requirements.pdf

숙련된 인력이 제공하는 결과물

GDPval의 각 작업은 숙련된 전문가가 설계했으며 해당 직업의 실제 지식 작업을 반영합니다. 프롬프트는 도메인 전문가가 작성한 현실적인 업무 과제이며, 정답 결과물은 해당 전문가의 자체 솔루션입니다.

모델 성능을 채점하는 방법

GDPval 작업에서 모델 성능을 평가하기 위해 데이터세트에서 나타난 동일한 직업의 숙련된 전문가 그룹인 전문가 “채점자”를 이용했습니다. 이 채점자들은 모델이 생성한 결과물을 작업 작성자가 생성한 것과 비교하고(어느 결과물을 AI가 작성하고 인간이 작성했는지 모르는 블라인드 형식으로 진행) 비평과 등급을 제공합니다. 이어서 채점자들은 인간과 AI의 결과물의 등급을 나누고, 각 AI 결과물을 비교하여 “우수”, “보통”, “나쁨”으로 분류합니다.

작업 작성자는 자기 직업에 대한 상세한 점수 기준을 만들어 채점 과정에 일관성과 투명성을 더했습니다. 또한 인간 전문가가 주어진 결과물을 어떻게 평가하는지 추측하도록 훈련된 AI 시스템인 “자동화 채점기”를 구축하였습니다. 다시 말해, 매번 전체적인 전문가 검토를 거치는 대신, 자동 채점기가 사람들이 더 선호할 만한 결과물을 빠르게 예측하는 것입니다. 이 도구를 실험적 리서치 서비스로서 evals.openai.com에서 공유할 예정이지만, 아직 전문 채점자만큼 신뢰할 수는 없으므로 이를 대체할 수는 없습니다.

초기 결과

현재 최고의 첨단 모델은 이미 업계 전문가가 생성한 작업 품질에 가까이 접근했음을 확인했습니다. 이를 테스트하기 위해, 업계 전문가가 GPT‑4o, o4-mini, OpenAI o3, GPT‑5, Claude Opus 4.1, Gemini 2.5 Pro, Grok 4 등의 여러 최신 모델의 결과물을 인간이 생성한 작업과 비교하는 블라인드 평가를 진행했습니다. GDPval 골드 세트의 220개 작업에서 모델 출력물이 업계 전문가의 출력물보다 더 나은 것으로(“승리) 또는 동등한 것으로(“동점”) 평가된 경우를 기록했으며, 아래의 막대 차트에서 확인할 수 있습니다. Claude Opus 4.1은 모델 중 가장 뛰어난 성능을 보였으며, 특히 미학적인 관점(예: 문서 형식, 슬라이드 레이아웃)에서 우수했습니다. 또한 GPT‑5는 특히 정확성(예: 분야별 지식 검색)에서 우수한 성능을 보였습니다. 시간 경과에 따라 이러한 작업에 대해 모델이 발전하는 모습을 확인할 수 있습니다. 2024년 봄에 릴리즈된 GPT‑4o의 성능 대비 2025년 여름에 출시된 GPT‑5의 성능은 두 배 이상 향상되었으며, 명확한 선형 추세를 보였습니다.

뿐만 아니라 첨단 모델이 GDPval 작업을 업계 전문가보다 약 100배 더 빠르게 100배 더 저렴한 비용으로 완료할 수 있다는 점도 확인했습니다. 이러한 수치는 순수 모델 추론 시간 및 API 결제 요금을 나타내므로, 실제 작업 환경에서 당사 모델을 사용하는 데 필요한 인적 감독, 반복, 통합 단계는 포함되지 않습니다. 하지만 모델이 특히 우수한 성능을 보연 작업의 하위 부문에서, 인간이 시도하기 전에 모델에 작업을 맡기면 시간과 비용을 절약할 수 있을 것으로 기대합니다.

전문 채점자들이 선도적인 모델의 결과물을 인간 전문가의 결과물과 비교했습니다. 첨단 모델은 이미 업계 전문가가 생성한 작업 품질에 가까이 접근했습니다. Claude Opus 4.1은 거의 절반에 가까운 작업에서 인간과 같거나 더 나은 것으로 평가되는 결과물을 도출했습니다.

GPT‑4o 대비 GPT‑5에서는 GDPval 작업의 성능이 1년 만에 세 배 이상 증가했습니다.

마지막으로 GPT‑5의 내부 실험 버전을 점진적으로 훈련하여 GDPval에 대한 성능을 개선할 수 있는지 평가합니다. 이러한 과정이 성능을 개선하여 잠재적인 성장 가능성의 경로를 만든다는 점을 확인했습니다. 다른 통제 실험도 이를 뒷받침합니다. 모델 크기를 늘리고, 더 많은 추론 단계를 권장하고, 작업 컨텍스트를 풍부하게 제공함으로써 각각 측정 가능한 결과를 얻었습니다.

OpenAI 논문에서 전체 결과를 확인할 수 있습니다. 또한 다른 연구자가 이 작업에서 구축할 수 있도록 GDPval 작업의 골드 하위 세트와 공개 채점 서비스를 릴리즈할 계획입니다.

업무와 AI의 미래

AI가 유용해질수록 고용 시장의 변화를 일으키게 될 것입니다. 초기 GDPval의 결과는 모델이 이미 일부 인력을 대체할 수 있으며, 전문가보다 구체적인 작업을 더 빠르게 더 저렴한 비용으로 수행할 수 있다는 점을 보여줍니다. 하지만 대부분의 직업은 단순히 글로 설명할 수 있는 작업을 모아놓은 것이 아닙니다. GDPval은 AI가 일상 작업을 처리하는 동안 사람이 더 창의적이고 판단이 중요한 업무에 집중할 수 있다는 점을 강조합니다. AI가 이런 방식으로 근로자를 보완한다면 상당한 경제적 성장으로 이어질 수 있습니다. OpenAI의 목표는 이러한 도구의 액세스를 민주화하고, 변화를 통해 근로자를 지원하고, 이점을 널리 나누는 시스템을 구축함으로써 AI가 구동하는 “상승하는 엘리베이터”에 모두 함께 탑승하는 것입니다.

제약사항 및 앞으로 공개될 것들

GDPval은 초기 단계입니다. 현재 44개의 직업과 수백 개의 작업을 다루고 있지만, 접근 방식을 지속적으로 개선하여 테스트의 범위를 확장하고 더 의미 있는 결과를 도출할 것입니다. 현재 버전의 평가는 일회성이므로 모델이 컨텍스트를 구축해야 하거나 여러 번의 초안을 통해 개선되어야 하는 사례를 포착하지는 못합니다. 예를 들면 클라이언트 피드백을 받은 후, 법률 문서 요약을 수정하거나, 이상을 발견한 후 데이터 분석을 반복하는 경우 등이 있습니다. 또한 현실에서는 작업이 항상 프롬프트와 참조 파일로 명확하게 정의되지 않습니다. 예를 들어, 변호사는 모호한 상황을 헤쳐나가고 고객과 직접 대화한 후에 법률 문서 요약을 작성하는 것이 고객에게 도움이 되는 올바른 접근 방식인지 결정해야 할 수도 있습니다. 향상된 상호작용성, 모호함을 해결해야 하는 작업, 다양한 지식 작업에 대한 더 나은 진행 상황 측정이라는 장기적인 목표와 함께 GDPval가 더 많은 직업과 산업, 작업 유형을 다루도록 확대할 계획입니다.