Pasar al contenido principal
OpenAI

25 de septiembre de 2025

PublicaciónInvestigación

Medición del rendimiento de nuestros modelos en tareas del mundo real

Presentamos GDPval, una nueva evaluación que mide el rendimiento de los modelos en tareas de valor económico en el mundo real de 44 ocupaciones.

Nuestra misión es asegurar que la inteligencia artificial general beneficie a toda la humanidad. Como parte de nuestra misión, queremos comunicar con transparencia el progreso en cuanto la manera en que los modelos de IA pueden ayudar a las personas en el mundo real. Por eso, presentamos GDPval: una nueva evaluación diseñada para ayudarnos a hacer un seguimiento de cuál es el rendimiento de nuestros modelos y otros más en tareas de valor económico en el mundo real. Llamamos GDPval a esta evaluación porque comenzamos con el concepto de Producto Interno Bruto (PIB) como un indicador económico clave y tomamos tareas de ocupaciones clave en las industrias que más contribuyen al PIB.

A menudo, las personas especulan en cuanto al impacto general de la IA en la sociedad, pero la manera más clara de comprender su potencial es ver lo que los modelos ya son capaces de hacer. La historia nos muestra que a las tecnologías más importantes, desde el Internet hasta los teléfonos celulares, les tomó más de una década ir desde su invención hasta su adopción generalizada. Las evaluaciones como GDPval ayudan a sustentar las conversaciones acerca de las mejoras futuras de la IA sobre evidencia más que sobre la adivinación, y pueden apoyarnos a hacer un seguimiento de la mejora de los modelos a través del tiempo.

Algunas evaluaciones previas de la IA, como las pruebas académicas difíciles y los desafíos competitivos de programación, fueron esenciales para expandir los límites de las funcionalidades de razonamiento de los modelos, pero a menudo se quedan cortas en el tipo de tareas que muchas personas realizan en su trabajo cotidiano.

Para salvar esta brecha, hemos estado desarrollando evaluaciones que miden funcionalidades cada vez más realistas y económicamente relevantes. Esta progresión ha avanzado desde las comparativas académicas clásicas como MMLU (preguntas tipo examen a decenas de sujetos), a evaluaciones más aplicadas como SWE-Bench (tareas de arreglo de errores de software e ingeniería), MLE-Bench (tareas de ingeniería de aprendizaje automático, tales como análisis y entrenamiento de modelos) y Paper-Bench (razonamiento científico y crítica de trabajos de investigación), y más recientemente a evaluaciones basadas en el mercado, como SWE-Lancer (proyectos de software e ingeniería de freelance basados en pagos reales).

GDPval es el siguiente paso en esa progresión. Mide el rendimiento de los modelos en tareas sacadas directamente del trabajo intelectual del mundo real de profesionistas experimentados de una amplia gama de ocupaciones y sectores, brindando un panorama más claro del rendimiento de los modelos en tareas de valor económico. Evaluar los modelos en tareas ocupacionales realistas nos ayuda a entender no sólo su rendimiento en el laboratorio, sino también cómo podrían apoyar a las personas en el trabajo que realizan día a día. 

Lo que GDPval mide

GDPval, la primera versión de esta evaluación, abarca 44 ocupaciones seleccionadas de las nueve industrias con una contribución más importante al PIB de EE. UU. El conjunto completo de GDPval incluye 1320 tareas especializadas (220 en el conjunto de código abierto de referencia), cada una elaborada y examinada meticulosamente por profesionistas experimentados con más de 14 años de experiencia en promedio en esos campos. Cada tarea se basa en productos del mundo real, como un escrito legal, un plano de ingeniería, una conversación de atención al cliente o un plan de cuidados de enfermería.

GDPval se diferencia tanto por su realismo como por la diversidad de tareas que se evalúan. A diferencia de otras evaluaciones relacionadas con el valor económico, que se concentran en dominios específicos (por ejemplo, SWE-Lancer), GDPval cubre muchas tareas y ocupaciones. Además, en contraste con comparativas que implican tareas de creación sintética al estilo de una prueba o examen académico (por ejemplo, Humanity’s Last Exam o MMLU), GDPval se enfoca en tareas basadas en entregables que son un trabajo o producto real que existe actualmente o que se ha construido de manera similar. 

A diferencia de las comparativas tradicionales, las tareas de GDPval no son simples instrucciones en texto. Vienen con archivos de referencia y contexto, y los entregables esperados abarcan documentos, diapositivas, diagramas, hojas de cálculo y multimedia. Este realismo hace de GDPval una prueba más realista de la manera en que los modelos podrían ayudar a los profesionistas.

GDPval es un primer paso que no refleja todos los matices de muchas tareas económicas. Aunque abarca 44 ocupaciones y cientos de tareas de trabajo intelectual, está limitada a evaluaciones de un intento, por lo que no captura casos en los que un modelo necesitaría construir contexto o mejorar a través de varios borradores. Las futuras versiones se ampliarán a flujos de trabajo más interactivos y tareas ricas en contexto para reflejar mejor la complejidad del trabajo intelectual en el mundo real (consulta más al respecto en nuestra sección de Limitaciones más adelante).

Cómo elegimos las ocupaciones

GDPval cubre tareas en nueve industrias y 44 ocupaciones, y las versiones futuras continuarán ampliando la cobertura. Las nueve industrias iniciales se escogieron con base en las que contribuyen con más del 5% al PIB de EE. UU., según lo determinan los datos del Banco de la Reserva Federal de St. Louis. Luego, seleccionamos las cinco ocupaciones dentro de cada industria que más contribuyen a los salarios y remuneraciones totales y que son ocupaciones predominantemente intelectuales, usando datos de empleo y salario del Informe de empleo ocupacional de la Oficina de Estadísticas Laborales (BLS) de EE. UU. de mayo de 2024(se abre en una nueva ventana). Para determinar si las ocupaciones eran predominantemente trabajo intelectual, usamos datos de tares de O*NET(se abre en una nueva ventana), una base de datos de información ocupacional de EE. UU. patrocinada por el Departamento del Trabajo de EE. UU. Clasificamos si cada tarea de cada ocupación en O*NET era trabajo intelectual o físico/manual (que requiera que se tomen acciones en el mundo físico). Una ocupación se calificaba como «predominantemente trabajo intelectual» si al menos el 60% de las tareas que la componen se clasificaban como con ausencia de trabajo manual o físico. Escogimos este umbral del 60% como un punto de partida para la primera versión de GDPval, concentrándonos en ocupaciones para las que la IA podría tener el mayor impacto en la productividad en el mundo real. 

Este proceso nos arrojó 44 ocupaciones para incluir.

Bienes raíces y rentas

  • Concierges

  • Gerentes de patrimonio, bienes raíces y asociaciones comunitarias

  • Agentes de ventas de bienes raíces

  • Corredores de bienes raíces

  • Empleados de mostrador y de servicios de renta

Gobierno

  • Trabajadores de actividades recreativas

  • Funcionarios de cumplimiento

  • Supervisores de policías y detectives

  • Gerentes de servicios administrativos

  • Trabajadores sociales para niños, familias y escuelas

Manufactura

  • Ingenieros mecánicos

  • Ingenieros industriales

  • Compradores y agentes de adquisiciones

  • Empleados de envíos, recepción e inventario

  • Supervisores de producción y operadores

Servicios profesionales, científicos y técnicos

  • Desarrolladores de software

  • Abogados

  • Contadores y auditores

  • Gerentes de sistemas de computación e informática

  • Especialistas en gestión de proyectos

Atención médica y asistencia social

  • Personal de enfermería certificado

  • Personal de enfermería practicante

  • Gerentes de servicios médicos y de salud

  • Supervisores de trabajadores de apoyo administrativos y de oficina

  • Secretarias médicas y asistentes administrativos

Finanzas y seguros

  • Representantes de servicio al cliente

  • Analistas financieros y de inversiones

  • Gerentes financieros

  • Asesores de finanzas personales

  • Agentes de venta de valores, bienes y servicios financieros

Comercio minorista

  • Farmacéuticos

  • Supervisores de empleados de comercio minorista

  • Gerentes generales y de operaciones

  • Detectives e investigadores privados

Comercio mayorista

  • Gerentes de ventas

  • Empleados de pedidos

  • Supervisores de empleados de comercio no minorista

  • Representantes de ventas, mayoreo y manufactura, excepto productos técnicos y científicos

  • Representantes de ventas, mayoreo y manufactura, productos técnicos y científicos

Información

  • Técnicos de audio y video

  • Productores y directores

  • Analistas de medios, reporteros y periodistas

  • Editores de películas y video

  • Editores

GDPval abarca 44 ocupaciones de trabajo intelectual en nueve sectores, desde desarrolladores de software y abogados a enfermeras certificadas e ingenieros mecánicos. Estas ocupaciones se seleccionaron debido a su importancia económica, y representan el tipo de trabajo cotidiano en el que la IA puede ayudar significativamente a los profesionistas.

Cómo construimos el conjunto de datos

Para cada ocupación, trabajamos con profesionistas experimentados a fin de crear tareas representativas que reflejen su trabajo cotidiano. Estos profesionistas tenían en promedio 14 años de experiencia y registros sólidos de progreso. Reclutamos deliberadamente a una amplia gama de expertos, como abogados de diferentes áreas de práctica y bufetes de diferentes tamaños, para maximizar la representatividad.

Cada tarea pasó por un proceso de revisión de varios pasos para asegurar que era representativa del trabajo real, realizable por otro profesionista, y clara para evaluar. En promedio, cada tarea pasó por cinco rondas de revisión experta, incluidas revisiones de otros escritores de tareas, otros revisores ocupacionales, y validación basada en el modelo. 

El conjunto de datos resultante incluye 30 tareas completamente revisadas por ocupación (conjunto completo), con cinco tareas por ocupación en nuestro conjunto de código abierto de referencia, lo que proporciona una base sólida para evaluar el rendimiento de los modelos en el trabajo intelectual del mundo real.

Ejemplos de tareas para GDPval

Contexto del mensaje y la tarea

This is June 2025 and you are a Manufacturing Engineer, in an automobile assembly line. The product is a cable spooling truck for underground mining operations, and you are reviewing the final testing step. In the final testing step, a big spool of cable needs to be reeled in and reeled out 2 times, to ensure the cable spooling works as per requirement. The current operation requires 2 persons to work on this test. The first person needs to bring and position the spool near the test unit, the second person will connect the open end of the cable spool to the test unit and start the reel in step. While the cable is being unreeled from the spool, and onto the truck, the first person will need to rotate the spool in order to facilitate the unreeling. When the cable is fully reeled onto the truck, the next step is to perform the operation in reverse order, so the cable gets reeled out of the truck and back onto its own reel. This test is done another time to ensure functionality. This task is complicated, has associated risks, requires high labor and makes the work area cluttered. Your manager has requested you to develop a jig/fixture to simplify reel in and reel out of the cable reel spool, so the test can be done by one person. Attached to this request is an information document which provides basic details about the cable reel drum size, information to design the cable reel spooling jig and to structure the deliverable. The deliverable for this task will be a preliminary concept design only. Separate tasks will be done to calculate design foundations such as stress, strength, cost benefit analysis, etc. Design a jig using 3d modelling software and create a presentation using Microsoft PowerPoint. As part of the deliverable, upload only a pdf document summarizing the design, using snapshots of the 3d design created. The 3d design file is not required for submission.
Cable reel project requirements.pdf

Resultados gracias a la experiencia del personal

Vista detallada de un diseño para un carrete de cable
Cada tarea de GDPval está diseñada por un profesionista experimentado y refleja un trabajo intelectual real dentro de su ocupación. La instrucción es una asignación de trabajo realista creada por un experto en el dominio, y el entregable de referencia es la solución del propio experto.

Cómo calificamos el rendimiento de los modelos

Para evaluar el rendimiento de los modelos en las tareas de GDPval, confiamos en “evaluadores” expertos: un grupo de profesionistas experimentados de las mismas ocupaciones representadas en el conjunto de datos. Estos evaluadores comparan de manera cegada los entregables generados por el modelo con los producidos por los escritores de las tareas (sin saber cuál es generado por IA y cuál por humanos), y ofrecen críticas y clasificaciones. Luego los evaluadores clasifican los entregables humanos y de IA, y cada entregable de IA como «mejor», «igual de bueno que» o «peor que» los demás.

Los escritores de tareas también crearon rúbricas de puntuación detalladas para sus ocupaciones, lo que añade sistematicidad y transparencia al proceso de calificación. También construimos un «evaluador automatizado», un sistema de IA entrenado para calcular la manera en que los expertos humanos juzgarían un determinado entregable. En otras palabras, en lugar de realizar una revisión experta cada vez, el evaluador automatizado puede predecir rápidamente qué resultado es más probable que las personas prefieran. Estamos lanzando esta herramienta en evals.openai.com como un servicio de investigación experimental, pero aún no es tan confiable como los evaluadores expertos, por lo que no lo usamos para reemplazarlos. 

Resultados preliminares

Encontramos que los mejores modelos fronterizos actuales ya se acercan a la calidad del trabajo producido por los expertos de la industria. Para poner a prueba lo anterior, realizamos evaluaciones cagadas en las que expertos de la industria compararon los entregables de varios modelos líderes (GPT‑4o, o4-mini, OpenAI o3, GPT‑5, Claude Opus 4.1, Gemini 2.5 Pro y Grok 4) con trabajo producido por humanos. En las 220 tareas del conjunto de referencia de GDPval, registramos las veces en que los resultados del modelo se calificaron como mejores que («victorias») o iguales que («empates») que los entregables de los expertos de la industria, como se muestra en la gráfica de barras a continuación. Claude Opus 4.1 fue el modelo con el mejor rendimiento del conjunto, en particular en términos de apariencia (por ejemplo, formato del documento, diseño de la diapositiva), y GPT‑5 en especial en precisión (por ejemplo, encontrar conocimientos específicos de un dominio). También vimos un progreso claro con el paso del tiempo en estas tareas. El rendimiento se ha más que duplicado de GPT‑4o (que se lanzó en la primavera de 2024) a GPT‑5 (lanzado en el verano de 2025), siguiendo una tendencia claramente lineal.

Además, encontramos que los modelos fronterizos pueden completar las tareas de GDPval aproximadamente 100 veces más rápido y 100 veces más barato que los expertos de la industria. Sin embargo, estas cifras reflejan solo el tiempo de inferencia del modelo y tarifas de facturación de API, y por lo tanto no capturan los pasos de supervisión, repetición e integración humanos que se requieren en entornos laborales reales para el uso de nuestros modelos. Aún así, especialmente en el subconjunto de tareas en las que los modelos son particularmente fuertes, esperamos que asignar una tarea a un modelo antes de intentarla con un humano ahorre tiempo y dinero.

Los calificadores expertos compararon entregables de modelos líderes con los de expertos humanos. Los mejores modelos fronterizos actuales ya se acercan a la calidad del trabajo producido por los expertos de la industria. Claude Opus 4.1 produjo resultados calificados como igual de buenos o mejores que los humanos en poco menos de la mitad de las tareas.

De GPT‑4o a GPT‑5, el rendimiento de la tareas de GDPval por lo menos se triplicó en un año. 

Por último, entrenamos incrementalmente una versión interna y experimental de GPT‑5 para evaluar si podríamos mejorar el rendimiento de GDPval. Encontramos que este proceso mejoró el rendimiento, creando un camino para una futura mejoría potencial. Otros experimentos controlados sustentan esto: aumentar el tamaño del modelo, alentar más pasos de razonamiento y dar un contexto más rico de la tarea condujeron, cada uno, a ganancias medibles.

Puedes leer los resultados completos en nuestro artículo. También estamos lanzando un conjunto de referencia de tareas de GDPval y un servicio de calificación público para que otros investigadores puedan aprovechar este trabajo.

El futuro del trabajo y la IA 

A medida que la IA se hace más capaz, es muy probable que provoque cambios en el mercado laboral. Los resultados preliminares de GDPval muestran que los modelos ya pueden hacer algunas tareas repetitivas y bien especificadas más rápido y a un menor costo que los expertos. Sin embargo, la mayoría de los empleos son más que una colección de tareas que pueden escribirse. GDPval destaca los aspectos en los que la IA puede hacerse cargo de tareas rutinarias para que la gente pueda pasar más tiempo en las partes de su trabajo que son más creativas y requieren más criterio. Cuando la IA complementa a los empleados de esta manera, puede traducirse en un crecimiento económico significativo. Nuestro objetivo es mantener a todos en el «elevador hacia arriba» de la IA al democratizar el acceso a estas herramientas, apoyando a los trabajadores a través del cambio, y creando sistemas que recompensen la contribución amplia. 

Las limitaciones y el futuro

GDPval es un primer paso. Aunque abarca 44 ocupaciones y cientos de tareas, estamos refinando continuamente nuestro enfoque para ampliar el alcance de nuestras pruebas y hacer que los resultados sean más significativos. La versión actual de la evaluación también es de un solo intento, por lo que no captura casos en los que el modelo tendría que construir contexto o mejorar a través de varios borradores; por ejemplo, revisando un texto legal tras los comentarios del cliente o repitiendo un análisis de datos tras detectar una anomalía. Además, en el mundo real, las tareas no están siempre claramente definidas con una instrucción y archivos de referencia; por ejemplo, es posible que un abogado tenga que lidiar con ambigüedades y hablar con el cliente antes de decir que hacer un escrito legal es la mejor manera de ayudarle. Planeamos ampliar GDPval para incluir más ocupaciones, industrias y tipos de tareas, con mayor interactividad y más tareas que impliquen ambigüedad, con el objetivo a largo plazo de medir mejor el progreso en el trabajo intelectual diverso.

Participa

La participación de la comunidad es esencial: nos emociona construir GDPval junto con los investigadores, practicantes y organizaciones que comparten nuestro objetivo de hacer AGI más útil para las personas en sus trabajos.