Medición del rendimiento de nuestros modelos en tareas del mundo real
Presentamos GDPval, una nueva evaluación que mide el rendimiento de los modelos en tareas del mundo real con valor económico en 44 profesiones.
Nuestra misión es garantizar que la inteligencia artificial general beneficie a toda la humanidad. Como parte de nuestra misión, queremos comunicar de forma transparente los avances en la forma en que los modelos de IA pueden ayudar a las personas en el mundo real. Por eso presentamos GDPval: una nueva evaluación diseñada para ayudarnos a realizar un seguimiento en tareas reales con valor económico del rendimiento, tanto de nuestros modelos como de otros. Llamamos a esta evaluación GDPval porque partimos del concepto de Producto Interior Bruto (cuyas siglas son GDP en inglés) como indicador económico fundamental y extrajimos tareas de las principales profesiones en los sectores que más contribuyen al PIB.
A menudo se especula sobre el impacto general de la IA en la sociedad, pero la forma más clara de comprender su potencial es observar lo que los modelos ya son capaces de hacer. La historia nos ha demostrado que las tecnologías más importantes, desde Internet hasta los teléfonos inteligentes, tardaron más de una década en pasar de la fase de invención a la adopción generalizada. Las evaluaciones como GDPval ayudan a basar los debates sobre posibles mejoras a la IA en evidencias reales, evitando conjeturas, y pueden ayudarnos a realizar un seguimiento de la mejora de los modelos a lo largo del tiempo.
Las evaluaciones anteriores de la IA, en forma de exigentes pruebas académicas y competitivos retos de programación, han resultado esenciales para ampliar los límites de las capacidades de razonamiento de los modelos, pero a menudo se quedan cortas en cuanto al tipo de tareas que muchas personas realizan en su trabajo diario.
Para cerrar esta brecha, hemos desarrollado evaluaciones que miden capacidades cada vez más realistas y relevantes desde el punto de vista económico. Esta progresión ha pasado de los clásicos puntos de referencia académicos, como MMLU (preguntas tipo examen sobre docenas de materias), a evaluaciones más aplicadas, como SWE-Bench (tareas de corrección de errores de ingeniería de software), MLE-Bench (tareas de ingeniería de aprendizaje automático, como el entrenamiento y el análisis de modelos) y Paper-Bench (razonamiento científico y crítica de artículos de investigación), y más recientemente a evaluaciones basadas en el mercado, como SWE-Lancer (proyectos de ingeniería de software freelance basados en pagos reales).
GDPval es el siguiente paso en esa progresión. Mide el rendimiento de los modelos en tareas extraídas directamente del trabajo intelectual real de profesionales con experiencia en una amplia gama de profesiones y sectores, ofreciendo una imagen más clara del rendimiento de los modelos en tareas de valor económico. Evaluar los modelos en tareas profesionales realistas nos ayuda a comprender no solo el rendimiento en el laboratorio, sino también cómo pueden ser de utilidad a las personas en su trabajo diario.
GDPval, la primera versión de esta evaluación, abarca 44 profesiones seleccionadas entre las nueve industrias que más contribuyen a la economía estadounidense. El conjunto completo de GDPval incluye 1320 tareas especializadas (220 en el conjunto de código abierto de referencia), cada una de ellas meticulosamente elaborada y revisada por profesionales con un promedio de más de 14 años de experiencia en estos campos. Todas las tareas se basan en productos de trabajo reales, como informes legales, planos de ingeniería, conversaciones de atención al cliente o programas de asistencia de enfermería.
GDPval destaca tanto por el realismo como por la diversidad de las tareas que evalúa. A diferencia de otras evaluaciones vinculadas al valor económico que se centran en ámbitos específicos (por ejemplo, SWE-Lancer), GDPval abarca múltiples tareas y profesiones. Y a diferencia de los puntos de referencia que implican la creación sintética de tareas al estilo de un examen o prueba académica (por ejemplo, Humanity's Last Exam o MMLU), GDPval se centra en tareas basadas en resultados que son o bien un trabajo o producto real que existe en la actualidad, o bien un producto de trabajo construido de forma similar.
Por otro lado, contrariamente a los puntos de referencia tradicionales, las tareas de GDPval no son simples indicaciones de texto. Vienen con archivos de referencia y contexto, y los resultados esperados abarcan documentos, diapositivas, diagramas, hojas de cálculo y multimedia. Este realismo hace que GDPval sea una prueba más realista de cómo los modelos pueden ayudar a los profesionales.
Sin embargo, GDPval es un primer paso que no refleja todos los matices de muchas tareas económicas. Aunque abarca 44 profesiones y cientos de tareas de trabajo intelectual, se limita a evaluaciones puntuales, por lo que no recoge los casos en los que un modelo necesitaría construir un contexto o mejorar a través de múltiples borradores. En versiones futuras, se ampliará el alcance a flujos de trabajo más interactivos y tareas con mucho contexto para reflejar mejor la complejidad del trabajo intelectual en aplicaciones reales (para más información, consulte nuestra sección «Limitaciones» a continuación).
GDPval abarca tareas de 9 sectores y 44 profesiones, y en versiones futuras seguiremos ampliando el alcance. Los 9 sectores iniciales se eligieron en función de aquellos que contribuyen en más de un 5 % al PIB de Estados Unidos, según los datos del Banco de la Reserva Federal de St. Louis. A continuación, seleccionamos las 5 profesiones dentro de cada sector que más contribuyen al total de salarios y remuneraciones y que son predominantemente profesiones de trabajo intelectual, utilizando los datos sobre salarios y empleo del informe sobre empleo ocupacional de la Oficina de Estadísticas Laborales de EE. UU. (BLS) de mayo de 2024(se abre en una ventana nueva). Para determinar si las profesiones se basaban predominantemente en trabajo intelectual, utilizamos los datos sobre tareas de O*NET(se abre en una ventana nueva), una base de datos de información sobre profesiones en EE. UU. patrocinada por el Departamento de Trabajo de EE. UU. Clasificamos si cada tarea de cada profesión en O*NET era trabajo intelectual o trabajo físico/manual (que requiere acciones en el mundo físico). Una profesión se calificaba en general como «predominantemente intelectual» si al menos el 60 % de las tareas se clasificaban como no relacionadas con el trabajo físico o manual. Elegimos este umbral del 60 % como punto de partida para la primera versión de GDPval, centrándonos en las profesiones en las que la IA podría tener el mayor impacto en la productividad en aplicaciones reales.
Este proceso dio como resultado la inclusión de 44 profesiones.
Inmobiliaria, alquiler y arrendamiento
Conserjes
Administradores de propiedades, bienes raíces y asociaciones comunitarias
Agentes inmobiliarios
Corredores inmobiliarios
Recepcionistas y empleados de alquiler
Gobierno
Trabajadores recreativos
Responsables de cumplimiento normativo
Supervisores directos de policía y detectives
Gerentes de servicios administrativos
Trabajadores sociales infantiles, de familia y en escuelas
Fabricación
Ingenieros mecánicos
Ingenieros industriales
Compradores y agentes de compras
Empleados de envíos, recepción e inventario
Supervisores de primera línea de trabajadores de producción y operaciones
Servicios profesionales, científicos y técnicos
Desarrolladores de software
Abogados
Contables y auditores
Gerentes de sistemas informáticos y de información
Especialistas en gestión de proyectos
Asistencia sanitaria y social
Enfermeros titulados
Enfermeros especializados
Gerentes de servicios médicos y sanitarios
Supervisores directos de trabajadores administrativos y de oficina
Secretarios médicos y asistentes administrativos
Finanzas y seguros
Representantes de atención al cliente
Analistas financieros y de inversiones
Gestores financieros
Asesores financieros personales
Agentes de venta de valores, materias primas y servicios financieros
Comercio minorista
Farmacéuticos
Supervisores directos de vendedores minoristas
Gerentes generales y de operaciones
Detectives privados e investigadores
Comercio mayorista
Gerentes de ventas
Empleados de pedidos
Supervisores directos de vendedores mayoristas
Representantes de ventas, mayoristas y fabricantes, excepto productos técnicos y científicos
Representantes de ventas, mayoristas y fabricantes, productos técnicos y científicos
Información
Técnicos de audio y vídeo
Productores y directores
Analistas de noticias, reporteros y periodistas
Editores de cine y vídeo
Editores
Para cada profesión, trabajamos con profesionales experimentados para crear tareas representativas que reflejaran su trabajo diario. Estos profesionales tenían todos una media de 14 años de experiencia, con un sólido historial de promociones. Incluimos deliberadamente a una amplia gama de profesionales expertos, como abogados de diferentes sectores de actividad y bufetes de diferentes tamaños, para maximizar la representatividad.
Cada tarea se sometió a un proceso de revisión de varios pasos para garantizar que fuera representativa del trabajo real, que pudiera completarse por otro profesional y cuya evaluación resultara clara. Por término medio, cada tarea se sometió a cinco rondas de revisión por parte de expertos, incluyendo comprobaciones por parte de otros redactores de tareas, revisores profesionales adicionales y un proceso de validación basada en modelos.
El conjunto de datos resultante incluye 30 tareas totalmente revisadas por profesión (conjunto completo) con 5 tareas por profesión en nuestro conjunto de referencia de código abierto, lo que permite contar con una base sólida para evaluar el rendimiento del modelo en el trabajo intelectual del mundo real.
Ejemplos de tareas de GDPval
Indicación + contexto de la tarea
Entregable elaborado por un experto humano

Para evaluar el rendimiento del modelo en tareas GDPval, contamos con «evaluadores» expertos, un grupo de profesionales con experiencia en las mismas profesiones representadas en el conjunto de datos. Estos evaluadores comparan a ciegas los resultados generados por los modelos con los producidos por los redactores de tareas (sin saber cuáles los ha generado la IA y cuáles los humanos) y emiten críticas y clasificaciones. A continuación, los evaluadores establecen una clasificación de los resultados humanos y los de la IA y catalogan cada resultado de la IA como «mejor», «igual de bueno que» o «peor que» los demás.
Los redactores de tareas también crearon rúbricas de puntuación detalladas para sus profesiones, lo que añade coherencia y transparencia al proceso de evaluación. También creamos un «evaluador automatizado», un sistema de IA entrenado para estimar cómo juzgarían los expertos humanos un resultado determinado. En otras palabras, en lugar de realizar una revisión completa por parte de expertos cada vez, el evaluador automatizado puede predecir rápidamente qué resultado preferirían las personas. Estamos lanzando esta herramienta a través de evals.openai.com como un servicio de investigación experimental, pero aún no es tan fiable como los evaluadores expertos, por lo que no la utilizamos para sustituirlos.
Constatamos que los mejores modelos avanzados actuales ya se están acercando a la calidad del trabajo producido por los expertos del sector. Para comprobarlo, realizamos evaluaciones a ciegas en las que expertos del sector compararon los resultados de varios modelos líderes (GPT‑4o, o4-mini, OpenAI o3, GPT‑5, Claude Opus 4.1, Gemini 2.5 Pro y Grok 4) con el trabajo producido por personas. En las 220 tareas del conjunto de datos GDPval de referencia, registramos cuándo los resultados del modelo se consideraron mejores («victorias») o iguales («empates») que los resultados de los expertos del sector, tal y como se muestra en el gráfico de barras siguiente. Claude Opus 4.1 fue el modelo con mejor rendimiento del conjunto, destacando especialmente en el aspecto estético (por ejemplo, formato de documentos, diseño de diapositivas), mientras que GPT‑5 mostró un rendimiento sobresaliente en cuanto a la precisión (por ejemplo, búsqueda de conocimientos específicos de un ámbito determinado). También vemos un claro progreso a lo largo del tiempo en estas tareas. El rendimiento se ha duplicado con creces desde GPT‑4o (que se lanzó en primavera de 2024) hasta GPT‑5 (cuyo lanzamiento fue en verano de 2025) y ha seguido una clara tendencia lineal.
Además, hemos descubierto que los modelos avanzados pueden completar las tareas de GDPval aproximadamente 100 veces más rápido y 100 veces más barato que los expertos del sector. Sin embargo, estas cifras reflejan el tiempo de inferencia puro del modelo y las tarifas de facturación de la API, por lo que no tienen en cuenta los pasos de supervisión, iteración e integración humanos necesarios en entornos laborales reales para utilizar nuestros modelos. Aun así, especialmente en el subconjunto de tareas en las que los modelos han demostrado un rendimiento particularmente bueno, esperamos que asignar una tarea a un modelo antes de intentarla con un humano ahorre tiempo y dinero.
Expertos evaluadores compararon los resultados de los modelos líderes con los de expertos humanos. Los mejores modelos avanzados actuales ya se están acercando a la calidad del trabajo producido por los expertos del sector. Claude Opus 4.1 produjo resultados evaluados como buenos o mejores que los humanos en algo menos de la mitad de las tareas.
De GPT‑4o a GPT‑5, el rendimiento en las tareas de GDPval se triplicó con creces en un año.
Por último, entrenamos de forma incremental una versión interna y experimental de GPT‑5 para evaluar si podíamos mejorar el rendimiento en GDPval. Observamos que este proceso mejoraba el rendimiento, lo que abre la puerta a posibles mejoras adicionales. Asimismo, otros experimentos controlados lo respaldan: aumentar el tamaño del modelo, fomentar más pasos de razonamiento y aportar más contexto para las tareas dio lugar a mejoras cuantificables.
Pueden leerse los resultados completos en nuestro artículo. También hemos publicado un subconjunto de referencia de tareas GDPval y un servicio de evaluación público para que otros investigadores puedan basarse en este trabajo.
La progresiva mejora del rendimiento de la IA es probable que genere cambios en el mercado laboral. Los primeros resultados de GDPval constatan que los modelos ya pueden realizar algunas tareas repetitivas y bien especificadas más rápido y a un menor coste que los expertos. Sin embargo, la mayoría de puestos de trabajo son más que una simple lista de tareas. GDPval destaca los aspectos que pueden encargarse a una IA, como las tareas rutinarias, de modo que las personas puedan dedicar más tiempo a la parte más creativa y que requiere más criterio en su trabajo. Esta posibilidad que ofrece la IA de complementar a los trabajadores puede traducirse en un crecimiento económico significativo. Nuestro objetivo es que todo el mundo pueda subirse al carro de la IA, democratizando el acceso a estas herramientas, apoyando a los trabajadores a través del cambio y creando sistemas que recompensen la contribución general.
GDPval es un primer paso. Aunque abarca 44 profesiones y cientos de tareas, seguimos perfeccionando nuestro enfoque para ampliar el alcance de nuestras pruebas y hacer que los resultados sean más significativos. La versión actual de la evaluación también es de un único intento, es decir, no recoge los casos en los que un modelo necesitaría recoger más contexto o introducir mejoras a partir de varios borradores, como revisar un informe legal tras las correcciones del cliente o iterar en un análisis de datos tras detectar una anomalía. Además, en el mundo real, las tareas no siempre están claramente definidas con instrucciones y archivos de referencia; por ejemplo, un abogado no siempre tiene una vía de acción clara y es posible que necesite hablar con su cliente antes de decidir que la mejor manera de ayudarle es redactar un informe legal. Tenemos previsto ampliar GDPval para incluir más profesiones, sectores y tipos de tareas, con una mayor interactividad y más tareas que impliquen posibles escenarios ambiguos, con el objetivo a largo plazo de medir mejor el progreso en diversos trabajos intelectuales.
- Si eres un experto del sector interesado en contribuir a GDPval, muestra tu interés aquí.
- Si eres cliente de OpenAI y deseas contribuir a una futura ronda de GDPval, por favor, manifiesta tu interés aquí.
La participación de la comunidad es esencial: tenemos muchas ganas de desarrollar GDPval junto con investigadores, profesionales y organizaciones que comparten nuestro objetivo de hacer que la AGI sea más útil para las personas en el ámbito laboral.


