Cómo las evaluaciones impulsan el futuro de la inteligencia artificial en las empresas
Esta guía básica para líderes empresariales muestra cómo los marcos de evaluación (evaluaciones) permiten transformar los objetivos de negocio en resultados coherentes.
Más de un millón de empresas en todo el mundo utilizan la IA para ser más eficientes y generar más valor. Sin embargo, algunas todavía no obtienen los resultados que esperan. ¿A qué se debe este desfase?
Los objetivos de OpenAI son ambiciosos, por eso usamos la IA internamente. Una de las herramientas clave son las evaluaciones, que son métodos para medir y mejorar la capacidad de un sistema de IA de cumplir lo previsto.
Al igual que los documentos de especificaciones de producto, las evaluaciones convierten objetivos difusos e ideas abstractas en conceptos claros y específicos. Usarlas de manera estratégica puede hacer que un producto orientado al cliente o una herramienta interna sea más fiable a gran escala, reducir errores graves, proteger contra riesgos y ofrecer a la organización un camino medible hacia un mayor ROI.
En OpenAI, los modelos son nuestros productos, por eso los investigadores usan rigurosas evaluaciones de vanguardia(se abre en una ventana nueva) 1 para medir su desempeño en distintos dominios. Aunque las evaluaciones de vanguardia nos ayudan a lanzar mejores modelos más rápido, no capturan todos los matices necesarios para asegurar que un modelo funcione en un flujo de trabajo específico dentro de una empresa. Por eso, los equipos internos también han creado decenas de evaluaciones contextuales diseñadas para medir el desempeño en un producto o flujo de trabajo concreto. Del mismo modo, los líderes empresariales deberían aprender a elaborar evaluaciones contextuales adaptadas a las necesidades y al entorno de su organización.
Esta es una guía básica para líderes empresariales que quieren aplicar evaluaciones en sus organizaciones. Las evaluaciones contextuales, diseñadas específicamente para el flujo de trabajo o producto de cada organización, son un área activa de desarrollo y aún no existen procesos definitivos. Por eso, este artículo ofrece un marco general que hemos visto funcionar en muchas situaciones. Esperamos que este campo evolucione y que surjan más marcos que aborden contextos y objetivos empresariales específicos. Por ejemplo, una evaluación excelente para un producto de consumo innovador impulsado por IA podría requerir un proceso distinto al de una evaluación para una automatización interna basada en un procedimiento operativo estándar. Creemos que el marco que presentamos a continuación servirá como recopilación de prácticas recomendadas para ambos casos y será una guía útil para elaborar evaluaciones adaptadas a las necesidades de tu organización.
Comienza con un equipo pequeño facultado que pueda expresar de manera clara el objetivo de tu sistema de IA, por ejemplo: «Convertir los correos electrónicos calificados en reuniones para demostraciones sin perder la esencia de la marca».
El equipo debe estar formado por personas con experiencia técnica y en el área específica (por ejemplo, expertos en ventas). Deben ser capaces de definir los resultados más importantes que se deben medir, describir el flujo de trabajo de principio a fin y señalar cada decisión clave que tomará el sistema de IA. Para cada paso, el equipo debe aclarar qué se considera un éxito y qué se debe evitar. Este proceso creará un mapeo de docenas de entradas de ejemplo (p. ej., correos electrónicos entrantes) con los resultados que el sistema debe generar. La colección de casos validados resultante será una referencia dinámica y fiable, basada en el criterio y la experiencia de tus expertos más cualificados sobre lo que significa «excelente».
No te agobies con el arranque inicial ni intentes solucionarlo todo de golpe. El proceso es iterativo y algo desordenado. Hacer prototipos desde un inicio puede ser de gran ayuda. Revisar entre 50 y 100 resultados de una versión temprana del sistema te permitirá ver cómo y cuándo falla. Este «análisis de errores» dará lugar a una clasificación de los distintos errores y su frecuencia, de la que podrás hacer un seguimiento a medida que el sistema se perfecciona.
Este proceso no es únicamente técnico: es transversal y se centra en definir objetivos de negocio y los procesos deseados. No se debe pedir a los equipos técnicos que determinen, de manera aislada, qué es lo mejor para los clientes o para otros equipos, como producto, ventas o recursos humanos. Por esta razón, los expertos del área, los líderes técnicos y otros actores clave deben compartir la responsabilidad.
El siguiente paso es medir. El objetivo de la medición es identificar de manera confiable ejemplos concretos de cómo y cuándo falla el sistema. Para lograrlo, crea un entorno de prueba dedicado que se asemeje lo más posible a las condiciones reales, no solo una demostración o un entorno de pruebas de prompts. Usa tu colección de casos validados y el análisis de errores para evaluar el desempeño bajo las mismas presiones y casos límite que el sistema enfrentará en la práctica.
Las rúbricas pueden ayudar a evaluar con más claridad los resultados de tu sistema, pero existe el riesgo de dar demasiado peso a aspectos superficiales y perder de vista los objetivos principales. Además, hay cualidades que son difíciles o incluso imposibles de medir. En algunos casos, las métricas de negocio tradicionales serán importantes; en otros, tendrás que crear métricas nuevas. Implica al equipo de expertos en todo momento y alinea el proceso estrechamente con tus objetivos centrales.
Para probar realmente el sistema, usa ejemplos tomados de situaciones reales siempre que puedas e incluye o crea casos límite que sean poco frecuentes pero que generen costes altos si se tratan de manera incorrecta.
Algunas evaluaciones pueden ampliar su alcance mediante el uso de un calificador LLM, un modelo de IA que califica los resultados de la misma manera que lo haría un experto. Aun así, sigue siendo importante mantener a una persona del área en el proceso, pues tendrá que auditar regularmente los calificadores LLM para verificar su precisión y revisar directamente los registros del comportamiento del sistema.
Las evaluaciones pueden ayudarte a decidir cuándo un sistema está listo para lanzarse, pero su seguimiento no se detiene con el lanzamiento. Debes medir continuamente la calidad de los resultados reales que genera el sistema a partir de información real. Como con cualquier producto, los datos de tus usuarios finales (ya sean externos o internos) son clave y deben integrarse en la evaluación.
El último paso es establecer un proceso de mejora continua. Hay distintas formas de abordar los problemas que identifiques en la evaluación, como refinar los mensajes, ajustar el acceso a los datos o actualizar la evaluación para que refleje mejor tus objetivos. A medida que surjan nuevos tipos de errores, incorpóralos a tu análisis de errores y corrígelos. Cada iteración se construye sobre la anterior: tener criterios más claros y expectativas definidas sobre el comportamiento del sistema permite descubrir casos límite y problemas sutiles que antes pasaban desapercibidos.
Para respaldar esta iteración, crea un ciclo de datos (data flywheel). Registra la información de entrada, los resultados y los impactos; toma muestras de esos registros según un calendario y envía automáticamente los casos ambiguos o costosos a revisión por expertos. Incorpora estos juicios a tu evaluación y análisis de errores, y úsalos para actualizar prompts, herramientas o modelos. Este ciclo te permitirá definir con mayor claridad tus expectativas sobre el sistema, alinearlo mejor a ellas e identificar resultados y efectos adicionales relevantes para el seguimiento. Implementar este proceso a gran escala genera un conjunto de datos amplio, diferenciado y específico al contexto, difícil de replicar, que se convierte en un activo valioso para que tu organización construya el mejor producto o proceso en tu mercado.
Aunque las evaluaciones crean una forma sistemática de mejorar tu sistema de IA, pueden surgir nuevos modos de fallo. En la práctica, a medida que los modelos, los datos y los objetivos de negocio evolucionan, las evaluaciones también deben mantenerse, ampliarse y ponerse a prueba de manera continua.
En implementaciones orientadas al exterior, las evaluaciones no reemplazan las pruebas A/B ni la experimentación de producto tradicionales. Más bien, las complementan, se apoyan entre sí y permiten ver cómo los cambios que haces afectan al desempeño en el mundo real.
Cada cambio tecnológico importante redefine la excelencia operativa y la ventaja competitiva. Marcos de referencia como OKR y KPI ayudan a las organizaciones a centrarse en «medir lo que importa» para su negocio en tiempos de análisis de grandes volúmenes de datos. Las evaluaciones representan la extensión natural de la medición en la era de la IA.
Trabajar con sistemas probabilísticos requiere nuevos tipos de medición y una consideración más profunda de las compensaciones. Los líderes deben decidir cuándo la precisión es esencial, cuándo pueden ser más flexibles y cómo equilibrar la rapidez con la fiabilidad.
Las evaluaciones son difíciles de implementar por la misma razón que crear grandes productos lo es: requieren rigor, visión y criterio. Si se hacen bien, las evaluaciones se convierten en diferenciadores únicos. En un mundo donde la información está disponible globalmente y el conocimiento se ha democratizado, la ventaja depende de lo bien que funcionan los sistemas en el contexto de tu organización. Las evaluaciones sólidas generan ventajas acumulativas y conocimiento institucional a medida que tus sistemas mejoran.
En esencia, las evaluaciones se basan en un profundo conocimiento del contexto y los objetivos de negocio. Si no puedes definir qué significa «excelente» para tu caso de uso, es poco probable que lo logres. En este sentido, las evaluaciones resaltan una lección fundamental de la era de la IA: las habilidades de gestión son también habilidades necesarias para trabajar con la IA. Las metas claras, los comentarios directos, un juicio prudente y una comprensión clara de tu propuesta de valor, estrategia y procesos siguen siendo importantes, quizás incluso más que nunca.
A medida que surjan mejores prácticas y marcos de trabajo, los compartiremos. Mientras tanto, te invitamos a experimentar con las evaluaciones y descubrir qué procesos funcionan mejor para tus necesidades. Para empezar, identifica el problema que quieres resolver y a tu experto en el área, reúne un pequeño equipo y, si estás construyendo sobre nuestra API, consulta nuestra documentación de la plataforma(se abre en una ventana nueva).
No esperes que sea «excelente». Especifícalo, mídelo y mejora en esa dirección.
Autor
Notas al pie
- 1
Si te interesa colaborar con nuestro trabajo en la creación de la próxima generación de modelos de IA, te invitamos a contribuir a GDPVal, nuestra última referencia sobre el rendimiento de los modelos de IA en tareas del mundo real. Si eres una persona experta del sector y quieres contribuir a GDPVal, indica tu interés aquí. Si eres un cliente que trabaja con OpenAI y deseas participar en una próxima ronda de GDPVal, expresa tu interés aquí.


