Cómo las evaluaciones impulsan el futuro de la inteligencia artificial en las empresas
Esta guía básica para líderes empresariales muestra cómo los marcos de evaluación (evaluaciones) ayudan a transformar los objetivos de negocio en resultados consistentes.
Más de un millón de empresas en todo el mundo aprovechan la IA para ser más eficientes y generar mayor valor. Sin embargo, algunas todavía no logran los resultados que esperan. ¿A qué se debe este desfase?
Los objetivos de OpenAI son ambiciosos, por eso usamos la IA internamente. Una de las herramientas clave son las evaluaciones, que son métodos para medir y mejorar la capacidad de un sistema de IA de cumplir con lo esperado.
Al igual que los documentos de requisitos de producto, las evaluaciones convierten objetivos difusos e ideas abstractas en conceptos claros y específicos. Usarlas de manera estratégica puede hacer que un producto orientado al cliente o una herramienta interna sea más confiable a gran escala, reducir errores graves, proteger frente a riesgos y ofrecer a la organización un camino medible hacia un mayor ROI.
En OpenAI, los modelos son nuestros productos, por eso los investigadores usan rigurosas evaluaciones de vanguardia(se abre en una nueva ventana) 1 para medir su desempeño en distintos dominios. Aunque las evaluaciones de vanguardia nos ayudan a lanzar mejores modelos más rápido, no capturan todos los matices necesarios para asegurar que un modelo funcione en un flujo de trabajo específico dentro de una empresa. Por eso, los equipos internos también han creado decenas de evaluaciones contextuales diseñadas para medir el desempeño en un producto o flujo de trabajo concreto. De la misma manera, los líderes empresariales deberían aprender a crear evaluaciones contextuales adaptadas a las necesidades y al entorno de su organización.
Esta es una guía básica para líderes empresariales que quieren aplicar evaluaciones en sus organizaciones. Las evaluaciones contextuales, diseñadas específicamente para el flujo de trabajo o producto de cada organización, son un área activa de desarrollo y aún no existen procesos definitivos. Por eso, este artículo ofrece un marco general que hemos visto funcionar en muchas situaciones. Esperamos que este campo evolucione y que surjan más marcos que aborden contextos y objetivos empresariales específicos. Por ejemplo, una evaluación excelente para un producto de consumo innovador impulsado por IA podría requerir un proceso distinto al de una evaluación para una automatización interna basada en un procedimiento operativo estándar. Creemos que el marco que presentamos a continuación servirá como recopilación de prácticas recomendadas para ambos casos y será una guía útil para crear evaluaciones adaptadas a las necesidades de tu organización.
Comienza con un equipo pequeño con capacidad de decisión que pueda expresar de manera clara el objetivo de tu sistema de IA, por ejemplo: "Convertir los correos electrónicos calificados en citas para demostraciones sin perder la esencia de la marca".
El equipo debe estar formado por personas con experiencia técnica y en el área específica (por ejemplo, expertos en ventas). Deben ser capaces de definir los resultados más importantes a medir, describir el flujo de trabajo de principio a fin y señalar cada decisión clave que tomará el sistema de IA. Para cada paso, el equipo debe aclarar qué se considera un éxito y qué se debe evitar. Este proceso creará un mapeo de docenas de entradas de ejemplo (p. ej., correos electrónicos entrantes) con los resultados que el sistema debe generar. La colección de casos validados resultante será una referencia dinámica y confiable, basada en el criterio y la experiencia de tus expertos más capacitados sobre lo que significa "excelente".
No te preocupes por el arranque inicial ni intentes solucionarlo todo de golpe. El proceso es iterativo y algo desordenado. Hacer prototipos desde un inicio puede ser de gran ayuda. Revisar entre 50 y 100 resultados de una versión temprana del sistema te permitirá ver cómo y cuándo falla. Este "análisis de errores" dará lugar a una clasificación de los distintos errores y su frecuencia, de la que podrás hacer seguimiento a medida que el sistema se perfecciona.
Este proceso no es únicamente técnico: es transversal y se centra en definir objetivos de negocio y los procesos deseados. No se debe pedir a los equipos técnicos que determinen, de manera aislada, qué es lo mejor para los clientes o para otros equipos, como producto, ventas o recursos humanos. Por esta razón, los expertos del área, los líderes técnicos y otros actores clave deben compartir la responsabilidad.
El siguiente paso es medir. El objetivo de la medición es identificar de manera confiable ejemplos concretos de cómo y cuándo falla el sistema. Para lograrlo, crea un entorno de prueba dedicado que se asemeje lo más posible a las condiciones reales, no solo una demostración o un entorno de pruebas de prompts. Usa tu colección de casos validados y el análisis de errores para evaluar el desempeño bajo las mismas presiones y situaciones límite que el sistema enfrentará en la práctica.
Las rúbricas pueden ayudar a evaluar con más claridad los resultados de tu sistema, pero existe el riesgo de darle demasiado peso a aspectos superficiales y perder de vista los objetivos principales. Además, hay cualidades que son difíciles o incluso imposibles de medir. En algunos casos, las métricas de negocio tradicionales serán importantes; en otros, tendrás que crear métricas nuevas. Involucra al equipo de expertos en todo momento y alinea el proceso estrechamente con tus objetivos centrales.
Para probar realmente el sistema, usa ejemplos tomados de situaciones reales siempre que puedas e incluye o crea casos límite que sean poco frecuentes pero que generen costos altos si se tratan de manera incorrecta.
Algunas evaluaciones se pueden escalar mediante el uso de un calificador LLM, un modelo de IA que califica los resultados de la misma manera que lo haría un experto. Aun así, sigue siendo importante mantener a una persona del área en el proceso, pues tendrá que auditar regularmente los calificadores LLM para verificar su precisión y revisar directamente los registros del comportamiento del sistema.
Las evaluaciones pueden ayudarte a decidir cuándo un sistema está listo para lanzarse, pero su seguimiento no se detiene con el lanzamiento. Debes medir continuamente la calidad de los resultados reales que genera el sistema a partir de información real. Como con cualquier producto, los datos de tus usuarios finales (ya sean externos o internos) son clave y deben integrarse en la evaluación.
El último paso es establecer un proceso de mejora continua. Hay distintas formas de abordar los problemas que identifiques en la evaluación, como refinar los mensajes, ajustar el acceso a los datos o actualizar la evaluación para que refleje mejor tus objetivos. A medida que surjan nuevos tipos de errores, incorpóralos a tu análisis de errores y corrígelos. Cada iteración se construye sobre la anterior: tener criterios más claros y expectativas definidas sobre el comportamiento del sistema permite descubrir casos límite y problemas sutiles que antes pasaban desapercibidos.
Para respaldar esta iteración, crea un ciclo de datos (data flywheel). Registra la información de entrada, los resultados y los impactos; toma muestras de esos registros según un calendario y envía automáticamente los casos ambiguos o costosos a revisión por expertos. Incorpora estos juicios a tu evaluación y análisis de errores, y úsalos para actualizar prompts, herramientas o modelos. Este ciclo te permitirá definir con mayor claridad tus expectativas sobre el sistema, alinearlo mejor a ellas e identificar resultados y efectos adicionales relevantes para el seguimiento. Implementar este proceso a gran escala genera un conjunto de datos amplio, diferenciado y específico al contexto, difícil de replicar, que se convierte en un activo valioso para que tu organización construya el mejor producto o proceso en tu mercado.
Aunque las evaluaciones crean una forma sistemática de mejorar tu sistema de IA, pueden surgir nuevos modos de falla. En la práctica, a medida que los modelos, los datos y los objetivos de negocio evolucionan, las evaluaciones también deben mantenerse, ampliarse y ponerse a prueba de manera continua.
En implementaciones orientadas al exterior, las evaluaciones no reemplazan las pruebas A/B ni la experimentación de producto tradicionales. Más bien, las complementan, se apoyan entre sí y permiten ver cómo los cambios que haces afectan su desempeño en el mundo real.
Cada cambio tecnológico importante redefine la excelencia operativa y la ventaja competitiva. Marcos de trabajo como OKR y KPI ayudan a las organizaciones a centrarse en "medir lo que importa" para su negocio en tiempos de análisis de grandes volúmenes de datos. Las evaluaciones representan la extensión natural de la medición en la era de la IA.
Trabajar con sistemas probabilísticos requiere nuevos tipos de medición y una consideración más profunda de las compensaciones. Los líderes deben decidir cuándo la precisión es esencial, cuándo pueden ser más flexibles y cómo equilibrar la rapidez con la confiabilidad.
Las evaluaciones son difíciles de implementar por la misma razón que crear grandes productos lo es: requieren rigor, visión y criterio. Si se hacen bien, las evaluaciones se convierten en diferenciadores únicos. En un mundo donde la información está disponible globalmente y el conocimiento se ha democratizado, la ventaja depende de qué tan bien funcionan los sistemas en el contexto de tu organización. Las evaluaciones sólidas generan ventajas acumulativas y conocimiento institucional a medida que tus sistemas mejoran.
En esencia, las evaluaciones se basan en un profundo conocimiento del contexto y los objetivos de negocio. Si no puedes definir qué significa "excelente" para tu caso de uso, es poco probable que lo logres. En este sentido, las evaluaciones resaltan una lección fundamental de la era de la IA: las habilidades de administración son también habilidades necesarias para trabajar con la IA. Las metas claras, los comentarios directos, un juicio prudente y una comprensión clara de tu propuesta de valor, estrategia y procesos siguen siendo importantes, quizá incluso más que nunca.
A medida que surjan mejores prácticas y marcos de trabajo, los compartiremos. Mientras tanto, te invitamos a experimentar con las evaluaciones y descubrir qué procesos funcionan mejor para tus necesidades. Para empezar, identifica el problema a resolver y a tu experto en el área, reúne un pequeño equipo y, si estás construyendo sobre nuestra API, explora nuestra documentación de la plataforma(se abre en una nueva ventana).
No esperes que sea "excelente". Especifícalo, mídelo y mejora en esa dirección.
Autor
Notas al pie
- 1
Si te interesa apoyar nuestro trabajo en la creación de la próxima generación de modelos de IA, te invitamos a contribuir a GDPVal, nuestra última referencia sobre el desempeño de los modelos de IA en tareas del mundo real. Si eres una persona experta en la industria y quieres contribuir a GDPVal, indica tu interés aquí. Si eres un cliente que trabaja con OpenAI y deseas participar en una próxima ronda de GDPVal, expresa tu interés aquí.


