Com les evals impulsen el següent capítol de la IA per a les empreses
Aquesta guia introdueix els líders empresarials a com els marcs d’avaluació («evals») converteixen els objectius de negoci en resultats coherents.
Més de un milió d’empreses arreu del món aprofiten la IA per impulsar una major eficiència i crear més valor. Però algunes organitzacions han tingut dificultats per obtenir els resultats que esperaven. Què causa aquesta bretxa?
A OpenAI aprofitem la IA internament per assolir els nostres objectius ambiciosos. Un conjunt clau d’eines que fem servir són les evals, mètodes per mesurar i millorar la capacitat d’un sistema d’IA de complir les expectatives.
De manera similar als documents de requisits de producte, les evals fan que els objectius difusos i les idees abstractes siguin específics i explícits. Fer servir les evals de manera estratègica pot fer que un producte orientat al client o una eina interna sigui més fiable a escala, reduir errors d’alta gravetat, protegir contra riscos a la baixa i donar a una organització un camí mesurable cap a un ROI més alt.
A OpenAI, els nostres models són els nostres productes, així que els nostres investigadors fan servir rigoroses evals d’avantguarda(s'obre en una finestra nova) 1 per mesurar com de bé rendeixen els models en diferents dominis. Tot i que les evals d’avantguarda ens ajuden a llançar millors models més ràpid, no poden revelar tots els matisos necessaris per garantir que el model rendirà en un flux de treball específic dins d’un context empresarial concret. Per això, els equips interns també han creat desenes de evals contextuals dissenyades per avaluar el rendiment dins d’un producte específic o un flux de treball intern. També és per això que els líders empresarials haurien d’aprendre a crear evals contextuals específiques per a les necessitats i l’entorn operatiu de la seva organització.
Aquesta és una guia introductòria per a líders empresarials que volen aplicar les evals a les seves organitzacions. Les evals contextuals, cadascuna elaborada per a un flux de treball o producte d’una organització concreta, són una àrea de desenvolupament activa i encara no han emergit processos definitius. Per això, aquest article ofereix un marc general que hem vist que funciona en moltes situacions. Esperem que aquest camp evolucioni i que apareguin més marcs que abordin contextos i objectius empresarials específics. Per exemple, una excel·lent eval per a un producte de consum capdavanter habilitat amb IA podria requerir un procés diferent del d’una eval per a una automatització interna basada en un procediment operatiu estàndard. Creiem que el marc que es presenta a continuació servirà com una recopilació de bones pràctiques en tots dos casos, i serà una guia útil mentre construïu evals adaptades a les necessitats de la vostra organització.
Comenceu amb un equip petit i empoderat que pugui posar per escrit el propòsit del vostre sistema d’IA en termes clars, per exemple: «Convertir correus entrants qualificats en demostracions programades mantenint-se fidel a la marca.»
Aquest equip hauria de ser una combinació de persones amb expertesa tècnica i de domini (en l’exemple donat, us interessaria tenir experts en vendes a l’equip). Han de poder indicar els resultats més importants que cal mesurar, descriure el flux de treball de cap a cap i identificar cada punt de decisió important amb què es trobarà el vostre sistema d’IA. Per a cada pas d’aquest flux de treball, l’equip hauria de definir com és l’èxit i què s’ha d’evitar. Aquest procés crearà un mapa de desenes d’entrades d’exemple (p. ex., correus entrants) cap a les sortides que volen que el sistema produeixi. El conjunt de referència resultant d’exemples hauria de ser una referència viva i autoritzada del criteri i el bon gust dels vostres experts més qualificats sobre com és allò «excel·lent» de debò.
No us aclapareu amb un inici en fred ni intenteu resoldre-ho tot alhora. El procés és iteratiu i desordenat. Els primers prototips poden ajudar enormement. Revisar de 50 a 100 sortides d’una versió inicial del sistema revelarà com i quan falla el vostre sistema. Aquesta «anàlisi d’errors» donarà lloc a una taxonomia de diferents errors (i les seves freqüències) que podreu seguir a mesura que el sistema millori.
Aquest procés no és purament tècnic: és transversal i se centra a definir objectius empresarials i processos desitjats. No s’hauria de demanar als equips tècnics, de manera aïllada, que jutgin què serveix millor als clients o a les necessitats d’altres equips com ara producte, vendes o RR. HH. En conseqüència, els experts del domini, els responsables tècnics i altres parts interessades clau han de compartir-ne la responsabilitat.
El pas següent és mesurar. L’objectiu del mesurament és fer aflorar de manera fiable exemples concrets de com i quan falla el sistema. Per fer-ho, creeu un entorn de prova dedicat que reflecteixi de prop les condicions del món real, no només una demo o un espai de joc d’indicacions. Avalueu el rendiment respecte del vostre conjunt de referència i de l’anàlisi d’errors sota les mateixes pressions i casos límit als quals realment s’enfrontarà el vostre sistema.
Les rúbriques poden ajudar a aportar concreció a l’hora de jutjar les sortides del vostre sistema, però és possible posar massa èmfasi en elements superficials en detriment dels vostres objectius generals. A més, algunes qualitats són difícils o impossibles de mesurar. En alguns casos, les mètriques empresarials tradicionals seran importants. En d’altres, haureu d’inventar mètriques noves. Mantingueu els vostres experts en la matèria implicats durant tot el procés i alineeulo estretament amb els vostres objectius principals.
Per provar realment el sistema, feu servir exemples extrets de situacions del món real sempre que sigui possible, i incloeu o inventeu casos límit que siguin poc freqüents però costosos si es gestionen malament.
Algunes evals es poden escalar mitjançant l’ús d’un qualificador LLM, un model d’IA que qualifica les sortides de la mateixa manera que ho faria un expert; tot i així, continua sent important mantenir una persona en el circuit. El vostre expert del domini ha d’auditar regularment els qualificadors LLM per comprovar-ne la precisió i també ha de revisar directament els registres del comportament del vostre sistema.
Les evals us poden ajudar a decidir quan un sistema està a punt per llançar-se, però no s’aturen en el llançament. Heu de mesurar contínuament la qualitat de les sortides reals del vostre sistema generades a partir d’entrades reals. Com passa amb qualsevol producte, els senyals dels vostres usuaris finals (ja siguin externs o interns) són especialment importants i s’han d’integrar a la vostra eval.
L’últim pas és establir un procés de millora contínua. Abordar els problemes detectats per la vostra eval pot adoptar moltes formes: refinar les indicacions, ajustar l’accés a les dades, actualitzar la mateixa eval perquè reflecteixi millor els vostres objectius, etcètera. A mesura que descobriu nous tipus d’errors, afegiu-los a la vostra anàlisi d’errors i tracteu-los. Cada iteració se suma a l’anterior: nous criteris i expectatives més clares sobre el comportament del sistema ajuden a revelar nous casos límit i problemes subtils i persistents que cal corregir.
Per donar suport a aquesta iteració, construïu un volant de dades. Registreu entrades, sortides i resultats; mostregeu aquests registres de manera programada i envieu automàticament els casos ambigus o costosos a revisió experta. Afegiu aquests judicis d’experts a la vostra eval i a l’anàlisi d’errors, i després feu-los servir per actualitzar indicacions, eines o models. Mitjançant aquest bucle, definireu amb més claredat les vostres expectatives sobre el sistema, l’alineareu més estretament amb aquestes expectatives i identificareu més sortides i resultats rellevants per fer-ne seguiment. Desplegar aquest procés a escala genera un conjunt de dades gran, diferenciat i específic del context que és difícil de copiar: un actiu valuós que la vostra organització pot aprofitar mentre construïu el millor producte o procés del vostre mercat.
Tot i que les evals creen una manera sistemàtica de millorar el vostre sistema d’IA, poden aparèixer nous modes de fallada. A la pràctica, a mesura que evolucionen els models, les dades i els objectius empresarials, les evals també s’han de mantenir, ampliar i sotmetre a proves d’estrès de manera contínua.
Per a desplegaments orientats a l’exterior, les evals no substitueixen les proves A/B més tradicionals ni l’experimentació de producte. Són complements de l’experimentació tradicional que poden ajudar-se mútuament i aportar visibilitat sobre com els canvis que feu impacten en el rendiment al món real.
Cada gran canvi tecnològic remodela l’excel·lència operativa i l’avantatge competitiu. Marcs com els OKR i els KPI han ajudat les organitzacions a orientar-se al voltant de «mesurar allò que importa» per al seu negoci en l’era de l’analítica de dades massives. Les evals són l’extensió natural del mesurament per a l’era de la IA.
Treballar amb sistemes probabilístics requereix nous tipus de mesurament i una consideració més profunda de les compensacions. Els líders han de decidir quan la precisió és essencial, quan poden ser més flexibles i com equilibrar velocitat i fiabilitat.
Les evals són difícils d’implementar per la mateixa raó que és difícil construir grans productes: requereixen rigor, visió i bon gust. Si es fan bé, les evals es converteixen en factors diferenciadors únics. En un món on la informació està disponible lliurement arreu del món i l’expertesa s’ha democratitzat, el vostre avantatge depèn de com de bé els vostres sistemes poden executar dins del vostre context. Les evals sòlides creen avantatges acumulatius i coneixement institucional a mesura que els vostres sistemes milloren.
En essència, les evals tracten d’una comprensió profunda del context empresarial i dels objectius. Si no podeu definir què vol dir «excel·lent» per al vostre cas d’ús, és poc probable que ho aconseguiu. En aquest sentit, les evals posen en relleu una lliçó clau de l’era de la IA: les habilitats de gestió són habilitats d’IA. Els objectius clars, el feedback directe, el judici prudent i una comprensió clara de la vostra proposta de valor, estratègia i processos continuen sent importants, potser fins i tot més que mai.
A mesura que sorgeixin més bones pràctiques i marcs, els anirem compartint. Mentrestant, us animem a experimentar amb les evals i descobrir quins processos funcionen millor per a les vostres necessitats. Per començar, identifiqueu el problema que cal resoldre i el vostre expert del domini, reuniu el vostre petit equip i, si esteu desenvolupant sobre la nostra API, exploreu la nostra documentació de la plataforma(s'obre en una finestra nova).
No espereu allò «excel·lent». Especifiqueu-ho, mesureu-ho i milloreu fins a aconseguir-ho.
Autor
Notes al peu
- 1
Si voleu donar suport a la nostra feina de construir la propera generació de models d’IA, us convidem a contribuir a GDPVal, el nostre darrer benchmark sobre com rendeixen els models d’IA en tasques del món real. Si sou un expert del sector interessat a contribuir a GDPval, mostreu aquí el vostre interès. Si sou un client que treballa amb OpenAI i us agradaria contribuir a una futura ronda de GDPval, expresseu aquí el vostre interès.


