Hoe evals de verdere ontwikkeling van AI voor bedrijven aandrijven
Deze inleiding laat leidinggevenden zien hoe evaluatie-frameworks (‘evals’) bedrijfsdoelstellingen omzetten in consistente resultaten.
Wereldwijd zetten meer dan een miljoen bedrijven AI in om efficiënter te werken en meer waarde te creëren. Maar sommige organisaties hebben moeite om de resultaten te behalen die ze verwachten. Wat veroorzaakt deze kloof?
Bij OpenAI maken we intern gebruik van AI om onze ambitieuze doelen te bereiken. Een belangrijke set hulpmiddelen die we gebruiken zijn evals: methoden om te meten en te verbeteren in hoeverre een AI-systeem aan verwachtingen voldoet.
Net als documentatie met productvereisten maken evals vage doelen en abstracte ideeën concreet en expliciet. Strategisch gebruik van evals maakt klantgerichte producten en interne tools betrouwbaarder op grote schaal, vermindert kritieke fouten, beperkt risico’s en biedt organisaties een meetbare route naar hogere ROI.
Bij OpenAI zijn onze modellen onze producten, dus gebruiken onze onderzoekers grondige frontier evals(opent in een nieuw venster) 1 om te meten hoe goed de modellen presteren in verschillende domeinen. Hoewel frontier evals ons helpen om sneller betere modellen te leveren, kunnen ze niet alle nuances blootleggen die nodig zijn om te garanderen dat een model goed presteert in een bepaalde workflow en binnen een specifieke bedrijfsomgeving. Daarom hebben interne teams ook tientallen contextuele evals gemaakt om de prestaties binnen een specifiek product of interne workflow te beoordelen. Daarom is het belangrijk dat leidinggevenden leren hoe ze contextuele evals kunnen ontwikkelen die aansluiten op de behoeften en de bedrijfsomgeving van hun organisatie.
Dit is een inleiding voor leidinggevenden die evals willen toepassen binnen hun organisatie. Contextuele evals, elk afgestemd op de workflow of het product van een specifieke organisatie, zijn nog volop in ontwikkeling en vaste werkwijzen ontbreken nog. Als gevolg hiervan biedt dit artikel een breed kader dat we in veel situaties hebben zien werken. We verwachten dat dit vakgebied zich verder zal ontwikkelen en dat er meer frameworks zullen ontstaan die aansluiten op specifieke zakelijke contexten en doelstellingen. Een goede eval voor een geavanceerd, AI-ondersteund consumentenproduct kan bijvoorbeeld een ander proces vereisen dan een eval voor een interne automatisering die is gebaseerd op een standaardprocedure. Wij geloven dat het onderstaande raamwerk in beide gevallen zal dienen als een verzameling van best practices en een nuttige leidraad zal zijn bij het opstellen van evals die zijn afgestemd op de behoeften van je organisatie.
Begin met een klein, autonoom team dat het doel van je AI-systeem in duidelijke bewoordingen kan opschrijven, bijvoorbeeld: "Zet gekwalificeerde binnenkomende e-mails om in geplande demo’s en blijf binnen de merkstijl."
Dit team moet een mix zijn van mensen met technische en domeinexpertise (in het gegeven voorbeeld wil je sales-experts in je team). Ze moeten kunnen aangeven wat de belangrijkste resultaten zijn om te meten, de workflow van begin tot eind schetsen en elk belangrijk beslispunt identificeren waar je AI-systeem mee te maken krijgt. Voor elke stap in de workflow moet het team bepalen hoe succes eruitziet en wat vermeden moet worden. Dit proces koppelt tientallen voorbeeldinputs (bijv. inkomende e-mails) aan de gewenste output die het systeem moet produceren. De resulterende 'golden set' van voorbeelden moet een levende, gezaghebbende referentie zijn die het oordeel en de kwaliteitsnorm van je meest ervaren experts weerspiegelt.
Laat je niet overweldigen door een koude start en probeer niet alles in één keer op te lossen. Dit proces is iteratief en soms chaotisch. Vroegtijdig prototypen kan enorm helpen. Door 50 tot 100 outputs van een vroege versie van het systeem te bekijken, ontdek je hoe en wanneer het systeem faalt. Deze foutenanalyse resulteert in een taxonomie van verschillende soorten fouten (en hoe vaak ze voorkomen) om bij te houden naarmate je systeem verbetert.
Dit proces is niet alleen puur technisch: het is cross-functioneel en gericht op het definiëren van bedrijfsdoelen en gewenste processen. Technische teams kunnen niet zonder hulp beoordelen wat het beste aansluit bij de behoeften van klanten of andere teams zoals product-, sales- of HR-teams. Daarom moeten domeinexperts, technische leiders en andere stakeholders het proces gezamenlijk sturen.
De volgende stap is om te meten. Het doel van meten is om op betrouwbare wijze concrete voorbeelden te laten zien van hoe en wanneer het systeem faalt. Om dat te doen, maak je een aparte testomgeving die de werkelijke omstandigheden zo goed mogelijk nabootst, dus meer dan alleen een demo of een eenvoudige prompt-omgeving. Evalueer de prestaties aan de hand van je 'golden set' en voer de foutenanalyse uit onder dezelfde omstandigheden, druk en edge cases waarmee je systeem daadwerkelijk te maken krijgt.
Beoordelingscriteria kunnen helpen om de uitvoer van je systeem concreet te beoordelen, maar het is mogelijk om te veel nadruk te leggen op oppervlakkige aspecten ten koste van je bredere doelen. Bovendien zijn sommige kwaliteiten moeilijk of onmogelijk te meten. In sommige gevallen zijn traditionele bedrijfsstatistieken belangrijk, maar in andere gevallen moet je nieuwe metrics bedenken. Houd je domeinexperts voortdurend op de hoogte en stem het proces nauwkeurig af op je kerndoelen.
Om het systeem echt te testen, gebruik je waar mogelijk voorbeelden uit de praktijk en neem je edge cases op die zeldzaam zijn, maar kostbaar als er iets misgaat.
Sommige evaluaties kunnen worden geschaald met behulp van een LLM-grader, een AI-model dat uitvoer beoordeelt zoals een expert dat zou doen, maar toch blijft het belangrijk om menselijke controle te behouden. Je domeinexpert moet regelmatig de nauwkeurigheid van LLM-graders controleren en ook direct de logs van het gedrag van je systeem beoordelen.
Evals kunnen je helpen te beslissen wanneer een systeem klaar is om te lanceren, maar daar houdt het niet op. Je moet continu de kwaliteit meten van de uitvoer die je systeem genereert op basis van echte input. Zoals bij elk product zijn signalen van je eindgebruikers (zowel extern als intern) bijzonder belangrijk en moeten deze worden opgenomen in je evaluatie.
De laatste stap is om een proces op te zetten voor voortdurende verbetering. Het aanpakken van problemen die tijdens je evaluatie aan het licht komen, kan vele vormen aannemen: prompts verfijnen, toegang tot gegevens aanpassen, de eval zelf bijwerken om beter aan te sluiten bij je doelen, enzovoort. Naarmate je nieuwe soorten fouten ontdekt, voeg je ze toe aan de foutanalyse. Elke iteratie bouwt voort op de vorige: nieuwe criteria en duidelijkere verwachtingen van het systeemgedrag helpen om nieuwe randgevallen en subtiele, hardnekkige problemen aan het licht te brengen die moeten worden gecorrigeerd.
Bouw om deze iteratie te ondersteunen een 'data flywheel': een zichzelf versterkende datacyclus. Log invoer, uitvoer en uitkomsten; neem op vaste momenten steekproeven uit die logs en stuur onduidelijke of kostbare gevallen automatisch door voor expertbeoordeling. Voeg deze deskundige oordelen toe aan je evaluatie en foutanalyse, en gebruik ze vervolgens om prompts, tools of modellen bij te werken. Door deze cyclus definieer je je verwachtingen voor het systeem steeds scherper, stem je het systeem nauwer op die verwachtingen af en identificeer je aanvullende relevante outputs en resultaten om te monitoren. Wanneer je dit proces op grote schaal implementeert, ontstaat er een grote, contextspecifieke dataset die moeilijk te kopiëren is: een waardevolle troef die je organisatie kan inzetten om het beste product of proces in je markt te ontwikkelen.
Hoewel evals een systematische manier bieden om je AI-systeem te verbeteren, kunnen er nieuwe manieren ontstaan waarop het systeem kan falen. In de praktijk moeten evals naarmate modellen, gegevens en bedrijfsdoelen zich ontwikkelen, ook continu worden onderhouden, uitgebreid en aan stresstests worden onderworpen.
Voor extern gerichte implementaties vervangen evals niet de meer traditionele A/B-tests en productexperimenten. Ze zijn een aanvulling op traditionele experimenten: ze versterken elkaar en geven inzicht in hoe wijzigingen de prestaties in de praktijk beïnvloeden.
Elke grote technologische verschuiving verandert hoe organisaties hun processen verbeteren en hun concurrentiepositie versterken. Raamwerken zoals OKR's en KPI's hebben organisaties geholpen zich te oriënteren op het 'meten van wat belangrijk is' voor hun bedrijf in het tijdperk van big data-analyse. Evals zijn de natuurlijke uitbreiding van zulke metingen voor het tijdperk van AI.
Werken met probabilistische systemen vraagt om nieuwe meetmethoden en een zorgvuldiger afwegen van trade-offs. Leiders moeten beslissen wanneer precisie essentieel is, wanneer ze flexibeler kunnen zijn en hoe ze een balans kunnen vinden tussen snelheid en betrouwbaarheid.
Evals zijn moeilijk te implementeren om dezelfde reden dat het moeilijk is om kwaliteitsproducten te bouwen; ze vereisen nauwkeurigheid, visie en smaak. Als je het goed doet, worden evals unieke onderscheidende factoren. In een wereld waarin informatie overal vrij beschikbaar is en expertise breed toegankelijk is, hangt je concurrentiepositie af van hoe goed je systemen kunnen presteren binnen de context van jouw bedrijf. Robuuste evals creëren voordelen die zich blijven opstapelen, én organisatiebrede kennis, naarmate je systemen verbeteren.
In de kern draait het bij evals om een diepgaand begrip van de bedrijfscontext en -doelstellingen. Als je niet helder hebt wat kwaliteit betekent voor je use case, wordt het moeilijk om dat te realiseren. In die zin benadrukken evals een belangrijke les van het AI-tijdperk: managementvaardigheden zijn AI-vaardigheden. Duidelijke doelen, directe feedback, goed oordeel en een helder begrip van je waardepropositie, strategie en processen blijven belangrijk, misschien wel meer dan ooit.
Naarmate er meer best practices en frameworks opduiken, delen wij die kennis. In de tussentijd moedigen we je aan om te experimenteren met evals en te ontdekken welke processen het beste werken voor je behoeften. Begin met het identificeren van het probleem en je domeinexperts. Stel je kleine team samen en verken, als je op onze API bouwt, onze platformdocumentatie(opent in een nieuw venster).
Hoop niet op kwaliteit. Definieer, meet en verbeter gericht.
Auteur
Voetnoten
- 1
Als je ons werk aan de volgende generatie AI-modellen wilt ondersteunen, nodigen we je uit om bij te dragen aan GDPVal, onze nieuwste benchmark van hoe AI-modellen presteren op praktische taken. Als je een expert bent in deze sector en geïnteresseerd bent om bij te dragen aan GDPval, maak dan hier je interesse kenbaar. Als je een klant bent die met OpenAI werkt en je wilt bijdragen aan een toekomstige ronde van GDPval, kun je hier je interesse kenbaar maken.


