Sådan driver evals det næste kapitel i AI for virksomheder
Denne introduktion lærer virksomhedsledere, hvordan evalueringsrammer ("evals") omdanner forretningsmål til ensartede resultater.
Over en million virksomheder verden over udnytter AI til at øge effektiviteten og skabe værdi. Men nogle organisationer har haft svært ved at opnå de resultater, de forventer. Hvad forårsager kløften?
Hos OpenAI udnytter vi AI internt for at opnå vores ambitiøse mål. Et af de vigtigste værktøjer, vi bruger, er evals; metoder til at måle og forbedre et AI-systems evne til at opfylde forventningerne.
Ligesom dokumenter om produktkrav gør evals uklare mål og abstrakte ideer specifikke og eksplicitte. Strategisk brug af evals kan gøre et kundevendt produkt eller internt værktøj mere pålideligt i stor skala, reducere alvorlige fejl, beskytte mod downside-risiko og give en organisation en målbar vej til et højere ROI.
Hos OpenAI er vores modeller vores produkter, så vores forskere bruger strenge frontier evals(åbner i et nyt vindue) 1 til at måle, hvor godt modellerne præsterer i forskellige domæner. Selvom frontier-evalueringer hjælper os med at levere bedre modeller hurtigere, kan de ikke afsløre alle de nuancer, der kræves for at sikre, at modellen fungerer i en specifik arbejdsgang i en specifik forretningssituation. Derfor har interne hold også skabt snesevis af kontekstuelle evals designet til at vurdere ydeevnen inden for et specifikt produkt eller en intern arbejdsgang. Det er også grunden til, at virksomhedsledere bør lære at oprette kontekstuelle evalueringer, der er specifikke for deres organisations behov og driftsmiljø.
Dette er en introduktion til virksomhedsledere, der ønsker at anvende evals i deres organisationer. Kontekstuelle evals, der er skræddersyet til en specifik organisations arbejdsgang eller produkt, er et aktivt udviklingsområde, og der er endnu ikke opstået definitive processer. Som følge heraf giver denne artikel en bred ramme, som vi har set fungere i mange situationer. Vi forventer, at dette felt vil udvikle sig, og at der vil dukke flere rammer op, der adresserer specifikke forretningskontekster og mål. For eksempel kan en fremragende evaluering af et banebrydende, AI-aktiveret forbrugerprodukt kræve en anden proces end en eval for en intern automatisering baseret på en standard driftsprocedure. Vi tror, at den nedenfor præsenterede ramme vil fungere som en samling af bedste praksis i begge tilfælde og vil være en nyttig guide, når du bygger evals, der er skræddersyet til din organisations behov.
Start med et lille, stærkt team, der kan nedskrive formålet med jeres AI-system i klare vendinger, for eksempel: "Konverter kvalificerede indgående e-mails til planlagte demoer, mens I holder fast i jeres brand."
Dette team bør bestå af en blanding af personer med teknisk - og domæneekspertise (i det givne eksempel vil du gerne have salgseksperter i teamet). De skal kunne angive de vigtigste resultater, der skal måles, skitsere arbejdsgangen fra start til slut og identificere hvert vigtigt beslutningspunkt, som dit AI-system vil møde. For hvert trin i denne arbejdsgang skal teamet definere, hvordan succes ser ud, og hvad de skal undgå. Denne proces vil oprette en kortlægning af snesevis af eksempelinput (f.eks. indgående e-mails) til de output, de ønsker, at systemet skal producere. Det resulterende gyldne sæt af eksempler bør være en levende, autoritativ reference til dine dygtigste eksperters vurdering og smag for, hvordan “fremragende” ser ud.
Lad være med at blive overvældet af en koldstart, og prøv ikke at løse det hele på én gang. Processen er iterativ og rodet. Tidlig prototypefremstilling kan være en enorm hjælp. En gennemgang af 50 til 100 output fra en tidlig version af systemet vil afdække, hvordan og hvornår dit system fejler. Denne "fejlanalyse" vil resultere i en taksonomi af forskellige fejl (og deres hyppigheder), som kan spores, efterhånden som dit system forbedres.
Denne proces er ikke udelukkende teknisk – den er tværfunktionel og centreret omkring at definere forretningsmål og ønskede processer. Tekniske hold bør ikke isoleret set vurdere, hvad der bedst tjener kunderne eller behovene hos andre hold som produkt, salg eller HR. Derfor bør domæneeksperter, tekniske ledere og andre vigtige interessenter dele ejerskab.
Det næste skridt er at måle. Målet med måling er at finde konkrete eksempler på, hvordan og hvornår systemet fejler. For at gøre det skal du skabe et dedikeret testmiljø, der nøje afspejler virkelige forhold – ikke bare en demo eller en forespørgsel. Evaluer ydeevnen i forhold til dit gyldne sæt og fejlanalyse under de samme pres og kanttilfælde, som dit system faktisk vil stå overfor.
Rubrikker kan hjælpe med at konkretisere bedømmelsen af output fra dit system, men det er muligt at overbetone overfladiske elementer på bekostning af dine overordnede mål. Derudover er nogle kvaliteter svære eller umulige at måle. I nogle tilfælde vil traditionelle forretningsmålinger være vigtige. I andre tilfælde skal du opfinde nye metrikker. Hold dine fageksperter informeret hele vejen igennem, og sørg for, at processen er nøje afstemt med dine kerneformål.
For at teste systemet effektivt skal du bruge eksempler fra den virkelige verden, når det er muligt, og inkludere eller opfinde sjældne edge cases, der kan være dyre, hvis de håndteres forkert.
Nogle evalueringer kan skaleres ved hjælp af en LLM-evaluator, en AI-model, der vurderer output på samme måde som en ekspert ville; men det er stadig vigtigt at have et menneske med i processen. Din domæneekspert skal regelmæssigt revidere LLM-evaluatorer for nøjagtighed og bør også direkte gennemgå logfiler over dit systems adfærd.
Evals kan hjælpe dig med at beslutte, hvornår et system er klar til lancering, men de stopper ikke ved lanceringen. Du skal løbende måle kvaliteten af dit systems reelle output genereret fra reelle input. Som med ethvert produkt er signaler fra dine brugere (uanset om de er eksterne eller interne) særligt vigtige og bør indbygges i din evaluering.
Det sidste skridt er at etablere en proces for løbende forbedring. At håndtere problemer, som din evaluering afdækker, kan antage mange former: forfine forespørgsler, justere dataadgang, opdatere selve evalueringen for bedre at afspejle dine mål og så videre. Når du opdager nye typer fejl, så tilføj dem til din fejlanalyse, og håndter dem. Hver iteration bygger videre på den forrige: nye kriterier og klarere forventninger til systemadfærd hjælper med at afsløre nye kanttilfælde og subtile, genstridige problemer, der skal rettes.
For at sikre understøttelse af denne iteration skal du opbygge et datasvinghjul. Log input, output og resultater; udtag stikprøver af disse logfiler efter en tidsplan, og send automatisk tvetydige eller dyre sager til ekspertgennemgang. Tilføj disse ekspertvurderinger til din evaluerings- og fejlanalyse, og brug dem derefter til at opdatere prompts, værktøjer eller modeller. Gennem denne proces vil du tydeligere definere dine forventninger til systemet, justere det tættere til disse forventninger og identificere yderligere relevante outputs og resultater, der skal spores. Implementering af denne proces i stor skala giver et stort, differentieret, kontekstspecifikt datasæt, som er svært at kopiere – en værdifuld ressource, som din organisation kan udnytte, når I bygger det bedste produkt eller den bedste proces på jeres marked.
Mens evals skaber en systematisk måde at forbedre dit AI-system på, kan der opstå nye fejltilstande. I takt med at modeller, data og forretningsmål udvikler sig, skal evalueringer i praksis også løbende vedligeholdes, udvides og stresstestes.
For eksternt rettede implementeringer erstatter evals ikke de mere traditionelle A/B-tests og produkteksperimenter. De er et supplement til traditionelle eksperimenter, der kan hjælpe med at guide hinanden og give synlighed i, hvordan ændringer, du foretager, påvirker ydeevnen i den virkelige verden.
Hvert større teknologiskift omformer operationel ekspertise og konkurrencefordel. Frameworks som OKR'er og KPI'er har hjulpet organisationer med at orientere sig omkring at "måle, hvad der betyder noget" for deres forretning i en tidsalder med big data-analyser. Evals er den naturlige forlængelse af måling i AI-tidsalderen.
At arbejde med probabilistiske systemer kræver nye typer målinger og dybere overvejelser om kompromiser. Ledere skal beslutte, hvornår præcision er afgørende, hvornår de kan være mere fleksible, og hvordan de skal afbalancere hastighed og pålidelighed.
Evals er svære at implementere af samme grund, som det er svært at bygge gode produkter; de kræver grundighed, vision og smag. Hvis det gøres godt, bliver evals unikke differentieringsfaktorer. I en verden, hvor information er frit tilgængelig over hele verden, og ekspertise er demokratiseret, afhænger din fordel af, hvor godt dine systemer kan udføre i din kontekst. Robuste evalueringer skaber sammensatte fordele og institutionel knowhow, efterhånden som dine systemer forbedres.
I bund og grund handler evalueringer om en dyb forståelse af forretningskontekst og mål. Hvis du ikke kan definere, hvad “godt” betyder for din use case, er det usandsynligt, at du vil opnå det. I denne forstand fremhæver evals en vigtig lektion i AI-æraen: Ledelsesevner er AI-evner. Klare mål, direkte feedback, fornuftig dømmekraft og en klar forståelse af din værdiproposition, strategi og processer er stadig vigtige, måske endda mere end nogensinde.
Efterhånden som flere bedste fremgangsmåder og rammer dukker op, vil vi dele dem. I mellemtiden opfordrer vi dig til at eksperimentere med evals og finde ud af, hvilke processer der fungerer bedst til dine behov. For at komme i gang skal du identificere det problem, der skal løses, og din domæneekspert, sammensætte dit lille hold, og hvis du bygger på vores API, kan du udforske vores platformsdokumentation(åbner i et nyt vindue).
Håb ikke på "fremragende". Specificer det, mål det, og forbedr det.
Skrevet af
Fodnoter
- 1
Hvis du gerne vil støtte vores arbejde med at udvikle den næste generation af AI-modeller, inviterer vi dig til at bidrage til GDPVal, vores seneste benchmark for, hvordan AI-modeller klarer sig på opgaver i den virkelige verden. Hvis du er en industriekspert, der er interesseret i at bidrage til GDPval, så vis din interesse her. Hvis du er en kunde, der arbejder med OpenAI, og du gerne vil bidrage til en kommende runde af GDPval, så udtryk din interesse her.


