Gå direkt till huvudinnehåll
OpenAI

19 november 2025

Forskning

Hur evals driver nästa kapitel i AI för företag

Denna introduktion lär företagsledare hur utvärderingsramverk ("evals") omvandlar företagsmål till konsekventa resultat.

Laddar …

Över en miljon företag världen över använder AI för att öka effektiviteten och skapa mer värde. Fast vissa organisationer har haft svårt att uppnå de resultat de förväntar sig. Vad orsakar gapet?

På OpenAI använder vi AI internt för att uppnå våra ambitiösa mål. En viktig uppsättning verktyg vi använder är evals, metoder för att mäta och förbättra ett AI-systems förmåga att uppfylla förväntningar. 

Likt produktkravsdokument gör utvärderingar otydliga mål och abstrakta idéer specifika och tydliga. Genom att använda evals strategiskt kan du göra en kundorienterad produkt eller ett internt verktyg mer tillförlitligt i stor skala, minska antalet allvarliga fel, skydda mot nedåtrisker och ge din organisation en mätbar väg till högre avkastning. 

På OpenAI är våra modeller våra produkter, våra forskare använder rigorösa frontier-utvärderingar(öppnas i ett nytt fönster) 1 för att mäta hur väl modellerna presterar inom olika domäner. Även om frontier-utvärderingar hjälper oss att leverera bättre modeller snabbare kan de inte upptäcka alla nyanser som krävs för att säkerställa att modellen fungerar i ett specifikt arbetsflöde i en specifik företagsmiljö. Därför har interna team även skapat dussintals kontextuella utvärderingar utformade för att bedöma prestation inom en specifik produkt eller ett internt arbetsflöde. Därför bör även företagsledare lära sig att skapa kontextuella utvärderingar specifika för deras organisations behov och arbetsmiljö. 

Detta är en introduktion för företagsledare som vill tillämpa utvärderingar i sina organisationer. Kontextuella utvärderingar (var och en utformad för en specifik organisations arbetsflöde eller produkt) är ett aktivt utvecklingsområde och definitiva processer har ännu inte utvecklats. Som ett resultat ger den här artikeln ett brett ramverk som har fungerat i många situationer. Vi förväntar oss att detta område kommer att utvecklas och att fler ramverk kommer att skapas som adresserar specifika företagskontexter och mål. En utmärkt eval för en banbrytande, AI-aktiverad konsumentprodukt kan till exempel kräva en annan process än en utvärdering av en intern automatisering baserad på en standardiserad driftsprocedur. Vi tror att ramverket som presenteras nedan kommer att fungera som en samling av bästa praxis i båda fallen och kommer att vara en användbar guide när du skapar utvärderingar skräddarsydda för din organisations behov.

Så här fungerar utvärderingar: Specificera → Mäta → Förbättra

Diagram med titeln "Eval Blog" som visar ett flöde av utvärderingskomponenter och processer på en ljus bakgrund med färgade block och pilar som representerar logiken för modellutvärdering.

1. Specificera: Definiera vad "bra" betyder

Börja med ett mindre bemyndigat team som kan skriva ner syftet med ditt AI-system i enkla termer, till exempel: "Omvandla kvalificerade inkommande e-postmeddelanden till schemalagda demonstrationer och håll dig till varumärket."

Detta team bör bestå av en blandning av personer med teknisk och domänexpertis (i det givna exemplet vill du ha säljexperter i teamet). De ska kunna ange de viktigaste resultaten att mäta, beskriva arbetsflödet från början till slut och identifiera varje viktig beslutspunkt som ditt AI-system kommer att stöta på. För varje steg i arbetsflödet bör teamet definiera hur framgång ser ut och vad som ska undvikas. Den här processen kommer att skapa en kartläggning av dussintals exempelindata (t.ex. inkommande e-postmeddelanden) till de utdata de vill att systemet ska producera. Den resulterande guldstandarden av exempel bör vara en levande, auktoritativ referens för dina mest skickliga experters omdöme och smak för hur "utmärkt" ser ut.

Bli inte överväldigad av en kallstart och försök inte lösa allt på en gång. Processen är iterativ och stökig. Tidiga prototyper kan hjälpa enormt. Att granska 50 till 100 utdata från en tidig version av systemet kommer att avslöja hur och när ditt system misslyckas. Den här "felanalysen" kommer att resultera i en taxonomi av olika fel (och deras frekvenser) att spåra medan ditt system förbättras.

Denna process är inte enbart teknisk, den är tvärfunktionell och fokuserar på att definiera företagsmål och önskade processer. Tekniska team bör inte ensamma bedöma vad som bäst tjänar kunderna eller behoven hos andra team såsom produkt-, försäljnings- eller HR-team. Domänexperter, tekniska ledare och andra viktiga intressenter bör tillsammans dela på ansvaret. 

2. Mät: Testa mot verkliga förhållanden

Nästa steg är att mäta. Målet med mätning är att på ett tillförlitligt sätt lyfta fram konkreta exempel på hur och när systemet misslyckas. För att mäta skapar du en dedikerad testmiljö som noggrant speglar verkliga förhållanden, inte bara en demo eller en prompt playground. Utvärdera prestation mot din guldstandard och felanalys under samma tryck och undantagsfall som ditt system faktiskt kommer att stöta på.

Bedömningskriterier kan hjälpa till att konkretisera bedömningen av utdata från ditt system men det är enkelt att överbetona ytliga aspekter på bekostnad av dina övergripande mål. Dessutom är vissa egenskaper svåra eller omöjliga att mäta. I vissa fall är traditionella företagsmått viktiga. I andra fall måste du uppfinna nya mått. Håll dina ämnesexperter uppdaterade hela tiden och anpassa processen noggrant efter dina kärnmål.

För att testa systemet använder du exempel hämtade från verkliga situationer när så är möjligt och inkluderar eller uppfinner fall som är sällsynta men kostsamma om de hanteras fel. 

Vissa evals kan skalas med hjälp av en LLM-betygsättare, en AI-modell som betygsätter utdata på samma sätt som en expert, fast det är fortfarande viktigt att det finns med en människa i processen. Din domänexpert behöver regelbundet granska LLM-betygsättare för noggrannhet och ska även granska loggar över ditt systems beteende. 

Evals kan hjälpa dig att avgöra när ett system är redo att lanseras men de upphör inte vid lansering. Du ska kontinuerligt mäta kvaliteten på ditt systems verkliga utdata som genereras från verkliga indata. Precis som med alla produkter är signaler från dina användare (oavsett om de är externa eller interna) särskilt viktiga och bör integreras i din utvärdering.

3. Förbättra: Lär dig av misstag

Det sista steget är att upprätta en process för kontinuerlig förbättring. Att ta itu med problem som din eval upptäcker kan ske i många former: förfina prompter, justera dataåtkomst, uppdatera utvärderingen för att bättre spegla dina mål, och så vidare. När du upptäcker nya typer av fel lägger du till dem i din felanalys och åtgärdar dem. Varje iteration bygger på den föregående: nya kriterier och tydligare förväntningar på systemets beteende hjälper till att avslöja nya fall och subtila, envisa problem att rätta till.

Skapa ett datasvänghjul för att stöda denna iteration. Logga indata, utdata och utfall; granska dessa loggar enligt ett schema och skicka automatiskt vidare oklara eller kostsamma fall för expertgranskning. Lägg till dessa expertbedömningar till din eval och felanalys och använd dem sedan för att uppdatera prompter, verktyg eller modeller. Genom den här loopen kommer du att tydligare definiera dina förväntningar på systemet, anpassa det efter dessa förväntningar och identifiera ytterligare relevanta utdata och resultat att följa upp. Att implementera den här processen i stor skala ger en stor, differentierad och kontextspecifik datamängd som är svår att kopiera – en värdefull tillgång som din organisation kan utnyttja för att skapa den bästa produkten eller processen på din marknad. 

När evals skapar ett systematiskt sätt att förbättra ditt AI-system kan nya fellägen uppstå. I praktiken när modeller, data och företagsmål utvecklas måste utvärderingar kontinuerligt upprätthållas, utökas och stresstestas.

För externa implementeringar ersätter inte evals mer traditionella A/B-tester och produktexperiment. De är komplement till traditionella experiment som kan hjälpa att vägleda och ge insikt i hur de förändringar du gör påverkar verklig prestation. 

Vad evals betyder för företagsledare

Varje större teknikskifte omformar operativ excellens och konkurrensfördel. Ramverk såsom OKR och KPI:er har hjälpt organisationer att "mäta vad som är viktigt" för deras företag i stordataanalysens tidsålder. Evals är den naturliga förlängningen av mätning för den nya AI-eran.

Arbete med probabilistiska system kräver nya typer av mätningar och djupare överväganden av avvägningar. Ledare måste avgöra när precision är avgörande, när de kan vara mer flexibla och hur de ska balansera hastighet och tillförlitlighet.

Evals är svåra att implementera precis som att skapa fantastiska produkter är svårt. De kräver noggrannhet, vision och smak. När det lyckas blir evals unika differentierare. I en värld där information är fritt tillgänglig över hela världen och expertis demokratiserad beror din fördel på hur väl dina system fungerar inom din kontext. Robusta utvärderingar skapar sammansatta fördelar och institutionell kunskap när dina system förbättras. 

I grund och botten handlar utvärderingar om en djup förståelse för företagskontext och mål. Om du inte kan definiera vad "fantastiskt" innebär för ditt användningsfall är det osannolikt att du kommer att uppnå det. I detta avseende belyser evals en viktig lärdom för AI-eran: färdigheter i ledarskap är AI-färdigheter. Tydliga mål, direkt feedback, försiktigt omdöme och en tydlig förståelse för ditt värdeerbjudande, din strategi och dina processer är fortfarande viktiga, kanske till och med viktigare än någonsin.

När fler bästa metoder och ramverk dyker upp kommer vi att dela dem. Under tiden uppmuntrar vi dig att experimentera med evals och upptäcka vilka processer som fungerar bäst för dina behov. För att komma igång, identifiera problemet som ska lösas och din domänexpert, samla ihop ditt team och (om du bygger med vår API) utforska vår Platform Docs(öppnas i ett nytt fönster).

Hoppas inte på "perfekt". Specificera det, mät det och förbättra det.

Författare

OpenAI

Fotnoter

  1. 1

    Om du vill stödja vårt arbete med att bygga nästa generation av AI-modeller bjuder vi in dig att bidra till GDPVal, vårt senaste riktmärke för hur AI-modeller presterar vid verkliga uppgifter. Om du är branschexpert och intresserad av att bidra till GDPval kan du anmäla ditt intresse här. Om du är en kund som arbetar med OpenAI och vill bidra till en framtida omgång av GDPval kan du anmäla ditt intresse här.