Kako evalovi pokreću sledeće poglavlje AI-ja za kompanije
Ovaj vodič uči poslovne lidere kako evaluacioni okviri („evalovi“) pretvaraju poslovne ciljeve u dosledne rezultate.
Više od milion kompanija širom sveta koristi AI da ostvari veću efikasnost i stvori dodatnu vrednost. Ali neke organizacije su imale poteškoća da postignu rezultate koje očekuju. Šta uzrokuje taj jaz?
U OpenAI-ju interno koristimo AI da ostvarimo svoje ambiciozne ciljeve. Jedan ključni skup alata koje koristimo jesu evalovi, metode za merenje i unapređenje sposobnosti AI sistema da ispuni očekivanja.
Slično dokumentima sa zahtevima za proizvod, evalovi pretvaraju nejasne ciljeve i apstraktne ideje u konkretne i eksplicitne. Strateška upotreba evalova može učiniti proizvod okrenut korisnicima ili interni alat pouzdanijim u velikim razmerama, smanjiti greške visoke ozbiljnosti, zaštititi od negativnog rizika i dati organizaciji merljiv put ka većem ROI-ju.
U OpenAI-ju, naši modeli su naši proizvodi, pa naši istraživači koriste rigorozne granične evalove(отвара се у новом прозору) 1 da mere koliko dobro modeli funkcionišu u različitim domenima. Iako nam granične evalove pomažu da brže isporučujemo bolje modele, oni ne mogu da otkriju sve nijanse potrebne da bi se obezbedilo da će model funkcionisati u konkretnom toku rada u konkretnom poslovnom okruženju. Zato su interni timovi takođe napravili desetine kontekstualnih evalova osmišljenih da procene performanse unutar određenog proizvoda ili internog toka rada. Zbog toga bi i poslovni lideri trebalo da nauče kako da kreiraju kontekstualne evalove specifične za potrebe i operativno okruženje svoje organizacije.
Ovo je uvod za poslovne lidere koji žele da primene evalove u svojim organizacijama. Kontekstualni evalovi, od kojih je svaki izrađen za konkretan tok rada ili proizvod određene organizacije, aktivna su oblast razvoja i konačni procesi još nisu uspostavljeni. Zbog toga ovaj članak pruža širok okvir za koji smo videli da funkcioniše u mnogim situacijama. Očekujemo da će se ova oblast razvijati i da će se pojaviti još okvira koji odgovaraju specifičnim poslovnim kontekstima i ciljevima. Na primer, odličan eval za vrhunski potrošački proizvod sa AI mogućnostima može zahtevati drugačiji proces od evala za internu automatizaciju zasnovanu na standardnoj operativnoj proceduri. Verujemo da će okvir predstavljen u nastavku služiti kao skup najboljih praksi u oba slučaja i biti koristan vodič dok gradite evalove prilagođene potrebama vaše organizacije.
Počnite sa malim, osnaženim timom koji može jednostavnim rečima da zapiše svrhu vašeg AI sistema, na primer: „Pretvoriti kvalifikovane dolazne imejlove u zakazane demo prezentacije uz očuvanje brenda.“
Ovaj tim treba da bude mešavina ljudi sa tehničkom i stručnom ekspertizom u oblasti (u datom primeru, želeli biste stručnjake za prodaju u timu). Trebalo bi da mogu da navedu najvažnije ishode koje treba meriti, opišu tok rada od početka do kraja i identifikuju svaku važnu tačku odlučivanja sa kojom će se vaš AI sistem susresti. Za svaki korak u tom toku rada, tim treba da definiše kako izgleda uspeh i šta treba izbeći. Ovaj proces će napraviti mapiranje desetina primera ulaza (npr. dolaznih imejlova) na izlaze koje žele da sistem proizvede. Nastali zlatni skup primera treba da bude živ, autoritativan referentni izvor procene i osećaja vaših najiskusnijih stručnjaka za to kako izgleda „odlično“.
Nemojte da vas preplavi težak početak niti pokušavajte da rešite sve odjednom. Proces je iterativan i neuredan. Rano prototipisanje može izuzetno da pomogne. Pregled 50 do 100 izlaza iz rane verzije sistema otkriće kako i kada vaš sistem podbacuje. Ova „analiza grešaka“ rezultiraće taksonomijom različitih grešaka (i njihovih učestalosti) koje treba pratiti kako se sistem unapređuje.
Ovaj proces nije čisto tehnički — on je međufunkcionalan i usmeren na definisanje poslovnih ciljeva i željenih procesa. Od tehničkih timova ne treba tražiti da izolovano procenjuju šta najbolje služi korisnicima ili potrebama drugih timova kao što su proizvod, prodaja ili HR. Shodno tome, stručnjaci za oblast, tehnički rukovodioci i drugi ključni akteri treba da dele vlasništvo.
Sledeći korak je merenje. Cilj merenja je da pouzdano iznese na videlo konkretne primere kako i kada sistem podbacuje. Da biste to uradili, napravite namensko testno okruženje koje verno odražava uslove iz stvarnog sveta — ne samo demo ili igralište za instrukcije. Evaluirajte performanse u odnosu na svoj zlatni skup i analizu grešaka pod istim pritiscima i rubnim slučajevima sa kojima će se vaš sistem zaista suočiti.
Rubrike mogu pomoći da procena izlaza vašeg sistema bude konkretnija, ali je moguće prenaglasiti površinske stavke na račun vaših ukupnih ciljeva. Pored toga, neke osobine je teško ili nemoguće meriti. U nekim slučajevima biće važni tradicionalni poslovni metrički pokazatelji. U drugima ćete morati da osmislite nove metrike. Uključujte svoje stručnjake za predmetnu oblast tokom celog procesa i čvrsto ga uskladite sa svojim osnovnim ciljevima.
Da biste sistem zaista testirali, koristite primere iz stvarnih situacija kad god je to moguće i uključite ili osmislite rubne slučajeve koji su retki, ali skupi ako se njima pogrešno rukuje.
Neki evalovi mogu se skalirati upotrebom LLM ocenjivača, AI modela koji ocenjuje izlaze na isti način kao stručnjak; ipak, i dalje je važno da čovek ostane uključen u proces. Vaš stručnjak za oblast treba redovno da proverava tačnost LLM ocenjivača i takođe direktno pregleda logove ponašanja vašeg sistema.
Evalovi vam mogu pomoći da odlučite kada je sistem spreman za lansiranje, ali se ne zaustavljaju na lansiranju. Treba neprekidno da merite kvalitet stvarnih izlaza svog sistema generisanih iz stvarnih ulaza. Kao i kod svakog proizvoda, signali vaših krajnjih korisnika (bilo spoljašnjih ili internih) posebno su važni i treba da budu ugrađeni u vaš eval.
Poslednji korak je uspostavljanje procesa za kontinuirano unapređenje. Rešavanje problema koje vaš eval otkrije može imati mnogo oblika: doradu instrukcija, prilagođavanje pristupa podacima, ažuriranje samog evala da bolje odražava vaše ciljeve i tako dalje. Kako otkrivate nove vrste grešaka, dodajte ih u svoju analizu grešaka i rešavajte ih. Svaka iteracija se nadovezuje na prethodnu: novi kriterijumi i jasnija očekivanja od ponašanja sistema pomažu da se otkriju novi rubni slučajevi i suptilni, uporni problemi koje treba ispraviti.
Da biste podržali ovu iteraciju, izgradite podatkovni zamajac. Beležite ulaze, izlaze i ishode; uzorkujte te logove po rasporedu i automatski usmeravajte dvosmislene ili skupe slučajeve na stručnu proveru. Dodajte te stručne procene u svoj eval i analizu grešaka, a zatim ih koristite za ažuriranje instrukcija, alata ili modela. Kroz ovu petlju jasnije ćete definisati svoja očekivanja od sistema, tesnije ga uskladiti sa tim očekivanjima i identifikovati dodatne relevantne izlaze i ishode za praćenje. Primena ovog procesa u velikim razmerama daje veliki, diferencirani, kontekstualno specifičan skup podataka koji je teško kopirati — vrednu imovinu koju vaša organizacija može da iskoristi dok gradi najbolji proizvod ili proces na svom tržištu.
Iako evalovi stvaraju sistematičan način za unapređenje vašeg AI sistema, mogu se pojaviti novi obrasci otkazivanja. U praksi, kako se modeli, podaci i poslovni ciljevi razvijaju, evalovi se takođe moraju neprekidno održavati, proširivati i testirati pod opterećenjem.
Za primene okrenute spoljnim korisnicima, evalovi ne zamenjuju tradicionalnije A/B testove i eksperimentisanje sa proizvodom. Oni dopunjuju tradicionalno eksperimentisanje, mogu međusobno da se usmeravaju i pružaju uvid u to kako promene koje pravite utiču na performanse u stvarnom svetu.
Svaka velika tehnološka promena preoblikuje operativnu izvrsnost i konkurentsku prednost. Okviri kao što su OKR-i i KPI-jevi pomogli su organizacijama da se usmere na „merenja onoga što je važno“ za njihovo poslovanje u eri analitike velikih podataka. Evalovi su prirodni nastavak merenja za eru AI-ja.
Rad sa probabilističkim sistemima zahteva nove vrste merenja i dublje razmatranje kompromisa. Lideri moraju da odluče kada je preciznost neophodna, kada mogu biti fleksibilniji i kako da usklade brzinu i pouzdanost.
Evalove je teško primeniti iz istog razloga iz kog je teško graditi sjajne proizvode; oni zahtevaju rigoroznost, viziju i osećaj. Ako se urade kako treba, evalovi postaju jedinstveni diferencijatori. U svetu u kom su informacije slobodno dostupne širom sveta, a stručnost demokratizovana, vaša prednost zavisi od toga koliko dobro vaši sistemi mogu da izvršavaju zadatke u vašem kontekstu. Robusni evalovi stvaraju složene prednosti i institucionalno znanje kako se vaši sistemi unapređuju.
U svojoj suštini, evalovi se odnose na duboko razumevanje poslovnog konteksta i ciljeva. Ako ne možete da definišete šta „odlično“ znači za vaš slučaj upotrebe, malo je verovatno da ćete to postići. U tom smislu, evalovi ističu ključnu lekciju ere AI-ja: menadžerske veštine su AI veštine. Jasni ciljevi, direktna povratna informacija, razborito rasuđivanje i jasno razumevanje vaše vrednosne ponude, strategije i procesa i dalje su važni, možda čak više nego ikad.
Kako se bude pojavljivalo više najboljih praksi i okvira, delićeмо ih. U međuvremenu, podstičemo vas da eksperimentišete sa evalovima i otkrijete koji procesi najbolje funkcionišu za vaše potrebe. Za početak, identifikujte problem koji treba rešiti i svog stručnjaka za oblast, okupite mali tim i, ako gradite na našem API-ju, istražite našu dokumentaciju platforme(отвара се у новом прозору).
Ne nadajte se „odličnom“. Definišite ga, izmerite ga i unapređujte se ka njemu.
Аутор
Fusnote
- 1
Ako želite da podržite naš rad na izgradnji sledeće generacije AI modela, pozivamo vas da doprinesete GDPVal-u, našem najnovijem reperu za to kako AI modeli rade na zadacima iz stvarnog sveta. Ako ste stručnjak iz industrije i želite da doprinesete GDPVal-u, iskažite interesovanje ovde. Ako ste klijent koji radi sa OpenAI-jem i želite da doprinesete nekom budućem krugu GDPVal-a, iskažite interesovanje ovde.


