2025 ж. 19 қараша

Бизнестегі AI-дың келесі кезеңін evals қалай алға жылжытады

Бұл кіріспе бизнес басшыларына бағалау фреймворктары («evals») бизнес мақсаттарын қалай дәйекті нәтижелерге айналдыратынын түсіндіреді.

Жүктелуде…

Әлем бойынша бір миллионнан астам бизнес⁠ тиімділікті арттырып, құндылық жасау үшін AI-ды пайдаланып жатыр. Бірақ кей ұйымдар күткен нәтижеге қол жеткізуде қиналды. Бұл алшақтыққа не себеп?

OpenAI-де біз өршіл мақсаттарымызға жету үшін AI-ды ішкі түрде қолданамыз. Біз пайдаланатын негізгі құралдардың бірі — evals, яғни AI жүйесінің күтілген талаптарға сай келу қабілетін өлшеп, жақсартуға арналған әдістер.

Өнім талаптарының құжаттарына ұқсас, evals көмескі мақсаттар мен абстракт идеяларды нақты әрі айқын етеді. Evals-ті стратегиялық қолдану клиентке бағытталған өнімді немесе ішкі құралды ауқымда сенімдірек ете алады, ауыр қателерді азайтады, теріс тәуекелден қорғайды және ұйымға ROI-ды арттырудың өлшенетін жолын береді.

OpenAI-де біздің модельдеріміз — біздің өнімдеріміз, сондықтан зерттеушілеріміз әртүрлі домендерде модельдердің қаншалықты жақсы жұмыс істейтінін өлшеу үшін қатаң озық evals⁠(жаңа терезеде ашылады) ¹ қолданады. Озық evals бізге жақсырақ модельдерді жылдамырақ шығаруға көмектескенімен, олар нақты бизнес ортасындағы нақты жұмыс ағынында модель қалай жұмыс істейтінін қамтамасыз етуге қажет барлық нәзік тұстарды аша алмайды. Сондықтан ішкі командалар нақты өнім не ішкі жұмыс ағыны шеңберіндегі өнімділікті бағалауға арналған ондаған контекстік evals те жасады. Сол себепті бизнес басшылары да өз ұйымының қажеттіліктері мен операциялық ортасына сай контекстік evals жасауды үйренуі керек.

Бұл — өз ұйымдарында evals қолданғысы келетін бизнес басшыларына арналған кіріспе. Әрқайсысы нақты ұйымның жұмыс ағынына немесе өніміне бейімделіп жасалатын контекстік evals — әлі де белсенді дамып жатқан сала, әрі түпкілікті үдерістер әлі қалыптасқан жоқ. Сондықтан бұл мақала біз көптеген жағдайда тиімді болғанын көрген кең ауқымды фреймворкті ұсынады. Бұл саланың әрі қарай дамып, нақты бизнес контекстері мен мақсаттарына жауап беретін жаңа фреймворктер шығатынын күтеміз. Мысалы, алдыңғы қатарлы, AI-мен күшейтілген тұтынушылық өнімге арналған тамаша eval ішкі стандартты операциялық процедураға негізделген автоматтандыруға арналған eval-дан өзге үдерісті талап етуі мүмкін. Төменде берілген фреймворк екі жағдайда да үздік тәжірибелер жиынтығы болады және ұйымыңыздың қажеттіліктеріне бейімделген evals құру кезінде пайдалы нұсқаулық қызметін атқарады деп сенеміз.

Evals қалай жұмыс істейді: Анықтау → Өлшеу → Жақсарту

«Eval Blog» деп аталған диаграмма бағалау компоненттері мен үдерістерінің ағынын көрсетеді; ашық фонда түрлі түсті блоктар мен жебелер модельді бағалау логикасын бейнелейді.

1. Анықтау: «тамаша» дегеннің не екенін айқындаңыз

AI жүйеңіздің мақсатын қарапайым тілмен жаза алатын шағын, өкілетті командадан бастаңыз, мысалы: «Бренд стилін сақтай отырып, білікті кіріс хаттарды жоспарланған демоларға айналдыру».

Бұл команда техникалық және салалық сараптамасы бар адамдардан тұруы керек (берілген мысалда командада сату саласының сарапшылары болғаны жөн). Олар өлшенетін ең маңызды нәтижелерді айқындап, жұмыс ағынын басынан аяғына дейін сипаттап, AI жүйеңіз кездесетін әр маңызды шешім нүктесін анықтай алуы тиіс. Сол жұмыс ағынындағы әр қадам үшін команда табыстың қандай болатынын және неден аулақ болу керегін белгілеуі керек. Бұл үдеріс ондаған мысал кірістерді (мысалы, кіріс хаттар) жүйенің қандай шығыс беруі керегіне сәйкестендіретін карта жасайды. Нәтижесінде алынған golden set мысалдары «тамаша» дегеннің қандай болатыны жөніндегі ең білікті сарапшыларыңыздың пайымы мен талғамын көрсететін тірі, беделді анықтамалық болуы тиіс.

Бастапқы кезеңнен қорқып кетпеңіз және бәрін бірден шешуге тырыспаңыз. Бұл үдеріс итеративті және ретсіз болады. Ерте прототиптеу өте көп көмектесе алады. Жүйенің ертерек нұсқасынан шыққан 50-ден 100-ге дейінгі нәтижені қарап шығу жүйеңіздің қалай және қашан қате жіберіп жатқанын ашады. Мұндай «қате талдауы» жүйе жақсарған сайын қадағаланатын әртүрлі қателердің (және олардың жиілігінің) таксономиясын береді.

Бұл үдеріс тек техникалық емес — ол кросс-функционалды және бизнес мақсаттары мен қалаулы үдерістерді анықтауға шоғырланған. Техникалық командалардан оқшау түрде клиенттерге не өнім, сату немесе HR сияқты басқа командалардың қажеттіліктеріне не жақсы қызмет ететінін бағалау талап етілмеуі керек. Сондықтан салалық сарапшылар, техникалық жетекшілер және өзге де негізгі мүдделі тараптар ортақ иелік етуі тиіс.

2. Өлшеу: Нақты әлем жағдайларына қарсы тестілеу

Келесі қадам — өлшеу. Өлшеудің мақсаты — жүйенің қалай және қашан қате жіберіп жатқанын көрсететін нақты мысалдарды сенімді түрде табу. Ол үшін жай ғана демо не көмексөз алаңы емес, нақты әлем жағдайларын барынша жақын қайталайтын арнайы тестілеу ортасын құрыңыз. Өнімділікті golden set пен қате талдауыңызға қарсы, жүйеңіз шын мәнінде кездесетін дәл сол қысымдар мен шеткі жағдайларда бағалаңыз.

Рубрикалар жүйеңіздің нәтижелерін бағалауға нақтылық бере алады, бірақ жалпы мақсаттардың есебінен үстірт тармақтарға шамадан тыс мән беріп қою қаупі бар. Бұдан бөлек, кейбір қасиеттерді өлшеу қиын немесе мүмкін емес. Кейбір жағдайда дәстүрлі бизнес метрикалары маңызды болады. Басқа жағдайда жаңа метрикаларды өзіңіз ойлап табуыңыз керек. Пәндік сала сарапшыларын бүкіл үдеріс бойы байланыста ұстаңыз және үдерісті негізгі мақсаттарыңызбен тығыз сәйкестендіріңіз.

Жүйені шын мәнінде тестілеу үшін мүмкіндігінше нақты өмірдегі жағдайлардан алынған мысалдарды қолданыңыз және сирек болса да қате өңделсе қымбатқа түсетін шеткі жағдайларды қосыңыз не ойлап табыңыз.

Кейбір evals-ті LLM grader, яғни нәтижелерді сарапшы сияқты бағалайтын AI модель арқылы ауқымдауға болады; дегенмен адамды бақылау циклінде ұстау әлі де маңызды. Салалық сарапшыңыз LLM grader-лердің дәлдігін үнемі аудиттеп отыруы және жүйеңіздің мінез-құлқы жазылған логтарды тікелей қарап шығуы керек.

Evals жүйенің іске қосуға дайын екенін шешуге көмектесе алады, бірақ олар іске қосудан кейін тоқтамайды. Сіз жүйеңіздің нақты кірістерден туындаған нақты нәтижелерінің сапасын үздіксіз өлшеп отыруыңыз керек. Кез келген өнімдегідей, соңғы пайдаланушыларыңыздан келетін сигналдар (сыртқы болсын, ішкі болсын) ерекше маңызды және eval-ыңызға енгізілуі тиіс.

3. Жақсарту: Қателерден үйрену

Соңғы қадам — үздіксіз жетілдіру үдерісін құру. Eval ашқан мәселелерді шешу әртүрлі түрде іске асуы мүмкін: көмексөздерді нақтылау, деректерге қолжетімділікті реттеу, eval-дың өзін мақсаттарыңызды дәлірек көрсету үшін жаңарту және тағы басқа. Қателердің жаңа түрлерін анықтаған сайын оларды қате талдауыңызға қосып, шешіп отырыңыз. Әр итерация алдыңғысының үстіне жиналады: жаңа критерийлер мен жүйе мінез-құлқына қатысты анығырақ күтулер түзетілуі тиіс жаңа шеткі жағдайлар мен қырсық, нәзік мәселелерді айқындауға көмектеседі.

Бұл итерацияны қолдау үшін деректер маховигін құрыңыз. Кірістерді, шығыстарды және нәтижелерді журналдаңыз; бұл логтарды кесте бойынша іріктеп алып, күмәнді не шығыны жоғары жағдайларды автоматты түрде сарапшы қарауына жіберіңіз. Бұл сарапшы пайымдарын eval мен қате талдауыңызға қосыңыз, содан кейін оларды көмексөздерді, құралдарды немесе модельдерді жаңарту үшін пайдаланыңыз. Осы цикл арқылы сіз жүйеге қатысты күтулеріңізді айқынырақ анықтап, оны сол күтулерге жақынырақ сәйкестендіріп, қадағалануы тиіс қосымша өзекті нәтижелер мен қорытындыларды табасыз. Бұл үдерісті ауқымда енгізу көшіру қиын, құнды актив болатын, үлкен, сараланған, контекстке тән деректер жиынтығын береді — ұйымыңыз оны нарығыңыздағы ең үздік өнімді немесе үдерісті жасау кезінде пайдалана алады.

Evals AI жүйеңізді жақсартудың жүйелі жолын құрғанымен, жаңа істен шығу режимдері пайда болуы мүмкін. Іс жүзінде модельдер, деректер және бизнес мақсаттары өзгерген сайын, evals те үздіксіз қолдауды, кеңейтуді және стресс-тестілеуді қажет етеді.

Сыртқа бағытталған енгізулер үшін evals дәстүрлі A/B тесттер мен өнім эксперименттерін алмастырмайды. Олар — дәстүрлі эксперименттерді толықтыратын құралдар; бір-біріне бағыт беруге және сіз енгізген өзгерістердің нақты әлемдегі өнімділікке қалай әсер ететінін көруге мүмкіндік береді.

Evals бизнес басшылары үшін нені білдіреді

Әрбір ірі технологиялық ауысым операциялық мінсіздік пен бәсекелік артықшылықты қайта қалыптастырады. OKR және KPI сияқты фреймворктер ұйымдарға үлкен деректер аналитикасы дәуірінде өз бизнесі үшін «маңыздыны өлшеу» айналасында бағдарлануға көмектесті. Evals — AI дәуіріндегі өлшеудің табиғи жалғасы.

Ықтималдыққа негізделген жүйелермен жұмыс істеу өлшеудің жаңа түрлерін және ымыраларды тереңірек қарастыруды талап етеді. Басшылар дәлдік қашан аса маңызды екенін, қашан икемдірек болуға болатынын және жылдамдық пен сенімділікті қалай теңгеру керегін шешуі тиіс.

Evals-ті іске асыру қиын, себебі тамаша өнім жасау да қиын; олар қатаңдықты, көрегендікті және талғамды талап етеді. Жақсы жасалса, evals бірегей айырмашылық тудыратын факторға айналады. Ақпарат әлем бойынша еркін қолжетімді болып, сараптама демократияланатын әлемде сіздің артықшылығыңыз жүйелеріңіздің өз контексіңіз ішінде қаншалықты жақсы орындай алатынына байланысты. Берік evals жүйелеріңіз жақсарған сайын жинақталатын артықшылықтар мен институционалдық ноу-хау қалыптастырады.

Түптеп келгенде, evals — бизнес контексі мен мақсаттарын терең түсіну туралы. Егер өз қолдану жағдайыңыз үшін «тамаша» дегеннің не екенін анықтай алмасаңыз, оған жетуіңіз неғайбыл. Осы тұрғыдан evals AI дәуірінің маңызды сабағын көрсетеді: басқару дағдылары — AI дағдылары. Айқын мақсаттар, тікелей кері байланыс, байыпты пайым және құндылық ұсынысыңызды, стратегияңызды және үдерістеріңізді анық түсіну әлі де маңызды, тіпті бұрынғыдан да маңыздырақ болуы мүмкін.

Қосымша үздік тәжірибелер мен фреймворктер пайда болған сайын, біз олармен бөлісетін боламыз. Ал әзірше, evals-пен тәжірибе жасап, қажеттіліктеріңізге қандай үдерістер жақсырақ жұмыс істейтінін анықтауға шақырамыз. Бастау үшін шешілуі тиіс мәселені және салалық сарапшыңызды анықтаңыз, шағын командаңызды жинаңыз және егер біздің API негізінде құрып жатсаңыз, Platform Docs⁠(жаңа терезеде ашылады) материалдарын қараңыз.

«Тамаша» болады деп үміттенбеңіз. Оны нақтылаңыз, өлшеңіз және соған қарай жақсартыңыз.

2025

Автор

OpenAI

Ескертпелер

1
Егер біздің AI модельдерінің келесі буынын жасау жұмысымызды қолдағыңыз келсе, AI модельдерінің нақты әлемдегі тапсырмаларда қалай жұмыс істейтінін көрсететін ең жаңа бенчмаркіміз GDPVal⁠ жобасына үлес қосуға шақырамыз. Егер сіз GDPval-ға үлес қосуға қызығатын сала сарапшысы болсаңыз, мұнда қызығушылығыңызды білдіріңіз⁠. Егер сіз OpenAI-пен жұмыс істейтін клиент болсаңыз және GDPval-дың болашақ кезеңіне үлес қосқыңыз келсе, мұнда қызығушылық білдіріңіз⁠.

Оқуды жалғастырыңыз

Барлығын қарау

Бағдарламалау бағалауларында сигналды шудан ажырату

Зерттеу2026 ж. 8 шіл.

GeneBench-Pro-ны таныстырамыз

Зерттеу2026 ж. 30 мау.

A near-autonomous AI chemist improves a challenging reaction

Дерлік автономды ЖИ химик дәрілік химиядағы күрделі реакцияны жақсартты

Зерттеу2026 ж. 17 мау.