გადადით მთავარ შინაარსზე
OpenAI

19 ნოემბერი, 2025

კვლევა

როგორ განაპირობებს eval-ები AI-ის შემდეგ თავს ბიზნესებისთვის

ეს შესავალი ბიზნესლიდერებს ასწავლის, როგორ აქცევს შეფასების ჩარჩოები („evals“) ბიზნესმიზნებს თანმიმდევრულ შედეგებად.

იტვირთება…

მსოფლიოს მასშტაბით ერთ მილიონზე მეტი ბიზნესი იყენებს AI-ს უფრო მაღალი ეფექტიანობისა და ღირებულების შესაქმნელად. თუმცა ზოგიერთ ორგანიზაციას უჭირს იმ შედეგების მიღება, რასაც ელოდა. რა იწვევს ამ სხვაობას?

OpenAI-ში ჩვენ შიდა პროცესებში ვიყენებთ AI-ს ჩვენი ამბიციური მიზნების მისაღწევად. ერთ-ერთი მთავარი ხელსაწყოების ნაკრები, რომელსაც ვიყენებთ, არის eval-ები — მეთოდები, რომლითაც იზომება და უმჯობესდება AI სისტემის უნარი, გაამართლოს მოლოდინები. 

პროდუქტის მოთხოვნების დოკუმენტების მსგავსად, eval-ები ბუნდოვან მიზნებსა და აბსტრაქტულ იდეებს კონკრეტულსა და ცხადს ხდის. eval-ების სტრატეგიულად გამოყენებამ შეიძლება მომხმარებელზე ორიენტირებული პროდუქტი ან შიდა ინსტრუმენტი უფრო სანდო გახადოს მასშტაბურად, შეამციროს მაღალი სიმძიმის შეცდომები, დაიცვას უარყოფითი რისკებისგან და ორგანიზაციას მისცეს უფრო მაღალი ROI-ისკენ მიმავალი გაზომვადი გზა. 

OpenAI-ში ჩვენი მოდელები ჩვენი პროდუქტებია, ამიტომ ჩვენი მკვლევრები იყენებენ მკაცრ მოწინავე eval-ებს(იხსნება ახალ ფანჯარაში) 1 სხვადასხვა დომენში მოდელების მუშაობის ხარისხის გასაზომად. მიუხედავად იმისა, რომ მოწინავე eval-ები გვეხმარება უკეთესი მოდელები უფრო სწრაფად გამოვუშვათ, ისინი ვერ ავლენს ყველა იმ ნიუანსს, რომელიც საჭიროა იმის უზრუნველსაყოფად, რომ მოდელმა კონკრეტულ ბიზნესგარემოში კონკრეტულ სამუშაო ნაკადზე იმუშაოს. სწორედ ამიტომ, შიდა გუნდებმა ასევე შექმნეს ათობით კონტექსტური eval, რომლებიც შექმნილია კონკრეტულ პროდუქტში ან შიდა სამუშაო ნაკადში წარმადობის შესაფასებლად. ამიტომაც ბიზნესლიდერებმა უნდა ისწავლონ, როგორ შექმნან კონტექსტური eval-ები, რომლებიც მათი ორგანიზაციის საჭიროებებსა და საოპერაციო გარემოზეა მორგებული. 

ეს არის შესავალი ბიზნესლიდერებისთვის, რომლებიც თავიანთ ორგანიზაციებში eval-ების გამოყენებას ცდილობენ. კონტექსტური eval-ები, რომელთაგან თითოეული კონკრეტული ორგანიზაციის სამუშაო ნაკადზე ან პროდუქტზეა მორგებული, განვითარების აქტიური სფეროა და საბოლოოდ ჩამოყალიბებული პროცესები ჯერ არ არსებობს. ამიტომ ეს სტატია გვთავაზობს ფართო ჩარჩოს, რომელმაც, როგორც ვნახეთ, მრავალ სიტუაციაში იმუშავა. ველით, რომ ეს სფერო განვითარდება და გაჩნდება მეტი ჩარჩო, რომლებიც კონკრეტულ ბიზნესკონტექსტებსა და მიზნებს უპასუხებს. მაგალითად, შესანიშნავ eval-ს უახლესი, AI-გაძლიერებული სამომხმარებლო პროდუქტისთვის შეიძლება სხვა პროცესი სჭირდებოდეს, ვიდრე eval-ს შიდა ავტომატიზაციისთვის, რომელიც სტანდარტულ ოპერაციულ პროცედურაზეა აგებული. გვჯერა, რომ ქვემოთ წარმოდგენილი ჩარჩო ორივე შემთხვევაში საუკეთესო პრაქტიკების კრებულად გამოდგება და სასარგებლო გზამკვლევი იქნება, როცა თქვენი ორგანიზაციის საჭიროებებზე მორგებულ eval-ებს შექმნით.

როგორ მუშაობს eval-ები: განსაზღვრა → გაზომვა → გაუმჯობესება

დიაგრამა სათაურით „Eval Blog“, რომელიც აჩვენებს შეფასების კომპონენტებისა და პროცესების ნაკადს ღია ფონზე, ფერადი ბლოკებითა და ისრებით, რომლებიც მოდელის შეფასების ლოგიკას ასახავს.

1. განსაზღვრა: დაადგინეთ, რას ნიშნავს „შესანიშნავი“

დაიწყეთ პატარა, უფლებამოსილი გუნდით, რომელსაც შეუძლია მარტივი ენით ჩამოაყალიბოს თქვენი AI სისტემის დანიშნულება, მაგალითად: „გადააქციეთ კვალიფიციური შემომავალი ელფოსტები დაგეგმილ დემოებად, ბრენდის ტონის შენარჩუნებით.“

ეს გუნდი უნდა შედგებოდეს ტექნიკური და დომენური ექსპერტიზის მქონე ადამიანებისგან (მოცემულ მაგალითში, გუნდში გაყიდვების ექსპერტებიც უნდა იყვნენ). მათ უნდა შეეძლოთ გაზომვისთვის ყველაზე მნიშვნელოვანი შედეგების დასახელება, სამუშაო ნაკადის თავიდან ბოლომდე აღწერა და ყოველი მნიშვნელოვანი გადაწყვეტილების წერტილის იდენტიფიცირება, რომელსაც თქვენი AI სისტემა შეხვდება. ამ სამუშაო ნაკადის თითოეული საფეხურისთვის გუნდმა უნდა განსაზღვროს, როგორ გამოიყურება წარმატება და რას უნდა ერიდოს. ეს პროცესი შექმნის ათობით მაგალითური შეყვანის (მაგ., შემომავალი ელფოსტების) რუკას იმ გამოსავლებთან, რომელთა მიღებაც მათ სისტემისგან სურთ. მიღებული მაგალითების golden set უნდა იყოს თქვენი ყველაზე გამოცდილი ექსპერტების განსჯისა და გემოვნების ცოცხალი, ავტორიტეტული საცნობარო წყარო იმისა, თუ როგორ გამოიყურება „შესანიშნავი“.

არ გადაიტვირთოთ ცარიელი სტარტით და ნუ შეეცდებით ყველაფრის ერთდროულად გადაჭრას. პროცესი იტერაციული და არაწრფივია. საწყისი პროტოტიპირება ძალიან დაგეხმარებათ. სისტემის ადრეული ვერსიის 50-დან 100-მდე შედეგის გადახედვა გამოავლენს, როგორ და როდის მარცხდება თქვენი სისტემა. ეს „შეცდომების ანალიზი“ შექმნის სხვადასხვა შეცდომის ტაქსონომიას (და მათ სიხშირეებს), რომელსაც თვალს მიადევნებთ თქვენი სისტემის გაუმჯობესებასთან ერთად.

ეს პროცესი მხოლოდ ტექნიკური არ არის — ის跨ფუნქციურია და ბიზნესმიზნებისა და სასურველი პროცესების განსაზღვრაზეა ორიენტირებული. ტექნიკურ გუნდებს არ უნდა დაევალოთ იზოლირებულად გადაწყვიტონ, რა ემსახურება საუკეთესოდ მომხმარებლებს ან სხვა გუნდების, მაგალითად პროდუქტის, გაყიდვების ან HR-ის საჭიროებებს. შესაბამისად, დომენურმა ექსპერტებმა, ტექნიკურმა ლიდერებმა და სხვა მთავარმა დაინტერესებულმა მხარეებმა პასუხისმგებლობა უნდა გაინაწილონ. 

2. გაზომვა: შეამოწმეთ რეალური სამყაროს პირობებში

შემდეგი ნაბიჯი გაზომვაა. გაზომვის მიზანია საიმედოდ გამოავლინოს კონკრეტული მაგალითები იმისა, როგორ და როდის მარცხდება სისტემა. ამისთვის შექმენით სპეციალური სატესტო გარემო, რომელიც მაქსიმალურად ახლოს იქნება რეალური სამყაროს პირობებთან — და არა უბრალოდ დემო ან მოთხოვნების სათამაშო სივრცე. შეაფასეთ წარმადობა თქვენი golden set-ისა და შეცდომების ანალიზის მიმართ იმავე წნეხისა და გამონაკლისი შემთხვევების პირობებში, რომლებსაც თქვენი სისტემა რეალურად შეხვდება.

რუბრიკები დაგეხმარებათ, თქვენი სისტემის შედეგების შეფასება უფრო კონკრეტული გახდეს, მაგრამ არსებობს რისკი, რომ ზედმეტი ყურადღება გამახვილდეს ზედაპირულ ელემენტებზე თქვენი საერთო მიზნების ხარჯზე. გარდა ამისა, ზოგი თვისება რთული ან შეუძლებელია გასაზომად. ზოგ შემთხვევაში მნიშვნელოვანი იქნება ტრადიციული ბიზნესმეტრიკები. სხვებში ახალი მეტრიკების მოგონება დაგჭირდებათ. მთელი პროცესის განმავლობაში პროცესში ჩართული გყავდეთ თქვენი საგნობრივი ექსპერტები და პროცესი მჭიდროდ შეუსაბამეთ თქვენს ძირითად მიზნებს.

სისტემის რეალურად შესამოწმებლად, შეძლებისდაგვარად გამოიყენეთ რეალური სიტუაციებიდან აღებული მაგალითები და ჩართეთ ან თავად შექმენით ისეთი გამონაკლისი შემთხვევები, რომლებიც იშვიათია, მაგრამ არასწორი დამუშავებისას ძვირი ჯდება. 

ზოგი eval შეიძლება მასშტაბირდეს LLM შემფასებლის გამოყენებით — AI მოდელის, რომელიც შედეგებს ისე აფასებს, როგორც ექსპერტი შეაფასებდა; თუმცა მაინც მნიშვნელოვანია, რომ პროცესში ადამიანი იყოს ჩართული. თქვენს დომენურ ექსპერტს რეგულარულად უნდა გადაამოწმოს LLM შემფასებლები სიზუსტეზე და ასევე პირდაპირ გადახედოს თქვენი სისტემის ქცევის ჟურნალებს. 

eval-ები დაგეხმარებათ გადაწყვიტოთ, როდის არის სისტემა მზად გაშვებისთვის, მაგრამ ისინი გაშვებით არ მთავრდება. უწყვეტად უნდა ზომავდეთ თქვენი სისტემის რეალური შეყვანებიდან გენერირებული რეალური შედეგების ხარისხს. როგორც ნებისმიერი პროდუქტის შემთხვევაში, თქვენი საბოლოო მომხმარებლებისგან მიღებული სიგნალები (გარე თუ შიდა) განსაკუთრებით მნიშვნელოვანია და თქვენს eval-ში უნდა იყოს ჩაშენებული.

3. გაუმჯობესება: ისწავლეთ შეცდომებისგან

ბოლო ნაბიჯია უწყვეტი გაუმჯობესების პროცესის შექმნა. თქვენი eval-ით გამოვლენილი პრობლემების მოგვარებას მრავალი ფორმა შეიძლება ჰქონდეს: მოთხოვნების დახვეწა, მონაცემებზე წვდომის კორექტირება, თავად eval-ის განახლება ისე, რომ უკეთ ასახავდეს თქვენს მიზნებს და ა.შ. როცა შეცდომების ახალ ტიპებს აღმოაჩენთ, დაამატეთ ისინი თქვენი შეცდომების ანალიზს და იმუშავეთ მათზე. ყოველი იტერაცია წინაზე გროვდება: ახალი კრიტერიუმები და სისტემის ქცევის უფრო მკაფიო მოლოდინები გეხმარებათ ახალი გამონაკლისი შემთხვევებისა და ფაქიზი, ჯიუტი პრობლემების გამოვლენაში, რომლებიც გამოსასწორებელია.

ამ იტერაციის მხარდასაჭერად შექმენით მონაცემთა flywheel. დაალოგეთ შეყვანები, შედეგები და outcomes; გრაფიკით აიღეთ ამ ჟურნალებიდან ნიმუშები და ბუნდოვანი ან ძვირადღირებული შემთხვევები ავტომატურად გადაამისამართეთ ექსპერტულ განხილვაზე. დაამატეთ ეს ექსპერტული შეფასებები თქვენს eval-სა და შეცდომების ანალიზს, შემდეგ კი გამოიყენეთ ისინი მოთხოვნების, ინსტრუმენტების ან მოდელების გასაახლებლად. ამ ციკლის მეშვეობით უფრო მკაფიოდ განსაზღვრავთ თქვენს მოლოდინებს სისტემის მიმართ, უფრო მჭიდროდ შეუსაბამებთ მას ამ მოლოდინებს და გამოავლენთ დამატებით რელევანტურ შედეგებსა და outcomes-ს, რომლებსაც უნდა მიადევნოთ თვალი. ამ პროცესის მასშტაბურად დანერგვა ქმნის დიდ, განსხვავებულ, კონტექსტზე მორგებულ მონაცემთა ნაკრებს, რომლის კოპირებაც რთულია — ღირებულ აქტივს, რომლის გამოყენებაც თქვენს ორგანიზაციას შეუძლია, როდესაც თქვენს ბაზარზე საუკეთესო პროდუქტს ან პროცესს აშენებთ. 

მიუხედავად იმისა, რომ eval-ები თქვენს AI სისტემის გასაუმჯობესებლად სისტემურ გზას ქმნის, შესაძლოა ახალი მარცხის რეჟიმებიც წარმოიშვას. პრაქტიკაში, მოდელების, მონაცემებისა და ბიზნესმიზნების ევოლუციასთან ერთად, eval-ებიც უწყვეტად უნდა იყოს შენარჩუნებული, გაფართოებული და სტრეს-ტესტირებული.

გარე მომხმარებელზე მიმართული დანერგვებისთვის eval-ები ვერ ჩაანაცვლებს უფრო ტრადიციულ A/B ტესტებსა და პროდუქტულ ექსპერიმენტებს. ისინი ტრადიციული ექსპერიმენტაციის დამატებაა, რომელიც მათ ერთმანეთის მიმართულებაში დაეხმარება და თვალსაჩინოს გახდის, როგორ აისახება თქვენს მიერ შეტანილი ცვლილებები რეალურ წარმადობაზე. 

რას ნიშნავს eval-ები ბიზნესლიდერებისთვის

ყოველი დიდი ტექნოლოგიური ცვლილება ცვლის ოპერაციულ სრულყოფილებასა და კონკურენტულ უპირატესობას. ისეთი ჩარჩოები, როგორიცაა OKR-ები და KPI-ები, ორგანიზაციებს დაეხმარა, დიდი მონაცემების ანალიტიკის ეპოქაში თავიანთი ბიზნესი „იმის გაზომვაზე, რაც მნიშვნელოვანია“ დაეფუძნებინათ. eval-ები გაზომვის ბუნებრივი გაგრძელებაა AI-ის ეპოქისთვის.

ალბათობით სისტემებთან მუშაობა გაზომვის ახალ ტიპებსა და კომპრომისების უფრო ღრმა გააზრებას მოითხოვს. ლიდერებმა უნდა გადაწყვიტონ, როდის არის სიზუსტე აუცილებელი, როდის შეუძლიათ იყვნენ უფრო მოქნილები და როგორ დააბალანსონ სისწრაფე და სანდოობა.

eval-ების დანერგვა რთულია იმავე მიზეზით, რა მიზეზითაც შესანიშნავი პროდუქტების შექმნაა რთული; ისინი სიმკაცრეს, ხედვასა და გემოვნებას მოითხოვს. თუ ყველაფერი კარგად გაკეთდა, eval-ები უნიკალურ განმასხვავებლად იქცევა. მსოფლიოში, სადაც ინფორმაცია თავისუფლადაა ხელმისაწვდომი და ექსპერტიზა დემოკრატიზებულია, თქვენი უპირატესობა დამოკიდებულია იმაზე, რამდენად კარგად ასრულებენ თქვენი სისტემები საქმეს თქვენს კონკრეტულ კონტექსტში. ძლიერი eval-ები ქმნის დაგროვებით უპირატესობებსა და ინსტიტუციურ ცოდნას თქვენი სისტემების გაუმჯობესებასთან ერთად. 

თავის არსში eval-ები ბიზნესკონტექსტისა და მიზნების ღრმა გაგებას ეხება. თუ ვერ განსაზღვრავთ, რას ნიშნავს „შესანიშნავი“ თქვენი გამოყენების შემთხვევისთვის, დიდი ალბათობით ვერც მიაღწევთ მას. ამ თვალსაზრისით, eval-ები AI ეპოქის ერთ მნიშვნელოვან გაკვეთილს უსვამს ხაზს: მენეჯერული უნარები AI უნარებია. მკაფიო მიზნები, პირდაპირი უკუკავშირი, გონივრული განსჯა და თქვენი ღირებულებითი შეთავაზების, სტრატეგიისა და პროცესების მკაფიო გაგება კვლავ მნიშვნელოვანია — შესაძლოა, უფრო მეტადაც კი, ვიდრე ოდესმე.

რადგან უფრო მეტი საუკეთესო პრაქტიკა და ჩარჩო ჩნდება, ჩვენ მათ გაგიზიარებთ. მანამდე კი გირჩევთ, eval-ები პრაქტიკაში სცადოთ და აღმოაჩინოთ, რომელი პროცესები მუშაობს საუკეთესოდ თქვენს საჭიროებებზე. დასაწყებად, განსაზღვრეთ გადასაჭრელი პრობლემა და თქვენი დომენური ექსპერტი, შეკრიბეთ პატარა გუნდი და, თუ ჩვენს API-ზე აშენებთ, გაეცანით ჩვენს პლატფორმის დოკუმენტაციას(იხსნება ახალ ფანჯარაში).

ნუ გექნებათ მხოლოდ „შესანიშნავის“ იმედი. განსაზღვრეთ ის, გაზომეთ და მისკენ გაუმჯობესდით.

ავტორი

OpenAI

სქოლიოები

  1. 1

    თუ გსურთ, მხარი დაუჭიროთ ჩვენს მუშაობას AI მოდელების შემდეგი თაობის შექმნაზე, გიწვევთ, წვლილი შეიტანოთ GDPVal-ში — ეს არის ჩვენი უახლესი ბენჩმარკი, რომელიც აჩვენებს, როგორ ასრულებენ AI მოდელები რეალური სამყაროს ამოცანებს. თუ ხართ ინდუსტრიის ექსპერტი და გაინტერესებთ GDPval-ში მონაწილეობა, გთხოვთ, აქ დააფიქსიროთ ინტერესი. თუ OpenAI-ს მომხმარებელი ხართ და გსურთ, წვლილი შეიტანოთ GDPval-ის მომავალ რაუნდში, გთხოვთ, აქ გამოხატოთ ინტერესი.