გადადით მთავარ შინაარსზე
OpenAI

25 სექტემბერი, 2025

პუბლიკაციაკვლევა

ჩვენი მოდელების რეალურ ამოცანებზე მუშაობის შეფასება

წარმოგიდგენთ GDPval-ს — ახალ შეფასებას, რომელიც ზომავს მოდელის მუშაობას ეკონომიკურად ღირებულ, რეალურ ამოცანებზე 44 პროფესიაში.

ჩვენი მისიაა უზრუნველვყოთ, რომ ზოგადი ხელოვნური ინტელექტი მთელ კაცობრიობას მოემსახუროს. ამ მისიის ფარგლებში გვინდა, გამჭვირვალედ ვაცნობოთ საზოგადოებას, თუ როგორ ეხმარებიან AI მოდელები ადამიანებს რეალურ სამყაროში. სწორედ ამიტომ წარმოგიდგენთ GDPval-ს: ახალ შეფასებას, რომელიც დაგვეხმარება ვაკვირდეთ, რამდენად კარგად ასრულებენ ჩვენი და სხვა მოდელები ეკონომიკურად ღირებულ, რეალურ ამოცანებს. ამ შეფასებას GDPval ვუწოდებთ, რადგან საწყის წერტილად ავიღეთ მთლიანი შიდა პროდუქტის (GDP) კონცეფცია, როგორც მნიშვნელოვანი ეკონომიკური ინდიკატორი, და ამოცანები ავიღეთ იმ ძირითადი პროფესიებიდან, რომლებიც ყველაზე მეტად უწყობენ ხელს GDP-ს.

ადამიანები ხშირად მსჯელობენ AI-ის უფრო ფართო გავლენაზე საზოგადოებაზე, მაგრამ მისი პოტენციალის გასაგებად ყველაზე მკაფიო გზა ისაა, რომ ვნახოთ, რისი გაკეთება შეუძლიათ მოდელებს უკვე დღეს. ისტორია აჩვენებს, რომ დიდ ტექნოლოგიებს — ინტერნეტიდან სმარტფონებამდე — გამოგონებიდან ფართო გავრცელებამდე ათ წელზე მეტი დასჭირდა. GDPval-ის მსგავსი შეფასებები გვეხმარება, AI-ის მომავალ გაუმჯობესებებზე საუბარი მტკიცებულებებს დავაფუძნოთ და არა ვარაუდებს, და ასევე გვაძლევს საშუალებას დროთა განმავლობაში ვაკონტროლოთ მოდელების გაუმჯობესება.

წინა AI შეფასებები, როგორიცაა რთული აკადემიური ტესტები და კონკურენტული კოდირების გამოწვევები, მნიშვნელოვანი იყო მოდელის მსჯელობის შესაძლებლობების საზღვრების გასაფართოებლად, მაგრამ ისინი ხშირად ვერ ასახავენ იმ ტიპის ამოცანებს, რომლებსაც ბევრი ადამიანი ყოველდღიურ სამუშაოში ასრულებს.

ამ ხარვეზის შესავსებად, ჩვენ ვქმნიდით შეფასებებს, რომლებიც ზომავს სულ უფრო რეალისტურ და ეკონომიკურად რელევანტურ შესაძლებლობებს. ეს პროგრესია კლასიკური აკადემიური ბენჩმარკებიდან, როგორიცაა MMLU (საგამოცდო ტიპის კითხვები ათეულობით თემაზე), გადავიდა უფრო პრაქტიკულ შეფასებებზე, როგორიცაა SWE-Bench (პროგრამული ინჟინერიის შეცდომების გასწორების ამოცანები), MLE-Bench (მანქანური სწავლების ინჟინერიის ამოცანები, როგორიცაა მოდელის გაწვრთნა და ანალიზი), და Paper-Bench (სამეცნიერო მსჯელობა და კვლევითი ნაშრომების კრიტიკა), და ბოლო პერიოდში გადავიდა ბაზარზე დაფუძნებულ შეფასებებზე, როგორიცაა SWE-Lancer (ფრილანს პროგრამული ინჟინერიის პროექტები რეალურ ანაზღაურებებზე დაფუძნებით).

GDPval ამ პროგრესიის შემდეგი ნაბიჯია. ის ზომავს მოდელის მუშაობას ამოცანებზე, რომლებიც პირდაპირ აღებულია გამოცდილი პროფესიონალების რეალური, ცოდნაზე დაფუძნებული საქმიანობიდან სხვადასხვა პროფესიასა და სექტორში, და გვაძლევს უფრო მკაფიო სურათს იმის შესახებ, როგორ ასრულებენ მოდელები ეკონომიკურად ღირებულ ამოცანებს. მოდელების შეფასება რეალისტურ პროფესიულ ამოცანებზე გვეხმარება გავიგოთ არა მხოლოდ ის, რამდენად კარგად მუშაობენ ისინი ლაბორატორიაში, არამედ ისიც, როგორ შეიძლება დაეხმარონ ადამიანებს ყოველდღიურ საქმიანობაში.

რას ზომავს GDPval

GDPval, ამ შეფასების პირველი ვერსია, მოიცავს 44 პროფესიას, რომლებიც შერჩეულია აშშ-ის GDP-ში ყველაზე დიდი წვლილის მქონე 9 ინდუსტრიიდან. GDPval-ის სრული ნაკრები მოიცავს 1,320 სპეციალიზებულ ამოცანას (მათგან 220 ღია წყაროდ გამოქვეყნებულ ოქროს ნაკრებში), რომელთაგან თითოეული საგულდაგულოდ შეიქმნა და გადამოწმდა გამოცდილი პროფესიონალების მიერ, რომელთა საშუალო გამოცდილება ამ სფეროებში 14 წელზე მეტია. ყოველი ამოცანა ეფუძნება რეალურ სამუშაო პროდუქტს, მაგალითად იურიდიულ ბრიფს, საინჟინრო ნახაზს, მომხმარებელთა მხარდაჭერის დიალოგს ან ექთნის მოვლის გეგმას.

GDPval გამორჩეულია როგორც რეალისტურობით, ისე შესაფასებელი ამოცანების მრავალფეროვნებით. სხვა ეკონომიკურ ღირებულებაზე მიბმული შეფასებებისგან განსხვავებით, რომლებიც კონკრეტულ დომენებზეა კონცენტრირებული (მაგ., SWE-Lancer), GDPval მრავალ ამოცანასა და პროფესიას მოიცავს. და ბენჩმარკებისგან განსხვავებით, რომლებიც ამოცანებს სინთეტიკურად ქმნიან აკადემიური გამოცდის ან ტესტის სტილში (მაგ., Humanity’s Last Exam ან MMLU), GDPval ფოკუსირებულია ამოცანებზე, რომლებიც ეფუძნება ისეთ შედეგებს, რომლებიც ან რეალური, დღეს არსებული სამუშაო პროდუქტის ნაწილია, ან ანალოგიურად კონსტრუირებული სამუშაო პროდუქტია.

ტრადიციული ბენჩმარკებისგან განსხვავებით, GDPval-ის ამოცანები უბრალო ტექსტური მოთხოვნები არ არის. მათ ახლავს საცნობარო ფაილები და კონტექსტი, ხოლო მოსალოდნელი შედეგები მოიცავს დოკუმენტებს, სლაიდებს, დიაგრამებს, ცხრილებსა და მულტიმედიას. ეს რეალისტურობა GDPval-ს უფრო რეალისტურ ტესტად აქცევს იმისთვის, თუ როგორ შეიძლება მოდელებმა პროფესიონალებს მხარი დაუჭირონ.

GDPval ადრეული ნაბიჯია და არ ასახავს მრავალი ეკონომიკური ამოცანის სრულ ნიუანსს. მიუხედავად იმისა, რომ იგი მოიცავს 44 პროფესიას და ასობით ცოდნაზე დაფუძნებულ ამოცანას, ის შეზღუდულია ერთმაგალითიანი შეფასებებით, ამიტომ ვერ აფიქსირებს შემთხვევებს, სადაც მოდელს კონტექსტის აგება ან მრავალი ვერსიის გზით გაუმჯობესება დასჭირდებოდა. მომავალი ვერსიები გაფართოვდება უფრო ინტერაქტიულ სამუშაო ნაკადებსა და კონტექსტით მდიდარ ამოცანებზე, რათა უკეთ ასახოს რეალური ცოდნაზე დაფუძნებული სამუშაოს სირთულე (დეტალებისთვის იხილეთ ქვემოთ მოცემული შეზღუდვების სექცია).

როგორ შევარჩიეთ პროფესიები

GDPval მოიცავს ამოცანებს 9 ინდუსტრიასა და 44 პროფესიაში, და მომავალი ვერსიები დაფარვას კიდევ უფრო გააფართოებს. საწყისი 9 ინდუსტრია შეირჩა იმ დარგების მიხედვით, რომლებიც აშშ-ის GDP-ში 5%-ზე მეტ წვლილს შეიტანენ, სენტ-ლუისის ფედერალური სარეზერვო ბანკის მონაცემების საფუძველზე. შემდეგ, თითოეულ ინდუსტრიაში შევარჩიეთ 5 პროფესია, რომლებიც საერთო ხელფასებსა და ანაზღაურებაში ყველაზე დიდ წვლილს შეიტანენ და უმეტესად ცოდნაზე დაფუძნებულ სამუშაოს წარმოადგენენ, აშშ-ის შრომის სტატისტიკის ბიუროს (BLS) 2024 წლის მაისის პროფესიული დასაქმების ანგარიშის(იხსნება ახალ ფანჯარაში) ხელფასებისა და დასაქმების მონაცემების გამოყენებით. იმის დასადგენად, პროფესიები უმეტესად ცოდნაზე დაფუძნებული იყო თუ არა, გამოვიყენეთ ამოცანების მონაცემები O*NET(იხსნება ახალ ფანჯარაში)-იდან, რომელიც აშშ-ის შრომის დეპარტამენტის მიერ მხარდაჭერილი პროფესიული ინფორმაციის ბაზაა. O*NET-ში თითოეული პროფესიის თითოეული ამოცანა კლასიფიცირებული გვქონდა, როგორც ცოდნაზე დაფუძნებული სამუშაო ან ფიზიკური/მანუალური შრომა (რომელიც ფიზიკურ სამყაროში მოქმედებას მოითხოვს). პროფესია მთლიანობაში ითვლებოდა „უმეტესად ცოდნაზე დაფუძნებულად“, თუ მისი შემადგენელი ამოცანების სულ მცირე 60% კლასიფიცირებული იყო როგორც არამომცველი ფიზიკური სამუშაოს ან მანუალური შრომის. ეს 60%-იანი ზღვარი GDPval-ის პირველი ვერსიისთვის საწყის წერტილად ავირჩიეთ და ყურადღება გავამახვილეთ იმ პროფესიებზე, სადაც AI-ს რეალურ პროდუქტიულობაზე ყველაზე დიდი გავლენა შეიძლება ჰქონდეს.

ამ პროცესმა ჩასართავად 44 პროფესია მოგვცა.

უძრავი ქონება, გაქირავება და ლიზინგი

  • კონსიერჟები

  • ქონების, უძრავი ქონებისა და საზოგადოებრივი ასოციაციების მენეჯერები

  • უძრავი ქონების გაყიდვების აგენტები

  • უძრავი ქონების ბროკერები

  • დახლისა და გაქირავების კლერკები

სახელმწიფო სექტორი

  • რეკრეაციის მუშაკები

  • კომპლაიენსის ოფიცრები

  • პოლიციისა და დეტექტივების პირველი ხაზის ზედამხედველები

  • ადმინისტრაციული სერვისების მენეჯერები

  • ბავშვთა, ოჯახისა და სკოლის სოციალური მუშაკები

წარმოება

  • მექანიკოსი ინჟინრები

  • სამრეწველო ინჟინრები

  • შემსყიდველები და შესყიდვების აგენტები

  • გადაზიდვის, მიღებისა და მარაგების აღრიცხვის კლერკები

  • წარმოებისა და ოპერირების თანამშრომელთა პირველი ხაზის ზედამხედველები

პროფესიული, სამეცნიერო და ტექნიკური სერვისები

  • პროგრამული უზრუნველყოფის დეველოპერები

  • იურისტები

  • ბუღალტრები და აუდიტორები

  • კომპიუტერული და საინფორმაციო სისტემების მენეჯერები

  • პროექტების მართვის სპეციალისტები

ჯანდაცვა და სოციალური დახმარება

  • რეგისტრირებული ექთნები

  • ექთნ-პრაქტიკოსები

  • სამედიცინო და ჯანდაცვის სერვისების მენეჯერები

  • ოფისისა და ადმინისტრაციული მხარდაჭერის თანამშრომელთა პირველი ხაზის ზედამხედველები

  • სამედიცინო მდივნები და ადმინისტრაციული ასისტენტები

ფინანსები და დაზღვევა

  • კლიენტთა მომსახურების წარმომადგენლები

  • ფინანსური და საინვესტიციო ანალიტიკოსები

  • ფინანსური მენეჯერები

  • პირადი ფინანსური მრჩევლები

  • ფასიანი ქაღალდების, სასაქონლო საქონლისა და ფინანსური სერვისების გაყიდვების აგენტები

საცალო ვაჭრობა

  • ფარმაცევტები

  • საცალო გაყიდვების თანამშრომელთა პირველი ხაზის ზედამხედველები

  • გენერალური და ოპერაციული მენეჯერები

  • კერძო დეტექტივები და გამომძიებლები

საბითუმო ვაჭრობა

  • გაყიდვების მენეჯერები

  • შეკვეთების ოპერატორები

  • არასაცალო გაყიდვების თანამშრომელთა პირველი ხაზის ზედამხედველები

  • გაყიდვების წარმომადგენლები, საბითუმო და საწარმოო სექტორში, ტექნიკური და სამეცნიერო პროდუქტების გარდა

  • გაყიდვების წარმომადგენლები, საბითუმო და საწარმოო სექტორში, ტექნიკური და სამეცნიერო პროდუქტები

ინფორმაცია

  • აუდიო და ვიდეო ტექნიკოსები

  • პროდიუსერები და რეჟისორები

  • სიახლეების ანალიტიკოსები, რეპორტიორები და ჟურნალისტები

  • ფილმისა და ვიდეოს მონტაჟის სპეციალისტები

  • რედაქტორები

GDPval მოიცავს 44 ცოდნაზე დაფუძნებულ პროფესიას 9 სექტორში — პროგრამული უზრუნველყოფის დეველოპერებიდან და იურისტებიდან რეგისტრირებულ ექთნებსა და მექანიკოს ინჟინრებამდე. ეს პროფესიები შეირჩა მათი ეკონომიკური მნიშვნელობის გამო და წარმოადგენს ყოველდღიური სამუშაოს იმ ტიპებს, სადაც AI-ს შეუძლია პროფესიონალებს არსებითად დაეხმაროს.

როგორ შევქმენით მონაცემთა ნაკრები

თითოეული პროფესიისთვის გამოცდილ პროფესიონალებთან ერთად შევქმენით წარმომადგენლობითი ამოცანები, რომლებიც მათ ყოველდღიურ საქმიანობას ასახავს. ამ პროფესიონალების საშუალო გამოცდილება 14 წელი იყო და ბევრს კარიერული წინსვლის ძლიერი ისტორია ჰქონდა. ჩვენ შეგნებულად მოვიზიდეთ ექსპერტების ფართო სპექტრი — მაგალითად, იურისტები სხვადასხვა პრაქტიკის სფეროდან და სხვადასხვა ზომის ფირმებიდან — რათა წარმომადგენლობითობა მაქსიმალური ყოფილიყო.

თითოეულმა ამოცანამ გაიარა მრავალსაფეხურიანი განხილვის პროცესი, რათა უზრუნველგვეყო, რომ ის წარმოადგენდა რეალურ სამუშაოს, იყო სხვა პროფესიონალის მიერ შესრულებადი და შეფასებისთვის საკმარისად ნათელი. საშუალოდ, თითოეულმა ამოცანამ ექსპერტთა განხილვის 5 რაუნდი გაიარა, მათ შორის შემოწმება სხვა ამოცანების ავტორებისგან, დამატებითი პროფესიული შემფასებლებისგან და მოდელზე დაფუძნებული ვალიდაციით.

შედეგად მიღებული მონაცემთა ნაკრები მოიცავს თითოეულ პროფესიაზე 30 სრულად გადახედილ ამოცანას (სრული ნაკრები), ხოლო ჩვენს ღია წყაროს ოქროს ნაკრებში — თითო პროფესიაზე 5 ამოცანას, რაც რეალურ ცოდნაზე დაფუძნებულ სამუშაოზე მოდელების შეფასებისთვის მყარ საფუძველს ქმნის.

GDPval-ის ამოცანების მაგალითები

მოთხოვნა + დავალების კონტექსტი

This is June 2025 and you are a Manufacturing Engineer, in an automobile assembly line. The product is a cable spooling truck for underground mining operations, and you are reviewing the final testing step. In the final testing step, a big spool of cable needs to be reeled in and reeled out 2 times, to ensure the cable spooling works as per requirement. The current operation requires 2 persons to work on this test. The first person needs to bring and position the spool near the test unit, the second person will connect the open end of the cable spool to the test unit and start the reel in step. While the cable is being unreeled from the spool, and onto the truck, the first person will need to rotate the spool in order to facilitate the unreeling. When the cable is fully reeled onto the truck, the next step is to perform the operation in reverse order, so the cable gets reeled out of the truck and back onto its own reel. This test is done another time to ensure functionality. This task is complicated, has associated risks, requires high labor and makes the work area cluttered. Your manager has requested you to develop a jig/fixture to simplify reel in and reel out of the cable reel spool, so the test can be done by one person. Attached to this request is an information document which provides basic details about the cable reel drum size, information to design the cable reel spooling jig and to structure the deliverable. The deliverable for this task will be a preliminary concept design only. Separate tasks will be done to calculate design foundations such as stress, strength, cost benefit analysis, etc. Design a jig using 3d modelling software and create a presentation using Microsoft PowerPoint. As part of the deliverable, upload only a pdf document summarizing the design, using snapshots of the 3d design created. The 3d design file is not required for submission.
Cable reel project requirements.pdf

გამოცდილი სპეციალისტის მიერ მომზადებული მასალა

კაბელის დოლურის დიზაინის დაშლილი ხედი
GDPval-ის თითოეული ამოცანა შექმნილია გამოცდილი პროფესიონალის მიერ და ასახავს მისი პროფესიის რეალურ ცოდნაზე დაფუძნებულ სამუშაოს. მოთხოვნა არის დომენის ექსპერტის მიერ შექმნილი რეალისტური სამუშაო დავალება, ხოლო ოქროს შედეგი თავად ექსპერტის გადაწყვეტაა.

როგორ ვაფასებთ მოდელების მუშაობას

GDPval-ის ამოცანებზე მოდელების მუშაობის შესაფასებლად ვეყრდნობით ექსპერტ „შემფასებლებს“ — გამოცდილი პროფესიონალების ჯგუფს იმავე პროფესიებიდან, რომლებიც მონაცემთა ნაკრებშია წარმოდგენილი. ეს შემფასებლები ბრმად ადარებენ მოდელების მიერ შექმნილ შედეგებს ამოცანების ავტორების მიერ შექმნილ შედეგებს (არ იციან, რომელია AI-ს მიერ და რომელი ადამიანის მიერ შექმნილი), და გვაწვდიან კრიტიკასა და რეიტინგებს. შემდეგ შემფასებლები ადამიანისა და AI-ის შედეგებს ალაგებენ რანგში და თითოეულ AI შედეგს აკლასიფიცირებენ, როგორც „უკეთესს“, „ისეთივე კარგს, როგორც“ ან „უარესს“ მეორესთან შედარებით.

ამოცანების ავტორებმა თავიანთი პროფესიებისთვის ასევე შექმნეს დეტალური ქულების მინიჭების რუბრიკები, რაც შეფასების პროცესს უფრო თანმიმდევრულსა და გამჭვირვალეს ხდის. ჩვენ ასევე შევქმენით „ავტომატური შემფასებელი“, AI სისტემა, რომელიც გაწვრთნილია იმის შეფასებაზე, თუ როგორ განსჯიდნენ ადამიან ექსპერტები მოცემულ შედეგს. სხვა სიტყვებით რომ ვთქვათ, სრული ექსპერტული განხილვის ჩატარების ნაცვლად, ავტომატურ შემფასებელს შეუძლია სწრაფად იწინასწარმეტყველოს, რომელ შედეგს მიანიჭებდნენ ადამიანები უპირატესობას. ამ ხელსაწყოს evals.openai.com-ზე ვაქვეყნებთ, როგორც ექსპერიმენტულ კვლევით სერვისს, თუმცა ის ჯერ კიდევ არ არის ისეთი სანდო, როგორც ექსპერტი შემფასებლები, ამიტომ მათ ჩასანაცვლებლად არ ვიყენებთ.

ადრეული შედეგები

აღმოვაჩინეთ, რომ დღევანდელი საუკეთესო მოწინავე მოდელები უკვე უახლოვდება ინდუსტრიის ექსპერტების მიერ შექმნილი სამუშაოს ხარისხს. ამის შესამოწმებლად ჩავატარეთ ბრმა შეფასებები, სადაც ინდუსტრიის ექსპერტები რამდენიმე წამყვანი მოდელის — GPT‑4o, o4-mini, OpenAI o3, GPT‑5, Claude Opus 4.1, Gemini 2.5 Pro და Grok 4 — შედეგებს ადარებდნენ ადამიანების მიერ შექმნილ ნამუშევრებს. GDPval-ის ოქროს ნაკრების 220 ამოცანაზე აღვრიცხეთ შემთხვევები, როცა მოდელის შედეგები შეფასდა როგორც ექსპერტების შედეგებზე უკეთესი („გამარჯვებები“) ან მათთან ტოლი („ფრეები“), როგორც ქვემოთ მოცემულ სვეტოვან დიაგრამაზე ჩანს. Claude Opus 4.1 ნაკრებში საუკეთესო შედეგის მქონე მოდელი იყო და განსაკუთრებით გამოირჩეოდა ესთეტიკაში (მაგ., დოკუმენტის ფორმატირება, სლაიდის განლაგება), ხოლო GPT‑5 განსაკუთრებით გამოირჩეოდა სიზუსტეში (მაგ., დომენისთვის სპეციფიკური ცოდნის პოვნა). ამ ამოცანებზე დროთა განმავლობაში მკაფიო პროგრესსაც ვხედავთ. შესრულება GPT‑4o‑დან (გამოშვებული 2024 წლის გაზაფხულზე) GPT‑5‑მდე (გამოშვებული 2025 წლის ზაფხულში) ორჯერ მეტზე მეტად გაიზარდა და მკაფიო წრფივ ტენდენციას მიჰყვება.

გარდა ამისა, აღმოვაჩინეთ, რომ მოწინავე მოდელებს GDPval-ის ამოცანების შესრულება ინდუსტრიის ექსპერტებზე დაახლოებით 100-ჯერ სწრაფად და 100-ჯერ იაფად შეუძლიათ. თუმცა ეს მაჩვენებლები ასახავს მხოლოდ მოდელის ინფერენციის დროსა და API-ის ტარიფებს და, შესაბამისად, არ ითვალისწინებს ადამიანურ ზედამხედველობას, იტერაციასა და ინტეგრაციის ნაბიჯებს, რომლებიც რეალურ სამუშაო გარემოში ჩვენი მოდელების გამოყენებისთვის არის საჭირო. მიუხედავად ამისა, განსაკუთრებით იმ ამოცანების ქვეჯგუფში, სადაც მოდელები განსაკუთრებით ძლიერები არიან, ვფიქრობთ, რომ ამოცანის ჯერ მოდელისთვის მიცემა, სანამ მას ადამიანს მივანდობთ, დროსა და თანხას დაზოგავს.

ექსპერტმა შემფასებლებმა წამყვანი მოდელების შედეგები ადამიან ექსპერტთა ნამუშევრებს შეადარეს. დღევანდელი მოწინავე მოდელები უკვე უახლოვდება ინდუსტრიის ექსპერტების მიერ შესრულებული სამუშაოს ხარისხს. Claude Opus 4.1-მა ამოცანების თითქმის ნახევარში ადამიანების ტოლი ან მათზე უკეთესი შედეგები აჩვენა.

GDPval-ის ამოცანებზე GPT‑4o‑დან GPT‑5‑მდე შესრულება ერთ წელიწადში სამჯერ მეტად გაიზარდა.

ბოლოს, GPT‑5‑ის შიდა, ექსპერიმენტული ვერსია ეტაპობრივად გავწვრთენით, რათა დაგვედგინა, შეგვეძლო თუ არა GDPval-ზე შესრულების გაუმჯობესება. დავადგინეთ, რომ ამ პროცესმა მართლაც გააუმჯობესა შედეგები და შემდგომი გაუმჯობესების პოტენციური გზა შექმნა. ამას სხვა კონტროლირებადი ექსპერიმენტებიც ადასტურებს: მოდელის ზომის გაზრდამ, უფრო მეტი მსჯელობის ნაბიჯის წახალისებამ და უფრო მდიდარი ამოცანის კონტექსტის მიწოდებამ თითოეულმა გაზომვადი გაუმჯობესება მოიტანა.

სრული შედეგები შეგიძლიათ ჩვენს ნაშრომში წაიკითხოთ. ასევე ვაქვეყნებთ GDPval-ის ამოცანების ოქროს ქვეჯგუფს და საჯარო შეფასების სერვისს, რათა სხვა მკვლევრებმაც შეძლონ ამ ნამუშევარზე დაყრდნობა.

შრომის მომავალი და AI

რაც უფრო ქმედითუნარიანი ხდება AI, მით უფრო მოსალოდნელია, რომ ის შრომის ბაზარზე ცვლილებებს გამოიწვევს. GDPval-ის ადრეული შედეგები აჩვენებს, რომ მოდელებს უკვე შეუძლიათ ზოგიერთი განმეორებადი, მკაფიოდ განსაზღვრული ამოცანის შესრულება ექსპერტებზე სწრაფად და ნაკლებ დანახარჯად. თუმცა სამუშაოების უმეტესობა უბრალოდ იმ ამოცანების ერთობლიობა არ არის, რომელთა ჩამოწერაც შეიძლება. GDPval აჩვენებს, სად შეუძლია AI-ს რუტინული ამოცანების შესრულება, რათა ადამიანებმა მეტი დრო დაუთმონ სამუშაოს შემოქმედებით და განსჯაზე დაფუძნებულ ნაწილებს. როდესაც AI თანამშრომლებს ასე ავსებს, ეს შეიძლება მნიშვნელოვან ეკონომიკურ ზრდად გადაიქცეს. ჩვენი მიზანია, AI-ის „აღმავალი ესკალატორი“ ყველასთვის ხელმისაწვდომი იყოს, ამ ხელსაწყოებზე წვდომის დემოკრატიზაციით, ცვლილებების პერიოდში მუშაკების მხარდაჭერით და ისეთი სისტემების შექმნით, რომლებიც ფართო მონაწილეობას აჯილდოებს.

შეზღუდვები და რა იქნება შემდეგ

GDPval ადრეული ნაბიჯია. მიუხედავად იმისა, რომ იგი მოიცავს 44 პროფესიასა და ასობით ამოცანას, ჩვენ ვაგრძელებთ ჩვენი მიდგომის დახვეწას, რათა გავაფართოოთ ტესტირების მასშტაბი და შედეგები უფრო მნიშვნელოვნად ვაქციოთ. შეფასების ამჟამინდელი ვერსია ასევე ერთმაგალითიანია, ამიტომ ვერ ასახავს შემთხვევებს, როცა მოდელს კონტექსტის აგება ან მრავალჯერადი ვერსიების გზით გაუმჯობესება დასჭირდებოდა — მაგალითად, კლიენტის უკუკავშირის შემდეგ იურიდიული ბრიფის გადამუშავება ან ანომალიის აღმოჩენის შემდეგ მონაცემთა ანალიზის გამეორება. გარდა ამისა, რეალურ სამყაროში ამოცანები ყოველთვის მკაფიოდ განსაზღვრული არ არის მოთხოვნითა და საცნობარო ფაილებით; მაგალითად, იურისტს შეიძლება მოუწიოს გაურკვევლობის ნავიგაცია და კლიენტთან საუბარი, სანამ გადაწყვეტს, რომ იურიდიული ბრიფის შექმნა მის დასახმარებლად სწორი მიდგომაა. ვგეგმავთ GDPval-ის გაფართოებას ისე, რომ მოიცავდეს მეტ პროფესიას, ინდუსტრიას და ამოცანის ტიპს, მეტი ინტერაქტიულობით და მეტი ამოცანით, რომლებიც გაურკვევლობაში ორიენტირებას მოითხოვს, გრძელვადიანი მიზნით — უკეთ გავზომოთ პროგრესი მრავალფეროვან ცოდნაზე დაფუძნებულ სამუშაოში.

ჩაერთეთ

საზოგადოების მონაწილეობა აუცილებელია — მოხარული ვართ, რომ GDPval-ს ერთად შევქმნით მკვლევრებთან, პრაქტიკოსებთან და ორგანიზაციებთან, რომლებიც იზიარებენ ჩვენს მიზანს, AGI ადამიანებისთვის სამუშაო გარემოში უფრო სასარგებლო გახდეს.