ჩვენი მისიაა, რომ AGI მთელი კაცობრიობის სასარგებლოდ განვითარდეს. თუ AI ყველასთვის სასარგებლო უნდა იყოს, ის კარგად უნდა მუშაობდეს სხვადასხვა ენასა და კულტურაში. მსოფლიოში ადამიანების დაახლოებით 80 პროცენტი ინგლისურად არ საუბრობს, როგორც პირველ ენაზე, თუმცა დღეს არსებული ბენჩმარკების უმეტესობა, რომლებიც არაინგლისური ენების შესაძლებლობებს ზომავს, ამოცანას ვერ ართმევს თავს.
არსებული მრავალენოვანი ბენჩმარკები, როგორიცაა MMMLU(იხსნება ახალ ფანჯარაში), ახლა უკვე გაჯერებულია — საუკეთესო მოდელები მაღალ ქულებთან ახლოს ჯგუფდებიან — რაც მათ რეალური პროგრესის გასაზომად ნაკლებად გამოსადეგს ხდის. გარდა ამისა, მიმდინარე ბენჩმარკები ძირითადად თარგმნასა ან მრავალვარიანტიან ამოცანებზეა ფოკუსირებული. ისინი სათანადოდ ვერ ასახავს იმას, რაც სინამდვილეში მნიშვნელოვანია AI სისტემის ენობრივი შესაძლებლობების შესაფასებლად — კონტექსტის, კულტურის, ისტორიისა და იმ საგნების გაგებას, რაც ადამიანებისთვის მნიშვნელოვანია იქ, სადაც ისინი ცხოვრობენ.
სწორედ ამიტომ შევქმენით IndQA — ახალი ბენჩმარკი, რომელიც შექმნილია იმის შესაფასებლად, რამდენად კარგად ესმით AI მოდელებს ინდურ ენებზე დასმული, მნიშვნელოვანი კითხვები და რამდენად კარგად მსჯელობენ მათზე, კულტურული დომენების ფართო სპექტრში. მიუხედავად იმისა, რომ ჩვენი მიზანია მსგავსი ბენჩმარკების შექმნა სხვა ენებისა და რეგიონებისთვისაც, ინდოეთი აშკარა საწყისი წერტილია. ინდოეთში დაახლოებით მილიარდი ადამიანი ინგლისურს ძირითად ენად არ იყენებს, 22 ოფიციალური ენაა (მათ შორის სულ მცირე შვიდი, რომელთაგან თითოეულს 50 მილიონზე მეტი მოლაპარაკე ჰყავს), და ის ChatGPT‑ის სიდიდით მეორე ბაზარია.
ეს ნამუშევარი ინდოელი მომხმარებლებისთვის ჩვენი პროდუქტებისა და ინსტრუმენტების გაუმჯობესების მიმდინარე ძალისხმევის ნაწილია და ასევე ემსახურება იმას, რომ ჩვენი ტექნოლოგია ქვეყნის მასშტაბით უფრო ხელმისაწვდომი გავხადოთ.
IndQA აფასებს ინდურ კულტურასა და ყოველდღიურ ცხოვრებასთან დაკავშირებულ ცოდნასა და მსჯელობას ინდურ ენებზე. ის მოიცავს 12 ენასა და 10 კულტურულ დომენში შექმნილ 2,278 კითხვას, რომლებიც ინდოეთის სხვადასხვა კუთხიდან 261 დარგის ექსპერტთან პარტნიორობით შეიქმნა. არსებული ბენჩმარკებისგან, როგორიცაა MMMLU და MGSM, განსხვავებით, ის შექმნილია კულტურულად ნიუანსური და მსჯელობაზე ძლიერად დამოკიდებული ამოცანების გამოსაკვლევად, რომელთა დაფიქსირებაც არსებულ შეფასებებს უჭირთ.
IndQA მოიცავს კულტურულად რელევანტური თემების ფართო სპექტრს, როგორიცაა არქიტექტურა და დიზაინი, ხელოვნება და კულტურა, ყოველდღიური ცხოვრება, საკვები და კულინარია, ისტორია, კანონი და ეთიკა, ლიტერატურა და ენათმეცნიერება, მედია და გართობა, რელიგია და სულიერება და სპორტი და დასვენება — მასალები კი თავდაპირველად დაიწერა ენებზე: ბენგალური, ინგლისური, ჰინდი, ჰინგლიში, კანადა, მარათჰი, ოდია, ტელუგუ, გუჯარათი, მალაიალამი, პენჯაბური და ტამილი. შენიშვნა: ჰინგლიში სპეციალურად დავამატეთ, რადგან საუბარში კოდების მონაცვლეობა ფართოდ არის გავრცელებული.
თითოეული მონაცემთა წერტილი მოიცავს ინდურ ენაზე მოცემულ კულტურულად დაფუძნებულ მოთხოვნას, აუდიტირებადობისთვის ინგლისურ თარგმანს, შეფასებისთვის რუბრიკის კრიტერიუმებს და იდეალურ პასუხს, რომელიც ექსპერტთა მოლოდინებს ასახავს.
IndQA იყენებს რუბრიკაზე დაფუძნებულ მიდგომას. თითოეული პასუხი ფასდება კრიტერიუმებით, რომლებიც დარგის ექსპერტებმა კონკრეტულად ამ კითხვისთვის დაწერეს. კრიტერიუმები ზუსტად აღწერს, რას უნდა მოიცავდეს ან რას უნდა ერიდებოდეს იდეალური პასუხი, და თითოეულს მისი მნიშვნელობის მიხედვით მინიჭებული აქვს წონიანი ქულა. მოდელზე დაფუძნებული შემფასებელი ამოწმებს, დაკმაყოფილებულია თუ არა თითოეული კრიტერიუმი. საბოლოო ქულა არის დაკმაყოფილებული კრიტერიუმებისთვის მიღებული ქულების ჯამი, შესაძლო ჯამურ ქულასთან მიმართებით.
- ექსპერტების მიერ დაწერილი კითხვები. პარტნიორებთან ერთად ვიმუშავეთ, რათა ინდოეთში 10 სხვადასხვა დომენში ექსპერტები მოგვეძებნა. მათ შეადგინეს რთული, მსჯელობაზე ორიენტირებული მოთხოვნები, რომლებიც მათ რეგიონებსა და სპეციალიზაციას უკავშირდებოდა. ეს ექსპერტები შესაბამისი ენის (და ინგლისურის) მშობლიური დონის მცოდნეები არიან და ღრმა საგნობრივი ექსპერტიზა მოაქვთ.
- ადვერსარიული ფილტრაცია: თითოეული კითხვა შემოწმდა OpenAI-ის იმ დროისთვის ყველაზე ძლიერ მოდელებზე: GPT‑4o, OpenAI o3, GPT‑4.5 და (ნაწილობრივ, საჯარო გაშვების შემდეგ) GPT‑5. დავტოვეთ მხოლოდ ის კითხვები, რომლებზეც ამ მოდელების უმრავლესობამ მისაღები პასუხების შექმნა ვერ შეძლო, რათა პროგრესისთვის სივრცე შეგვენარჩუნებინა
- დეტალური კრიტერიუმები. თითოეულ კითხვასთან ერთად დარგის ექსპერტებმა მოგვაწოდეს კრიტერიუმები, რომლებიც მოდელის პასუხის შესაფასებლად გამოიყენება, ესეს ტიპის საგამოცდო კითხვის რუბრიკის მსგავსად. ეს კრიტერიუმები კანდიდატი მოდელების პასუხების შესაფასებლად გამოიყენება.
- იდეალური პასუხები + მიმოხილვა. ექსპერტებმა დაამატეს იდეალური პასუხები და ინგლისური თარგმანები, რასაც თან მოჰყვა თანატოლთა მიმოხილვა და განმეორებითი შესწორებები საბოლოო დამტკიცებამდე.
ენა: ბენგალური
დომენი: ლიტერატურა და ენათმეცნიერება
დომენი: საკვები და კულინარია
ჩვენ ვიყენებთ IndQA-ს, რათა შევაფასოთ, როგორ მუშაობენ უახლესი მოწინავე მოდელები და დავხაზოთ პროგრესი ბოლო რამდენიმე წლის განმავლობაში. IndQA-ს მეშვეობით ვხედავთ, რომ OpenAI-ის მოდელები დროთა განმავლობაში მნიშვნელოვნად გაუმჯობესდა ინდურ ენებზე (გარკვეული შეზღუდვებით), თუმცა გაუმჯობესებისთვის ჯერ კიდევ დიდი სივრცე რჩება. მოუთმენლად ველით წარმადობის გაუმჯობესებას და მომავალი მოდელების შედეგების გაზიარებას.
ქვემოთ ასევე ვყოფთ IndQA-ზე წარმადობას ენისა და დომენის მიხედვით და GPT‑5 Thinking High-ს სხვა მოწინავე მოდელებს ვადარებთ.
რადგან კითხვები ენებს შორის იდენტური არ არის, IndQA არ არის ენების ლიდერბორდი; სხვადასხვა ენაზე მიღებული ქულები არ უნდა განიმარტოს, როგორც ენობრივი უნარის პირდაპირი შედარება. ამის ნაცვლად, ვგეგმავთ IndQA გამოვიყენოთ, რათა გავზომოთ დროთა განმავლობაში გაუმჯობესება ერთი მოდელების ოჯახის ან კონფიგურაციის ფარგლებში.
გარდა ამისა, რადგან კითხვები გაფილტრული იყო ისე, რომ GPT‑4o, OpenAI o3, GPT‑4.5 და (საჯარო გაშვების შემდეგ) GPT‑5 მათზე საკმარისად კარგად პასუხს ვერ სცემდნენ, კითხვების შერჩევა ამ მოდელების მიმართ ადვერსარიულია. ეს შესაძლოა GPT‑5‑ის შედარებით წარმადობას არევდეს და ყველა OpenAI მოდელს არაოპენAI მოდელებთან შედარებით არახელსაყრელ მდგომარეობაში აყენებდეს.
მადლიერები ვართ იმ 261 ინდოელი ექსპერტის — ჟურნალისტების, ენათმეცნიერების, მკვლევრების, ხელოვანებისა და ინდუსტრიის პრაქტიკოსების — მიმართ, რომლებმაც IndQA-სთვის კითხვები დაწერეს და განიხილეს. რამდენიმე მაგალითი იმ ექსპერტებისა, ვისთანაც ვიმუშავეთ, ასეთია:
- ნანდის ჯილდოს მფლობელი ტელუგუ მსახიობი და სცენარისტი, რომლის კარიერაში 750-ზე მეტი ფილმია
- მარათჰი ჟურნალისტი და Tarun Bharat-ის რედაქტორი
- კანადას ენათმეცნიერების მკვლევარი და ლექსიკონის რედაქტორი
- ჭადრაკის საერთაშორისო დიდოსტატი, რომელიც ტოპ-100 მოჭადრაკეებს ავარჯიშებს
- ტამილი მწერალი, პოეტი და კულტურული აქტივისტი, რომელიც სოციალურ სამართლიანობას, კასტობრივ თანასწორობასა და ლიტერატურულ თავისუფლებას იცავს
- პენჯაბური მუსიკის დაჯილდოებული კომპოზიტორი
- გუჯარათის მემკვიდრეობის კურატორი და კონსერვაციის სპეციალისტი
- დაჯილდოებული მალაიალამი პოეტი და პერფორმანს არტისტი
- ისტორიის პროფესორი, რომელიც ბენგალის მდიდარ კულტურულ მემკვიდრეობაზეა სპეციალიზებული
- არქიტექტურის პროფესორი, რომლის ფოკუსიც ოდიშას ტაძრებია
ვიმედოვნებთ, რომ IndQA-ს გამოქვეყნება კვლევით საზოგადოებას ახალი ბენჩმარკების შექმნაში გააცნობიერებს და შთააგონებს. IndQA-ის სტილის კითხვები განსაკუთრებით ღირებულია იმ ენებსა თუ კულტურულ დომენებში, რომლებიც არსებულ AI ბენჩმარკებში ცუდადაა გაშუქებული. IndQA-ს მსგავსი ბენჩმარკების შექმნა AI კვლევით ლაბორატორიებს დაეხმარება, მეტი გაიგონ იმ ენებსა და დომენებზე, რომლებშიც მოდელებს დღეს უჭირთ, და მომავალი გაუმჯობესებებისთვის ორიენტირიც მისცემს.



