3 ნოემბერი, 2025

გაიცანით IndQA

ახალი ბენჩმარკი ინდურ კულტურასა და ენებზე AI სისტემების შესაფასებლად.

3x4 ბადე მომრგვალებული კვადრატული ღილაკებით, რომელთაგან თითოეული შეიცავს განსხვავებული ინდური დამწერლობის სიმბოლოს ან ლათინური ანბანის ნიშანს. სიმბოლოებს შორისაა ბენგალური (অ), ინგლისური (En), ჰინდი (ह), კანადა (Hi) და სხვები, რომლებიც ინდოეთის სხვადასხვა ენას აღნიშნავს, ღია ნაცრისფერ ფონზე. გამოსახულება მრავალენოვან მხარდაჭერას ან ენის არჩევას მიანიშნებს.

იტვირთება…

ჩვენი მისიაა, რომ AGI მთელი კაცობრიობის სასარგებლოდ განვითარდეს. თუ AI ყველასთვის სასარგებლო უნდა იყოს, ის კარგად უნდა მუშაობდეს სხვადასხვა ენასა და კულტურაში. მსოფლიოში ადამიანების დაახლოებით 80 პროცენტი ინგლისურად არ საუბრობს, როგორც პირველ ენაზე, თუმცა დღეს არსებული ბენჩმარკების უმეტესობა, რომლებიც არაინგლისური ენების შესაძლებლობებს ზომავს, ამოცანას ვერ ართმევს თავს.

არსებული მრავალენოვანი ბენჩმარკები, როგორიცაა MMMLU⁠(იხსნება ახალ ფანჯარაში), ახლა უკვე გაჯერებულია — საუკეთესო მოდელები მაღალ ქულებთან ახლოს ჯგუფდებიან — რაც მათ რეალური პროგრესის გასაზომად ნაკლებად გამოსადეგს ხდის. გარდა ამისა, მიმდინარე ბენჩმარკები ძირითადად თარგმნასა ან მრავალვარიანტიან ამოცანებზეა ფოკუსირებული. ისინი სათანადოდ ვერ ასახავს იმას, რაც სინამდვილეში მნიშვნელოვანია AI სისტემის ენობრივი შესაძლებლობების შესაფასებლად — კონტექსტის, კულტურის, ისტორიისა და იმ საგნების გაგებას, რაც ადამიანებისთვის მნიშვნელოვანია იქ, სადაც ისინი ცხოვრობენ.

სწორედ ამიტომ შევქმენით IndQA — ახალი ბენჩმარკი, რომელიც შექმნილია იმის შესაფასებლად, რამდენად კარგად ესმით AI მოდელებს ინდურ ენებზე დასმული, მნიშვნელოვანი კითხვები და რამდენად კარგად მსჯელობენ მათზე, კულტურული დომენების ფართო სპექტრში. მიუხედავად იმისა, რომ ჩვენი მიზანია მსგავსი ბენჩმარკების შექმნა სხვა ენებისა და რეგიონებისთვისაც, ინდოეთი აშკარა საწყისი წერტილია. ინდოეთში დაახლოებით მილიარდი ადამიანი ინგლისურს ძირითად ენად არ იყენებს, 22 ოფიციალური ენაა (მათ შორის სულ მცირე შვიდი, რომელთაგან თითოეულს 50 მილიონზე მეტი მოლაპარაკე ჰყავს), და ის ChatGPT‑ის სიდიდით მეორე ბაზარია.

ეს ნამუშევარი ინდოელი მომხმარებლებისთვის ჩვენი პროდუქტებისა და ინსტრუმენტების გაუმჯობესების მიმდინარე ძალისხმევის ნაწილია და ასევე ემსახურება იმას, რომ ჩვენი ტექნოლოგია ქვეყნის მასშტაბით უფრო ხელმისაწვდომი გავხადოთ.

როგორ მუშაობს

IndQA აფასებს ინდურ კულტურასა და ყოველდღიურ ცხოვრებასთან დაკავშირებულ ცოდნასა და მსჯელობას ინდურ ენებზე. ის მოიცავს 12 ენასა და 10 კულტურულ დომენში შექმნილ 2,278 კითხვას, რომლებიც ინდოეთის სხვადასხვა კუთხიდან 261 დარგის ექსპერტთან პარტნიორობით შეიქმნა. არსებული ბენჩმარკებისგან, როგორიცაა MMMLU და MGSM, განსხვავებით, ის შექმნილია კულტურულად ნიუანსური და მსჯელობაზე ძლიერად დამოკიდებული ამოცანების გამოსაკვლევად, რომელთა დაფიქსირებაც არსებულ შეფასებებს უჭირთ.

IndQA მოიცავს კულტურულად რელევანტური თემების ფართო სპექტრს, როგორიცაა არქიტექტურა და დიზაინი, ხელოვნება და კულტურა, ყოველდღიური ცხოვრება, საკვები და კულინარია, ისტორია, კანონი და ეთიკა, ლიტერატურა და ენათმეცნიერება, მედია და გართობა, რელიგია და სულიერება და სპორტი და დასვენება — მასალები კი თავდაპირველად დაიწერა ენებზე: ბენგალური, ინგლისური, ჰინდი, ჰინგლიში, კანადა, მარათჰი, ოდია, ტელუგუ, გუჯარათი, მალაიალამი, პენჯაბური და ტამილი. შენიშვნა: ჰინგლიში სპეციალურად დავამატეთ, რადგან საუბარში კოდების მონაცვლეობა ფართოდ არის გავრცელებული.

თითოეული მონაცემთა წერტილი მოიცავს ინდურ ენაზე მოცემულ კულტურულად დაფუძნებულ მოთხოვნას, აუდიტირებადობისთვის ინგლისურ თარგმანს, შეფასებისთვის რუბრიკის კრიტერიუმებს და იდეალურ პასუხს, რომელიც ექსპერტთა მოლოდინებს ასახავს.

დიაგრამა, რომელიც აჩვენებს შეფასების პროცესს: მომხმარებლისა და ასისტენტის საუბრის მაგალითი, კანდიდატი პასუხი და რუბრიკის ცხრილი, რომელიც გამოიყენება პასუხის კრიტერიუმებით შესაფასებლად.

IndQA იყენებს რუბრიკაზე დაფუძნებულ მიდგომას. თითოეული პასუხი ფასდება კრიტერიუმებით, რომლებიც დარგის ექსპერტებმა კონკრეტულად ამ კითხვისთვის დაწერეს. კრიტერიუმები ზუსტად აღწერს, რას უნდა მოიცავდეს ან რას უნდა ერიდებოდეს იდეალური პასუხი, და თითოეულს მისი მნიშვნელობის მიხედვით მინიჭებული აქვს წონიანი ქულა. მოდელზე დაფუძნებული შემფასებელი ამოწმებს, დაკმაყოფილებულია თუ არა თითოეული კრიტერიუმი. საბოლოო ქულა არის დაკმაყოფილებული კრიტერიუმებისთვის მიღებული ქულების ჯამი, შესაძლო ჯამურ ქულასთან მიმართებით.

როგორ შევქმენით IndQA

ექსპერტების მიერ დაწერილი კითხვები. პარტნიორებთან ერთად ვიმუშავეთ, რათა ინდოეთში 10 სხვადასხვა დომენში ექსპერტები მოგვეძებნა. მათ შეადგინეს რთული, მსჯელობაზე ორიენტირებული მოთხოვნები, რომლებიც მათ რეგიონებსა და სპეციალიზაციას უკავშირდებოდა. ეს ექსპერტები შესაბამისი ენის (და ინგლისურის) მშობლიური დონის მცოდნეები არიან და ღრმა საგნობრივი ექსპერტიზა მოაქვთ.
ადვერსარიული ფილტრაცია: თითოეული კითხვა შემოწმდა OpenAI-ის იმ დროისთვის ყველაზე ძლიერ მოდელებზე: GPT‑4o, OpenAI o3, GPT‑4.5 და (ნაწილობრივ, საჯარო გაშვების შემდეგ) GPT‑5. დავტოვეთ მხოლოდ ის კითხვები, რომლებზეც ამ მოდელების უმრავლესობამ მისაღები პასუხების შექმნა ვერ შეძლო, რათა პროგრესისთვის სივრცე შეგვენარჩუნებინა
დეტალური კრიტერიუმები. თითოეულ კითხვასთან ერთად დარგის ექსპერტებმა მოგვაწოდეს კრიტერიუმები, რომლებიც მოდელის პასუხის შესაფასებლად გამოიყენება, ესეს ტიპის საგამოცდო კითხვის რუბრიკის მსგავსად. ეს კრიტერიუმები კანდიდატი მოდელების პასუხების შესაფასებლად გამოიყენება.
იდეალური პასუხები + მიმოხილვა. ექსპერტებმა დაამატეს იდეალური პასუხები და ინგლისური თარგმანები, რასაც თან მოჰყვა თანატოლთა მიმოხილვა და განმეორებითი შესწორებები საბოლოო დამტკიცებამდე.

მაგალითი კითხვები

ენა: ბენგალური

დომენი: ლიტერატურა და ენათმეცნიერება

Prompt

‘দণ্ডক থেকে মরিচঝাঁপি’ উপন্যাসের লেখক নিম্নবর্ণের পুরুষ ও নারীদের দণ্ডকারন্যে পুনর্বাসন পরবর্তী জীবন কিভাবে দেখিয়েছেন? দণ্ডকারণ্যে পুনর্বাসন কি সরকারী উদাসীনতার ফল? পরিবর্তিত প্রাকৃতিক পরিবেশের সাথে উদ্বাস্তুরা কিভাবে মানিয়ে নিয়েছিল?

English Translation

How did the writer of Bengali novel ‘Dandak Theke Marichjhanpi’ depict the post-rehabilitation lives of lower caste men and women? Was the rehabilitation in Dandakaranya a result of governmental indifference? What was its relation with the new natural landscapes?

დომენი: საკვები და კულინარია

Prompt

কোন পরিপ্রেক্ষিতে উনিশ শতকের শেষ দিক থেকে রান্নার বইগুলো বেরচ্ছিল ? প্রথম বাংলা রান্নার বইটির সাথে বিপ্রদাস মুখোপাধ্যায় রচিত বইটির পার্থক্য কোথায় ? বিপ্রদাসের উদ্যোগে প্রকাশিত পত্রিকাটি চলেছিল কতদিন ? বিপ্রদাস ও প্রজ্ঞা সুন্দরীর লেখা অনুসরণ করে দিঘাপতিয়া থেকে কোন বইটি বেরিয়েছিল ?

English Translation

In what context were cookbooks published from the end of the 19th century? What is the difference between the first Bengali cookbook and the book written by Bipradas Mukherjee? How long did the magazine published by Bipradas run? Which book was published by Dighapatiya following the writings of Bipradas and Pragya Sundari?

გაუმჯობესება დროთა განმავლობაში

ჩვენ ვიყენებთ IndQA-ს, რათა შევაფასოთ, როგორ მუშაობენ უახლესი მოწინავე მოდელები და დავხაზოთ პროგრესი ბოლო რამდენიმე წლის განმავლობაში. IndQA-ს მეშვეობით ვხედავთ, რომ OpenAI-ის მოდელები დროთა განმავლობაში მნიშვნელოვნად გაუმჯობესდა ინდურ ენებზე (გარკვეული შეზღუდვებით⁠), თუმცა გაუმჯობესებისთვის ჯერ კიდევ დიდი სივრცე რჩება. მოუთმენლად ველით წარმადობის გაუმჯობესებას და მომავალი მოდელების შედეგების გაზიარებას.

ქვემოთ ასევე ვყოფთ IndQA-ზე წარმადობას ენისა და დომენის მიხედვით და GPT‑5 Thinking High-ს სხვა მოწინავე მოდელებს ვადარებთ.

შეზღუდვები

რადგან კითხვები ენებს შორის იდენტური არ არის, IndQA არ არის ენების ლიდერბორდი; სხვადასხვა ენაზე მიღებული ქულები არ უნდა განიმარტოს, როგორც ენობრივი უნარის პირდაპირი შედარება. ამის ნაცვლად, ვგეგმავთ IndQA გამოვიყენოთ, რათა გავზომოთ დროთა განმავლობაში გაუმჯობესება ერთი მოდელების ოჯახის ან კონფიგურაციის ფარგლებში.

გარდა ამისა, რადგან კითხვები გაფილტრული იყო ისე, რომ GPT‑4o, OpenAI o3, GPT‑4.5 და (საჯარო გაშვების შემდეგ) GPT‑5 მათზე საკმარისად კარგად პასუხს ვერ სცემდნენ, კითხვების შერჩევა ამ მოდელების მიმართ ადვერსარიულია. ეს შესაძლოა GPT‑5‑ის შედარებით წარმადობას არევდეს და ყველა OpenAI მოდელს არაოპენAI მოდელებთან შედარებით არახელსაყრელ მდგომარეობაში აყენებდეს.

ექსპერტები IndQA-ს უკან

მადლიერები ვართ იმ 261 ინდოელი ექსპერტის — ჟურნალისტების, ენათმეცნიერების, მკვლევრების, ხელოვანებისა და ინდუსტრიის პრაქტიკოსების — მიმართ, რომლებმაც IndQA-სთვის კითხვები დაწერეს და განიხილეს. რამდენიმე მაგალითი იმ ექსპერტებისა, ვისთანაც ვიმუშავეთ, ასეთია:

ნანდის ჯილდოს მფლობელი ტელუგუ მსახიობი და სცენარისტი, რომლის კარიერაში 750-ზე მეტი ფილმია
მარათჰი ჟურნალისტი და Tarun Bharat-ის რედაქტორი
კანადას ენათმეცნიერების მკვლევარი და ლექსიკონის რედაქტორი
ჭადრაკის საერთაშორისო დიდოსტატი, რომელიც ტოპ-100 მოჭადრაკეებს ავარჯიშებს
ტამილი მწერალი, პოეტი და კულტურული აქტივისტი, რომელიც სოციალურ სამართლიანობას, კასტობრივ თანასწორობასა და ლიტერატურულ თავისუფლებას იცავს
პენჯაბური მუსიკის დაჯილდოებული კომპოზიტორი
გუჯარათის მემკვიდრეობის კურატორი და კონსერვაციის სპეციალისტი
დაჯილდოებული მალაიალამი პოეტი და პერფორმანს არტისტი
ისტორიის პროფესორი, რომელიც ბენგალის მდიდარ კულტურულ მემკვიდრეობაზეა სპეციალიზებული
არქიტექტურის პროფესორი, რომლის ფოკუსიც ოდიშას ტაძრებია

შემდეგი ნაბიჯები

ვიმედოვნებთ, რომ IndQA-ს გამოქვეყნება კვლევით საზოგადოებას ახალი ბენჩმარკების შექმნაში გააცნობიერებს და შთააგონებს. IndQA-ის სტილის კითხვები განსაკუთრებით ღირებულია იმ ენებსა თუ კულტურულ დომენებში, რომლებიც არსებულ AI ბენჩმარკებში ცუდადაა გაშუქებული. IndQA-ს მსგავსი ბენჩმარკების შექმნა AI კვლევით ლაბორატორიებს დაეხმარება, მეტი გაიგონ იმ ენებსა და დომენებზე, რომლებშიც მოდელებს დღეს უჭირთ, და მომავალი გაუმჯობესებებისთვის ორიენტირიც მისცემს.

ავტორი

OpenAI

განაგრძეთ კითხვა

ყველას ნახვა

GPT-5.6: მოწინავე ინტელექტი, რომელიც თქვენს ამბიციას პასუხობს და მასშტაბირდება

პროდუქტი9 ივლ. 2026

კოდის შეფასებებში სიგნალის გამიჯვნა ხმაურისგან

კვლევა8 ივლ. 2026

წარმოგიდგენთ GPT-Live-ს

პროდუქტი8 ივლ. 2026