
OpenAI-ში ჩვენ ბევრს ვმუშაობთ, რათა AI სისტემები უფრო სასარგებლო და სანდო გავხადოთ. მიუხედავად იმისა, რომ ენობრივი მოდელები სულ უფრო მეტად იხვეწება, ერთი გამოწვევა მაინც განსაკუთრებით რთულად გადასაჭრელი რჩება: ჰალუცინაციები. ამით ვგულისხმობთ შემთხვევებს, როცა მოდელი თავდაჯერებით აყალიბებს პასუხს, რომელიც სიმართლეს არ შეესაბამება. ჩვენი ახალი კვლევითი ნაშრომი(იხსნება ახალ ფანჯარაში) ამტკიცებს, რომ ენობრივი მოდელები ჰალუცინირებენ, რადგან სტანდარტული გაწვრთნისა და შეფასების პროცედურები გაურკვევლობის აღიარებაზე მეტად გამოცნობას აჯილდოებს.
ChatGPT‑ც ჰალუცინირებს. GPT‑5‑ში ჰალუცინაციები მნიშვნელოვნად ნაკლებია, განსაკუთრებით მსჯელობისას, თუმცა ისინი მაინც ხდება. ჰალუცინაციები ყველა დიდი ენობრივი მოდელისთვის ფუნდამენტურ გამოწვევად რჩება, თუმცა ჩვენ ბევრს ვმუშაობთ, რომ ისინი კიდევ უფრო შევამციროთ.
ჰალუცინაციები არის დამაჯერებელი, მაგრამ მცდარი განცხადებები, რომლებსაც ენობრივი მოდელები ქმნიან. ისინი შეიძლება მოულოდნელი ფორმითაც გამოვლინდეს, თუნდაც ერთი შეხედვით მარტივ კითხვებზე. მაგალითად, როდესაც ფართოდ გამოყენებულ ჩატბოტს ვკითხეთ ამ ნაშრომის ერთ-ერთი ავტორის, ადამ ტაუმან კალაის სადოქტორო დისერტაციის სათაური, მან თავდაჯერებით სამი განსხვავებული პასუხი მოგვცა — და არც ერთი იყო სწორი. როდესაც მისი დაბადების დღე ვკითხეთ, მან სამი განსხვავებული თარიღი დაასახელა და ისინიც ყველა მცდარი იყო.
ჰალუცინაციები ნაწილობრივ იმიტომ ნარჩუნდება, რომ მიმდინარე შეფასების მეთოდები არასწორ სტიმულებს ქმნის. მიუხედავად იმისა, რომ შეფასებები თავისთავად ჰალუცინაციებს პირდაპირ არ იწვევს, მათი უმეტესობა მოდელის მუშაობას ისე ზომავს, რომ გაურკვევლობაზე გულწრფელობის ნაცვლად გამოცნობას ახალისებს.
ეს წარმოიდგინეთ, როგორც მრავალვარიანტიანი ტესტი. თუ პასუხი არ იცით, მაგრამ ბრმად გამოიცნობთ, შეიძლება გაგიმართლოთ და სწორად უპასუხოთ. თუ ცარიელს დატოვებთ, ნული გარანტირებული გაქვთ. ანალოგიურად, როცა მოდელებს მხოლოდ სიზუსტით აფასებენ — ანუ იმ კითხვების პროცენტით, რომლებზეც ზუსტად სწორ პასუხს იძლევიან — ისინი უფრო გამოცნობაზე წახალისდებიან, ვიდრე იმაზე, რომ თქვან: „არ ვიცი“.
კიდევ ერთი მაგალითი: დავუშვათ, ენობრივ მოდელს ეკითხებიან ვინმეს დაბადების დღეს, მაგრამ მან ეს არ იცის. თუ გამოიცნობს „10 სექტემბერს“, მას 365-იდან 1 შანსი აქვს, რომ სწორი აღმოჩნდეს. პასუხი „არ ვიცი“ კი გარანტირებულად ნულ ქულას ნიშნავს. ათასობით სატესტო კითხვაზე, მოდელი, რომელიც გამოცნობას მიმართავს, საბოლოოდ რეიტინგებში უფრო კარგად გამოიყურება, ვიდრე ფრთხილი მოდელი, რომელიც საკუთარ გაურკვევლობას აღიარებს.
კითხვებისთვის, სადაც ერთი „სწორი პასუხი“ არსებობს, პასუხები სამ კატეგორიად შეიძლება განვიხილოთ: ზუსტი პასუხები, შეცდომები და თავის შეკავება, როცა მოდელი გამოცნობას არ რისკავს. თავის შეკავება მოკრძალების ნაწილია — ეს OpenAI-ის ძირითადი ღირებულებებიდან ერთ-ერთია. რეიტინგების უმეტესობა პრიორიტეტს სიზუსტეს ანიჭებს და მოდელებს მის მიხედვით ალაგებს, მაგრამ შეცდომები უფრო უარესია, ვიდრე თავის შეკავება. ჩვენი მოდელის სპეციფიკაცია(იხსნება ახალ ფანჯარაში) ამბობს, რომ სჯობს მიუთითო გაურკვევლობა ან ითხოვო დაზუსტება, ვიდრე თავდაჯერებით მიაწოდო ინფორმაცია, რომელიც შეიძლება მცდარი იყოს.
კონკრეტული მაგალითისთვის განვიხილოთ SimpleQA შეფასება, როგორც მაგალითი GPT5 სისტემური ბარათიდან(იხსნება ახალ ფანჯარაში).
მეტრიკა | gpt-5-thinking-mini | OpenAI o4-mini |
თავის შეკავების მაჩვენებელი | 52% | 1% |
სიზუსტის მაჩვენებელი | 22% | 24% |
შეცდომის მაჩვენებელი | 26% | 75% |
ჯამი | 100% | 100% |
სიზუსტის მხრივ ძველი OpenAI o4-mini მოდელი ოდნავ უკეთ მუშაობს. თუმცა მისი შეცდომების მაჩვენებელი (ანუ ჰალუცინაციის სიხშირე) მნიშვნელოვნად უფრო მაღალია. სტრატეგიული გამოცნობა გაურკვევლობის დროს სიზუსტეს აუმჯობესებს, მაგრამ შეცდომებსა და ჰალუცინაციებს ზრდის.
როდესაც ათეულობით შეფასების შედეგებს აჯამებენ, ბენჩმარკების უმეტესობა მხოლოდ სიზუსტის მეტრიკას გამოყოფს, მაგრამ ეს სწორისა და არასწორის მცდარ დიქოტომიას ქმნის. SimpleQA-ის მსგავს მარტივ შეფასებებზე ზოგი მოდელი თითქმის 100%-იან სიზუსტეს აღწევს და ამით ჰალუცინაციებს აქრობს. თუმცა უფრო რთულ შეფასებებსა და რეალურ გამოყენებაში სიზუსტე 100%-ზე დაბლაა შეზღუდული, რადგან არსებობს კითხვები, რომლებზეც პასუხის დადგენა სხვადასხვა მიზეზის გამო შეუძლებელია — მაგალითად, ინფორმაციის მიუწვდომლობის, მცირე მოდელების შეზღუდული სააზროვნო შესაძლებლობების ან ისეთი ბუნდოვანებების გამო, რომლებიც დაზუსტებას მოითხოვს.
ამის მიუხედავად, მხოლოდ სიზუსტეზე დაფუძნებული რეიტინგები ლიდერბორდებსა და მოდელის ბარათებში დომინირებს, რაც დეველოპერებს უბიძგებს, შექმნან მოდელები, რომლებიც თავის შეკავების ნაცვლად გამოიცნობენ. ეს არის ერთ-ერთი მიზეზი, რის გამოც, მიუხედავად იმისა, რომ მოდელები უფრო განვითარებული ხდება, მათ მაინც შეუძლიათ ჰალუცინირება — თავდაჯერებით არასწორი პასუხების გაცემა გაურკვევლობის აღიარების ნაცვლად.
არსებობს მარტივი გამოსავალი. თავდაჯერებული შეცდომები უფრო მკაცრად უნდა დაისაჯოს, ვიდრე გაურკვევლობა, ხოლო გაურკვევლობის სათანადო გამოხატვას ნაწილობრივი ქულა უნდა მიენიჭოს. ეს იდეა ახალი არ არის. ზოგი სტანდარტიზებული ტესტი დიდი ხანია იყენებს არასწორი პასუხებისთვის უარყოფით შეფასებას ან ცარიელი პასუხებისთვის ნაწილობრივ ქულას, რათა ბრმა გამოცნობა შეაკავოს. რამდენიმე კვლევითმა ჯგუფმაც შეისწავლა შეფასებები, რომლებიც გაურკვევლობასა და კალიბრაციას ითვალისწინებს.
ჩვენი აზრი სხვაგვარია. საკმარისი არ არის გვერდით რამდენიმე ახალი, გაურკვევლობაზე ორიენტირებული ტესტის დამატება. ფართოდ გამოყენებული, სიზუსტეზე დაფუძნებული შეფასებები უნდა განახლდეს ისე, რომ მათი დასქორინგება გამოცნობას არ წაახალისებდეს. თუ მთავარი რეიტინგები კვლავ იღბლიან გამოცნობას დააჯილდოებს, მოდელები გამოცნობას კვლავ ისწავლიან. რეიტინგების გამოსწორებამ შეიძლება გააფართოოს ჰალუცინაციების შემცირების ტექნიკების დანერგვა — როგორც ახლად შექმნილი, ისე წინა კვლევებიდან ცნობილი მეთოდების.
ვისაუბრეთ, რატომ არის ჰალუცინაციების სრულად მოშორება ასე რთული, მაგრამ თავიდანვე საიდან მოდის ეს მეტად კონკრეტული ფაქტობრივი უზუსტობები? ბოლოს და ბოლოს, დიდი წინასწარ გაწვრთნილი მოდელები იშვიათად ავლენენ სხვა ტიპის შეცდომებს, მაგალითად ორთოგრაფიულ შეცდომებს ან შეუთავსებელ ფრჩხილებს. განსხვავება იმაშია, თუ რა ტიპის კანონზომიერებები არსებობს მონაცემებში.
ენობრივი მოდელები პირველად წინასწარი გაწვრთნის გზით სწავლობენ — ეს არის უზარმაზარ ტექსტურ მასივებში შემდეგი სიტყვის პროგნოზირების პროცესი. ტრადიციული მანქანური სწავლების ამოცანებისგან განსხვავებით, თითოეულ მტკიცებას „ჭეშმარიტი/მცდარი“ ნიშნები არ ახლავს. მოდელი მხოლოდ გამართული ენის დადებით მაგალითებს ხედავს და მთლიანი განაწილების მიახლოება უწევს.
ორჯერ უფრო რთულია მართებული განცხადებების არამართებულისგან გარჩევა, როცა არ გაქვთ არც ერთი მაგალითი, რომელიც არამართებულად არის მონიშნული. მაგრამ ნიშნებითაც კი ზოგი შეცდომა გარდაუვალია. რატომ — ამის სანახავად უფრო მარტივი ანალოგია განვიხილოთ. გამოსახულების ამოცნობაში, თუ მილიონობით კატისა და ძაღლის ფოტო მონიშნულია როგორც „კატა“ ან „ძაღლი“, ალგორითმებს შეუძლიათ მათი სანდოდ კლასიფიცირება ისწავლონ. მაგრამ წარმოიდგინეთ, რომ თითოეული შინაური ცხოველის ფოტო მისი დაბადების დღით იყოს მონიშნული. რადგან დაბადების დღეები არსებითად შემთხვევითია, ეს ამოცანა ყოველთვის წარმოქმნიდა შეცდომებს, როგორი განვითარებულიც არ უნდა იყოს ალგორითმი.
იგივე პრინციპი მოქმედებს წინასწარ გაწვრთნაშიც. მართლწერა და ფრჩხილები თანმიმდევრულ ნიმუშებს მიჰყვება, ამიტომ იქ შეცდომები მასშტაბის ზრდასთან ერთად ქრება. მაგრამ იშვიათი, თვითნებური ფაქტები, როგორიცაა შინაური ცხოველის დაბადების დღე, მხოლოდ ნიმუშებიდან ვერ იწინასწარმეტყველება და ამიტომ ჰალუცინაციებს იწვევს. ჩვენი ანალიზი განმარტავს, რა ტიპის ჰალუცინაციები უნდა წარმოიშვას შემდეგი სიტყვის პროგნოზირებიდან. იდეალურ შემთხვევაში, წინასწარი გაწვრთნის შემდეგი ეტაპები მათ უნდა აშორებდეს, მაგრამ ეს სრულად წარმატებული არ არის იმ მიზეზების გამო, რომლებიც წინა განყოფილებაში აღვწერეთ.
ვიმედოვნებთ, რომ ჩვენს ნაშრომში წარმოდგენილი სტატისტიკური ხედვა ჰალუცინაციების ბუნებას უკეთ ახსნის და გავრცელებულ მცდარ წარმოდგენებს შეეწინააღმდეგება:
- მტკიცება: ჰალუცინაციები აღმოიფხვრება სიზუსტის გაუმჯობესებით, რადგან 100%-ით ზუსტი მოდელი არასდროს ჰალუცინირებს.
დასკვნა: სიზუსტე ვერასდროს მიაღწევს 100%-ს, რადგან, მოდელის ზომის, ძიებისა და მსჯელობის შესაძლებლობების მიუხედავად, ზოგი რეალური სამყაროს კითხვა ბუნებრივად უპასუხოა. - მტკიცება: ჰალუცინაციები გარდაუვალია.
დასკვნა: არაა, რადგან ენობრივ მოდელებს შეუძლიათ თავი შეიკავონ, როცა დარწმუნებული არ არიან. - მტკიცება: ჰალუცინაციების თავიდან აცილება მოითხოვს ინტელექტის ისეთ დონეს, რომლის მიღწევაც მხოლოდ უფრო დიდ მოდელებს შეუძლიათ.
დასკვნა: მცირე მოდელისთვის საკუთარი საზღვრების ცოდნა შეიძლება უფრო იოლი იყოს. მაგალითად, თუ მას მაორულ ენაზე დასმულ კითხვაზე პასუხს სთხოვენ, მცირე მოდელს, რომელმაც მაორული საერთოდ არ იცის, შეუძლია უბრალოდ თქვას: „არ ვიცი“, მაშინ როცა მოდელს, რომელმაც მაორული ნაწილობრივ იცის, საკუთარი თავდაჯერებულობის განსაზღვრა უწევს. როგორც ნაშრომში განვიხილავთ, „კალიბრირებულობა“ ბევრად ნაკლებ გამოთვლას მოითხოვს, ვიდრე სიზუსტე. - მტკიცება: ჰალუცინაციები თანამედროვე ენობრივ მოდელებში იდუმალი ხარვეზია.
დასკვნა: ჩვენ გვესმის ის სტატისტიკური მექანიზმები, რომლებითაც ჰალუცინაციები წარმოიშობა და შეფასებებში ჯილდოვდება. - მტკიცება: ჰალუცინაციების გასაზომად მხოლოდ კარგი ჰალუცინაციების შეფასება გვჭირდება.
დასკვნა: ჰალუცინაციების შეფასებები უკვე გამოქვეყნებულია. თუმცა კარგი ჰალუცინაციების შეფასება მცირე გავლენას ახდენს ასობით ტრადიციულ, სიზუსტეზე დაფუძნებულ შეფასებასთან შედარებით, რომლებიც მოკრძალებას სჯის და გამოცნობას აჯილდოებს. ამის ნაცვლად, ყველა ძირითადი შეფასების მეტრიკა ისე უნდა გადაკეთდეს, რომ გაურკვევლობის გამოხატვა დააჯილდოოს.
ჩვენს უახლეს მოდელებს ჰალუცინაციების უფრო დაბალი მაჩვენებელი აქვთ და ჩვენ კვლავაც ბევრს ვმუშაობთ, რათა ჩვენმა ენობრივმა მოდელებმა თავდაჯერებული შეცდომები კიდევ უფრო იშვიათად წარმოქმნან.
ანონსის ავტორები
Adam Kalai, Santosh Vempala (Georgia Tech), Ofir Nachum, Eddie Zhang, David Robinson, Saachi Jain, Eric Mitchell, Alex Beutel და Johannes Heidecke


