გადადით მთავარ შინაარსზე
OpenAI

13 ნოემბერი, 2025

კვლევაპუბლიკაცია

ნეირონული ქსელების გაგება sparse სქემების მეშვეობით

ჩვენ მოდელები ვასწავლეთ, იფიქრონ უფრო მარტივი და უკეთ გამოკვეთილი ნაბიჯებით, რათა უკეთ გავიგოთ, როგორ მუშაობენ ისინი.

იტვირთება…

​​ნეირონული ქსელები ამოძრავებს დღევანდელ ყველაზე ქმედუნარიან AI სისტემებს, მაგრამ მათი გაგება კვლავ რთულია. ამ მოდელებს აშკარა, ნაბიჯ-ნაბიჯ ინსტრუქციებით არ ვწერთ. ამის ნაცვლად, ისინი სწავლობენ მილიარდობით შიდა კავშირის, ანუ „წონების“, მორგებით, სანამ ამოცანას არ დაეუფლებიან. ჩვენ ვადგენთ სწავლების წესებს, მაგრამ არა იმ კონკრეტულ ქცევებს, რომლებიც შედეგად ყალიბდება, და საბოლოოდ ვიღებთ კავშირების მკვრივ ქსელს, რომლის გაშიფვრაც ადამიანს მარტივად არ შეუძლია. 

როგორ გვესმის ინტერპრეტირებადობა

რადგან AI სისტემები უფრო ქმედუნარიანი ხდება და რეალურ გავლენას ახდენს მეცნიერებაში, განათლებასა და ჯანდაცვაში მიღებულ გადაწყვეტილებებზე, კრიტიკულად მნიშვნელოვანია გვესმოდეს, როგორ მუშაობენ ისინი. ინტერპრეტირებადობა აღნიშნავს მეთოდებს, რომლებიც გვეხმარება გავიგოთ, რატომ მიიღო მოდელმა კონკრეტული შედეგი. ამის მისაღწევად მრავალი გზა არსებობს. 

მაგალითად, მსჯელობის მოდელები წახალისებულია, რომ საბოლოო პასუხამდე მისვლის გზაზე თავიანთი მსვლელობა ახსნან. აზროვნების ჯაჭვის ინტერპრეტირებადობა ამ განმარტებებს იყენებს მოდელის ქცევის მონიტორინგისთვის. ეს დაუყოვნებლივ სასარგებლოა: როგორც ჩანს, მიმდინარე მსჯელობის მოდელების აზროვნების ჯაჭვები ინფორმაციულია ისეთ შემაშფოთებელ ქცევებთან მიმართებით, როგორიცაა მოტყუება. თუმცა ამ თვისებაზე სრულად დაყრდნობა მყიფე სტრატეგიაა და დროთა განმავლობაში ეს შეიძლება აღარ იმუშაოს.

მეორე მხრივ, მექანისტური ინტერპრეტირებადობა, რომელზეც ეს ნაშრომია ფოკუსირებული, ცდილობს მოდელის გამოთვლები მთლიანად შებრუნებული ინჟინერიით აღადგინოს. ჯერჯერობით ის დაუყოვნებლივ ნაკლებად სასარგებლო იყო, მაგრამ პრინციპში შეიძლება მოდელის ქცევის უფრო სრულ ახსნას გვთავაზობდეს. რადგან ის ცდილობს მოდელის ქცევა ყველაზე დეტალურ დონეზე ახსნას, მექანისტურ ინტერპრეტირებადობას შეუძლია ნაკლებ წინაპირობას დაეყრდნოს და მეტი თავდაჯერებულობა მოგვცეს. მაგრამ დაბალი დონის დეტალებიდან რთული ქცევების ახსნებამდე გზა ბევრად უფრო გრძელი და რთულია.

ინტერპრეტირებადობა რამდენიმე მნიშვნელოვან მიზანს ემსახურება, მაგალითად უკეთეს ზედამხედველობას და არაუსაფრთხო ან სტრატეგიულად აცდენილი ქცევის ადრეულ გამაფრთხილებელ ნიშნებს. ის ასევე ავსებს უსაფრთხოების მიმართულებით ჩვენს სხვა ძალისხმევას, როგორიცაა მასშტაბირებადი ზედამხედველობა, ადვერსარიული სწავლება და red-teaming. 

ამ ნაშრომში ვაჩვენებთ, რომ ხშირად შეგვიძლია მოდელები ისეთი გზებით ვასწავლოთ, რომლებიც მათ ინტერპრეტაციისთვის უფრო მარტივს გახდის. ჩვენს ნაშრომს მკვრივი ქსელების post-hoc ანალიზის პერსპექტიულ დამატებად მივიჩნევთ. 

ეს ძალიან ამბიციური ფსონია; ჩვენს ნაშრომსა და ჩვენი ყველაზე ძლიერი მოდელების რთული ქცევების სრულ გაგებას შორის დიდი გზაა გასავლელი. მიუხედავად ამისა, მარტივი ქცევების შემთხვევაში ვხედავთ, რომ ჩვენი მეთოდით გაწვრთნილი sparse მოდელები შეიცავს მცირე, განცალკევებულ სქემებს, რომლებიც ერთდროულად გასაგებიცაა და ქცევის შესასრულებლადაც საკმარისი. ეს მიანიშნებს, რომ შესაძლოა არსებობდეს განხორციელებადი გზა უფრო დიდი სისტემების გაწვრთნისკენ, რომელთა მექანიზმების გაგებასაც შევძლებთ.

ახალი მიდგომა: sparse მოდელების სწავლება

მექანისტური ინტერპრეტირებადობის წინა ნაშრომები იწყებოდა მკვრივი, ჩახლართული ქსელებიდან და ცდილობდა მათ გაშლას. ასეთ ქსელებში თითოეული ცალკეული ნეირონი ათასობით სხვა ნეირონთანაა დაკავშირებული. როგორც ჩანს, ნეირონების უმეტესობა მრავალ განსხვავებულ ფუნქციას ასრულებს, რაც მათ გაგებას თითქოს შეუძლებელს ხდის. 

მაგრამ რა მოხდება, თუ ჩავატარებთ ჩახლართულობისგან თავისუფალი ნეირონული ქსელების სწავლებას, ბევრად მეტი ნეირონით, თუმცა ისე, რომ თითოეულ ნეირონს მხოლოდ რამდენიმე ათეული კავშირი ჰქონდეს? მაშინ, შესაძლოა, მიღებული ქსელი უფრო მარტივი და გასაგები იყოს. ეს არის ჩვენი მუშაობის მთავარი კვლევითი ფსონი.

ამ პრინციპის გათვალისწინებით, ჩვენ ვასწავლეთ ენობრივი მოდელები არქიტექტურით, რომელიც ძალიან ჰგავს არსებულ ენობრივ მოდელებს, როგორიცაა GPT‑2, ერთი მცირე ცვლილებით: ვაიძულებთ, რომ მოდელის წონების აბსოლუტური უმრავლესობა ნულები იყოს. ამან მოდელი შეზღუდა, გამოეყენებინა მხოლოდ ძალიან ცოტა შესაძლო კავშირი მის ნეირონებს შორის. ეს მარტივი ცვლილებაა, რომელიც, ჩვენი აზრით, არსებითად აშორიშორებს მოდელის შიდა გამოთვლებს ერთმანეთისგან.

დიაგრამა, რომელიც ადარებს dense და sparse სქემებს. dense ვერსიაში ჩანს კვანძების ორი რიგი მრავალრიცხოვანი დამაკავშირებელი ხაზებით, ხოლო sparse ვერსიაში იგივე განლაგებაა, მაგრამ ნაკლები და უფრო შერჩევითი კავშირებით.

ჩვეულებრივ dense ნეირონულ ქსელებში თითოეული ნეირონი შემდეგ შრეში ყველა ნეირონთან არის დაკავშირებული. ჩვენს sparse მოდელებში თითოეული ნეირონი შემდეგ შრეში მხოლოდ რამდენიმე ნეირონთან ერთდება. ვიმედოვნებთ, რომ ეს ნეირონებსაც და მთლიან ქსელსაც უფრო მარტივად გასაგებს გახდის.

ინტერპრეტირებადობის შეფასება

გვინდა გავზომოთ, რამდენად განცალკევებულია ჩვენი sparse მოდელების გამოთვლები. განვიხილეთ მოდელის სხვადასხვა მარტივი ქცევა და შევამოწმეთ, შეგვეძლო თუ არა თითოეულ ქცევაზე პასუხისმგებელი ნაწილების იზოლირება — რასაც სქემებს ვუწოდებთ.

ხელით შევადგინეთ მარტივი ალგორითმული ამოცანების ნაკრები. თითოეული მათგანისთვის მოდელი დავჭერით იმ უმცირეს სქემამდე, რომელსაც ჯერ კიდევ შეუძლია ამოცანის შესრულება, და შევისწავლეთ, რამდენად მარტივია ეს სქემა. (დეტალებისთვის იხილეთ ჩვენი ნაშრომი(იხსნება ახალ ფანჯარაში).) აღმოვაჩინეთ, რომ უფრო დიდი და უფრო sparse მოდელების სწავლებით შეგვეძლო მიგვეღო სულ უფრო ქმედუნარიანი მოდელები სულ უფრო მარტივი სქემებით.

გაფანტვის დიაგრამა, რომელიც x-ღერძზე აჩვენებს მოდელის შესაძლებლობას (pretraining loss), ხოლო y-ღერძზე ინტერპრეტირებადობას (დაჭრილი სქემის ზომა). წერტილები სხვადასხვა ზომისა და sparsity-ის დონის მოდელებს აღნიშნავს; ფერი მიუთითებს პარამეტრების მთლიან რაოდენობაზე, ხოლო მარკერის ზომა — არანულოვანი პარამეტრების რაოდენობაზე. ისრები ზედა მარჯვენა მიმართულებას აღნიშნავს, როგორც „უკეთესი“.

ჩვენ მოდელებს შორის ინტერპრეტირებადობასა და შესაძლებლობას ვადარებთ (ქვედა მარცხენა უკეთესია). sparse მოდელის ფიქსირებული ზომის შემთხვევაში, sparsity-ის გაზრდა — მეტი წონის ნულად დაყენება — ამცირებს შესაძლებლობას, მაგრამ ზრდის ინტერპრეტირებადობას. მოდელის ზომის გაზრდა ამ საზღვარს გარეთ წევს, რაც მიანიშნებს, რომ შეგვიძლია ავაგოთ უფრო დიდი მოდელები, რომლებიც ერთდროულადაც უნარიანია და ინტერპრეტირებადიც.

ამის უფრო კონკრეტულად საჩვენებლად, განვიხილოთ ამოცანა, სადაც Python-ის კოდზე გაწვრთნილ მოდელს სტრიქონის დასრულება ბრჭყალის სწორი ტიპით ევალება. Python-ში ‘hello’ ერთმაგი ბრჭყალით უნდა დასრულდეს, ხოლო “hello” — ორმაგი ბრჭყალით. მოდელს შეუძლია ეს ამოცანა იმით გადაწყვიტოს, რომ დაიმახსოვროს, რომელმა ბრჭყალმა გახსნა სტრიქონი და ბოლოს ისევ ის გაიმეოროს.

როგორც ჩანს, ჩვენი ყველაზე ინტერპრეტირებადი მოდელები შეიცავს განცალკევებულ სქემებს, რომლებიც ზუსტად ამ ალგორითმს ახორციელებს.

დიაგრამა, რომელიც აჩვენებს sparse ტრანსფორმერში სქემის მაგალითს. ნაჩვენებია, როგორ აქტიურდება კონკრეტული ნეირონები და ყურადღების თავები შეყვანის token-ებზე, როგორიცაა “(” და “circuits,”; მითითებულია დადებითი და უარყოფითი წონების, გამრავლების, არაწრფივობების და MLP-სა და ყურადღების შრეებს შორის კავშირების გზები, რაც საბოლოოდ გამომავალი token-ების ალბათობებამდე მიდის.

sparse ტრანსფორმერში სქემის მაგალითი, რომელიც წინასწარმეტყველებს, სტრიქონი ერთმაგი თუ ორმაგი ბრჭყალით უნდა დასრულდეს. ეს სქემა იყენებს მხოლოდ ხუთ residual არხს (ვერტიკალური ნაცრისფერი ხაზები), ორ MLP ნეირონს 0-ე შრეში, ასევე ერთ attention query-key არხს და ერთ value არხს 10-ე შრეში. მოდელი (1) ერთ residual არხში კოდირებს ერთმაგ ბრჭყალებს, ხოლო მეორეში — ორმაგ ბრჭყალებს; (2) იყენებს MLP შრეს, რათა ეს გადააქციოს ერთ არხად, რომელიც ნებისმიერ ბრჭყალს აფიქსირებს, და მეორე არხად, რომელიც ერთმაგსა და ორმაგ ბრჭყალს შორის ასხვავებს; (3) იყენებს ყურადღების ოპერაციას, რათა გამოტოვოს შუალედური token-ები, იპოვოს წინა ბრჭყალი და მისი ტიპი საბოლოო token-ში დააკოპიროს; და (4) წინასწარმეტყველებს შესაბამის დამხურავ ბრჭყალს.

ჩვენი განსაზღვრებით, ზემოთ ნაჩვენები ზუსტი კავშირები ამ ამოცანის შესასრულებლად საკმარისია — თუ მოდელის დანარჩენ ნაწილს მოვაშორებთ, ეს მცირე სქემა მაინც იმუშავებს. ისინი ასევე აუცილებელია — ამ რამდენიმე წიბოს წაშლა მოდელის მარცხს იწვევს.

ჩვენ ასევე შევისწავლეთ ზოგი უფრო რთული ქცევა. ამ ქცევებისთვის ჩვენი სქემები (მაგალითად, ქვემოთ ნაჩვენები ცვლადების ბმა) უფრო ძნელად ასახსნელია სრულად. მიუხედავად ამისა, მაინც შეგვიძლია მივიღოთ შედარებით მარტივი ნაწილობრივი ახსნები, რომლებიც მოდელის ქცევას წინასწარმეტყველებს.

დიაგრამა, რომელიც აჩვენებს sparse-transformer-ის სქემის მაგალითს Python-ის ფუნქციაში get_neighbors. ჩარჩოშია მოქცეული current = set() მინიჭების ორი შემთხვევა, ხოლო ფერადი ისრები აჩვენებს, რომელი ყურადღების თავები (მონიშნული Q/K/V ინდექსებით) აქტიურდება, რათა ცვლადი current-ის თითოეული გამოჩენა ციკლში მის გამოყენებას დაუკავშიროს.

სქემის კიდევ ერთი მაგალითი, ნაკლები დეტალით. ცვლადის, სახელად current, ტიპის დასადგენად, ერთი ყურადღების ოპერაცია აკოპირებს ცვლადის სახელს set() token-ში, როცა ის განისაზღვრება, ხოლო მეორე, უფრო გვიანდელი ოპერაცია, ტიპს set() token-იდან ცვლადის მომდევნო გამოყენებაში აკოპირებს, რაც მოდელს საშუალებას აძლევს სწორი შემდეგი token გამოიტანოს.

შემდგომი გზა

ეს ნაშრომი უფრო დიდი მიზნისკენ გადადგმული ადრეული ნაბიჯია: გავამარტივოთ მოდელების გამოთვლების გაგება. თუმცა ჯერ კიდევ დიდი გზაა გასავლელი. ჩვენი sparse მოდელები ბევრად მცირეა, ვიდრე მოწინავე მოდელები, და მათი გამოთვლების დიდი ნაწილი კვლავ აუხსნელი რჩება. 

შემდეგ ეტაპზე ვიმედოვნებთ, რომ ჩვენს ტექნიკებს უფრო დიდ მოდელებზე გავაფართოებთ და მოდელების ქცევის მეტ ნაწილს ავხსნით. თუ შევძლებთ უფრო რთული მსჯელობის საფუძვლად მდებარე სქემური მოტივების ჩამოთვლას ქმედუნარიან sparse მოდელებში, შეგვიძლია შევიმუშაოთ გაგება, რომელიც მოგვცემს საშუალებას უკეთ მივმართოთ მოწინავე მოდელების კვლევა.

sparse მოდელების სწავლების არაეფექტიანობის დასაძლევად ორ გზას ვხედავთ. ერთია არსებული dense მოდელებიდან sparse სქემების ამოღება, ნაცვლად იმისა, რომ sparse მოდელები ნულიდან ვასწავლოთ. dense მოდელები განთავსებისთვის ფუნდამენტურად უფრო ეფექტიანია, ვიდრე sparse მოდელები. მეორე გზა ინტერპრეტირებადობისთვის მოდელების სწავლების უფრო ეფექტიანი ტექნიკების განვითარებაა, რომელთა პროდუქციაში დანერგვაც შესაძლოა უფრო ადვილი იყოს.

გაითვალისწინეთ, რომ ჩვენი ამჟამინდელი მიგნებები არ იძლევა გარანტიას, რომ ეს მიდგომა უფრო ქმედუნარიან სისტემებზეც გავრცელდება, თუმცა ეს საწყისი შედეგები იმედისმომცემია. ჩვენი მიზანია თანდათან გავაფართოოთ ის მოცულობა, რამდენის ინტერპრეტირებაც მოდელში საიმედოდ შეგვიძლია, და შევქმნათ ინსტრუმენტები, რომლებიც მომავალ სისტემებს ანალიზისთვის, გამართვისთვის და შეფასებისთვის უფრო მარტივს გახდის.

ავტორები

Leo Gao, Achyuta Rajaram, Jacob Coxon, Soham V. Govande, Bowen Baker და Dan Mossing