ცნებების გამოყოფა GPT‑4‑დან
ჩვენ გამოვიყენეთ ახალი მასშტაბირებადი მეთოდები, რათა GPT‑4‑ის შიდა წარმოდგენები 16 მილიონ ხშირად ინტერპრეტირებად შაბლონად დაგვეშალა.
ამ დროისთვის არ გვესმის, როგორ უნდა გავიგოთ ენობრივი მოდელების შიგნით მიმდინარე ნეირონული აქტივობა. დღეს ვაზიარებთ გაუმჯობესებულ მეთოდებს „მახასიათებლების“ — აქტივობის ისეთი შაბლონების — დიდი რაოდენობით საპოვნელად, რომლებიც, ჩვენი იმედით, ადამიანისთვის ინტერპრეტირებადია. ჩვენი მეთოდები არსებულ ნაშრომებთან შედარებით უკეთესად მასშტაბირდება და მათ ვიყენებთ GPT‑4‑ში 16 მილიონი მახასიათებლის საპოვნელად. შემდგომი შესწავლის წასახალისებლად, კვლევით საზოგადოებას ვუზიარებთ ნაშრომს(იხსნება ახალ ფანჯარაში), კოდს(იხსნება ახალ ფანჯარაში) და მახასიათებლების ვიზუალიზაციებს(იხსნება ახალ ფანჯარაში).
ადამიანების შექმნილი საგნების უმეტესობისგან განსხვავებით, ჩვენ ნეირონული ქსელების შიდა მოქმედება რეალურად არ გვესმის. მაგალითად, ინჟინრებს შეუძლიათ მანქანები პირდაპირ დააპროექტონ, შეაფასონ და შეაკეთონ მათი კომპონენტების სპეციფიკაციების საფუძველზე, რითაც უსაფრთხოებასა და წარმადობას უზრუნველყოფენ. თუმცა ნეირონული ქსელები პირდაპირ არ იგეგმება; ამის ნაცვლად ჩვენ ვქმნით ალგორითმებს, რომლებიც მათ წვრთნის. შედეგად მიღებული ქსელები კარგად არ არის გაგებული და ადვილად ვერ იშლება იდენტიფიცირებად ნაწილებად. ეს ნიშნავს, რომ AI-ის უსაფრთხოებაზე ვერ ვიმსჯელებთ ისე, როგორც, მაგალითად, მანქანის უსაფრთხოებაზე ვმსჯელობთ.
ნეირონული ქსელების გასაგებად და ინტერპრეტაციისთვის, ჯერ უნდა ვიპოვოთ სასარგებლო საშენი ბლოკები ნეირონული გამოთვლებისთვის. სამწუხაროდ, ენობრივი მოდელის შიდა ნეირონული აქტივაციები არაპროგნოზირებადი შაბლონებით აქტიურდება და, როგორც ჩანს, ერთდროულად მრავალ ცნებას წარმოადგენს. ისინი ასევე მჭიდროდ აქტიურდება, რაც ნიშნავს, რომ თითოეული აქტივაცია ყოველ შეყვანაზე ყოველთვის ირთვება. მაგრამ რეალური სამყაროს ცნებები ძალიან მწირია — მოცემულ კონტექსტში ყველა ცნებიდან მხოლოდ მცირე ნაწილია შესაბამისი. სწორედ ეს ამართლებს მწირი ავტოენკოდერების გამოყენებას — მეთოდს, რომელიც ნეირონულ ქსელში ამოიცნობს რამდენიმე „მახასიათებელს“, რომლებიც მნიშვნელოვანია ნებისმიერი მოცემული გამოსავლის მისაღებად; ეს ჰგავს იმ მცირე რაოდენობის ცნებებს, რომლებიც ადამიანს შეიძლება ახსოვდეს სიტუაციაზე მსჯელობისას. მათი მახასიათებლები აჩვენებს მწირ აქტივაციის შაბლონებს, რომლებიც ბუნებრივად ემთხვევა ადამიანებისთვის ადვილად გასაგებ ცნებებს, ინტერპრეტირებადობაზე პირდაპირი სტიმულების გარეშეც კი.

თუმცა, მწირი ავტოენკოდერების გაწვრთნასთან დაკავშირებით ჯერ კიდევ სერიოზული გამოწვევებია. დიდი ენობრივი მოდელები ცნებების უზარმაზარ რაოდენობას წარმოადგენს, და ჩვენს ავტოენკოდერებს, შესაძლოა, შესაბამისად უზარმაზარი ზომა დასჭირდეთ, რათა მოწინავე მოდელში არსებული ცნებების თითქმის სრულ დაფარვას მიუახლოვდნენ. მწირი მახასიათებლების დიდი რაოდენობის სწავლა რთულია, და წარსულ ნაშრომებს კარგი მასშტაბირების უნარი არ უჩვენებიათ.
ჩვენ შევიმუშავეთ ახალი, საუკეთესო დონის მეთოდოლოგიები, რომლებიც საშუალებას გვაძლევს ჩვენი მწირი ავტოენკოდერები მოვარგოთ მოწინავე AI მოდელებზე ათობით მილიონ მახასიათებლამდე. ვხედავთ, რომ ჩვენი მეთოდოლოგია აჩვენებს გლუვ და პროგნოზირებად მასშტაბირებას, მასშტაბირებიდან უკეთესი შედეგებით, ვიდრე წინა ტექნიკები. ასევე წარმოვადგენთ რამდენიმე ახალ მეტრიკას მახასიათებლების ხარისხის შესაფასებლად.
ჩვენი მიდგომით GPT‑2 small-ისა და GPT‑4‑ის აქტივაციებზე ავტოენკოდერების სხვადასხვა ვარიანტი გავწვრთენით, მათ შორის GPT‑4‑ზე 16-მილიონიანი მახასიათებლის ავტოენკოდერი. მახასიათებლების ინტერპრეტირებადობის შესამოწმებლად, კონკრეტულ მახასიათებელს ვიზუალიზაციით ვაჩვენებთ იმ დოკუმენტებით, სადაც ის აქტიურდება. აი რამდენიმე ინტერპრეტირებადი მახასიათებელი, რომელიც ვიპოვეთ:
GPT-4 feature: phrases relating to things (especially humans) being flawed
იხილეთ სრული ვიზუალიზაცია(იხსნება ახალ ფანჯარაში)ჩვენ მრავალი სხვა საინტერესო მახასიათებელიც ვიპოვეთ, რომელთა დათვალიერებაც აქ(იხსნება ახალ ფანჯარაში) შეგიძლიათ.
მოხარული ვართ, რომ ინტერპრეტირებადობამ საბოლოოდ შეიძლება გაზარდოს მოდელის სანდოობა და მართვადობა. თუმცა ეს ჯერ კიდევ საწყისი სამუშაოა მრავალი შეზღუდვით:
- წინა ნაშრომების მსგავსად, აღმოჩენილი მრავალი მახასიათებელი კვლავ რთულად ინტერპრეტირებადია; ბევრი მათგანი აქტიურდება მკაფიო შაბლონის გარეშე ან ავლენს შემთხვევით აქტივაციებს, რომლებიც არ უკავშირდება იმ ცნებას, რომელსაც, როგორც ჩანს, ჩვეულებრივ კოდირებს. გარდა ამისა, ინტერპრეტაციების სისწორის შესამოწმებლად კარგი გზები არ გვაქვს.
- მწირი ავტოენკოდერი საწყისი მოდელის მთელ ქცევას ვერ ფარავს. ამჟამად GPT‑4‑ის აქტივაციების მწირ ავტოენკოდერში გატარება იძლევა წარმადობას, რომელიც დაახლოებით 10-ჯერ ნაკლები გამოთვლითი რესურსით გაწვრთნილი მოდელის ტოლფასია. მოწინავე LLM-ებში ცნებების სრულად ასახვისთვის შესაძლოა დაგვჭირდეს მილიარდობით ან ტრილიონობით მახასიათებელზე მასშტაბირება, რაც ჩვენი გაუმჯობესებული მასშტაბირების ტექნიკებითაც კი რთული იქნება.
- მწირ ავტოენკოდერებს შეუძლიათ მახასიათებლების პოვნა მოდელის ერთ კონკრეტულ წერტილში, მაგრამ ეს მოდელის ინტერპრეტაციისკენ მხოლოდ ერთი ნაბიჯია. გაცილებით მეტი სამუშაოა საჭირო იმის გასაგებად, როგორ გამოთვლის მოდელი ამ მახასიათებლებს და როგორ გამოიყენება ისინი შემდგომ მოდელის დანარჩენ ნაწილში.
მიუხედავად იმისა, რომ მწირი ავტოენკოდერების კვლევა ძალიან საინტერესოა, წინ ჯერ კიდევ გრძელი გზა და მრავალი გადაუჭრელი გამოწვევაა. მოკლევადიან პერსპექტივაში ვიმედოვნებთ, რომ ჩვენ მიერ აღმოჩენილი მახასიათებლები პრაქტიკულად სასარგებლო იქნება ენობრივი მოდელის ქცევების მონიტორინგისა და მიმართულების მისაცემად, და ამას ჩვენს მოწინავე მოდელებში გამოვცდით. საბოლოოდ, გვინდა, რომ ერთ დღეს ინტერპრეტირებადობამ მოგვცეს მოდელის უსაფრთხოებასა და მდგრადობაზე მსჯელობის ახალი გზები და მნიშვნელოვნად გაზარდოს ჩვენი ნდობა ძლიერი AI მოდელების მიმართ მათი ქცევის შესახებ მყარი გარანტიების მოცემით.
დღეს ჩვენ ვაზიარებთ ნაშრომს(იხსნება ახალ ფანჯარაში), სადაც დეტალურადაა აღწერილი ჩვენი ექსპერიმენტები და მეთოდები, და ვიმედოვნებთ, რომ ეს მკვლევრებს მასშტაბურად ავტოენკოდერების გაწვრთნას გაუმარტივებს. ჩვენ ვუშვებთ GPT‑2 small-ისთვის ავტოენკოდერების სრულ ნაკრებს, მათ გამოყენებისთვის საჭირო კოდთან(იხსნება ახალ ფანჯარაში) ერთად, ასევე მახასიათებლების ვიზუალიზატორს(იხსნება ახალ ფანჯარაში), რათა წარმოდგენა შეგექმნათ, რას შეიძლება შეესაბამებოდეს GPT‑2‑ისა და GPT‑4‑ის მახასიათებლები.
ავტორები
მადლობები
Taya Christianson, Elizabeth Proehl, Yo Shavit, Niko Felix, Cathy Yeh, Gabriel Goh, Rajan Troll, Alec Radford, Jan Leike, Ilya Sutskever, David Robinson, Greg Brockman