6 ივნისი, 2024

ცნებების გამოყოფა GPT‑4‑დან

ჩვენ გამოვიყენეთ ახალი მასშტაბირებადი მეთოდები, რათა GPT‑4‑ის შიდა წარმოდგენები 16 მილიონ ხშირად ინტერპრეტირებად შაბლონად დაგვეშალა.

ნაშრომის წაკითხვა კოდის ნახვა მახასიათებლების დათვალიერება

იტვირთება…

ამ დროისთვის არ გვესმის, როგორ უნდა გავიგოთ ენობრივი მოდელების შიგნით მიმდინარე ნეირონული აქტივობა. დღეს ვაზიარებთ გაუმჯობესებულ მეთოდებს „მახასიათებლების“ — აქტივობის ისეთი შაბლონების — დიდი რაოდენობით საპოვნელად, რომლებიც, ჩვენი იმედით, ადამიანისთვის ინტერპრეტირებადია. ჩვენი მეთოდები არსებულ ნაშრომებთან შედარებით უკეთესად მასშტაბირდება და მათ ვიყენებთ GPT‑4‑ში 16 მილიონი მახასიათებლის საპოვნელად. შემდგომი შესწავლის წასახალისებლად, კვლევით საზოგადოებას ვუზიარებთ ნაშრომს⁠(იხსნება ახალ ფანჯარაში), კოდს⁠(იხსნება ახალ ფანჯარაში) და მახასიათებლების ვიზუალიზაციებს⁠(იხსნება ახალ ფანჯარაში).

ნეირონული ქსელების ინტერპრეტაციის გამოწვევა

ადამიანების შექმნილი საგნების უმეტესობისგან განსხვავებით, ჩვენ ნეირონული ქსელების შიდა მოქმედება რეალურად არ გვესმის. მაგალითად, ინჟინრებს შეუძლიათ მანქანები პირდაპირ დააპროექტონ, შეაფასონ და შეაკეთონ მათი კომპონენტების სპეციფიკაციების საფუძველზე, რითაც უსაფრთხოებასა და წარმადობას უზრუნველყოფენ. თუმცა ნეირონული ქსელები პირდაპირ არ იგეგმება; ამის ნაცვლად ჩვენ ვქმნით ალგორითმებს, რომლებიც მათ წვრთნის. შედეგად მიღებული ქსელები კარგად არ არის გაგებული და ადვილად ვერ იშლება იდენტიფიცირებად ნაწილებად. ეს ნიშნავს, რომ AI-ის უსაფრთხოებაზე ვერ ვიმსჯელებთ ისე, როგორც, მაგალითად, მანქანის უსაფრთხოებაზე ვმსჯელობთ.

ნეირონული ქსელების გასაგებად და ინტერპრეტაციისთვის, ჯერ უნდა ვიპოვოთ სასარგებლო საშენი ბლოკები ნეირონული გამოთვლებისთვის. სამწუხაროდ, ენობრივი მოდელის შიდა ნეირონული აქტივაციები არაპროგნოზირებადი შაბლონებით აქტიურდება და, როგორც ჩანს, ერთდროულად მრავალ ცნებას წარმოადგენს. ისინი ასევე მჭიდროდ აქტიურდება, რაც ნიშნავს, რომ თითოეული აქტივაცია ყოველ შეყვანაზე ყოველთვის ირთვება. მაგრამ რეალური სამყაროს ცნებები ძალიან მწირია — მოცემულ კონტექსტში ყველა ცნებიდან მხოლოდ მცირე ნაწილია შესაბამისი. სწორედ ეს ამართლებს მწირი ავტოენკოდერების გამოყენებას — მეთოდს, რომელიც ნეირონულ ქსელში ამოიცნობს რამდენიმე „მახასიათებელს“, რომლებიც მნიშვნელოვანია ნებისმიერი მოცემული გამოსავლის მისაღებად; ეს ჰგავს იმ მცირე რაოდენობის ცნებებს, რომლებიც ადამიანს შეიძლება ახსოვდეს სიტუაციაზე მსჯელობისას. მათი მახასიათებლები აჩვენებს მწირ აქტივაციის შაბლონებს, რომლებიც ბუნებრივად ემთხვევა ადამიანებისთვის ადვილად გასაგებ ცნებებს, ინტერპრეტირებადობაზე პირდაპირი სტიმულების გარეშეც კი.

დიაგრამა, რომელიც აჩვენებს, როგორ ახდენს მწირი ავტოენკოდერი მკვრივი ნეირონული აქტივაციების კოდირებასა და დეკოდირებას მწირ მახასიათებლებად.

თუმცა, მწირი ავტოენკოდერების გაწვრთნასთან დაკავშირებით ჯერ კიდევ სერიოზული გამოწვევებია. დიდი ენობრივი მოდელები ცნებების უზარმაზარ რაოდენობას წარმოადგენს, და ჩვენს ავტოენკოდერებს, შესაძლოა, შესაბამისად უზარმაზარი ზომა დასჭირდეთ, რათა მოწინავე მოდელში არსებული ცნებების თითქმის სრულ დაფარვას მიუახლოვდნენ. მწირი მახასიათებლების დიდი რაოდენობის სწავლა რთულია, და წარსულ ნაშრომებს კარგი მასშტაბირების უნარი არ უჩვენებიათ.

ჩვენი კვლევის პროგრესი: მასშტაბური ავტოენკოდერების გაწვრთნა

ჩვენ შევიმუშავეთ ახალი, საუკეთესო დონის მეთოდოლოგიები, რომლებიც საშუალებას გვაძლევს ჩვენი მწირი ავტოენკოდერები მოვარგოთ მოწინავე AI მოდელებზე ათობით მილიონ მახასიათებლამდე. ვხედავთ, რომ ჩვენი მეთოდოლოგია აჩვენებს გლუვ და პროგნოზირებად მასშტაბირებას, მასშტაბირებიდან უკეთესი შედეგებით, ვიდრე წინა ტექნიკები. ასევე წარმოვადგენთ რამდენიმე ახალ მეტრიკას მახასიათებლების ხარისხის შესაფასებლად.

ჩვენი მიდგომით GPT‑2 small-ისა და GPT‑4‑ის აქტივაციებზე ავტოენკოდერების სხვადასხვა ვარიანტი გავწვრთენით, მათ შორის GPT‑4‑ზე 16-მილიონიანი მახასიათებლის ავტოენკოდერი. მახასიათებლების ინტერპრეტირებადობის შესამოწმებლად, კონკრეტულ მახასიათებელს ვიზუალიზაციით ვაჩვენებთ იმ დოკუმენტებით, სადაც ის აქტიურდება. აი რამდენიმე ინტერპრეტირებადი მახასიათებელი, რომელიც ვიპოვეთ:

GPT-4 feature: phrases relating to things (especially humans) being flawed

იხილეთ სრული ვიზუალიზაცია

most people, it isn’t. We all have wonderful days, glimpses of what we perceive to be perfection, but we can also all have truly shit-tastic ones, and I can assure you that you’re not alone. So toddler of mine, and most other toddlers out there, remember; Don’t be a

has warts. What system that is used to build real world software doesn't? I've built systems in a number of languages and frameworks and they all had warts and issues. How much research has the author done to find other solutions? The plea at the end seemed very lazywebish to me

often put our hope in the wrong places – in the world, in other people, in our abilities or finances – but all of that is like sinking sand. The only place we can find hope is in Jesus Christ. These words by Kutless tell us just where we need to go to find hope. I lift my

churches since the last Great Reformation has also become warped. I state again, while churches are formed and planted with the most Holy and Divine of inspirations, they are not free from the corruption of humanity. While they are of our great and perfect Father, they are on an imperfect Earth. And we Rogues are

perfect. If anyone does not believe that let them say so. You really do appear to be just about a meter away from me. But you are actually in my brain. What artistry! What perfection! Not the slightest blurring. And in 3-D. Sound is also 3-D. And images.

ჩვენ მრავალი სხვა საინტერესო მახასიათებელიც ვიპოვეთ, რომელთა დათვალიერებაც აქ⁠(იხსნება ახალ ფანჯარაში) შეგიძლიათ.

შეზღუდვები

მოხარული ვართ, რომ ინტერპრეტირებადობამ საბოლოოდ შეიძლება გაზარდოს მოდელის სანდოობა და მართვადობა. თუმცა ეს ჯერ კიდევ საწყისი სამუშაოა მრავალი შეზღუდვით:

წინა ნაშრომების მსგავსად, აღმოჩენილი მრავალი მახასიათებელი კვლავ რთულად ინტერპრეტირებადია; ბევრი მათგანი აქტიურდება მკაფიო შაბლონის გარეშე ან ავლენს შემთხვევით აქტივაციებს, რომლებიც არ უკავშირდება იმ ცნებას, რომელსაც, როგორც ჩანს, ჩვეულებრივ კოდირებს. გარდა ამისა, ინტერპრეტაციების სისწორის შესამოწმებლად კარგი გზები არ გვაქვს.
მწირი ავტოენკოდერი საწყისი მოდელის მთელ ქცევას ვერ ფარავს. ამჟამად GPT‑4‑ის აქტივაციების მწირ ავტოენკოდერში გატარება იძლევა წარმადობას, რომელიც დაახლოებით 10-ჯერ ნაკლები გამოთვლითი რესურსით გაწვრთნილი მოდელის ტოლფასია. მოწინავე LLM-ებში ცნებების სრულად ასახვისთვის შესაძლოა დაგვჭირდეს მილიარდობით ან ტრილიონობით მახასიათებელზე მასშტაბირება, რაც ჩვენი გაუმჯობესებული მასშტაბირების ტექნიკებითაც კი რთული იქნება.
მწირ ავტოენკოდერებს შეუძლიათ მახასიათებლების პოვნა მოდელის ერთ კონკრეტულ წერტილში, მაგრამ ეს მოდელის ინტერპრეტაციისკენ მხოლოდ ერთი ნაბიჯია. გაცილებით მეტი სამუშაოა საჭირო იმის გასაგებად, როგორ გამოთვლის მოდელი ამ მახასიათებლებს და როგორ გამოიყენება ისინი შემდგომ მოდელის დანარჩენ ნაწილში.

მომავლისკენ ხედვა და ჩვენი კვლევის ღია კოდად გამოქვეყნება

მიუხედავად იმისა, რომ მწირი ავტოენკოდერების კვლევა ძალიან საინტერესოა, წინ ჯერ კიდევ გრძელი გზა და მრავალი გადაუჭრელი გამოწვევაა. მოკლევადიან პერსპექტივაში ვიმედოვნებთ, რომ ჩვენ მიერ აღმოჩენილი მახასიათებლები პრაქტიკულად სასარგებლო იქნება ენობრივი მოდელის ქცევების მონიტორინგისა და მიმართულების მისაცემად, და ამას ჩვენს მოწინავე მოდელებში გამოვცდით. საბოლოოდ, გვინდა, რომ ერთ დღეს ინტერპრეტირებადობამ მოგვცეს მოდელის უსაფრთხოებასა და მდგრადობაზე მსჯელობის ახალი გზები და მნიშვნელოვნად გაზარდოს ჩვენი ნდობა ძლიერი AI მოდელების მიმართ მათი ქცევის შესახებ მყარი გარანტიების მოცემით.

დღეს ჩვენ ვაზიარებთ ნაშრომს⁠(იხსნება ახალ ფანჯარაში), სადაც დეტალურადაა აღწერილი ჩვენი ექსპერიმენტები და მეთოდები, და ვიმედოვნებთ, რომ ეს მკვლევრებს მასშტაბურად ავტოენკოდერების გაწვრთნას გაუმარტივებს. ჩვენ ვუშვებთ GPT‑2 small-ისთვის ავტოენკოდერების სრულ ნაკრებს, მათ გამოყენებისთვის საჭირო კოდთან⁠(იხსნება ახალ ფანჯარაში) ერთად, ასევე მახასიათებლების ვიზუალიზატორს⁠(იხსნება ახალ ფანჯარაში), რათა წარმოდგენა შეგექმნათ, რას შეიძლება შეესაბამებოდეს GPT‑2‑ისა და GPT‑4‑ის მახასიათებლები.

ავტორები

Jeffrey Wu, Leo Gao, Tom Dupré la Tour და Henk Tillman

მადლობები

Taya Christianson, Elizabeth Proehl, Yo Shavit, Niko Felix, Cathy Yeh, Gabriel Goh, Rajan Troll, Alec Radford, Jan Leike, Ilya Sutskever, David Robinson, Greg Brockman