Негізгі мазмұнға өту
OpenAI

2024 ж. 6 маусым

Жарияланым

GPT‑4‑тен ұғымдарды шығару

Біз GPT‑4‑тің ішкі ұсынылымдарын көбіне интерпретацияланатын 16 миллион үлгіге жіктеу үшін жаңа ауқымдалатын әдістерді қолдандық.

Жүктелуде…

Қазіргі кезде тілдік модельдер ішіндегі нейрондық белсенділікті қалай түсіндіру керегін білмейміз. Бүгін біз адамға интерпретацияланатын болады деп үміттенетін көптеген «белгілерді» — белсенділік үлгілерін — табудың жетілдірілген әдістерімен бөлісіп отырмыз. Біздің әдістеріміз қолданыстағы жұмыстарға қарағанда жақсырақ ауқымдалады, және біз оларды GPT‑4‑тен 16 миллион белгі табу үшін қолдандық. Әрі қарайғы зерттеулерді ынталандыру үшін зерттеу қауымдастығымен мақаланы(жаңа терезеде ашылады), кодты(жаңа терезеде ашылады) және белгі визуализацияларын(жаңа терезеде ашылады) бөлісіп отырмыз.

Нейрондық желілерді интерпретациялау қиындығы

Адам жасаған дүниелердің көбінен айырмашылығы, біз нейрондық желілердің ішкі жұмысын шын мәнінде түсінбейміз. Мысалы, инженерлер көліктерді олардың құрамдас бөліктерінің сипаттамаларына сүйеніп тікелей жобалап, бағалап және түзете алады, осылайша қауіпсіздік пен өнімділікті қамтамасыз етеді. Алайда нейрондық желілер тікелей жобаланбайды; оның орнына біз оларды үйрететін алгоритмдерді жобалаймыз. Соның нәтижесінде пайда болған желілер жақсы түсінілмеген және оларды анық танылатын бөліктерге оңай ажырату мүмкін емес. Бұл AI қауіпсіздігі туралы көлік қауіпсіздігі секілді пайымдай алмайтынымызды білдіреді.

Нейрондық желілерді түсіну және интерпретациялау үшін, алдымен нейрондық есептеулерге пайдалы құрылыс блоктарын табуымыз керек. Өкінішке қарай, тілдік модель ішіндегі нейрондық активациялар болжап болмайтын үлгілермен белсеніп, бір мезгілде көптеген ұғымдарды білдіретіндей көрінеді. Олар сондай-ақ тығыз белсендіріледі, яғни әрбір активация әр кірісте әрдайым іске қосылады. Бірақ шынайы әлем ұғымдары өте сирек болады — кез келген контексте барлық ұғымдардың тек аз ғана бөлігі өзекті. Бұл сирек автоэнкодерлерді қолдануға түрткі болады, яғни нейрондық желідегі кез келген берілген шығысты шығаруда маңызды болатын бірнеше «белгіні» анықтайтын әдіс; бұл жағдай туралы ой қорытқанда адамның санасында болатын шағын ұғымдар жиынына ұқсайды. Олардың белгілері интерпретациялануға тікелей ынталандыру болмаса да, адамдарға түсінуге оңай ұғымдармен табиғи түрде сәйкес келетін сирек белсендіру үлгілерін көрсетеді.

Сирек автоэнкодердің тығыз нейрондық активацияларды сирек белгілерге кодтап, кейін декодтайтынын көрсететін диаграмма.

Алайда сирек автоэнкодерлерді үйретуде әлі де елеулі қиындықтар бар. Үлкен тілдік модельдер орасан көп ұғымдарды білдіреді, сондықтан озық модельдегі ұғымдарды барынша толық қамту үшін біздің автоэнкодерлеріміз де соған сай өте үлкен болуы мүмкін. Көптеген сирек белгілерді үйрену қиын, ал бұрынғы жұмыстардың жақсы ауқымдалатыны көрсетілмеген.

Зерттеуіміздің ілгерілеуі: ауқымды автоэнкодер үйрету

Біз сирек автоэнкодерлерімізді озық AI модельдерінде ондаған миллион белгіге дейін ауқымдауға мүмкіндік беретін жаңа, заманауи әдістемелерді әзірледік. Біздің әдістеме бірқалыпты және болжамды ауқымдалуды көрсететінін, әрі алдыңғы тәсілдерге қарағанда ауқым артқан сайын тиімділігі жоғарырақ болатынын анықтадық. Сондай-ақ белгі сапасын бағалауға арналған бірнеше жаңа метриканы енгіземіз.

Біз өз әдісімізді GPT‑2 small және GPT‑4 активацияларында әртүрлі автоэнкодерлерді, соның ішінде GPT‑4 үшін 16 миллион белгісі бар автоэнкодерді үйрету үшін қолдандық. Белгілердің интерпретациялануын тексеру үшін, біз белгілі бір белгі белсенетін құжаттарды көрсету арқылы оны визуалдаймыз. Міне, біз тапқан кейбір интерпретацияланатын белгілер:

GPT-4 feature: phrases relating to things (especially humans) being flawed

Толық визуализацияны көру(жаңа терезеде ашылады)
most people, it isn’t. We all have wonderful days, glimpses of what we perceive to be perfection, but we can also all have truly shit-tastic ones, and I can assure you that you’re not alone. So toddler of mine, and most other toddlers out there, remember; Don’t be a
has warts. What system that is used to build real world software doesn't? I've built systems in a number of languages and frameworks and they all had warts and issues. How much research has the author done to find other solutions? The plea at the end seemed very lazywebish to me
often put our hope in the wrong places in the world, in other people, in our abilities or finances but all of that is like sinking sand. The only place we can find hope is in Jesus Christ. These words by Kutless tell us just where we need to go to find hope. I lift my
churches since the last Great Reformation has also become warped. I state again, while churches are formed and planted with the most Holy and Divine of inspirations, they are not free from the corruption of humanity. While they are of our great and perfect Father, they are on an imperfect Earth. And we Rogues are
perfect. If anyone does not believe that let them say so. You really do appear to be just about a meter away from me. But you are actually in my brain. What artistry! What perfection! Not the slightest blurring. And in 3-D. Sound is also 3-D. And images.

Біз басқа да көптеген қызықты белгілерді таптық, оларды осы жерден шола аласыз(жаңа терезеде ашылады).

Шектеулер

Интерпретациялау ақырында модельдердің сенімділігі мен басқарылуын арттырады деп үміттенеміз. Алайда бұл әлі де көптеген шектеулері бар ерте жұмыс:

  • Алдыңғы жұмыстардағыдай, табылған көптеген белгіні әлі де интерпретациялау қиын: олардың көбі айқын үлгісіз белсенеді немесе әдетте кодтайтын сияқты көрінетін ұғымға қатысы жоқ жалған белсендірулер көрсетеді. Бұған қоса, интерпретациялардың дұрыстығын тексерудің жақсы тәсілдері бізде жоқ.
  • Сирек автоэнкодер бастапқы модельдің барлық мінез-құлқын қамтымайды. Қазіргі таңда GPT‑4 активацияларын сирек автоэнкодер арқылы өткізу, шамамен 10 есе аз есептеу ресурстарымен үйретілген модельге тең өнімділік береді. Озық LLM (үлкен тілдік модель) ішіндегі ұғымдарды толық картаға түсіру үшін бізге миллиардтаған не триллиондаған белгіге дейін ауқымдау қажет болуы мүмкін, ал бұл тіпті жетілдірілген ауқымдау тәсілдерімізбен де қиын болар еді.
  • Сирек автоэнкодерлер модельдің бір нүктесіндегі белгілерді таба алады, бірақ бұл модельді интерпретациялауға апарар жолдағы бір ғана қадам. Модельдің сол белгілерді қалай есептейтінін және сол белгілердің модельдің қалған бөлігінде кейін қалай қолданылатынын түсіну үшін әлдеқайда көп жұмыс қажет.

Алға көзқарас және зерттеуіміздің кодын ашу

Сирек автоэнкодерлерді зерттеу қызықты болғанымен, әлі шешілмеген көптеген қиындықтары бар ұзақ жол алда тұр. Қысқа мерзімде біз тапқан белгілер тілдік модель мінез-құлқын бақылау мен бағыттауда іс жүзінде пайдалы болады деп үміттенеміз және мұны озық модельдерімізде сынауды жоспарлаймыз. Түптеп келгенде, бір күні интерпретациялау бізге модель қауіпсіздігі мен төзімділігі туралы пайымдаудың жаңа тәсілдерін береді және олардың мінез-құлқы туралы мықты кепілдіктер ұсыну арқылы қуатты AI модельдеріне сенімімізді едәуір арттырады деп үміттенеміз.

Бүгін біз тәжірибелеріміз бен әдістерімізді егжей-тегжейлі сипаттайтын мақаланы(жаңа терезеде ашылады) бөлісіп отырмыз; бұл зерттеушілерге автоэнкодерлерді ауқымды түрде үйретуді жеңілдетеді деп сенеміз. Біз GPT‑2 small үшін автоэнкодерлердің толық жинағын, оларды пайдалануға арналған кодпен(жаңа терезеде ашылады) бірге, сондай-ақ GPT‑2 және GPT‑4 белгілері нені білдіруі мүмкін екенін сезінуге арналған белгілер визуализаторын(жаңа терезеде ашылады) жариялап отырмыз.

Авторлар

Jeffrey Wu, Leo Gao, Tom Dupré la Tour, Henk Tillman

Алғыс

Taya Christianson, Elizabeth Proehl, Yo Shavit, Niko Felix, Cathy Yeh, Gabriel Goh, Rajan Troll, Alec Radford, Jan Leike, Ilya Sutskever, David Robinson, Greg Brockman