Негізгі мазмұнға өту
OpenAI

Біз бастауыш сыныптың математика есептерін fine-tuning жасалған GPT‑3 моделіне қарағанда дәлдігі екі есеге жуық жоғары деңгейде шығаратын жүйені үйреттік. Ол шынайы балалар шығарған есептердің шамамен 90%-ы көлеміндейін шығарады: 9–12 жастағы балалардың шағын тобы біздің деректер жинағымыздағы тестте 60% жинаса, біздің жүйе сол есептердің өзінде 55% жинады.

Неліктен бұл маңызды

Бұл маңызды, өйткені бүгінгі AI қарапайым пайымға негізделген көпқадамды ой қорытуда әлі де айтарлықтай әлсіз, ал мұндай нәрсе тіпті бастауыш сынып оқушылары үшін де оңай. Біз бұл нәтижелерге модельді өз қателерін тануға үйрету арқылы қол жеткіздік, сонда ол жұмыс істейтін шешімді тапқанша қайта-қайта әрекет ете алады.

Кіріспе

GPT‑3 сияқты үлкен тілдік модельдердің көптеген әсерлі қабілеті бар, соның ішінде түрлі жазу стильдеріне еліктей алуы және ауқымды фактологиялық білімі. Алайда олар бастауыш сыныптың мәтіндік математика есептерін шығару сияқты дәл көпқадамды ой қорытуды қажет ететін тапсырмаларда қиналады. модель дұрыс шешімдердің ырғағына еліктей алғанымен, логикада үнемі елеулі қателер жібереді.

Күрделі логикалық салаларда адам деңгейіне жету үшін біздің модельдер өз қателерін тануды және қадамдарын мұқият таңдауды үйренуі керек. Осы мақсатта біз ұсынылған шешімнің дұрыс не бұрыс екенін бағалайтын тексерушілерді үйретеміз. Жаңа есепті шығару үшін біз көптеген ұсынылған шешімнің ішінен ең жақсысын таңдау үшін тексерушілерді қолданамыз. Әдістерімізді бағалау үшін біз жаңа GSM8K деректер жинағын құрдық және зерттеуді жеңілдету үшін осы деректер жинағын жариялап отырмыз.

Төмендегі он мысалда біз жаңа әдісіміз — тексеру, және базалық әдісіміз — fine-tuning арқылы жасалған шешімдерді көрсетеміз.

Жүктелуде...

GSM8K деректер жинағы

GSM8K 8,5 мың жоғары сапалы бастауыш сыныпқа арналған мәтіндік математика есебінен тұрады. Әр есепті шығару үшін 2-ден 8-ге дейін қадам керек, ал шешімдер көбіне соңғы жауапқа жету үшін негізгі арифметикалық амалдарды (+ − × ÷) қолданып, қарапайым есептеулер тізбегін орындауды қамтиды. Fine-tuning жасалған заманауи тілдік модельдер бұл деректер жинағында нашар нәтиже көрсетеді, негізінен есептердің алуан түрлілігі өте жоғары болғандықтан. Сонымен бірге, GSM8K шешімдері тек қарапайым ұғымдарға сүйенеді, сондықтан тестте жоғары нәтиже көрсету — қолжетімді мақсат.

GSM8K-тегі шешімдер таза математикалық өрнектер түрінде емес, табиғи тілде жазылған. Табиғи тілді ұстану арқылы модель жасаған шешімдер адамдарға оңайырақ түсіндіріледі, ал біздің әдістер салыстырмалы түрде пәнге тәуелсіз болып қалады.

Тексерушілерді үйрету: Қателерінен үйренетін модельдер

Математикалық ой қорытудағы елеулі қиындықтардың бірі — жекелеген қателерге жоғары сезімталдық. Шешімді токен бойынша токен етіп жасайтын авторегрессиялық модельдерде өз қателерін түзететін механизм жоқ. Бағытынан ауытқыған шешімдер тез арада қалпына келмейтін күйге түседі, мұны берілген мысалдардан көруге болады.

Біз бұл мәселені модель жасаған шешімдердің дұрыстығын бағалайтын тексерушілерді үйрету арқылы шешеміз. Тексерушілерге модельдің өзі жазған көптеген ықтимал шешім беріледі, және олар қайсысы, егер бар болса, дұрыс екенін анықтауға үйретіледі.

Тестілеу кезінде жаңа есепті шығару үшін біз 100 үміткер шешім жасаймыз, содан кейін тексеруші ең жоғары бағалаған шешімді таңдаймыз. Тексерушілер осы ішкі баламалылықтың пайдасын көреді, сондай-ақ тексеру көбіне генерациядан қарапайымырақ тапсырма болатынынан ұтады.

Жүктелуде...

Деректер жинағы жеткілікті үлкен болса, тексерудің өнімділікті айтарлықтай арттыратынын байқаймыз. Деректер жинағы тым шағын болғанда, тексерушілер математикалық ой қорытудың пайдалырақ қасиеттерін үйренудің орнына, жаттықтыру жиынындағы соңғы жауаптарды жаттап алып, шамадан тыс бейімделеді деп санаймыз.

Толық жаттықтыру жиынында 6B параметрлі тексеру fine-tuning жасалған 175B параметрлі модельден сәл озады, бұл шамамен модель өлшемін 30 есе арттыруға тең өнімділік өсімін береді. Оның үстіне, қазіргі нәтижелерге сүйеніп экстраполяция жасасақ, қосымша деректермен тексеру тиімдірек ауқымданатын сияқты.

Қорытынды

Дұрыс дәлелдер құрастыру және қате дәлелдерді тану — анағұрлым жалпы AI жасаудағы негізгі міндеттер. Бастауыш сынып математикасы бұл қабілеттер үшін мінсіз сынақ алаңы. GSM8K-тегі есептер тұжырымдамалық тұрғыдан қарапайым, бірақ бір ғана нәзік қате бүкіл шешімді бұзып жіберуге жеткілікті. Мұндай қателерді анықтау және болдырмау — біздің модельдер дамытуы тиіс аса маңызды дағды. Тексерушілерді үйрету арқылы біз модельдерімізге жақсы шешімдерді толық шықпаған шешімдерден ажыратуды үйретеміз. Модельдерімізді логикалық тұрғыдан күрделірек салаларға қолдануға тырысқан сайын, бұл дағдылардың маңызы арта түседі деп күтеміз.

Авторлар

Karl Cobbe, Vineet Kosaraju, John Schulman

Алғыс

GSM8K деректер жинағын құрастырғаны үшін Surge AI командасына алғыс айтамыз.

Мақаламыздың бірлескен авторларына алғыс: Mohammad Bavarian, Mark Chen, Heewoo Jun, Lukasz Kaiser, Matthias Plappert, Jerry Tworek, Jacob Hilton, Reiichiro Nakano және Christopher Hesse.

Осы жарияланым бойынша пікір білдіргендерге алғыс: Dan Hendrycks, Leo Gao, Alec Radford, Giambattista Parascandolo, Harri Edwards, Yura Burda, Nick Ryder, Ilya Sutskever, Mira Murati, Sam Altman, Aris Konstantinidis, Andrew Mayne, Hannah Wong және Steve Dowling.

Тестімізге ерікті болып қатысқан оқушыларға рақмет!