2021 оны аравдугаар сарын 29

Solving math word problems

Өгүүллийг унших Өгөгдлийн цуглуулгыг татах

Ачаалж байна…

Бид бага ангийн математикийн бодлогуудыг fine-tuning хийсэн GPT‑3 загвараас бараг хоёр дахин өндөр нарийвчлалтай боддог системийг сургасан. Энэ нь бодит хүүхдүүдийн бодсон бодлогын тооны ойролцоогоор 90%-ийг боддог: манай өгөгдлийн цуглуулгын тест дээр 9–12 настай хүүхдүүдийн жижиг түүвэр 60% авсан бол манай систем яг тэр бодлогууд дээр 55% авсан.

Яагаад энэ чухал вэ

Энэ нь чухал. Учир нь өнөөгийн AI нь бага ангийн хүүхдэд ч амархан байдаг ерөнхий мэдлэгт тулгуурласан олон алхамт сэтгэн бодох чадварт одоо ч нэлээд сул хэвээр байна. Бид загвараа алдаагаа таньж сургахаар эдгээр үр дүнд хүрсэн бөгөөд ингэснээр ажиллах шийдэл олох хүртлээ дахин дахин оролдож чаддаг болсон.

Танилцуулга

GPT‑3 шиг том хэлний загварууд олон гайхалтай чадвартай. Үүнд олон төрлийн бичгийн хэв маягийг дуурайх чадвар, мөн өргөн хүрээний баримтат мэдлэг нь багтана. Гэвч тэд бага ангийн математикийн өгүүлбэртэй бодлогыг бодох зэрэг олон алхамтай, нарийвчлал шаардсан сэтгэн бодох даалгаварт хүндрэлтэй байдаг. Загвар зөв шийдлийн өнгө аясыг дуурайж чаддаг ч логикийн ноцтой алдааг тогтмол гаргадаг.

Логикийн төвөгтэй салбарт хүний түвшний гүйцэтгэлд хүрэхийн тулд манай загварууд алдаагаа таньж, алхмуудаа нямбай сонгож сурах ёстой. Үүний тулд бид санал болгосон шийдэл зөв эсэхийг үнэлэх баталгаажуулагчдыг сургадаг. Шинэ бодлогыг бодохдоо бид олон санал болгосон шийдлээс хамгийн сайныг сонгоход баталгаажуулагч ашигладаг. Бид аргуудаа үнэлэхийн тулд шинэ GSM8K өгөгдлийн цуглуулгыг бүрдүүлсэн бөгөөд судалгааг дэмжихийн тулд энэ өгөгдлийн цуглуулгыг нийтэлж байна.

Доорх арван жишээнд бид шинэ арга болох баталгаажуулалт болон суурь арга болох fine-tuning-ээр үүсгэсэн шийдлүүдийг үзүүлж байна.

Ачаалж байна...

GSM8K өгөгдлийн цуглуулга

GSM8K нь бага ангийн математикийн 8.5 мянган өндөр чанартай өгүүлбэртэй бодлогоос бүрдэнэ. Бодлого бүрийг бодоход 2-оос 8 алхам шаардлагатай бөгөөд шийдлүүд нь эцсийн хариунд хүрэхийн тулд үндсэн арифметикийн үйлдлүүдийг (+ − × ÷) ашиглан энгийн тооцооллуудын дараалал хийхэд голчлон тулгуурладаг. Fine-tuning хийсэн тэргүүлэх хэлний загварууд энэ өгөгдлийн цуглуулгад сул үзүүлэлттэй байдаг бөгөөд үүний гол шалтгаан нь бодлогуудын өндөр олон янз байдал юм. Үүний зэрэгцээ GSM8K-ийн шийдлүүд зөвхөн суурь ойлголтуудад тулгуурладаг тул тестийн өндөр гүйцэтгэлд хүрэх нь бодитой зорилго юм.

GSM8K дахь шийдлүүд цэвэр математик илэрхийллээр бус, энгийн байгалийн хэлээр бичигдсэн байдаг. Байгалийн хэлийг баримталснаар загвараас үүсгэсэн шийдлүүдийг хүн илүү амархан ойлгодог бөгөөд манай аргууд ч харьцангуй салбар үл хамаарах шинжтэй хэвээр үлддэг.

Баталгаажуулагч сургах: Алдаанаасаа суралцдаг загварууд

Математикийн сэтгэн бодох үйл явцын нэг том сорилт нь ганц нэг алдаанд маш мэдрэмтгий байдаг явдал юм. Шийдлийг токен бүрээр нь дараалан үүсгэдэг autoregressive загваруудад өөрсдийн алдааг засах механизм байдаггүй. Чиглэлээсээ хазайсан шийдлүүд хурдан сэргээх боломжгүй болдог нь өгсөн жишээнүүдээс харагдана.

Бид энэ асуудлыг загвараас үүсгэсэн шийдлүүдийн зөв эсэхийг үнэлэх баталгаажуулагчдыг сургах замаар шийддэг. Баталгаажуулагчдад загвар өөрөө бичсэн олон боломжит шийдлийг өгч, тэдгээрийн аль нь зөв болохыг, эсвэл зөв нь огт байгаа эсэхийг шийдэхээр сургадаг.

Туршилтын үед шинэ бодлогыг бодохдоо бид 100 нэр дэвшигч шийдэл үүсгээд, дараа нь баталгаажуулагчийн хамгийн өндөр эрэмбэлсэн шийдлийг сонгодог. Баталгаажуулагчид ийм төрөлхийн сонголтын боломж болон баталгаажуулалт нь ихэвчлэн үүсгэхээс илүү энгийн даалгавар байдаг гэдгээс ашиг хүртдэг.

Ачаалж байна...

Өгөгдлийн цуглуулга хангалттай том байвал баталгаажуулалт гүйцэтгэлийг хүчтэй сайжруулдгийг бид олж тогтоосон. Хэт жижиг өгөгдлийн цуглуулгад баталгаажуулагчид математикийн сэтгэн бодохын илүү хэрэгтэй шинжүүдийг сурахын оронд сургалтын багц дахь эцсийн хариунуудыг цээжилснээр хэт тааруулалт хийдэг гэж бид үзэж байна.

Бүрэн сургалтын багц дээр 6B параметртэй баталгаажуулалт нь fine-tuning хийсэн 175B параметртэй загвараас ялимгүй илүү ажиллаж, ойролцоогоор загварын хэмжээг 30 дахин өсгөсөнтэй тэнцэх гүйцэтгэлийн өсөлт өгдөг. Түүнчлэн одоогийн үр дүнд тулгуурлан экстраполяци хийвэл баталгаажуулалт нь нэмэлт өгөгдөлтэй үед илүү үр дүнтэйгээр өсөх шинжтэй байна.

Дүгнэлт

Зөв үндэслэл гаргаж, буруу үндэслэлийг таних нь илүү ерөнхий AI хөгжүүлэх гол сорилтуудын нэг юм. Бага ангийн математик нь эдгээр чадварыг шалгах хамгийн тохиромжтой орчин юм. GSM8K дахь бодлогууд ойлголтын хувьд энгийн ч, ганцхан нарийн алдаа бүхэл шийдлийг замаас нь гаргахад хангалттай. Ийм алдааг илрүүлж, зайлсхийх нь манай загваруудын хөгжүүлэх ёстой чухал чадвар юм. Баталгаажуулагчдыг сургах замаар бид загварууддаа сайн шийдлүүдийг бараг зөв болоогүй шийдлүүдээс ялгаж сурахыг заадаг. Загваруудаа логикийн хувьд илүү төвөгтэй салбаруудад хэрэглэхийг оролдох тусам эдгээр чадвар улам бүр чухал болно гэж бид үзэж байна.

Зохиогчид

Karl Cobbe, Vineet Kosaraju, John Schulman

Талархал

GSM8K өгөгдөл цуглуулах ажлыг гүйцэтгэсэн Surge AI багт баярлалаа.

Манай өгүүллийн хамтран зохиогчид болох Mohammad Bavarian, Mark Chen, Heewoo Jun, Lukasz Kaiser, Matthias Plappert, Jerry Tworek, Jacob Hilton, Reiichiro Nakano, Christopher Hesse нарт баярлалаа.

Энэ нийтлэлд санал хүсэлт өгсөн Dan Hendrycks, Leo Gao, Alec Radford, Giambattista Parascandolo, Harri Edwards, Yura Burda, Nick Ryder, Ilya Sutskever, Mira Murati, Sam Altman, Aris Konstantinidis, Andrew Mayne, Hannah Wong, Steve Dowling нарт баярлалаа.

Манай шалгалтад сайн дураараа оролцсон сурагчдад баярлалаа!

Холбоотой нийтлэлүүд

Бүгдийг үзэх

Three farmers using a mobile app outside

Фермерүүдэд зориулсан хөдөө аж ахуйн өгөгдлийн санг бүтээх нь

2024 оны 1-р сарын 12

AI Website Builder-аар вэбсайтыг хэдхэн минутын дотор бүтээх нь

2025 оны 5-р сарын 29

LLM-д суурилсан эрүүл мэндийн шийдлүүдийг хүргэж байна

2024 оны 1-р сарын 4