OpenAI o1 нь өрсөлдөөнт програмчлалын асуултууд дээр (Codeforces) 89-р хувьд эрэмбэлэгдэж, АНУ-ын Математикийн олимпиадын (AIME) сонгон шалгаруулалтад АНУ-ын шилдэг 500 сурагчийн тоонд багтаж, мөн физик, биологи, химийн бодлогуудын жишиг сорил (GPQA) дээр PhD түвшний хүний нарийвчлалаас давсан үзүүлэлттэй байна. Энэ шинэ загварыг одоогийн загварууд шиг ашиглахад хялбар болгох ажил үргэлжилсээр байгаа ч бид энэхүү загварын эрт хувилбар болох OpenAI o1‑preview‑ийг ChatGPT‑д болон итгэмжлэгдсэн API хэрэглэгчдэд(шинэ цонхонд нээгдэнэ) шууд ашиглуулахаар гаргаж байна.
Манай өргөн цар хүрээтэй бататгах сургалтын алгоритм нь загварт бодлын гинжээ ашиглан үр бүтээлтэй сэтгэхийг, өгөгдлийн хувьд өндөр үр ашигтай сургалтын явцаар заадаг. Бататгах сургалт илүү их байх тусам (сургалтын үеийн тооцоолол), мөн бодоход зарцуулах хугацаа ихсэх тусам (тестийн үеийн тооцоолол) o1‑ийн гүйцэтгэл тогтмол сайжирдгийг бид тогтоосон. Энэ аргыг өргөтгөхөд тулгардаг хязгаарлалууд нь LLM-ийн урьдчилсан сургалтынхаас мэдэгдэхүйц ялгаатай бөгөөд бид тэдгээрийг үргэлжлүүлэн судалж байна.

o1 performance smoothly improves with both train-time and test-time compute
GPT‑4o‑оос сэтгэн бодох чадвар хэр сайжирсныг онцлон харуулахын тулд бид загваруудаа хүний шалгалтууд болон ML жишиг сорилуудын олон төрлийн багц дээр туршсан. Эдгээр сэтгэн бодох ачаалал ихтэй даалгаврын дийлэнхэд o1 нь GPT‑4o‑оос мэдэгдэхүйц давуу үзүүлэлттэйг бид харуулж байна. Өөрөөр заагаагүй бол бид o1‑ийг тестийн үеийн тооцооллын дээд тохиргоон дээр үнэлсэн.







Сэтгэн бодох ачаалал ихтэй олон жишиг сорил дээр o1 нь хүний шинжээчдийн гүйцэтгэлтэй эн зэрэгцэж байна. Сүүлийн үеийн хил хязгаар загварууд1 MATH2 болон GSM8K дээр маш сайн үзүүлэлттэй болсон тул эдгээр жишиг сорилууд загваруудыг ялган танихад үр дүн багатай болсон. Бид математикийн гүйцэтгэлийг Америкийн ахлах сургуулийн хамгийн авьяаслаг сурагчдыг сорихоор бүтээгдсэн AIME шалгалтаар үнэлсэн. 2024 оны AIME шалгалтууд дээр GPT‑4o дунджаар бодлогуудын зөвхөн 12%-ийг (1.8/15) шийдсэн. o1 нь бодлого тус бүрт нэг сорьц авахад дунджаар 74% (11.1/15), 64 сорьцын зөвшилцлөөр 83% (12.5/15), сурсан оноолтын функцээр 1000 сорьцыг дахин эрэмбэлэхэд 93% (13.9/15) үзүүлэлттэй байсан. 13.9 гэсэн оноо нь түүнийг улсын хэмжээнд шилдэг 500 сурагчийн тоонд оруулж, USA Mathematical Olympiad-ийн босгоос дээш байрлуулдаг.
Мөн бид o1‑ийг хими, физик, биологийн мэргэшлийг шалгадаг, оюуны чадавхын хүнд жишиг сорил болох GPQA diamond дээр үнэлсэн. Загваруудыг хүмүүстэй харьцуулахын тулд бид GPQA-diamond асуултуудад хариулах PhD зэрэгтэй мэргэжилтнүүдийг элсүүлсэн. o1 нь тэдгээр хүний шинжээчдийн гүйцэтгэлээс давж, энэ жишиг сорил дээр тэгж чадсан анхны загвар болсон гэдгийг бид тогтоосон. Эдгээр үр дүн o1 нь бүх талаар PhD-ээс илүү чадвартай гэсэн үг биш — зөвхөн PhD шийдэж чадна гэж хүлээгддэг зарим асуудлыг шийдэхдээ загвар илүү чадварлаг байгааг харуулж байна. Өөр хэд хэдэн ML жишиг сорил дээр o1 нь тухайн үеийн шилдэг үзүүлэлтийг ахиулсан. Харааны ойлголтын чадварыг нь идэвхжүүлсэн үед o1 нь MMMU дээр 78.2% авч, хүний шинжээчидтэй өрсөлдөхүйц болсон анхны загвар болсон. Мөн MMLU-ийн 57 дэд ангиллын 54-т нь GPT‑4o‑оос давсан.
Хүн хэцүү асуултад хариулахаасаа өмнө удаан бодож магадгүйтэй адил, o1 нь асуудлыг шийдэх гэж оролдохдоо бодлын гинж ашигладаг. Бататгах сургалтын явцад o1 нь бодлын гинжээ улам сайжруулж, хэрэглэдэг стратегиа нарийвчлан боловсронгуй болгоход суралцдаг. Тэр өөрийн алдааг таньж, засаж сурдаг. Тэр төвөгтэй алхмуудыг илүү энгийн хэсгүүдэд хувааж сурдаг. Одоогийн арга нь ажиллахгүй үед өөр арга туршиж сурдаг. Энэ үйл явц нь загварын сэтгэн бодох чадварыг эрс сайжруулдаг. Энэхүү том дэвшлийг харуулахын тулд доор бид хэд хэдэн хэцүү асуудал дээрх o1‑preview‑ийн бодлын гинжийг үзүүлж байна.
GPT-4o
OpenAI o1-preview
o1‑ээс эхлүүлэн, програмчлалын ур чадварыг нь цаашид сайжруулах сургалт хийснээр 2024 оны Олон улсын мэдээлэл зүйн олимпиад (IOI)-д 213 оноо авч, 49-р хувьд эрэмбэлэгдсэн загварыг бид сургаж бэлтгэлээ. Энэ загвар 2024 оны IOI-д хүний оролцогчидтой ижил нөхцөлөөр өрсөлдсөн. Түүнд алгоритмын зургаан хүнд бодлогыг шийдэх 10 цагийн хугацаа өгч, бодлого тус бүрт 50 илгээлт хийхийг зөвшөөрсөн.
Бодлого бүрийн хувьд манай систем олон нэр дэвшигч илгээлт үүсгэж, тестийн үеийн сонголтын стратегид тулгуурлан тэднээс 50-ыг илгээсэн. Илгээлтүүдийг IOI-ийн нийтэд нээлттэй тест кейсүүд, загварын үүсгэсэн тест кейсүүд, мөн сурсан оноолтын функц дээрх гүйцэтгэлээр нь сонгосон. Хэрэв бид үүний оронд санамсаргүйгээр илгээсэн бол дунджаар ердөө 156 оноо авах байсан нь тэмцээний хязгаарлалтын дор энэ стратеги бараг 60 онооны үнэ цэнтэй байсныг харуулж байна.
Илгээлтийн хязгаарлалтыг сулруулахад загварын гүйцэтгэл мэдэгдэхүйц сайжирсныг бид тогтоосон. Нэг бодлогод 10,000 илгээлт хийхийг зөвшөөрөхөд, ямар ч тестийн үеийн сонголтын стратегигүй байсан ч загвар 362.14 оноо авч, алтан медалийн босгоос давсан.
Эцэст нь, энэ загварын код бичих ур чадварыг харуулахын тулд бид Codeforces дээр зохион байгуулдаг өрсөлдөөнт програмчлалын тэмцээнүүдийг дуурайлган симуляц хийсэн. Манай үнэлгээ тэмцээний дүрэмтэй нягт нийцэж, 10 илгээлт хийх боломж олгосон. GPT‑4o нь 808 Elo үнэлгээ3 авч, хүний оролцогчдын 11-р хувьд багтаж байв. Энэ загвар GPT‑4o болон o1‑ийг хоёуланг нь хол давж, 1807 Elo үнэлгээ авч, оролцогчдын 93%-иас илүү сайн үзүүлэлттэй байсан.

Further fine-tuning on programming competitions improves o1. The improved model ranked in the 49th percentile in the 2024 International Olympiad in Informatics under competition rules.
Шалгалт болон академик жишиг сорилуудаас гадна бид o1‑preview ба GPT‑4o‑ийн хүний сонголтыг олон төрлийн салбарыг хамарсан, нээлттэй, хүнд өгөгдлүүд дээр мөн үнэлсэн. Энэ үнэлгээнд хүний сургагчдад o1‑preview болон GPT‑4o‑оос ирсэн, нэргүйжүүлсэн хариултуудыг нэг өгөгдөлд үзүүлж, аль хариултыг илүүд үзэж байгаагаа санал өгүүлсэн. Өгөгдлийн шинжилгээ, код бичих, математик зэрэг сэтгэн бодох ачаалал ихтэй ангиллуудад o1‑preview нь gpt-4o-оос илт давуугаар илүүд үзэгддэг. Гэвч зарим байгалийн хэлний даалгаварт o1‑preview илүүд үзэгддэггүй нь бүх хэрэглээний тохиолдолд төдийлөн тохиромжтой биш байж болохыг харуулж байна.

Бодлын гинжин сэтгэн бодох нь нийцүүлэлт ба аюулгүй байдлын шинэ боломжуудыг нээж өгдөг. Сэтгэн бодох загварын бодлын гинжид загварын зан төлөвийн талаарх бодлогуудыг нэгтгэх нь хүний үнэт зүйл, зарчмуудыг бат бөхөөр заах үр дүнтэй арга болохыг бид тогтоосон. Загварт аюулгүй байдлын дүрмүүд болон тухайн нөхцөлд тэдгээрийн талаар хэрхэн сэтгэхийг зааснаар сэтгэн бодох чадвар загварын бат бөх байдалд шууд тустай байгааг илтгэх нотолгоо бид олсон: o1‑preview нь jailbreak-ийн гол үнэлгээнүүд болон загварын аюулгүй татгалзлын хил хязгаарыг үнэлэх манай хамгийн хүнд дотоод жишиг сорилууд дээр мэдэгдэхүйц сайжирсан үзүүлэлт үзүүлсэн. Бодлын гинжийг ашиглах нь аюулгүй байдал болон нийцүүлэлтэд томоохон дэвшил авчирна гэж бид үзэж байна. Учир нь (1) энэ нь загвар хэрхэн бодож байгааг ойлгомжтой хэлбэрээр ажиглах боломж олгодог, мөн (2) загвар аюулгүй байдлын дүрмүүдийн талаар сэтгэх нь тархалтаас гадуурх нөхцөлүүдэд илүү бат бөх байдаг.
Сайжруулалтаа хүнд нөхцөлд шалгахын тулд бид нэвтрүүлэхээс өмнө Preparedness Framework(шинэ цонхонд нээгдэнэ)-ийн дагуу аюулгүй байдлын цогц тестүүд болон red-teaming хийсэн. Бодлын гинжин сэтгэн бодох нь манай үнэлгээнүүдийн туршид чадварын сайжруулалтад хувь нэмэр оруулсныг бид тогтоосон. Ялангуяа reward hacking-ийн сонирхолтой тохиолдлууд(шинэ цонхонд нээгдэнэ)-ыг бид ажигласан. Эдгээр үнэлгээний дэлгэрэнгүй үр дүнг дагалдах системийн карт-аас олж болно.
| Хэмжүүр | GPT-4o | o1-урьдчилан харах |
|---|---|---|
| % Хортой өгөгдлүүд дээрх аюулгүй гүйцэтгэлүүд Стандарт | 0.990 | 0.995 |
| % Хортой өгөгдлүүд дээрх аюулгүй гүйцээлтүүд Сорилттой: jailbreak болон захын тохиолдлууд | 0.714 | 0.934 |
| ↳ Дарамт (ноцтой) | 0.845 | 0.900 |
| ↳ Мөлжлөгийн шинжтэй бэлгийн контент | 0.483 | 0.949 |
| ↳ Насанд хүрээгүй хүүхдүүдийг хамарсан бэлгийн агуулга | 0.707 | 0.931 |
| ↳ Хүчирхийлэлгүй зөрчил гаргалтын талаар зөвлөгөө | 0.688 | 0.961 |
| ↳ Хүчирхийллийн шинжтэй хууль бус үйлдлийн талаар зөвлөгөө | 0.778 | 0.963 |
| % WildChat -д ангилал бүрээр Moderation API-ийн хамгийн өндөр оноотой топ 200-д зориулсан аюулгүй гүйцээлтүүдZhao, et al. 2024 | 0.945 | 0.971 |
| Goodness@0.1 StrongREJECT jailbreak eval Souly нар 2024 | 0.220 | 0.840 |
| Хүний эх сурвалжаас авсан jailbreak үнэлгээ | 0.770 | 0.960 |
| Дотор хоргүй ирмэгийн тохиолдлын %-ийн нийцэл "Хэт их татгалзахгүй" | 0.910 | 0.930 |
| % XSTest дахь хоргүй захын хэрэглээний тохиолдлуудын нийцэл“хэт татгалзахгүй байх” Röttger, et al. 2023 | 0.924 | 0.976 |
Нууцлагдсан бодлын гинж нь загваруудыг хянах онцгой боломж олгодог гэж бид үздэг. Хэрэв энэ нь үнэнч бөгөөд ойлгомжтой байвал, нууцлагдсан бодлын гинж нь загварын “оюуныг унших” боломжийг бидэнд олгож, түүний сэтгэх үйл явцыг ойлгоход тусална. Жишээлбэл, ирээдүйд бид хэрэглэгчийг манипуляцлах шинж тэмдгийг бодлын гинжээс хянахыг хүсэж магадгүй. Гэвч энэ ажиллахын тулд загвар бодлоо өөрчлөгдөөгүй хэлбэрээр илэрхийлэх эрх чөлөөтэй байх ёстой. Тиймээс бид бодлын гинж дээр ямар нэг бодлогын нийцэл эсвэл хэрэглэгчийн сонголтыг сургаж болохгүй. Мөн нийцүүлээгүй бодлын гинжийг хэрэглэгчдэд шууд харагдуулахыг бид хүсэхгүй байна.
Тиймээс хэрэглэгчийн туршлага, өрсөлдөөний давуу тал, мөн бодлын гинжийг хянах боломж зэрэг олон хүчин зүйлийг жигнэж үзсэний дараа бид хэрэглэгчдэд түүхий бодлын гинжийг харуулахгүй байхаар шийдсэн. Энэ шийдвэр сул талуудтайг бид хүлээн зөвшөөрдөг. Үүнийг хэсэгчлэн нөхөхийн тулд бид бодлын гинжин дэх ашигтай санаануудыг хариултад дахин гаргаж өгөхийг загварт заахыг хичээж байна. o1 загварын цувралын хувьд бид бодлын гинжийн загвар-үүсгэсэн хураангуйг харуулдаг.
o1 нь AI-ийн сэтгэн бодох чадварын хамгийн шилдэг түвшнийг мэдэгдэхүйц урагшлуулж байна. Бид энэ загварыг цаашид давтан сайжруулахын хэрээр илүү сайжруулсан хувилбаруудыг гаргахаар төлөвлөж байна. Эдгээр шинэ сэтгэн бодох чадварууд нь загваруудыг хүний үнэт зүйл, зарчимд нийцүүлэх чадварыг маань сайжруулна гэж бид найдаж байна. o1 болон түүний дараагийн хувилбарууд нь шинжлэх ухаан, код бичих, математик болон холбогдох салбаруудад AI-ийн олон шинэ хэрэглээний тохиолдлыг нээнэ гэж бид үзэж байна. Энэ нь тэдний өдөр тутмын ажлыг хэрхэн сайжруулж болохыг хэрэглэгчид болон API хөгжүүлэгчид олж нээнэ гэдэгт бид баяртай байна.
| Өгөгдлийн багц | Хэмжүүр | gpt-4o | o1-урьдчилан харах | o1 |
|---|---|---|---|---|
| Тэмцээний математик AIME (2024) | cons@64 | 13.4 | 56.7 | 83.3 |
| pass@1 | 9.3 | 44.6 | 74.4 | |
| Тэмцээний код CodeForces | Эло | 808 | 1,258 | 1,673 |
| Хувиар гаргасан үзүүлэлт | 11.0 | 62.0 | 89.0 | |
| GPQA Diamond | cons@64 | 56.1 | 78.3 | 78.0 |
| pass@1 | 50.6 | 73.3 | 77.3 | |
| Биологи | cons@64 | 63.2 | 73.7 | 68.4 |
| pass@1 | 61.6 | 65.9 | 69.2 | |
| Хими | cons@64 | 43.0 | 60.2 | 65.6 |
| pass@1 | 40.2 | 59.9 | 64.7 | |
| Физик | cons@64 | 68.6 | 89.5 | 94.2 |
| pass@1 | 59.5 | 89.4 | 92.8 | |
| Математик | pass@1 | 60.3 | 85.5 | 94.8 |
| MMLU | pass@1 | 88.0 | 92.3 | 90.8 |
| MMMU (val) | pass@1 | 69.1 | хамаарахгүй | 78.2 |
| MathVista (testmini) | pass@1 | 63.8 | хамаарахгүй | 73.9 |
Зохиогчид
Ишлэлүүд
- 1
- 2
Манай үнэлгээнд https://arxiv.org/abs/2305.20050(шинэ цонхонд нээгдэнэ)-д буй ижил 500 бодлогын тест хуваалтыг ашигласан
- 3






