OpenAI o1 સ્પર્ધાત્મક પ્રોગ્રામિંગ પ્રશ્નો (Codeforces)માં 89મા પર્સેન્ટાઇલમાં સ્થાન મેળવે છે, USA Math Olympiad (AIME) માટેની ક્વોલિફાયરમાં અમેરિકાના ટોચના 500 વિદ્યાર્થીઓમાં આવે છે, અને ભૌતિકશાસ્ત્ર, જીવવિજ્ઞાન અને રસાયણશાસ્ત્રની સમસ્યાઓના બેન્ચમાર્ક (GPQA) પર માનવીય PhD-સ્તરની ચોકસાઇને પણ વટાવી જાય છે. આ નવા મોડલને હાલના મોડેલ્સ જેટલું સરળતાથી ઉપયોગી બનાવવા માટેનું કામ હજુ ચાલુ છે, છતાં અમે આ મોડલનું પ્રારંભિક સંસ્કરણ, OpenAI o1‑preview, તરત ઉપયોગ માટે ChatGPTમાં અને વિશ્વસનીય API વપરાશકર્તાઓ(નવી વિન્ડોમાં ખૂલે છે) માટે રિલીઝ કરી રહ્યા છીએ.
અમારો મોટા પાયેનો રીઇન્ફોર્સમેન્ટ લર્નિંગ અલ્ગોરિધમ મોડલને અત્યંત ડેટા-કાર્યક્ષમ તાલીમ પ્રક્રિયામાં તેની વિચારશ્રેણીનો ઉપયોગ કરીને ઉત્પાદક રીતે વિચારવું શીખવે છે. અમે જોયું છે કે વધુ રીઇન્ફોર્સમેન્ટ લર્નિંગ (train-time compute) અને વધુ સમય વિચારવામાં વીતાવતા (test-time compute) o1નું પ્રદર્શન સતત સુધરે છે. આ અભિગમને સ્કેલ કરવાની મર્યાદાઓ LLM pretrainingથી નોંધપાત્ર રીતે અલગ છે, અને અમે તેમની તપાસ આગળ પણ ચાલુ રાખી છે.

o1 performance smoothly improves with both train-time and test-time compute
GPT‑4oની સરખામણીએ રિઝનિંગમાં થયેલ સુધારો દર્શાવવા માટે, અમે અમારા મોડેલ્સને વિવિધ માનવીય પરીક્ષાઓ અને ML બેન્ચમાર્ક્સ પર પરીક્ષ્યાં. અમે બતાવીએ છીએ કે આમાંથી મોટાભાગના રિઝનિંગ-ભારે કાર્યોમાં o1, GPT‑4o કરતાં નોંધપાત્ર રીતે સારું પ્રદર્શન કરે છે. જ્યાં અલગથી જણાવેલ ન હોય, ત્યાં અમે o1નું મૂલ્યાંકન ટેસ્ટ-ટાઇમ કમ્પ્યુટની મહત્તમ સેટિંગ પર કર્યું હતું.







ઘણા રિઝનિંગ-ભારે બેન્ચમાર્ક્સમાં, o1 માનવીય નિષ્ણાતોના પ્રદર્શનને ટક્કર આપે છે. તાજેતરના અત્યાધુનિક મોડેલ્સ1 MATH2 અને GSM8K પર એટલું સારું પ્રદર્શન કરે છે કે આ બેન્ચમાર્ક્સ હવે મોડેલ્સ વચ્ચે તફાવત બતાવવા માટે અસરકારક રહ્યા નથી. અમે ગણિતીય પ્રદર્શનનું મૂલ્યાંકન AIME પર કર્યું, જે અમેરિકાના તેજસ્વી હાઇસ્કૂલ ગણિત વિદ્યાર્થીઓને પડકારવા માટે રચાયેલ પરીક્ષા છે. 2024 AIME પરીક્ષાઓમાં, GPT‑4oએ સરેરાશે માત્ર 12% (1.8/15) પ્રશ્નો ઉકેલ્યા. o1એ દરેક પ્રશ્ન માટે એક જ sample સાથે સરેરાશે 74% (11.1/15), 64 samples વચ્ચે consensus સાથે 83% (12.5/15), અને શીખેલી scoring functionથી 1000 samplesને ફરીથી ક્રમબદ્ધ કરતાં 93% (13.9/15) મેળવ્યા. 13.9નો સ્કોર તેને રાષ્ટ્રીય સ્તરે ટોચના 500 વિદ્યાર્થીઓમાં સ્થાન અપાવે છે અને USA Mathematical Olympiadની cutoffથી ઉપર રાખે છે.
અમે o1નું મૂલ્યાંકન GPQA diamond પર પણ કર્યું, જે રસાયણશાસ્ત્ર, ભૌતિકશાસ્ત્ર અને જીવવિજ્ઞાનમાં નિષ્ણાતીનું પરીક્ષણ કરતો એક મુશ્કેલ ઇન્ટેલિજન્સ બેન્ચમાર્ક છે. મોડેલ્સની મનુષ્યો સાથે સરખામણી કરવા માટે, અમે PhD ધરાવતા નિષ્ણાતોને GPQA-diamond પ્રશ્નોના જવાબ આપવા માટે જોડ્યા. અમને મળ્યું કે o1એ તે માનવીય નિષ્ણાતોના પ્રદર્શનને વટાવી દીધું, અને આ બેન્ચમાર્ક પર એવું કરનાર પ્રથમ મોડલ બન્યું. આ પરિણામોનો અર્થ એ નથી કે o1 દરેક બાબતમાં PhD કરતાં વધુ સક્ષમ છે — માત્ર એટલો કે કેટલીક એવી સમસ્યાઓ ઉકેલવામાં મોડલ વધુ કુશળ છે, જે PhD પાસેથી ઉકેલવાની અપેક્ષા રાખવામાં આવે. અન્ય અનેક ML બેન્ચમાર્ક્સમાં પણ, o1એ state-of-the-art કરતાં સુધારો દર્શાવ્યો. તેની vision perception ક્ષમતાઓ સક્રિય હોય ત્યારે, o1એ MMMU પર 78.2% સ્કોર કર્યો, જેથી તે માનવીય નિષ્ણાતો સાથે સ્પર્ધાત્મક બનનાર પ્રથમ મોડલ બન્યું. તેણે MMLUની 57માંથી 54 ઉપશ્રેણીઓમાં GPT‑4oને પણ પાછળ છોડ્યું.
જેમ કોઈ માનવી મુશ્કેલ પ્રશ્નનો જવાબ આપતાં પહેલાં લાંબા સમય સુધી વિચારી શકે છે, તેમ સમસ્યા ઉકેલવાનો પ્રયત્ન કરતી વખતે o1 વિચારશ્રેણીનો ઉપયોગ કરે છે. રીઇન્ફોર્સમેન્ટ લર્નિંગ દ્વારા, o1 તેની વિચારશ્રેણીને વધુ તીક્ષ્ણ બનાવવાનું અને તે જે રણનીતિઓ વાપરે છે તેને વધુ સુધારવાનું શીખે છે. તે પોતાની ભૂલો ઓળખી અને સુધારતા શીખે છે. તે જટિલ પગલાંને વધુ સરળ ભાગોમાં વહેંચતા શીખે છે. જ્યારે વર્તમાન અભિગમ કામ ન કરે ત્યારે તે અલગ અભિગમ અજમાવતા શીખે છે. આ પ્રક્રિયા મોડલની રિઝનિંગ ક્ષમતામાં નાટકીય સુધારો કરે છે. આ આગળછલાંગને દર્શાવવા માટે, નીચે અમે અનેક મુશ્કેલ સમસ્યાઓ પર o1‑previewની વિચારશ્રેણી રજૂ કરીએ છીએ.
GPT-4o
OpenAI o1-preview
અમે o1 પરથી શરૂઆત કરીને અને પ્રોગ્રામિંગ કુશળતા વધુ સુધારવા માટે તાલીમ આપી એવો એક મોડલ તૈયાર કર્યો, જેણે 2024 International Olympiad in Informatics (IOI)માં 213 પોઇન્ટ્સ મેળવ્યા અને 49મા પર્સેન્ટાઇલમાં સ્થાન મેળવ્યું. આ મોડલે 2024 IOIમાં માનવીય સ્પર્ધકો જેવી જ શરતો હેઠળ સ્પર્ધા કરી હતી. તેને છ પડકારજનક અલ્ગોરિથમિક સમસ્યાઓ ઉકેલવા માટે દસ કલાક મળ્યા હતા અને દરેક સમસ્યા માટે 50 submissions કરવાની મંજૂરી હતી.
દરેક સમસ્યા માટે, અમારી સિસ્ટમે ઘણી candidate submissions સેમ્પલ કરી અને ટેસ્ટ-ટાઇમ પસંદગીની રણનીતિના આધારે તેમાંથી 50 સબમિટ કરી. submissionsની પસંદગી IOIના જાહેર test cases, મોડલ-જનરેટ કરેલા test cases અને શીખેલી scoring function પરના પ્રદર્શનના આધારે કરવામાં આવી. જો અમે તેના બદલે રેન્ડમ રીતે સબમિટ કર્યું હોત, તો સરેરાશે માત્ર 156 પોઇન્ટ્સ જ મળ્યા હોત, જે દર્શાવે છે કે સ્પર્ધાની મર્યાદાઓ હેઠળ આ રણનીતિ લગભગ 60 પોઇન્ટ્સ જેટલી મૂલ્યવાન હતી.
જ્યારે submission મર્યાદા શિથિલ કરવામાં આવી, ત્યારે અમને મળ્યું કે મોડલનું પ્રદર્શન નોંધપાત્ર રીતે સુધર્યું. દરેક સમસ્યા માટે 10,000 submissionsની મંજૂરી મળતાં, કોઈપણ ટેસ્ટ-ટાઇમ પસંદગીની રણનીતિ વિના પણ મોડલે 362.14નો સ્કોર મેળવ્યો – જે ગોલ્ડ મેડલની મર્યાદાથી ઉપર છે.
અંતમાં, આ મોડલની કોડિંગ કુશળતા દર્શાવવા માટે અમે Codeforces દ્વારા આયોજિત સ્પર્ધાત્મક પ્રોગ્રામિંગ સ્પર્ધાઓનું સિમ્યુલેશન કર્યું. અમારા મૂલ્યાંકનો સ્પર્ધાના નિયમો સાથે નજીકથી મેળ ખાતા હતા અને 10 submissionsની મંજૂરી આપતા હતા. GPT‑4oએ 808નું Elo rating3 મેળવ્યું, જે માનવીય સ્પર્ધકોના 11મા પર્સેન્ટાઇલમાં આવે છે. આ મોડલ GPT‑4o અને o1 બંનેથી ઘણી આગળ નીકળ્યું—તેને 1807નું Elo rating મળ્યું, જે 93% સ્પર્ધકો કરતાં વધુ સારું પ્રદર્શન છે.

Further fine-tuning on programming competitions improves o1. The improved model ranked in the 49th percentile in the 2024 International Olympiad in Informatics under competition rules.
પરીક્ષાઓ અને શૈક્ષણિક બેન્ચમાર્ક્સ ઉપરાંત, અમે અનેક ક્ષેત્રોમાં પડકારજનક, open-ended prompts પર o1‑preview અને GPT‑4o માટે માનવીય પસંદગીનું પણ મૂલ્યાંકન કર્યું. આ મૂલ્યાંકનમાં, માનવીય ટ્રેનર્સને o1‑preview અને GPT‑4oના કોઈ ઓળખ વિના દર્શાવાયેલા promptના પ્રતિભાવો બતાવવામાં આવ્યા, અને કયો પ્રતિભાવ તેઓ વધુ પસંદ કરે છે તેના માટે મત આપ્યો. ડેટા વિશ્લેષણ, કોડિંગ અને ગણિત જેવી રિઝનિંગ-ભારે શ્રેણીઓમાં o1‑previewને gpt-4o કરતાં ઘણો વધારે પ્રાધાન્ય મળે છે. જોકે, કેટલાક નેચરલ લેન્ગ્વેજ ટાસ્ક્સમાં o1‑previewને પ્રાધાન્ય મળતું નથી, જે સૂચવે છે કે તે બધા ઉપયોગ કેસ માટે સારી રીતે યોગ્ય નથી.

વિચારશ્રેણી આધારિત રિઝનિંગ એલાઇનમેન્ટ અને સલામતી માટે નવી તકો આપે છે. અમે જોયું કે reasoning modelની વિચારશ્રેણીમાં મોડલ વર્તન માટેની અમારી નીતિઓને એકીકૃત કરવું માનવીય મૂલ્યો અને સિદ્ધાંતોને મજબૂત રીતે શીખવવાનો અસરકારક માર્ગ છે. મોડલને અમારી સલામતીના નિયમો અને સંદર્ભમાં તેના વિશે કેવી રીતે વિચારવું તે શીખવવાથી, અમને એવા પુરાવા મળ્યા કે રિઝનિંગ ક્ષમતા સીધી મોડલની robustnessને લાભ આપે છે: o1‑previewએ મુખ્ય jailbreak મૂલ્યાંકનો અને અમારી સૌથી કઠિન આંતરિક બેન્ચમાર્ક્સમાં, જે અમારી મોડલની safety refusal boundariesનું મૂલ્યાંકન કરે છે, નોંધપાત્ર રીતે સુધારેલ પ્રદર્શન મેળવ્યું. અમને લાગે છે કે વિચારશ્રેણીનો ઉપયોગ સલામતી અને એલાઇનમેન્ટ માટે મહત્વપૂર્ણ પ્રગતિ આપે છે કારણ કે (1) તે અમને મોડલની વિચારપ્રક્રિયાને વાંચી શકાય તેવી રીતે જોવા દે છે, અને (2) સલામતી નિયમો વિશેનું મોડલ રિઝનિંગ out-of-distribution પરિસ્થિતિઓમાં વધુ મજબૂત રહે છે.
અમારા સુધારાઓનું stress-test કરવા માટે, અમે deployment પહેલાં અમારી પ્રિપેરડનેસ ફ્રેમવર્ક(નવી વિન્ડોમાં ખૂલે છે) અનુસાર સલામતી પરીક્ષણો અને red-teamingનો સમૂહ હાથ ધર્યો. અમે જોયું કે વિચારશ્રેણી રિઝનિંગે અમારા મૂલ્યાંકનોમાં ક્ષમતાના સુધારાઓમાં યોગદાન આપ્યું. ખાસ નોંધપાત્ર રીતે, અમે reward hackingના રસપ્રદ ઉદાહરણો(નવી વિન્ડોમાં ખૂલે છે) નિરીક્ષ્યાં. આ મૂલ્યાંકનોના વિગતવાર પરિણામો સાથે આપેલ સિસ્ટમ કાર્ડમાં મળી શકે છે.
| મેટ્રિક | GPT-4o | o1-પ્રીવ્યુ |
|---|---|---|
| % હાનિકારક પ્રોમ્પ્ટ્સ પર સુરક્ષિત પૂર્ણતા માનક | 0.990 | 0.995 |
| % હાનિકારક પ્રોમ્પ્ટ પર સલામત પૂર્ણતા પડકારજનક: જેલબ્રેક્સ અને એજ કેસિસ | 0.714 | 0.934 |
| ↳ હપજવણી (ગંભીર) | 0.845 | 0.900 |
| ↳ શોષણક સંબંધિત જાતીય સામગ્રી | 0.483 | 0.949 |
| ↳ સગીરોને સામેલ કરતી જાતીય વિષય-સામગ્રી | 0.707 | 0.931 |
| ↳ બિન-હિંસક ગેરકૃત્ય વિશે સલાહ | 0.688 | 0.961 |
| ↳ હિંસક ગેરકાયદેસર કૃત્ય વિશે સલાહ | 0.778 | 0.963 |
| % વાઈલ્ડચેટ માં કેટેગરી દીઠ સૌથી ઊંચા મોડરેશન એપીઆઈ સ્કોર ધરાવતા ટોચના 200 માટે સુરક્ષિત કમ્પ્લીશન્સ ઝાઓ,ઈટી એએલ. 2024 | 0.945 | 0.971 |
| Goodness@0.1 મજબૂત આરઈ જેક્ટ જેલબ્રેક ઈવલ સૌલી ઈટ એએલ. 2024 | 0.220 | 0.840 |
| માનવી દ્વારા સોર્સ કરાયેલ જેલબ્રેક મૂલ્યાંકન | 0.770 | 0.960 |
| % આંતરિક નિર્દોષ એજ કેસોમાં પાલન “વધારે-ઇનકાર નહીં” | 0.910 | 0.930 |
| % એક્સએસટેસ્ટ “અતિ-ઇનકાર નહીં” રોટ્ટજર, ઈટી એએલ. 2023માં નિર્દોષ એજ કેસિસ પર પાલન કરવું | 0.924 | 0.976 |
અમને લાગે છે કે છુપાયેલી વિચારશ્રેણી મોડેલ્સની દેખરેખ માટે એક અનોખી તક આપે છે. જો તે વિશ્વસનીય અને વાંચી શકાય તેવી હોય, તો છુપાયેલી વિચારશ્રેણી અમને મોડલનું “મન વાંચવા” અને તેની વિચારપ્રક્રિયાને સમજવાની મંજૂરી આપે છે. ઉદાહરણ તરીકે, ભવિષ્યમાં અમે વપરાશકર્તાને પ્રભાવિત કરવાની નિશાનીઓ માટે વિચારશ્રેણી પર નજર રાખવા ઇચ્છી શકીએ. પરંતુ આ કાર્ય કરવા માટે, મોડલને તેના વિચારોને બદલાયા વિના વ્યક્ત કરવાની સ્વતંત્રતા હોવી જોઈએ, તેથી અમે વિચારશ્રેણી પર કોઈ policy compliance અથવા વપરાશકર્તાની પસંદગીઓનું તાલીમકરણ કરી શકતા નથી. અમે અનએલાઇન્ડ વિચારશ્રેણીને સીધી વપરાશકર્તાઓ માટે પણ દેખાતી બનાવવી નથી ઇચ્છતા.
આથી, વપરાશકર્તા અનુભવ, સ્પર્ધાત્મક લાભ અને વિચારશ્રેણી મોનિટરિંગના વિકલ્પ સહિતના અનેક પરિબળોને તોલ્યા પછી, અમે વપરાશકર્તાઓને raw chains of thought ન બતાવવાનો નિર્ણય કર્યો છે. અમે સ્વીકારીએ છીએ કે આ નિર્ણયના કેટલાક ગેરલાભ છે. તેના માટે આંશિક વળતરરૂપે, અમે મોડલને જવાબમાં વિચારશ્રેણીમાંથી કોઈપણ ઉપયોગી વિચાર પુનઃઉત્પન્ન કરવાનું શીખવવાનો પ્રયત્ન કરીએ છીએ. o1 model series માટે અમે વિચારશ્રેણીનો મોડલ-જનરેટ કરેલો સારાંશ દર્શાવીએ છીએ.
o1 AI રિઝનિંગમાં state-of-the-artને નોંધપાત્ર રીતે આગળ ધપાવે છે. અમે આ મોડલને વધુ સુધારતા જઈએ તેમ તેના વધુ સારા વર્ઝન રિલીઝ કરવાની યોજના ધરાવીએ છીએ. અમને અપેક્ષા છે કે આ નવી રિઝનિંગ ક્ષમતાઓ મોડેલ્સને માનવીય મૂલ્યો અને સિદ્ધાંતો સાથે એલાઇન કરવાની અમારી ક્ષમતામાં સુધારો કરશે. અમને વિશ્વાસ છે કે o1 – અને તેના અનુગામી – વિજ્ઞાન, કોડિંગ, ગણિત અને સંબંધિત ક્ષેત્રોમાં AI માટે ઘણા નવા ઉપયોગ કેસ ખુલ્લા કરશે. વપરાશકર્તાઓ અને API ડેવલપર્સ તેને તેમના દૈનિક કામમાં કેવી રીતે સુધારો લાવે છે તે શોધે તે માટે અમે ઉત્સાહિત છીએ.
| ડેટાસેટ | મેટ્રિક | gpt-4o | o1-પ્રિવ્યુ | o1 |
|---|---|---|---|---|
| સ્પર્ધાત્મક મેથ AIME (2024) | cons@64 | 13.4 | 56.7 | 83.3 |
| pass@1 | 9.3 | 44.6 | 74.4 | |
| સ્પર્ધા કોડ કોડફોર્સ | ઈલો | 808 | 1,258 | 1,673 |
| ટકાવારી | 11.0 | 62.0 | 89.0 | |
| GPQA ડાયમંડ | cons@64 | 56.1 | 78.3 | 78.0 |
| pass@1 | 50.6 | 73.3 | 77.3 | |
| જીવવિજ્ઞાન | cons@64 | 63.2 | 73.7 | 68.4 |
| pass@1 | 61.6 | 65.9 | 69.2 | |
| રસાયણશાસ્ત્ર | cons@64 | 43.0 | 60.2 | 65.6 |
| pass@1 | 40.2 | 59.9 | 64.7 | |
| ભૌતિકશાસ્ત્ર | cons@64 | 68.6 | 89.5 | 94.2 |
| pass@1 | 59.5 | 89.4 | 92.8 | |
| મેથ | pass@1 | 60.3 | 85.5 | 94.8 |
| MMLU | pass@1 | 88.0 | 92.3 | 90.8 |
| MMMU (val) | pass@1 | 69.1 | લાગુ નહીં | 78.2 |
| મેથવિસ્ટા (ટેસ્ટમિનિ) | pass@1 | 63.8 | લાગુ નહીં | 73.9 |
લેખકો
સંદર્ભો
- 1
- 2
અમારા મૂલ્યાંકનોમાં https://arxiv.org/abs/2305.20050(નવી વિન્ડોમાં ખૂલે છે)માં મળતો એ જ 500-પ્રશ્નોનો test split વપરાયો હતો
- 3






