
OpenAI ખાતે, અમે AI સિસ્ટમોને વધુ ઉપયોગી અને વિશ્વસનીય બનાવવા માટે કડક મહેનત કરી રહ્યા છીએ. ભાષા મોડલ વધુ સક્ષમ બનતા જાય છે તેમ છતાં, એક પડકાર છે જેનું સંપૂર્ણ સમાધાન કરવું હજી પણ અત્યંત મુશ્કેલ છે: ભ્રમણા. અહીં તેનો અર્થ એવો છે કે મોડલ આત્મવિશ્વાસપૂર્વક એવો જવાબ ઉત્પન્ન કરે જે સચોટ ન હોય. અમારો નવો સંશોધન પેપર(નવી વિન્ડોમાં ખૂલે છે) દલીલ કરે છે કે ભાષા મોડલ ભ્રમણા કરે છે કારણ કે માનક તાલીમ અને મૂલ્યાંકન પ્રક્રિયાઓ અનિશ્ચિતતા સ્વીકારવા કરતાં અંદાજ લગાવવાનું વધુ ઇનામ આપે છે.
ChatGPT પણ ભ્રમણા કરે છે. GPT‑5 માં ભ્રમણા નોંધપાત્ર રીતે ઓછી છે, ખાસ કરીને રિઝનિંગ કરતી વખતે, પરંતુ તે હજી પણ થાય છે. ભ્રમણા બધા મોટા ભાષા મોડલ માટે મૂળભૂત પડકાર છે, પરંતુ અમે તેને વધુ ઘટાડવા માટે કડક મહેનત કરી રહ્યા છીએ.
ભ્રમણા એટલે ભાષા મોડલ દ્વારા ઉત્પન્ન થયેલા વિશ્વસનીય લાગે એવા પરંતુ ખોટા નિવેદનો. દેખાવમાં સરળ લાગતા પ્રશ્નોમાં પણ તે આશ્ચર્યજનક રીતે દેખાઈ શકે છે. ઉદાહરણ તરીકે, જ્યારે અમે વ્યાપક રીતે ઉપયોગમાં લેવાતા ચેટબોટને આ પેપરના એક લેખક Adam Tauman Kalai ના પીએચડી પ્રબંધનું શીર્ષક પૂછ્યું, ત્યારે તેણે આત્મવિશ્વાસથી ત્રણ જુદા જવાબ આપ્યા. તેમાંનો એકપણ સાચો ન હતો. જ્યારે અમે તેમની જન્મતારીખ પૂછીઁ, ત્યારે તેણે ત્રણ અલગ તારીખો આપી, અને તે બધીઁ પણ ખોટી હતી.
ભ્રમણા ટકીને રહે છે કારણ કે વર્તમાન મૂલ્યાંકન પદ્ધતિઓ ખોટા પ્રોત્સાહનો ગોઠવે છે. મૂલ્યાંકનો પોતે સીધા ભ્રમણા પેદા કરતા નથી, પરંતુ મોટાભાગના મૂલ્યાંકનો મોડલનું પ્રદર્શન એવી રીતે માપે છે કે જેમાં અનિશ્ચિતતા વિશે ઈમાનદારી રાખવા કરતાં અંદાજ લગાવવાનું પ્રોત્સાહન મળે છે.
આને બહુવિકલ્પીય પરીક્ષા જેવી રીતે વિચારો. જો તમને જવાબ ખબર ન હોય પરંતુ તમે અંદાજે જવાબ આપો, તો કદાચ નસીબથી તમે સાચા નીકળો. ખાલી છોડશો તો શૂન્ય મળવાનું નક્કી. એ જ રીતે, જ્યારે મોડલને માત્ર સચોટતા પર જ ગુણ આપવામાં આવે છે, એટલે કે તેઓ કેટલા ટકા પ્રશ્નોના બરાબર સાચા જવાબ આપે છે, ત્યારે તેમને “મને ખબર નથી.” કહેવા કરતાં અંદાજ લગાવવાનું પ્રોત્સાહન મળે છે.
બીજું ઉદાહરણ લો. માનીએ કે ભાષા મોડલને કોઈની જન્મતારીખ પૂછાય પણ તેને ખબર ન હોય. જો તે “September 10” નો અંદાજ લગાવે, તો તેના સાચા થવાની શક્યતા 365 માંથી 1 છે. “મને ખબર નથી.” કહેશો તો શૂન્ય ગુણ નક્કી. હજારો ટેસ્ટ પ્રશ્નોમાં, અંદાજ લગાવતું મોડલ અનિશ્ચિતતા સ્વીકારતા સાવચેત મોડલ કરતાં સ્કોરબોર્ડ પર વધુ સારું દેખાય છે.
જે પ્રશ્નોમાં એક જ “સાચો જવાબ” હોય છે, તેમાં પ્રતિભાવની ત્રણ શ્રેણીઓ માનવામાં આવી શકે: સચોટ પ્રતિભાવો, ભૂલો, અને એવા નિવૃત્તિજનક પ્રતિભાવો જેમાં મોડલ અંદાજ લગાવતું નથી. નિવૃત્તિ વિનમ્રતા નો ભાગ છે, જે OpenAI ના મુખ્ય મૂલ્યો પૈકીનું એક છે. મોટા ભાગના સ્કોરબોર્ડ મોડલને સચોટતા આધારે પ્રાથમિકતા આપે છે અને ક્રમબદ્ધ કરે છે, પરંતુ ભૂલો નિવૃત્તિ કરતાં વધુ ખરાબ છે. અમારો મોડલ સ્પેક(નવી વિન્ડોમાં ખૂલે છે) કહે છે કે કદાચ ખોટી થઈ શકે એવી આત્મવિશ્વાસભરી માહિતી આપવા કરતાં અનિશ્ચિતતા દર્શાવવી અથવા સ્પષ્ટીકરણ માંગવું વધુ સારું છે.
ઠોસ ઉદાહરણ તરીકે, SimpleQA eval ને GPT5 સિસ્ટમ કાર્ડ(નવી વિન્ડોમાં ખૂલે છે) ના ઉદાહરણ તરીકે લો.
મેટ્રિક | gpt-5-thinking-mini | OpenAI o4-mini |
નિવૃત્તિ દર | 52% | 1% |
સચોટતા દર | 22% | 24% |
ભૂલ દર | 26% | 75% |
કુલ | 100% | 100% |
સચોટતાના દૃષ્ટિકોણથી જુના OpenAI o4-mini મોડલનું પ્રદર્શન થોડું સારું છે. જોકે, તેની ભૂલ દર, એટલે કે ભ્રમણા દર, નોંધપાત્ર રીતે વધુ છે. અનિશ્ચિતતા હોય ત્યારે વ્યૂહાત્મક રીતે અંદાજ લગાવવાથી સચોટતા સુધરે છે, પરંતુ ભૂલો અને ભ્રમણા વધે છે.
જ્યારે ડઝનો મૂલ્યાંકનોના પરિણામોનો સરેરાશ લેવામાં આવે છે, ત્યારે મોટા ભાગના બેન્ચમાર્ક સચોટતા મેટ્રિકને આગળ ધપાવે છે, પરંતુ તેમાં સાચું અને ખોટું વચ્ચેની ખોટી દ્વૈતતા સમાયેલી છે. SimpleQA જેવા સરળ મૂલ્યાંકનોમાં કેટલીક મોડલ લગભગ 100% સચોટતા હાંસલ કરે છે અને તેથી ભ્રમણા દૂર કરે છે. છતાં, વધુ પડકારજનક મૂલ્યાંકનોમાં અને વાસ્તવિક ઉપયોગમાં સચોટતા 100% થી નીચે મર્યાદિત રહે છે કારણ કે કેટલાક પ્રશ્નોના જવાબ વિવિધ કારણોસર નક્કી કરી શકાયતા નથી, જેમ કે માહિતી ઉપલબ્ધ ન હોવી, નાના મોડલની મર્યાદિત વિચારશક્તિ, અથવા એવી અસ્પષ્ટતાઓ જેને સ્પષ્ટ કરવાની જરૂર હોય.
તેમ છતાં, ફક્ત સચોટતા આધારિત સ્કોરબોર્ડ લીડરબોર્ડ અને મોડલ કાર્ડ પર હાવી રહે છે, જે વિકાસકર્તાઓને રોકાઈ જવાને બદલે અંદાજ લગાવતા મોડલ બનાવવા પ્રેરિત કરે છે. એ જ એક કારણ છે કે મોડલ વધુ અદ્યતન બનતા હોવા છતાં, તેઓ હજી પણ ભ્રમણા કરી શકે છે અને અનિશ્ચિતતા સ્વીકારવાને બદલે આત્મવિશ્વાસથી ખોટા જવાબ આપી શકે છે.
આ માટે સીધો ઉકેલ છે. અનિશ્ચિતતાને દંડ કરો તેનાથી વધુ આત્મવિશ્વાસભરી ભૂલોને દંડ કરો, અને અનિશ્ચિતતાની યોગ્ય અભિવ્યક્તિ માટે આંશિક ક્રેડિટ આપો. આ વિચાર નવો નથી. કેટલીક માનકીકૃત પરીક્ષાઓમાં લાંબા સમયથી ખોટા જવાબ માટે નકારાત્મક ગુણાંકન અથવા પ્રશ્ન ખાલી મૂકવા માટે આંશિક ક્રેડિટ જેવી પદ્ધતિઓનો ઉપયોગ અંધાધૂંધ અંદાજ લગાવવાનું નિરોત્સાહિત કરવા માટે થતો આવ્યો છે. ઘણા સંશોધન જૂથોએ અનિશ્ચિતતા અને કેલિબ્રેશનને ધ્યાનમાં લેતા મૂલ્યાંકનો પણ શોધ્યા છે.
અમારો મુદ્દો જુદો છે. બાજુમાં થોડાં નવા અનિશ્ચિતતા-સજાગ ટેસ્ટ ઉમેરવા પૂરતું નથી. વ્યાપક રીતે ઉપયોગમાં લેવાતા સચોટતા આધારિત મૂલ્યાંકનોને અપડેટ કરવાની જરૂર છે જેથી તેમનો સ્કોરિંગ અંદાજ લગાવવાનું નિરોત્સાહિત કરે. જો મુખ્ય સ્કોરબોર્ડ નસીબદાર અંદાજોને ઇનામ આપતાં રહેશે, તો મોડલ અંદાજ લગાવવાનું શીખતા જ રહેશે. સ્કોરબોર્ડને સુધારવાથી ભ્રમણા ઘટાડવાની પદ્ધતિઓનો સ્વીકાર વધુ વ્યાપક બની શકે છે, નવી વિકસિત પદ્ધતિઓ તથા અગાઉના સંશોધનમાંથી આવેલી બંને.
અમે ભ્રમણાને દૂર કરવી એટલી મુશ્કેલ કેમ છે તે અંગે વાત કરી, પરંતુ આ અત્યંત વિશિષ્ટ તથ્યાત્મક અચુકતાઓ શરૂઆતમાં આવે ક્યાંથી? આખરે, મોટા પ્રીટ્રેઇન્ડ મોડલ અન્ય પ્રકારની ભૂલો, જેમ કે સ્પેલિંગની ભૂલો અને બેમેળ કૌંસ, ભાગ્યે જ દર્શાવે છે. ફરક એ છે કે ડેટામાં કયા પ્રકારના પેટર્ન છે.
ભાષા મોડલ પ્રથમ પ્રીટ્રેઇનિંગ દ્વારા શીખે છે, જે વિશાળ પ્રમાણમાં લખાણમાં આગળનો શબ્દ આગાહી કરવાની પ્રક્રિયા છે. પરંપરાગત મશીન લર્નિંગ સમસ્યાઓથી વિપરીત, દરેક નિવેદન સાથે “સાચું/ખોટું” લેબલ જોડાયેલું નથી. મોડલને ફક્ત પ્રવાહી ભાષાના સકારાત્મક ઉદાહરણો જ દેખાય છે અને તેને સમગ્ર વિતરણનો અંદાજ લગાવવો પડે છે.
જ્યારે તમારી પાસે અમાન્ય તરીકે લેબલ કરેલા કોઈ ઉદાહરણો જ ન હોય ત્યારે માન્ય અને અમાન્ય નિવેદનો વચ્ચે ભેદ કરવો બમણો મુશ્કેલ છે. પરંતુ લેબલ હોય તો પણ કેટલીક ભૂલો અનિવાર્ય છે. કેમ તે સમજવા માટે એક સરળ ઉપમા લો. છબી ઓળખમાં, જો લાખો બિલાડી અને કૂતરાના ફોટોને “બિલાડી” અથવા “કૂતરો” તરીકે લેબલ કરવામાં આવે, તો અલ્ગોરિથમો તેમને વિશ્વસનીય રીતે વર્ગીકૃત કરવાનું શીખી શકે. પરંતુ કલ્પના કરો કે દરેક પાલતુ પ્રાણીના ફોટાને તેની જન્મતારીખથી લેબલ કરવામાં આવે. જન્મતારીખો મૂળભૂત રીતે યાદૃચ્છિક હોવાથી, અલ્ગોરિથમ કેટલો પણ અદ્યતન હોય, આ કાર્યમાં ભૂલો હંમેશા રહેશે.
આ જ સિદ્ધાંત પ્રીટ્રેઇનિંગમાં લાગુ પડે છે. સ્પેલિંગ અને કૌંસ નિયમિત પેટર્નનું અનુસરણ કરે છે, તેથી ત્યાંની ભૂલો સ્કેલ સાથે ગાયબ થઈ જાય છે. પરંતુ પાલતુની જન્મતારીખ જેવા મનસ્વી, ઓછી આવર્તનવાળા તથ્યો ફક્ત પેટર્ન પરથી આગાહી કરી શકાતા નથી અને તેથી ભ્રમણા તરફ દોરી જાય છે. અમારી વિશ્લેષણા સમજાવે છે કે આગળના શબ્દની આગાહીમાંથી કયા પ્રકારની ભ્રમણા ઊભી થવી જોઈએ. આદર્શ રીતે, પ્રીટ્રેઇનિંગ પછીના વધુ તબક્કાઓએ તેને દૂર કરવી જોઈએ, પરંતુ અગાઉના વિભાગમાં વર્ણવેલા કારણોસર તેમાં સંપૂર્ણ સફળતા મળતી નથી.
અમે આશા રાખીએ છીએ કે અમારા પેપરમાં આપેલો આંકડાકીય દૃષ્ટિકોણ ભ્રમણાનું સ્વરૂપ સ્પષ્ટ કરશે અને સામાન્ય ગેરસમજો સામે પ્રતિસાદ આપશે.
- દાવો: સચોટતા સુધારવાથી ભ્રમણા દૂર થશે કારણ કે 100% સચોટ મોડલ ક્યારેય ભ્રમણા કરતું નથી.
નિષ્કર્ષ: સચોટતા ક્યારેય 100% સુધી પહોંચશે નહીં કારણ કે, મોડલનું કદ, શોધ ક્ષમતા અને રિઝનિંગ ક્ષમતાઓ ગમે તેવી હોય, વાસ્તવિક દુનિયાના કેટલાક પ્રશ્નો મૂળભૂત રીતે જવાબ ન આપી શકાય એવા હોય છે. - દાવો: ભ્રમણા અનિવાર્ય છે.
નિષ્કર્ષ: એવું નથી, કારણ કે ભાષા મોડલ અનિશ્ચિતતા હોય ત્યારે જવાબ ન આપવાનું પસંદ કરી શકે છે. - દાવો: ભ્રમણા ટાળવા માટે એવી બુદ્ધિશક્તિ જોઈએ જે માત્ર મોટા મોડલથી જ શક્ય છે.
નિષ્કર્ષ: નાના મોડલ માટે પોતાની મર્યાદાઓ જાણવી વધુ સરળ હોઈ શકે છે. ઉદાહરણ તરીકે, જ્યારે તેને Māori માં પ્રશ્નનો જવાબ આપવા કહેવામાં આવે, ત્યારે જે નાનું મોડલ Māori જાણતું જ નથી તે સીધું “મને ખબર નથી.” કહી શકે, જ્યારે કંઈક Māori જાણતું મોડલને પોતાની ખાતરી નક્કી કરવી પડે. જેમ પેપરમાં ચર્ચાયું છે, “કેલિબ્રેટેડ” હોવા માટે સચોટ હોવા કરતાં ઘણું ઓછું ગણન જોઈએ. - દાવો: ભ્રમણા આધુનિક ભાષા મોડલમાં રહેલી કોઈ રહસ્યમય ખામી છે.
નિષ્કર્ષ: અમે તે આંકડાકીય મિકેનિઝમ્સ સમજીએ છીએ જેના દ્વારા ભ્રમણા ઊભી થાય છે અને મૂલ્યાંકનોમાં ઇનામ પામે છે. - દાવો: ભ્રમણા માપવા માટે અમને ફક્ત એક સારો hallucination eval જોઈએ.
નિષ્કર્ષ: Hallucination evals પ્રકાશિત થઈ ચૂક્યાં છે. છતાં, વિનમ્રતાને દંડ આપતા અને અંદાજ લગાવવાનું ઇનામ આપતા સૈંકડો પરંપરાગત સચોટતા આધારિત મૂલ્યાંકનો સામે એક સારા hallucination eval નો અસર નગણ્ય રહે છે. તેના બદલે, અનિશ્ચિતતાની અભિવ્યક્તિને ઇનામ આપવા માટે તમામ મુખ્ય મૂલ્યાંકન મેટ્રિક્સને ફરી ગોઠવવાની જરૂર છે.
અમારા તાજેતરના મોડલમાં ભ્રમણા દર ઓછો છે, અને અમારી ભાષા મોડલ દ્વારા ઉત્પન્ન થતા આત્મવિશ્વાસભરી ભૂલોના દરને વધુ ઘટાડવા માટે અમે સતત કડક મહેનત કરીએ છીએ.
ઘોષણાના યોગદાનકર્તાઓ
Adam Kalai, Santosh Vempala (Georgia Tech), Ofir Nachum, Eddie Zhang, David Robinson, Saachi Jain, Eric Mitchell, Alex Beutel, Johannes Heidecke


