મુખ્ય વિષય-સામગ્રી પર જાવો
OpenAI

16 જૂન, 2026

સંશોધન

ડિપ્લોયમેન્ટનું સિમ્યુલેશન કરીને રિલીઝ પહેલાં મોડલના વર્તનની આગાહી કરવી

રિલીઝ પહેલાં અનિચ્છનીય મોડલ વર્તણૂકનો વધુ સારી રીતે અંદાજ લગાવવા માટે વાસ્તવિક વાતચીતના સંદર્ભોનો ઉપયોગ.

પરિચય

નવું મોડલ રિલીઝ કરતા પહેલાં, લેબ્સ માટે માત્ર તે શું કરી શકે છે તે સમજવું જ જરૂરી નથી, પણ વાસ્તવિક ઉપયોગમાં તેની વર્તણૂક કેવી હોવાની શક્યતા છે અને તે ક્યાં નવા જોખમો ઊભા કરી શકે છે, તે સમજવું પણ જરૂરી છે. જેમ જેમ ક્ષમતાઓ વધે છે, તેમ તેમ આ બાબત વધુ મહત્વપૂર્ણ બને છે. અમારી ડિપ્લોયમેન્ટ પહેલાંની સુરક્ષા સમીક્ષાના ભાગરૂપે, અમે મોડલની વર્તણૂક સમજવા માટે લક્ષિત મૂલ્યાંકનો, રેડ-ટીમિંગ અને અન્ય ચકાસણીઓનો ઉપયોગ કરીએ છીએ. હવે અમે મોડલ ડિપ્લોયમેન્ટ થાય તે પહેલાં તેનું સિમ્યુલેશન કરવાની પદ્ધતિ વાપરવાનું શરૂ કર્યું છે, જે એક પૂરક સંકેત ઉમેરે છે: ઉમેદવાર મોડલ વપરાશકર્તાઓ સુધી પહોંચે તે પહેલાં તે કેવી વર્તણૂક કરી શકે તેનું ડિપ્લોયમેન્ટ જેવું પ્રીવ્યૂ.

ડિપ્લોયમેન્ટ સિમ્યુલેશન એ ભવિષ્યમાં થનાર ડિપ્લોયમેન્ટને તે થાય તે પહેલાં તેનું સિમ્યુલેટ કરવાની પદ્ધતિ છે. અમે નવા ઉમેદવાર મોડલ સાથે પ્રાઇવસી જળવાઈ રહે તેવી રીતે અગાઉની વાતચીતોને રિપ્લે કરીને આમ કરીએ છીએ. આ અમને નવું મોડલ રિલીઝ પહેલાં વાસ્તવિક સંદર્ભોમાં કેવી રીતે પ્રતિસાદ આપે છે તેનો અભ્યાસ કરવામાં સક્ષમ બનાવે છે, જેમાં કોઈ નવી અનિચ્છનીય વર્તણૂક દેખાઈ છે કે કેમ અને તે કેટલી વાર દેખાઈ શકે છે તેનો પણ સમાવેશ થાય છે.

ઘણા GPT‑5‑શ્રેણીના થિંકિંગ ડિપ્લોયમેન્ટ્સમાં, ડિપ્લોયમેન્ટ સિમ્યુલેશનએ અનિચ્છનીય મોડલ વર્તણૂકના દરોના અમારા અંદાજોમાં સુધારો કર્યો, રિલીઝ પહેલાં અસંગતતાના નવા સ્વરૂપો બહાર લાવવામાં મદદ કરી અને મોડલ્સ એ જાણી શકે કે તેમનું પરીક્ષણ કરવામાં આવી રહ્યું છે તે જોખમને ઘટાડવામાં મદદ કરી. અમે આ પદ્ધતિ પડકારજનક એજન્ટિક રોલઆઉટ્સ પર પણ લાગુ કરી, જે દર્શાવે છે કે તે સ્ટાન્ડર્ડ ચેટથી આગળ વધીને ટૂલના ઉપયોગ સાથે સંકળાયેલા વધુ જટિલ એજન્ટ સેટિંગ્સ સુધી વિસ્તરી શકે છે અને આંતરિક મોડલ ડિપ્લોયમેન્ટ્સ પહેલાં જોખમના મૂલ્યાંકન માટે પણ તેનો ઉપયોગ કરી શકાય છે.

પરંપરાગત મૂલ્યાંકનોમાં રહેલી ખામીઓને ઓળખવા અને જોખમ ઘટાડવાના પગલાં તેમજ ડિપ્લોયમેન્ટના નિર્ણયોને માર્ગદર્શન આપવા માટે, અમે મોડલના વિકાસ દરમિયાન ડિપ્લોયમેન્ટ સિમ્યુલેશનમાંથી મળેલા તારણોનો પહેલેથી જ ઉપયોગ કર્યો છે. જેમ જેમ અમે પાઇપલાઇનને ચલાવવામાં વધુ સરળ બનાવી રહ્યા છીએ, તેમ તેમ અમે અપેક્ષા રાખીએ છીએ કે તે ભવિષ્યની મોડલ વિકાસ પ્રક્રિયામાં વધુ મોટી ભૂમિકા ભજવશે.

ડિપ્લોયમેન્ટ સિમ્યુલેશન કામ કરવાની રીત

ઉદ્યોગમાં વપરાતા પ્રી-ડિપ્લોયમેન્ટ મૂલ્યાંકનો સામાન્ય રીતે કૃત્રિમ, હાથેથી લખાયેલા અથવા ઉત્પાદન પ્રોમ્પ્ટના મિશ્રણથી બનેલા હોય છે, જેમને ઇરાદાપૂર્વક મુશ્કેલ, ઉચ્ચ ગંભીરતાવાળા અથવા પ્રતિકૂળ હોય તે રીતે પસંદ કરવામાં આવે છે. આ મૂલ્યાંકનોના સામાન્ય રીતે બે જોડાયેલા લક્ષ્યો રહ્યા છે: ડિપ્લોયમેન્ટ ટ્રાફિકમાં જે પરિસ્થિતિઓ ઊભી થવાની શક્યતા ખૂબ જ ઓછી હોય તેવી પરિસ્થિતિઓમાં જ્યારે મોડલનું સ્ટ્રેસ-ટેસ્ટિંગ કરવામાં આવે ત્યારે તે કેવી રીતે પ્રતિસાદ આપે છે તેનું મૂલ્યાંકન કરવું અને મોડલની અનિચ્છનીય વર્તણૂકો વિશે સામાન્ય સમજ મેળવવી, જેમાં નવી અનિચ્છનીય વર્તણૂકો શોધવી અને તેમના ડિપ્લોયમેન્ટ-ટાઇમ આવર્તનની આગાહી કરવી સામેલ છે.

જોકે પ્રથમ લક્ષ્ય માટે પરંપરાગત મૂલ્યાંકનો નિર્ણાયક રહે છે, પરંતુ દુર્લભ ન હોય તેવા જોખમો માટેના બીજા લક્ષ્યના સંદર્ભમાં ડિપ્લોયમેન્ટ સિમ્યુલેશન એક નોંધપાત્ર પ્રગતિ દર્શાવે છે (અમારા પ્રયોગોમાં, અમારા અભિગમ પાસેથી એવી વર્તણૂકો માપવાની અપેક્ષા રાખી શકાય નહીં જે 2,00,000 મેસેજમાંથી 1 કરતા ઓછા આવર્તન સાથે થતી હોય). ડિપ્લોયમેન્ટ સિમ્યુલેશનની તાકાત પરંપરાગત મૂલ્યાંકનોના કેટલાક મુખ્ય પડકારોને ટાળવામાંથી આવે છે:

  • કવરેજ: મૂલ્યાંકન પ્રોમ્પ્ટ્સ અનિચ્છનીય મોડલ વર્તનના બધા સંભવિત પ્રકારોને આવરી લેશે એવો વિશ્વાસ રાખવો મુશ્કેલ છે. નવા પ્રકારની અનિચ્છનીય વર્તણૂકને માપવા માટે નવા મૂલ્યાંકનો બનાવવાની અને કયા નુકસાન માપવાના તે જાણવાની જરૂર પડે છે. આ સમય અને શ્રમ માંગી લે તેવી પ્રક્રિયા હોઈ શકે છે અને સમય જતાં મૂલ્યાંકનો સંતૃપ્ત થઈ શકે છે.
  • પસંદગી પૂર્વગ્રહો: પરંપરાગત મૂલ્યાંકનો સામાન્ય રીતે ચોક્કસ અનિચ્છનીય મોડલ વર્તણૂકોને ધ્યાનમાં રાખીને બને છે અને તેમની પસંદગી એવી રીતે કરવામાં આવે છે જે અગાઉ જોવા મળેલા સંદર્ભો તરફ પૂર્વગ્રહ ધરાવતા હોય. આ કારણે તેમના અંદાજો ડિપ્લોયમેન્ટ વિતરણની સંપૂર્ણ વ્યાપમાં આવી વર્તણૂકોની ઘટનાઓ વિશે તેમના અંદાજો ઓછા માહિતીપ્રદ બની શકે છે.
  • મોડલો દ્વારા પરીક્ષણોતરીકે ઓળખાય તેવું હોવું: મોડલો વધુને વધુ એ નક્કી કરવામાં સક્ષમ બન્યા છે કે તેમનું પરીક્ષણ કરવામાં આવી રહ્યું છે, જે તેમની વર્તણૂકને અને તેમની સુરક્ષા અંગેના અમારા અનુગામી માપદંડોને વિકૃત કરી શકે છે. જોકે અમે OpenAI માં ઉપયોગમાં લઈએ છીએ તેવા ઘણા પરંપરાગત મૂલ્યાંકનો પણ પ્રોડક્શન ટ્રાફિકમાંથી મેળવવામાં આવે છે અને તે આ સમસ્યાથી પ્રભાવિત થતા નથી, છતાં ઉદ્યોગમાં ઉપયોગમાં લેવાતા ઘણા પરંપરાગત મૂલ્યાંકનો માટે આ એક સામાન્ય ચિંતાનો વિષય છે

ડિપ્લોયમેન્ટ સિમ્યુલેશન પાછળની મુખ્ય તકનીક સરળ છે: અમે ડિપ્લોયમેન્ટમાંથી તાજેતરની વાતચીતો લઈએ છીએ, જૂના મોડલમાંથી મૂળ આસિસ્ટન્ટના પ્રતિસાદને દૂર કરીએ છીએ અને રિલીઝ થનાર ઉમેદવાર મોડલ સાથે તેને ફરીથી જનરેટ કરીએ છીએ. અમે નવા નિષ્ફળતા મોડ્સ શોધીને પૂર્ણતાઓનું મૂલ્યાંકન કરીએ છીએ અને આ ડિપ્લોયમેન્ટ જેવા વિતરણમાં આવર્તનના આધારે ડિપ્લોયમેન્ટ સમયની અનિચ્છનીય વર્તણૂકના આવર્તનનો અંદાજ લગાવીએ છીએ. અમે રિલીઝ પછી વાસ્તવિક ડિપ્લોયમેન્ટ ટ્રાફિક પર આ સમાન માપનો કરી શકીએ છીએ, જે અમને અમારી પ્રી-ડિપ્લોયમેન્ટ આગાહીઓને પ્રમાણિત કરવામાં સક્ષમ બનાવે છે.

ડિપ્લોયમેન્ટ સિમ્યુલેશન ઉપર જણાવેલી ત્રણ મર્યાદાઓને નોંધપાત્ર રીતે ઘટાડે છે: તાજેતરના ઉપયોગનું પ્રતિનિધિત્વ કરતા મૂલ્યાંકન પ્રોમ્પ્ટના વિતરણનો ઉપયોગ કરીને સેમ્પલિંગ પૂર્વગ્રહનો ઉકેલ લાવવામાં આવે છે. પ્રતિનિધિ પ્રોમ્પ્ટ્સ સાથેનું ડિપ્લોયમેન્ટ સિમ્યુલેશન કવરેજ અંગેની ચિંતાઓ પણ ઘટાડી શકે છે: વધુ ટ્રાફિકનું સિમ્યુલેશન કરીને અમને અનિચ્છનીય મોડલ વર્તણૂકોનું વધુ કવરેજ મળે છે. કમ્પ્યુટ અને કવરેજ વચ્ચેનો આ તડજોડ મહત્વપૂર્ણ છે, કારણ કે તે જોખમ મૂલ્યાંકનના આ પરિમાણની ગુણવત્તાને વધુ મૂલ્યાંકનો બનાવવા માટે જરૂરી હાથેથી કરવાના પ્રયાસના બદલે કમ્પ્યુટ સાથે સ્કેલ કરાવે છે. મોડલો પણ ડિપ્લોયમેન્ટ સિમ્યુલેશન દ્વારા મેળવેલી વાતચીતો અને વાસ્તવિક ડિપ્લોયમેન્ટ ટ્રાફિક વચ્ચે ભેદ પારખી શકતા હોય તેવું લાગતું નથી.

પ્રોડક્શન વાતચીતોથી લઈને ગોપનીયતા જાળવતા રિસેમ્પલિંગ, મોડલ કમ્પ્લીશન જનરેશન, મૂલ્યાંકન અને ડિપ્લોયમેન્ટ-સમયના અંદાજો સુધીની પ્રોડક્શન રિસેમ્પલિંગ પાઇપલાઇન દર્શાવતી આકૃતિ.

આકૃતિ 1: અમારી ડિપ્લોયમેન્ટ સિમ્યુલેશન પાઇપલાઇનનો સારાંશ

ક્ષેત્ર

પરંપરાગત મૂલ્યાંકનો

ડિપ્લોયમેન્ટ સિમ્યુલેશન

કવરેજ

ઓછી વ્યાપકતા પરંતુ ઉચ્ચ ગંભીરતા ધરાવતા જોખમો માટે વધુ સારું છે, જેના માટે અમે ખાતરી કરવા માંગીએ છીએ કે અમારી પાસે કવરેજ છે

ડિપ્લોયમેન્ટ ટ્રાફિકમાં આપણે જે જોખમો જોવાની શક્યતા છે તેના વ્યાપને સમજવા માટે વધુ સારું છે

પ્રતિનિધિત્વ / પૂર્વગ્રહ

લક્ષિત ભૂતકાળના અથવા અંદાજિત જોખમોનું મૂલ્યાંકન કરવા પર ધ્યાન કેન્દ્રિત કરે છે, એવા વર્તનો માટે પણ જે ડિપ્લોયમેન્ટમાં અત્યંત ઓછી વ્યાપકતા ધરાવે છે

વર્તમાન ડિપ્લોયમેન્ટ ટ્રાફિકમાં અમુક ચોક્કસ વ્યાપકતા કરતાં વધુ પ્રમાણમાં જોવા મળતા જોખમોનું પ્રતિનિધિત્વ

મૂલ્યાંકન જાગૃતિ

સંભવિત રીતે સ્પષ્ટ ટેસ્ટ સંકેતો (દા.ત., સિન્થેટિક ડેટા સાથે) સિવાય કે ડિપ્લોયમેન્ટ ડેટા સાથે મૂલ્યાંકનો બનાવવામાં આવ્યા હોય

ડિપ્લોયમેન્ટ જેવો સંદર્ભ eval જાગૃતિને નોંધપાત્ર રીતે ઘટાડે છે એવું લાગે છે

પ્રયાસ

કસ્ટમ પ્રોમ્પ્ટ ડિસ્ટ્રિબ્યુશન અને સેટઅપ માટે નોંધપાત્ર રીતે વધુ મેન્યુઅલ પ્રયાસની જરૂર પડે છે

એક વખતના ઇન્ફ્રાસ્ટ્રક્ચર ખર્ચની જરૂર પડે છે અને ત્યારબાદ ડિપ્લોયમેન્ટમાંથી પ્રીફિક્સ અને જાણીતા અનિચ્છનીય વર્તનોમાંથી ગ્રેડર્સનો ફરીથી ઉપયોગ કરે છે

પરંપરાગત મૂલ્યાંકનો અને ડિપ્લોયમેન્ટ સિમ્યુલેશન વચ્ચે ઉચ્ચ સ્તરીય સરખામણી

અમે ડિપ્લોયમેન્ટ સિમ્યુલેશનનું પરીક્ષણ કેવી રીતે કરીએ

ડિપ્લોયમેન્ટ સિમ્યુલેશનનું મૂલ્યાંકન કરવા માટે, અમે GPT‑5.4 થિંકિંગ માટે 20 પ્રકારના અનિચ્છનીય વર્તણૂકોના ડિપ્લોયમેન્ટ સમયની આવર્તન માટે આગાહીઓ અગાઉથી નોંધાવી હતી. અમે GPT‑5‑શ્રેણીના થિંકિંગ મોડલોના અન્ય ડિપ્લોયમેન્ટ્સમાં પાછળથી અભ્યાસો પણ કર્યા હતા. અમે વિશ્લેષણ કરતા મોડલ વર્તનોમાં અસંગતતા અને નામંજૂર સામગ્રીની બંને શ્રેણીઓ સામેલ છે, જેના વિશે અમે સિસ્ટમ કાર્ડ્સમાં અહેવાલ આપતા આવ્યા છીએ (જેમ કે મોડલ દ્વારા ટૂલ્સ વિશે ખોટું બોલવું અથવા મંજૂરી ન હોય તેવું જાતીય કન્ટેન્ટ આઉટપુટ કરવું). આ પરિણામો માટે અમે માત્ર અનિચ્છનીય મોડલ વર્તણૂકની 20 શ્રેણીઓ ટ્રૅક કરીએ છીએ અને માત્ર નવી અસંગત વર્તણૂકો જ શોધીએ છીએ, છતાં ડિપ્લોયમેન્ટ સિમ્યુલેશન એક સામાન્ય તકનીક છે જેને ડિપ્લોયમેન્ટ સમયેની કોઈપણ મોડલ ગુણધર્મનું સિમ્યુલેશન કરવા માટે લાગુ કરી શકાય છે.

અમે જે ઉત્પાદન ટ્રાફિકનો લાભ લીધો તે પણ GPT‑5‑શ્રેણીના થિંકિંગ મોડલોમાંથી હતો. અમારા મૂલ્યાંકનો ચલાવતા પહેલાં, અમે એકાઉન્ટ સાથે જોડાયેલા ઓળખચિહ્નો અને ઓળખી શકાય તેવી માહિતી આપમેળે દૂર કરી દીધી હતી. અમારી પ્રાઇવસી પોલિસી અનુસાર, અમે ફક્ત એવા વપરાશકર્તાઓનો ChatGPT ટ્રાફિકનું જ વિશ્લેષણ કર્યું છે જેઓ જેઓ મોડલના સુધારા માટે તેમના ડેટાનો ઉપયોગ કરવાની મંજૂરી આપે છે. અમે આ મૂલ્યાંકનોમાંથી માત્ર એકંદર તારણો જ રજૂ કરીએ છીએ. કુલ મળીને, અમે ઑગસ્ટ 2025 થી માર્ચ 2026 સુધીના સમયગાળામાં, GPT‑5 થિંકિંગ થી લઈને GPT‑5.4 ડિપ્લોયમેન્ટ્સ સુધીની અંદાજે 1.3 મિલિયન ડી-આઇડેન્ટિફાઇડ વાતચીતોનું વિશ્લેષણ કર્યું છે.

ડિપ્લોયમેન્ટ સિમ્યુલેશન દ્વારા ઉત્પન્ન થયેલા પ્રી-ડિપ્લોયમેન્ટ જોખમ મૂલ્યાંકનની ગુણવત્તાનું અમે ત્રણ મુખ્ય રીતે મૂલ્યાંકન કરીએ છીએ:

  • વર્ગીકરણ કવરેજ: શું રિલીઝ પછીના ઑડિટિંગમાં કોઈ એવી મહત્વપૂર્ણ અસંગત વર્તણૂકો બહાર આવી જે અમારી ખરાબ વર્તણૂકની પ્રારંભિક ટેક્સોનોમીમાં ખૂટતી હતી?
  • દિશાત્મક સચોટતા: શું સિમ્યુલેશને યોગ્ય રીતે આગાહી કરી હતી કે જાણીતી વર્તણૂકો માટે ડિપ્લોયમેન્ટમાં વ્યાપકતા વધશે કે ઘટશે?
  • દર કેલિબ્રેશન: શું અમારા પ્રી-ડિપ્લોયમેન્ટ અંદાજો એ દરોની નજીક હતા જે અમને પાછળથી ડિપ્લોયમેન્ટમાં જોવા મળ્યા? સારું દર કેલિબ્રેશન હાંસલ કરવા માટે દિશાકીય સચોટતા કરતાં વધુની જરૂર પડે છે, જે આને શક્ય તેટલું સર્વોચ્ચ ગુણવત્તાનું ધોરણ બનાવે છે.

અમે એ પણ માપીએ છીએ કે ડિપ્લોયમેન્ટ સિમ્યુલેશન દરમિયાન મોડલ્સ એ કેટલા અંશે જાણી શકે છે કે તેમનું મૂલ્યાંકન થઈ રહ્યું છે અને ડિપ્લોયમેન્ટ ટ્રાફિકના વિવિધ સ્વરૂપો તેમજ ટૂલના ઉપયોગના પડકારજનક સેટિંગ્સ માટે આ પદ્ધતિ કેટલી મજબૂત છે તેનું પરીક્ષણ કરીએ છીએ.

ડિપ્લોયમેન્ટ સિમ્યુલેશન પ્રી-ડિપ્લોયમેન્ટ જોખમ મૂલ્યાંકનને નોંધપાત્ર રીતે વિસ્તૃત કરે છે

GPT‑5‑સીરીઝના થિંકિંગ ડિપ્લોયમેન્ટ્સમાં, વાસ્તવિક જોખમ દર નક્કી કરવામાં ડિપ્લોયમેન્ટ સિમ્યુલેશને પડકારજનક-પ્રોમ્પ્ટ બેઝલાઇન્સ કરતાં વધુ સારો દેખાવ કર્યો, રિલીઝ પહેલાં કેલ્ક્યુલેટર હેકિંગને બહાર લાવવામાં સક્ષમ રહ્યું અને મોડલ માટે તે સંભવિતપણે ડિપ્લોયમેન્ટથી ભેદ ન પારખી શકાય તેવું લાગતું હતું.

અમારી આગાહીઓનો સારાંશ. GPT‑5‑શ્રેણીના થિંકિંગ મોડલ ડિપ્લોયમેન્ટ્સ માટેની તમામ આગાહીઓના વિઝ્યુઅલાઇઝેશન માટે, આકૃતિ 2 જુઓ. GPT‑5.4 થિંકિંગ માટેની આગાહીઓ પહેલેથી નોંધાવવામાં આવી હતી, જ્યારે બાકીની પાછલી આગાહીઓ હતી. એકંદરે, અમારી આગાહીઓમાં 1.5x ની મીડિયન મલ્ટિપ્લિકેટિવ એરર હતી (દા.ત. જો અનિચ્છનીય વર્તણૂકનો દર 100k માં 10 હોય, તો આ 100k માં 15 અથવા 6.67 ના દરનો અંદાજ લગાવવાને અનુરૂપ હશે). જોકે અમારી પદ્ધતિની ટેઇલ એરર લગભગ 10x મોટી હોઈ શકે છે, અમે અપેક્ષા રાખીએ છીએ કે નીચે ચર્ચા કર્યા મુજબ, અમારી સિમ્યુલેશન પાઇપલાઇનમાં વધુ સુધારાઓ કરીને તેને નોંધપાત્ર રીતે ઘટાડી શકાશે.

અગાઉના ડિપ્લોયમેન્ટ ડેટાના આધારે ડિપ્લોયમેન્ટ-સમયના અનિચ્છનીય વર્તનની ડિપ્લોયમેન્ટ સિમ્યુલેશનની ચોક્કસ-દરની આગાહીઓ દર્શાવતો ચાર્ટ.

આકૃતિ 2. અગાઉના ડિપ્લોયમેન્ટ ડેટાના આધારે ડિપ્લોયમેન્ટ સમયે અનિચ્છનીય વર્તનની ડિપ્લોયમેન્ટ સિમ્યુલેશન આવર્તન આગાહીઓ. 5.1 → 5 એવું દર્શાવે છે કે અમે GPT‑5.1 સાથે GPT‑5 ના પૂર્વપ્રત્યયોનું પુનઃ સેમ્પલિંગ કરી રહ્યા છીએ, એટલે કે, GPT‑5 ના ડેટાના આધારે GPT‑5.1 ના ડિપ્લોયમેન્ટનું સિમ્યુલેશન કરી રહ્યા છીએ. અસંગત વર્તણૂકનો સૌથી વધુ દર GPT‑5.1 માં “કેલ્ક્યુલેટર હેકિંગ” નો હતો, જેની અમે અગાઉ(નવી વિન્ડોમાં ખૂલે છે) ચર્ચા કરી છે.

ડિપ્લોયમેન્ટ સિમ્યુલેશન આગાહીઓની બેઝલાઇન સાથે તુલના. પ્રી-ડિપ્લોયમેન્ટ જોખમ મૂલ્યાંકનો માટે સાચી રીતે અંદાજવા સૌથી મહત્વપૂર્ણ શ્રેણીઓ તે છે જેમાં મોડલના ડિપ્લોયમેન્ટ પછી ઘટનામાં મોટો ફેરફાર થાય છે (જેમ કે >= 1.5x). આ ઉપગણમાં, ડિપ્લોયમેન્ટ સિમ્યુલેશન બેઝલાઇન્સ કરતાં નોંધપાત્ર રીતે વધુ સારું છે, બંને બાબતોમાં: મોડલના ડિપ્લોયમેન્ટ સાથે કોઈ ચોક્કસ અનિચ્છનીય વર્તણૂકનો વ્યાપ વધશે કે ઘટશે તેની આગાહી કરવામાં (આકૃતિ ૩, ડાબે) અને ડિપ્લોયમેન્ટ-ટાઇમની તેની ચોક્કસ ઘટનાઓનો અંદાજ લગાવવામાં (આકૃતિ ૩, જમણે). અમે બે મુખ્ય બેઝલાઇન્સનો ઉપયોગ કરીએ છીએ: એક પડકારજનક પ્રોમ્પ્ટ્સ બેઝલાઇન, જેનો અમે હાલમાં સિસ્ટમ કાર્ડ્સ અને લૉન્ચના નિર્ણયો માટે ઉપયોગ કરીએ છીએ અને બીજી એક નેઇવ (naive) બેઝલાઇન, જેમાં નવા મોડલ માટેના અંદાજો તરીકે અગાઉના ડિપ્લોયમેન્ટના દરોનો ઉપયોગ કરવામાં આવે છે.

આકૃતિ 3. ડિપ્લોયમેન્ટ સિમ્યુલેશન સ્ટેટિક મૂલ્યાંકનો કરતાં ઘટના દરમાં થતા ફેરફારોની દિશા (ડાબે) અને ચોક્કસ પ્રોડક્શન દરો (જમણે) એમ બંનેની વધુ સારી રીતે આગાહી કરે છે.

અમારી પાઇપલાઇનમાં સિમ્યુલેશન ભૂલના સ્ત્રોતો. અમે અમારી પાઇપલાઇનમાં વર્તમાન ભૂલના સ્ત્રોતોનો પણ અભ્યાસ કર્યો છે. ખાસ કરીને, મોટી ટેઇલ ભૂલો પાઇપલાઇનને ડિપ્લોયમેન્ટ નિર્ણયો માટે ઓછી વિશ્વસનીય બનાવે છે: ઉદાહરણ તરીકે, જ્યારે કોઈ ચોક્કસ પ્રકારની અનિચ્છનીય વર્તણૂકમાં અંદાજિત મોટો વધારો જોવા મળે અને જો એ જાણીતું હોય કે પાઇપલાઇનમાં ક્યારેક મોટી ભૂલો પણ થાય છે, તો આ એક વિશ્વસનીય અંદાજ છે કે પછી માત્ર પાઇપલાઇનની જ કોઈ ખામી છે તે અંગે શંકા ઊભી થાય છે. સંભવિત ભૂલના બે મુખ્ય સ્ત્રોતો છે:

  • રીસેમ્પલિંગ પર્યાવરણીય સચોટતામાં ભૂલ: ઉત્પાદન દરોનો સચોટ અંદાજ લગાવવા માટે, અમારી સિમ્યુલેશન પાઇપલાઇન શક્ય તેટલી વાસ્તવિક હોવી જરૂરી છે. આ અંશતઃ એન્જિનિયરિંગ સમસ્યા છે (ઉત્પાદન ટ્રાફિક માટે વપરાતી એ જ પાઇપલાઇનનો ઉપયોગ કરીને મોડલમાંથી સેમ્પલ મેળવવું) અને અંશતઃ એવા ટૂલ્સ માટે રસપ્રદ પડકાર છે જેને સતત બદલાતા બાહ્ય સંસાધનોના વાંચન/લેખન ઍક્સેસ જોઈએ છે (જેમ કે વેબ શોધો અથવા સ્થાનિક ફાઇલો પર ક્રિયા કરવી). અમે વાસ્તવિક ડિપ્લોયમેન્ટ અને તેના સિમ્યુલેશનમાંથી મળતી આગાહીઓની સરખામણી કરીને સિમ્યુલેશનની સચોટતામાં રહેલી ભૂલને અલગ તારવી શકીએ છીએ (એટલે કે, પહેલેથી ડિપ્લોય થયેલા મોડલના ડિપ્લોયમેન્ટનું સિમ્યુલેશન).
  • પ્રોમ્પ્ટ ડિસ્ટ્રિબ્યુશન ફેરફાર ભૂલ: ડિપ્લોયમેન્ટ સિમ્યુલેશન અંગેની મોટી ચિંતા એ છે કે કોઈપણ મોડલનું ડિપ્લોયમેન્ટ ઇનપુટ્સના ડિસ્ટ્રિબ્યુશનમાં ફેરફાર લાવશે, ખાસ કરીને જો વપરાશકર્તાઓ નવી મોડલ ક્ષમતાઓ સાથે અનુકૂલન સાધી લે. તાજેતરના પ્રોમ્પ્ટ્સનો ઉપયોગ કરીને ડિપ્લોયમેન્ટનું સિમ્યુલેશન કરતી વખતે મળેલા અંદાજો અને વાસ્તવિક ડિપ્લોયમેન્ટમાંથી મળેલા પ્રોમ્પ્ટ્સના અંદાજોની સરખામણી કરીને અમે પ્રોમ્પ્ટ ડિસ્ટ્રિબ્યુશનની ભૂલને અલગ તારવીએ છીએ.

આકૃતિ 4 માં દેખાય છે તેમ, અમને જણાય છે કે અમારી પાઇપલાઇનની ભૂલનો મોટો ભાગ, ખાસ કરીને ટેઇલ ભૂલો માટે, હાલમાં સિમ્યુલેશનની સચોટતાને કારણે છે. આ સારા સમાચાર છે, કારણ કે અમને આશા છે કે પ્રોમ્પ્ટ ડિસ્ટ્રિબ્યુશન ફેરફાર ઘટાડવા કરતાં સિમ્યુલેશનની સચોટતામાં સુધારો કરવો વધુ સરળ હશે. અમને એ પણ જાણવા મળ્યું છે કે અગાઉના ડિપ્લોયમેન્ટના સૌથી તાજેતરના ડેટાનો ઉપયોગ કરીને પ્રોમ્પ્ટ ડિસ્ટ્રિબ્યુશન શિફ્ટની ભૂલને ઘટાડી શકાય છે. વધુ વિગતો સંશોધન પેપરમાં જોઈ શકાય છે.

આકૃતિ 4: રીસેમ્પલિંગ પર્યાવરણ વિશ્વસનીયતા અમારા અંદાજોમાં ભૂલનો સૌથી મોટો સ્ત્રોત હોવાનું જણાય છે, ખાસ કરીને સૌથી ગંભીર ભૂલો માટે.

સ્વચાલિત ઓડિટિંગે આ ડિપ્લોયમેન્ટ્સમાં દાખલ થયેલી એક નવી અસંગતતા શોધી કાઢી. અમે અભ્યાસ કરેલી ડિપ્લોયમેન્ટ વિન્ડોમાં, સિમ્યુલેટેડ ડિપ્લોયમેન્ટ્સ પર આધારિત અમારી સ્વચાલિત ઓડિટિંગ પાઇપલાઇન રિલીઝ પહેલાં ‘કેલ્ક્યુલેટર હેકિંગ’ બહાર લાવી દીધું હોત, જે વિશ્લેષણ કરવામાં આવેલા ChatGPT ટ્રાફિકમાં જોવા મળેલી એકમાત્ર નવી અસંગતતા હતી. કેલ્ક્યુલેટર હેકિંગ રિવોર્ડ હેકિંગનું એક સ્વરૂપ છે, જેમાં મોડલ બ્રાઉઝર ટૂલને કેલ્ક્યુલેટર તરીકે વાપરે છે જ્યારે ક્રિયાને શોધ તરીકે રજૂ કરે છે. આનો અર્થ એ નથી કે મોટા પાયે ઓડિટિંગ દરેક નવી નિષ્ફળતા પકડી લેશે, પરંતુ તે દર્શાવે છે કે વાસ્તવિક સંદર્ભો શા માટે મહત્વ ધરાવે છે: તે એવી વર્તણૂકોને બહાર લાવી શકે છે જે મર્યાદિત મૂલ્યાંકન સેટ્સ ક્યારેય સીધી રીતે ન દર્શાવી શકે, ભલે તે સિમ્યુલેશનનો આધાર બનાવવા માટે ઉપયોગમાં લેવાયેલા મૂળ ટ્રાફિકમાં હાજર ન હોય.

મૂલ્યાંકન સભાનતા ઘટાડવી

ડિપ્લોયમેન્ટ જેવા સંદર્ભો વાપરવાનો બીજો લાભ એ છે કે તેમનું પરીક્ષણ કરવામાં આવી રહ્યું છે ત્યારે ઊભી થતી વિકૃતિઓને તે ઘટાડી શકે છે. અગાઉના સંશોધનમાં, અમે તેમજ અન્યોએ(નવી વિન્ડોમાં ખૂલે છે) શોધ્યું છે કે મોડલો ઘણીવાર જાણે છે કે તેમનું પરીક્ષણ કરવામાં આવી રહ્યું છે. ઉદાહરણ તરીકે, મોડલો તેમની ચેન-ઓફ-થોટમાં એવા તર્ક લગાવી શકે છે કે તેમનું કઈ બાબત પર પરીક્ષણ થઈ રહ્યું છે, મૂલ્યાંકનકર્તાને કેવો જવાબ ગમશે અને – જો તેઓ કોઈ અયોગ્ય વર્તન કરી રહ્યા હોય તો – શું તેઓ પકડાઈ જશે. આ સંરેખણ મૂલ્યાંકનો માટે સમસ્યા ઊભી કરે છે: જો કોઈ મોડલ માત્ર એટલા માટે જ યોગ્ય રીતે વર્તે છે કારણ કે તેને લાગે છે કે તેનું પરીક્ષણ થઈ રહ્યું છે, તો આપણે એવો વિશ્વાસ કેવી રીતે કેળવી શકીએ કે એકવાર તેને ડિપ્લોય કરવામાં આવ્યું હોવાની જાણ થશે, ત્યારે પણ તે સુરક્ષિત રીતે વર્તશે?

અમે બતાવીએ છીએ કે ડિપ્લોયમેન્ટ સિમ્યુલેશન વાસ્તવિક ડિપ્લોયમેન્ટ ડેટા પર આધારિત ન હોય તેવા પરંપરાગત મૂલ્યાંકનોની તુલનામાં મોડલો દ્વારા દર્શાવાતા મૂલ્યાંકન સભાનતાના સ્તરોને નોંધપાત્ર રીતે ઘટાડે છે. અમે મૂલ્યાંકન સભાનતાને ત્રણ રીતે માપીએ છીએ: મોડલને એ વર્ગીકૃત કરવાનું કહીને કે ટ્રેજેક્ટરી પ્રોડક્શનમાંથી આવી છે કે મૂલ્યાંકનમાંથી, એલાઇનમેન્ટ માટે મૂલ્યાંકન થઈ રહ્યું હોવાના સ્પષ્ટ નિવેદનો માટે ચેન-ઓફ-થોટનું નિરીક્ષણ કરીને અને મેટાગેમિંગ(નવી વિન્ડોમાં ખૂલે છે) એટલે કે દેખરેખ વિશેના કોઈપણ રિઝનિંગ માટે નિરીક્ષણ કરીને. સિમ્યુલેટ કરેલ ડિપ્લોયમેન્ટ ટ્રાફિક ત્રણેય માપદંડોમાં વાસ્તવિક ડિપ્લોયમેન્ટ ટ્રાફિક સાથે ખૂબ મળતો હતો. ઉદાહરણ તરીકે, GPT‑5.2 એ વાસ્તવિક પ્રોડક્શન ટ્રાફિકને 5.4% કિસ્સાઓમાં અને સિમ્યુલેટ કરેલા ટ્રાફિકને 5.1% કિસ્સાઓમાં મૂલ્યાંકન-જેવા તરીકે લેબલ કર્યું હતું, જ્યારે પરંપરાગત મૂલ્યાંકનો (જેવા કે SWE-Bench અથવા MonorepoBench, જે મુખ્યત્વે સિન્થેટિક ઉદાહરણોના બનેલા હોય છે) લગભગ 100% કિસ્સાઓમાં મૂલ્યાંકનો તરીકે વર્ગીકૃત કરવામાં આવ્યા હતા.

આકૃતિ 5. મૂલ્યાંકન-જાગૃતિની સરખામણી: વાસ્તવિક પ્રોડક્શન ટ્રાફિક અને સિમ્યુલેટેડ ટ્રાફિક મૂલ્યાંકનની ઓળખ, શાબ્દિક અલાઇનમેન્ટ મૂલ્યાંકન જાગૃતિ અને મેટાગેમિંગ માટે સમાન દરો દર્શાવે છે, જ્યારે પરંપરાગત મૂલ્યાંકન ડેટાસેટ્સ ઘણા ઊંચા દરો નોંધાવે છે.

એજન્ટિક ટ્રેજેક્ટરી માટે ટૂલ સિમ્યુલેશન

આ પદ્ધતિ સ્ટાન્ડર્ડ ચેટ મોડ્સથી આગળ વધી શકે છે કે નહીં તે ચકાસવા માટે, અમે પડકારજનક એજન્ટિક કોડિંગ સેટિંગ્સ માટે ડિપ્લોયમેન્ટ્સના સિમ્યુલેશનનો પણ અભ્યાસ કર્યો. ખાસ કરીને, અમે GPT‑5.5 પર આધારિત કોડિંગ એજન્ટ્સના ઇન્ટરનલ ડિપ્લોયમેન્ટનું સિમ્યુલેશન કરવા માટે GPT‑5.4 માંથી 120,000 આંતરિક કર્મચારી એજન્ટિક ટ્રેજેક્ટરીઝનો ઉપયોગ કરીએ છીએ. આ બે હેતુ પૂરા કરે છે: તે બતાવે છે કે આંતરિક ડિપ્લોયમેન્ટ્સ માટે જોખમ મૂલ્યાંકન માટે પણ ડિપ્લોયમેન્ટ સિમ્યુલેશન વાપરી શકાય છે અને તે દર્શાવે છે કે સાવચેતીપૂર્વકના ટૂલ સિમ્યુલેશન દ્વારા એજન્ટિક સેટિંગ્સમાં પણ સિમ્યુલેશન વિશ્વસનીયતા ઊંચી બનાવવી શક્ય છે.

ઉપર અમે ચર્ચા કરી કે સિમ્યુલેશનની સચોટતા અમારી વર્તમાન પાઇપલાઇનમાં ભૂલના મુખ્ય સ્ત્રોતોમાંની એક છે. ડિપ્લોયમેન્ટ સિમ્યુલેશન્સને વાસ્તવિક બનાવવામાં આવતો એક પડકાર એ છે કે તેમાં ટૂલ્સે વાસ્તવિક રીતે કાર્ય કરવું જરૂરી બને છે, ત્યારે પણ જ્યારે તેમને સતત બદલાતા બાહ્ય સંસાધનોના વાંચન/લેખન ઍક્સેસ જોઈએ (જેમ કે વેબ શોધો અથવા સ્થાનિક ફાઇલો સાથે ક્રિયા કરવી).

આ ખાસ કરીને એજન્ટિક ડિપ્લોયમેન્ટ્સ જેવા સેટિંગ્સ માટે પડકારજનક છે: એક જ એજન્ટ ટ્રેજેક્ટરી સૈંકડો ટૂલ કૉલ્સ, રિપોઝિટરી સ્થિતિ, નેટવર્ક પ્રતિસાદો અથવા ક્ષણિક નિષ્ફળતાઓ પર નિર્ભર હોઈ શકે છે. આ વાસ્તવિક ટૂલ ઍક્સેસ સાથે રીસેમ્પલિંગને પડકારજનક અને સંભવિત રીતે જોખમી બંને બનાવે છે. આને ધ્યાનમાં રાખીને, લાઇવ સિસ્ટમ્સ પર ટૂલ કૉલ્સ લાગુ કરવાના બદલે, અમે તેને બીજા LLM સાથે સિમ્યુલેટ કરીએ છીએ. અમે દર્શાવીએ છીએ કે આ LLM ને વધારાની સુવિધાઓ આપવી વાસ્તવિકતા અને તેથી અંદાજની ગુણવત્તા માટે આવશ્યક છે.

અમે ટૂલ-સિમ્યુલેટર મોડલને મૂળ અંતિમ-ટર્ન રોલઆઉટ, વાતચીતના સમયની રિપોઝિટરી, ટૂલ-કૉલ/પ્રતિસાદ જોડીઓનો ડેટાબેઝ અને રીડ-ઓનલી કનેક્ટર્સ આપીએ છીએ. એક પરીક્ષણમાં જ્યાં ડિસ્ક્રિમિનેટરે સિમ્યુલેટ કરેલા અને વાસ્તવિક રોલઆઉટ્સ વચ્ચે તફાવત પારખવાનો પ્રયાસ કર્યો હતો, વાસ્તવિકતા 11.6% જીતના દરથી 49.5% સુધી થઈ, જે 50% સંભાવના સ્તરની નજીક છે.

આકૃતિ 6: વધારેલી ક્ષમતાઓ સાથે ટૂલ કૉલ્સનું સિમ્યુલેશન કરતી વખતે, ટૂલ્સનો વધુ ઉપયોગ ધરાવતા સેટિંગ્સમાં પણ રિસેમ્પલિંગની વાસ્તવિકતાને વાસ્તવિક સેમ્પલિંગથી લગભગ અલગ ન પાડી શકાય તેવી બનાવી શકાય છે.

સિમ્યુલેશનની સચોટતાના વધારાના પુરાવા તરીકે, GPT‑5.4 Codex થિંકિંગ ટ્રાફિકને GPT‑5.4 સાથે સિમ્યુલેટ કરતી વખતે, અસંગતતાના દરો લગભગ ભૂલના માર્જિનની અંદર હોય છે. તેની સામે, અમારા પ્રી-ડિપ્લોયમેન્ટ પરીક્ષણમાં GPT‑5.5 મોટાભાગની શ્રેણીઓમાં વધુ અસંગત જોવા મળ્યું હતું.

આકૃતિ 7: ટૂલ સિમ્યુલેશન સાથે, GPT‑5.4 વડે ફરી સેમ્પલ કરેલી વાતચીતો અને વાસ્તવિક GPT‑5.4 ઉત્પાદન ટ્રાફિક માટે વર્તન દરો ખૂબ સમાન છે – જે ઊંચી રીસેમ્પલિંગ પર્યાવરણ વિશ્વસનીયતા સૂચવે છે. શ્રેણીઓ અંગે વધુ સંદર્ભ માટે GPT‑5.5 સિસ્ટમ કાર્ડ(નવી વિન્ડોમાં ખૂલે છે) જુઓ.

આ પરિણામો સૂચવે છે કે જ્યારે આસપાસના ટૂલ એન્વાયરમેન્ટને પૂરતી સચોટતા સાથે સિમ્યુલેટ કરવામાં આવે છે, ત્યારે ડિપ્લોયમેન્ટ સિમ્યુલેશનને જટિલ એજન્ટ સેટિંગ્સ સુધી પણ વિસ્તારી શકાય છે.

WildChat અને બાહ્ય ઓડિટિંગ

સ્વાભાવિક પ્રશ્ન એ છે કે શું બાહ્ય ઑડિટર્સ ખાનગી પ્રોડક્શન ટ્રાફિકના એક્સેસ વિના પણ આવા જ કેટલાક લાભો મેળવી શકે છે. અમે પ્રીફિક્સ તરીકે વપરાયેલી 100,000 WildChat વાતચીતો સાથે આનું પરીક્ષણ કર્યું. WildChat તાજેતરના OpenAI ઉત્પાદન ડેટા કરતાં ઓછું ચોક્કસ હતું, પરંતુ હજુ પણ માહિતીપ્રદ હતું: તાજેતરના ઉત્પાદન ડેટામાં WildChat કરતાં ઓછો સરેરાશ ગુણાકારક ભૂલ હતો (1.75× સામે 2.44×), જ્યારે WildChat ઘણીવાર ઉત્પાદન દરોના અંદાજે 3× ની અંદર રહ્યું અને સામાન્ય સંભાવના કરતાં વધુ સારા દરે શ્રેષ્ઠ મોડલની ઓળખ કરી હતી. અમે WildChat-શૈલીના મૂલ્યાંકનોને ડેવલપર દ્વારા ચલાવવામાં આવતા ડિપ્લોયમેન્ટ સિમ્યુલેશન માટે આશાસ્પદ પૂરક તરીકે જોઈએ છીએ. આ મુદ્દા પર વધુ પરિણામો માટે આ સાથી Alignment બ્લોગપોસ્ટ(નવી વિન્ડોમાં ખૂલે છે) જુઓ.

મર્યાદાઓ

ડિપ્લોયમેન્ટ સિમ્યુલેશન વિરોધી મૂલ્યાંકનો, રેડ-ટીમિંગ અને લક્ષિત ટેઇલ-રિસ્ક વિશ્લેષણનું પૂરક છે, તેનો વિકલ્પ નથી. કેટલાક અનિચ્છનીય મોડલ વર્તનોની શોધ ચેન-ઓફ-થોટ પર દેખરેખ રાખવાની ક્ષમતા પર આધારિત છે: જો ભવિષ્યના મોડલ ઓછી સ્પષ્ટતા સાથે રિઝનિંગ કરે, મુખ્ય પગલાં છોડી દે અથવા ઈરાદાને છુપાવતા શીખી જાય, તો અમે કદાચ આ પ્રકારના અનિચ્છનીય વર્તનને શોધી શકીશું નહીં. વધુમાં, ઉત્પાદન ડેટા ખાનગી હોવાથી, ડેવલપર્સ પાસે હાલમાં બાહ્ય ઓડિટર્સ કરતાં પ્રતિનિધિ સંદર્ભોની વધુ મજબૂત ઍક્સેસ છે. વધુ સારા જાહેર ડેટાસેટ્સ આ અંતર ઘટાડીને શકે છે.

ડિપ્લોયમેન્ટ સિમ્યુલેશન એવા વર્તનો માટે સૌથી વધુ ઉપયોગી છે જે સેમ્પલ કરેલા પ્રીફિક્સમાં જોવા મળી શકે તેટલી વારંવાર બને છે. દસ મિલિયન વાતચીતોમાં એકવાર થતી નિષ્ફળતા મિલિયન-સેમ્પલ રનમાં શોધાય તેવી શક્યતા ઓછી છે, તેથી વિરોધી મૂલ્યાંકનો, રેડ-ટીમિંગ અને લક્ષિત ટેઇલ-રિસ્ક વિશ્લેષણ જરૂરી રહે છે. હાલમાં અમે એક જ આસિસ્ટન્ટ પ્રતિસાદનું સિમ્યુલેશન કરવા પર ધ્યાન કેન્દ્રિત કરીએ છીએ, કારણ કે પ્રારંભિક પ્રયોગોમાં ઘણા ટર્ન્સ સિમ્યુલેટ કરીને અમને અમારા અંદાજોમાં નોંધપાત્ર સુધારા જોવા મળ્યા નથી. આ ભવિષ્યમાં સિમ્યુલેશન વિશ્વસનીયતા સુધારવાનું મહત્વપૂર્ણ ક્ષેત્ર હોઈ શકે છે.

આ પદ્ધતિ પ્રીફિક્સ ડિસ્ટ્રિબ્યુશન પર પણ આધાર રાખે છે—જે વાતચીતોને રિસેમ્પલ કરવામાં આવી રહી છે તેનું મિશ્રણ. ઉત્પાદનમાં કોઈ મોટા ફેરફાર, નવા ટૂલ રિલીઝ, વૈશ્વિક ઘટના અથવા ઋતુગત ફેરફાર પછી વપરાશકર્તાઓ વધુ સક્ષમ મોડલ સાથે કેવી રીતે આદાનપ્રદાન કરે છે તેની સાથે ઐતિહાસિક ટ્રાફિક કદાચ મેળ ન પણ ખાય. સંપૂર્ણ પેપરમાં કરવામાં આવેલું વિશ્લેષણ સૂચવે છે કે ઉપલબ્ધ સૌથી તાજેતરના ડેટાનો ઉપયોગ કરીને આ સમસ્યાને ઓછી કરી શકાય છે.

નિષ્કર્ષ

ડિપ્લોયમેન્ટ સિમ્યુલેશન એ ડિપ્લોયમેન્ટ પહેલાંના જોખમ મૂલ્યાંકન માટેનો એક નવો અભિગમ છે, જે અત્યાધુનિક લેબ્સ અને મૂલ્યાંકનકર્તાઓને વાસ્તવિક દુનિયામાં ભાષા મોડલ કેવી રીતે વર્તન કરી શકે છે તેની આગાહી કરવામાં અને ડિપ્લોયમેન્ટ પહેલાં તેઓ કયા જોખમો ઊભા કરે છે તે સમજવામાં મદદ કરે છે. તે એક વધુ પ્રોડક્શન-જેવું આગાહી સ્તર ઉમેરીને પ્રવર્તમાન સુરક્ષા મૂલ્યાંકનો, રેડ-ટીમિંગ અને લક્ષિત વિશ્લેષણનું પૂરક બને છે, જે ડિપ્લોયમેન્ટના વર્તનના અંદાજોને સુધારી શકે છે, મૂલ્યાંકન-જાગૃતિની અસરોને ઘટાડી શકે છે અને રિલીઝ પછી ડિપ્લોયમેન્ટ પહેલાંની આગાહીઓને ચકાસણી યોગ્ય બનાવી શકે છે. પરંપરાગત મૂલ્યાંકનોની સાથે ઉપયોગમાં લેવાતા, ડિપ્લોયમેન્ટ સિમ્યુલેશન મોડલના જોખમ મૂલ્યાંકનને વધુ વાસ્તવિક, વધુ માત્રાત્મક અને ડિપ્લોયમેન્ટ સંબંધિત નિર્ણયો માટે વધુ ઉપયોગી બનાવવામાં મદદ કરી શકે છે.

લેખક

OpenAI