gpt-oss-safeguard ટેકનિકલ રિપોર્ટ
gpt-oss-safeguard-120b અને gpt-oss-safeguard-20bનું પ્રદર્શન અને આધારરેખા મૂલ્યાંકન
gpt-oss-safeguard-120b અને gpt-oss-safeguard-20b બે ઓપન-વેઇટ রিজনિંગ મોડેલ છે, જે gpt-oss મોડેલમાંથી પોસ્ટ-ટ્રેન્ડ કરવામાં આવ્યા છે અને આપેલી નીતિ પરથી રિઝનિંગ કરીને તે નીતિ હેઠળ સામગ્રીને લેબલ કરવા માટે તાલીમબદ્ધ કરવામાં આવ્યા છે. તેઓ Apache 2.0 લાઇસન્સ અને અમારી gpt-oss ઉપયોગ નીતિ હેઠળ ઉપલબ્ધ છે. ઓપન-સોર્સ સમુદાયના પ્રતિસાદ સાથે વિકસાવવામાં આવેલા, આ માત્ર-ટેક્સ્ટ મોડેલ અમારા Responses API સાથે સુસંગત છે. મોડેલ કસ્ટમાઇઝ કરી શકાય એવા છે, સંપૂર્ણ ચેન-ઓફ-થોટ (CoT) પ્રદાન કરે છે, વિવિધ રિઝનિંગ પ્રયત્નો (low, medium, high) સાથે ઉપયોગ કરી શકાય છે, અને સ્ટ્રક્ચર્ડ આઉટપુટ્સને સપોર્ટ કરે છે.
આ રિપોર્ટમાં, અમે gpt-oss-safeguard ની ક્ષમતાઓ વર્ણવીએ છીએ અને gpt-oss-safeguard મોડેલ પર અમારા આધારરેખા સલામતી મૂલ્યાંકન રજૂ કરીએ છીએ, જેમાં આધારરેખા તરીકે મૂળ gpt-oss મોડેલનો ઉપયોગ કર્યો છે. મૂળ gpt-oss મોડેલના વિકાસ અને આર્કિટેક્ચર વિશે વધુ માહિતી માટે, મૂળ gpt-oss મોડલ મોડલ કાર્ડ જુઓ.
અમે ભલામણ કરીએ છીએ કે આ મોડેલનો ઉપયોગ આપેલી નીતિ સામે સામગ્રીનું વર્ગીકરણ કરવા માટે કરવો, અને તેને એવી મુખ્ય કાર્યક્ષમતા તરીકે ન વાપરવી જેના સાથે અંતિમ વપરાશકર્તાઓ ક્રિયા કરે. આવી એપ્લિકેશન્સ માટે મૂળ gpt-oss મોડેલ વધુ યોગ્ય છે. નીચે આપેલા સલામતી મેટ્રિક્સ ચેટ સેટિંગ્સમાં gpt-oss-safeguard મોડેલ કેવી રીતે કાર્ય કરે છે તે વર્ણવે છે. gpt-oss-safeguard મોડેલનો આ ઉપયોગ માટે હેતુ નથી, પરંતુ કારણ કે તે ઓપન મોડલ છે, કોઈ વ્યક્તિ આ રીતે તેનો ઉપયોગ કરી શકે છે. આ સંભાવનાને કારણે, અમે ખાતરી કરવા માંગતા હતા કે આવા ઉપયોગમાં તેઓ અમારા સલામતી ધોરણો પૂર્ણ કરે છે. આ રિપોર્ટ તે પરીક્ષણોના પરિણામો શેર કરે છે. અમે ચેટ સેટિંગમાં બહુ-ભાષીય પ્રદર્શનનું પ્રારંભિક મૂલ્યાંકન પણ શેર કરીએ છીએ. નોંધો કે આ આપેલી નીતિ સાથે સામગ્રી વર્ગીકરણ દરમિયાનના પ્રદર્શનનું સીધું મૂલ્યાંકન કરતું નથી.
gpt-oss-safeguard મોડેલ તેમના gpt-oss સમકક્ષોના ફાઇન-ટ્યુન સંસ્કરણો છે, અને તેમને કોઈ વધારાના જૈવિક અથવા સાયબરસિક્યોરિટી ડેટા વિના તાલીમ આપવામાં આવી હતી. પરિણામે, અમે નક્કી કર્યું કે gpt-oss રિલીઝમાંથી અગાઉનું કામ સૌથી ખરાબ પરિસ્થિતિઓનો અંદાજ લગાવવું આ નવા મોડેલ પર પણ લાગુ પડે છે.

