gpt-oss પરિચય
gpt-oss-120b અને gpt-oss-20b ઓપન-વેઇટ রিজনিং મોડેલ્સની અત્યાધુનિક સીમાને આગળ ધપાવે છે
અમે gpt-oss-120b અને gpt-oss-20b રજૂ કરી રહ્યા છીએ—બે અદ્યતન ઓપન-વેઇટ ભાષા મોડલ્સ, જે ઓછા ખર્ચે મજબૂત વાસ્તવિક પ્રદર્શન આપે છે. લવચીક Apache 2.0 લાઇસન્સ હેઠળ ઉપલબ્ધ, આ મોડલ્સ রিজনিং કાર્યોમાં સમાન કદના ઓપન મોડલ્સ કરતાં ઉત્તમ છે, મજબૂત ટૂલ ઉપયોગ ક્ષમતા દર્શાવે છે, અને કન્ઝ્યુમર હાર્ડવેર પર કાર્યક્ષમ ડિપ્લોયમેન્ટ માટે ઑપ્ટિમાઇઝ્ડ છે. તેમને રીઇન્ફોર્સમેન્ટ લર્નિંગ અને OpenAIના સૌથી અદ્યતન આંતરિક મોડલ્સ, જેમાં o3 અને અન્ય અત્યાધુનિક સિસ્ટમ્સ શામેલ છે, પરથી પ્રેરિત તકનીકોના મિશ્રણથી ટ્રેન કરવામાં આવ્યા હતા.
gpt-oss-120b મોડલ મુખ્ય রিজনিং બેન્ચમાર્ક્સ પર OpenAI o4-mini સાથે લગભગ સમકક્ષ પરિણામ હાંસલ કરે છે, અને એક જ 80 GB GPU પર કાર્યક્ષમ રીતે ચાલે છે. gpt-oss-20b મોડલ સામાન્ય બેન્ચમાર્ક્સ પર OpenAI o3‑mini જેવાં પરિણામ આપે છે અને માત્ર 16 GB મેમરીવાળા એજ ડિવાઇસિસ પર ચાલી શકે છે, તેથી તે ઑન-ડિવાઇસ ઉપયોગ, સ્થાનિક ઇન્ફરન્સ અથવા ખર્ચાળ ઇન્ફ્રાસ્ટ્રક્ચર વિના ઝડપી ઇટરેશન માટે આદર્શ છે. બંને મોડલ્સ ટૂલ ઉપયોગ, ફ્યુ-શોટ ફંક્શન કોલિંગ, CoT রিজনিং (Tau-Bench એજન્ટિક મૂલ્યાંકન સ્યુટના પરિણામોમાં દેખાય છે તેમ) અને HealthBench પર પણ મજબૂત પ્રદર્શન કરે છે, અને OpenAI o1 અને GPT‑4o જેવા પ્રોપ્રાયટરી મોડલ્સને પણ પાછળ રાખે છે.
આ મોડલ્સ અમારી Responses API(નવી વિન્ડોમાં ખૂલે છે) સાથે સુસંગત છે અને એજન્ટિક વર્કફ્લોઝમાં ઉપયોગ માટે ડિઝાઇન કરાયેલા છે, જેમાં અસાધારણ સૂચના અનુસરણ, વેબ સર્ચ અથવા Python કોડ એક્ઝિક્યુશન જેવા ટૂલ ઉપયોગ, અને রিজনিং ક્ષમતાઓ—જેમાં જટિલ রিজনিংની જરૂર ન હોય એવા કાર્યો અને/અથવા બહુ ઓછી લેટન્સીવાળા અંતિમ આઉટપુટ માટે রিজনিং પ્રયત્નને સમાયોજિત કરવાની ક્ષમતા પણ શામેલ છે. તેઓ સંપૂર્ણપણે કસ્ટમાઇઝ કરી શકાય એવા છે, સંપૂર્ણ ચેન-ઓફ-થોટ (CoT) પ્રદાન કરે છે, અને સ્ટ્રક્ચર્ડ આઉટપુટ્સ(નવી વિન્ડોમાં ખૂલે છે)ને સપોર્ટ કરે છે.
અમારા બધા મોડલ્સના રિલીઝ માટે સલામતી અમારી અભિગમનો આધારભૂત ભાગ છે, અને ઓપન મોડલ્સ માટે તો તેનું ખાસ મહત્વ છે. મોડલ્સને વ્યાપક સલામતી તાલીમ અને મૂલ્યાંકનોમાંથી પસાર કરવાના ઉપરાંત, અમે પ્રિપેરડનેસ ફ્રેમવર્ક(નવી વિન્ડોમાં ખૂલે છે) હેઠળ gpt-oss-120bના પ્રતિસ્પર્ધી રીતે ફાઇન-ટ્યુન કરાયેલા સંસ્કરણનું પરીક્ષણ કરીને એક વધારાનો મૂલ્યાંકન સ્તર પણ ઉમેર્યો હતો. gpt-oss મોડલ્સ આંતરિક સલામતી બેન્ચમાર્ક્સ પર અમારા અત્યાધુનિક મોડલ્સની સરખામણીએ સમકક્ષ પ્રદર્શન કરે છે, જેના કારણે ડેવલપર્સને અમારા તાજેતરના પ્રોપ્રાયટરી મોડલ્સ જેવી જ સલામતી ધોરણો મળે છે. અમે આ કાર્યના પરિણામો અને વધુ વિગતો એક શોધ પેપરમાં(નવી વિન્ડોમાં ખૂલે છે) અને મોડલ કાર્ડ(નવી વિન્ડોમાં ખૂલે છે)માં શેર કરી રહ્યા છીએ. અમારી પદ્ધતિની બહારના નિષ્ણાતોએ સમીક્ષા કરી હતી અને આ ઓપન-વેઇટ મોડલ્સ માટે નવા સલામતી ધોરણો નક્કી કરવાની દિશામાં એક આગળનું પગલું છે.
અમે શરૂઆતના ભાગીદારો જેમ કે AI Sweden(નવી વિન્ડોમાં ખૂલે છે), Orange(નવી વિન્ડોમાં ખૂલે છે), અને Snowflake(નવી વિન્ડોમાં ખૂલે છે) સાથે પણ કામ કર્યું છે જેથી અમારા ઓપન મોડલ્સના વાસ્તવિક ઉપયોગો વિશે શીખી શકાય, ડેટા સુરક્ષા માટે આ મોડલ્સને ઑન-પ્રેમિસ હોસ્ટ કરવાથી લઈને વિશિષ્ટ ડેટાસેટ્સ પર તેમને ફાઇન-ટ્યુન કરવા સુધી. અમે ખુશ છીએ કે આ શ્રેષ્ઠ-શ્રેણીના ઓપન મોડલ્સ દરેકને—વ્યક્તિગત ડેવલપરોથી લઈને મોટી એન્ટરપ્રાઇઝ અને સરકારો સુધી—તેમની પોતાની ઇન્ફ્રાસ્ટ્રક્ચર પર AI ચલાવવા અને કસ્ટમાઇઝ કરવાની શક્તિ આપે છે. અમારી APIમાં ઉપલબ્ધ મોડલ્સ સાથે મળીને, ડેવલપર્સ AI વર્કફ્લોઝને શક્તિ આપવા માટે જરૂરી પ્રદર્શન, ખર્ચ અને લેટન્સી પસંદ કરી શકે છે.
gpt-oss મોડલ્સને અમારી સૌથી અદ્યતન પ્રી-ટ્રેનિંગ અને પોસ્ટ-ટ્રેન્ડ તકનીકોનો ઉપયોગ કરીને ટ્રેન કરવામાં આવ્યા હતા, જેમાં ખાસ ધ્યાન রিজনিং, કાર્યક્ષમતા અને વિવિધ ડિપ્લોયમેન્ટ પરિસ્થિતિઓમાં વાસ્તવિક ઉપયોગીતા પર હતું. ભલે અમે Whisper અને CLIP સહિત અન્ય મોડલ્સ ખુલ્લેઆમ ઉપલબ્ધ કરાવ્યા છે, gpt-oss મોડલ્સ GPT‑2[1] પછીના અમારા પ્રથમ ઓપન-વેઇટ ભાષા મોડલ્સ છે.
દરેક મોડલ એક ટ્રાન્સફોર્મર છે, જે ઇનપુટ પ્રોસેસ કરવા માટે જરૂરી સક્રિય પેરામિટર્સની સંખ્યા ઘટાડવા માટે mixture-of-experts (MoE[2]) નો ઉપયોગ કરે છે. gpt-oss-120b દર ટોકન દીઠ 5.1B પેરામિટર્સ સક્રિય કરે છે, જ્યારે gpt-oss-20b 3.6B સક્રિય કરે છે. મોડલ્સ પાસે અનુક્રમે 117b અને 21b કુલ પેરામિટર્સ છે. મોડલ્સ GPT‑3[3] જેવી વૈકલ્પિક dense અને locally banded sparse attention patterns નો ઉપયોગ કરે છે. ઇન્ફરન્સ અને મેમરી કાર્યક્ષમતા માટે, મોડલ્સ 8ના ગ્રુપ સાઇઝ સાથે grouped multi-query attention નો પણ ઉપયોગ કરે છે. અમે positional encoding માટે Rotary Positional Embedding (RoPE[4]) નો ઉપયોગ કરીએ છીએ, અને મૂળભૂત રીતે 128k સુધીની કોન્ટેક્સ્ટ લંબાઈને સપોર્ટ કરીએ છીએ.
મોડલ | લેયર્સ | કુલ પેરામ્સ | દર ટોકન સક્રિય પેરામ્સ | કુલ એક્સપર્ટ્સ | દર ટોકન સક્રિય એક્સપર્ટ્સ | કોન્ટેક્સ્ટ લંબાઈ |
gpt-oss-120b | 36 | 117B | 5.1B | 128 | 4 | 128k |
gpt-oss-20b | 24 | 21B | 3.6B | 32 | 4 | 128k |
અમે મોડલ્સને મુખ્યત્વે અંગ્રેજી, માત્ર-ટેક્સ્ટ ડેટાસેટ પર ટ્રેન કર્યા હતા, જેમાં STEM, કોડિંગ અને સામાન્ય જ્ઞાન પર ધ્યાન કેન્દ્રિત હતું. અમે OpenAI o4-mini અને GPT‑4o માટે ઉપયોગમાં લેવાતા અમારા tokenizerના superset નો ઉપયોગ કરીને ડેટાને ટોકનાઇઝ કર્યો: o200k_harmony, જેને અમે આજે ઓપન-સોર્સ પણ કરી રહ્યા છીએ.
અમારા મોડલ્સની આર્કિટેક્ચર અને ટ્રેનિંગ વિશે વધુ જાણવા માટે મોડલ કાર્ડ(નવી વિન્ડોમાં ખૂલે છે) વાંચો.
મોડલ્સને o4-mini માટે ઉપયોગમાં લેવાતી સમાન પ્રક્રિયા દ્વારા પોસ્ટ-ટ્રેન્ડ કરવામાં આવ્યા હતા, જેમાં સુપરવાઇઝ્ડ ફાઇન-ટ્યુનિંગ તબક્કો અને ઉચ્ચ-કમ્પ્યુટ RL તબક્કો શામેલ હતો. અમારું લક્ષ્ય મોડલ્સને OpenAI Model Spec(નવી વિન્ડોમાં ખૂલે છે) સાથે અલાઇન કરવાનું અને જવાબ આપતા પહેલાં CoT রিজনিং તથા ટૂલ ઉપયોગ લાગુ કરવાનું શીખવવાનું હતું. અમારા SoTA પ્રોપ્રાયટરી রিজনিং મોડલ્સ જેવી જ તકનીકોનો ઉપયોગ કરીને, પોસ્ટ-ટ્રેનિંગ પછી આ મોડલ્સ અસાધારણ ક્ષમતાઓ દર્શાવે છે.
APIમાં OpenAI o-series રિઝનિંગ મોડલ્સની જેમ, આ બે ઓપન-વેઇટ મોડલ્સ ત્રણ રિઝનિંગ પ્રયત્નો—low, medium, અને high—સપોર્ટ કરે છે, જે લેટન્સી અને પ્રદર્શન વચ્ચે સમતોલન કરે છે. ડેવલપર્સ સિસ્ટમ મેસેજમાં એક જ વાક્યથી સરળતાથી રિઝનિંગ પ્રયત્ન સેટ કરી શકે છે.
અમે gpt-oss-120b અને gpt-oss-20bનું મૂલ્યાંકન સ્ટાન્ડર્ડ શૈક્ષણિક બેન્ચમાર્ક્સ પર કર્યું હતું, જેથી કોડિંગ, સ્પર્ધાત્મક ગણિત, આરોગ્ય અને એજન્ટિક ટૂલ ઉપયોગમાં તેમની ક્ષમતાઓને o3, o3‑mini અને o4-mini સહિતના અન્ય OpenAI રિઝનિંગ મોડલ્સની સરખામણીમાં માપી શકાય.
gpt-oss-120b સ્પર્ધાત્મક કોડિંગ (Codeforces), સામાન્ય સમસ્યા-ઉકેલ (MMLU અને HLE) અને ટૂલ કોલિંગ (TauBench) માં OpenAI o3‑mini કરતાં ઉત્તમ છે અને OpenAI o4-miniને બરાબરી કરે છે અથવા એને વટાવે છે. વધુમાં, તે આરોગ્ય સંબંધિત પ્રશ્નો (HealthBench) અને સ્પર્ધાત્મક ગણિત (AIME 2024 & 2025) માં o4-mini કરતાં પણ સારું કરે છે. gpt-oss-20b તેના નાનાં કદ છતાં, આ જ મૂલ્યાંકનોમાં OpenAI o3‑miniને બરાબરી કરે છે અથવા એને વટાવે છે, અને સ્પર્ધાત્મક ગણિત તથા આરોગ્યમાં તો તેને પાછળ પણ રાખે છે.
gpt-oss મોડલ્સ કોઈ મેડિકલ પ્રોફેશનલનું સ્થાન લેતા નથી અને રોગના નિદાન અથવા સારવાર માટે બનાવવામાં આવ્યા નથી
ઉદાહરણ રોલઆઉટ્સ
gpt-oss-120b બ્રાઉઝિંગ ટૂલનો ઉપયોગ કરીને ઝડપથી અપ-ટુ-ડેટ માહિતી એકત્ર કરી શકે છે, જેમાં અનુસરી રહેલા દાયકાઓ જેટલા કોલ્સને જોડવા પણ સામેલ છે.
અમારા તાજેતરના સંશોધનએ બતાવ્યું છે કે રિઝનિંગ મોડલની CoTનું મોનિટરિંગ ગેરવર્તન શોધવામાં મદદરૂપ થઈ શકે છે, જો મોડલને CoTને અલાઇન કરવા માટે સીધી સુપરવિઝન સાથે ટ્રેન ન કરવામાં આવ્યો હોય. આ દૃષ્ટિકોણ ઉદ્યોગના અન્ય લોકો દ્વારા પણ શેર(નવી વિન્ડોમાં ખૂલે છે) કરવામાં આવ્યો છે. OpenAI o1‑preview લોન્ચ કર્યા ત્યારથી અમારા સિદ્ધાંતો અનુસાર, અમે બંને gpt-oss મોડલ્સ માટે CoT પર કોઈ સીધી સુપરવિઝન મૂકી નહોતી. અમને વિશ્વાસ છે કે મોડલના ગેરવર્તન, છેતરપિંડી અને દુરુપયોગનું મોનિટરિંગ કરવા માટે આ અત્યંત મહત્વપૂર્ણ છે. અમને આશા છે કે નોન-સુપરવાઇઝ્ડ ચેન-ઓફ-થોટ ધરાવતા ઓપન મોડલને રિલીઝ કરવાથી ડેવલપર્સ અને સંશોધકોને પોતાની CoT મોનિટરિંગ સિસ્ટમ્સ પર સંશોધન અને અમલીકરણ કરવાની તક મળશે.
ડેવલપર્સે પોતાની એપ્લિકેશન્સમાં CoT સીધું વપરાશકર્તાઓને બતાવવું જોઈએ નહીં. તેમાં હેલ્યુસિનેટેડ અથવા હાનિકારક સામગ્રી હોઈ શકે છે, જેમાં એવી ભાષા પણ શામેલ હોઈ શકે છે જે OpenAIની માનક સલામતી નીતિઓને પ્રતિબિંબિત કરતી નથી, અને તેમાં એવી માહિતી પણ હોઈ શકે છે જે મોડલને અંતિમ આઉટપુટમાં ન સામેલ કરવા માટે સ્પષ્ટ રીતે કહેવામાં આવી રહી હોય.
gpt-oss-120b તેના આઉટપુટમાં સિસ્ટમ સૂચનાઓને મજબૂતીથી અનુસરે છે, પરંતુ તેની CoTમાં ઘણી વાર સ્પષ્ટ રીતે સૂચનાઓનું ઉલ્લંઘન કરશે.
gpt-oss મોડલ્સ સલામતી તાલીમ માટે અમારી અદ્યતન પદ્ધતિઓનો ઉપયોગ કરે છે. પ્રી-ટ્રેનિંગ દરમિયાન, અમે Chemical, Biological, Radiological, and Nuclear (CBRN) સંબંધિત કેટલીક હાનિકારક માહિતી ફિલ્ટર કરી હતી. પોસ્ટ-ટ્રેનિંગ દરમિયાન, અમે વિચાર-વિમર્શ આધારિત અલાઇનમેન્ટ અને instruction hierarchy(નવી વિન્ડોમાં ખૂલે છે) નો ઉપયોગ કરીને મોડલને અસુરક્ષિત પ્રોમ્પ્ટ્સ નકારવા અને પ્રોમ્પ્ટ ઇન્જેક્શન સામે રક્ષણ આપવાનું શીખવ્યું હતું.
એકવાર ઓપન-વેઇટ મોડલ રિલીઝ થઈ જાય પછી, વિરોધીઓ દુર્ભાવનાપૂર્ણ હેતુઓ માટે મોડલને ફાઇન-ટ્યુન કરી શકે છે. અમે બાયોલોજી અને સાયબરસિક્યોરિટી સંબંધિત વિશિષ્ટ ડેટા પર મોડલને ફાઇન-ટ્યુન કરીને આ જોખમોનું સીધું મૂલ્યાંકન કર્યું, અને હુમલાખોર જે રીતે કરી શકે તે રીતે દરેક ડોમેન માટે ડોમેન-વિશિષ્ટ non-refusing સંસ્કરણ બનાવ્યું. ત્યારબાદ અમે આંતરિક અને બાહ્ય પરીક્ષણો દ્વારા આ મોડલ્સની ક્ષમતા સ્તરનું મૂલ્યાંકન કર્યું. અમારી સાથે પ્રકાશિત થયેલી સલામતી પેપરમાં વિગતવાર દર્શાવ્યા મુજબ, આ પરીક્ષણએ સૂચવ્યું કે OpenAIની ક્ષેત્ર-અગ્રણી ટ્રેનિંગ સ્ટેકનો લાભ લેતા મજબૂત ફાઇન-ટ્યુનિંગ છતાં, આ દુર્ભાવનાપૂર્ણ રીતે ફાઇન-ટ્યુન કરાયેલા મોડલ્સ અમારા પ્રિપેરડનેસ ફ્રેમવર્ક અનુસાર ઊંચી ક્ષમતા સ્તર સુધી પહોંચી શક્યા નહોતા. આ દુર્ભાવનાપૂર્ણ ફાઇન-ટ્યુનિંગ પદ્ધતિની ત્રણ સ્વતંત્ર નિષ્ણાત જૂથોએ સમીક્ષા કરી હતી, જેઓએ ટ્રેનિંગ પ્રક્રિયા અને મૂલ્યાંકનો સુધારવા માટે ભલામણો કરી, જેમાંથી ઘણીઓ અમે અપનાવી. અમે આ ભલામણોને મોડલ કાર્ડમાં વિગતવાર આપીએ છીએ. આ પ્રક્રિયાઓ ઓપન મોડલ સલામતી માટે અર્થપૂર્ણ પ્રગતિ દર્શાવે છે. આ નિષ્કર્ષોએ gpt-oss મોડલ્સને રિલીઝ કરવાનો અમારો નિર્ણય પ્રેરિત કર્યો. અમને આશા છે કે આ મોડલ્સ ઉદ્યોગભરમાં સલામતી તાલીમ અને અલાઇનમેન્ટ સંશોધનને ઝડપી બનાવવામાં મદદ કરશે.
વધુ સલામત ઓપન સોર્સ ઇકોસિસ્ટમમાં યોગદાન આપવા માટે, અમે રેડ ટીમિંગ ચેલેન્જ(નવી વિન્ડોમાં ખૂલે છે) હોસ્ટ કરી રહ્યા છીએ જેથી વિશ્વભરના સંશોધકો, ડેવલપર્સ અને ઉત્સાહીઓને નવા સલામતી મુદ્દા ઓળખવામાં મદદ કરવા પ્રોત્સાહન મળે. આ ચેલેન્જમાં $500,000નું પ્રાઇઝ ફંડ છે, જે OpenAI અને અન્ય અગ્રણી લેબ્સના નિષ્ણાત જજોના પેનલની સમીક્ષા આધારે આપવામાં આવશે. ચેલેન્જના અંતે, અમે એક રિપોર્ટ પ્રકાશિત કરીશું અને માન્ય થયેલ શોધો પર આધારિત મૂલ્યાંકન ડેટાસેટ ઓપન-સોર્સ કરીશું, જેથી વિશાળ સમુદાયને તાત્કાલિક લાભ મળી શકે. વધુ જાણો અને અહીં(નવી વિન્ડોમાં ખૂલે છે) ભાગ લો.
gpt-oss-120b અને gpt-oss-20b બન્નેના વેઇટ્સ Hugging Face પર મફતમાં ડાઉનલોડ માટે ઉપલબ્ધ છે અને મૂળભૂત રીતે MXFP4માં quantized આવે છે. આ gpt-oss-120B મોડલને 80GB મેમરીમાં ચલાવવા દે છે, જ્યારે gpt-oss-20b માટે માત્ર 16GB જરૂરી છે.
મોડલ્સને અમારા harmony prompt format(નવી વિન્ડોમાં ખૂલે છે) પર પોસ્ટ-ટ્રેન્ડ કરવામાં આવ્યા છે, અને અપનાવવું સરળ બને તે માટે અમે Python અને Rust બન્નેમાં harmony renderer(નવી વિન્ડોમાં ખૂલે છે) ઓપન-સોર્સ કરી રહ્યા છીએ. અમે PyTorch સાથે અને Appleની Metal પ્લેટફોર્મ પર ઇન્ફરન્સ ચલાવવા માટે રેફરન્સ ઇમ્પ્લેમેન્ટેશન્સ તેમજ મોડલ માટેના ઉદાહરણ ટૂલ્સનો સંગ્રહ પણ રિલીઝ કરી રહ્યા છીએ.
અમે આ મોડલ્સને લવચીક અને ક્યાંય પણ ચલાવવા સરળ એવા બનાવ્યા છે—લોકલી, ઑન-ડિવાઇસ, અથવા તૃતીય-પક્ષ ઇન્ફરન્સ પ્રદાતાઓ દ્વારા. આને સમર્થન આપવા માટે, અમે લોન્ચ પહેલાં Azure, Hugging Face, vLLM, Ollama, llama.cpp, LM Studio, AWS, Fireworks, Together AI, Baseten, Databricks, Vercel, Cloudflare, અને OpenRouter જેવા અગ્રણી ડિપ્લોયમેન્ટ પ્લેટફોર્મ્સ સાથે ભાગીદારી કરી હતી જેથી મોડલ્સ ડેવલપર્સ માટે વ્યાપક રીતે સુલભ બને. હાર્ડવેર તરફથી, અમે NVIDIA, AMD, Cerebras, અને Groq સહિતના ઉદ્યોગ અગ્રણી સાથે કામ કર્યું હતું જેથી વિવિધ સિસ્ટમ્સમાં ઑપ્ટિમાઇઝ્ડ પ્રદર્શન સુનિશ્ચિત થઈ શકે.
આજના રિલીઝના ભાગરૂપે, Microsoft Windows ડિવાઇસિસ માટે gpt-oss-20b મોડલના GPU-optimized સંસ્કરણો પણ લાવી રહ્યું છે. ONNX Runtime દ્વારા સંચાલિત, આ મોડલ્સ સ્થાનિક ઇન્ફરન્સને સપોર્ટ કરે છે અને Foundry Local તથા VS Code માટેના AI Toolkit દ્વારા ઉપલબ્ધ છે, જેના કારણે Windows ડેવલપર્સ માટે ઓપન મોડલ્સ સાથે બિલ્ડ કરવું સરળ બને છે.
જે ડેવલપર્સ સંપૂર્ણપણે કસ્ટમાઇઝ કરી શકાય એવા મોડલ્સ ઇચ્છે છે, જેને તેઓ પોતાના પર્યાવરણમાં ફાઇન-ટ્યુન અને ડિપ્લોય કરી શકે, તેમના માટે gpt-oss ઉત્તમ પસંદગી છે. જેમને multimodal સપોર્ટ, બિલ્ટ-ઇન ટૂલ્સ અને અમારી પ્લેટફોર્મ સાથે seamless integration જોઈએ છે, તેમના માટે અમારી API પ્લેટફોર્મ મારફતે ઉપલબ્ધ મોડલ્સ હજી પણ શ્રેષ્ઠ વિકલ્પ છે. અમે ડેવલપર પ્રતિસાદને નજીકથી સાંભળતા રહીશું અને ભવિષ્યમાં gpt-oss માટે API સપોર્ટ પર વિચાર કરી શકીએ છીએ.
જો તમે મોડલ્સ અજમાવવા માંગો છો, તો અમારા ઓપન મોડલ પ્લેગ્રાઉન્ડ(નવી વિન્ડોમાં ખૂલે છે) પર જાઓ. વિવિધ ઇકોસિસ્ટમ પ્રદાતાઓનો ઉપયોગ કરીને મોડલ્સ કેવી રીતે વાપરવા અથવા મોડલ્સને કેવી રીતે ફાઇન-ટ્યુન કરવા તે વિશે વધુ જાણવા માટે, અમારી માર્ગદર્શિકાઓ જુઓ(નવી વિન્ડોમાં ખૂલે છે).
gpt-oss-120b અને gpt-oss-20bનું રિલીઝ ઓપન-વેઇટ મોડલ્સ માટે એક મહત્વપૂર્ણ આગળનું પગલું છે. તેમના કદ પર, આ મોડલ્સ રિઝનિંગ ક્ષમતાઓ અને સલામતી બન્નેમાં અર્થપૂર્ણ પ્રગતિ આપે છે. ઓપન મોડલ્સ અમારા hosted મોડલ્સને પૂરક છે, ડેવલપર્સને અગ્રણી સંશોધન ઝડપી બનાવવા, નવીનતા પ્રોત્સાહિત કરવા અને વિવિધ ઉપયોગ કિસ્સાઓમાં વધુ સલામત, વધુ પારદર્શક AI વિકાસ સક્ષમ કરવા માટે વધુ વ્યાપક સાધનો આપે છે.
આ ઓપન મોડલ્સ ઊભરતા બજારો, મર્યાદિત સંસાધનવાળા ક્ષેત્રો અને નાની સંસ્થાઓ માટે અવરોધો પણ ઘટાડે છે, જેમને પ્રોપ્રાયટરી મોડલ્સ અપનાવવા માટે બજેટ અથવા લવચીકતા ન હોઈ શકે. તેમના હાથમાં શક્તિશાળી, સુલભ સાધનો સાથે, વિશ્વભરના લોકો બાંધકામ, નવીનતા અને પોતાના તથા અન્ય માટે નવી તકો ઊભી કરી શકે છે. અમેરિકામાં બનાવાયેલા આ સક્ષમ ઓપન-વેઇટ્સ મોડલ્સની વ્યાપક ઉપલબ્ધતા લોકશાહી આધારિત AI માર્ગોને વિસ્તૃત કરવામાં મદદ કરે છે.
સ્વસ્થ ઓપન મોડલ ઇકોસિસ્ટમ AIને સૌ માટે વ્યાપકપણે સુલભ અને લાભકારી બનાવવા માટેનું એક પરિમાણ છે. અમે ડેવલપર્સ અને સંશોધકોને આ મોડલ્સનો ઉપયોગ કરીને પ્રયોગ કરવા, સહકાર આપવા અને શું શક્ય છે તેની સીમાઓ આગળ ધપાવવા આમંત્રિત કરીએ છીએ. તમે શું બનાવો છો તે જોવા માટે અમે આતુર છીએ.
લેખક
સંદર્ભો
[1] GPT-2: બ્લોગ, શોધ પેપર(નવી વિન્ડોમાં ખૂલે છે)
[2] MOE(નવી વિન્ડોમાં ખૂલે છે)
[3] GPT-3: બ્લોગ, શોધ પેપર(નવી વિન્ડોમાં ખૂલે છે)
યોગદાનકર્તાઓ
Zoran Martinovic, Zhuohan Li, Zhiqing Sun, Zach Johnson, Yu Yang, Yu Bai, Yang Song, Xin Wang, Wenting Zhan, Volodymyr Kyrylov, Vlad Fomenko, Tyler Bertao, Tong Mu, Timur Garipov, Tarun Gogineni, Suvansh Sanjeev, Steve Mostovoy, Song Mei, Shengjia Zhao, Sebastien Bubeck, Scott McKinney, Scott Lessans, Sandhini Agarwal, Sam Toizer, Sam Altman, Saachi Jain, Romain Huet, Rahul K. Arora, Philippe Tillet, Olivia Watkins, Nivedita Brett, Nikhil Vyas, Miles Wang, Michihiro Yasunaga, Michelle Pokrass, Mia Glaese, Max Schwarzer, Mark Chen, Mario Lezcano-Casado, Marat Dukhan, Lukas Gross, Ludovic Peran, Ludovic Peran, Lindsay McCallum, Lin Yang, Lily (Xiaoxuan) Liu, Leher Pathak, Lama Ahmad, Kristian Georgiev, Kristen Ying, Kimmy Richardson, Kevin Whinnery, Kevin Weil, Kevin Lu, Kevin Fives, Kendal Simon, Katia Gil Guzman, Karan Singhal, Karan Singhal, Kai Chen, Josh McGrath, Jordan Liss, Jongsoo Park, John Hallman, Johannes Heidecke, Jiancheng Liu, Ji Lin, Jason Kwon, Jason Ai, James Park Lennon, Jakub Pachocki, Jacob Huh, Jackie Hehir, Irina Kofman, Huida Qiu, Hongyu Ren, Harshit Sikchi, Hannah Wong, Haitang Hu, Haitang Hu, Haiming Bao, Hadi Salman, Guillaume Leclerc, Greg Brockman, Gideon Myles, Giambattista Parascandolo, Gaby Raila, Foivos Tsimpourlas, Filippo Raso, Eugene Brevdo, Eric Wallace, Enoch Cheung, Elizabeth Proehl, Elaine Ya Le, Edwin Arbus, Eddie Zhang, Dominik Kundel, Dmitry Pimenov, David Robinson, Dane Stuckey, Dana Palmie, Dan Cook, Cyril Zhang, Chris Lu, Chris Koch, Che Chang, Cedric Whitney, Casey Dvorak, Carolina Paz, Brian Zhang, Bowen Baker, Bob Rotsted, Boaz Barak, Ashley Pantuliano, Andy Applebaum, Amy Wendling, Ally Bennett, Alexander Neitz, Alex Paino, Alex Nichol, Alec Helyar, Aidan McLaughlin, Aidan Clark, Adam Goucher


