Nintroduċu gpt-oss
gpt-oss-120b u gpt-oss-20b imexxu ’l quddiem il-fruntiera tal-mudelli tar-raġunament open-weight
Qed noħorġu gpt-oss-120b u gpt-oss-20b—żewġ mudelli tal-lingwa open-weight tal-ogħla livell li jagħtu prestazzjoni qawwija fid-dinja reali bi spiża baxxa. Disponibbli taħt il-liċenzja flessibbli Apache 2.0, dawn il-mudelli jaqbżu mudelli miftuħa ta’ daqs simili f’kompiti ta’ raġunament, juru kapaċitajiet qawwija fl-użu tal-għodod, u huma ottimizzati għal implimentazzjoni effiċjenti fuq hardware tal-konsumatur. Ġew imħarrġa bl-użu ta’ taħlita ta’ apprendiment ta' tisħiħ u tekniki infurmati mill-aktar mudelli interni avvanzati ta’ OpenAI, inklużi o3 u sistemi oħra tal-fruntiera.
Il-mudell gpt-oss-120b jikseb kważi parità ma’ OpenAI o4-mini fuq benchmarks ewlenin tar-raġunament, filwaqt li jaħdem b’mod effiċjenti fuq GPU waħda ta’ 80 GB. Il-mudell gpt-oss-20b jagħti riżultati simili għal OpenAI o3‑mini fuq benchmarks komuni u jista’ jaħdem fuq apparati edge b’16 GB memorja biss, u dan jagħmlu ideali għal każijiet ta’ użu fuq l-apparat, inferenza lokali, jew iterazzjoni rapida mingħajr infrastruttura għalja. Iż-żewġ mudelli wkoll jagħtu prestazzjoni qawwija fl-użu tal-għodod, few-shot sejħa għall-funzjoni, raġunament CoT (kif jidher mir-riżultati fis-suite ta’ evalwazzjoni aġentika Tau-Bench) u HealthBench (saħansitra jaqbżu mudelli proprjetarji bħal OpenAI o1 u GPT‑4o).
Dawn il-mudelli huma kompatibbli mal-Responses API(jinfetaħ f’tieqa ġdida) tagħna u huma mfassla biex jintużaw fi flussi ta’ xogħol aġentiċi b’segwitu eċċezzjonali tal-istruzzjonijiet, użu ta’ għodod bħat-tfittxija fuq il-web jew eżekuzzjoni ta’ kodiċi Python, u kapaċitajiet ta’ raġunament—inkluża l-abbiltà li jiġi aġġustat l-isforz tar-raġunament għal kompiti li ma jeħtiġux raġunament kumpless u/jew jimmiraw għal outputs finali b’latenza baxxa ħafna. Huma kompletament personalizzabbli, jipprovdu chain-of-thought (CoT) sħiħ, u jappoġġjaw outputs strutturati(jinfetaħ f’tieqa ġdida).
Is-sikurezza hija fundamentali għall-approċċ tagħna fit-tnedija tal-mudelli kollha tagħna, u hija ta’ importanza partikolari għall-mudelli miftuħa. Minbarra li għaddejna l-mudelli minn taħriġ u evalwazzjonijiet komprensivi tas-sikurezza, introduċejna wkoll saff addizzjonali ta’ evalwazzjoni billi ttestjajna verżjoni ta’ gpt-oss-120b irfinata b’mod avversarju taħt il-Qafas tat-Tħejjija(jinfetaħ f’tieqa ġdida) tagħna. Il-mudelli gpt-oss jaħdmu b’mod komparabbli mal-mudelli tal-fruntiera tagħna fuq benchmarks interni tas-sikurezza, u joffru lill-iżviluppaturi l-istess standards ta’ sikurezza bħall-mudelli proprjetarji reċenti tagħna. Qed naqsmu r-riżultati ta’ dak ix-xogħol u aktar dettalji f’dokument ta’ riċerka(jinfetaħ f’tieqa ġdida) u fl-iskeda -mudell(jinfetaħ f’tieqa ġdida). Il-metodoloġija tagħna ġiet riveduta minn esperti esterni u timmarka pass ’il quddiem fl-istabbiliment ta’ standards ġodda tas-sikurezza għal mudelli open-weight.
Konna qed naħdmu wkoll ma’ msieħba bikrija bħal AI Sweden(jinfetaħ f’tieqa ġdida), Orange(jinfetaħ f’tieqa ġdida), u Snowflake(jinfetaħ f’tieqa ġdida) biex nitgħallmu dwar applikazzjonijiet fid-dinja reali tal-mudelli miftuħa tagħna, mill-hosting ta’ dawn il-mudelli on-premises għas-sigurtà tad-data sal-irfinar tagħhom fuq datasets speċjalizzati. Aħna eċċitati li nipprovdu dawn il-mudelli miftuħa tal-aqwa klassi biex nagħtu s-setgħa lil kulħadd—mill-iżviluppaturi individwali sal-intrapriżi kbar sal-gvernijiet—biex iħaddmu u jippersonalizzaw l-AI fuq l-infrastruttura tagħhom stess. Flimkien mal-mudelli disponibbli fl-API tagħna, l-iżviluppaturi jistgħu jagħżlu l-prestazzjoni, l-ispiża u l-latenza li jeħtieġu biex imexxu flussi ta’ xogħol tal-AI.
Il-mudelli gpt-oss ġew imħarrġa bl-użu tal-aktar tekniki avvanzati tagħna ta’ qabel it-taħriġ u wara t-taħriġ, b’enfasi partikolari fuq ir-raġunament, l-effiċjenza, u l-użabilità fid-dinja reali f’firxa wiesgħa ta’ ambjenti ta’ implimentazzjoni. Filwaqt li għamilna mudelli oħra inklużi Whisper u CLIP disponibbli b’mod miftuħ, il-mudelli gpt-oss huma l-ewwel mudelli tal-lingwa open-weight tagħna minn GPT‑2[1] ’l hawn.
Kull mudell huwa Transformer li juża mixture-of-experts (MoE[2]) biex inaqqas in-numru ta’ parametri attivi meħtieġa biex jiġi pproċessat l-input. gpt-oss-120b jattiva 5.1B parametri għal kull token, filwaqt li gpt-oss-20b jattiva 3.6B. Il-mudelli għandhom 117b u 21b parametri totali rispettivament. Il-mudelli jużaw mudelli alternanti ta’ attenzjoni densa u sparsa lokalment banded, simili għal GPT‑3[3]. Għall-inferenza u l-effiċjenza tal-memorja, il-mudelli jużaw ukoll grouped multi-query attention, b’daqs ta’ grupp ta’ 8. Nużaw Rotary Positional Embedding (RoPE[4]) għall-enkodifika pożizzjonali, u nappoġġjaw b’mod nattiv tulijiet ta’ kuntest sa 128k.
Mudell | Saffi | Parametri Totali | Parametri Attivi għal Kull Token | Esperti Totali | Esperti Attivi għal Kull Token | Tul tal-Kuntest |
gpt-oss-120b | 36 | 117B | 5.1B | 128 | 4 | 128k |
gpt-oss-20b | 24 | 21B | 3.6B | 32 | 4 | 128k |
Ħarriġna l-mudelli fuq dataset l-aktar bl-Ingliż, b’test biss, b’enfasi fuq STEM, il-kodifikazzjoni, u għarfien ġenerali. Tokenizzajna d-data billi użajna superset tat-tokenizer tagħna użat għal OpenAI o4-mini u GPT‑4o: o200k_harmony, li llum ukoll qed nagħmluh open-source.
Għal aktar dwar l-arkitettura u t-taħriġ tal-mudelli tagħna, aqra l-iskeda -mudell(jinfetaħ f’tieqa ġdida).
Il-mudelli ġew wara t-taħriġ permezz ta’ proċess simili għal dak użat għal o4-mini, inkluż stadju ta’ irfinar issorveljat u stadju RL b’komputazzjoni għolja. L-objettiv tagħna kien li nallinjaw il-mudelli mal-OpenAI Model Spec(jinfetaħ f’tieqa ġdida) u ngħallmuh japplika raġunament CoT u użu tal-għodod qabel ma jipproduċi t-tweġiba tiegħu. Bl-użu tal-istess tekniki bħall-mudelli proprjetarji SoTA tagħna tar-raġunament, il-mudelli juru kapaċitajiet eċċezzjonali wara t-taħriġ.
B’mod simili għall-mudelli tar-raġunament OpenAI o-series fl-API, iż-żewġ mudelli open-weight jappoġġjaw tliet sforzi ta’ raġunament—baxx, medju u għoli—li jibbilanċjaw il-latenza kontra l-prestazzjoni. L-iżviluppaturi jistgħu faċilment jistabbilixxu l-isforz tar-raġunament b’sentenza waħda fil-messaġġ tas-sistema.
Evalwajna gpt-oss-120b u gpt-oss-20b fuq benchmarks akkademiċi standard biex inkejlu l-kapaċitajiet tagħhom fil-kodifikazzjoni, matematika kompetittiva, Saħħa, u użu aġentiku tal-għodod meta mqabbla ma’ mudelli oħra ta’ raġunament ta’ OpenAI inklużi o3, o3‑mini u o4-mini.
gpt-oss-120b jaqbeż lil OpenAI o3‑mini u jqabbel jew jaqbeż lil OpenAI o4-mini fil-kodifikazzjoni kompetittiva (Codeforces), is-soluzzjoni ġenerali tal-problemi (MMLU u HLE) u tool calling (TauBench). Barra minn hekk jagħmel saħansitra aħjar minn o4-mini fuq mistoqsijiet relatati mas-saħħa (HealthBench) u matematika kompetittiva (AIME 2024 & 2025). gpt-oss-20b jqabbel jew jaqbeż lil OpenAI o3‑mini fuq dawn l-istess evalwazzjonijiet, minkejja d-daqs żgħir tiegħu, u saħansitra jaqbżu fil-matematika kompetittiva u s-saħħa.
Il-mudelli gpt-oss ma jissostitwux professjonist mediku u mhumiex maħsuba għad-dijanjosi jew it-trattament tal-mard
Rollouts ta’ eżempju
gpt-oss-120b jista’ jiġbor malajr informazzjoni aġġornata billi juża għodda ta’ browsing, inkluż billi jgħaqqad għexieren ta’ sejħiet sussegwenti.
Ir-riċerka reċenti tagħna wriet li l-monitoraġġ tal-CoT ta’ mudell tar-raġunament jista’ jkun ta’ għajnuna biex jinstab imġiba ħażina sakemm il-mudell ma jkunx ġie mħarreġ b’superviżjoni diretta għall-allinjament tal-CoT. Din il-perspettiva hija maqsuma(jinfetaħ f’tieqa ġdida) wkoll minn oħrajn fl-industrija. F’konformità mal-prinċipji tagħna minn meta tnieda OpenAI o1‑preview, ma poġġejna ebda superviżjoni diretta fuq il-CoT għal ebda mudell gpt-oss. Nemmnu li dan huwa kritiku biex jiġi mmonitorjat il-komportament ħażin tal-mudell, it-tqarraq u l-użu ħażin. It-tama tagħna hi li r-rilaxx ta’ mudell miftuħ b’chain of thought mhux sorveljat jagħti lill-iżviluppaturi u lir-riċerkaturi l-opportunità li jirriċerkaw u jimplimentaw is-sistemi tagħhom stess ta’ monitoraġġ tal-CoT.
L-iżviluppaturi m’għandhomx juru CoTs direttament lill-utenti fl-applikazzjonijiet tagħhom. Jistgħu jkun fihom kontenut alluċinat jew ta’ ħsara, inkluż lingwa li ma tirriflettix il-politiki standard tas-sikurezza ta’ OpenAI, u jistgħu jinkludu informazzjoni li l-mudell qed jintalab b’mod espliċitu biex ma jinkludihiex fl-output finali.
gpt-oss-120b isegwi b’mod robust l-istruzzjonijiet tas-sistema fl-output tiegħu, iżda spiss ma jobdix b’mod espliċitu l-istruzzjonijiet fil-CoT tiegħu.
Il-mudelli gpt-oss jużaw l-approċċi tagħna tal-ogħla livell għat-taħriġ tas-sikurezza. Matul qabel it-taħriġ, iffiltrajna ċerta data ta’ ħsara relatata ma’ Chemical, Biological, Radiological, and Nuclear (CBRN). Matul wara t-taħriġ, użajna allinjament deliberattiv u l-instruction hierarchy(jinfetaħ f’tieqa ġdida) biex ngħallmu lill-mudell jirrifjuta prompts mhux sikuri u jiddefendi kontra injezzjoni tal-prompts.
Ladarba mudell open-weight jinħareġ, avversarji jistgħu jkunu kapaċi jirfinaw il-mudell għal skopijiet malizzjużi. Ivvalutajna direttament dawn ir-riskji billi rfinajna l-mudell fuq data speċjalizzata fil-bijoloġija u ċ-ċibersigurtà, u ħloqna verżjoni speċifika għad-dominju li ma tirrifjutax għal kull dominju bil-mod kif jista’ jagħmel attakkant. Imbagħad evalwajna l-livell tal-kapaċità ta’ dawn il-mudelli permezz ta’ testijiet interni u esterni. Dan l-ittestjar, kif dettaljat fid-dokument tas-sikurezza akkumpanjanti tagħna, indika li, anke b’irfinar robust li sfrutta l-istack tat-taħriġ ta’ OpenAI li jmexxi l-qasam, dawn il-mudelli rfinati b’mod malizzjuż ma setgħux jilħqu livelli għoljin ta’ kapaċità skont il-Qafas tat-Tħejjija tagħna. Din il-metodoloġija ta’ irfinar malizzjuż ġiet riveduta minn tliet gruppi indipendenti ta’ esperti li għamlu rakkomandazzjonijiet biex itejbu l-proċess ta’ taħriġ u l-evalwazzjonijiet, li ħafna minnhom adottajna. Niddettaljaw dawn ir-rakkomandazzjonijiet fl-iskeda -mudell. Dawn il-proċessi jimmarkaw avvanz sinifikanti għas-sikurezza tal-mudelli miftuħa. Dawn is-sejbiet infurmaw id-deċiżjoni tagħna li noħorġu l-mudelli gpt-oss. Nittamaw li dawn il-mudelli jgħinu biex iħaffu t-taħriġ tas-sikurezza u r-riċerka dwar l-allinjament fl-industrija kollha.
Biex nikkontribwixxu għal ekosistema open source aktar sigura, qed norganizzaw Red Teaming Challenge(jinfetaħ f’tieqa ġdida) biex inħeġġu lir-riċerkaturi, lill-iżviluppaturi, u lid-dilettanti minn madwar id-dinja jgħinu fl-identifikazzjoni ta’ kwistjonijiet ġodda tas-sikurezza. L-isfida għandha fond ta’ premjijiet ta’ $500,000 li se jingħata abbażi ta’ reviżjoni minn bord ta’ mħallfin esperti minn OpenAI u laboratorji ewlenin oħra. Fi tmiem l-isfida, se nippubblikaw rapport u nagħmlu open-source dataset ta’ evalwazzjoni bbażat fuq sejbiet validati, sabiex il-komunità usa’ tkun tista’ tibbenefika immedjatament. Tgħallem aktar u pparteċipa hawn(jinfetaħ f’tieqa ġdida).
Il-weights kemm ta’ gpt-oss-120b kif ukoll ta’ gpt-oss-20b huma disponibbli liberament għat-tniżżil fuq Hugging Face u jiġu nativament kwantizzati f’MXFP4. Dan jippermetti li l-mudell gpt-oss-120B jaħdem fi ħdan 80GB ta’ memorja, filwaqt li gpt-oss-20b jeħtieġ biss 16GB.
Il-mudelli ġew wara t-taħriġ fuq il-format prompt harmony(jinfetaħ f’tieqa ġdida) tagħna, u qed nagħmlu open-source renderer harmony(jinfetaħ f’tieqa ġdida) kemm f’Python kif ukoll f’Rust biex nagħmlu l-adozzjoni aktar faċli. Qed noħorġu wkoll implimentazzjonijiet ta’ referenza biex titħaddem l-inferenza b’PyTorch u fuq il-pjattaforma Metal ta’ Apple, flimkien ma’ ġabra ta’ għodod ta’ eżempju għall-mudell.
Iddisinjajna dawn il-mudelli biex ikunu flessibbli u faċli biex jitħaddmu kullimkien—lokalment, fuq l-apparat, jew permezz ta’ fornituri ta’ inferenza ta’ partijiet terzi. Biex nappoġġjaw dan, qabel it-tnedija ssieħebna ma’ pjattaformi ewlenin tal-implimentazzjoni bħal Azure, Hugging Face, vLLM, Ollama, llama.cpp, LM Studio, AWS, Fireworks, Together AI, Baseten, Databricks, Vercel, Cloudflare, u OpenRouter biex nagħmlu l-mudelli aċċessibbli b’mod wiesa’ għall-iżviluppaturi. Min-naħa tal-hardware, ħdimna ma’ mexxejja tal-industrija inklużi NVIDIA, AMD, Cerebras, u Groq biex niżguraw prestazzjoni ottimizzata fuq firxa ta’ sistemi.
Bħala parti mir-rilaxx tal-lum, Microsoft qed iġġib ukoll verżjonijiet tal-mudell gpt-oss-20b ottimizzati għall-GPU fuq apparati Windows. Imħaddma minn ONNX Runtime, dawn il-mudelli jappoġġjaw inferenza lokali u huma disponibbli permezz ta’ Foundry Local u l-AI Toolkit għal VS Code, u jagħmluha aktar faċli għall-iżviluppaturi tal-Windows biex jibnu b’mudelli miftuħa.
Għall-iżviluppaturi li jridu mudelli kompletament personalizzabbli li jistgħu jirfinaw u jimplimentaw fl-ambjenti tagħhom stess, gpt-oss huwa adattament eċċellenti. Għal dawk li jfittxu appoġġ multimodali, għodod inkorporati, u integrazzjoni bla xkiel mal-pjattaforma tagħna, il-mudelli disponibbli permezz tal-pjattaforma API tagħna jibqgħu l-aħjar għażla. Qed inkomplu nisimgħu mill-qrib il-feedback tal-iżviluppaturi u nistgħu nikkunsidraw appoġġ API għal gpt-oss fil-futur.
Jekk trid tipprova l-mudelli, mur fil-playground tal-mudell miftuħ(jinfetaħ f’tieqa ġdida) tagħna. Biex titgħallem aktar dwar kif tuża l-mudelli billi tuża fornituri differenti tal-ekosistema jew kif tirfina l-mudelli, agħti ħarsa lejn il-gwidi tagħna(jinfetaħ f’tieqa ġdida).
Ir-rilaxx ta’ gpt-oss-120b u gpt-oss-20b jimmarka pass sinifikanti ’l quddiem għall-mudelli open-weight. Fid-daqs tagħhom, dawn il-mudelli jagħtu avvanzi sinifikanti kemm fil-kapaċitajiet tar-raġunament kif ukoll fis-sikurezza. Il-mudelli miftuħa jikkomplementaw il-mudelli ospitati tagħna, u jagħtu lill-iżviluppaturi firxa usa’ ta’ għodod biex iħaffu r-riċerka ta’ quddiem nett, irawmu l-innovazzjoni u jippermettu żvilupp tal-AI aktar sigur u trasparenti fuq firxa wiesgħa ta’ każijiet ta’ użu.
Dawn il-mudelli miftuħa jnaqqsu wkoll l-ostakli għal swieq emerġenti, setturi b’riżorsi limitati, u organizzazzjonijiet iżgħar li jistgħu ma jkollhomx il-baġit jew il-flessibbiltà biex jadottaw mudelli proprjetarji. B’għodod qawwija u aċċessibbli f’idejhom, in-nies madwar id-dinja jistgħu jibnu, jinnovaw, u joħolqu opportunitajiet ġodda għalihom infushom u għal oħrajn. Aċċess wiesa’ għal dawn il-mudelli open-weights kapaċi maħluqa fl-Istati Uniti jgħin biex jespandi rails demokratiċi tal-AI.
Ekosistema b’saħħitha ta’ mudelli miftuħa hija dimensjoni waħda biex tgħin tagħmel l-AI aċċessibbli b’mod wiesa’ u ta’ benefiċċju għal kulħadd. Nistiednu lill-iżviluppaturi u lir-riċerkaturi biex jużaw dawn il-mudelli biex jesperimentaw, jikkollaboraw u jimbuttaw il-limiti ta’ dak li hu possibbli. Nistennew bil-ħerqa li naraw x’tibnu.
Awtur
Ċitazzjonijiet
Kontributuri
Zoran Martinovic, Zhuohan Li, Zhiqing Sun, Zach Johnson, Yu Yang, Yu Bai, Yang Song, Xin Wang, Wenting Zhan, Volodymyr Kyrylov, Vlad Fomenko, Tyler Bertao, Tong Mu, Timur Garipov, Tarun Gogineni, Suvansh Sanjeev, Steve Mostovoy, Song Mei, Shengjia Zhao, Sebastien Bubeck, Scott McKinney, Scott Lessans, Sandhini Agarwal, Sam Toizer, Sam Altman, Saachi Jain, Romain Huet, Rahul K. Arora, Philippe Tillet, Olivia Watkins, Nivedita Brett, Nikhil Vyas, Miles Wang, Michihiro Yasunaga, Michelle Pokrass, Mia Glaese, Max Schwarzer, Mark Chen, Mario Lezcano-Casado, Marat Dukhan, Lukas Gross, Ludovic Peran, Ludovic Peran, Lindsay McCallum, Lin Yang, Lily (Xiaoxuan) Liu, Leher Pathak, Lama Ahmad, Kristian Georgiev, Kristen Ying, Kimmy Richardson, Kevin Whinnery, Kevin Weil, Kevin Lu, Kevin Fives, Kendal Simon, Katia Gil Guzman, Karan Singhal, Karan Singhal, Kai Chen, Josh McGrath, Jordan Liss, Jongsoo Park, John Hallman, Johannes Heidecke, Jiancheng Liu, Ji Lin, Jason Kwon, Jason Ai, James Park Lennon, Jakub Pachocki, Jacob Huh, Jackie Hehir, Irina Kofman, Huida Qiu, Hongyu Ren, Harshit Sikchi, Hannah Wong, Haitang Hu, Haitang Hu, Haiming Bao, Hadi Salman, Guillaume Leclerc, Greg Brockman, Gideon Myles, Giambattista Parascandolo, Gaby Raila, Foivos Tsimpourlas, Filippo Raso, Eugene Brevdo, Eric Wallace, Enoch Cheung, Elizabeth Proehl, Elaine Ya Le, Edwin Arbus, Eddie Zhang, Dominik Kundel, Dmitry Pimenov, David Robinson, Dane Stuckey, Dana Palmie, Dan Cook, Cyril Zhang, Chris Lu, Chris Koch, Che Chang, Cedric Whitney, Casey Dvorak, Carolina Paz, Brian Zhang, Bowen Baker, Bob Rotsted, Boaz Barak, Ashley Pantuliano, Andy Applebaum, Amy Wendling, Ally Bennett, Alexander Neitz, Alex Paino, Alex Nichol, Alec Helyar, Aidan McLaughlin, Aidan Clark, u Adam Goucher


