Ipinapakilala ang gpt-oss
Nilalampasan ng gpt-oss-120b at gpt-oss-20b ang hangganan ng mga open-weight na modelo ng pagdadahilan
Ilalabas namin ang gpt-oss-120b at gpt-oss-20b—dalawang makabagong open-weight na modelo ng wika na naghahatid ng mahusay na performance sa totoong mundo sa murang halaga. Magagamit sa ilalim ng flexible na lisensya ng Apache 2.0, mas mahusay ang mga modelo na ito kaysa sa mga bukas na modelo na may katulad na laki sa mga gawain sa pagdadahilan, nagpapakita ang mga ito ng mahuhusay na kakayahan sa paggamit ng tool, at na-optimize ang mga ito para sa mahusay na pag-deploy sa hardware ng consumer. Sinanay ang mga ito gamit ang pinaghalong pagpapatibay ng pag-aaral at mga pamamaraang batay sa mga pinaka-advanced na panloob na modelo ng OpenAI, kasama ang o3 at iba pang nangungunang system.
Ang modelong gpt-oss-120b ay halos kapantay ng OpenAI o4-mini sa mga pangunahing benchmark ng pagdadahilan, habang mahusay na tumatakbo sa iisang 80 GB GPU. Nagbibigay ang modelong gpt-oss-20b ng mga resultang katulad ng sa OpenAI o3‑mini sa mga karaniwang benchmark at puwede itong patakbuhin sa mga edge device na may 16 GB na memory lang, na ginagawa itong mainam para sa mga sitwasyon ng paggamit sa device, lokal na inference, o mabilis na pag-uulit nang walang magastos na imprastraktura. Mahusay rin ang performance ng dalawang modelo sa paggamit ng tool, few-shot function calling, CoT na pagdadahilan (tulad ng makikita sa mga resulta sa Tau-Bench agentic evaluation suite) at HealthBench (mas mahusay pa nga ang performance kaysa sa mga pinagmamay-ariang modelo tulad ng OpenAI o1 at GPT‑4o).
Compatible ang mga modelo na ito sa aming Responses API(magbubukas sa bagong window) at idinisenyo upang magamit sa mga workflow ng agent na may pambihirang pagsunod sa tagubilin, paggamit ng tool tulad ng paghahanap sa web o pag-execute ng Python code, at mga kakayahan sa pagdadahilan—kasama ang kakayahang i-adjust ang pagsisikap sa pagdadahilan para sa mga gawain na hindi nangangailangan ng kumplikadong pagdadahilan at/o nagta-target ng mga pinal na output na may napakababang latency. Ang mga ito ay ganap na nako-customize, nagbibigay ng kumpletong chain-of-thought (CoT), at sumusuporta sa Mga Nakabalangkas na Output(magbubukas sa bagong window).
Ang kaligtasan ay pundasyon ng aming diskarte sa paglalabas ng lahat ng aming modelo, at partikular na mahalaga ito para sa mga bukas na modelo. Bukod pa sa pagsasailalim sa mga modelo sa komprehensibong pagsasanay at pagsusuri sa kaligtasan, nagsimula rin kami ng karagdagang layer ng pagsusuri sa pamamagitan ng pagsubok sa isang bersyon ng gpt-oss-120b na na-fine tune gamit ang adversarial na paraan sa ilalim ng aming Framework ng Kahandaan(magbubukas sa bagong window). Ang mga modelo ng gpt-oss ay may katulad na performance sa aming mga nangungunang modelo sa mga panloob na benchmark ng kaligtasan, na nag-aalok sa mga developer ng mga pamantayan sa kaligtasan na kapareho ng sa aming mga kamakailang pinagmamay-ariang modelo. Ibabahagi namin ang mga resulta ng gawaing iyon at higit pang detalye sa isang sanaysay tungkol sa pananaliksik(magbubukas sa bagong window) at sa card ng modelo(magbubukas sa bagong window). Ang aming pamamaraan ay sinuri ng mga panlabas na eksperto at nagsisilbi itong hakbang pasulong sa pagtatakda ng mga bagong pamantayan sa kaligtasan para sa mga open-weight na modelo.
Nakikipagtulungan din kami sa mga naunang partner tulad ng AI Sweden(magbubukas sa bagong window), Orange(magbubukas sa bagong window), at Snowflake(magbubukas sa bagong window) upang malaman ang tungkol sa mga paggamit sa totoong mundo ng aming mga bukas na modelo, mula sa pag-host sa mga modelong ito sa mga lugar para sa seguridad ng data hanggang sa pag-fine tune sa mga ito sa mga espesyal na dataset. Nasasabik kaming ibigay ang pinakamahuhusay na bukas na modelong ito upang bigyang-kakayahan ang lahat—mula sa mga indibidwal na developer, malalaking negosyo, hanggang sa mga gobyerno—upang patakbuhin at i-customize ang AI sa sariling imprastraktura ng mga ito. Kasama ng mga modelo na magagamit sa aming API, puwedeng piliin ng mga developer ang performance, gastos, at latency na kailangan nila para mapahusay ang mga workflow ng AI.
Sinanay ang mga modelong gpt-oss gamit ang aming mga pinaka-advanced na pamamaraan ng paunang pagsasanay at karagdagang pagsasanay, na may partikular na pagtuon sa pagdadahilan, kahusayan, at kakayahang magamit sa totoong mundo sa iba't ibang environment ng pag-deploy. Bagama't ginawa naming bukas sa publiko ang iba pang modelo kasama ang Whisper at CLIP, ang mga modelong gpt-oss ay ang aming mga unang open-weight na modelo ng wika mula noong GPT‑2[1].
Ang bawat modelo ay isang Transformer na gumagamit ng mixture-of-experts (MoE[2]) upang mabawasan ang bilang ng mga aktibong parameter na kailangan para iproseso ang input. Ina-activate ng gpt-oss-120b ang 5.1B parameter kada token, habang ina-activate ng gpt-oss-20b ang 3.6B. Ang mga modelo ay may kabuuang 117b at 21b parameter ayon sa pagkakabanggit. Gumagamit ang mga modelo ng mga nagsasalit-salit na siksik at lokal na naka-band na kaunting pattern ng atensyon na katulad ng sa GPT‑3[3]. Para sa kahusayan ng inference at memory, gumagamit din ang mga modelo ng nakapangkat na multi-query na atensyon, na may laki ng grupo na 8. Ginagamit namin ang Rotary Positional Embedding (RoPE[4]) para sa pag-encode ng posisyon, at native na sinusuportahan ang mga haba ng konteksto na hanggang 128k.
Modelo | Mga Layer | Kabuuang Bilang ng Parameter | Mga Aktibong Parameter Kada Token | Kabuuang Bilang ng Mga Eksperto | Mga Aktibong Eksperto Kada Token | Haba ng Konteksto |
gpt-oss-120b | 36 | 117B | 5.1B | 128 | 4 | 128k |
gpt-oss-20b | 24 | 21B | 3.6B | 32 | 4 | 128k |
Sinanay namin ang mga modelo sa isang dataset na karamihan ay nasa Ingles at teksto lang, na may pagtuon sa STEM, coding, at pangkalahatang kaalaman. Na-tokenize namin ang data gamit ang isang superset ng aming tokenizer na ginamit para sa OpenAI o4-mini at GPT‑4o: o200k_harmony, na inilalabas din namin bilang open-source ngayon.
Para sa higit pang impormasyon tungkol sa arkitektura at pagsasanay ng aming mga modelo, basahin ang card ng modelo(magbubukas sa bagong window).
Karagdagang sinanay ang mga modelo gamit ang katulad na proseso na ginamit para sa o4-mini, kasama ang isang yugto ng pinangangasiwaang pag-fine-tune at yugto ng high-compute na RL. Ang layunin namin ay ihanay ang mga modelo sa OpenAI Model Spec(magbubukas sa bagong window) at turuan itong gamitin ang CoT na pagdadahilan at paggamit ng tool bago ito magbigay ng sagot. Sa pamamagitan ng paggamit ng mga parehong pamamaraan tulad ng aming mga makabagong pinagmamay-ariang modelo ng pagdadahilan, nagpakita ang mga modelo ng mga pambihirang kakayahan pagkatapos ng karagdagang pagsasanay.
Katulad ng mga modelo ng pagdadahilan ng OpenAI o-series sa API, sinusuportahan ng dalawang open-weight na modelo ang tatlong pagsisikap sa pagdadahilan—mababa, katamtaman, at mataas—na tine-trade off ang latency at performance. Madaling maitatakda ng mga developer ang pagsisikap sa pagdadahilan gamit ang isang pangungusap sa mensahe ng system.
Sinuri namin ang gpt-oss-120b at gpt-oss-20b gamit ang mga karaniwang akademikong benchmark upang masukat ang mga kakayahan ng mga ito sa pag-code, pangkumpetisyong matematika, kalusugan, at paggamit ng agentic tool kumpara sa iba pang modelo ng pagdadahilan ng OpenAI kasama ang o3, o3‑mini, at o4-mini.
Mas mahusay ang performance ng gpt-oss-120b kaysa sa OpenAI o3‑mini at kapantay o nahigitan nito ang OpenAI o4-mini sa pangkumpetisyong pag-code (Codeforces), pangkalahatang paglutas ng problema (MMLU at HLE), at pag-call ng tool (TauBench). Bukod dito, mas mahusay pa ito kaysa sa o4-mini sa mga query na may kaugnayan sa kalusugan (HealthBench) at sa pangkumpetisyong matematika (AIME 2024 at 2025). Kapantay o nahigitan ng gpt-oss-20b ang OpenAI o3‑mini sa mga parehong pagsusuring ito, sa kabila ng maliit na sukat nito, at nahigitan pa ito sa pangkumpetisyong matematika at kalusugan.
Ang mga modelong gpt-oss ay hindi pinapalitan ang isang medikal na propesyonal at hindi ito nilalayon para sa pagsusuri o paggamot ng sakit
Mga halimbawang paglulunsad
Ang gpt-oss-120b ay kayang mabilis na pagsama-samahin ang pinakabagong impormasyon gamit ang isang tool sa pag-browse, kabilang ang pag-chain ng sampu-sampung sunod-sunod na call.
Nakita sa aming kamakailang pananaliksik na ang pagsubaybay sa CoT ng isang modelo ng pagdadahilan ay puwedeng makatulong sa pagtukoy ng maling gawi basta't hindi sinanay ang modelo nang may direktang pangangasiwa para sa pag-align ng CoT. Ganoon din(magbubukas sa bagong window) ang pananaw ng iba pang nasa industriya. Alinsunod sa aming mga prinsipyo mula nang ilunsad ang OpenAI o1‑preview, hindi kami naglagay ng anumang direktang pangangasiwa sa CoT para sa alinmang modelong GPT‑oss. Naniniwala kami na mahalaga ito upang masubaybayan ang maling gawi, panlilinlang, at maling paggamit ng modelo. Umaasa kami na sa pamamagitan ng paglalabas ng isang bukas na modelo na mayroong hindi pinangasiwaang chain of thought, mabibigyan ang mga developer at mananaliksik ng pagkakataon na magsaliksik at magpatupad ng kanilang mga sariling sistema ng pagsubaybay sa CoT.
Hindi dapat direktang ipakita ng mga developer ang mga CoT sa mga user sa kanilang mga application. Maaaring maglaman ang mga ito ng mga na-hallucinate o nakakapinsalang content, kasama ang pananalitang hindi sumasalamin sa mga pamantayang patakaran sa kaligtasan ng OpenAI, at maaaring may kasamang impormasyon na malinaw na hinihiling sa modelo na huwag isama sa panghuling output.
Ang gpt-oss-120b ay matatag na sumusunod sa mga tagubilin ng system sa output nito, ngunit madalas na tahasan itong susuway sa mga tagubilin sa CoT nito.
Ginagamit ng mga modelong gpt-oss ang aming mga makabagong diskarte para sa pagsasanay sa kaligtasan. Sa panahon ng paunang pagsasanay, na-filter out namin ang ilang partikular na nakakapinsalang data na may kaugnayan sa Chemical, Biological, Radiological, at Nuclear (CBRN). Sa panahon ng karagdagang pagsasanay, ginamit namin ang deliberative alignment at ang hierarchy ng pagtuturo(magbubukas sa bagong window) upang turuan ang modelo na tanggihan ang mga hindi ligtas na prompt at dumepensa laban sa mga prompt injection.
Kapag nailabas na ang isang open-weight na modelo, maaaring ma-fine tune ng mga adversary ang modelo para sa mga nakakapinsalang layunin. Direkta naming sinuri ang mga panganib na ito sa pamamagitan ng pag-fine tune sa modelo gamit ang dalubhasang data ng biology at cybersecurity, na gumagawa ng isang bersyon na partikular sa domain at hindi tumatanggi para sa bawat domain sa paraang maaaring gawin ng isang attacker. Pagkatapos, sinuri namin ang antas ng kakayahan ng mga modelo na ito sa pamamagitan ng panloob at panlabas na pagsubok. Ang pagsubok na ito, gaya ng nakadetalye sa aming kasamang kasulatan tungkol sa kaligtasan, ay nagpakita na, kahit na may matatag na fine-tuning na ginamit ang nangunguna sa larangan na stack ng pagsasanay ng OpenAI, hindi naabot ng mga modelong ito na mapaminsalang na-fine tune ang matataas na antas ng kakayahan ayon sa aming Framework ng Kahandaan. Ang mapaminsalang pamamaraan ng fine-tuning na ito ay sinuri ng tatlong hiwalay na grupo ng mga eksperto na nagbigay ng mga rekomendasyon upang mapabuti ang proseso ng pagsasanay at mga pagsusuri, at marami sa mga ito ay ipinatupad namin. Idinetalye namin ang mga rekomendasyong ito sa card ng modelo. Ang mga prosesong ito ay nagmamarka ng makabuluhang pagsulong para sa kaligtasan ng bukas na modelo. Ang mga natuklasan na ito ay nagbigay ng malinaw na batayan para aming desisyon na ilabas ang mga modelong gpt-oss. Umaasa kami na makakatulong ang mga modelong ito na mapabilis ang pagsasanay para sa kaligtasan at pananaliksik para sa pag-aayon sa buong industriya.
Para makatulong sa mas ligtas na open source ecosystem, nagho-host kami ng Red Teaming Challenge(magbubukas sa bagong window) para hikayatin ang mga mananaliksik, developer, at enthusiast mula sa buong mundo na tumulong sa pagtukoy ng mga bagong isyu sa kaligtasan. May pondo ang challenge na $500,000 na premyo na igagawad batay sa pagsusuri mula sa isang panel ng mga dalubhasang hukom mula sa OpenAI at iba pang nangungunang lab. Sa pagtatapos ng challenge, maglalathala kami ng ulat at gagawin naming open-source ang isang hanay ng data ng pagsusuri batay sa mga napatunayang natuklasan, upang makinabang kaagad ang mas malawak na komunidad. Matuto pa at lumahok dito(magbubukas sa bagong window).
Mada-download nang libre ang mga weight para sa parehong gpt-oss-120b at gpt-oss-20b sa Hugging Face at native nang naka-quantize ang mga ito sa MXFP4. Nagbibigay-daan ito para tumakbo ang modelong gpt-oss-120B nang hindi lalampas sa 80GB na memory, habang nangangailangan lang ng 16GB ang gpt-oss-20b.
Karagdagang sinanay ang mga modelo sa aming harmony prompt format(magbubukas sa bagong window), at mag-o-open source kami ng harmony renderer(magbubukas sa bagong window) sa Python at Rust upang mas mapadali ang paggamit nito. Maglalabas din kami ng mga sangguniang pagpapatupad para sa pagpapatakbo ng inference gamit ang PyTorch at sa Metal platform ng Apple, kasama ang isang koleksyon ng mga halimbawang tool para sa modelo.
Idinisenyo namin ang mga modelong ito upang maging flexible at madaling patakbuhin kahit saan—lokal man, sa device, o sa pamamagitan ng mga third party na provider ng inference. Para suportahan ito, nakipag-partner kami bago ang paglulunsad sa mga nangungunang platform ng pag-deploy tulad ng Azure, Hugging Face, vLLM, Ollama, llama.cpp, LM Studio, AWS, Fireworks, Together AI, Baseten, Databricks, Vercel, Cloudflare, at OpenRouter upang malawakang ma-access ng mga developer ang mga modelo. Sa panig ng hardware, nakipagtulungan kami sa mga nangunguna sa industriya kasama ang NVIDIA, AMD, Cerebras, at Groq upang matiyak ang pinakamahusay na performance sa iba't ibang system.
Bilang bahagi ng release ngayon, ihahatid din ng Microsoft ang mga bersyon ng modelong gpt-oss-20b na na-optimize para sa GPU sa mga Windows device. Pinapagana ng ONNX Runtime, sinusuportahan ng mga modelong ito ang lokal na inference at magagamit ang mga ito sa pamamagitan ng Foundry Local at AI Toolkit para sa VS Code, na nagpapadali para sa mga developer ng Windows na bumuo gamit ang mga bukas na modelo.
Para sa mga developer na gusto ng mga ganap na nako-customize na modelo na puwede nilang i-fine tune at i-deploy sa mga sarili nilang environment, napakainam ng gpt-oss. Para sa mga naghahanap ng multimodal na suporta, mga built-in na tool, at maayos na pag-integrate sa aming platform, ang mga modelong magagamit sa pamamagitan ng aming API platform ay nananatiling pinakamagandang opsyon. Patuloy kaming nakikinig nang mabuti sa feedback ng developer at maaari naming pag-isipan ang suporta ng API para sa gpt-oss sa hinaharap.
Kung gusto mong subukan ang mga modelo, pumunta sa aming open model playground(magbubukas sa bagong window). Para matuto pa tungkol sa kung paano gamitin ang mga modelo gamit ang iba't ibang provider ng ecosystem o kung paano i-fine tune ang mga modelo, tingnan ang aming mga gabay(magbubukas sa bagong window).
Ang paglalabas ng gpt-oss-120b at gpt-oss-20b ay isang makabuluhang hakbang pasulong para sa mga open-weight na modelo. Sa sukat ng mga ito, naghahatid ang mga modelong ito ng mga makabuluhang pagsulong sa mga kakayahan sa pagdadahilan at kaligtasan. Ang mga bukas na modelo ay umaakma sa aming mga hino-host na modelo, na nagbibigay sa mga developer ng mas malawak na hanay ng mga tool upang pabilisin ang nangungunang pananaliksik, itaguyod ang inobasyon, at bigyang-daan ang mas ligtas at mas transparent na pag-unlad ng AI sa iba't ibang sitwasyon ng paggamit.
Nababawasan din ng mga bukas na modelo na ito ang mga hadlang para sa mga umuusbong na merkado, sektor na may limitadong mapagkukunan, at mas maliliit na organisasyon na maaaring kulang sa badyet o flexibility upang gumamit ng mga pinagmamay-ariang modelo. Sa pamamagitan ng mahuhusay at naa-access na tool sa kanilang mga kamay, magagawa ng mga tao sa buong mundo na bumuo, mag-innovate, at gumawa ng mga bagong oportunidad para sa kanilang sarili at sa iba. Ang malawak na pag-access sa mahuhusay na open-weight na modelong ito na ginawa sa US ay tumutulong na palawakin ang mga demokratikong AI rail.
Ang isang malusog na ecosystem ng bukas na modelo ay isang dimensyon sa pagtulong na gawing malawakang naa-access at kapaki-pakinabang ang AI para sa lahat. Inaanyayahan namin ang mga developer at mananaliksik na gamitin ang mga modelong ito para mag-eksperimento, makipag-collaborate, at lampasan ang mga hangganan ng kung ano ang posible. Nasasabik kaming makita ang bubuuin ninyo.
May-akda
Mga Sipi
Mga Contributor
Zoran Martinovic, Zhuohan Li, Zhiqing Sun, Zach Johnson, Yu Yang, Yu Bai, Yang Song, Xin Wang, Wenting Zhan, Volodymyr Kyrylov, Vlad Fomenko, Tyler Bertao, Tong Mu, Timur Garipov, Tarun Gogineni, Suvansh Sanjeev, Steve Mostovoy, Song Mei, Shengjia Zhao, Sebastien Bubeck, Scott McKinney, Scott Lessans, Sandhini Agarwal, Sam Toizer, Sam Altman, Saachi Jain, Romain Huet, Rahul K. Arora, Philippe Tillet, Olivia Watkins, Nivedita Brett, Nikhil Vyas, Miles Wang, Michihiro Yasunaga, Michelle Pokrass, Mia Glaese, Max Schwarzer, Mark Chen, Mario Lezcano-Casado, Marat Dukhan, Lukas Gross, Ludovic Peran, Ludovic Peran, Lindsay McCallum, Lin Yang, Lily (Xiaoxuan) Liu, Leher Pathak, Lama Ahmad, Kristian Georgiev, Kristen Ying, Kimmy Richardson, Kevin Whinnery, Kevin Weil, Kevin Lu, Kevin Fives, Kendal Simon, Katia Gil Guzman, Karan Singhal, Karan Singhal, Kai Chen, Josh McGrath, Jordan Liss, Jongsoo Park, John Hallman, Johannes Heidecke, Jiancheng Liu, Ji Lin, Jason Kwon, Jason Ai, James Park Lennon, Jakub Pachocki, Jacob Huh, Jackie Hehir, Irina Kofman, Huida Qiu, Hongyu Ren, Harshit Sikchi, Hannah Wong, Haitang Hu, Haitang Hu, Haiming Bao, Hadi Salman, Guillaume Leclerc, Greg Brockman, Gideon Myles, Giambattista Parascandolo, Gaby Raila, Foivos Tsimpourlas, Filippo Raso, Eugene Brevdo, Eric Wallace, Enoch Cheung, Elizabeth Proehl, Elaine Ya Le, Edwin Arbus, Eddie Zhang, Dominik Kundel, Dmitry Pimenov, David Robinson, Dane Stuckey, Dana Palmie, Dan Cook, Cyril Zhang, Chris Lu, Chris Koch, Che Chang, Cedric Whitney, Casey Dvorak, Carolina Paz, Brian Zhang, Bowen Baker, Bob Rotsted, Boaz Barak, Ashley Pantuliano, Andy Applebaum, Amy Wendling, Ally Bennett, Alexander Neitz, Alex Paino, Alex Nichol, Alec Helyar, Aidan McLaughlin, Aidan Clark, Adam Goucher


