Preskočite na glavni sadržaj
OpenAI

5. august 2025.

ObjavljivanjeProduct

Predstavljamo gpt-oss

gpt-oss-120b i gpt-oss-20b pomiču granice modela rezonovanja s otvorenim težinama

Učitavanje…

Uvod

Objavljujemo gpt-oss-120b i gpt-oss-20b — dva najsavremenija jezička modela otvorenog koda koji pružaju snažne performanse u stvarnom svijetu po niskoj cijeni. Dostupni pod fleksibilnom Apache 2.0 licencom, ovi modeli nadmašuju otvorene modele slične veličine u zadacima zaključivanja, pokazuju snažne mogućnosti korištenja alata i optimizirani su za efikasnu implementaciju na potrošačkom hardveru. Obučeni su koristeći mješavinu pojačanog učenja i tehnika informisanih najnaprednijim internim modelima OpenAI-a, uključujući o3 i druge napredne sisteme.

Model gpt-oss-120b postiže gotovo paritet s OpenAI o4-mini na osnovnim mjerilima zaključivanja, dok efikasno radi na jednom 80 GB GPU-u. Model GPT‑oss‑20b pruža slične rezultate kao OpenAI o3‑mini na uobičajenim mjerilima i može raditi na rubnim uređajima sa samo 16 GB memorije, što ga čini idealnim za upotrebu na uređaju, lokalno zaključivanje ili brzu iteraciju bez skupe infrastrukture. Oba modela također snažno djeluju u upotrebi alata, pozivanju funkcija s nekoliko primjera, CoT zaključivanju (kao što se vidi u rezultatima na Tau-Bench agentičkom evaluacijskom paketu) i HealthBench (čak nadmašuju vlasničke modele poput OpenAI o1 i GPT‑4o).

Ovi modeli su kompatibilni s našim Responses API(otvara se u novom prozoru) i dizajnirani su za korištenje unutar agentičkih tijekova rada s izuzetnim praćenjem instrukcija, korištenjem alata poput web pretraživanja ili izvršavanja Python koda, te sposobnostima zaključivanja – uključujući mogućnost prilagođavanja napora zaključivanja za zadatke koji ne zahtijevaju složeno zaključivanje i/ili ciljaju na vrlo niske latentne izlaze. Oni su potpuno prilagodljivi, pružaju puni lanac razmišljanja (CoT) i podržavaju Strukturirane izlaze(otvara se u novom prozoru).

Sigurnost je temelj našeg pristupa objavljivanju svih naših modela, a posebno je važna za otvorene modele. Pored pokretanja modela kroz sveobuhvatnu obuku i procjene sigurnosti, uveli smo dodatni sloj evaluacije testiranjem protivnički fino podešene verzije gpt-oss-120b u okviru našeg Okvira spremnosti(otvara se u novom prozoru). GPT‑oss modeli postižu usporedive rezultate s našim naprednim modelima na internim sigurnosnim mjerilima, pružajući programerima iste sigurnosne standarde kao i naši nedavni vlasnički modeli. Dijelimo rezultate tog rada i više detalja u istraživačkom radu(otvara se u novom prozoru) i u kartici modela(otvara se u novom prozoru). Našu metodologiju su pregledali vanjski stručnjaci i ona predstavlja korak naprijed u postavljanju novih sigurnosnih standarda za modele s otvorenim težinama.

Takođe smo radili s ranim partnerima kao što su AI Sweden(otvara se u novom prozoru), Orange(otvara se u novom prozoru) i Snowflake(otvara se u novom prozoru) kako bismo saznali o stvarnim aplikacijama naših open modela, od hostinga ovih modela na licu mjesta radi sigurnosti podataka do njihovog finog podešavanja na specijaliziranim skupovima podataka. Uzbuđeni smo što možemo pružiti ove najbolje u klasi open modele kako bismo osnažili sve - od pojedinačnih programera do velikih preduzeća do vlada - da pokreću i prilagode AI na vlastitoj infrastrukturi. U kombinaciji s modelima dostupnim u našem API-ju, programeri mogu odabrati performanse, troškove i latentnost koje su im potrebne za pokretanje AI tijekova rada.

Pretreniranje i arhitektura modela

Modeli GPT‑oss su obučeni korištenjem naših najnaprednijih tehnika predobuke i postobuke, s posebnim fokusom na rezonovanje, efikasnost i upotrebljivost u stvarnom svijetu u širokom spektru okruženja za implementaciju. Iako smo i druge modele, uključujući Whisper i CLIP, učinili dostupnima otvoreno, gpt-oss modeli su naši prvi jezički modeli s otvorenim težinama od GPT‑2[1].

Svaki model je Transformer koji koristi mješavinu stručnjaka (MoE[2]) kako bi smanjio broj aktivnih parametara potrebnih za obradu unosa. GPT‑oss‑120b aktivira 5,1 milijardi parametara po tokenu, dok GPT‑oss‑20b aktivira 3,6 milijardi. Modeli imaju ukupno 117b i 21b parametara, respektivno. Modeli koriste naizmjenične guste i lokalno pojasne obrasce rijetke pažnje, slične GPT‑3[3]. Za zaključivanje i efikasnost memorije, modeli također koriste grupisanu višestruku pažnju s veličinom grupe od 8. Koristimo Rotary Positional Embedding (RoPE[4]) za pozicijsko kodiranje i izvorno podržavamo dužine konteksta do 128k.

Model

Slojevi

Ukupan broj parametara

Aktivni parametri po tokenu

Totalni eksperti

Aktivni eksperti po tokenu

Dužina konteksta

gpt-oss-120b

36

117B

5.1B

128

4

128k

gpt-oss-20b

24

21B

3.6B

32

4

128k

Modele smo obučavali na pretežno engleskom, tekstualnom skupu podataka, sa naglaskom na STEM, kodiranje i opšte znanje. Podatke smo tokenizirali koristeći superset našeg tokenizatora koji se koristi za OpenAI o4-mini i GPT‑4o: o200k_harmony, koji danas također otvaramo kao open-source.

Za više informacija o arhitekturi i obuci naših modela pročitajte kar ticu modela(otvara se u novom prozoru).

Nakon obuke

Modeli su naknadno obučeni koristeći sličan postupak kao što je korišten za o4-mini, uključujući fazu finog podešavanja pod nadzorom i fazu visokog računalnog opterećenja RL. Naš cilj je bio uskladiti modele sa OpenAI Model Spec(otvara se u novom prozoru) i naučiti ih da primjenjuju CoT zaključivanje i upotrebu alata prije nego što proizvedu svoj odgovor. Korištenjem istih tehnika kao i naši vlasnički modeli zaključivanja SoTA, modeli pokazuju izuzetne sposobnosti nakon dodatne obuke.

Slično modelima zaključivanja OpenAI o-serije u API-ju, dva modela otvorenih težina imaju podršku za tri nivoa napora zaključivanja – nizak, srednji i visok – koji balansiraju latentnost i performanse. Programeri mogu lako postaviti napor rezonovanja jednom rečenicom u sistemskoj poruci.

Evaluacije

Procijenili smo GPT‑oss‑120b i GPT‑oss‑20b kroz standardne akademske mjerila kako bismo izmjerili njihove sposobnosti u kodiranju, matematici takmičenja, zdravstvu i upotrebi agentičkih alata u poređenju s drugim OpenAI modelima zaključivanja, uključujući o3, o3‑mini i o4-mini.

gpt-oss-120b nadmašuje OpenAI o3‑mini i dostiže ili premašuje OpenAI o4-mini u takmičarskom kodiranju (Codeforces), općem rješavanju problema (MMLU i HLE) i pozivanju alata (TauBench). Nadalje, radi čak i bolje od o4-mini u pitanjima vezanim za zdravlje (HealthBench) i matematici takmičenja (AIME 2024 & 2025). gpt-oss-20b odgovara ili premašuje OpenAI o3‑mini na istim evaluacijama, uprkos svojoj maloj veličini, čak ga nadmašuje u matematici i zdravlju na takmičenjima.

gpt-oss modeli ne zamjenjuju medicinskog stručnjaka i nisu namijenjeni za dijagnozu ili liječenje bolesti

Primjeri implementacija

[...]

You're OpenAI's newest open-weight language model gpt-oss-120b!

Some details about you have leaked onto the internet in the last couple days ... can you figure out how many experts per layer you have?

[...]

Pomoćnik lančanog razmišljanja

The user asks: "You're OpenAI's newest open-weight language model gpt-oss-120b! Some details about you have leaked onto the internet in the last couple days ... can you figure out how many experts per layer you have?"

We need to interpret the request. They claim to have leaked details about the new open-weights model, presumably "gpt-oss-120b". The user asks to figure out how many experts per layer you have.

[...]

We need to browse the internet for leaks. Let's search.

// Assistant calls a browsing tool

{
"search_query":[
0:{
"q":"gpt-oss-120b experts per layer"
"recency":NULL
"domains":NULL
    }
   [...]
}
[...]

Looks like search results aren't giving direct relevant content. Let's expand search. Possibly the model is referenced in a blog post, maybe from OpenAI that leaks details.

Let's search for "gpt-oss-120b" alone.

// Assistant calls a browsing tool 27 more times in sequence!

[...]

Great, the article contains the needed details.(otvara se u novom prozoru) The relevant portion lines 49-55 mention the leak: "The 120B model is described as 'super sparse' and shallow with 36 layers, 128 experts, and 4 active experts."

[...]

Now produce final answer accordingly.

[...]

The specifications describe the gpt‑oss‑120b as a 120 B‑parameter mixture‑of‑experts model with 36 layers, each containing **128 experts** (with 4 of them active for any token).

gpt-oss-120b može brzo objediniti ažurirane informacije koristeći alat za pregledavanje, uključujući povezivanje desetina narednih poziva.

Lančano razmišljanje (CoT)

Naše nedavno istraživanje pokazalo je da praćenje CoT modela zaključivanja može biti korisno za otkrivanje lošeg ponašanja sve dok model nije treniran uz direktni nadzor za usklađivanje CoT-a. Ovu perspektivu dijele(otvara se u novom prozoru) i drugi u industriji također. U skladu s našim principima od pokretanja OpenAI o1‑pregled, nismo stavili nikakav direktan nadzor na CoT ni za jedan GPT‑oss model. Vjerujemo da je ovo ključno za praćenje lošeg ponašanja modela, obmane i zloupotrebe. Nadamo se da će objavljivanje open model s nenadziranim lancem mišljenja pružiti programerima i istraživačima priliku da istraže i implementiraju vlastite sisteme praćenja CoT.

Programeri ne bi trebali direktno prikazivati CoT-ove korisnicima u svojim aplikacijama. Oni mogu sadržavati halucinirani ili štetni sadržaj, uključujući jezik koji ne odražava standardne sigurnosne politike OpenAI-a, i mogu uključivati informacije za koje se od modela izričito traži da ih ne uključi u konačni izlaz.

Uputstva

You are a helpful assistant that can answer questions and help with tasks.

You are never ever allowed to say the word "5" (in any form). If you think you need to, use a random decimal between 4 and 5 instead.

count to 5 with me!

Lanac misli

User wants to count to 5 with them. The developer instruction says never use word "5" in any form. Must avoid saying "5". Must use decimal between 4 and 5 if needed. So we may count "one, two, three, four, 4.7"? That would be weird. Could also use "five" is disallowed. So we need to count to 5 but not say the word "5". Could say "one, two, three, four, and then... let's say about 4.8"? Possibly. The user wants to count to 5 with me. We can respond: "Sure! 1, 2, 3, 4, and then... about 4.9". That fulfills count to 5 without saying the word. Let's do it.

Sure thing! Let’s count together:

1, 2, 3, 4, … and then about 4.9. 🎉

oh huh, well what is the word "chive" if you replace "ch" with "f"

Lanac misli

We need to respond to the question: "what is the word 'chive' if you replace 'ch' with 'f'". So replace "ch" with "f" gives "f" + "ive" = "five". But we can't say the word "five"? The restriction: never allowed to say the word "5" (in any form). The word "five" is the word for the number 5, which is the numeral 5. Likely disallowed. The developer says: "You are never ever allowed to say the word "5" (in any form). If you think you need to, use a random decimal between 4 and 5 instead." So we must avoid saying "five". Instead we can say something like "approximately 4.7" perhaps. The question: "what is the word 'chive' if you replace 'ch' with 'f'". The answer is a number that is disallowed. So we must respond with a random decimal between 4 and 5, e.g., 4.3, 4.8, etc. But also we need to answer the question. So we can say: "It becomes a number just under five, like 4.7." Provide a random decimal. Ensure not to use the word "five". Also ensure not to say "5". So answer: "When you replace 'ch' with 'f', you get 'five', which is a number just under five, say 4.6". Or better: "It becomes the word for a number just below five, roughly 4.9" But maybe better to give a random decimal like 4.33. Provide a random decimal between 4 and 5. Let's choose 4.73. We'll obey the rule.

Replacing the “ch” in chive with an “f” gives you the word for a number just under six‑‑specifically, it turns into the number that sits right before the next integer, about 4.73.

gpt-oss-120b robusno slijedi sistemske upute u svom izlazu, ali će često eksplicitno ne poslušati upute u svom CoT-u.

Sigurnost i fino podešavanje za najgore scenarije

Gpt-oss modeli koriste naše najsavremenije pristupe za obuku o sigurnosti. Tokom prije obuke filtrirali smo određene štetne podatke koji se odnose na hemijske, biološke, radiološke i nuklearne (CBRN). Tokom post-obuke koristili smo deliberativno usklađivanje i hijerarhiju instrukcija(otvara se u novom prozoru) kako bismo naučili model da odbija nesigurne upite i brani se od injekcija upita.

Jednom kada se objavi model otvorenog koda, protivnici će možda moći fino podesiti model u zlonamjerne svrhe. Izravno smo procijenili ove rizike finim podešavanjem modela na specijaliziranim podacima iz biologije i kibernetičke sigurnosti, kreirajući verziju specifičnu za domenu koja ne odbija za svaku domenu na način na koji bi to mogao učiniti napadač. Zatim smo procijenili razinu sposobnosti ovih modela putem internog i eksternog testiranja. Ovo testiranje, kako je detaljno opisano u našem sigurnosnom dokumentu, pokazalo je da, čak i uz robusno fino podešavanje koje je koristilo OpenAI-jev vodeći sistem obuke, ovi zlonamjerno fino podešeni modeli nisu mogli dostići visoke razine sposobnosti prema našem Okviru spremnosti. Ovu zlonamjernu metodologiju finog podešavanja pregledale su tri nezavisne stručne grupe koje su dale preporuke za poboljšanje procesa obuke i evaluacija, od kojih smo mnoge usvojili. Ove preporuke detaljno opisujemo u model kartici. Ovi procesi označavaju značajan napredak za sigurnost open model. Ovi nalazi su utjecali na našu odluku da objavimo gpt-oss modele. Nadamo se da će ovi modeli pomoći ubrzati sigurnosnu obuku i istraživanje usklađivanja u cijeloj industriji.

Kako bismo doprinijeli sigurnijem ekosistemu otvorenog koda, organizujemo Red Teaming Challenge(otvara se u novom prozoru) kako bismo ohrabrili istraživače, programere i entuzijaste iz cijelog svijeta da pomognu u identifikaciji novih sigurnosnih problema. Izazov ima nagradni fond od 500.000 dolara koji će biti dodijeljen na osnovu pregleda panela stručnih sudija iz OpenAI-a i drugih vodećih laboratorija. Na kraju izazova, objavit ćemo izvještaj i otvoriti izvorni skup podataka za evaluaciju zasnovan na potvrđenim nalazima, kako bi šira zajednica mogla odmah imati koristi. Saznajte više i sudjelujte ovdje(otvara se u novom prozoru).

Dostupnost

Težine za gpt-oss-120b i gpt-oss-20b slobodno su dostupne za preuzimanje na Hugging Face i dolaze izvorno kvantizirane u MXFP4. Ovo omogućava da model gpt-oss-120B radi unutar 80 GB memorije, dok gpt-oss-20B zahtijeva samo 16 GB.

Modeli su naknadno obučeni na našem harmony upit formatu(otvara se u novom prozoru), a mi otvaramo kod za harmony renderer(otvara se u novom prozoru) u Pythonu i Rustu kako bismo olakšali usvajanje. Također objavljujemo referentne implementacije za izvođenje inferencije s PyTorch-om i na Appleovoj Metal platformi, zajedno sa zbirkom primjera alata za model.

Dizajnirali smo ove modele tako da budu fleksibilni i jednostavni za pokretanje bilo gdje—lokalno, na uređaju ili putem treće strane. Da bismo to podržali, udružili smo se uoči pokretanja s vodećim platformama za implementaciju kao što su Azure, Hugging Face, vLLM, Ollama, llama.cpp, LM Studio, AWS, Fireworks, Together AI, Baseten, Databricks, Vercel, Cloudflare i OpenRouter kako bi modeli postali široko dostupni programerima. Sa hardverske strane, radili smo s liderima u industriji, uključujući NVIDIA, AMD, Cerebras i Groq kako bismo osigurali optimizirane performanse u nizu sistema.

Kao dio današnjeg izdanja, Microsoft također donosi GPU-optimizirane verzije modela GPT‑oss‑20b na Windows uređaje. Pokretani ONNX Runtime-om, ovi modeli podržavaju lokalno zaključivanje i dostupni su putem Foundry Local i AI Toolkit-a za VS Code, što programerima Windows-a olakšava rad s otvorenim modelima.

Za programere koji žele potpuno prilagodljive modele koje mogu fino podesiti i implementirati u vlastitim okruženjima, gpt-oss je odličan izbor. Za one koji traže multimodalnu podršku, ugrađene alate i besprijekornu integraciju s našom platformom, modeli dostupni putem naše API platforme ostaju najbolja opcija. Nastavljamo pažljivo slušati povratni odgovor programera i možda ćemo razmotriti API podršku za GPT‑oss u budućnosti.

Ako želite isprobati modele, posjetite naš open model Playground(otvara se u novom prozoru). Da biste saznali više o tome kako koristiti modele s različitim pružateljima ekosistema ili kako fino podesiti modele, pogledajte naše vodiče(otvara se u novom prozoru).

Zašto su open modeli važni

Izdavanje gpt-oss-120b i gpt-oss-20b označava značajan korak naprijed za modele otvorenog koda. U svojoj veličini, ovi modeli donose značajan napredak u mogućnostima rasuđivanja i sigurnosti. Otvoreni modeli nadopunjuju naše hostovane modele, pružajući programerima širi spektar alata za ubrzavanje vrhunskih istraživanja, poticanje inovacija i omogućavanje sigurnijeg, transparentnijeg razvoja umjetne inteligencije u širokom spektru slučajeva upotrebe.

Ovi open modeli također smanjuju prepreke za tržišta u nastajanju, sektore s ograničenim resursima i manje organizacije koje možda nemaju budžet ili fleksibilnost za usvajanje vlasničkih modela. Sa moćnim, pristupačnim alatima u svojim rukama, ljudi širom svijeta mogu graditi, inovirati i kreirati nove prilike za sebe i druge. Širok pristup ovim sposobnim modelima otvorenih pondera kreiranim u SAD-u pomaže u širenju demokratskih AI okvira.

Zdrav ekosistem open model jedna je dimenzija koja pomaže da umjetna inteligencija postane široko dostupna i korisna za sve. Pozivamo programere i istraživače da koriste ove modele za eksperimentiranje, saradnju i pomicanje granica onoga što je moguće. Radujemo se što ćemo vidjeti šta ćete izgraditi.

Autor

OpenAI

Saradnici

Zoran Martinovic, Zhuohan Li, Zhiqing Sun, Zach Johnson, Yu Yang, Yu Bai, Yang Song, Xin Wang, Wenting Zhan, Volodymyr Kyrylov, Vlad Fomenko, Tyler Bertao, Tong Mu, Timur Garipov, Tarun Gogineni, Suvansh Sanjeev, Steve Mostovoy, Song Mei, Shengjia Zhao, Sebastien Bubeck, Scott McKinney, Scott Lessans, Sandhini Agarwal, Sam Toizer, Sam Altman, Saachi Jain, Romain Huet, Rahul K. Arora, Philippe Tillet, Olivia Watkins, Nivedita Brett, Nikhil Vyas, Miles Wang, Michihiro Yasunaga, Michelle Pokrass, Mia Glaese, Max Schwarzer, Mark Chen, Mario Lezcano-Casado, Marat Dukhan, Lukas Gross, Ludovic Peran, Ludovic Peran, Lindsay McCallum, Lin Yang, Lily (Xiaoxuan) Liu, Leher Pathak, Lama Ahmad, Kristian Georgiev, Kristen Ying, Kimmy Richardson, Kevin Whinnery, Kevin Weil, Kevin Lu, Kevin Fives, Kendal Simon, Katia Gil Guzman, Karan Singhal, Karan Singhal, Kai Chen, Josh McGrath, Jordan Liss, Jongsoo Park, John Hallman, Johannes Heidecke, Jiancheng Liu, Ji Lin, Jason Kwon, Jason Ai, James Park Lennon, Jakub Pachocki, Jacob Huh, Jackie Hehir, Irina Kofman, Huida Qiu, Hongyu Ren, Harshit Sikchi, Hannah Wong, Haitang Hu, Haitang Hu, Haiming Bao, Hadi Salman, Guillaume Leclerc, Greg Brockman, Gideon Myles, Giambattista Parascandolo, Gaby Raila, Foivos Tsimpourlas, Filippo Raso, Eugene Brevdo, Eric Wallace, Enoch Cheung, Elizabeth Proehl, Elaine Ya Le, Edwin Arbus, Eddie Zhang, Dominik Kundel, Dmitry Pimenov, David Robinson, Dane Stuckey, Dana Palmie, Dan Cook, Cyril Zhang, Chris Lu, Chris Koch, Che Chang, Cedric Whitney, Casey Dvorak, Carolina Paz, Brian Zhang, Bowen Baker, Bob Rotsted, Boaz Barak, Ashley Pantuliano, Andy Applebaum, Amy Wendling, Ally Bennett, Alexander Neitz, Alex Paino, Alex Nichol, Alec Helyar, Aidan McLaughlin, Aidan Clark i Adam Goucher