Predstavljamo gpt-oss
gpt-oss-120b i gpt-oss-20b pomiču granice modela zaključivanja s otvorenim parametrima
Objavljujemo gpt-oss-120b i gpt-oss-20b — dva najsuvremenija jezična modela otvorenih parametara koji pružaju snažne performanse u stvarnom svijetu po niskoj cijeni. Dostupni pod fleksibilnom licencom Apache 2.0, ovi modeli nadmašuju otvorene modele slične veličine u zadacima zaključivanja, pokazuju snažne mogućnosti korištenja alata i optimizirani su za učinkovitu implementaciju na potrošačkom hardveru. Obučeni su korištenjem mješavine učenja putem povratnih informacija i tehnika utemeljenih na najnaprednijim internim modelima OpenAI-ja, uključujući o3 i druge napredne sustave.
Model gpt-oss-120b postiže gotovo paritet s OpenAI o4-mini na ključnim mjerilima zaključivanja te učinkovito radi na jednom GPU-u od 80 GB. Model gpt-oss-20b daje slične rezultate kao OpenAI o3‑mini na uobičajenim mjerilima i može raditi na rubnim uređajima sa samo 16 GB memorije, što ga čini idealnim za slučajeve upotrebe na uređaju, lokalno zaključivanje ili brzu iteraciju bez skupe infrastrukture. Oba modela također snažno djeluju u korištenju alata, pozivanju funkcija s nekoliko primjera, CoT zaključivanju (kao što se vidi u rezultatima na Tau-Bench agentičkom evaluacijskom paketu) i HealthBenchu (čak nadmašuju vlasničke modele poput OpenAI o1 i GPT‑4o).
Ovi modeli kompatibilni su s našim API-jem za odgovore(otvara se u novom prozoru) i dizajnirani su za upotrebu unutar agentičkih tijekova rada s izvanrednim praćenjem uputa, korištenjem alata poput web pretraživanja ili izvršavanja Python koda te sposobnostima zaključivanja – uključujući mogućnost prilagodbe napora zaključivanja za zadatke koji ne zahtijevaju složeno zaključivanje i/ili ciljaju na vrlo nisko kašnjenje konačnih izlaza. Potpuno su prilagodljivi, pružaju puni lanac razmišljanja (CoT) i podržavaju strukturirane izlaze(otvara se u novom prozoru).
Sigurnost je temelj našeg pristupa prilikom objavljivanja svih naših modela, a od posebne je važnosti za otvorene modele. Osim što smo modele podvrgnuli sveobuhvatnoj obuci i procjeni sigurnosti, uveli smo dodatni sloj evaluacije testiranjem protivnički fino podešene verzije modela gpt-oss-120b u skladu s našim Okvirom pripravnosti(otvara se u novom prozoru). gpt-oss modeli djeluju usporedivo s našim naprednim modelima na internim sigurnosnim testovima, nudeći razvojnim inženjerima iste sigurnosne standarde kao i naši noviji vlasnički modeli. Dijelimo rezultate tog rada i više detalja u istraživačkom radu(otvara se u novom prozoru) i kartici modela(otvara se u novom prozoru). Našu metodologiju pregledali su vanjski stručnjaci i ona predstavlja korak naprijed u postavljanju novih sigurnosnih standarda za modele s otvorenim parametrima.
Također smo surađivali s ranim partnerima kao što su AI Sweden(otvara se u novom prozoru), Orange(otvara se u novom prozoru) i Snowflake(otvara se u novom prozoru) kako bismo saznali o stvarnim aplikacijama naših otvorenih modela, od hostinga ovih modela lokalno radi sigurnosti podataka do njihovog finog podešavanja na specijaliziranim skupovima podataka. Uzbuđeni smo što možemo pružiti ove najbolje u klasi otvorene modele kako bismo osnažili sve – od pojedinačnih razvojnih inženjera do velikih poduzeća i vlada – da pokreću i prilagođavaju umjetnu inteligenciju na vlastitoj infrastrukturi. U kombinaciji s modelima dostupnim u našem API-ju, razvojni inženjeri mogu odabrati performanse, troškove i kašnjenje koje su im potrebni za pokretanje AI tijekova rada.
Modeli gpt-oss obučeni su korištenjem naših najnaprednijih tehnika predobuke i postobuke, s posebnim naglaskom na zaključivanje, učinkovitost i upotrebljivost u stvarnom svijetu u širokom rasponu okruženja za implementaciju. Iako smo druge modele, uključujući Whisper i CLIP, učinili dostupnima otvoreno, gpt-oss modeli su naši prvi jezični modeli s otvorenim parametrima od modela GPT‑2[1].
Svaki model je transformator koji koristi mješavinu stručnjaka (MoE[2]) kako bi smanjio broj aktivnih parametara potrebnih za obradu upisa. gpt-oss-120b aktivira 5,1 milijardi parametara po tokenu, dok gpt-oss-20b aktivira 3,6 milijardi. Modeli imaju ukupno 117 i 21 milijardi parametara. Modeli koriste naizmjenične guste i lokalno povezane uzorke rijetke pažnje, slične modelu GPT‑3[3]. Za zaključivanje i učinkovitost memorije modeli također koriste pažnju s više upita grupiranu u skupine, s veličinom skupine od 8. Koristimo rotacijsko pozicijsko ugrađivanje (RoPE[4]) za pozicijsko kodiranje i izvorno pružamo podršku za duljine konteksta do 128k.
Model | Slojevi | Ukupni parametri | Aktivni parametri po tokenu | Totalni stručnjaci | Aktivni stručnjaci po tokenu | Duljina konteksta |
gpt-oss-120b | 36 | 117 mlrd. | 5,1 mlrd. | 128 | 4 | 128k |
gpt-oss-20b | 24 | 21 mlrd. | 3,6 mlrd. | 32 | 4 | 128k |
Modele smo obučili na pretežno engleskom tekstualnom skupu podataka s naglaskom na STEM, programiranje i opće znanje. Podatke smo tokenizirali koristeći superset našeg tokenizatora koji se koristi za OpenAI o4-mini i GPT‑4o: o200k_harmony, koji također danas otvaramo kao otvoreni kod.
Za više informacija o arhitekturi i obuci naših modela pročitajte karticu modela(otvara se u novom prozoru).
Modeli su naknadno obučeni koristeći sličan postupak kao za o4-mini, uključujući nadzirano fino ugađanje i fazu RL s visokim računalnim zahtjevima. Naš cilj bio je uskladiti modele sa Specifikacijama OpenAI modela(otvara se u novom prozoru) te ih naučiti primijeniti CoT zaključivanje i upotrebu alata prije nego što proizvedu svoj odgovor. Korištenjem istih tehnika kao i naši SoTA vlasnički modeli zaključivanja, modeli pokazuju izuzetne sposobnosti nakon dodatne obuke.
Slično modelima zaključivanja OpenAI o-serije u API-ju, dva modela s otvorenim parametrima imaju podršku za tri razine napora zaključivanja – nisku, srednju i visoku – koje balansiraju između kašnjenja i performansi. Razvojni inženjeri mogu jednostavno podesiti napor rasuđivanja jednom rečenicom u poruci sustava.
Procijenili smo gpt-oss-120b i gpt-oss-20b prema standardnim akademskim mjerilima kako bismo izmjerili njihove sposobnosti u kodiranju, natjecateljskoj matematici, zdravstvu i korištenju agentičkih alata u usporedbi s drugim OpenAI modelima zaključivanja, uključujući o3, o3‑mini i o4-mini.
gpt-oss-120b nadmašuje OpenAI o3‑mini i odgovara ili nadmašuje OpenAI o4-mini u natjecateljskom kodiranju (Codeforces), općem rješavanju problema (MMLU i HLE) i pozivanju alata (TauBench). Nadalje, radi čak i bolje od modela o4-mini na upitima vezanim za zdravlje (HealthBench) i natjecateljskoj matematici (AIME 2024. i 2025.). gpt-oss-20b odgovara ili nadmašuje OpenAI o3‑mini na istim evaluacijama, unatoč svojoj maloj veličini te ga čak nadmašuje u natjecateljskoj matematici i zdravlju.
gpt-oss modeli ne zamjenjuju medicinskog stručnjaka i nisu namijenjeni za dijagnozu ili liječenje bolesti
Primjeri uvođenja
gpt-oss-120b može brzo objediniti ažurirane informacije pomoću alata za pregledavanje, uključujući lančano povezivanje desetaka sljedećih poziva.
Naše nedavno istraživanje pokazalo je da praćenje CoT-a modela zaključivanja može biti korisno za otkrivanje lošeg ponašanja sve dok model nije obučen uz izravni nadzor za usklađivanje CoT-a. Ovu perspektivu također dijele(otvara se u novom prozoru) i drugi u industriji. U skladu s našim načelima od pokretanja OpenAI o1‑previewa, nismo stavili izravan nadzor na CoT ni za jedan gpt-oss model. Vjerujemo da je ovo ključno za praćenje lošeg ponašanja modela, obmane i zloupotrebe. Naša je nada da će objavljivanje otvorenog modela s nenadziranim lancem razmišljanja pružiti razvojnim inženjerima i istraživačima priliku da istraže i implementiraju vlastite sustave za praćenje CoT-a.
Razvojni inženjeri ne bi trebali izravno prikazivati CoT-ove korisnicima u svojim aplikacijama. Oni mogu sadržavati halucinirane ili štetne sadržaje, uključujući jezik koji ne odražava standardne sigurnosne politike OpenAI-a, te mogu uključivati informacije koje se od modela izričito traži da ne uključi u konačni izlaz.
gpt-oss-120b robusno slijedi upute sustava u svom izlazu, ali često izričito ne posluša upute u svom CoT-u.
Gpt-oss modeli koriste naše najnaprednije pristupe za obuku o sigurnosti. Tijekom obuke filtrirali smo određene štetne podatke koji se odnose na kemijske, biološke, radiološke i nuklearne informacije (CBRN). Tijekom postobuke koristili smo promišljeno usklađivanje i hijerarhiju instrukcija(otvara se u novom prozoru) kako bismo naučili model da odbija nesigurne upite i brani se od napada ubrizgavanjem upita.
Nakon što se objavi model otvorenih parametara, protivnici će možda moći fino podesiti model u zlonamjerne svrhe. Izravno smo procijenili te rizike preciznim podešavanjem modela na specijaliziranim podacima iz biologije i kibernetičke sigurnosti, stvarajući verziju specifičnu za domenu koja ne odbija za svaku domenu, na način na koji bi to mogao učiniti napadač. Zatim smo procijenili razinu sposobnosti ovih modela kroz interno i eksterno testiranje. Ovo testiranje, kako je detaljno opisano u našem pratećem sigurnosnom dokumentu, pokazalo je da, čak i uz robusno fino podešavanje koje je koristilo vodeći OpenAI-jev sustav za obuku, ovi zlonamjerno fino podešeni modeli nisu mogli doseći visoke razine sposobnosti prema našem Okviru spremnosti. Ovu zlonamjernu metodologiju finog podešavanja pregledale su tri neovisne stručne skupine koje su dale preporuke za poboljšanje procesa obuke i evaluacija, od kojih smo mnoge usvojili. Ove preporuke detaljno opisujemo u kartici modela. Ovi procesi označavaju značajan napredak u sigurnosti otvorenih modela. Ovi nalazi utjecali su na našu odluku da objavimo gpt-oss modele. Nadamo se da će ovi modeli pomoći ubrzati sigurnosnu obuku i istraživanje usklađivanja u cijeloj industriji.
Kako bismo doprinijeli sigurnijem ekosustavu otvorenog koda, organiziramo Red Teaming Challenge(otvara se u novom prozoru) kako bismo potaknuli istraživače, razvojne inženjere i entuzijaste iz cijelog svijeta da pomognu u prepoznavanju novih sigurnosnih problema. Izazov ima nagradni fond od 500.000 dolara koji će biti dodijeljen na temelju pregleda vijeća stručnih sudaca iz društva OpenAI i drugih vodećih laboratorija. Na kraju izazova, objavit ćemo izvještaj i otvoriti izvorni skup podataka za evaluaciju temeljen na potvrđenim nalazima, kako bi šira zajednica mogla odmah imati koristi. Saznajte više i sudjelujte ovdje(otvara se u novom prozoru).
Parametri za gpt-oss-120b i gpt-oss-20b slobodno su dostupni za preuzimanje na Hugging Faceu i dolaze izvorno kvantizirani u MXFP4. To omogućava da model gpt-oss-120B radi unutar 80 GB memorije, dok gpt-oss-20B zahtijeva samo 16 GB.
Modeli su naknadno obučeni na našem harmony formatu upita(otvara se u novom prozoru) i mi otvaramo kod harmony renderera(otvara se u novom prozoru) u Pythonu i Rustu kako bismo olakšali usvajanje. Također objavljujemo referentne implementacije za izvođenje inferencije s PyTorchom i na Appleovoj Metal platformi, zajedno sa zbirkom primjera alata za model.
Dizajnirali smo ove modele tako da budu fleksibilni i jednostavni za pokretanje bilo gdje — lokalno, na uređaju ili putem treće strane. Kako bismo to podržali, prije pokretanja smo se udružili s vodećim platformama za implementaciju kao što su Azure, Hugging Face, vLLM, Ollama, llama.cpp, LM Studio, AWS, Fireworks, Together AI, Baseten, Databricks, Vercel, Cloudflare i OpenRouter kako bi modeli postali široko dostupni razvojnim inženjerima. S hardverske strane, surađivali smo s vodećim tvrtkama u industriji, uključujući NVIDIA, AMD, Cerebras i Groq, kako bismo osigurali optimizirane performanse u različitim sustavima.
Kao dio današnjeg izdanja, Microsoft također donosi GPU-optimizirane verzije modela gpt-oss-20b na Windows uređaje. Pokretani ONNX Runtimeom, ovi modeli podržavaju lokalno zaključivanje i dostupni su putem Foundry Local i AI Toolkita za VS Code, što razvojnim inženjerima sustava Windows olakšava rad s otvorenim modelima.
Za razvojne inženjere koji žele potpuno prilagodljive modele koje mogu fino podesiti i implementirati u vlastitom okruženju gpt-oss je izvrstan odabir. Za one koji traže multimodalnu podršku, ugrađene alate i besprijekornu integraciju s našom platformom modeli dostupni putem naše API platforme ostaju najbolja opcija. Nastavljamo pažljivo slušati povratne informacije razvojnih inženjera i možda ćemo razmotriti API podršku za gtp-oss u budućnosti.
Ako želite isprobati modele, idite na naše Igralište za otvorene modele(otvara se u novom prozoru). Kako biste saznali više o tome kako koristiti modele s različitim pružateljima ekosustava ili kako fino podesiti modele, pogledajte naše vodiče(otvara se u novom prozoru).
Izdavanje modela gpt-oss-120b i gpt-oss-20b predstavlja značajan korak naprijed za modele s otvorenim parametrima. Unutar svoje veličine, ovi modeli donose značajan napredak u sposobnostima zaključivanja i sigurnosti. Otvoreni modeli nadopunjuju naše hostirane modele, pružajući razvojnim inženjerima širi raspon alata za ubrzavanje vodećih istraživanja, poticanje inovacija i omogućavaju sigurniji, transparentniji razvoj umjetne inteligencije u širokom rasponu slučajeva upotrebe.
Ovi otvoreni modeli također smanjuju prepreke za tržišta u nastajanju, sektore s ograničenim resursima i manje organizacije koje možda nemaju proračun ili fleksibilnost za usvajanje vlasničkih modela. S moćnim, pristupačnim alatima u svojim rukama, ljudi širom svijeta mogu graditi, inovirati i stvoriti nove prilike za sebe i druge. Širok pristup ovim sposobnim modelima otvorenih parametara stvorenim u SAD-u pomaže u širenju demokratskih tračnica umjetne inteligencije.
Zdrav ekosustav otvorenih modela jedna je dimenzija koja pomaže da umjetna inteligencija postane široko dostupna i korisna za sve. Pozivamo razvojne inženjere i istraživače da koriste ove modele za eksperimentiranje, suradnju i pomicanje granica onoga što je moguće. Radujemo se vidjeti što ćete izgraditi.
Autor
Citati
Suradnici
Zoran Martinovic, Zhuohan Li, Zhiqing Sun, Zach Johnson, Yu Yang, Yu Bai, Yang Song, Xin Wang, Wenting Zhan, Volodymyr Kyrylov, Vlad Fomenko, Tyler Bertao, Tong Mu, Timur Garipov, Tarun Gogineni, Suvansh Sanjeev, Steve Mostovoy, Song Mei, Shengjia Zhao, Sebastien Bubeck, Scott McKinney, Scott Lessans, Sandhini Agarwal, Sam Toizer, Sam Altman, Saachi Jain, Romain Huet, Rahul K. Arora, Philippe Tillet, Olivia Watkins, Nivedita Brett, Nikhil Vyas, Miles Wang, Michihiro Yasunaga, Michelle Pokrass, Mia Glaese, Max Schwarzer, Mark Chen, Mario Lezcano-Casado, Marat Dukhan, Lukas Gross, Ludovic Peran, Ludovic Peran, Lindsay McCallum, Lin Yang, Lily (Xiaoxuan) Liu, Leher Pathak, Lama Ahmad, Kristian Georgiev, Kristen Ying, Kimmy Richardson, Kevin Whinnery, Kevin Weil, Kevin Lu, Kevin Fives, Kendal Simon, Katia Gil Guzman, Karan Singhal, Karan Singhal, Kai Chen, Josh McGrath, Jordan Liss, Jongsoo Park, John Hallman, Johannes Heidecke, Jiancheng Liu, Ji Lin, Jason Kwon, Jason Ai, James Park Lennon, Jakub Pachocki, Jacob Huh, Jackie Hehir, Irina Kofman, Huida Qiu, Hongyu Ren, Harshit Sikchi, Hannah Wong, Haitang Hu, Haitang Hu, Haiming Bao, Hadi Salman, Guillaume Leclerc, Greg Brockman, Gideon Myles, Giambattista Parascandolo, Gaby Raila, Foivos Tsimpourlas, Filippo Raso, Eugene Brevdo, Eric Wallace, Enoch Cheung, Elizabeth Proehl, Elaine Ya Le, Edwin Arbus, Eddie Zhang, Dominik Kundel, Dmitry Pimenov, David Robinson, Dane Stuckey, Dana Palmie, Dan Cook, Cyril Zhang, Chris Lu, Chris Koch, Che Chang, Cedric Whitney, Casey Dvorak, Carolina Paz, Brian Zhang, Bowen Baker, Bob Rotsted, Boaz Barak, Ashley Pantuliano, Andy Applebaum, Amy Wendling, Ally Bennett, Alexander Neitz, Alex Paino, Alex Nichol, Alec Helyar, Aidan McLaughlin, Aidan Clark i Adam Goucher


