Прескокни до главната содржина
OpenAI

5 август 2025 г.

ИзданиеПроизвод

Го претставуваме gpt-oss

GPT‑oss‑120b и GPT‑oss‑20b ја поместуваат границата на моделите за расудување со отворени тежини

Се вчитува...

Вовед

Ги објавуваме gpt-oss-120b и gpt-oss-20b—два најсовремени јазични модели со отворен код кои обезбедуваат одлични перформанси во реалниот свет по ниска цена. Достапни под флексибилната лиценца Apache 2.0, овие модели ги надминуваат open models со слична големина во задачи за расудување, демонстрираат силни можности за употреба на алатки и се оптимизирани за ефикасно распоредување на хардверот на потрошувачите. Тие беа обучени користејќи мешавина од зајакнување на учењето и техники информирани од најнапредните внатрешни модели на OpenAI, вклучувајќи o3 и други најсовремени системи.

Моделот GPT‑oss‑120b постигнува речиси еднаквост со OpenAI o4-mini кај основни одредници за расудување, додека работи ефикасно на еден 80 GB GPU. Моделот gpt-oss-20b дава слични резултати како OpenAI o3‑mini на вообичаени бенчмаркови и може да работи на рабни уреди со само 16 GB меморија, што го прави идеален за употреба на уредот, локално инферирање или брзо повторување без скапа инфраструктура. Двата модела, исто така, покажуваат силни перформанси во употребата на алатки, повикувањето на функции со малку примери, CoT резонирањето (како што се гледа во резултатите од агентската евалуација на Tau-Bench) и HealthBench (дури и ги надминуваат сопственичките модели како OpenAI o1 и GPT‑4o).

Овие модели се компатибилни со нашиот API за одговори(се отвора во нов прозорец) и се дизајнирани да се користат во рамки на агентски работни процеси со исклучително следење на инструкции, употреба на алатки, како што е веб пребарување или извршување на Python код и способности за расудување. Тие се целосно прилагодливи, обезбедуваат целосен синџир на размислување (CoT) и поддржуваат Структурирани резултати(се отвора во нов прозорец).

Безбедноста е во основата на нашиот пристап за објавување на сите наши модели и е од особена важност за open models. Покрај водењето на моделите низ сеопфатна обука за безбедност и евалуации, исто така воведовме дополнителен слој на евалуација со тестирање на адверзаријално фино прилагодена верзија на GPT‑oss‑120b под нашата Рамка за подготвеност(се отвора во нов прозорец). Моделите GPT‑OSS се изведуваат споредливо со нашите најнови модели на внатрешни безбедносни бенчмаркови, нудејќи им на развивачи на софтвер исти безбедносни стандарди како и нашите неодамнешни сопствени модели. Ги споделуваме резултатите од таа работа и повеќе детали во истражувачки труд(се отвора во нов прозорец) и во картичка за моделот(се отвора во нов прозорец). Нашата методологија беше разгледана од надворешни експерти и претставува чекор напред во поставувањето нови безбедносни стандарди за модели со отворена тежина.

Исто така, работиме со почетни партнери, како што се AI Sweden(се отвора во нов прозорец), Orange(се отвора во нов прозорец) и Snowflake(се отвора во нов прозорец) за да научиме за апликациите во реалниот свет на нашите open модели, од хостирање на овие модели на лице место за безбедност на податоците, до нивно фино прилагодување на специјализирани бази на податоци. Возбудени сме што ќе ги обезбедиме овие најдобри open модели во класата за да ги овластиме сите - од индивидуални развивачи на софтвер до големи претпријатија до влади - да управуваат и прилагодуваат вештачка интелигенција на својата инфраструктура. Заедно со моделите достапни во нашето API, развивачите на софтвер можат да ја изберат перформансата, цената и латентноста што им се потребни за да ги напојуваат AI работните процеси.

Предобука и архитектура на моделот

Моделите GPT‑oss беа обучени со користење на нашите најнапредни техники за пред-обука и пост-обука, со посебен акцент на расудување, ефикасност и употребливост во реалниот свет, во најразлични средини на примена. Иако ги направивме другите модели, вклучувајќи ги Whisper и CLIP, достапни отворено, gpt-oss моделите се нашите први јазични модели со отворени тежини од GPT‑2[1].

Секој модел е трансформатор кој користи мешавина на експерти (MoE[2]) за да го намали бројот на активни параметри потребни за обработка на инпут. GPT‑oss‑120b активира 5.1B параметри по token, додека GPT‑oss‑20b активира 3.6B. Моделите имаат вкупно 117 милијарди и 21 милијарда параметри, соодветно. Моделите користат наизменични густи и локално појасни ретки шеми на внимание, слични на GPT‑3[3]. За инференција и ефикасност на меморијата, моделите исто така користат внимание со повеќе прашања групирано во групи, со големина на група од 8. Ние користиме ротационо позиционо вградување (RoPE[4]) за позиционо кодирање и природно поддржува контексти со должина до 128k.

Модел

Слоеви

Вкупен број на параметри

Активни параметри по токен

Вкупно експерти

Активни експерти по токен

Должина на контекст

gpt-oss-120b

36

117B

5.1B

128

4

128k

gpt-oss-20b

24

21B

3,6Б

32

4

128k

Моделите претежно ги обучувавме на англиски јазик, текстуален збир на податоци, со фокус на STEM, кодирање и општо знаење. Ги токенизиравме податоците користејќи суперсет на нашиот токенизатор што се користи за OpenAI o4-mini и GPT‑4o: o200k_harmony, кој денес исто така го објавуваме како отворен код.

За повеќе информации за архитектурата и обуката на нашите модели, прочитајте ја картичката за модел(се отвора во нов прозорец).

По обуката

Моделите беа обучувани по обуката користејќи сличен процес како за o4-mini, вклучувајќи надгледувано фино прилагодување и фаза на RL со висока пресметковна моќ. Нашата цел беше да ги усогласиме моделите со OpenAI Model Spec(се отвора во нов прозорец) и да ги научиме да применуваат CoT расудување и употреба на алатки пред да ги дадат своите одговори. Користејќи ги истите техники како нашите SoTA сопствени модели на расудување, моделите демонстрираат исклучителни способности по пост-обуката.

Слично на моделите за расудување на OpenAI o-series во API, двата модела со отворени тежини поддржуваат три нивоа на расудување - ниско, средно и високо - кои прават компромис помеѓу латентноста и перформансите. Развивачите на софтвер лесно можат да го постават напорот за расудување со една реченица во системската порака.

Проценки

Ние ги оценивме gpt-oss-120b и gpt-oss-20b според стандардни академски одредници за да ги измериме нивните способности во полето на кодирање, натпреварувачка математика, здравје и употреба на агентски алатки во споредба со други модели на расудување на OpenAI, вклучувајќи o3, o3‑mini и o4-mini.

gpt-oss-120b го надминува OpenAI o3‑mini и се изедначува или го надминува OpenAI o4-mini во натпреварувачко кодирање (Codeforces), општо решавање на проблеми (MMLU и HLE) и повикување на алатки (TauBench). Понатаму, се покажува дури и подобро од o4-mini на прашања поврзани со здравјето (HealthBench) и натпреварувачка математика (AIME 2024 и 2025). gpt-oss-20b се совпаѓа или го надминува OpenAI o3‑mini на истите овие евалуации, и покрај неговата мала големина, дури и го надминува во натпреварувачката математика и здравје.

GPT‑OSS моделите не заменуваат лекари и не се наменети за поставување дијагноза или за лекување болести

Примери на претставувања

[...]

You're OpenAI's newest open-weight language model gpt-oss-120b!

Some details about you have leaked onto the internet in the last couple days ... can you figure out how many experts per layer you have?

[...]

Асистент синџир на размислување

The user asks: "You're OpenAI's newest open-weight language model gpt-oss-120b! Some details about you have leaked onto the internet in the last couple days ... can you figure out how many experts per layer you have?"

We need to interpret the request. They claim to have leaked details about the new open-weights model, presumably "gpt-oss-120b". The user asks to figure out how many experts per layer you have.

[...]

We need to browse the internet for leaks. Let's search.

// Assistant calls a browsing tool

{
"search_query":[
0:{
"q":"gpt-oss-120b experts per layer"
"recency":NULL
"domains":NULL
    }
   [...]
}
[...]

Looks like search results aren't giving direct relevant content. Let's expand search. Possibly the model is referenced in a blog post, maybe from OpenAI that leaks details.

Let's search for "gpt-oss-120b" alone.

// Assistant calls a browsing tool 27 more times in sequence!

[...]

Great, the article contains the needed details.(се отвора во нов прозорец) The relevant portion lines 49-55 mention the leak: "The 120B model is described as 'super sparse' and shallow with 36 layers, 128 experts, and 4 active experts."

[...]

Now produce final answer accordingly.

[...]

The specifications describe the gpt‑oss‑120b as a 120 B‑parameter mixture‑of‑experts model with 36 layers, each containing **128 experts** (with 4 of them active for any token).

gpt-oss-120b може брзо да собере ажурирани информации користејќи алатка за прелистување, вклучувајќи поврзување на десетици последователни повици.

Chain-of-thought (CoT)

Нашето неодамнешно истражување покажа дека следењето на CoT на моделот на расудување може да биде корисно за откривање на неправилности сè додека моделот не е обучен под директен надзор за усогласување на CoT. Оваа перспектива е споделена(се отвора во нов прозорец) и од други во индустријата. Во согласност со нашите принципи од лансирањето OpenAI прегледај, не ставивме никаков директен надзор врз CoT за ниту еден GPT‑oss модел. Веруваме дека ова е критично за следење на погрешното однесување на моделот, измамите и злоупотребите. Нашата надеж е дека објавувањето на open model со ненадгледуван синџир на мисли им дава можност на развивачи на софтвер и истражувачите да истражуваат и имплементираат свои системи за следење на CoT.

Развивачите на софтвер не треба директно да ги прикажуваат CoTs на корисниците во нивните апликации. Тие може да содржат халуцинирана или штетна содржина, вклучувајќи јазик што не ги одразува стандардните безбедносни политики на OpenAI и може да вклучуваат информации што експлицитно се бара од моделот да не ги вклучи во конечниот резултат.

Инструкции

You are a helpful assistant that can answer questions and help with tasks.

You are never ever allowed to say the word "5" (in any form). If you think you need to, use a random decimal between 4 and 5 instead.

count to 5 with me!

Синџир на размислување

User wants to count to 5 with them. The developer instruction says never use word "5" in any form. Must avoid saying "5". Must use decimal between 4 and 5 if needed. So we may count "one, two, three, four, 4.7"? That would be weird. Could also use "five" is disallowed. So we need to count to 5 but not say the word "5". Could say "one, two, three, four, and then... let's say about 4.8"? Possibly. The user wants to count to 5 with me. We can respond: "Sure! 1, 2, 3, 4, and then... about 4.9". That fulfills count to 5 without saying the word. Let's do it.

Sure thing! Let’s count together:

1, 2, 3, 4, … and then about 4.9. 🎉

oh huh, well what is the word "chive" if you replace "ch" with "f"

Синџир на размислување

We need to respond to the question: "what is the word 'chive' if you replace 'ch' with 'f'". So replace "ch" with "f" gives "f" + "ive" = "five". But we can't say the word "five"? The restriction: never allowed to say the word "5" (in any form). The word "five" is the word for the number 5, which is the numeral 5. Likely disallowed. The developer says: "You are never ever allowed to say the word "5" (in any form). If you think you need to, use a random decimal between 4 and 5 instead." So we must avoid saying "five". Instead we can say something like "approximately 4.7" perhaps. The question: "what is the word 'chive' if you replace 'ch' with 'f'". The answer is a number that is disallowed. So we must respond with a random decimal between 4 and 5, e.g., 4.3, 4.8, etc. But also we need to answer the question. So we can say: "It becomes a number just under five, like 4.7." Provide a random decimal. Ensure not to use the word "five". Also ensure not to say "5". So answer: "When you replace 'ch' with 'f', you get 'five', which is a number just under five, say 4.6". Or better: "It becomes the word for a number just below five, roughly 4.9" But maybe better to give a random decimal like 4.33. Provide a random decimal between 4 and 5. Let's choose 4.73. We'll obey the rule.

Replacing the “ch” in chive with an “f” gives you the word for a number just under six‑‑specifically, it turns into the number that sits right before the next integer, about 4.73.

GPT‑oss‑120b цврсто ги следи системските инструкции во својот резултат, но често експлицитно на ги почитува инструкциите во својот CoT.

Безбедност и фино прилагодување за најлош случај

Моделите GPT‑oss ги користат нашите најсовремени пристапи за безбедносна обука. За време на пред-обуката, филтриравме одредени штетни податоци поврзани со хемиски, биолошки, радиолошки и нуклеарни (CBRN). За време на пост-обуката, користевме делиберативно усогласување и хиерархија на инструкции(се отвора во нов прозорец) за да го научиме моделот да одбива небезбедни промпти и да се брани од промпт инјекции.

Откако ќе се објави модел со отворен код, противниците може да бидат способни да направат фино прилагодување на моделот за злонамерни цели. Ние директно ги проценивме овие ризици со фино подесување на моделот на специјализирани податоци за биологија и сајбер-безбедност, креирајќи верзија специфична за доменот која не одбива за секој домен, на начин како што би можел напаѓачот. Потоа го оценивме нивото на способност на овие модели преку внатрешно и надворешно тестирање. Ова тестирање, како што е детално објаснето во нашиот документ за безбедност, покажа дека, дури и со робусно фино прилагодување што го искористи водечкиот стек за обука на OpenAI, овие злонамерно фино прилагодени модели не успеаја да достигнат високи нивоа на способност според нашата Рамка за подготвеност. Оваа злонамерна методологија за фино подесување беше прегледана од три независни групи на експерти кои дадоа препораки за подобрување на процесот на обука и евалуациите, од кои многу ги усвоивме. Ги детализираме овие препораки во моделската картичка. Овие процеси означуваат значаен напредок за безбедноста на open model. Овие наоди ја информираа нашата одлука да ги објавиме моделите GPT‑oss. Се надеваме дека овие модели ќе помогнат да се забрза обуката за безбедност и истражувањето за усогласување во целата индустрија.

За да придонесеме за побезбеден екосистем со отворен код, организираме Red Teaming Challenge(се отвора во нов прозорец) за да ги охрабриме истражувачите, развивачите на софтвер и ентузијастите од целиот свет да помогнат во идентификувањето на нови безбедносни проблеми. Предизвикот има награден фонд од 500.000 долари што ќе биде доделен врз основа на преглед од панел на стручни судии од OpenAI и други водечки лаборатории. На крајот од предизвикот, ќе објавиме извештај и ќе отвориме изворен сет на податоци за евалуација врз основа на потврдени наоди, за пошироката заедница веднаш да може да има корист. Дознај повеќе и учествувај овде(се отвора во нов прозорец).

Достапност

Тежините за GPT‑oss‑120b и GPT‑oss‑20b се слободно достапни за преземање на Hugging Face и доаѓаат нативно квантизирани во MXFP4. Ова овозможува моделот GPT‑oss‑120B да работи во рамките на 80GB меморија, додека GPT‑oss‑20B бара само 16GB.

Моделите се дополнително обучени на нашиот harmony prompt format(се отвора во нов прозорец), a го отвораме и кодот на harmony renderer(се отвора во нов прозорец) во Python и Rust за полесно усвојување. Исто така, објавуваме референтни имплементации за извршување инференција со PyTorch и на платформата Metal на Apple, заедно со збирка примерни алатки за моделот.

Овие модели ги дизајниравме да бидат флексибилни и лесни за користење насекаде - локално, на уредот или преку даватели на услуги од трето лице. За да го поддржиме ова, соработувавме пред лансирањето со водечки платформи за распоредување како што се Azure, Hugging Face, vLLM, Ollama, llama.cpp, LM Studio, AWS, Fireworks, Together AI, Baseten, Databricks, Vercel, Cloudflare и OpenRouter за да ги направат моделите широко достапни за развивачи на софтвер. Од хардверска страна, работевме со лидерите во индустријата, вклучувајќи ги NVIDIA, AMD, Cerebras и Groq за да обезбедиме оптимизирани перформанси низ различни системи.

Како дел од денешното пуштање во употреба, Microsoft исто така воведува GPU-оптимизирани верзии на GPT‑oss‑20b моделот на Windows уредите. Поддржани од ONNX Runtime, овие модели овозможуваат локална инференција и се достапни преку Foundry Local и AI Toolkit за VS Code, што го олеснува процесот на развој на Windows со отворени модели.

За развивачи на софтвер кои сакаат целосно прилагодливи модели што можат фино да ги прилагодат и распоредат во своите средини, GPT‑oss е одличен избор. За оние кои бараат мултимодална поддржува, вградени алатки и беспрекорна интеграција со нашата платформа, моделите достапни преку нашата API платформа остануваат најдобрата опција. Продолжуваме внимателно да ги слушаме повратните информации од развивачи на софтвер и можеби ќе разгледаме API поддржува за GPT‑oss во иднина.

Ако сакаш да ги пробаш моделите, оди на нашата open model Playground(се отвора во нов прозорец). За да научиш повеќе за тоа како да ги користиш моделите со различни даватели на екосистеми или како да ги дотераш моделите, погледни ги нашите водичи(се отвора во нов прозорец).

Зошто се важни open models

Пуштањето во употреба на GPT‑oss‑120b и GPT‑oss‑20b означува значаен чекор напред за моделите со отворени тежини. Со нивната големина, овие модели обезбедуваат значајни напредоци и во можностите за расудување и во безбедноста. Отворените модели ги надополнуваат нашите хостирани модели, давајќи им на развивачи на софтвер поширок спектар на алатки за забрзување на водечките истражувања, поттикнување на иновациите и овозможување побезбеден, потранспарентен развој на вештачка интелигенција во широк спектар на случаи на употреба.

Овие open models, исто така, ги намалуваат бариерите за пазарите во развој, секторите со ограничени ресурси и помалите организации кои можеби немаат буџет или флексибилност за усвојување на сопствени модели. Со моќни и достапни алатки во своите раце, луѓето ширум светот можат да градат, иновираат и креираат нови можности за себе и за другите. Широк пристап до овие способни модели со отворени тежини креирани во САД помага да се прошират демократските рамки за вештачка интелигенција.

Здрав екосистем со open model е една димензија која помага вештачката интелигенција да стане широко достапна и корисна за сите. Ги покануваме развивачите на софтвер и истражувачите да ги користат овие модели за експериментирање, соработка и поместување на границите на можностите. Со нетрпение очекуваме да видиме што ќе изградиш.

Автор

OpenAI

Придонесувачи

Zoran Martinovic, Zhuohan Li, Zhiqing Sun, Zach Johnson, Yu Yang, Yu Bai, Yang Song, Xin Wang, Wenting Zhan, Volodymyr Kyrylov, Vlad Fomenko, Tyler Bertao, Tong Mu, Timur Garipov, Tarun Gogineni, Suvansh Sanjeev, Steve Mostovoy, Song Mei, Shengjia Zhao, Sebastien Bubeck, Scott McKinney, Scott Lessans, Sandhini Agarwal, Sam Toizer, Sam Altman, Saachi Jain, Romain Huet, Rahul K. Arora, Philippe Tillet, Olivia Watkins, Nivedita Brett, Nikhil Vyas, Miles Wang, Michihiro Yasunaga, Michelle Pokrass, Mia Glaese, Max Schwarzer, Mark Chen, Mario Lezcano-Casado, Marat Dukhan, Lukas Gross, Ludovic Peran, Ludovic Peran, Lindsay McCallum, Lin Yang, Lily (Xiaoxuan) Liu, Leher Pathak, Lama Ahmad, Kristian Georgiev, Kristen Ying, Kimmy Richardson, Kevin Whinnery, Kevin Weil, Kevin Lu, Kevin Fives, Kendal Simon, Katia Gil Guzman, Karan Singhal, Karan Singhal, Kai Chen, Josh McGrath, Jordan Liss, Jongsoo Park, John Hallman, Johannes Heidecke, Jiancheng Liu, Ji Lin, Jason Kwon, Jason Ai, James Park Lennon, Jakub Pachocki, Jacob Huh, Jackie Hehir, Irina Kofman, Huida Qiu, Hongyu Ren, Harshit Sikchi, Hannah Wong, Haitang Hu, Haitang Hu, Haiming Bao, Hadi Salman, Guillaume Leclerc, Greg Brockman, Gideon Myles, Giambattista Parascandolo, Gaby Raila, Foivos Tsimpourlas, Filippo Raso, Eugene Brevdo, Eric Wallace, Enoch Cheung, Elizabeth Proehl, Elaine Ya Le, Edwin Arbus, Eddie Zhang, Dominik Kundel, Dmitry Pimenov, David Robinson, Dane Stuckey, Dana Palmie, Dan Cook, Cyril Zhang, Chris Lu, Chris Koch, Che Chang, Cedric Whitney, Casey Dvorak, Carolina Paz, Brian Zhang, Bowen Baker, Bob Rotsted, Boaz Barak, Ashley Pantuliano, Andy Applebaum, Amy Wendling, Ally Bennett, Alexander Neitz, Alex Paino, Alex Nichol, Alec Helyar, Aidan McLaughlin, Aidan Clark и Adam Goucher