Представяме ви gpt-oss
gpt-oss-120b и gpt-oss-20b разширяват границите на моделите за разсъждение с отворено тегло
Пускаме gpt-oss-120b и gpt-oss-20b — два най-съвременни езикови модела с отворени тегла, които осигуряват висока производителност в реални условия при ниска цена. Тези модели, достъпни под гъвкавия лиценз Apache 2.0, превъзхождат подобни по размер отворени модели при задачи за разсъждение, демонстрират силни възможности за използване на инструменти и са оптимизирани за ефективно внедряване на потребителски хардуер. Те бяха обучени с помощта на комбинация от обучение с подсилване и техники, базирани на най-напредналите вътрешни модели на OpenAI, включително o3 и други авангардни системи.
Моделът gpt-oss-120b постига почти равенство с OpenAI o4-mini в основните еталони за разсъждение, като същевременно работи ефективно с един 80 GB графичен процесор. Моделът gpt-oss-20b постига сходни резултати с OpenAI o3‑mini при общи еталони и може да работи на крайни устройства с едва 16 GB памет, което го прави идеален за случаи на използване на устройства, локални изводи или бързи итерации без скъпа инфраструктура. И двата модела се представят отлично и при използването на инструменти, извикването на функции с малко повторения, разсъжденията по CoT (както се вижда от резултатите в пакета за оценка на агенти Tau-Bench) и HealthBench (дори с по-добри резултати от патентовани модели като OpenAI o1 и GPT‑4o).
Тези модели са съвместими с нашите API за отговори(отваря се в нов прозорец) и са проектирани да се използват в работни процеси с агенти с изключителни възможности за следване на инструкции, използване на инструменти, като например търсене в уеб или изпълнение на код в Python, и възможности за разсъждаване – включително възможност за регулиране на усилията за разсъждаване за задачи, които не изискват сложни разсъждения и/или целят крайни резултати с много ниска латентност. Те са напълно персонализируеми, осигуряват пълно логическо мислене (CoT) и поддържат структурирани изходи(отваря се в нов прозорец).
Безопасността е в основата на нашия подход към пускането на всички наши модели и е от особено значение за отворените модели. В допълнение към провеждането на цялостно обучение и оценки на безопасността на моделите, ние въведохме и допълнително ниво на оценка, като тествахме недобре настроена версия на gpt-oss-120b под нашата рамка за готовност(отваря се в нов прозорец). Моделите gpt-oss се представят сравнително добре с нашите авангардни модели по отношение на вътрешните критерии за безопасност, като предлагат на разработчиците същите стандарти за безопасност като нашите скорошни собствени модели. Споделяме резултатите от тази работа, както и повече подробности в научноизследователския документ(отваря се в нов прозорец) и в картата на модела(отваря се в нов прозорец). Нашата методология беше прегледана от външни експерти и представлява стъпка напред в определянето на нови стандарти за безопасност за модели с отворено тегло.
Работим и с ранни партньори като AI Sweden(отваря се в нов прозорец), Orange(отваря се в нов прозорец), и Snowflake(отваря се в нов прозорец) за да се запознаете с реалните приложения на нашите отворени модели – от хостване на тези модели на място с цел сигурност на данните до фината им настройка върху специализирани набори от данни. Радваме се да предоставим тези най-добри в своя клас отворени модели, които дават възможност на всеки – от индивидуални разработчици до големи предприятия и правителства – да изпълняват и персонализират ИИ в собствената си инфраструктура. В съчетание с моделите, налични в нашия API, разработчиците могат да избират производителността, разходите и латентността, от които се нуждаят, за да захранват работните процеси с ИИ.
Моделите gpt-oss бяха обучени с помощта на нашите най-напреднали техники за предварително и последващо обучение, като се обърна специално внимание на разсъждението, ефективността и използваемостта в реални условия в широк спектър от среди за внедряване. Въпреки че сме създали и други модели, включително Whisper и CLIP на разположение на обществеността, моделите gpt-oss са първите ни езикови модели с отворено тегло след GPT‑2[1].
Всеки модел е преобразувател, който използва смес от експерти (MoE[2]), за да намали броя на активните параметри, необходими за обработка на въвеждане. gpt-oss-120b активира 5,1В параметри на токен, а gpt-oss-20b – 3,6В. Моделите имат съответно 117b и 21b общи параметри. Моделите използват редуващи се гъсти и локално разпокъсани лентови модели на внимание, подобно на GPT‑3[3]. За да се постигне ефективност на изводите и паметта, моделите използват също така групирано внимание с множество запитвания, като размерът на групата е 8. Използваме Rotary Positional Embedding (RoPE[4]) за позиционно кодиране и поддържаме естествена дължина на контекста до 128 хил.
Модел | Слоеве | Общ брой параметри | Активни параметри на токен | Общо експерти | Активни експерти на токен | Дължина на контекста |
gpt-oss-120b | 36 | 117B | 5,1B | 128 | 4 | 128k |
gpt-oss-20b | 24 | 21B | 3,6B | 32 | 4 | 128k |
Обучихме моделите върху набор от данни, състоящ се предимно от текст на английски език, като се фокусирахме върху STEM, кодиране и общи познания. Токенизирахме данните, като използвахме супермножество на нашия токенизатор, използван за OpenAI o4-mini и GPT‑4o: o200k_harmony, който днес също предоставяме като отворен код.
За повече информация относно архитектурата и обучението на нашите модели, прочетете картата на модела(отваря се в нов прозорец).
Моделите бяха последващо обучени, като се използваше процес, подобен на този, използван за o4-mini, включително етап на фина настройка под наблюдение и етап на RL с голям брой изчисления. Целта ни беше да приведем моделите в съответствие с OpenAI Model Spec(отваря се в нов прозорец) и да ги научим да прилагат CoT разсъждения и използване на инструменти, преди да дадат своя отговор. Използвайки същите техники като нашите собствени модели за разсъждение SoTA, моделите демонстрират изключителни възможности след последващо обучение.
Подобно на моделите за разсъждение от серията o на OpenAI в API, двата модела с отворено тегло поддържат три усилия за разсъждение – ниско, средно и високо, които правят компромис между латентност и производителност. Разработчиците могат лесно да зададат усилието за разсъждение с едно изречение в системното съобщение.
Ние оценихме gpt-oss-120b и gpt-oss-20b по стандартни академични еталони, за да измерим техните възможности в кодирането, състезателната математика, здравето и използването на агентни инструменти в сравнение с други модели за разсъждение на OpenAI, включително o3, o3‑mini и o4-mini.
gpt-oss-120b превъзхожда OpenAI o3‑mini и съвпада или превъзхожда OpenAI o4-mini в областта на състезателното кодиране (Codeforces), решаването на общи задачи (MMLU и HLE) и извикването на инструменти (TauBench). Освен това се справя дори по-добре от o4-mini със запитвания, свързани със здравето (HealthBench) и състезателна математика (AIME 2024 & 2025). Въпреки малкия си размер gpt-oss-20b съвпада или надминава OpenAI o3‑mini при същите оценки, като дори го превъзхожда при състезателната математика и здравето.
Моделите gpt-oss не заместват медицинския специалист и не са предназначени за диагностика или лечение на заболявания
Примерни разгръщания
gpt-oss-120b може бързо да обобщава актуална информация с помощта на инструмент за сърфиране, включително да обединява 10 последователни повиквания.
Нашето скорошно изследване показа, че наблюдението на CoT на модела за разсъждение може да бъде полезно за откриване на неправилно поведение, стига моделът да не е обучен с пряк надзор за привеждане за съгласуване на CoT. Тази гледна точка се споделя(отваря се в нов прозорец) и от други в индустрията. В съответствие с нашите принципи от стартирането на OpenAI o1‑preview, ние не поставихме никакъв пряк надзор върху CoT за нито един от двата модела gpt-oss. Смятаме, че това е от решаващо значение за мониторинга на неправомерното поведение на моделите, измамите и злоупотребите. Нашата надежда е, че публикуването на отворен модел с неконтролирано логическо мислене дава възможност на разработчиците и изследователите да изследват и прилагат свои собствени системи за мониторинг на CoT.
Разработчиците не трябва директно да показват CoT на потребителите в своите приложения. Те могат да съдържат халюцинирано или вредно съдържание, включително език, който не отразява стандартните политики за безопасност на OpenAI, и могат да включват информация, която моделът изрично е помолен да не включва в крайния резултат.
gpt-oss-120b строго следва системните инструкции в изхода си, но често изрично не се подчинява на инструкциите в CoT.
Моделите gpt-oss използват нашите най-съвременни подходи за обучение по безопасност. По време на предварителното обучение филтрирахме определени вредни данни, свързани с химически, биологични, радиологични и ядрени (CBRN) вещества. По време на последващото обучение използвахме умишлено подравняване и йерархия на инструкциите(отваря се в нов прозорец), за да научим модела да отказва опасни подкани и да се защитава от инжекции с подкани.
След като бъде публикуван модел с отворено тегло, недоброжелателите може да успеят да настроят модела за злонамерени цели. Ние директно оценихме тези рискове, като извършихме фина настройка на модела върху специализирани данни за биология и киберсигурност, създавайки специфична за домейна версия, която не отказва, за всеки домейн по начина, по който нападателят би могъл. След това оценихме нивото на способност на тези модели чрез вътрешни и външни тестове. Тези тестове, както е описано подробно в нашия придружаващ документ за безопасност, показаха, че дори и с надеждна фина настройка, която използва водещия в областта обучителен пакет на OpenAI, тези злонамерено фино настроени модели не успяха да достигнат високи нива на способност според нашата рамка за готовност. Тази злонамерена методология за фина настройка беше разгледана от три независими експертни групи, които отправиха препоръки за подобряване на процеса на обучение и оценките, много от които ние приехме. Тези препоръки са подробно описани в картата на модела. Тези процеси представляват значителен напредък в областта на безопасността на отворените модели. Тези констатации послужиха за основа на решението ни да пуснем моделите gpt-oss. Надяваме се, че тези модели ще спомогнат за ускоряване на обучението по безопасност и изследванията за привеждане в съответствие в цялата индустрия.
За да допринесем за по-безопасна екосистема с отворен код, ние сме домакини на Red Teaming Challenge(отваря се в нов прозорец) за да насърчим изследователи, разработчици и ентусиасти от цял свят да помогнат за идентифицирането на нови проблеми, свързани с безопасността. Предизвикателството има награден фонд от 500 000 $, който ще бъде присъден въз основа на оценка от експертно жури от OpenAI и други водещи лаборатории. В края на предизвикателството ще публикуваме доклад и ще предоставим с отворен код набор от данни за оценка въз основа на валидираните констатации, така че широката общност да може незабавно да се възползва. Научете повече и участвайте тук(отваря се в нов прозорец).
Теглата за gpt-oss-120b и gpt-oss-20b са свободно достъпни за изтегляне от Hugging Face и са естествено квантизирани в MXFP4. Това позволява на модела gpt-oss-120B да работи с 80 GB памет, докато gpt-oss-20b изисква само 16 GB.
Моделите са преминали последващо обучение по нашия формат за хармонична подкана(отваря се в нов прозорец) и ние правим с отворен код хармонично рендериране(отваря се в нов прозорец) както за Python, така и за Rust, за да улесним внедряването. Пускаме и референтни имплементации за изпълнение на изводите с PyTorch и на платформата Metal на Apple, както и колекция от примерни инструменти за модела.
Проектирахме тези модели така, че да са гъвкави и лесни за изпълнение навсякъде – локално, на устройство или чрез доставчици на изводи от трети страни. За да подкрепим това, преди пускането на пазара си партнирахме с водещи платформи за внедряване като Azure, Hugging Face, vLLM, Ollama, llama.cpp, LM Studio, AWS, Fireworks, Together AI, Baseten, Databricks, Vercel, Cloudflare и OpenRouter, за да направят моделите широко достъпни за разработчиците. По отношение на хардуера работихме с лидери в бранша, включително NVIDIA, AMD, Cerebras и Groq, за да осигурим оптимизирана производителност в редица системи.
Като част от днешното пускане, Microsoft също предлага оптимизирани за GPU версии на модела gpt-oss-20b на устройства с Windows. Задвижвани от ONNX Runtime, тези модели поддържат локални изводи и са достъпни чрез Foundry Local и AI Toolkit за VS Code, което улеснява разработчиците на Windows да изграждат с отворени модели.
За разработчиците, които искат напълно персонализирани модели, които могат да настройват и внедряват в собствените си среди, gpt-oss е много подходящ. За тези, които търсят мултимодална поддръжка, вградени инструменти и безпроблемна интеграция с нашата платформа, моделите, достъпни чрез нашата API платформа, остават най-добрият вариант. Продължаваме да се вслушваме внимателно в мненията на разработчиците и може да обмислим поддръжка на API за gpt-oss в бъдеще.
Ако искате да изпробвате моделите, посетете нашата площадка за отворени модели(отваря се в нов прозорец). За да научите повече за това как да използвате моделите, използвайки различни доставчици на екосистеми, или как да извършите фина настройка на моделите, разгледайте нашите ръководства(отваря се в нов прозорец).
Издаването на gpt-oss-120b и gpt-oss-20b бележи значителна стъпка напред за моделите с отворено тегло. С размерите си тези модели осигуряват значителен напредък както по отношение на възможностите за разсъждение, така и по отношение на безопасността. Отворените модели допълват нашите хоствани модели, предоставяйки на разработчиците по-широк набор от инструменти за ускоряване на водещите научни изследвания, насърчаване на иновациите и осигуряване на по-безопасна и прозрачна разработка на ИИ в широк спектър от случаи на употреба.
Тези отворени модели също така намаляват пречките пред нововъзникващите пазари, секторите с ограничени ресурси и по-малките организации, които може да нямат бюджет или гъвкавост за въвеждане на собствени модели. С мощни и достъпни инструменти в ръцете си хората по целия свят могат да изграждат, да иновират и да създават нови възможности за себе си и за другите. Широкият достъп до тези способни модели с отворена тежест, създадени в САЩ, спомага за разширяването на демократичните релси за ИИ.
Здравословната екосистема на отворените модели е едно от измеренията, които спомагат ИИ да стане широко достъпен и полезен за всички. Каним разработчиците и изследователите да използват тези модели, за да експериментират, да си сътрудничат и да разширяват границите на възможното. Очакваме с нетърпение да видим какво ще изградите.
Автор
Цитати
Сътрудници
Zoran Martinovic, Zhuohan Li, Zhiqing Sun, Zach Johnson, Yu Yang, Yu Bai, Yang Song, Xin Wang, Wenting Zhan, Volodymyr Kyrylov, Vlad Fomenko, Tyler Bertao, Tong Mu, Timur Garipov, Tarun Gogineni, Suvansh Sanjeev, Steve Mostovoy, Song Mei, Shengjia Zhao, Sebastien Bubeck, Scott McKinney, Scott Lessans, Sandhini Agarwal, Sam Toizer, Sam Altman, Saachi Jain, Romain Huet, Rahul K. Arora, Philippe Tillet, Olivia Watkins, Nivedita Brett, Nikhil Vyas, Miles Wang, Michihiro Yasunaga, Michelle Pokrass, Mia Glaese, Max Schwarzer, Mark Chen, Mario Lezcano-Casado, Marat Dukhan, Lukas Gross, Ludovic Peran, Ludovic Peran, Lindsay McCallum, Lin Yang, Lily (Xiaoxuan) Liu, Leher Pathak, Lama Ahmad, Kristian Georgiev, Kristen Ying, Kimmy Richardson, Kevin Whinnery, Kevin Weil, Kevin Lu, Kevin Fives, Kendal Simon, Katia Gil Guzman, Karan Singhal, Karan Singhal, Kai Chen, Josh McGrath, Jordan Liss, Jongsoo Park, John Hallman, Johannes Heidecke, Jiancheng Liu, Ji Lin, Jason Kwon, Jason Ai, James Park Lennon, Jakub Pachocki, Jacob Huh, Jackie Hehir, Irina Kofman, Huida Qiu, Hongyu Ren, Harshit Sikchi, Hannah Wong, Haitang Hu, Haitang Hu, Haiming Bao, Hadi Salman, Guillaume Leclerc, Greg Brockman, Gideon Myles, Giambattista Parascandolo, Gaby Raila, Foivos Tsimpourlas, Filippo Raso, Eugene Brevdo, Eric Wallace, Enoch Cheung, Elizabeth Proehl, Elaine Ya Le, Edwin Arbus, Eddie Zhang, Dominik Kundel, Dmitry Pimenov, David Robinson, Dane Stuckey, Dana Palmie, Dan Cook, Cyril Zhang, Chris Lu, Chris Koch, Che Chang, Cedric Whitney, Casey Dvorak, Carolina Paz, Brian Zhang, Bowen Baker, Bob Rotsted, Boaz Barak, Ashley Pantuliano, Andy Applebaum, Amy Wendling, Ally Bennett, Alexander Neitz, Alex Paino, Alex Nichol, Alec Helyar, Aidan McLaughlin, Aidan Clark и Adam Goucher


