Пропонуємо до вашої уваги gpt-oss
gpt-oss-120b та gpt-oss-20b розширюють межі моделей міркування з відкритими вагами
Ми запускаємо gpt-oss-120b та gpt-oss-20b — дві найсучасніші мовні моделі з відкритими вагами, які забезпечують високу ефективність у реальних сценаріях за невеликої вартості. Ці моделі, доступні за гнучкою ліцензією Apache 2.0, перевершують інші моделі подібного розміру в завданнях на міркування, демонструють потужні можливості роботи з інструментами та оптимізовані для ефективного розгортання на обладнанні користувачів. Вони були навчені з використанням комбінації навчання з підкріпленням і методів, розроблених на основі найпросунутіших внутрішніх моделей OpenAI, включно з o3 та іншими передовими системами.
Модель gpt-oss-120b досягає майже такого ж рівня, як і у OpenAI o4-mini, на основних тестах з міркування, водночас ефективно працюючи на одному графічному процесорі з 80 ГБ пам'яті. Модель gpt-oss-20b демонструє результати, подібні до OpenAI o3‑mini, в основних тестах і може працювати на периферійних пристроях лише з 16 ГБ пам'яті, що робить її ідеальною для сценаріїв локального використання, роботи «на пристрої» та швидких ітерацій без вартісної інфраструктури. Обидві моделі також показують ефективні результати у використанні інструментів, виклику функцій у режимі few-shot, CoT-міркуванні (ланцюгу міркувань), що підтверджується результатами в наборі оцінювання агентів Tau-Bench, і у тесті HealthBench (де вони навіть випереджають закриті моделі, як-от OpenAI o1 та GPT‑4o).
Ці моделі сумісні з нашим Responses API(відкривається у новому вікні) і створені для використання в робочих процесах з агентами, забезпечуючи виняткову здатність щодо дотримання інструкцій, роботу з інструментами (як-от веб-пошук чи виконання коду Python) та потужні можливості для міркування, зокрема здатність налаштовувати «зусилля міркування» для завдань, що не потребують складного аналізу, або коли критичною є навіть мінімальна затримка відповіді. Ці моделі можуть бути повністю кастомізовані, надають повний ланцюг міркувань (CoT) і підтримують Structured Outputs(відкривається у новому вікні).
Безпека є основою нашого підходу до випуску всіх моделей і має особливе значення для моделей з відкритими вагами. Окрім запуску моделей через комплексне навчання та оцінювання безпеки, ми також запровадили додатковий рівень тестування: ми перевірили версію gpt-oss-120b, додатково навчену на змагальних (складних і провокаційних) прикладах, відповідно до нашої Системи готовності(відкривається у новому вікні) (Preparedness Framework). Моделі gpt-oss демонструють продуктивність, порівнянну з нашими передовими моделями за внутрішніми показниками безпеки, пропонуючи розробникам той самий рівень безпеки, що і наші новітні закриті моделі. Ми публікуємо результати цієї роботи та докладнішу інформацію в науковій статті(відкривається у новому вікні) й картці моделі(відкривається у новому вікні). Наша методологія була перевірена зовнішніми експертами і стала важливим кроком уперед у встановленні нових стандартів безпеки для моделей із відкритими вагами.
Ми також співпрацювали з партнерами на початковому етапі співпраці, зокрема AI Sweden(відкривається у новому вікні), Orange(відкривається у новому вікні) та Snowflake(відкривається у новому вікні), щоб дізнатися про реальні сценарії застосування наших моделей із відкритими вагами: від локального розміщення задля захисту даних до додаткового навчання на спеціалізованих наборах даних. Ми раді представити ці моделі із відкритими вагами найвищого класу, щоб надати можливість кожному, від індивідуальних розробників до великих компаній та урядових установ, запускати й налаштовувати ШІ на власній інфраструктурі. У поєднанні з моделями, доступними через наш API, розробники можуть обирати оптимальний баланс продуктивності, вартості та часу затримки відповіді для побудови своїх робочих процесів штучного інтелекту.
Моделі GPT‑oss були навчені з використанням наших найсучасніших методів попереднього та додаткового навчання, із особливим акцентом на міркування, ефективність та здатність працювати у реальних умовах у широкому спектрі середовищ розгортання. Попри те, що ми раніше відкривали доступ до інших моделей, як-от Whisper та CLIP, моделі gpt-oss є нашими першими мовними моделями з відкритими вагами з часів GPT‑2[1].
Кожна модель — це трансформер, що застосовує підхід «поєднання експертів» (MoE[2]) для зменшення кількості активних параметрів, необхідних для обробки вхідних даних. GPT‑oss‑120b активує 5,1 млрд параметрів на токен, тоді як GPT‑oss‑20b — 3,6 млрд. Загальна кількість параметрів становить 117 млрд і 21 млрд відповідно. Моделі застосовують чергування щільних і локально згрупованих розріджених патернів уваги, подібно до GPT‑3.[3] Для підвищення швидкодії та ефективності використання пам'яті вони використовують механізм згрупованої уваги з кількома запитами із групою розміром 8. Ми застосовуємо Rotary Positional Embedding (RoPE[4]) для позиційного вбудовування та забезпечуємо нативну підтримку контексту завдовжки до 128 тис. токенів.
Модель | Шари | Загальна кількість параметрів | Активні параметри на токен | Загальна кількість експертів | Активні експерти на токен | Довжина контексту |
gpt-oss-120b | 36 | 117 млрд | 5,1 млрд | 128 | 4 | 128 тис |
gpt-oss-20b | 24 | 21 млрд | 3,6 млрд | 32 | 4 | 128 тис |
Моделі навчалися переважно на текстовому наборі даних англійською з фокусом на STEM-дисципліни, програмування та загальні знання. Дані було токенізовано за допомогою піднабору нашого токенайзера, що використовується в OpenAI o4-mini та GPT‑4o (o200k_harmony), який ми сьогодні також робимо доступним як проєкт з відкритим кодом.
Щоб дізнатися більше про архітектуру та навчання наших моделей, перегляньте картку моделі(відкривається у новому вікні).
Моделі були додатково навчені за процесом, подібним до того, що застосовувався для o4-mini. Він включав етап додаткового навчання під наглядом та стадію RL із високими обчислювальними затратами. Наша мета полягала в тому, щоб узгодити моделі зі специфікацією OpenAI(відкривається у новому вікні) та навчити їх застосовувати CoT-міркування та інструменти перед формуванням відповіді. Завдяки таким же методам, що й у наших власних моделей міркування рівня SoTA, моделі демонструють виняткові можливості після додаткового навчання.
Подібно до моделей міркувань OpenAI o-series в API, дві моделі з відкритими вагами підтримують три рівні «зусиль міркування» (низький, середній та високий), які врівноважують затримку відповіді та продуктивність. Розробники можуть легко встановити бажаний рівень «зусилля міркування» за допомогою одного речення у системному повідомленні.
Ми оцінювали gpt-oss-120b та gpt-oss-20b за стандартними академічними тестами, щоб виміряти їхні можливості в програмуванні, математичних завданнях олімпіадного рівня, медичних завданнях та роботі з агентами у порівнянні з іншими моделями міркування OpenAI, включно з o3, o3‑mini та o4-mini.
Модель gpt-oss-120b перевершує OpenAI o3‑mini та відповідає рівню або перевищує рівень o4-mini у програмуванні (Codeforces), загальному вирішенні задач (MMLU та HLE) і роботі з інструментами (TauBench). Крім того, вона демонструє кращі результати за o4-mini у запитах, пов'язаних із медициною (HealthBench), та в математичних завданнях олімпіадного рівня (AIME 2024 і 2025). Модель gpt-oss-20b відповідає або перевершує рівень OpenAI o3‑mini за цими ж показниками, попри значно менший розмір, і навіть випереджає модель в математиці та медичних завданнях.
Моделі gpt-oss не замінюють медичного спеціаліста і не призначені для діагностики чи лікування захворювань
Приклади розгортань
Модель gpt-oss-120b здатна швидко агрегувати найсвіжішу інформацію через інструмент пошуку в мережі, зокрема об'єднуючи результат десятків послідовних викликів.
Наші останні дослідження показали, що моніторинг CoT у моделях міркування може бути корисним для виявлення неправильної поведінки, якщо модель не була спеціально навчена під безпосереднім наглядом щодо узгодження CoT. Такий підхід поділяють(відкривається у новому вікні) і інші представники галузі. Відповідно до наших принципів, починаючи з запуску OpenAI o1‑preview, ми не застосовували безпосередній нагляд щодо CoT для жодної моделі GPT. Ми вважаємо це критично важливим для можливості виявляти неправильну поведінку моделі, обман або зловживання. Ми сподіваємося, що випуск моделі з відкритими вагами із неконтрольованим ланцюгом міркувань дасть розробникам та дослідникам змогу створювати й досліджувати власні системи моніторингу CoT.
Розробники не мають показувати CoT безпосередньо користувачам у своїх програмах. Вони можуть містити хибний або шкідливий вміст, включно з мовою, що не відповідає політикам безпеки OpenAI, а також інформацією, яку модель безпосередньо просить не включати до фінальної відповіді.
GPT‑oss‑120b демонструє стабільне дотримання системних інструкцій у фінальному виводі, але часто явно ігнорує інструкції всередині свого CoT.
Моделі gpt-oss використовують наші передові підходи до навчання з орієнтацією на безпеку. На етапі попереднього навчання ми фільтрували певні категорії шкідливих даних, пов'язаних із хімічними, біологічними, радіологічними та ядерними ризиками (CBRN). На етапі після навчання ми застосували «узгодження через обдумування» та ієрархію інструкцій(відкривається у новому вікні), щоб навчити модель відмовлятися від небезпечних або ризикованих запитів, захищатися від prompt-ін'єкцій, поводитися безпечніше в умовах потенційно шкідливих сценаріїв.
Після випуску моделі з відкритими вагами зловмисники можуть додатково навчити її у шкідливих цілях. Щоб оцінити ці ризики, ми навмисно додатково навчили модель на спеціалізованих біологічних та кібербезпекових даних. У результаті ми отримали доменно-специфічні версії, які не блокують небезпечні запити, тобто поводяться так, як могла б поводитись модель, модифікована зловмисником. Після цього ми оцінили рівень можливостей таких моделей за допомогою внутрішнього та зовнішнього тестування. Як описано у супровідній статті з безпеки, результати показали, що навіть за умов інтенсивного додаткового навчання, виконаного з використанням провідного тренувального набору OpenAI, ці додатково навчені у шкідливому сенсі моделі не змогли досягти високих рівнів можливостей згідно з нашою Системою готовності. Методологію такого шкідливого додаткового навчання перевірили три незалежні групи експертів, які надали рекомендації щодо покращення процесу навчання й оцінювання. Значну частину цих порад ми впровадили. Детальну інформацію можна знайти в картці моделі. Ці процеси є важливим кроком уперед для підвищення безпеки моделей з відкритими вагами. Отримані висновки стали ключовими у рішенні випустити моделі gpt-oss. Ми сподіваємося, що вони допоможуть прискорити дослідження безпеки та узгодження моделей у всій галузі.
Щоб сприяти створенню безпечнішої екосистеми з відкритим кодом, ми проводимо Red Teaming Challenge(відкривається у новому вікні) (конкурс з виявлення вразливостей), який заохочує дослідників, розробників та ентузіастів з усього світу допомогти виявляти нові проблеми безпеки. Призовий фонд конкурсу становить 500 000 доларів, а переможців визначатиме журі експертів з OpenAI та інших провідних лабораторій. Після завершення конкурсу ми опублікуємо звіт і відкриємо у вільний доступ набір даних для оцінювання, сформований на основі підтверджених знахідок, щоб спільнота могла одразу скористатися результатами. Детальну інформацію про конкурс і участь в ньому можна знайти тут(відкривається у новому вікні).
Ваги моделей gpt-oss-120b та gpt-oss-20b доступні для вільного завантаження на Hugging Face й постачаються у нативно квантованому форматі MXFP4. Це дає змогу запускати модель gpt-oss-120b в межах 80 ГБ пам'яті, а gpt-oss-20b потребує лише 16 ГБ.
Моделі були пройшли додаткове навчання на нашому harmony prompt format(відкривається у новому вікні). Ми також відкриваємо у вільний доступ рендерер формату harmony(відкривається у новому вікні) у версіях для Python і Rust, щоб спростити інтеграцію. Крім того, ми публікуємо референсні реалізації для запуску інференсу (отримання відповіді моделі) в PyTorch та на платформі Apple Metal, а також набір прикладних інструментів для роботи з моделлю.
Ми спроєктували моделі так, щоб вони були гнучкими та працювали будь-де: локально, на пристрої або через сторонніх провайдерів інференсу. Для цього ми заздалегідь співпрацювали з провідними платформами розгортання (Azure, Hugging Face, vLLM, Ollama, llama.cpp, LM Studio, AWS, Fireworks, Together AI, Baseten, Databricks, Vercel, Cloudflare та OpenRouter), щоб зробити моделі максимально доступними для розробників. Щодо апаратного забезпечення ми працювали з лідерами індустрії, включно з NVIDIA, AMD, Cerebras і Groq, щоб забезпечити оптимізовану продуктивність на різних системах.
У межах сьогоднішнього релізу Microsoft також представляє GPU-оптимізовані версії моделі gpt-oss-20b для пристроїв Windows. Працюючи на базі ONNX Runtime, ці моделі підтримують локальний інференс і доступні через Foundry Local та AI Toolkit for VS Code, що полегшує розробку з моделями з відкритими вагами для користувачів Windows.
GPT‑oss чудово підходить для розробників, які хочуть повністю налаштовувані моделі, що можна додатково навчити та розгорнути у власному середовищі. Для тих, кому потрібна мультимодальна підтримка, вбудовані інструменти та безшовна інтеграція з нашою платформою, найкращим вибором залишаються моделі, доступні через наш API. Ми й надалі уважно прислухаємося до відгуків розробників і в майбутньому можемо розглянути можливість додати підтримку gpt-oss в API.
Щоб спробувати використати моделі, перейдіть до нашого open model playground(відкривається у новому вікні) (онлайн-середовище для тестування). А щоб дізнатися більше про використання моделей через різних провайдерів екосистеми або про їх додаткове навчання, перегляньте наші посібники(відкривається у новому вікні).
Випуск gpt-oss-120b і gpt-oss-20b є важливим кроком уперед для моделей з відкритими вагами. За свого розміру ці моделі забезпечують суттєвий прогрес як у здатності до міркування, так і у питаннях безпеки. Моделі з відкритими вагами доповнюють наші хостингові моделі, надаючи розробникам ширший набір інструментів для прискорення досліджень, підтримки інновацій та створення безпечніших і прозоріших ШІ-систем для найрізноманітніших сценаріїв застосування.
Моделі з відкритими вагами також знижують бар'єри для країн, що розвиваються, секторів з обмеженими ресурсами та менших організацій, які можуть не мати достатнього бюджету чи можливості використовувати закриті пропрієтарні моделі. Доступні потужні інструменти дозволяють людям у всьому світі створювати, експериментувати та відкривати нові можливості для себе та інших. Широкий доступ до таких потужних моделей з відкритими вагами, розроблених у США, сприяє розвитку демократичних засад у сфері штучного інтелекту.
Стала екосистема моделей з відкритими вагами — це один із важливих напрямів, що допомагає зробити ШІ доступним і корисним для всіх. Ми запрошуємо розробників і дослідників використовувати ці моделі, експериментувати, співпрацювати та розширювати межі можливого. Із захопленням очікуємо, які інновації ви втілите в життя.
Автор
Посилання на джерела
Учасники
Zoran Martinovic, Zhuohan Li, Zhiqing Sun, Zach Johnson, Yu Yang, Yu Bai, Yang Song, Xin Wang, Wenting Zhan, Volodymyr Kyrylov, Vlad Fomenko, Tyler Bertao, Tong Mu, Timur Garipov, Tarun Gogineni, Suvansh Sanjeev, Steve Mostovoy, Song Mei, Shengjia Zhao, Sebastien Bubeck, Scott McKinney, Scott Lessans, Sandhini Agarwal, Sam Toizer, Sam Altman, Saachi Jain, Romain Huet, Rahul K. Arora, Philippe Tillet, Olivia Watkins, Nivedita Brett, Nikhil Vyas, Miles Wang, Michihiro Yasunaga, Michelle Pokrass, Mia Glaese, Max Schwarzer, Mark Chen, Mario Lezcano-Casado, Marat Dukhan, Lukas Gross, Ludovic Peran, Ludovic Peran, Lindsay McCallum, Lin Yang, Lily (Xiaoxuan) Liu, Leher Pathak, Lama Ahmad, Kristian Georgiev, Kristen Ying, Kimmy Richardson, Kevin Whinnery, Kevin Weil, Kevin Lu, Kevin Fives, Kendal Simon, Katia Gil Guzman, Karan Singhal, Karan Singhal, Kai Chen, Josh McGrath, Jordan Liss, Jongsoo Park, John Hallman, Johannes Heidecke, Jiancheng Liu, Ji Lin, Jason Kwon, Jason Ai, James Park Lennon, Jakub Pachocki, Jacob Huh, Jackie Hehir, Irina Kofman, Huida Qiu, Hongyu Ren, Harshit Sikchi, Hannah Wong, Haitang Hu, Haitang Hu, Haiming Bao, Hadi Salman, Guillaume Leclerc, Greg Brockman, Gideon Myles, Giambattista Parascandolo, Gaby Raila, Foivos Tsimpourlas, Filippo Raso, Eugene Brevdo, Eric Wallace, Enoch Cheung, Elizabeth Proehl, Elaine Ya Le, Edwin Arbus, Eddie Zhang, Dominik Kundel, Dmitry Pimenov, David Robinson, Dane Stuckey, Dana Palmie, Dan Cook, Cyril Zhang, Chris Lu, Chris Koch, Che Chang, Cedric Whitney, Casey Dvorak, Carolina Paz, Brian Zhang, Bowen Baker, Bob Rotsted, Boaz Barak, Ashley Pantuliano, Andy Applebaum, Amy Wendling, Ally Bennett, Alexander Neitz, Alex Paino, Alex Nichol, Alec Helyar, Aidan McLaughlin, Aidan Clark, Adam Goucher


