Представляем gpt-oss
gpt-oss-120b и gpt-oss-20b расширяют границы моделей с открытыми весами для задач рассуждения
Мы выпускаем gpt-oss-120b и gpt-oss-20b — две передовые языковые модели с открытыми весами, которые обеспечивают высокую производительность в реальных условиях при низкой стоимости. Доступные по гибкой лицензии Apache 2.0, эти модели превосходят аналогичные по размеру модели с открытыми весами в задачах рассуждения, демонстрируют высокую эффективность при работе с инструментами и оптимизированы для эффективного развертывания на оборудовании пользователя. Они обучались с использованием комбинации обучения с подкреплением и методов, разработанных на основе самых передовых внутренних моделей OpenAI, включая o3 и другие передовые системы.
Модель gpt-oss-120b показывает результаты, почти сравнимые с OpenAI o4-mini в основных тестах на рассуждение, при этом эффективно работает на одном GPU с объёмом памяти 80 ГБ. Модель gpt-oss-20b демонстрирует результаты, сопоставимые с OpenAI o3‑mini на распространённых бенчмарках и может работать на периферийных устройствах при всего лишь 16 ГБ памяти, что делает её идеальной для сценариев на устройствах, локального инференса или быстрой итерации без дорогостоящей инфраструктуры. Обе модели также демонстрируют высокие результаты при работе с инструментами, вызове функций с малым количеством примеров, в рассуждениях CoT (что подтверждается результатами агентного набора оценок Tau-Bench) и в HealthBench, даже превосходя проприетарные модели, такие как OpenAI o1 и GPT‑4o.
Эти модели совместимы с нашим Responses API(открывается в новом окне) и разработаны для использования в агентных рабочих процессах с исключительным следованием инструкциям, использованием инструментов, таких как веб-поиск или выполнение кода на Python, и возможностями рассуждения — включая усилия на рассуждение для задач, которые не требуют сложных рассуждений и/или нацелены на конечные результаты с очень низкой задержкой. Они полностью настраиваются, обеспечивают полную цепочку рассуждений (CoT) и обеспечивают поддержку структурированных результатов(открывается в новом окне).
Безопасность является основой нашего подхода к выпуску всех наших моделей и особенно важна для моделей с открытыми весами. Помимо проведения всестороннего обучения и оценки безопасности моделей, мы также ввели дополнительный уровень оценки, протестировав версию gpt-oss-120b, подвергнутую неблагоприятной настройке, согласно нашему Программы готовности(открывается в новом окне). Модели gpt-oss по внутренним показателям безопасности сопоставимы с нашими передовыми моделями, предлагая разработчикам те же стандарты безопасности, что и наши последние проприетарные модели. Мы делимся результатами этой работы и более подробной информацией в исследовательской статье(открывается в новом окне) и в карточке модели(открывается в новом окне). Наша методология была рассмотрена внешними экспертами и представляет собой шаг вперед в установлении новых стандартов безопасности для моделей с открытыми весами.
Мы также работаем с партнерами получившими ранний доступ, такими как AI Sweden(открывается в новом окне), Orange(открывается в новом окне) и Snowflake(открывается в новом окне), чтобы изучить реальные приложения наших моделей: от их размещения на локальных серверах для обеспечения безопасности данных до их тонкой настройки на специализированных наборах данных. Мы рады предоставить эти лучшие в своем классе модели с открытыми весами, которые позволят каждому — от индивидуальных разработчиков до крупных предприятий и правительств — запускать и настраивать ИИ на собственной инфраструктуре. В сочетании с моделями, доступными в нашем API, разработчики могут выбирать нужный им уровень производительности, стоимости и задержки для запуска рабочих процессов ИИ.
Модели gpt-oss были обучены с использованием наших самых передовых методов предварительного и последующего обучения, с особым акцентом на рассуждения, эффективность и практическую применимость в реальных условиях в широком спектре сред развертывания. Хотя мы уже сделали другие модели, такие как Whisper и CLIP общедоступными, модели gpt-oss — это наши первые языковые модели с открытыми весами с момента GPT‑2[1].
Каждая модель является трансформером, использующим смесь экспертов (MoE[2]), чтобы сократить количество активных параметров, необходимых для обработки ввода. gpt-oss-120b активирует 5,1 млрд параметров на токен, а gpt-oss-20b — 3,6 млрд. Модели имеют 117 млрд и 21 млрд общих параметров соответственно. Модели используют чередующиеся плотные и локально-ограниченные разреженные паттерны внимания, аналогичные GPT‑3[3]. Для повышения эффективности вывода и использования памяти модели также применяют сгруппированное внимание с несколькими запросами, размер группы — 8. Мы используем Rotary Positional Embedding (RoPE[4]) для позиционного кодирования и изначально поддерживаем длину контекста до 128 000.
Модель | Слои | Общее количество параметров | Активные параметры на токен | Общее количество экспертов | Активные эксперты на каждый токен | Длина контекста |
gpt-oss-120b | 36 | 117 млрд | 5,1 млрд | 128 | 4 | 128 тыс. |
gpt-oss-20b | 24 | 21 млрд | 3,6 млрд | 32 | 4 | 128 тыс. |
Мы обучали модели на наборе данных, состоящем в основном из текстов на английском языке, с акцентом на STEM, написание кода и общие знания. Мы токенизировали данные, используя расширенный набор нашего токенизатора, применяемого для OpenAI o4-mini и GPT‑4o: o200k_harmony, который мы также сегодня открываем для общего доступа.
Чтобы узнать больше об архитектуре и обучении наших моделей, прочитайте карточку модели(открывается в новом окне).
Модели были дообучены с использованием процесса, аналогичного тому, что применялся для o4-mini, включая этап контролируемой тонкой настройки и этап обучения с подкреплением с высоким объемом вычислений. Нашей целью было привести модели в соответствие с OpenAI Model Spec(открывается в новом окне) , научить их применять рассуждения CoT и использовать инструменты перед тем, как выдать свой ответ. Благодаря использованию тех же методов, что применяются в наших проприетарных моделях рассуждений класса SoTA, модели gpt-oss демонстрируют исключительные возможности после дообучения.
Подобно моделям o-серии OpenAI в API, две модели с открытыми весами поддерживают три уровня усилия рассуждений — низкий, средний и высокий, — которые обеспечивают компромисс между задержкой и производительностью. Разработчики могут легко установить уровень усилий на рассуждение с помощью одного предложения в системном сообщении.
Мы оценили gpt-oss-120b и gpt-oss-20b по стандартным академическим бенчмаркам, чтобы измерить их возможности в программировании, соревновательной математике, здравоохранении и использовании агентных инструментов по сравнению с другими моделями рассуждений OpenAI, включая o3, o3‑mini и o4-mini.
gpt-oss-120b превосходит OpenAI o3‑mini и соответствует или превосходит OpenAI o4-mini в соревнованиях по программированию (Codeforces), решении общих задач (MMLU и HLE) и вызове инструментов (TauBench). Кроме того, gpt-oss-120b даже лучше, чем o4-mini, справляется с запросами, связанными со здоровьем (HealthBench) и математическими соревнованиями (AIME 2024 и 2025). gpt-oss-20b соответствует или превосходит OpenAI o3‑mini по тем же оценкам, несмотря на небольшой размер, и даже превосходит его в соревновательной математике и здравоохранении.
Модели gpt-oss не заменяют медицинского специалиста и не предназначены для диагностики или лечения заболеваний
Примеры работы модели
gpt-oss-120b способен быстро агрегировать актуальную информацию с помощью инструмента просмотра, включая объединение десятков последовательных вызовов.
Наше недавнее исследование показало, что мониторинг цепочки рассуждений (CoT) модели может быть полезен для обнаружения неправильного поведения, если модель не была обучена под прямым контролем для выравнивания этой цепочки рассуждений. Эту точку зрения также разделяют(открывается в новом окне) другие представители отрасли. В соответствии с нашими принципами с момента запуска OpenAI o1‑preview, мы не осуществляли никакого прямого надзора за CoT ни для одной из моделей gpt-oss. Мы считаем, что это критически важно для мониторинга неправильного поведения моделей, обмана и злоупотреблений. Мы надеемся, что выпуск модели с открытыми весами с цепочкой рассуждений без прямого контроля предоставит разработчикам и исследователям возможность изучать и внедрять собственные системы мониторинга CoT.
Разработчики не должны напрямую показывать пользователям цепочки рассуждений (CoT) в своих приложениях. Они могут содержать галлюцинированный или вредный контент, включая язык, который не соответствует стандартной политике безопасности OpenAI, и могут включать информацию, которую модель явно просят не включать в итоговый результат.
gpt-oss-120b строго следует системным инструкциям в своих результатах, но часто явно не подчиняется инструкциям в своей цепочке рассуждений (CoT).
Модели gpt-oss используют наши передовые подходы для обучения безопасному поведению. Во время предварительного обучения мы отфильтровали некоторые вредные данные, связанные с химическими, биологическими, радиологическими и ядерными (CBRN) материалами. Во время дообучения мы использовали совещательное выравнивание и иерархию инструкций(открывается в новом окне), чтобы научить модель отказываться от небезопасных промптов и защищаться от внедрения промптов.
Как только модель с открытыми весами будет выпущена, злоумышленники смогут настроить её для вредоносных целей. Мы напрямую оценили эти риски, дообучая модель на специализированных данных по биологии и кибербезопасности, создавая для каждого домена специфическую версию, не отказывающуюся от выполнения, так, как это мог бы сделать злоумышленник. Затем мы оценили уровень возможностей этих моделей посредством внутреннего и внешнего тестирования. Как подробно описано в нашем сопроводительном документе по безопасности, это тестирование показало, что даже при надежной тонкой настройке с использованием передового стека обучения OpenAI, эти злонамеренно настроенные модели не смогли достичь высоких уровней возможностей в соответствии с нашей Программой готовности. Эта методология тонкой настройки была рассмотрена тремя независимыми экспертными группами, которые дали рекомендации по улучшению процесса обучения и оценок, многие из которых мы приняли. Мы подробно описываем эти рекомендации в карточке модели. Эти процессы знаменуют собой значительный прогресс в области безопасности моделей с открытыми весами. Эти выводы повлияли на наше решение выпустить модели gpt-oss. Мы надеемся, что эти модели помогут ускорить обучение по технике безопасности и исследования по согласованию в отрасли.
Чтобы внести свой вклад в создание более безопасной экосистемы открытого исходного кода, мы проводим Red Teaming Challenge(открывается в новом окне) и приглашаем исследователей, разработчиков и энтузиастов со всего мира помочь выявить новые проблемы безопасности. Призовой фонд конкурса составляет 500 000 долларов США, а призы будут присуждаться по итогам оценки экспертного жюри из OpenAI и других ведущих лабораторий. По завершении конкурса мы опубликуем отчет и откроем доступ к набору данных для оценки, сформированному на основе проверенных результатов, чтобы всё сообщество могло сразу извлечь из этого пользу. Узнайте больше и примите участие здесь(открывается в новом окне).
Веса для gpt-oss-120b и gpt-oss-20b свободно доступны для скачивания на Hugging Face и изначально квантованы в MXFP4. Благодаря этому модель gpt-oss-120B может работать в пределах 80 ГБ памяти, тогда как gpt-oss-20b требует всего 16 ГБ.
Чтобы облегчить их внедрение, модели были пост-тренированы на нашем формате промптов Harmony(открывается в новом окне) и мы открываем доступ к рендереру Harmony(открывается в новом окне) на языках Python и Rust. Мы также выпускаем эталонные реализации для выполнения вывода с помощью PyTorch и на платформе Metal от Apple, а также коллекцию примеров инструментов для работы с моделью.
Мы разработали эти модели так, чтобы они были гибкими и легко запускались в любом месте — локально, на устройстве или через сторонних провайдеров инференса. Для поддержки этого, перед запуском мы заключили партнерские соглашения с ведущими платформами развертывания, такими как Azure, Hugging Face, vLLM, Ollama, llama.cpp, LM Studio, AWS, Fireworks, Together AI, Baseten, Databricks, Vercel, Cloudflare и OpenRouter, чтобы сделать модели широко доступными для разработчиков. С точки зрения аппаратного обеспечения, мы сотрудничали с лидерами отрасли, такими как NVIDIA, AMD, Cerebras и Groq, чтобы гарантировать оптимальную производительность на различных системах.
В рамках сегодняшнего релиза Microsoft также выпускает оптимизированные для GPU версии модели gpt-oss-20b для устройств Windows. Работающие на базе ONNX Runtime, эти модели поддерживают локальное выполнение и доступны через Foundry Local и AI Toolkit для VS Code, что упрощает разработчикам Windows создание решений на моделях с открытыми весами.
Для разработчиков, которые хотят иметь полностью настраиваемые модели, которые они могут дообучать и развертывать в своих собственных средах, gpt-oss — отличный выбор. Для тех, кто ищет мультимодальную поддержку, встроенные инструменты и беспрепятственную интеграцию с нашей платформой, модели, доступные через нашу платформу API, остаются наилучшим выбором. Мы продолжаем внимательно прислушиваться к отзывам разработчиков и, возможно, в будущем рассмотрим поддержку API для gpt-oss.
Если вы хотите попробовать модели, зайдите на open model Playground(открывается в новом окне). Чтобы узнать больше о том, как использовать модели с различными провайдерами экосистем или как их точно настроить, ознакомьтесь с нашими руководствами(открывается в новом окне).
Выпуск gpt-oss-120b и gpt-oss-20b знаменует собой значительный шаг вперед для моделей с открытыми весами. При их размерах эти модели обеспечивают значительные улучшения как в возможностях рассуждения, так и в безопасности. Модели с открытыми весами дополняют наши размещенные модели, предоставляя разработчикам более широкий набор инструментов для ускорения передовых исследований, стимулирования инноваций и обеспечения более безопасной и прозрачной разработки ИИ в широком спектре вариантов использования.
Эти модели с открытыми весами также снижают барьеры для развивающихся рынков, секторов с ограниченными ресурсами и небольших организаций, у которых может не хватить бюджета или гибкости для внедрения проприетарных моделей. Имея в руках мощные и доступные инструменты, люди во всем мире могут строить, внедрять инновации и создавать новые возможности для себя и других. Созданные в США, эти мощные модели с открытыми весами становятся всё более доступными — и это помогает укреплять демократические принципы развития ИИ.
Здоровая экосистема модели с открытыми весами — это один из аспектов, способствующих тому, чтобы ИИ стал широко доступным и полезным для всех. Мы приглашаем разработчиков и исследователей использовать эти модели для экспериментов, сотрудничества и расширения границ возможного. Мы с нетерпением ждем, что вы создадите.
Автор
Ссылки
Участники
Zoran Martinovic, Zhuohan Li, Zhiqing Sun, Zach Johnson, Yu Yang, Yu Bai, Yang Song, Xin Wang, Wenting Zhan, Volodymyr Kyrylov, Vlad Fomenko, Tyler Bertao, Tong Mu, Timur Garipov, Tarun Gogineni, Suvansh Sanjeev, Steve Mostovoy, Song Mei, Shengjia Zhao, Sebastien Bubeck, Scott McKinney, Scott Lessans, Sandhini Agarwal, Sam Toizer, Sam Altman, Saachi Jain, Romain Huet, Rahul K. Arora, Philippe Tillet, Olivia Watkins, Nivedita Brett, Nikhil Vyas, Miles Wang, Michihiro Yasunaga, Michelle Pokrass, Mia Glaese, Max Schwarzer, Mark Chen, Mario Lezcano-Casado, Marat Dukhan, Lukas Gross, Ludovic Peran, Ludovic Peran, Lindsay McCallum, Lin Yang, Lily (Xiaoxuan) Liu, Leher Pathak, Lama Ahmad, Kristian Georgiev, Kristen Ying, Kimmy Richardson, Kevin Whinnery, Kevin Weil, Kevin Lu, Kevin Fives, Kendal Simon, Katia Gil Guzman, Karan Singhal, Karan Singhal, Kai Chen, Josh McGrath, Jordan Liss, Jongsoo Park, John Hallman, Johannes Heidecke, Jiancheng Liu, Ji Lin, Jason Kwon, Jason Ai, James Park Lennon, Jakub Pachocki, Jacob Huh, Jackie Hehir, Irina Kofman, Huida Qiu, Hongyu Ren, Harshit Sikchi, Hannah Wong, Haitang Hu, Haitang Hu, Haiming Bao, Hadi Salman, Guillaume Leclerc, Greg Brockman, Gideon Myles, Giambattista Parascandolo, Gaby Raila, Foivos Tsimpourlas, Filippo Raso, Eugene Brevdo, Eric Wallace, Enoch Cheung, Elizabeth Proehl, Elaine Ya Le, Edwin Arbus, Eddie Zhang, Dominik Kundel, Dmitry Pimenov, David Robinson, Dane Stuckey, Dana Palmie, Dan Cook, Cyril Zhang, Chris Lu, Chris Koch, Che Chang, Cedric Whitney, Casey Dvorak, Carolina Paz, Brian Zhang, Bowen Baker, Bob Rotsted, Boaz Barak, Ashley Pantuliano, Andy Applebaum, Amy Wendling, Ally Bennett, Alexander Neitz, Alex Paino, Alex Nichol, Alec Helyar, Aidan McLaughlin, Aidan Clark, Adam Goucher


