Przedstawiamy modele gpt-oss
Modele gpt-oss-120b i gpt-oss-20b przesuwają granice zdolności modeli rozumowania z otwartymi wagami.
Udostępniamy modele gpt-oss-120b i gpt-oss-20b — dwa najnowocześniejsze modele językowe z otwartymi wagami zapewniające wysoką wydajność podczas rzeczywistego wykorzystania przy niskich kosztach. Są dostępne na elastycznej licencji Apache 2.0. Osiągają lepsze wyniki niż inne otwarte modele o podobnym rozmiarze w zadaniach rozumowania i charakteryzują się dużymi zdolnościami używania narzędzi. Zostały zoptymalizowane pod kątem efektywnego wdrażania na sprzęcie konsumenckim. Zostały wytrenowane przy użyciu połączenia uczenia przez wzmacnianie oraz technik uwzględniających wnioski z najbardziej zaawansowanych wewnętrznych modeli firmy OpenAI, w tym o3 i innych pionierskich systemów.
Model gpt-oss-120b osiąga wyniki zbliżone do modelu OpenAI o4-mini w podstawowych testach porównawczych rozumowania, działając wydajnie na jednej karcie graficznej z 80 GB pamięci. Model gpt-oss-20b osiąga wyniki zbliżone do OpenAI o3‑mini w popularnych testach porównawczych i może działać na urządzeniach brzegowych z zaledwie 16 GB pamięci, dlatego idealnie nadaje się do zastosowań na urządzeniach, lokalnego wnioskowania lub szybkiej iteracji bez drogiej infrastruktury. Oba modele osiągają również bardzo dobre wyniki dotyczące użycia narzędzi, wywoływania funkcji typu few-shot, rozumowania z użyciem łańcucha myśli (jak widać w wynikach w zestawie testów oceny agentów Tau-Bench) oraz w teście HealthBench (są one lepsze nawet od modeli własnościowych, takich jak OpenAI o1 i GPT‑4o).
Modele są zgodne z naszym interfejsem Responses API(otwiera nowe okno). Zostały zaprojektowane do stosowania w agentowych przepływach pracy i cechują się wyjątkową zdolnością do wykonywania instrukcji, używania narzędzi, na przykład wyszukiwania w sieci i wykonywania kodu w języku Python, oraz zdolnościami rozumowania — w tym zdolnością dostosowywania wysiłku związanego z rozumowaniem do zadań, które nie wymagają złożonego rozumowania i/lub wymagają końcowych danych wyjściowych o bardzo niskim opóźnieniu. Można je w pełni dostosować do własnych potrzeb, obsługują pełny łańcuch myśli i funkcji Structured Outputs(otwiera nowe okno) (ustrukturyzowane dane wyjściowe).
Bezpieczeństwo ma fundamentalne znaczenie w naszym podejściu do wydawania wszystkich naszych modeli. Jest ono szczególnie ważne w przypadku modeli open model. Nie tylko przeprowadziliśmy kompleksowy trening dotyczący bezpieczeństwa i oceny, ale zaczęliśmy przeprowadzać oceny w dodatkowej warstwie, testując wersję modelu gpt-oss-120b z antagonistyczną konfiguracją precyzyjną zgodnie z naszymi Ramami gotowości(otwiera nowe okno). Modele gpt-oss osiągają wyniki porównywalne z naszymi pionierskimi modelami w wewnętrznych testach porównawczych dotyczących bezpieczeństwa, zapewniając programistom zgodność z tymi samymi standardami dotyczącymi bezpieczeństwa, co w przypadku naszych modeli własnościowych. Rezultaty naszej pracy i szczegółowe informacjami przedstawiliśmy w artykule badawczym oraz w karcie modelu. Nasza metodologia została zweryfikowana przez zewnętrznych ekspertów. Stanowi postęp w tworzeniu nowych standardów bezpieczeństwa dla modeli z otwartymi wagami.
Współpracujemy także z pierwszymi partnerami, takimi jak AI Sweden(otwiera nowe okno), Orange(otwiera nowe okno) i Snowflake(otwiera nowe okno), w celu poznania rzeczywistych zastosowań naszych modeli open model, od ich udostępniania lokalnego ze względu na ochronę danych po konfigurację precyzyjną przy użyciu specjalistycznych zestawów danych. Cieszymy się, że możemy udostępnić najlepsze w swojej klasie modele open model, które umożliwią wszystkim — od indywidualnych programistów, przez duże przedsiębiorstwa, po instytucje rządowe — uruchamianie i dostosowywanie AI na własnej infrastrukturze. W połączeniu z modelami dostępnymi przez interfejs API pozwalają programistom dobrać wydajność, koszt i opóźnienie odpowiednio do przepływów pracy AI.
Modele gpt-oss zostały wytrenowane przy użyciu naszych najbardziej zaawansowanych technik wstępnego trenowania i treningu uzupełniającego ze szczególnym uwzględnieniem rozumowania, wydajności i użyteczności w rzeczywistym świecie w wielu różnych środowiskach wdrożeniowych. Jako otwarte modele udostępniliśmy inne modele, w tym Whisper i CLIP. Modele gpt-oss to jednak nasze pierwsze modele językowe z otwartymi wagami od czasu modelu GPT‑2[1].
Każdy model jest transformatorem, w którym zastosowano mieszankę ekspertów (ang. mixture of experts, MoE[2]) w celu zmniejszenia liczby aktywnych parametrów wymaganych do przetworzenia danych wejściowych. Model gpt-oss-120b aktywuje 5,1 mld parametrów na token, a model gpt-oss-20b aktywuje 3,6 mld parametrów. Modele te mają odpowiednio 117b i 21b parametrów. Modele używają na przemian wzorca uwagi gęstej (ang. dense attention) i wzorca uwagi rzadkiej z lokalnym pasmem (ang. locally banded sparse attention) podobnie jak model GPT‑3[3]. Na potrzeby wnioskowania i optymalizacji wykorzystania pamięci w modelach zastosowano również uwagę wielozapytaniową z grupami, przy czym wielkość grupy to 8. Na potrzeby kodowania pozycji używamy techniki Rotary Positional Embedding (RoPE[4]) i natywnie obsługujemy długości kontekstu do 128k.
Model | Warstwy | Łączna liczba parametrów | Liczba aktywnych parametrów na token | Łączna liczba ekspertów | Liczba aktywnych ekspertów na token | Długość kontekstu |
gpt-oss-120b | 36 | 117b | 5,1b | 128 | 4 | 128 tys. |
gpt-oss-20b | 24 | 21b | 3,6b | 32 | 4 | 128 tys. |
Modele wytrenowaliśmy przy użyciu wysokiej jakości zestawu danych zawierającego tylko tekst, głównie w języku angielskim, który przede wszystkim dotyczył nauk ścisłych, technologii, inżynierii i matematyki (STEM), programowania oraz wiedzy ogólnej. Do tokenizacji danych użyliśmy nadzbioru naszego tokenizera używanego w przypadku modelu OpenAI o4-mini i modelu GPT‑4o: „o200k_harmony”, który również został dzisiaj udostępniony na zasadach open source.
Więcej informacji na temat architektury i trenowania naszych modeli zawiera karta modelu.
Modele zostały poddane treningowi uzupełniającemu przy użyciu procedury podobnej do tej w przypadku modelu o4-mini, w tym nadzorowanej konfiguracji precyzyjnej i etapu uczenia przez wzmacnianie z użyciem dużej mocy obliczeniowej. Naszym celem było zapewnienie zgodności modelu z dokumentem OpenAI Model Spec(otwiera nowe okno) oraz nauczenie go stosowania rozumowania z użyciem łańcucha myśli i używania narzędzi przed udzieleniem odpowiedzi. Po przeprowadzeniu treningu uzupełniającego z użyciem tych samych technik, których użyto w przypadku naszych własnościowych modeli rozumowania stanowiących najlepsze dostępne rozwiązanie, modele charakteryzują się wyjątkowymi zdolnościami.
Podobnie jak w przypadku modeli rozumowania firmy OpenAI z serii o dostępnych przez API dwa modele z otwartymi wagami obsługują trzy opcje wysiłku związanego z rozumowaniem — niski, średni i wysoki — które stanowią kompromis między opóźnieniem i wydajnością. Programiści mogą w prosty sposób ustawić wysiłek związany z rozumowaniem przy użyciu jednego zdania w wiadomości systemu.
Przeprowadziliśmy ocenę modeli gpt-oss-120b i gpt-oss-20b przy użyciu standardowych akademickich testów porównawczych w celu zmierzenia ich zdolności dotyczących programowania, matematyki z konkursów, zdrowia i używania narzędzi agentowych w porównaniu z innymi modelami rozumowania OpenAI, w tym o3, o3‑mini i o4-mini.
Model gpt-oss-120b osiąga lepsze wyniki niż model OpenAI o3‑mini i dorównuje modelowi OpenAI o4-mini lub przewyższa go w zawodach z programowania (Codeforces), ogólnym rozwiązywaniu problemów (MMLU i HLE) oraz wywoływaniu narzędzi (TauBench). Ponadto wypada jeszcze lepiej niż model o4-mini w przypadku zapytań dotyczących zdrowia (HealthBench) i matematyki z konkursów (AIME 2024 & 2025). Model gpt-oss-20b osiąga takie same wyniki, co model OpenAI o3‑mini lub nawet lepsze w tych samych ocenach, pomimo niewielkich rozmiarów, a nawet osiąga lepsze wyniki w matematyce z konkursów i zdrowiu.
gpt-oss models do not replace a medical professional and are not intended for the diagnosis or treatment of disease
Example rollouts
Model gpt-oss-120b umożliwia szybkie agregowanie aktualnych informacji przy użyciu narzędzia do przeglądania, w tym łączenie dziesiątek kolejnych wywołań.
Nasze ostatnie badania pokazują, że monitorowanie łańcucha myśli modelu rozumowania może pomóc w wykrywaniu nieodpowiednich zachowań, o ile model nie był trenowany z bezpośrednim nadzorem dotyczącym zgodności łańcucha myśli. Ta perspektywa jest podzielana(otwiera nowe okno) przez inne podmioty z branży. Zgodnie z naszymi zasadami od momentu wydania modelu OpenAI o1‑preview nie przeprowadziliśmy bezpośredniego nadzoru łańcucha myśli dla żadnego z modeli gpt-oss. Uważamy, że ma to kluczowe znaczenie dla monitorowania niewłaściwego działania modeli, oszustw i nadużyć. Mamy nadzieję, że wydanie modelu open model z nienadzorowanym łańcuchem myśli umożliwi programistom i badaczom testowanie i wdrażanie własnych systemów monitorowania łańcuchów myśli.
Programiści nie powinni bezpośrednio pokazywać łańcuchów myśli użytkownikom w swoich aplikacjach. Mogą one zawierać treści będące wynikiem halucynacji lub treści szkodliwe, w tym język, który nie odzwierciedla standardowych zasad bezpieczeństwa OpenAI, a także informacje, których model zgodnie z wyraźną prośbą nie powinien umieszczać w danych wyjściowych.
Model gpt-oss-120b ściśle wykonuje instrukcje systemu, generując dane wyjściowe, ale często wyraźnie nie wykonuje instrukcji zawartych w łańcuchu myśli.
Modele gpt-oss zostały wytrenowane przy użyciu naszych najlepszych w branży metod trenowania dotyczących bezpieczeństwa. Podczas wstępnego trenowania odfiltrowaliśmy określone szkodliwe dane związane z zagrożeniami chemicznymi, biologicznymi, radiologicznymi i jądrowymi (CBRN). Podczas treningu uzupełniającego wykorzystaliśmy zgodność opartą na analizie i rozumowaniu i hierarchię instrukcji(otwiera nowe okno) w celu nauczenia modelu odmowy wykonywania niebezpiecznych poleceń i ochrony przed wstrzykiwaniem poleceń.
Po wydaniu modelu z otwartymi wagami osoby działające w złej wierze mogą dokonać precyzyjnej konfiguracji modelu w celu osiągnięcia szkodliwych celów. Przeprowadziliśmy bezpośrednią ocenę tych czynników ryzyka, dokonując konfiguracji precyzyjnej modelu przy użyciu specjalistycznych danych dotyczących biologii i cyberbezpieczeństwa, tworząc wersję dla danej dziedziny bez odmawiania odpowiedzi tak, jak zrobiłaby to osoba atakująca. Testy wykazały, że nawet przy bardzo rozbudowanej konfiguracji precyzyjnej wykorzystującej czołowy w branży stos do trenowania firmy OpenAI, te modele z konfiguracją precyzyjną pod kątem szkodliwego działania nie osiągnęły wysokiego poziomu zdolności określonego w naszych Ramach gotowości. Metodologia konfiguracji precyzyjnej pod kątem szkodliwego działania została zweryfikowana przez trzy niezależne grupy ekspertów, które sformułowały zalecenia dotyczące poprawy procesu treningu i ocen. Wiele z tych zaleceń zostało przez nas wdrożonych. Szczegóły tych zaleceń zawiera karta modelu. Te procedury stanowią znaczący postęp w zakresie bezpieczeństwa otwartych modeli. Nasze ustalenia utwierdziły nas w decyzji o udostępnieniu modeli gpt-oss. Mamy nadzieję, że nasze modele pomogą przyspieszyć badania nad treningiem dotyczącym bezpieczeństwa i nad zgodnością w całej branży.
Aby przyczynić się do większego bezpieczeństwa ekosystemu open source, organizujemy konkurs Red Teaming Challenge(otwiera nowe okno) (wyzwanie zespołu czerwonego) w celu zachęcenia badaczy, programistów i entuzjastów z całego świata do pomocy w identyfikowaniu nowych problemów związanych z bezpieczeństwem. Przewidziano nagrodę w wysokości 500 000 USD, która zostanie przyznana na podstawie oceny panelu ekspertów z firmy OpenAI i innych czołowych laboratoriów. Po zakończeniu konkursu opublikujemy raport i udostępnimy na zasadach open source zestaw danych ewaluacyjnych na podstawie zweryfikowanych ustaleń z korzyścią dla szerszej społeczności. Aby dowiedzieć się więcej i wziąć udział, przejdź na tę stronę(otwiera nowe okno).
Wagi dla modeli gpt-oss-120b i gpt-oss-20b są dostępne do bezpłatnego pobrania w serwisie Hugging Face i mają natywną kwantyzację w formacie MXFP4. Dzięki temu do działania modelu gpt-oss-120B wystarczy 80 GB pamięci, a model gpt-oss-20b wymaga jedynie 16 GB.
Modele zostały poddane treningowi uzupełniającemu przy użyciu naszego formatu poleceń Harmony(otwiera nowe okno). Udostępniliśmy na zasadach open-source Harmony renderer(otwiera nowe okno) zarówno w języku Python, jak i Rust, aby ułatwić wdrażanie. Udostępniamy również implementacje referencyjne na potrzeby uruchamiania wnioskowania przy użyciu PyTorch i platformy Apple Metal, a także zbiór przykładowych narzędzi dla modelu.
Modele zaprojektowaliśmy tak, aby były elastyczne i można je było uruchomić w dowolnym miejscu — lokalnie, na urządzeniu lub za pośrednictwem zewnętrznych dostawców usług wnioskowania. W tym celu nawiązaliśmy współpracę z czołowymi platformami wdrożeniowymi, takimi jak Hugging Face, Azure, vLLM, Ollama, llama.cpp, LM Studio, AWS, Fireworks, Together AI, Baseten, Databricks, Vercel, Cloudflare i OpenRouter, aby modele były powszechnie dostępne dla programistów. W zakresie sprzętu nawiązaliśmy współpracę z liderami branży, takimi jak NVIDIA, AMD, Cerebras i Groq. Chcemy zapewnić optymalną wydajność w wielu różnych systemach.
W ramach dzisiejszego wydania firma Microsoft udostępnia też wersje modelu gpt-oss-20b z optymalizacją pod kątem kart graficznych dla urządzeń z systemem Windows. Te modele, korzystające z rozwiązania ONNX Runtime, obsługują lokalne wnioskowanie i są dostępne przy użyciu oprogramowania Foundry Local oraz AI Toolkit dla VS Code. Ułatwia to programistom korzystającym z systemu Windows tworzenie rozwiązań z użyciem modeli open model.
Model gpt-oss to idealne rozwiązanie dla programistów, którzy potrzebują modeli z możliwością pełnej personalizacji, konfiguracji precyzyjnej i wdrożenia we własnym środowisku. Osoby poszukujące wsparcia w zakresie multimodalności, wbudowanych narzędzi i płynnej integracji z naszą platformą nadal powinny wybrać modele dostępne za przez naszą platformę API. Uważnie słuchamy opinii programistów i być może w przyszłości rozważymy obsługę modelu gpt-oss przez interfejs API.
Aby wypróbować modele, należy przejść do serwisu playground z modelami open model(otwiera nowe okno). Aby dowiedzieć się więcej o tym, jak korzystać z modeli z usługami różnych dostawców ekosystemów lub jak przeprowadzić konfigurację precyzyjną modeli, zapoznaj się z naszymi przewodnikami(otwiera nowe okno).
Wydanie modeli gpt-oss-120b i gpt-oss-20b to znaczący rozwój w obszarze modeli z otwartymi wagami. Biorąc pod uwagę rozmiar tych modeli, zapewniają one znaczący postęp zarówno w przypadku zdolności rozumowania, jak i bezpieczeństwa. Dodając modele open model do naszej istniejącej oferty API, chcemy przyspieszyć przełomowe badania nad najnowszymi technologiami, pobudzić rozwój innowacji oraz umożliwić bezpieczniejszy i bardziej transparentny rozwój AI w przypadku wielu różnych zastosowań.
Te otwarte modele obniżają też bariery dla rynków wschodzących, sektorów z ograniczonymi zasobami i mniejszych organizacji, które mogą nie mieć budżetu lub elastyczności, żeby wdrożyć modele własnościowe. Zaawansowane i przystępne narzędzia pozwolą ludziom na całym świecie budować, wprowadzać innowacje i stwarzać nowe możliwości dla siebie i innych. Szeroki dostęp do stworzonych w Stanach Zjednoczonych zaawansowanych modeli z otwartymi wagami pomaga rozszerzyć dostępność demokratycznych rozwiązań AI.
Dobrze działający ekosystem otwartych modeli to jeden z czynników pomagających uczynić AI powszechnie dostępną i korzystną dla wszystkich. Udostępniamy nasze własne otwarte modele (modele open model), aby przekonać się, w jaki sposób możemy wnieść wkład w rozwój tego ekosystemu oraz czy zalety i korzyści z tych modeli uzasadniają inwestycję w otwarte modele w przyszłości. Na naszą decyzję będą miały istotny wpływ opinie osób tworzących rozwiązania przy użyciu naszych modeli open model dotyczące ich zalet i rzeczywistych zastosowań.
Zapraszamy programistów i badaczy do używania tych modeli w celu eksperymentowania, współpracy i przesuwania granic możliwości. Ciekawi nas, co stworzysz.
Autor
Bibliografia
[1] GPT2: Blog, Praca badawcza(otwiera nowe okno)
[3] GPT3: Blog, Praca badawcza(otwiera nowe okno)
Contributors
Zoran Martinovic, Zhuohan Li, Zhiqing Sun, Zach Johnson, Yu Yang, Yu Bai, Yang Song, Xin Wang, Wenting Zhan, Volodymyr Kyrylov, Vlad Fomenko, Tyler Bertao, Tong Mu, Timur Garipov, Tarun Gogineni, Suvansh Sanjeev, Steve Mostovoy, Song Mei, Shengjia Zhao, Sebastien Bubeck, Scott McKinney, Scott Lessans, Sandhini Agarwal, Sam Toizer, Sam Altman, Saachi Jain, Romain Huet, Rahul K. Arora, Philippe Tillet, Olivia Watkins, Nivedita Brett, Nikhil Vyas, Miles Wang, Michihiro Yasunaga, Michelle Pokrass, Mia Glaese, Max Schwarzer, Mark Chen, Mario Lezcano-Casado, Marat Dukhan, Lukas Gross, Ludovic Peran, Ludovic Peran, Lindsay McCallum, Lin Yang, Lily (Xiaoxuan) Liu, Leher Pathak, Lama Ahmad, Kristian Georgiev, Kristen Ying, Kimmy Richardson, Kevin Whinnery, Kevin Weil, Kevin Lu, Kevin Fives, Kendal Simon, Katia Gil Guzman, Karan Singhal, Karan Singhal, Kai Chen, Josh McGrath, Jordan Liss, Jongsoo Park, John Hallman, Johannes Heidecke, Jiancheng Liu, Ji Lin, Jason Kwon, Jason Ai, James Park Lennon, Jakub Pachocki, Jacob Huh, Jackie Hehir, Irina Kofman, Huida Qiu, Hongyu Ren, Harshit Sikchi, Hannah Wong, Haitang Hu, Haitang Hu, Haiming Bao, Hadi Salman, Guillaume Leclerc, Greg Brockman, Gideon Myles, Giambattista Parascandolo, Gaby Raila, Foivos Tsimpourlas, Filippo Raso, Eugene Brevdo, Eric Wallace, Enoch Cheung, Elizabeth Proehl, Elaine Ya Le, Edwin Arbus, Eddie Zhang, Dominik Kundel, Dmitry Pimenov, David Robinson, Dane Stuckey, Dana Palmie, Dan Cook, Cyril Zhang, Chris Lu, Chris Koch, Che Chang, Cedric Whitney, Casey Dvorak, Carolina Paz, Brian Zhang, Bowen Baker, Bob Rotsted, Boaz Barak, Ashley Pantuliano, Andy Applebaum, Amy Wendling, Ally Bennett, Alexander Neitz, Alex Paino, Alex Nichol, Alec Helyar, Aidan McLaughlin, Aidan Clark i Adam Goucher


