Udostępniamy OpenAI o3‑mini, najnowszy i najbardziej efektywny kosztowo z naszych modeli rozumowania. Od dziś można go używać w ChatGPT i przy użyciu interfejsu API. W grudniu 2024 r. przedstawiliśmy jego wersję poglądową. Jest zaawansowany, szybki i przesuwa granice możliwości małych modeli. Cechuje się wyjątkowymi zdolnościami STEM — szczególnie dobrze radzi sobie z nauką, matematyką i programowaniem. Jednocześnie pozwala utrzymać niskie koszty i zachować niskie opóźnienie modelu OpenAI o1‑mini.
OpenAI o3‑mini to nasz pierwszy mały model rozumowania spełniający prośby programistów, w tym dotyczące wywołania funkcji(otwiera nowe okno), ustrukturyzowanych danych wyjściowych(otwiera nowe okno) i wiadomości programisty(otwiera nowe okno), dlatego jest gotowy do natychmiastowego użycia w środowisku produkcyjnym. Podobnie jak modele OpenAI o1‑mini i OpenAI o1‑preview, o3‑mini obsługuje strumieniowe przesyłanie danych(otwiera nowe okno). Ponadto programiści mogą wybierać spośród trzech poziomów wysiłku związanego z rozumowaniem(otwiera nowe okno) – niskiego, średniego i wysokiego – w celu dostosowania go do własnych potrzeb. Dzięki tej elastyczności o3‑mini może „myśleć intensywniej” podczas rozwiązywania złożonych zadań lub priorytetowo traktować szybkość przy problemach z opóźnieniem. o3‑mini nie ma zdolności wizualnych, dlatego programiści powinni nadal używać OpenAI o1 do zadań wymagających rozumowania wizualnego. Obsługa modelu o3‑mini jest od dzisiaj wdrażana dla interfejsu Chat Completions API, Assistants API i Batch API dla wybranych programistów korzystających z poziomów użytkowania API 3-5(otwiera nowe okno).
Od dzisiaj użytkownicy korzystający z planów ChatGPT Plus, Team i Pro mogą używać modelu OpenAI o3‑mini. Klienci z planem Enterprise otrzymają do niego dostęp w lutym. Model o3‑mini zastąpi w menu wyboru model OpenAI o1‑mini. o3‑mini ma od niego większe limity zapytań i niższe opóźnienia. Jest zatem atrakcyjnym wyborem w przypadku zadań STEM i zadań wymagających logicznego rozwiązywania problemów. W ramach przejścia na nowy model trzykrotnie zwiększamy limit zapytań dla użytkowników korzystających z planów Plus i Team z 50 wiadomości dziennie (o1‑mini) do 150 wiadomości dziennie (o3‑mini). Ponadto o3‑mini korzysta teraz z funkcji wyszukiwania, która pozwala znaleźć aktualne odpowiedzi i udostępnić je z linkami do odpowiednich źródeł w Internecie. Jest to wczesny prototyp. Prace nad zintegrowaniem funkcji wyszukiwania z naszymi modelami rozumowania nie zostały jeszcze zakończone.
Od dzisiaj użytkownicy korzystający z planu Free mogą również wypróbować OpenAI o3‑mini, wybierając opcję „Rozumuj” w oknie wiadomości lub generując odpowiedź ponownie. To pierwszy raz, gdy model rozumowania został udostępniony niepłacącym użytkownikom ChatGPT.
Model OpenAI o1 pozostaje naszym szerszym modelem rozumowania opartym na wiedzy ogólnej. OpenAI o3‑mini to wyspecjalizowana alternatywa pod kątem dziedzin technicznych wymagających precyzji i szybkości. ChatGPT o3‑mini używa średniego wysiłku związanego z rozumowaniem, zapewniając równowagę między szybkością i dokładnością. Wszyscy płacący użytkownicy będą mogli także wybrać model o3‑mini‑high. Jest to model o większej inteligencji, który generuje odpowiedzi nieco dłużej. Użytkownicy korzystający z planu Pro będą mieli ograniczony dostęp zarówno do modelu o3‑mini, jak i modelu o3‑mini‑high.
OpenAI o3‑mini, podobnie jak jego poprzednik, OpenAI o1, został zoptymalizowany pod kątem rozumowania STEM. o3‑mini przy średnim wysiłku związanym z rozumowaniem osiąga wyniki porównywalne z o1 w matematyce, programowaniu i nauce, udzielając jednocześnie szybszych odpowiedzi. Oceny testerów będących ekspertami wykazały, że o3‑mini generuje dokładniejsze i bardziej zrozumiałe odpowiedzi, wykazując się lepszymi zdolnościami rozumowania niż OpenAI o1‑mini. Testerzy w 56% przypadków preferowali odpowiedzi generowane przez o3‑mini w porównaniu z o1‑mini i zaobserwowali 39-procentowy spadek liczby poważnych błędów przy trudnych pytaniach z życia codziennego. Przy średnim wysiłku związanym z rozumowaniem o3‑mini dorównuje o1 w niektórych z najtrudniejszych testach rozumowania i inteligencji, w tym AIME i GPQA.

Mathematics: With low reasoning effort, OpenAI o3‑mini achieves comparable performance with OpenAI o1‑mini, while with medium effort, o3‑mini achieves comparable performance with o1. Meanwhile, with high reasoning effort, o3‑mini outperforms both OpenAI o1‑mini and OpenAI o1, where the gray shaded regions show the performance of majority vote (consensus) with 64 samples.

PhD-level science: On PhD-level biology, chemistry, and physics questions, with low reasoning effort, OpenAI o3‑mini achieves performance above OpenAI o1‑mini. With high effort, o3‑mini achieves comparable performance with o1.

Research-level mathematics: OpenAI o3‑mini with high reasoning performs better than its predecessor on FrontierMath. On FrontierMath, when prompted to use a Python tool, o3‑mini with high reasoning effort solves over 32% of problems on the first attempt, including more than 28% of the challenging (T3) problems. These numbers are provisional, and the chart above shows performance without tools or a calculator.

Competition coding: On Codeforces competitive programming, OpenAI o3‑mini achieves progressively higher Elo scores with increased reasoning effort, all outperforming o1‑mini. With medium reasoning effort, it matches o1’s performance.

Software engineering: o3‑mini is our highest performing released model on SWEbench-verified. For additional datapoints on SWE-bench Verified results with high reasoning effort, including with the open-source Agentless scaffold (39%) and an internal tools scaffold representing maximum capability elicitation (61%), see our system card as the source of truth. All SWE-bench evaluation runs use a fixed subset of n=477 verified tasks which have been validated on our internal infrastructure.

LiveBench coding: OpenAI o3‑mini surpasses o1‑high even at medium reasoning effort, highlighting its efficiency in coding tasks. At high reasoning effort, o3‑mini further extends its lead, achieving significantly stronger performance across key metrics.

General knowledge: o3‑mini outperforms o1‑mini in knowledge evaluations across general knowledge domains.


Human preference evaluation: Evaluations by external expert testers also show that OpenAI o3‑mini produces more accurate and clearer answers, with stronger reasoning abilities than OpenAI o1‑mini, especially for STEM. Testers preferred o3‑mini's responses to o1‑mini 56% of the time and observed a 39% reduction in major errors on difficult real-world questions.
OpenAI o3‑mini, którego inteligencja jest porównywalna z modelem OpenAI o1, zapewnia większą wydajność i lepsze wyniki. Oprócz ocen dotyczących zadań STEM o3‑mini ma doskonałe wyniki w dodatkowych testach matematycznych i merytorycznych przy średnim wysiłku rozumowania. W testach A/B model o3‑mini udzielał odpowiedzi o 24% szybciej niż o1‑mini. Średni czas odpowiedzi wynosił 7,7 s w porównaniu z 10,16 s.

Latency: o3‑mini has an avg 2500ms faster time to first token than o1‑mini.
Jedną z najważniejszych technik użytych przez nas podczas uczenia OpenAI o3‑mini bezpiecznego odpowiadania jest zgodność oparta na analizie i rozumowaniu. Model został wytrenowany tak, aby przeprowadzał rozumowanie dotyczące napisanych przez człowieka zasad bezpieczeństwa przed udzieleniem odpowiedzi na polecenia użytkownika. Podobnie jak w przypadku OpenAI o1 zauważyliśmy, że o3‑mini znacznie przewyższa GPT‑4o w trudnych testach dotyczących bezpieczeństwa i obejścia zabezpieczeń. Przed wdrożeniem dokładnie oceniliśmy ryzyko związane z bezpieczeństwem o3‑mini, stosując to samo podejście do gotowości, wykorzystanie zewnętrznego czerwonego zespołu i ocenę bezpieczeństwa, co w przypadku o1. Dziękujemy testerom bezpieczeństwa, którzy zgłosili się do testowania modelu o3‑mini w ramach wczesnego dostępu. Szczegóły dotyczące poniższych ocen wraz z wyczerpującym objaśnieniem potencjalnych czynników ryzyka i skuteczności środków ograniczających ryzyko zawiera karta systemu o3‑mini.


Wydanie OpenAI o3‑mini to kolejny krok w misji OpenAI polegającej na przesuwaniu granic inteligencji w rozsądnej cenie. Optymalizacja rozumowania w dziedzinach STEM przy jednoczesnym utrzymaniu niskich kosztów pozwala zwiększyć przystępność wysokiej jakości AI. Udostępnienie tego modelu stanowi kontynuację naszych działań na rzecz obniżania kosztów inteligencji – od wydania GPT‑4 cena za token spadła o 95% – przy jednoczesnym zachowaniu najwyższej klasy zdolności rozumowania. AI staje się coraz powszechniejsza. Pozostajemy liderem, tworząc pionierskie modele, łączące inteligencję, wydajność i bezpieczeństwo na dużą skalę.
Autorzy
Trening
Brian Zhang, Eric Mitchell, Hongyu Ren, Kevin Lu, Max Schwarzer, Michelle Pokrass, Shengjia Zhao, Ted Sanders
Przeprowadzanie ocen
Adam Kalai, Alex Tachard Passos, Ben Sokolowsky, Elaine Ya Le, Erik Ritter, Hao Sheng, Hanson Wang, Ilya Kostrikov, James Lee, Johannes Ferstad, Michael Lampe, Prashanth Radhakrishnan, Sean Fitzgerald, Sebastien Bubeck, Yann Dubois, Yu Bai
Przeprowadzanie ocen i opracowywanie gotowości dla modeli pionierskich
Andy Applebaum, Elizabeth Proehl, Evan Mays, Joel Parish, Kevin Liu, Leon Maksin, Leyton Ho, Miles Wang, Michele Wang, Olivia Watkins, Patrick Chao, Samuel Miserendino, Tejal Patwardhan
Inżynieria
Adam Walker, Akshay Nathan, Alyssa Huang, Andy Wang, Ankit Gohel, Ben Eggers, Brian Yu, Bryan Ashley, Callie Riggins Zetino, Chengdu Huang, Christian Hoareau, Davin Bogan, Emily Sokolova, Eric Horacek, Eric Jiang, Felipe Petroski Such, Jonah Cohen, Josh Gross, Justin Becker, Kan Wu, Kevin Whinnery, Larry Lv, Lee Byron, Lien Mamitsuka, Manoli Liodakis, Max Johnson, Mike Trpcic, Murat Yesildal, Rasmus Rygaard, RJ Marsan, Rohit Ramchandani, Rohan Kshirsagar, Roman Huet, Sara Conlon, Shuaiqi (Tony) Xia, Siyuan Fu, Srinivas Narayanan, Sulman Choudhry, Surya Mamidyala, Tomer Kaftan, Trevor Creech
Wyszukiwanie
Adam Fry, Adam Perelman, Brandon Wang, Cristina Scheau, Philip Pronin, Sundeep Tirumalareddy, Will Ellsworth, Zewei Chu
Produkt
Antonia Woodford, Beth Hoover, Jake Brill, Kelly Stirman, Minnia Feng, Neel Ajjarapu, Nick Turley, Nikunj Handa, Olivier Godement
Bezpieczeństwo
Alex Beutel, Andrea Vallone, Andrew Duberstein, Enis Sert, Eric Wallace, Grace Zhao, Irina Kofman, Jieqi Yu, Joaquin Quinonero Candela, Madelaine Boyd, Matt Jones, Mehmet Yatbaz, Mike McClay, Mingxuan Wang, Saachi Jain, Sandhini Agarwal, Sam Toizer, Santiago Hernández, Steve Mostovoy, Young Cha, Tao Li, Yunyun Wang
Zewnętrzni członkowie zespołu czerwonego
Lama Ahmad, Michael Lampe, Troy Peterson
Kierownicy programu badawczego
Carpus Chang, Kristen Ying
Kierownictwo
Aidan Clark, Dane Stuckey, Jerry Tworek, Jakub Pachocki, Johannes Heidecke, Kevin Weil, Liam Fedus, Mark Chen, Sam Altman, Wojciech Zaremba