Przejdź do treści głównej
OpenAI

11 grudnia 2025

PublikacjaProduktFirma

Rozwój nauk ścisłych i matematyki z GPT‑5.2

GPT‑5.2 to nasz najpotężniejszy model w historii przeznaczony do zadań z zakresu matematyki i nauk ścisłych.

Ładowanie…

Jedną z naszych nadziei związanych z zaawansowaną sztuczną inteligencją jest to, że przyspieszy ona badania naukowe z korzyścią dla wszystkich, pomoże naukowcom przeanalizować więcej pomysłów, szybciej je przetestować i przekształcić ich odkrycia w rzeczywiste korzyści. 

W ciągu ostatniego roku ściśle współpracowaliśmy z matematykami, fizykami, biologiami i informatykami, aby zrozumieć, w jaki sposób AI może pomóc im pomóc, a czego sztucznej inteligencji jeszcze brakuje. W zeszłym miesiącu opublikowaliśmy artykuł, który zbiera wczesne studia przypadków z matematyki, fizyki, biologii, informatyki, astronomii i materiałoznawstwa, w których GPT‑5 pomógł naukowcom. Pokazujemy w nim, jak GPT‑5 już zaczyna usprawniać rzeczywistą pracę naukowców. Dzięki GPT‑5.2 zaczynamy dostrzegać, że te korzyści stają się coraz bardziej spójne i niezawodne.

Wyższa wydajność, gdy wymagana jest precyzja

GPT‑5.2 Pro i GPT‑5.2 Thinking to nasze najpotężniejsze modele do zadań z zakresu matematyki i innych nauk ścisłych.

Wydajne rozumowanie matematyczne stanowi fundament niezawodności w pracy naukowej i technicznej. Pozwala to modelom na stosowanie wieloetapowej logiki, zachowanie spójności ilościowej oraz unikanie subtelnych błędów, które mogą się kumulować w rzeczywistych analizach – od symulacji i statystyki po prognozowanie i modelowanie. Poprawa wyników w testach takich jak FrontierMath nie odzwierciedla wąskich umiejętności, lecz ogólne rozumowanie i abstrakcyjne wnioskowanie – zdolności, które bezpośrednio przekładają się na realizację zadań naukowych, takich jak programowanie, analiza danych i projektowanie eksperymentów.

Zdolności te są również ściśle powiązane z postępami zmierzającymi w kierunku stworzenia inteligencji ogólnej. System, który potrafi niezawodnie rozumować poprzez abstrakcję, zachować spójność w długich łańcuchach myśli i uogólniać w różnych domenach, wykazuje cechy fundamentalne dla inteligencji ogólnej AGI. Nie są to sztuczki pozwalające wykonywać wyspecjalizowane zadania, ale szerokie umiejętności rozumowania, które można przenosić i stosować na wielu polach – w nauce, inżynierii i podejmowaniu decyzji w rzeczywistym świecie.

Wierzymy, że GPT‑5.2 Pro i GPT‑5.2 Thinking to najlepsze na świecie modele wspomagające pracę naukowców. W teście Diament GPQA, składającym się z pytań i odpowiedzi na poziomie magisterskim „odpornym” na rozwiązanie z użyciem Google model GPT‑5.2 Pro osiągnął już wynik 93,2%, a tuż za nim plasuje się GPT‑5.2 Thinking z oceną 92,4%.

W teście GPQA Diamond(otwiera nowe okno) modele odpowiadają na pytania wielokrotnego wyboru z fizyki, chemii i biologii. Nie włączono żadnych narzędzi, a poziom rozumowania ustawiono na maksymalny.

W teście FrontierMath (poziom 1–3) badającym umiejętności matematyczne na poziomie eksperckim GPT‑5.2 Thinking ustanowił nowy rekord, rozwiązując 40,3% problemów.

W teście FrontierMath(otwiera nowe okno) modele rozwiązują problemy matematyczne na poziomie eksperckim. Włączono narzędzie Python, a poziom rozumowania ustawiono na maksymalny.

Studium przypadku

GPT‑5.2 is not only strong at graduate-level science problems. We now regularly see our frontier models contributing solutions to previously unsolved—and increasingly subtle—questions in mathematics and the sciences.

In this case study, we describe how GPT‑5.2 Pro helped resolve an open research problem in statistical learning theory, documented in a new paper, On Learning-Curve Monotonicity for Maximum Likelihood Estimators(otwiera nowe okno).

The question (“If you collect more data, do your results reliably get better?”) shows up any time you fit a model from data. You can draw a learning curve that tracks average error as you add more examples. In the best case, the curve is monotone. More data means less error, every step of the way. That is the behavior people hope for, and often assume.

But over the last few years, researchers have learned that this intuition can fail. A line of work kicked off by an open problem posed at the Conference on Learning Theory (COLT) in 2019 by Viering, Mey, and Loog showed that the answer is often no. Even very simple, well-behaved toy setups can have non-monotonic learning curves, where adding data increases expected error. That surprise triggered a wave of follow-up papers. They expanded the list of settings where these reversals happen and proposed increasingly elaborate methods designed to restore monotone behavior.

Still, one of the most basic cases remained unresolved. What happens in the cleanest textbook situation, where the statistical model is actually correct and the data follow the familiar bell curve pattern, with a known mean but unknown standard deviation? Researchers already knew that small changes to this setup could break monotonic behavior. But the answer remained unknown in this core case.

Our new paper demonstrates that in this clean setting, intuition prevails: learning is predictably improved by more data, rather than behaving in surprising or unstable ways. What makes this paper unusual is how the proof was obtained. The authors did not work out a strategy and then ask the model to fill in steps. They did not provide intermediate arguments or a proof outline. Instead, they asked GPT‑5.2 Pro to solve the open problem directly, and then carefully verified the proof, including review and validation by external subject-matter experts.

The authors then asked simple follow-up questions to see how far the idea could go. GPT‑5.2 Pro extended the result beyond the original problem to higher dimensional settings and other common statistical models. Throughout, the human role stayed focused on verification and clear writing, rather than supplying mathematical scaffolding.

Przyszłość

Ten wynik sugeruje obszary, w których systemy AI mogą udzielać wsparcia naukowcom, zwłaszcza w domenach z aksjomatycznymi podstawami teoretycznymi, takich jak matematyka i informatyka teoretyczna. W takich sytuacjach modele pionierskie mogą pomóc w odkrywaniu dowodów, testowaniu hipotez i określaniu połączeń, których realizowanie przez człowieka wymagałyby znacznego wysiłku.

Jednocześnie te systemy nie działają samodzielnie. Ekspercka ocena, weryfikacja i dogłębne zrozumienie dziedziny nauki pozostają kluczowe. Nawet bardzo zaawansowane modele mogą popełniać błędy lub opierać się na niejasnych założeniach. Ale mogą one także tworzyć szczegółowe, uporządkowane wnioski, które człowiek musi starannie przeanalizować i dopracować. Realne postępy w rozwijaniu AI zależą od procesów roboczych, które opierają się na stałej weryfikacji, przejrzystości i współpracy.

Stanowiąc studium przypadku, ten wynik ilustruje nowy sposób prowadzenia badań. Modele takie jak GPT‑5.2 mogą służyć jako narzędzia wspierające rozumowanie matematyczne i przyspieszające badania na ich wczesnych etapach, podczas gdy odpowiedzialność za poprawność, interpretację i kontekst pozostaje po stronie naukowców. Stosowanie takich systemów z rozmysłem może pomóc usprawnić istotne aspekty pracy teoretycznej, nie zastępując centralnej roli ludzkiego osądu w badaniach naukowych.