Nasze zgłoszenia w ramach First Proof
Przestawiamy nasze próby dowodów w ramach First Proof – wyzwania matematycznego, które sprawdza, czy AI potrafi generować weryfikowalne dowody dla problemów z określonych dziedzin.
Wykorzystaliśmy model wewnętrzny do analizy wszystkich 10 problemów First Proof(otwiera nowe okno), wyzwania matematycznego na poziomie naukowym, którego celem jest sprawdzenie, czy systemy sztucznej inteligencji są w stanie generować poprawne i możliwe do zweryfikowania próby dowodu. W przeciwieństwie do zadań matematycznych wymagających krótkiej odpowiedzi lub zadań konkursowych zadania te wymagają tworzenia kompleksowych argumentacji w specjalistycznych dziedzinach, a ich poprawność jest trudna do ustaleniu bez weryfikacji przez eksperta. Autorzy zadań First Proof są czołowymi ekspertami w swoich dziedzinach, a co najmniej kilka z tych zadań pozostawało nierozwiązanych przez wiele lat, zanim autorzy odkryli do nich rozwiązania. Wydział akademicki, który w znacznym stopniu pokrywa się z obszarami tematycznymi, mógłby prawdopodobnie rozwiązać wiele problemów w ciągu jednego tygodnia.
Udostępniliśmy(otwiera nowe okno) nasze próby dowodów w sobotę 14 lutego 2026 r. o godz. 12:00 czasu pacyficznego. Na podstawie opinii ekspertów uważamy, że co najmniej pięć prób dowodu modelu (problemy 4, 5, 6, 9 i 10) ma duże szanse na poprawność, a kilka innych pozostaje w trakcie weryfikacji. Początkowo uważaliśmy, że nasze rozwiązanie zadania 2 jest prawdopodobnie poprawne. Na podstawie oficjalnego komentarza First Proof oraz dalszej analizy społeczności uważamy obecnie, że jest nieprawidłowe. Jesteśmy wdzięczni za zaangażowanie i czekamy na dalsze opinie. Pełny zestaw naszych prób dowodów można znaleźć tutaj(otwiera nowe okno). Preprint zawiera wszystkie dziesięć prób dowodów oraz nowo dodany dodatek z wzorcami poleceń i przykładami, które mają na celu symulację naszych ręcznych interakcji z modelami podczas tego procesu.
Uważamy, że pionierskie badania naukowe są prawdopodobnie najważniejszym sposobem oceny możliwości modeli sztucznej inteligencji nowej generacji. Testy porównawcze są przydatne, ale mogą nie uwzględniać niektórych najtrudniejszych aspektów badań: utrzymania długich łańcuchów rozumowania, wyboru odpowiednich abstrakcji, radzenia sobie z niejasnościami w sformułowaniach problemów oraz tworzenia argumentów, które przetrwają analizę ekspertów. Pionierskie wyzwania, takie jak First Proof, pomagają nam poddać te możliwości testom warunków skrajnych w sytuacjach, w których poprawność jest trudna do zweryfikowania, a tryby awarii dostarczają cennych informacji.
„Obecnie szkolimy nowy model, którego głównym celem jest zwiększenie poziomu rygoru w myśleniu, tak aby model mógł myśleć nieprzerwanie przez wiele godzin i zachować wysoki poziom pewności swoich wniosków. Kiedy ogłoszono problemy w ramach First Proof, wydawało się to idealnym poligonem doświadczalnym, więc w weekend postanowiłem to wypróbować. Udało się już rozwiązać dwa z problemów (nr 9 i nr 10). W miarę szkolenia wzrastała wydajność – ostatecznie, według naszych szacunków, udało się rozwiązać co najmniej trzy kolejne problemy. Byliśmy szczególnie zadowoleni, gdy rozwiązano problem nr 6, a dwa dni później problem nr 4, ponieważ były to zagadnienia znane wielu z nas. To niesamowite obserwować, jak model staje się z dnia na dzień coraz bardziej inteligentny.
– James R. Lee (badacz OpenAI ds. rozumowania)
Uruchomiliśmy model przy ograniczonym nadzorze człowieka. Podczas tworzenia poleceń dla kolejnych wersji modelu w trakcie szkolenia czasami sugerowaliśmy ponowne wypróbowanie strategii, które okazały się skuteczne we wcześniejszych próbach. W przypadku niektórych prób poprosiliśmy model o rozszerzenie lub wyjaśnienie części dowodu po otrzymaniu opinii ekspertów, aby ułatwić weryfikację rozumowania. Ułatwiliśmy również wymianę informacji między tym modelem a ChatGPT w celu weryfikacji oraz zmiany formatowania i stylu. W przypadku niektórych problemów przedstawiamy najlepsze z kilku prób, wybrane na podstawie ludzkiej oceny. Był to szybki sprint, a nasz proces nie był tak przejrzysty, jak moglibyśmy sobie tego życzyć w przypadku odpowiednio kontrolowanej oceny. Z radością czekamy na rozmowy z organizatorami First Proof na temat bardziej rygorystycznych ram eksperymentu i oceny dla przyszłych iteracji.
Praca ta opiera się na wcześniejszych wynikach badań nad pionierskimi modelami rozumującymi w dziedzinie matematyki i nauk ścisłych. W lipcu 2025 roku osiągnęliśmy rezultaty na poziomie złotego medalu(otwiera nowe okno) na Międzynarodowej Olimpiadzie Matematycznej dzięki modelowi rozumującemu do zastosowań ogólnych (35/42 punktów). W listopadzie 2025 r. opublikowaliśmy artykuł „Wczesne eksperymenty w zakresie przyspieszenia badań naukowych dzięki modelowi GPT‑5” zawierający zestaw studiów przypadków, w których GPT‑5 pomógł naukowcom osiągnąć konkretne postępy w matematyce, fizyce, biologii i innych dziedzinach, wraz z dostrzeżonymi przez nas ograniczeniami. Ostatnio opisaliśmy współpracę fizyczną, w ramach której model GPT‑5.2 zaproponował potencjalne wyrażenie dla wzoru amplitudy gluonu, które następnie zostało formalnie udowodnione przez model wewnętrzny i zweryfikowane przez autorów.
Z niecierpliwością czekamy na głębszą współpracę ze społecznością w zakresie oceny rozumowania na poziomie naukowym, w tym opinii ekspertów na temat tych prób, i cieszymy się, że będziemy mogli udostępnić te nowe możliwości w przyszłych modelach publicznych.


