Naši podnesci za izazov First Proof
Dijelimo naše pokušaje dokazivanja za First Proof, matematički izazov koji testira može li umjetna inteligencija (AI) proizvesti provjerljive dokaze o problemima specifičnim za određenu domenu.
Pokrenuli smo interni model na svih 10 First Proof(otvara se u novom prozoru) problema, istraživački matematički izazov osmišljen za testiranje mogu li AI sustavi proizvesti ispravne, provjerljive pokušaje dokazivanja. Za razliku od matematike s kratkim odgovorima ili natjecateljskog tipa, ovi problemi zahtijevaju izradu cjelovitih argumenata u specijaliziranim domenama, a ispravnost je teško utvrditi bez stručne recenzije. Autori problema iz izazova First Proof vodeći su stručnjaci u svojim područjima, a barem nekoliko problema bili su otvoreni godinama prije nego što su autori pronašli rješenja. Akademski odjel koji se u velikoj mjeri preklapa s predmetnim područjima mogao bi riješiti mnoge probleme u roku od jednog tjedna.
Pokušaje dokazivanja podijelili(otvara se u novom prozoru) smo u subotu, 14. veljače 2026. u 12:00 AM PT. Na temelju povratnih informacija stručnjaka, vjerujemo da najmanje pet pokušaja dokazivanja modela (problemi 4, 5, 6, 9 i 10) imaju veliku vjerojatnost da su točni, dok su ostali još uvijek u postupku pregleda. Isprva smo vjerovali da je naš pokušaj za problem 2 vjerojatno točan. Na temelju službenog komentara na izazovu First Proof i daljnje analize zajednice, sada vjerujemo da je to netočno. Zahvaljujemo na angažmanu i veselimo se nastavku pregleda. Cijeli skup naših pokušaja dokazivanja možete pronaći ovdje(otvara se u novom prozoru). Pretisak uključuje svih deset pokušaja dokazivanja kao i novododani dodatak s uzorcima upita i primjerima koji imaju za cilj simulirati naše ručne interakcije s modelima tijekom procesa.
Vjerujemo da je novo napredno istraživanje možda najvažniji način za evaluaciju potencijala modela umjetne inteligencije sljedeće generacije. Referentni testovi su korisni, ali mogu propustiti neke od najtežih aspekata istraživanja: održavanje dugih lanaca rasuđivanja, odabir pravih apstrakcija, snalaženje u dvosmislenosti u izjavama na problemu i izrada argumenata koji prežive stručnu provjeru. Najnapredniji izazovi poput izazova First Proof pomažu nam testirati te potencijale u okruženjima u kojima je teško provjeriti ispravnost, a načini neuspjeha pružaju korisne informacije.
„Trenutačno obučavamo novi model čiji je primarni fokus povećanje razine rigoroznosti u razmišljanju, s ciljem da model može kontinuirano razmišljati satima i ostati vrlo siguran u svoje zaključke. Kada su objavljeni problemi izazova First Proof, činilo se kao savršeno okruženje za testiranje te sam ga isprobao tijekom vikenda. Već je uspio riješiti dva problema (br. 9 i br. 10). Kako se obučavao, postajao je sve sposobniji, na kraju rješavajući – prema našoj procjeni – barem još tri zadatka. Bili smo posebno zadovoljni kada je riješio problem br. 6, a zatim, dva dana kasnije, problem br. 4, jer su ti problemi bili iz područja poznatih mnogima od nas. Prilično je nevjerojatno promatrati kako model iz dana u dan postaje sve opipljivije pametniji.”
– James R. Lee (istraživač OpenAI-ja, Rasuđivanje)
Pokrenuli smo model uz ograničeni ljudski nadzor. Kada smo tijekom obuke usmjeravali verzije modela, ponekad smo predlagali ponavljanja strategija koje su se pokazale uspješnima u ranijim pokušajima. Na nekim pokušajima zatražili smo od modela da proširi ili razjasni dijelove dokazivanja nakon što smo primili povratne informacije od stručnjaka, kako bi rasuđivanje bilo lakše provjeriti. Također smo omogućili razmjenu informacija između ovog modela i ChatGPT‑ja radi provjere, formatiranja i stila. Na nekim problemima prikazujemo najbolji od nekoliko pokušaja, odabran prema ljudskoj prosudbi. Ovo je bio brz sprint, a naš proces nije bio onako uredan kako bismo željeli u pravilno kontroliranoj evaluaciji. Radujemo se razgovorima s organizatorima izazova First Proof o rigoroznijem okviru eksperimenta i evaluacije na budućim iteracijama.
Ovaj rad nadovezuje se na ranije rezultate naprednih modela za rasuđivanje u matematici i znanosti. U srpnju 2025. postigli smo razinu izvedbe za zlatnu medalju(otvara se u novom prozoru) na Međunarodnoj matematičkoj olimpijadi s općenamjenskim modelom za rasuđivanje (35/42 bodova). U studenom 2025. podijelili smo dokument „Rani eksperimenti u ubrzavanju znanosti s modelom GPT‑5“, skup studija slučaja u kojima je GPT‑5 pomogao istraživačima ostvariti konkretan napredak u matematici, fizici, biologiji i ostalim područjima, zajedno s ograničenjima koja smo primijetili. I najnovije, izvijestili smo o suradnji u fizici u kojoj je GPT‑5.2 predložio kandidatni izraz za formulu gluonske amplitude, koji je zatim formalno dokazao interni model i potvrdili autori.
Veselimo se dubljem angažmanu sa zajednicom o tome kako procijeniti rasuđivanje na istraživačkoj razini, uključujući stručne povratne informacije o ovim pokušajima, i uzbuđeni smo što ćemo ove nove potencijale učiniti dostupnima na budućim javnim modelima.


