20. фебруар 2026.

Naši podnesci za First Proof

Delimo naše pokušaje dokaza za First Proof, matematički izazov koji testira da li AI može da proizvede proverljive dokaze za probleme iz specifičnih oblasti.

Pogledajte naš skup pokušaja dokaza

Учитавање…

Pokrenuli smo interni model na svih 10 problema First Proof⁠(отвара се у новом прозору), matematičkog izazova istraživačkog nivoa osmišljenog da testira da li AI sistemi mogu da proizvedu ispravne, proverljive pokušaje dokaza. Za razliku od matematike sa kratkim odgovorima ili takmičarskog tipa, ovi problemi zahtevaju izgradnju celovitih argumenata u specijalizovanim domenima, a ispravnost je teško utvrditi bez stručne provere. Autori First Proof problema su vodeći stručnjaci u svojim oblastima, a najmanje nekoliko problema je godinama bilo otvoreno pre nego što su autori pronašli rešenja. Akademsko odeljenje sa značajnim preklapanjem sa ovim oblastima moglo bi verovatno da reši mnoge od problema za jednu nedelju.

Naše pokušaje dokaza smo objavili⁠(отвара се у новом прозору) u subotu, 14. februara 2026. u 12:00 AM PT. Na osnovu povratnih informacija stručnjaka, verujemo da najmanje pet pokušaja dokaza modela (problemi 4, 5, 6, 9 i 10) ima veliku verovatnoću da su tačni, a nekoliko drugih je i dalje u razmatranju. U početku smo verovali da je naš pokušaj za problem 2 verovatno tačan. Na osnovu zvaničnog First Proof komentara i dalje analize zajednice, sada verujemo da nije tačan. Zahvalni smo na angažovanju i radujemo se nastavku pregleda. Ceo skup naših pokušaja dokaza možete naći ovde⁠(отвара се у новом прозору). Preprint uključuje svih deset pokušaja dokaza, kao i naknadno dodat dodatak sa obrascima instrukcija i primerima koji imaju za cilj da simuliraju naše ručne interakcije sa modelima tokom procesa.

Verujemo da su nova gраничna istraživanja možda najvažniji način za procenu sposobnosti AI modela sledeće generacije. Benchmark testovi su korisni, ali mogu da propuste neke od najtežih delova istraživanja: održavanje dugih nizova rezonovanja, izbor pravih apstrakcija, rukovanje dvosmislenošću u formulacijama problema i stvaranje argumenata koji izdržavaju stručnu proveru. Granični izazovi poput First Proof pomažu nam da testiramo te sposobnosti u okruženjima gde ispravnost nije trivijalno proveriti i gde su načini neuspeha informativni.

„Trenutno obučavamo novi model čiji je primarni fokus povećanje nivoa rigoroznosti u njegovom razmišljanju, sa ciljem da model može neprekidno da razmišlja mnogo sati i ostane veoma siguran u svoje zaključke. Kada su objavljeni First Proof problemi, to je delovalo kao savršeno testno okruženje, pa sam ga tokom vikenda isprobao. Već tada je mogao da reši dva problema (#9 i #10). Kako se obučavao, postajao je sve sposobniji, da bi na kraju — po našoj proceni — rešio još najmanje tri. Bili smo posebno zadovoljni kada je rešio #6, a zatim, dva dana kasnije, i #4, pošto su ti problemi bili iz oblasti koje su mnogima od nas poznate. Prilično je neverovatno posmatrati kako model iz dana u dan opipljivo postaje pametniji.“

– James R. Lee (OpenAI istraživač, rezonovanje)

Model smo pokretali uz ograničen ljudski nadzor. Kada smo davali instrukcije verzijama modela tokom obuke, ponekad smo predlagali da ponovo pokuša strategije koje su delovale obećavajuće u ranijim pokušajima. Za neke pokušaje tražili smo od modela da proširi ili razjasni delove dokaza nakon dobijanja stručnih povratnih informacija, kako bi rezonovanje bilo lakše proveriti. Takođe smo omogućili razmenu između ovog modela i ChatGPT radi provere, formatiranja i stila. Za neke probleme predstavljamo najbolji od nekoliko pokušaja, izabran ljudskom procenom. Ovo je bio brz sprint i naš proces nije bio onoliko čist koliko bismo želeli u pravilno kontrolisanoj evaluaciji. Radujemo se razgovorima sa organizatorima First Proof o rigoroznijem eksperimentu i okviru evaluacije za buduće iteracije.

Ovaj rad se nadovezuje na ranije rezultate gраничnih modela rezonovanja u matematici i nauci. U julu 2025. dostigli smo učinak na nivou zlatne medalje⁠(отвара се у новом прозору) na Međunarodnoj matematičkoj olimpijadi sa modelom rezonovanja opšte namene (35/42 poena). U novembru 2025. podelili smo „Rane eksperimente u ubrzavanju nauke uz GPT‑5“, skup studija slučaja u kojima je GPT‑5 pomogao istraživačima da ostvare konkretan napredak u matematici, fizici, biologiji i drugim oblastima, zajedno sa ograničenjima koja smo uočili. A najskorije smo objavili saradnju u fizici u kojoj je GPT‑5.2 predložio kandidatni izraz za formulu gluonske amplitude, koji je zatim formalno dokazao interni model, a autori verifikovali.

Radujemo se dubljem angažovanju sa zajednicom oko toga kako procenjivati istraživačko rezonovanje, uključujući stručne povratne informacije o ovim pokušajima, i uzbuđeni smo što ćemo ove nove sposobnosti učiniti dostupnim u budućim javnim modelima.

2026.

Аутор

OpenAI

Наставите са читањем

Прикажи све

Како су два подешавања утростручила наше резултате на мерилу ARC-AGI-3

Истраживање29. јул 2026.

oai Science Academic Research Academic Research 1x1

Accelerating scientific discovery with ChatGPT for Academic Researchers

Компанија29. јул 2026.

Scientific computing agentic AI card image (1x1)

Научно рачунарство у доба агентског AI-ја

Публикација28. јул 2026.