Preskočite na glavni sadržaj
OpenAI

20. februar 2026.

IstraživanjeZaključak

Naši prvi dokazi

Dijelimo naše pokušaje dokaza za Prvi dokaz, matematički izazov koji testira da li vještačka inteligencija može generirati provjerljive dokaze o problemima specifičnim za domenu.

Učitavanje…

Pokrenuli smo interni model na svih deset Prvih dokaza(otvara se u novom prozoru) problema, istraživačkog matematičkog izazova osmišljenog da testira mogu li AI sistemi proizvesti tačne i provjerljive pokušaje dokaza. Za razliku od kratkih odgovora ili takmičarske matematike, ovi problemi zahtijevaju izgradnju cjelovitih argumenata u specijaliziranim domenama, a ispravnost je teško utvrditi bez stručnog pregleda. Autori problema iz Prvog dokaza su vodeći stručnjaci u svojim oblastima, a barem nekoliko problema je bilo otvoreno godinama prije nego što su autori pronašli rješenja. Akademski odjel koji ima značajno preklapanje s predmetnim oblastima mogao bi riješiti mnoge probleme u roku od jedne sedmice.

Podijelili(otvara se u novom prozoru) smo naše pokušaje dokazivanja u subotu, 14. februara 2026. u 00:00 PT. Na osnovu povratnih informacija stručnjaka, vjerujemo da najmanje pet pokušaja dokaza modela (problemi 4, 5, 6, 9 i 10) ima veliku vjerovatnoću da su tačni, a nekoliko drugih je i dalje na pregledu. Isprva smo mislili da je naš pokušaj za problem 2 vjerovatno tačan. Na osnovu zvaničnog komentara First Proof i dodatne analize zajednice, sada vjerujemo da je to netačno. Zahvalni smo na angažmanu i radujemo se daljnjem pregledu. Cijeli set naših pokušaja dokazivanja možete pronaći ovdje(otvara se u novom prozoru). Preprint uključuje svih deset pokušaja dokaza, plus novododani dodatak s obrascima upita i primjerima koji imaju za cilj simulirati naše ručne interakcije s modelima tokom procesa.

Vjerujemo da su nova istraživanja na granici možda najvažniji način za procjenu sposobnosti modela umjetne inteligencije sljedeće generacije. Referentne tačke su korisne, ali mogu propustiti neke od najtežih aspekata istraživanja: održavanje dugih lanaca rezonovanja, odabir pravih apstrakcija, rukovanje dvosmislenošću u problematičnim izjavama i izrada argumenata koji preživljavaju stručnu provjeru. Granični izazovi poput Prvog dokaza pomažu nam da testiramo te sposobnosti u okruženjima gdje provjera ispravnosti nije trivijalna, a načini kvara su informativni.

„Trenutno obučavamo novi model čiji je primarni fokus povećanje nivoa strogosti u razmišljanju, s ciljem da model može kontinuirano razmišljati satima i ostati vrlo siguran u svoje zaključke. Kada su objavljeni problemi za First Proof, činilo se kao savršeno testno okruženje, pa sam ga isprobao tokom vikenda. Već je uspjelo riješiti dva problema (Br. 9 i Br. 10). Kako se obučavao, postajao je sve sposobniji, na kraju rješavajući–po našoj procjeni–barem još tri. Bili smo posebno zadovoljni kada je riješio Br. 6, a zatim, dva dana kasnije, Br. 4, jer su ti problemi bili iz oblasti koje su mnogima od nas poznate. Prilično je nevjerovatno posmatrati kako model svakim danom postaje opipljivo pametniji.”

– James R. Lee (istraživač u OpenAI-u, rezonovanje)

Pokrenuli smo model uz ograničeni ljudski nadzor. Kada smo poticali verzije modela tokom obuke, ponekad smo predlagali strategije ponovnog pokušaja koje su se pokazale korisnim u ranijim pokušajima. Za neke pokušaje, zamolili smo model da proširi ili razjasni dijelove dokaza nakon što smo primili povratne informacije od stručnjaka, kako bi rezonovanje bilo lakše za provjeru. Također smo omogućili dvosmjernu komunikaciju između ovog modela i ChatGPT‑a radi provjere, formatiranja i stila. Za neke probleme, predstavljamo najbolji od nekoliko pokušaja, odabran ljudskom procjenom. Ovo je bio brz sprint, a naš proces nije bio onako čist kako bismo željeli u pravilno kontroliranoj evaluaciji. Radujemo se razgovorima s organizatorima Prvog dokaza o rigoroznijem eksperimentu i okviru za evaluaciju budućih iteracija.

Ovaj rad se nadovezuje na ranije rezultate graničnih modela rezonovanja u matematici i nauci. U julu 2025. godine, postigli smo učinak na nivou zlatne medalje(otvara se u novom prozoru) na Međunarodnoj matematičkoj olimpijadi s opšte-namjenskim modelom rezonovanja (35/42 bodova). U novembru 2025. godine, podijelili smo „Rani eksperimenti u ubrzavanju nauke pomoću GPT‑5”, skup studija slučaja u kojima je GPT‑5 pomogao istraživačima da ostvare konkretan napredak u matematici, fizici, biologiji i drugim oblastima, zajedno s ograničenjima koja smo primijetili. I najnovije, izvijestili smo o saradnji u fizici gdje je GPT‑5.2 predložio kandidatni izraz za formulu gluonske amplitude, koji je zatim formalno dokazao interni model i koji su autori potvrdili.

Radujemo se dubljem angažmanu sa zajednicom o tome kako evaluirati rezonovanje na nivou istraživanja, uključujući stručne povratne informacije o ovim pokušajima, i uzbuđeni smo što ćemo ove nove mogućnosti učiniti dostupnim u budućim javnim modelima.

Autor

OpenAI