Sari la conținutul principal
OpenAI

20 februarie 2026

CercetareConcluzie

Trimiterile noastre First Proof

Împărtășim încercările noastre de demonstrare pentru First Proof, o provocare matematică, care testează dacă AI poate produce demonstrații verificabile pentru probleme specifice domeniului.

Se încarcă…

Am rulat un model intern pe toate cele 10 probleme First Proof(se deschide într-o fereastră nouă), o provocare matematică la nivel de cercetare, concepută pentru a testa dacă sistemele de AI pot produce încercări de demonstrație corecte și verificabile. Spre deosebire de matematica cu răspunsuri scurte sau de tip competiție, aceste probleme necesită construirea unor argumente complete în domenii specializate, iar corectitudinea este greu de stabilit fără o evaluare de către experți. Autorii problemelor First Proof sunt experți de top în domeniile lor respective, iar cel puțin câteva dintre probleme au rămas deschise ani de zile înainte ca autorii să găsească soluții. Un departament academic care are o suprapunere substanțială cu domeniile de subiect ar putea, teoretic, să rezolve multe dintre probleme într-o săptămână.

Am împărtășit(se deschide într-o fereastră nouă) încercările noastre de First Proof sâmbătă, 14 februarie 2026, la 12:00 AM PT. Pe baza feedbackului de la experți, credem că cel puțin cinci dintre încercările de demonstrație ale modelului (problemele 4, 5, 6, 9 și 10) au șanse mari să fie corecte, iar câteva altele sunt încă în curs de revizuire. La început, am crezut că încercarea noastră pentru problema 2 era probabil corectă. Pe baza comentariului oficial First Proof și a analizei suplimentare din partea comunității, acum credem că este greșit. Suntem recunoscători pentru implicare și așteptăm cu nerăbdare să continuăm evaluarea. Întregul nostru set de încercări First Proof poate fi găsit aici(se deschide într-o fereastră nouă). Prepublicarea include toate cele zece încercări First Proof, plus o anexă nou-adăugată cu tipare de solicitări și exemple care urmăresc să simuleze interacțiunile noastre manuale cu modelele în timpul procesului.

Credem că cercetarea de vârf, inovatoare este poate cel mai important mod de a evalua capacitățile modelelor AI de generație următoare. Testele de referință sunt utile, dar pot să rateze unele dintre cele mai dificile părți ale cercetării: menținerea unor lanțuri lungi de raţionament, alegerea abstracțiilor potrivite, gestionarea ambiguității în enunțurile problemelor și producerea unor argumente care rezistă examinării experților. Provocări de vârf precum First Proof ne ajută să testăm la stres aceste capacități în contexte unde corectitudinea este dificil de verificat și modurile de eșec sunt informative.

„În prezent, antrenăm un nou model, al cărui obiectiv principal este creșterea rigurozității gândirii sale, cu scopul ca modelul să poată gândi continuu timp de multe ore și să rămână foarte încrezător în concluziile sale. Când au fost anunțate problemele First Proof, părea un teren de testare perfect, așa că în weekend le-am testat. Deja a reușit să rezolve două dintre probleme (#9 și #10). Pe măsură ce se antrena, devenea din ce în ce mai capabil, ajungând în cele din urmă să rezolve – după estimarea noastră – cel puțin încă trei. Ne-a bucurat foarte mult când a rezolvat #6 și apoi, două zile mai târziu, #4, deoarece acele probleme erau din domenii cunoscute de mulți dintre noi. E destul de incredibil să vezi cum un model devine vizibil mai inteligent de la o zi la alta.”

– James R. Lee (Cercetător OpenAI, Raţionament)

Am rulat modelul cu supraveghere umană limitată. Când am cerut versiuni ale modelului în timpul antrenamentului, uneori am sugerat strategii de reîncercare care păreau promițătoare în încercările anterioare. Pentru unele încercări, am rugat modelul să extindă sau să clarifice părți ale unei demonstrații, după ce am primit feedback de la experți, pentru a face raţionamentul mai ușor de verificat. De asemenea, am facilitat un schimb de idei între acest model și ChatGPT pentru verificare, formatare și stil. Pentru unele probleme, prezentăm cea mai bună dintre câteva încercări, aleasă pe baza judecății umane. A fost un sprint rapid, iar procesul nostru nu a fost la fel de curat cum ne-ar plăcea într-o evaluare bine controlată. Așteptăm cu nerăbdare să discutăm cu organizatorii First Proof despre un experiment mai riguros și un cadru de evaluare pentru iterațiile viitoare.

Această lucrare se bazează pe rezultate anterioare ale modelelor de raţionament de vârf în matematică și științe. În iulie 2025, am atins o performanță de nivel medalie de aur(se deschide într-o fereastră nouă) la Olimpiada Internațională de Matematică, cu un model de raţionament de uz general (35/42 puncte). În noiembrie 2025, am împărtășit „Experimente timpurii în accelerarea științei cu GPT‑5”, un set de studii de caz în care GPT‑5 a ajutat cercetătorii să facă progrese concrete în matematică, fizică, biologie și alte domenii, împreună cu limitările pe care le-am observat. Și, cel mai recent, am raportat o colaborare în fizică în care GPT‑5.2 a propus o expresie candidată pentru o formulă de amplitudine de gluon, care a fost apoi dovedită formal de un model intern și verificată de către autori.

Așteptăm cu nerăbdare o implicare mai profundă cu comunitatea despre cum să evaluăm raţionamentul de nivel de cercetare, inclusiv feedback de la experți despre aceste încercări, și suntem încântați să facem aceste noi capabilități disponibile în viitoarele modele publice.

Autor

OpenAI