Ugrás a fő tartalomra
OpenAI

2026. február 20.

KutatásokKövetkeztetés

Az első First Proof beküldött anyagok

Közzétesszük a First Proof nevű matematikai kihíváshoz készült bizonyítási kísérleteinket, amely azt vizsgálja, hogy az AI képes-e ellenőrizhető bizonyítékokat készíteni szakterület-specifikus problémákra.

Betöltés…

Mind a 10 First Proof(új ablakban nyílik meg), azaz kutatási szintű matematikai kihívást jelentő feladaton belső modellt futtatunk, ami azt teszteli, hogy az AI-rendszerek képesek-e helyes, ellenőrizhető bizonyítási kísérleteket készíteni. A rövid válaszadós vagy versenymatematikai feladatokkal ellentétben ezek a problémák speciális területeken végponttól végpontig felépített érvelések kidolgozását igénylik, és a helyességet szakértői felülvizsgálat nélkül nehéz megállapítani. A First Proof feladatok szerzői a saját szakterületük vezető szakértői, és több feladat évekig megoldatlan maradt, mielőtt a szerzők megoldást találtak. Egy olyan egyetemi tanszék, amely jelentős átfedést mutat a szakterületekkel, elképzelhetően egy hét alatt megoldaná a problémák nagy részét.

Bizonyítási kísérleteinket 2026. február 14-én, szombaton, 0:00 órakor PT tettük közzé(új ablakban nyílik meg). Szakértői visszajelzések alapján úgy véljük, hogy a modell legalább öt bizonyítási kísérlete (a 4., 5., 6., 9. és 10. feladat) nagy valószínűséggel helyes, több pedig továbbra is ellenőrzés alatt áll. Kezdetben azt hittük, hogy a 2. feladat megoldására tett próbálkozásunk valószínűleg helyes. A hivatalos First Proof kommentár és a további közösségi elemzések alapján most úgy gondoljuk, hogy helytelen. Hálásak vagyunk az elkötelezettségért, és örömmel várjuk a további ellenőrzést. A teljes bizonyítási kísérletkészlet itt(új ablakban nyílik meg) található. Az előnyomat tartalmazza mind a tíz bizonyítási kísérletet, valamint egy újonnan hozzáadott függeléket, amely utasításmintákat és példákat sorol, amelyek célja a modellekkel való kézi interakcióink szimulálása a folyamat során.

Úgy gondoljuk, hogy az új, élvonalbeli kutatások talán a legfontosabb módját jelentik a következő generációs AI-modellek képességeinek értékelésére. A benchmarkok hasznosak, de a kutatás legnehezebb részei kimaradhatnak belőle: a hosszú érvelési láncok fenntartása, a megfelelő absztrakciók kiválasztása, a problémafelvetésekben rejlő többértelműség kezelése, valamint olyan érvek megfogalmazása, amelyek megállják helyüket a szakértői vizsgálaton. Az olyan élvonalbeli kihívások, mint a First Proof, segítenek stressztesztelni ezeket a képességeket olyan környezetekben, ahol a helyességet nem egyszerű ellenőrizni, és a hibamódok informatívak.

"Jelenleg egy új modellt fejlesztünk, amelynek egyik fő célja a gondolkodás szigorúságának növelése, hogy a modell sok órán át folyamatosan tudjon gondolkodni, és következtetéseiben továbbra is rendkívül magabiztos maradjon. Amikor bejelentették a First Proof problémákat, úgy tűnt, hogy ez a tökéletes tesztkörnyezet, ezért a hétvégén én is megpróbáltam. Már két problémát is sikerült megoldania (#9 és #10). Ahogy tanult, egyre ügyesebbé vált, és végül – becslésünk szerint – legalább még hármat megoldott. Különösen örültünk annak, amikor megoldotta a #6-ot, majd két nappal később a #4-et is, mivel ezek a problémák sokunk számára ismerős területekről származtak. Hihetetlen látni, ahogy egy modell napról napra kézzelfoghatóan okosabb lesz.”

– James R. Lee (OpenAI kutató, Érvelés)

Korlátozott emberi felügyelet mellett futtattuk a modellt. Amikor a modell különböző verzióinak utasításokat adtunk a betanítás során, néha olyan újrapróbálkozási stratégiákat javasoltunk, amelyek a korábbi próbálkozások során ígéretesnek bizonyultak. Egyes próbálkozások során, miután megkaptuk a szakértői visszajelzéseket, arra kértük a modellt, hogy bővítse vagy tisztázza a bizonyítás egyes részeit, hogy az érvelés könnyebben ellenőrizhető legyen. Emellett oda-vissza egyeztetést is lehetővé tettünk a modell és a ChatGPT között ellenőrzés, formázás és stílus céljából. Néhány probléma kapcsán bemutatjuk a legjobb próbálkozást, amelyet emberi megítélés alapján választottunk ki. Ez egy gyors sprint volt, és a folyamat nem volt annyira letisztult, mint amilyennek egy megfelelően ellenőrzött értékelésben szerettük volna. Alig várjuk, hogy a First Proof szervezőivel megbeszéljük egy szigorúbb kísérleti és értékelési keretrendszer kialakítását a jövőbeli iterációkhoz.

Ez a munka a matematika és a tudomány élvonalbeli érvelési modelljeinek korábbi eredményeire épít. 2025 júliusában egy általános célú érvelési modellel (35/42 pont) aranyérmes szintű teljesítményt(új ablakban nyílik meg) értünk el a Nemzetközi Matematikai Olimpián. 2025 novemberében tettük közzé a “Korai kísérletek a tudomány felgyorsítására a GPT‑5‑tel” című esettanulmány-gyűjteményt, amely bemutatja, hogyan segítette a GPT‑5 a kutatókat kézzelfogható előrelépések elérésében a matematika, fizika, biológia és más területeken, valamint az általunk megfigyelt korlátokat. Legutóbb egy fizikai együttműködésről számoltunk be, amelyben a GPT‑5.2 egy jelölt kifejezést javasolt egy gluonamplitúdó-képlethez, amit egy belső modell formálisan bizonyított, majd a szerzők ellenőriztek.

Alig várjuk, hogy szorosabb kapcsolatot alakítsunk ki a közösséggel a kutatási szintű érvelés értékelésének módjáról, beleértve a szakértői visszajelzéseket ezekről a próbálkozásokról, és izgatottan várjuk, hogy az új képességeket a jövőbeli nyilvános modellekben elérhetővé tegyük.

Szerző

OpenAI