2026. február 20.

Az első First Proof beküldött anyagok

Közzétesszük a First Proof nevű matematikai kihíváshoz készült bizonyítási kísérleteinket, amely azt vizsgálja, hogy az AI képes-e ellenőrizhető bizonyítékokat készíteni szakterület-specifikus problémákra.

Tekintsd meg a bizonyítási kísérleteinket

Betöltés…

Mind a 10 First Proof⁠(új ablakban nyílik meg), azaz kutatási szintű matematikai kihívást jelentő feladaton belső modellt futtatunk, ami azt teszteli, hogy az AI-rendszerek képesek-e helyes, ellenőrizhető bizonyítási kísérleteket készíteni. A rövid válaszadós vagy versenymatematikai feladatokkal ellentétben ezek a problémák speciális területeken végponttól végpontig felépített érvelések kidolgozását igénylik, és a helyességet szakértői felülvizsgálat nélkül nehéz megállapítani. A First Proof feladatok szerzői a saját szakterületük vezető szakértői, és több feladat évekig megoldatlan maradt, mielőtt a szerzők megoldást találtak. Egy olyan egyetemi tanszék, amely jelentős átfedést mutat a szakterületekkel, elképzelhetően egy hét alatt megoldaná a problémák nagy részét.

Bizonyítási kísérleteinket 2026. február 14-én, szombaton, 0:00 órakor PT tettük közzé⁠(új ablakban nyílik meg). Szakértői visszajelzések alapján úgy véljük, hogy a modell legalább öt bizonyítási kísérlete (a 4., 5., 6., 9. és 10. feladat) nagy valószínűséggel helyes, több pedig továbbra is ellenőrzés alatt áll. Kezdetben azt hittük, hogy a 2. feladat megoldására tett próbálkozásunk valószínűleg helyes. A hivatalos First Proof kommentár és a további közösségi elemzések alapján most úgy gondoljuk, hogy helytelen. Hálásak vagyunk az elkötelezettségért, és örömmel várjuk a további ellenőrzést. A teljes bizonyítási kísérletkészlet itt⁠(új ablakban nyílik meg) található. Az előnyomat tartalmazza mind a tíz bizonyítási kísérletet, valamint egy újonnan hozzáadott függeléket, amely utasításmintákat és példákat sorol, amelyek célja a modellekkel való kézi interakcióink szimulálása a folyamat során.

Úgy gondoljuk, hogy az új, élvonalbeli kutatások talán a legfontosabb módját jelentik a következő generációs AI-modellek képességeinek értékelésére. A benchmarkok hasznosak, de a kutatás legnehezebb részei kimaradhatnak belőle: a hosszú érvelési láncok fenntartása, a megfelelő absztrakciók kiválasztása, a problémafelvetésekben rejlő többértelműség kezelése, valamint olyan érvek megfogalmazása, amelyek megállják helyüket a szakértői vizsgálaton. Az olyan élvonalbeli kihívások, mint a First Proof, segítenek stressztesztelni ezeket a képességeket olyan környezetekben, ahol a helyességet nem egyszerű ellenőrizni, és a hibamódok informatívak.

"Jelenleg egy új modellt fejlesztünk, amelynek egyik fő célja a gondolkodás szigorúságának növelése, hogy a modell sok órán át folyamatosan tudjon gondolkodni, és következtetéseiben továbbra is rendkívül magabiztos maradjon. Amikor bejelentették a First Proof problémákat, úgy tűnt, hogy ez a tökéletes tesztkörnyezet, ezért a hétvégén én is megpróbáltam. Már két problémát is sikerült megoldania (#9 és #10). Ahogy tanult, egyre ügyesebbé vált, és végül – becslésünk szerint – legalább még hármat megoldott. Különösen örültünk annak, amikor megoldotta a #6-ot, majd két nappal később a #4-et is, mivel ezek a problémák sokunk számára ismerős területekről származtak. Hihetetlen látni, ahogy egy modell napról napra kézzelfoghatóan okosabb lesz.”

– James R. Lee (OpenAI kutató, Érvelés)

Korlátozott emberi felügyelet mellett futtattuk a modellt. Amikor a modell különböző verzióinak utasításokat adtunk a betanítás során, néha olyan újrapróbálkozási stratégiákat javasoltunk, amelyek a korábbi próbálkozások során ígéretesnek bizonyultak. Egyes próbálkozások során, miután megkaptuk a szakértői visszajelzéseket, arra kértük a modellt, hogy bővítse vagy tisztázza a bizonyítás egyes részeit, hogy az érvelés könnyebben ellenőrizhető legyen. Emellett oda-vissza egyeztetést is lehetővé tettünk a modell és a ChatGPT között ellenőrzés, formázás és stílus céljából. Néhány probléma kapcsán bemutatjuk a legjobb próbálkozást, amelyet emberi megítélés alapján választottunk ki. Ez egy gyors sprint volt, és a folyamat nem volt annyira letisztult, mint amilyennek egy megfelelően ellenőrzött értékelésben szerettük volna. Alig várjuk, hogy a First Proof szervezőivel megbeszéljük egy szigorúbb kísérleti és értékelési keretrendszer kialakítását a jövőbeli iterációkhoz.

Ez a munka a matematika és a tudomány élvonalbeli érvelési modelljeinek korábbi eredményeire épít. 2025 júliusában egy általános célú érvelési modellel (35/42 pont) aranyérmes szintű teljesítményt⁠(új ablakban nyílik meg) értünk el a Nemzetközi Matematikai Olimpián. 2025 novemberében tettük közzé a “Korai kísérletek a tudomány felgyorsítására a GPT‑5‑tel” című esettanulmány-gyűjteményt, amely bemutatja, hogyan segítette a GPT‑5 a kutatókat kézzelfogható előrelépések elérésében a matematika, fizika, biológia és más területeken, valamint az általunk megfigyelt korlátokat. Legutóbb egy fizikai együttműködésről számoltunk be, amelyben a GPT‑5.2 egy jelölt kifejezést javasolt egy gluonamplitúdó-képlethez, amit egy belső modell formálisan bizonyított, majd a szerzők ellenőriztek.

Alig várjuk, hogy szorosabb kapcsolatot alakítsunk ki a közösséggel a kutatási szintű érvelés értékelésének módjáról, beleértve a szakértői visszajelzéseket ezekről a próbálkozásokról, és izgatottan várjuk, hogy az új képességeket a jövőbeli nyilvános modellekben elérhetővé tegyük.

2026

Szerző

OpenAI

Olvass tovább

Összes megtekintése

Két beállítással megháromszoroztuk pontszámunkat az ARC-AGI-3 teljesítményteszten

Kutatások2026. júl. 29.

oai Science Academic Research Academic Research 1x1

Accelerating scientific discovery with ChatGPT for Academic Researchers

Vállalat2026. júl. 29.

Scientific computing agentic AI card image (1x1)

Tudományos számítástechnika az ügynökalapú MI korában

Publikáció2026. júl. 28.