2026. gada 20. februāris

Mūsu pirmo "koncepcijas pierādījumu" iesniegumi

Mēs dalāmies ar mūsu pierādījumu mēģinājumiem First Proof — matemātikas izaicinājumā, kas pārbauda, vai mākslīgais intelekts spēj izveidot pārbaudāmus pierādījumus specifiskām problēmām noteiktā jomā.

Apskati mūsu pierādījumu mēģinājumu kopu

Notiek ielāde…

Mēs palaidām iekšēju modeli visām 10 Pirmā pierādījuma⁠(atveras jaunā logā) problēmām — pētniecības līmeņa matemātikas izaicinājumam, kas izstrādāts, lai pārbaudītu, vai MI sistēmas spēj radīt pareizus pārbaudāmus pierādījumu mēģinājumus. Atšķirībā no īso atbilžu vai sacensību stila matemātikas, šie uzdevumi prasa veidot pilnīgus argumentus specializētās jomās, un pareizību ir grūti noteikt bez ekspertu pārskatīšanas. Pirmā pierādījuma problēmu autori ir vadošie eksperti savās jomās, un vismaz pāris no problēmām palika neatrisinātas gadiem ilgi, pirms autori atrada risinājumus. Akadēmiskā nodaļa, kurai ir būtiska pārklāšanās ar attiecīgajām tematiskajām jomām, varētu teorētiski atrisināt daudzas problēmas vienas nedēļas laikā.

Mēs kopīgojām⁠(atveras jaunā logā) mūsu pierādījumu mēģinājumus sestdien, 2026. gada 14. februārī plkst. 00.00 pēc PT laika. Pamatojoties uz ekspertu atsauksmēm, mēs uzskatām, ka vismaz pieciem modeļa pierādījumu mēģinājumiem (4., 5., 6., 9. un 10. uzdevumam) ir liela iespēja būt pareiziem, un vairāki citi joprojām tiek pārskatīti. Sākumā mēs domājām, ka mūsu mēģinājums 2. uzdevumam, iespējams, bija pareizs. Pamatojoties uz oficiālo First Proof komentāru un turpmāku kopienas analīzi, mēs tagad uzskatām, ka tas ir nepareizs. Mēs esam pateicīgi par iesaisti un ceram uz turpmāku sadarbību. Mūsu pilno pierādījumu mēģinājumu kopumu var atrast šeit⁠(atveras jaunā logā). Priekšdrukā ir iekļauti visi desmit pierādījumu mēģinājumi, kā arī nesen pievienots pielikums ar uzvedņu paraugiem un piemēriem, kas paredzēti, lai simulētu mūsu manuālo mijiedarbību ar modeļiem procesa laikā.

Mēs uzskatām, ka jauni robežšķirtnes pētījumi, iespējams, ir vissvarīgākais veids, kā novērtēt nākamās paaudzes MI modeļu spējas. Etaloni ir noderīgi, taču tie var nepamanīt dažas no sarežģītākajām pētniecības daļām: ilgstošu spriestspējas ķēžu uzturēšanu, pareizo abstrakciju izvēli, neskaidrību apstrādi problēmu formulējumos un argumentu izstrādi, kas iztur ekspertu pārbaudi. Robežšķirtnes izaicinājumi, piemēram, First Proof, palīdz mums pārbaudīt šo spēju izturību situācijās, kurās pareizību nav viegli pārbaudīt un kurās kļūmju veidi sniedz vērtīgu informāciju.

“Pašlaik mēs apmācām jaunu modeli, kura galvenais mērķis ir palielināt domāšanas stingrību, lai modelis varētu nepārtraukti domāt daudzas stundas un saglabāt augstu pārliecību par saviem secinājumiem. Kad tika paziņotas First Proof problēmas, tas šķita kā ideāls izmēģinājuma poligons, tāpēc nedēļas nogalē es to izmēģināju. Tas jau spēja atrisināt divas no problēmām (#9 un #10). Mācību procesā tas kļuva arvien spējīgāks un, pēc mūsu aplēsēm, galu galā atrisināja vēl vismaz trīs. Mēs bijām īpaši gandarīti, kad tā atrisināja 6. un pēc divām dienām arī 4. problēmu, jo šīs problēmas bija mums daudziem pazīstamās jomās. "Ir diezgan neticami vērot, kā modelis ar katru dienu kļūst acīmredzami gudrāks.”

– Džeimss R. Lī (James R. Lee) (OpenAI pētnieks, spriestspēja)

Mēs palaidām modeli ar ierobežotu cilvēka uzraudzību. Kad apmācības laikā sniedzām uzvednes modeļa versijām, mēs dažkārt ieteicām atkārtotas mēģināšanas stratēģijas, kas iepriekšējos mēģinājumos šķita daudzsološas. Dažos mēģinājumos pēc ekspertu atsauksmju saņemšanas mēs lūdzām modeli paplašināt vai precizēt dažas pierādījuma daļas, lai spriestspēju būtu vieglāk pārbaudīt. Mēs arī nodrošinājām saziņu starp šo modeli un ChatGPT, lai veiktu verifikāciju, formatēšanu un stila pielāgošanu. Dažām problēmām mēs piedāvājam labākos no dažiem mēģinājumiem, kas atlasīti pēc cilvēka vērtējuma. Šis bija ātrs sprints, un mūsu process nebija tik sakārtots, kā mēs vēlētos, ja tas būtu pienācīgi kontrolētā novērtējumā. Mēs ceram uz diskusijām ar First Proof organizatoriem par stingrāku eksperimentu un novērtēšanas ietvaru nākamajām iterācijām.

Šis darbs balstās uz agrākiem rezultātiem no robežšķirtnes spriestspējas modeļiem matemātikā un dabaszinātnēs. 2025. gada jūlijā mēs sasniedzām zelta medaļas līmeņa sniegumu⁠(atveras jaunā logā) Starptautiskajā matemātikas olimpiādē ar vispārējas lietošanas spriestspējas modeli (35/42 punkti). 2025. gada novembrī mēs publicējām “Agrīnie eksperimenti zinātnes paātrināšanā ar GPT‑5”, gadījumu pētījumu kopumu, kurā GPT‑5 palīdzēja pētniekiem gūt konkrētu progresu matemātikā, fizikā, bioloģijā un citās jomās, kā arī izcēlām novērotos ierobežojumus. Un pavisam nesen mēs ziņojām par fizikas sadarbību, kurā GPT‑5.2 ierosināja kandidātizteiksmi gluona amplitūdas formulai, ko pēc tam formāli pierādīja iekšējais modelis un pārbaudīja autori.

Mēs ceram uz ciešāku sadarbību ar kopienu, lai novērtētu pētniecības līmeņa spriestspēju, ieskaitot ekspertu atsauksmes par šiem mēģinājumiem, un ar prieku gaidām, kad šīs jaunās iespējas būs pieejamas nākotnes publiskajos modeļos.

2026

Autors

OpenAI

Turpināt lasīt

Skatīt visu

Kā divu iestatījumu ieslēgšana trīskāršoja mūsu rezultātu ARC-AGI-3 etalonā

Izpēte2026. g. 29. jūl.

oai Science Academic Research Academic Research 1x1

Accelerating scientific discovery with ChatGPT for Academic Researchers

Uzņēmums2026. g. 29. jūl.

Scientific computing agentic AI card image (1x1)

Zinātniskā skaitļošana autonomā MI laikmetā

Publikācija2026. g. 28. jūl.