First Proof -lähetyksemme
Jaamme todistusyrityksemme First Proof -haasteesta, joka on matemaattinen haaste, jossa testataan, pystyykö tekoäly tuottamaan tarkistettavia todistuksia alakohtaisissa ongelmissa.
Suoritimme sisäisen mallin kaikille 10 First Proof(avautuu uudessa ikkunassa) -ongelmalle. Tämä on tutkimustason matemaattinen haaste, jonka tarkoituksena on testata, pystyvätkö tekoälyjärjestelmät tuottamaan oikeita ja tarkistettavia todistusyrityksiä. Toisin kuin lyhyiden vastausten tai kilpailutyylisen matematiikan tehtävissä, nämä ongelmat edellyttävät päästä päähän -argumenttien rakentamista erikoistuneilla aloilla, ja oikeellisuutta on vaikea varmistaa ilman asiantuntija-arviointia. First Proof -ongelmien laatijat ovat omien alojensa johtavia asiantuntijoita, ja ainakin pari ongelmaa oli ollut avoinna vuosia ennen kuin laatijat löysivät ratkaisut. Akateeminen laitos, jolla on huomattavaa päällekkäisyyttä aihealueiden kanssa, voisi mahdollisesti ratkaista monia ongelmia yhdessä viikossa.
Jaoimme(avautuu uudessa ikkunassa) todistusyrityksemme lauantaina 14. helmikuuta 2026 klo 00.00 PT. Asiantuntijoiden palautteen perusteella uskomme, että vähintään viidellä mallin todistusyrityksellä (ongelmat 4, 5, 6, 9 ja 10) on suuri todennäköisyys olla oikeita, ja useita muita tarkastellaan edelleen. Aluksi uskoimme, että yrityksemme ratkaista ongelma 2 oli todennäköisesti oikea. Virallisen First Proof -kommentaarin ja yhteisön lisäanalyysin perusteella uskomme nyt, että se on virheellinen. Olemme kiitollisia sitoutumisesta ja odotamme innolla arvioinnin jatkumista. Kaikki todistusyrityksemme löytyvät täältä(avautuu uudessa ikkunassa). Esipainos sisältää kaikki kymmenen todistusyritystä sekä vastikään lisätyn liitteen, jossa on kehotemalleja ja esimerkkejä, joiden tarkoituksena on simuloida manuaalisia vuorovaikutuksiamme mallien kanssa prosessin aikana.
Uskomme, että uusi edistynyt tutkimus on ehkä tärkein tapa arvioida seuraavan sukupolven tekoälymallien kyvykkyyksiä. Vertailuarvot ovat hyödyllisiä, mutta ne voivat jättää huomiotta joitakin tutkimuksen haastavimmista osa-alueista: pitkien päättelyketjujen ylläpitäminen, oikeiden abstraktioiden valitseminen, ongelmanasettelun monitulkintaisuuden käsitteleminen ja sellaisten perustelujen tuottaminen, jotka kestävät asiantuntijoiden tarkastelun. Edistyneet haasteet, kuten First Proof, auttavat meitä stressitestaamaan näitä kyvykkyyksiä tilanteissa, joissa oikeellisuuden varmistaminen on merkityksellistä ja vikatilat ovat informatiivisia.
“Koulutamme parhaillaan uutta mallia, jonka ensisijaisena tavoitteena on lisätä ajattelun tarkkuutta, jotta malli voi ajatella yhtäjaksoisesti useita tunteja ja pysyä erittäin varmana johtopäätöksistään. Kun First Proof -ongelmat julkistettiin, se vaikutti täydelliseltä testiympäristöltä, joten kokeilin sitä viikonlopun aikana. Se oli jo pystynyt ratkaisemaan kaksi ongelmaa (9 ja 10). Kun sitä koulutettiin, siitä tuli yhä kyvykkäämpi, ja lopulta se ratkaisi – arviomme mukaan – ainakin kolme lisää. Olimme erityisen tyytyväisiä, kun se ratkaisi ongelman 6 ja sitten kaksi päivää myöhemmin ongelman 4, sillä nämä ongelmat olivat monille meistä tutuilta aloilta. On aika uskomatonta nähdä, kuinka malli tulee päivä päivältä selvästi älykkäämmäksi.”
– James R. Lee (OpenAI:n tutkija, Päättely)
Suoritimme mallin rajoitetulla ihmisen valvonnalla. Kun kehotimme mallin eri versioita koulutuksen aikana, ehdotimme joskus uudelleenyritysstrategioita, jotka olivat osoittautuneet hedelmällisiksi aiemmissa yrityksissä. Joissakin yrityksissä pyysimme mallia laajentamaan tai selventämään todistuksen osia asiantuntijapalautteen jälkeen, jotta päättely olisi helpompi tarkistaa. Helpotimme myös edestakaista vuoropuhelua tämän mallin ja ChatGPT:n välillä vahvistuksen, muotoilun ja tyylin osalta. Joidenkin tehtävien kohdalla esittelemme muutaman yrityksen parhaat tulokset, jotka on valittu ihmisen harkinnan perusteella. Tämä oli pikasprintti, eikä prosessimme ollut niin selkeä kuin olisimme toivoneet sen olevan asianmukaisesti kontrolloidussa arvioinnissa. Odotamme innolla keskusteluja First Proof -järjestäjien kanssa tiukemmasta kokeilu- ja arviointikehyksestä tulevien iteraatioiden osalta.
Tämä työ perustuu edistyneiden päättelymallien aiempiin tuloksiin matematiikassa ja luonnontieteissä. Heinäkuussa 2025 saavutimme kultamitalitason suorituksen(avautuu uudessa ikkunassa) kansainvälisissä matematiikan olympialaisissa yleiskäyttöisellä päättelymallilla (35/42 pistettä). Marraskuussa 2025 jaoimme artikkelin “Varhaisia kokeiluja tieteen nopeuttamiseksi GPT‑5:llä” ("Early experiments in accelerating science with GPT‑5") eli joukon tapaustutkimuksia, joissa GPT‑5 auttoi tutkijoita saavuttamaan konkreettista edistystä matematiikassa, fysiikassa, biologiassa ja muilla aloilla, sekä havaitsemiamme rajoituksia. Ja aivan hiljattain raportoimme fysiikan yhteistyöstä, jossa GPT‑5.2 ehdotti ehdokaslauseketta gluoni-amplitudikaavalle, joka sitten todistettiin muodollisesti sisäisellä mallilla ja jonka laatijat vahvistivat.
Odotamme innolla syvempää yhteistyötä yhteisön kanssa tutkimustason päättelyn arvioinnissa, mukaan lukien asiantuntijapalautteet näistä yrityksistä, ja olemme innoissamme voidessamme tarjota nämä uudet ominaisuudet tulevissa julkisissa malleissa.


