Dezvoltarea științei și matematicii cu GPT‑5.2
GPT‑5.2 este cel mai performant model al nostru de până acum pentru matematică și științe.
Una din speranțele noastre pentru o inteligență artificială performantă este aceea că va accelera cercetarea științifică în beneficiul tuturor, ajutând cercetătorii să exploreze mai multe idei, să le testeze mai rapid și să transforme descoperirile în rezultate concrete.
În ultimul an, am colaborat îndeaproape cu cercetători științifici din matematică, fizică, biologie și informatică pentru a înțelege domeniile în care inteligența artificială poate fi utilă și cele în care încă nu este suficient de performantă. Luna trecută, am publicat un articol care prezintă mai multe studii de caz inițiale în domenii precum matematica, fizica, biologia, informatica, astronomia și știința materialelor, în care GPT‑5 a sprijinit cercetătorii, demonstrând că GPT‑5 a început deja să contribuie la activitatea științifică reală. Cu GPT‑5.2, începem să observăm că aceste câștiguri devin mai consecvente și mai fiabile.
GPT‑5.2 Pro și GPT‑5.2 Thinking sunt cele mai performante modele ale noastre de până acum pentru activitatea științifică și matematică.
Raționamentul matematic solid constituie fundamentul fiabilității în activitatea științifică și tehnică. Le permite modelelor să folosească logica în mai mulți pași, să păstreze coerența cantităților și să evite erorile subtile care se pot agrava în analizele reale — de la simulări și statistici până la prognozare și modelare. Îmbunătățirile înregistrate în testele de performanță precum FrontierMath nu reflectă o abilitate restrânsă, ci o capacitate mai puternică de raționament general și abstractizare, care se aplică direct în fluxurile de lucru științifice, precum programarea, analiza datelor și proiectarea experimentală.
Totodată, aceste capacități sunt strâns legate de evoluția către inteligența generală. Un sistem care poate raționa în mod fiabil prin abstractizare, menține coerența pe parcursul unor lanțuri lungi de gândire și generaliza în diferite domenii prezintă trăsături fundamentale pentru AGI — nu vorbim despre trucuri specifice unei sarcini, ci despre abilități de raționament ample și transferabile, importante în știință, inginerie și în luarea deciziilor în situații reale.
Considerăm că GPT‑5.2 Pro și GPT‑5.2 Thinking sunt cele mai bune modele din lume pentru asistarea și accelerarea activității cercetătorilor științifici. În cadrul GPQA Diamond, un test de performanță cu întrebări și răspunsuri la nivel de studii superioare, imun la căutările pe Google, GPT‑5.2 Pro atinge 93,2%, urmat îndeaproape de GPT‑5.2 Thinking la 92,4%.
În cazul GPQA Diamond(se deschide într-o fereastră nouă), modelele răspund la întrebări cu variante multiple despre fizică, chimie și biologie. Nu au fost activate instrumente, iar efortul de raționament a fost setat la maxim.
În cazul FrontierMath (Nivel 1–3), o evaluare a matematicii la nivel de expert, GPT‑5.2 Thinking a stabilit un nou standard de referință, rezolvând 40,3% din probleme.
În cazul FrontierMath(se deschide într-o fereastră nouă), modelele rezolvă probleme de matematică la nivel de expert. A fost activat un instrument Python și efortul de raționament a fost setat la maxim.
Studiu de caz
Acest rezultat sugerează o direcție utilă pentru modul în care sistemele de inteligență artificială pot sprijini cercetarea științifică, în special în domenii cu fundamente teoretice axiomatice, precum matematica și informatica teoretică. În astfel de contexte, modelele de frontieră pot ajuta la explorarea demonstrațiilor, testarea ipotezelor și identificarea conexiunilor care, altfel, ar necesita un efort uman considerabil pentru a fi descoperite.
Însă, aceste sisteme nu sunt cercetători independenți. Judecata experților, verificarea și înțelegerea domeniului rămân esențiale. Chiar și modelele foarte performante pot face greșeli sau se pot baza pe presupuneri neexprimate. Însă pot produce și argumente detaliate și structurate, care merită să fie studiate și perfecționate cu atenție de către oameni. Realizarea de progrese fiabile cu ajutorul inteligenței artificiale depinde, așadar, de fluxuri de lucru care mențin validarea, transparența și colaborarea sub control.
Privit ca un studiu de caz, acest rezultat ilustrează un mod emergent de practică de cercetare. Modelele precum GPT‑5.2 pot servi drept instrumente pentru susținerea raționamentului matematic și accelerarea explorării în stadiu incipient, iar responsabilitatea pentru corectitudine, interpretare și context rămâne în continuare în sarcina cercetătorilor umani. Dacă sunt folosite cu atenție, astfel de sisteme pot ajuta la eficientizarea unor aspecte semnificative ale activității teoretice fără a înlocui rolul central al judecății umane în cercetarea științifică.


