Að efla vísindi og stærðfræði með GPT‑5.2
GPT‑5.2 er öflugasta líkanið okkar hingað til fyrir stærðfræði og vísindavinnu.
Ein af vonum okkar fyrir öfluga gervigreind er að hún muni flýta fyrir vísindarannsóknum til hagsbóta fyrir alla, hjálpa vísindamönnum að kanna fleiri hugmyndir, prófa þær hraðar og breyta uppgötvunum í áhrif.
Á síðasta ári höfum við unnið náið með vísindamönnum í stærðfræði, eðlisfræði, líffræði og tölvunarfræði til að skilja hvar gervigreind getur hjálpað—og hvar hún enn bregst. Í síðasta mánuði birtum við grein sem safnar saman fyrstu rannsóknartilvikum úr stærðfræði, eðlisfræði, líffræði, tölvunarfræði, stjörnufræði og efnisfræði þar sem GPT‑5 hjálpaði vísindamönnum og sýnir hvernig GPT‑5 hefur þegar byrjað að leggja sitt af mörkum til raunverulegrar vísindavinnu. Með GPT‑5.2 erum við farin að sjá að þessar framfarir verða stöðugri og áreiðanlegri.
GPT‑5.2 Pro og GPT‑5.2 Thinking eru öflugustu líkönin okkar hingað til fyrir vísinda- og stærðfræðivinnu.
Sterk stærðfræðileg röksemdafærsla er undirstaða áreiðanleika í vísindalegri og tæknilegri vinnu. Slíkt gerir líkönum kleift að fylgja margþrepa rökfræði, halda magni stöðugu og forðast lúmskar villur sem geta safnast upp í raunverulegum greiningum—frá hermunum og tölfræði til spágerðar og líkanagerðar. Framfarir á viðmiðum eins og FrontierMath endurspegla ekki þrönga færni, heldur sterkari almenna röksemdafærslu og abstrakt hugsun, færni sem nýtist beint í vísindalegu vinnuflæði eins og forritun, gagnagreiningu og tilraunahönnun.
Þessi færni er einnig nátengdir framförum í átt að almennri greind. Kerfi sem getur áreiðanlega rökstutt í gegnum abstrakt, viðhaldið samræmi yfir langar hugsanakeðjur og alhæft yfir svið, sýnir einkenni sem eru grundvallaratriði fyrir AGI—ekki verkefnissértæk brögð, heldur víðtæk, yfirfæranleg röksemdafærslu færni sem skiptir máli í vísindum, verkfræði og raunverulegum ákvarðanatökum.
Við trúum að GPT‑5.2 Pro og GPT‑5.2 Thinking séu bestu líkön heimsins til að styðja og hraða vísindarannsóknum. Á GPQA Diamond, viðmiðunarprófi á framhaldsstigi sem er ónæmt fyrir Google-leit, nær GPT‑5.2 Pro 93,2%, fylgt fast á eftir af GPT‑5.2. Thinking með 92,4%.
Í GPQA Diamond(opnast í nýjum glugga) svara líkön fjölvalsspurningum um eðlisfræði, efnafræði og líffræði. Engin verkfæri voru virkjuð og rökhugsunarátak var stillt á hámark.
Á FrontierMath (stig 1–3), mat á stærðfræði á sérfræðistigi, setti GPT‑5.2 Thinking nýtt viðmið, leysti 40,3% af vandamálum.
Í FrontierMath(opnast í nýjum glugga) leysa líkön stærðfræðiverkefni á sérfræðistigi. Python-verkfæri var virkjað og röksemdafærsla var stillt á hámark.
Tilviksrannsókn
Þessi niðurstaða bendir til gagnlegrar stefnu um hvernig gervigreindarkerfi geta veitt aðstoð við vísindarannsóknir, sérstaklega á sviðum með fræðilegar undirstöður eins og stærðfræði og fræðileg tölvunarfræði. Í aðstæðum eins og þessum geta frontier-líkön hjálpað til við að kanna sannanir, prófa tilgátur og finna tengsl sem annars myndu krefjast verulegrar mannlegrar vinnu til að afhjúpa.
Á sama tíma eru þessi kerfi ekki sjálfstæðir vísindamenn. Dómgreind sérfræðinga, staðfesting og skilningur á sviði eru enn nauðsynleg. Jafnvel mjög hæf líkön geta gert mistök eða treyst á óskráðar forsendur. En þau geta einnig búið til ítarlegar, skipulegar röksemdafærslur sem verðskulda vandlega mannlega yfirferð og betrumbætur. Að ná áreiðanlegum framförum með gervigreind byggist því á vinnuferlum sem tryggja staðfestingu, gagnsæi og samstarf.
Skoðað sem tilvikarannsókn, sýnir þessi niðurstaða nýjan hátt á rannsóknarvinnu. Líkön eins og GPT‑5.2 geta þjónað sem verkfæri til að styðja stærðfræðilega röksemdafærslu og flýta fyrir fyrstu könnunarstigum, á meðan ábyrgðin á réttmæti, túlkun og samhengi er áfram hjá mannlegum rannsakendum. Ef þau eru notuð af varúð, geta slík kerfi hjálpað til við að straumlínulaga mikilvæga þætti fræðilegs starfs án þess að raska miðlægu hlutverki mannlegrar dómgreindar í vísindarannsóknum.


