Mokslo ir matematikos pažanga su GPT‑5.2
GPT‑5.2 yra kol kas stipriausias mūsų modelis matematikos ir mokslo darbams.
Viena iš mūsų vilčių, siejamų su stipriu DI, yra ta, kad jis paspartins mokslinius tyrimus visų labui, padėdamas tyrėjams nagrinėti daugiau idėjų, greičiau jas tikrinti ir atradimus paversti poveikiu.
Per pastaruosius metus glaudžiai bendradarbiavome su matematikos, fizikos, biologijos ir kompiuterių mokslo mokslininkais, siekdami suprasti, kur DI gali padėti, o kur jam dar trūksta galimybių. Praėjusį mėnesį paskelbėme straipsnį, kuriame surinktos ankstyvos atvejo analizės iš matematikos, fizikos, biologijos, kompiuterių mokslo, astronomijos ir medžiagų mokslo sričių, kur „GPT‑5“ padėjo tyrėjams; tai rodo, kaip „GPT‑5“ jau prisideda prie realaus mokslinio darbo. Naudodami GPT‑5.2, pradedame pastebėti, kad šie laimėjimai tampa nuoseklesni ir patikimesni.
„GPT‑5.2 Pro“ ir „GPT‑5.2 Thinking“ yra kol kas stipriausi mūsų modeliai moksliniam ir matematiniam darbui.
Stiprus matematinis samprotavimas yra mokslinio ir techninio darbo patikimumo pagrindas. Jis leidžia modeliams laikytis kelių žingsnių logikos, išlaikyti kiekių nuoseklumą ir vengti smulkių klaidų, kurios gali kauptis atliekant realias analizes – nuo simuliacijų ir statistikos iki prognozavimo ir modeliavimo. Pagerėję rezultatai tokiuose testuose kaip „FrontierMath“ rodo ne siaurą įgūdį, o stipresnį bendrąjį samprotavimą ir abstrakciją – gebėjimus, kurie tiesiogiai perkeliami į tokius mokslinius darbo procesus kaip programavimas, duomenų analizė ir eksperimentų planavimas.
Šie gebėjimai taip pat glaudžiai susiję su pažanga bendrojo intelekto link. Sistema, gebanti patikimai samprotauti pasitelkdama abstrakciją, išlaikyti nuoseklumą ilgose minčių grandinėse ir apibendrinti informaciją įvairiose srityse, demonstruoja savybes, kurios yra AGI pagrindas: tai ne konkrečiai užduočiai skirti triukai, o platūs, pritaikomi protavimo įgūdžiai, svarbūs moksle, inžinerijoje ir priimant sprendimus realiame pasaulyje.
Tikime, kad „GPT‑5.2 Pro“ ir „GPT‑5.2 Thinking“ yra geriausi pasaulyje modeliai, padedantys mokslininkams ir spartinantys jų darbą. GPQA Diamond – magistrantūros lygio „Google“ neįveikiamame klausimų ir atsakymų lyginamajame teste – „GPT‑5.2 Pro“ pasiekia 93,2 proc., o jam iš paskos seka „GPT‑5.2 Thinking“ su 92,4 proc.
Teste „GPQA Diamond“(atsidaro naujame lange) modeliai atsako į klausimus su pasirenkamais atsakymais apie fiziką, chemiją ir biologiją. Įrankiai nebuvo įjungti, o samprotavimo pastangos nustatytos kaip maksimalios.
„FrontierMath“ (1–3 lygiai) – ekspertinio lygio matematikos vertinime – „GPT‑5.2 Thinking“ nustato naują standartą, išspręsdamas 40,3 proc. uždavinių.
Teste „FrontierMath“(atsidaro naujame lange) modeliai sprendžia eksperto lygio matematikos uždavinius. Buvo įjungtas „Python“ įrankis, o samprotavimo pastangos nustatytos kaip maksimalios.
Atvejo analizė
Šis rezultatas rodo naudingą kryptį, kaip DI sistemos gali padėti atlikti mokslinius tyrimus, ypač srityse, turinčiose aksiominius teorinius pagrindus, pavyzdžiui, matematikoje ir teoriniame kompiuterių moksle. Tokiomis aplinkybėmis pažangiausi modeliai gali padėti nagrinėti įrodymus, tikrinti hipotezes ir nustatyti ryšius, kuriems atskleisti kitu atveju prireiktų didelių žmogaus pastangų.
Tuo pat metu šios sistemos nėra nepriklausomi tyrėjai. Ekspertinis vertinimas, patikra ir srities išmanymas išlieka būtini. Net ir labai pajėgūs modeliai gali daryti klaidų arba remtis neišsakytomis prielaidomis. Tačiau jie taip pat gali pateikti išsamius, susistemintus argumentus, vertus kruopščios žmogaus analizės ir tobulinimo. Todėl patikima pažanga naudojantis DI priklauso nuo darbo procesų, kuriuose tvirtai išlaikomas patvirtinimas, skaidrumas ir bendradarbiavimas.
Vertinant kaip atvejo analizę, šis rezultatas iliustruoja atsirandantį tyrimų praktikos būdą. Tokie modeliai kaip GPT‑5.2 gali būti įrankiai, palaikantys matematinį samprotavimą ir spartinantys ankstyvąjį tyrimų etapą, o atsakomybė už teisingumą, interpretavimą ir kontekstą tenka žmonėms tyrėjams. Atsargiai naudojamos tokios sistemos gali padėti supaprastinti svarbius teorinio darbo aspektus, nepakeisdamos pagrindinio žmogaus sprendimo vaidmens moksliniame tyrime.


