Просування науки та математики з GPT‑5.2
GPT‑5.2 — це наша найпотужніша модель для виконання завдань у сфері технічних наук.
Однією з наших надій щодо потужного ШІ є те, що він прискорить наукові дослідження на благо всіх, допомагаючи дослідникам знайомитися з більшою кількістю ідей, швидше їх тестувати та перетворювати відкриття на значущі результати.
Протягом минулого року ми тісно співпрацювали з науковцями у галузях математики, фізики, біології та інформатики, щоб зрозуміти, де штучний інтелект може допомогти, а де над ним ще слід попрацювати. Минулого місяця ми опублікували статтю, в якій було зібрано ранні дослідження з математики, фізики, біології, інформатики, астрономії та матеріалознавства. У цих дослідженнях GPT‑5 суттєво допомагав дослідникам, тобто GPT‑5 уже почав робити внесок у реальну наукову роботу. Із GPT‑5.2 ми бачимо, що ці досягнення стають більш послідовними та надійними.
GPT‑5.2 Pro і GPT‑5.2 Thinking — це наші найпотужніші моделі на сьогодні для виконання завдань у сфері технічних наук.
Обґрунтоване математичне міркування є основою надійності в науковій та технічній роботі. Воно дозволяє моделям дотримуватися багатоступеневої логіки, підтримувати кількісну узгодженість та уникати дрібних помилок, які можуть накопичуватися в реальних аналізах — від симуляцій і статистики до прогнозування та моделювання. Покращення результатів у таких тестах, як FrontierMath, відображають не вузьку навичку, а сильніші загальні міркування та абстрактне мислення — здібності, які безпосередньо застосовуються в наукових робочих процесах, таких як програмування, аналіз даних та створення експериментальних моделей.
Ці можливості також тісно пов'язані з прогресом у напрямку до створення загального інтелекту. Система, яка здатна надійно аргументувати через абстракцію, підтримувати послідовність у довгих ланцюгах думок і узагальнювати в різних доменах, демонструє риси, що є основоположними для AGI — не специфічні для завдань уміння, а широкі, переносимі навички аргументування, які мають значення в науці, інженерії та прийнятті рішень у реальному світі.
На нашу думку, GPT‑5.2 Pro і GPT‑5.2 Thinking є найкращими у світі моделями для допомоги та прискорення роботи науковців. У GPQA Diamond, еталоні запитань та відповідей рівня аспірантури без можливості допомоги Google, GPT‑5.2 Pro досягнула 93,2%; за нею слідує GPT‑5.2 Thinking — 92,4%.
У GPQA Diamond(відкривається у новому вікні) моделі відповідають на запитання з фізики, хімії та біології з вибором варіантів відповідей. Жодних інструментів не було увімкнено, зусилля міркування встановлено на максимум.
У FrontierMath (рівні 1–3), оцінці експертного рівня з математики, GPT‑5.2 Thinking встановила новий стандарт, розв'язавши 40,3% завдань.
У FrontierMath(відкривається у новому вікні) моделі розв'язують задачі з математики експертного рівня. Було увімкнено інструмент на Python, зусилля міркування встановлено на максимум.
Розбір прикладу
Цей результат пропонує корисний напрямок для того, як системи штучного інтелекту можуть підтримувати наукові дослідження, особливо в галузях з аксіоматичними теоретичними основами, таких як математика та теоретична інформатика. У таких умовах передові моделі можуть допомогти ознайомитися з доказами, перевірити гіпотези та виявити зв'язки, для виявлення яких в іншому випадку знадобилися б значні людські зусилля.
У той же час ці системи не є незалежними дослідниками. Надважливими лишаються експертне судження, перевірка та розуміння предметної області. Навіть дуже потужні моделі можуть робити помилки або покладатися на непідтверджені припущення. Тим не менш, вони здатні створювати детальні, структуровані аргументи, які заслуговують на ретельне вивчення та доопрацювання людиною. Систематичний прогрес у сфері штучного інтелекту залежить від робочих процесів, які постійно забезпечують валідацію, прозорість та співпрацю.
Розглянутий у якості прикладу результат ілюструє новий спосіб дослідницької практики. Такі моделі як GPT‑5.2 можуть бути інструментами для підтримки математичного міркування та прискорення ранніх етапів дослідження, тоді як відповідальність за правильність, інтерпретацію та контекст залишається за дослідниками-людьми. При обережному використанні такі системи можуть допомогти оптимізувати значні аспекти теоретичної роботи, не витісняючи центральну роль людського судження в наукових дослідженнях.


