17 липня 2025 р.

Пропонуємо до вашої уваги агента ChatGPT: перетворює результати досліджень на ефективні кроки

Тепер ChatGPT не лише думає, а й діє: він самостійно обирає потрібні інструменти зі свого набору навичок агента, щоб виконувати завдання для вас на власному комп'ютері.

Спробуйте в ChatGPT

Завантаження…

ChatGPT тепер здатен виконувати для вас завдання від початку до кінця, використовуючи власний комп'ютер.

Тепер ви можете просити ChatGPT виконувати запити на кшталт: «переглянь мій календар і підготуй короткий звіт щодо запланованих зустрічей із клієнтами з урахуванням останніх новин», «сплануй і придбай інгредієнти для японського сніданку на чотирьох», а також «проаналізуй трьох конкурентів і створи презентацію». ChatGPT буде впевнено працювати з вебресурсами: від фільтрації результатів і запиту безпечного входу в систему до запуску коду, створення аналітики та редагованих презентацій і таблиць, що узагальнюють отримані дані.

Основою цієї нової функціональності є єдина система агентів. Вона об'єднує три ключові переваги наших попередніх розробок: здатність Operator⁠ взаємодіяти з вебсайтами, навичка глибокого дослідження⁠ для синтезу інформації та інтелект ChatGPT із природною, живою мовою спілкування.

ChatGPT виконує ці завдання на власному віртуальному комп'ютері, гнучко поєднуючи аналітичне мислення та дії, щоб опрацьовувати складні робочі процеси від початку й до кінця відповідно до ваших вказівок.

Найважливіше — усе залишається під вашим контролем. Перед кожною дією, що може мати наслідки, ChatGPT запитує у вас дозвіл, і ви в будь-який момент можете перервати процес, взяти керування браузером на себе чи повністю зупинити виконання завдання.

Від сьогодні користувачі тарифних планів Pro, Plus і Team можуть активувати нові агентні можливості ChatGPT безпосередньо через меню інструментів у полі введення повідомлення, обравши «режим агента» в будь-який момент будь-якої розмови.

Агент ChatGPT уже зараз є потужним інструментом для роботи зі складними завданнями, але цей запуск лише відкриває новий етап. Ми й надалі регулярно додаватимемо вагомі вдосконалення, щоб з часом зробити його ще дієвішим і кориснішим для ще більшої кількості користувачів.

Природний розвиток оператора (Operator) і глибоких досліджень

Operator і глибокі дослідження раніше мали різні переваги: оператор міг прокручувати сторінки, натискати елементи та вводити текст у вебсередовищі, тоді як глибокі дослідження чудово аналізували й узагальнювали інформацію. Втім, вони були ефективними у різних сценаріях: оператор не міг проводити ґрунтовний аналіз чи створювати детальні звіти, а система глибокого дослідження не взаємодіяла з вебсайтами для уточнення результатів або доступу до матеріалів, що потребують автентифікації користувача. Ми помітили, що багато запитів, які користувачі намагалися виконати через оператора, насправді були більш доречними саме для глибоких досліджень. Тому ми поєднали найкращі можливості обох підходів.

Інтегрувавши ці взаємодоповнювальні переваги в ChatGPT і додавши нові інструменти, ми відкрили зовсім новий рівень функціональності в межах однієї моделі. Тепер вона може активно працювати з вебсайтами: натискати елементи, фільтрувати та збирати точніші й ефективніші результати. Ви також можете легко перейти від простої розмови до запиту на виконання певних дій у тому ж чаті і без жодних зайвих кроків.

Агент, який працює разом з вами і для вас

Ми забезпечили агента ChatGPT широким набором інструментів: візуальним браузером, що взаємодіє з мережею через графічний інтерфейс, текстовим браузером для простіших запитів, заснованих на міркуванні, терміналом та прямим доступом до API. Агент також може використовувати конектори ChatGPT⁠(відкривається у новому вікні) (ChatGPT connectors), що дає змогу під'єднувати програми, як-от Gmail і GitHub, аби знаходити інформацію, що відповідає вашим запитам, і використовувати її у відповідях. Ви також можете увійти на будь-який вебсайт, взявши керування браузером на себе. Це дозволяє агенту глибше й ширше працювати як з дослідженнями, так і з виконанням завдань. Надавши ChatGPT різні способи доступу до інформації в мережі та взаємодії з нею, ми забезпечили можливість обирати оптимальний шлях для найефективнішого виконання завдань. Наприклад, він може отримати дані вашого календаря через API, ефективно опрацьовувати великі масиви тексту через текстовий браузер і водночас взаємодіяти з вебсайтами, створеними передусім для людей.

Усе це виконується на його власному віртуальному комп'ютері, який зберігає весь потрібний контекст, навіть коли залучено кілька інструментів: модель може відкрити сторінку у текстовому або візуальному браузері, завантажити файл з інтернету, обробити його, виконавши команду в терміналі, а потім переглянути результат у візуальному браузері. Модель адаптує свій підхід, щоб виконувати завдання швидко, точно та ефективно.

Агент ChatGPT створений для ітеративних і спільних робочих процесів значно інтерактивніших і гнучкіших, ніж у попередніх моделей. Коли ChatGPT працює, ви можете в будь-який момент перервати його, уточнити інструкції, спрямувати в потрібний бік або повністю змінити завдання. Він продовжить роботу з урахуванням нових даних, не втрачаючи попереднього прогресу. У такий же спосіб ChatGPT може проактивно запитувати у вас додаткову інформацію, щоб гарантувати, що завдання й надалі відповідає вашим цілям. Якщо виконання триває довше, ніж очікувалося, або здається, що процес уповільнився, ви можете призупинити його, попросити стислий звіт про прогрес або зупинити виконання й отримати частковий результат. Якщо на вашому телефоні встановлено програму ChatGPT, ви отримаєте сповіщення після завершення вашого завдання.

Більше користі в реальних сценаріях

Уніфіковані агентні можливості суттєво підсилюють практичність ChatGPT як у повсякденних, так і в професійних сценаріях. На роботі ви можете автоматизувати рутинні процеси, наприклад, перетворювати скріншоти чи інформаційні панелі в презентації з редагованими векторними елементами, переносити й узгоджувати зустрічі, планувати та бронювати виїзні події, а також оновлювати електронні таблиці новими фінансовими даними, зберігаючи форматування. У побуті ChatGPT може легко спланувати та забронювати подорож, підготувати та організувати повноцінну вечерю або допомогти знайти потрібного фахівця та записатися на прийом.

Покращені можливості моделі підтверджуються її вражаючими результатами (тест SOTA) в оцінюваннях, що вимірюють уміння орієнтуватися у мережі та виконувати реальні завдання.

У тесті Humanity’s Last Exam⁠(відкривається у новому вікні)*, який оцінює роботу ШІ в експертних запитаннях у широкому колі дисциплін, агент ChatGPT демонструє новий результат SOTA-pass@1 — 41,6. Оскільки агент планує дії динамічно й самостійно обирає інструменти, він може розв'язувати одне й те саме завдання різними способами під час різних сеансів. Після масштабування тестування за допомогою простої паралельної стратегії, запуску до восьми спроб одночасно з подальшим вибором тієї, де агент повідомляє про найвищий рівень упевненості, показник HLE зростає до 44,4.

FrontierMath** є найскладнішим серед наразі відомих математичним еталоном, що містить нові, неопубліковані задачі, на розв'язання яких у математиків-експертів часто йдуть години або навіть дні. Із використанням таких інструментів, як доступ до терміналу для запуску коду, агент ChatGPT досягає точності 27,4%, значно перевершуючи обидві попередні моделі.

Ми також виконали оцінку моделі за допомогою еталонів, створених на основі реальних складних завдань. На внутрішньому тесті, призначеному для оцінки ефективності моделі у розв'язанні складних, економічно вигідних завдань, що передбачають роботу з знаннями, приблизно в половині випадків результати агента ChatGPT могли бути порівняні чи були кращі, ніж у людей, із різним часом виконання завдань, і водночас модель значно перевершила o3 та o4-mini. Результати моделей оцінюються експертами у порівнянні з високоякісними людськими еталонами, створеними найкращими фахівцями у кожній галузі. Ці завдання, отримані від експертів із різних сфер та галузей, відображають реальну професійну роботу, таку як підготовка конкурентного аналізу спеціалістів із невідкладної допомоги на вимогу, побудова детальних графіків амортизації та визначення перспективних свердловин для нового об'єкта видобутку екологічно чистого водню.

У DSBench⁠(відкривається у новому вікні), який призначений для оцінки агентів на реалістичних завданнях науки про дані, що охоплюють аналіз та моделювання даних, агент ChatGPT по ефективності значно перевершив людину.

У SpreadsheetBench, який оцінює моделі за їхньою здатністю редагувати електронні таблиці, отримані з реальних сценаріїв, агент ChatGPT значно перевершив результати існуючих моделей. Коли агенту ChatGPT надається можливість безпосередньо редагувати електронні таблиці, він отримує ще вищі оцінки — наприклад, 45,5% порівняно з Copilot, який в Excel показав 20,0%.

Методика: Автори SpreadsheetBench використовували середовище Windows з Microsoft Excel для оцінювання електронних таблиць. Ми використовували середовище OSX та LibreOffice, що може призвести до невеликих розбіжностей в оцінках. Зокрема, автори виявили загальне жорстке обмеження 15,02% для GPT‑4o, а ми отримали 13,38%. Ми використали повний еталонний тест із 912 запитань.

У внутрішньому тесті, який вимірює здатність моделі виконувати завдання з моделювання для аналітиків інвестиційного банкінгу від першого до третього року роботи — наприклад, складання фінансової моделі для компанії зі списку Fortune 500 з належним форматуванням та цитуванням, або створення моделі викупу з використанням кредитного плеча для приватизації, — модель, що лежить в основі агента ChatGPT, значно перевершує глибокі дослідження та o3. Кожне завдання оцінюється за сотнями критеріїв, пов'язаних із точністю та використанням формул.

Ми також оцінили агента ChatGPT у рамках BrowseComp⁠: це тест, що вимірює здатність агентів веб-перегляду знаходити важкодоступну інформацію в Інтернеті. Модель встановила новий SOTA з 68,9%, що на 17,4 відсоткових пункти вище, ніж у рамках глибоких досліджень.

Зрештою, у WebArena⁠(відкривається у новому вікні), тесті, призначеному для оцінки ефективності агентів веб-перегляду у виконанні реальних завдань онлайн, модель перевершила CUA на базі o3 (модель, що забезпечує роботу Operator).

Порядок користування

Ви можете активувати нові агентні можливості ChatGPT безпосередньо через меню інструментів у полі введення повідомлення, обравши «режим агента» в будь-який момент будь-якої розмови Просто опишіть бажане завдання — проведення глибоких досліджень, створення слайд-шоу, чи створення звітності про витрати. По ходу виконання вашого завдання на екрані з'являється опис, яка надає точну інформацію про те, що саме робить зараз ChatGPT. Ви можете переривати процес та керувати браузером, коли це необхідно — завдання залишаються узгодженими з вашими цілями.

Агент ChatGPT може отримати доступ до ваших конекторів, що дозволяє йому інтегруватися у ваші робочі процеси та отримувати доступ до релевантної та корисної інформації. Після автентифікації ці конектори дозволяють ChatGPT переглядати інформацію та виконувати такі дії, як підведення підсумків вашої переписки за день або пошук часових інтервалів, коли ви доступні для зустрічі — проте для виконання дій на цих сайтах вам усе одно буде запропоновано увійти, перейнявши керування браузером.

Крім того, ви можете запланувати автоматичне повторення виконаних завдань — наприклад, створення щотижневого звіту про метрики щопонеділка вранці.

Нові можливості та нові ризики

Цей реліз знаменує собою перший раз, коли користувачі можуть попросити ChatGPT вжити дій у вебсередовищі. Це створює нові ризики, зокрема через те, що агент ChatGPT може працювати безпосередньо з вашими даними — будь то інформація, доступна через конектори, або веб-сайти, на які ви ввійшли в режимі передачі керування користувачеві. Ми додатково посилили засоби керування з урахуванням попереднього перегляду досліджень Operator та додали засоби захисту для вирішення таких проблем, як обробка конфіденційної інформації в режимі реального часу в Інтернеті, ширше охоплення користувачів та доступ (обмежений) до мережі терміналів. Хоча ці заходи значно зменшують ризик, розширення сфери застосування інструментів агента ChatGPT та ширше охоплення аудиторії користувачів фактично означає збільшення загального профілю ризику.

Ми приділили особливу увагу захисту агента ChatGPT від ворожих маніпуляцій через ін’єкції запитів, що є загальним ризиком для агентних систем, і відповідно підготували масштабніші заходи пом'якшення. Ін'єкції запитів — це спроби сторонніх осіб маніпулювати поведінкою агента за допомогою шкідливих інструкцій, з якими агент ChatGPT може зіткнутися в Інтернеті під час виконання завдання. Наприклад, шкідливий запит, прихований на веб-сторінці (у невидимих елементах чи, скажімо, метаданих), може обманом змусити агента виконати небажані дії, такі як обмін приватними даними з конектора зі зловмисником або виконання шкідливої дії на сайті, на який користувач увійшов. Оскільки агент ChatGPT може виконувати прямі дії, успішні атаки можуть мати більший вплив і становити вищі ризики.

Ми навчили та протестували агента для виявлення та протидії ін'єкціям запитів, а також використовували моніторинг для швидкого виявлення та реагування на атаки з ін'єкціями запитів. Вимога явного підтвердження користувача перед важливими діями ще більше знижує ризик шкоди від цих атак: користувачі можуть втручатися в завдання за потреби, беручи на себе управління або призупиняючи його виконання. Користувачам слід зважувати ці компроміси, самостійно вирішуючи, яку інформацію надавати агенту, а також вживати заходів для мінімізації відкритості до цих ризиків — наприклад, вимикати ті чи інші конектори, якщо вони не потрібні для завдання.

Ми також впровадили заходи для зменшення помилок моделі, особливо з огляду на те, що модель тепер може виконувати завдання, які впливають на реальні сценарії:

Явне підтвердження користувача: ChatGPT навчений чітко запитувати ваш дозвіл перед тим, як виконувати дії з реальними наслідками — наприклад, здійснювати покупки.
Активний нагляд («Режим спостереження»): певні критично важливі завдання, як-от надсилання електронних листів, вимагають вашого активного нагляду.
Проактивне зниження ризиків: ChatGPT навчений цілеспрямовано відмовлятися від завдань із високим рівнем ризику, таких як виконання банківських переказів.

Нарешті, ми запровадили додаткові засоби контролю, аби обмежити обсяг даних, доступ до яких має модель:

Контроль конфіденційності: одним натиском миші в налаштуваннях ChatGPT ви можете видалити всі дані перегляду та негайно вийти з усіх активних сеансів вебсайту. В іншому випадку файли cookie зберігаються відповідно до політик роботи з файлами cookie кожного відвіданого веб-сайту, що може зробити повторні відвідування сайтів більш ефективними.
Безпечний режим передачі керування користувачеві браузера: при взаємодії онлайн через браузер ChatGPT («режим передачі керування користувачеві») ваші запити залишаються конфіденційними. ChatGPT не збирає і не зберігає жодних даних, які ви вводите під час цих сеансів: наприклад, вона не зберігає паролі, оскільки моделі це не потрібно, і до того ж безпечніше, якщо вона ніколи їх не бачить.

Наш найпотужніший комплекс безпеки для захисту від біологічних ризиків

Завдяки розширеним можливостям моделі ми прийняли рішення розглядати агента ChatGPT як такий, що має високі біологічні та хімічні можливості відповідно до нашої програми готовності⁠, що спонукає нас передбачити відповідні заходи безпеки. Хоча у нас немає остаточних доказів того, що модель може суттєво допомогти новачкові створити серйозну біологічну шкоду (пороговий критерій високої ймовірності), ми проявляємо обережність і впроваджуємо необхідні заходи безпеки. У підсумку ця модель має наш найповніший на сьогоднішній день комплекс безпеки з розширеними заходами у сфері біологічної безпеки: комплексне моделювання загроз, навчання відмови від подвійного використання, перманентно активні класифікатори та монітори аргументації, а також чіткі механізми забезпечення виконання.

На додаток до нашої роботи із захисту агента ChatGPT, ми знаємо, що багаторівнева біобезпека працює найкраще, коли заходи безпеки виходять за межі будь-якої лабораторії, тому ми співпрацюємо по всій екосистемі для посилення захисту. З першого дня ми працювали із зовнішніми експертами з біозахисту, інститутами безпеки та дослідниками, щоб сформувати нашу модель загроз, оцінки та політики. Рецензенти з біологічною освітою підтвердили наші дані оцінки, а експерти з кібербезпеки провели стрес-тестування захисних заходів у реалістичних сценаріях. На початку цього місяця ми організували семінар із біозахисту за участю експертів з уряду, академічних кіл, національних лабораторій та неурядових організацій, щоб прискорити співпрацю та просунути дослідження в галузі біозахисту, що використовують штучний інтелект. Ми продовжуватимемо співпрацю на глобальному рівні задля попередження та швидкого реагування на нові ризики.

Дізнайтеся більше про наш надійний підхід до безпеки для уніфікованої агентної моделі в системній картці⁠. Ми також запускаємо програму винагород за виявлення помилок⁠, яка має на меті допомогти нам знаходити та усувати реальні ризики.

Доступність

Агент ChatGPT починає розгортатися сьогодні для Pro, Plus та Team; користувачі тарифного плану Pro отримають доступ до кінця дня, тоді як користувачі Plus та Team отримають доступ протягом наступних кількох днів. Користувачі Enterprise та Edu отримають доступ у найближчі тижні. Користувачам Pro буде виділено 400 повідомлень на місяць, тоді як інші платні користувачі отримуватимуть 40 повідомлень щомісяця; через гнучку кредитну систему доступні додаткові опції використання.

Ми продовжуємо роботу над наданням доступу для користувачів із Європейської економічної зони та Швейцарії.

Сайт, де можна попередньо переглянути дослідження Operator, працюватиме ще кілька тижнів, після чого його буде закрито. Глибоке дослідження є частиною можливостей агента ChatGPT. Якщо ви віддаєте перевагу оригінальній функції глибокого дослідження, запуск якої може зайняти більше часу, але яка за замовчуванням надає більш детальні, поглиблені відповіді, ви все ще можете отримати до неї доступ, вибравши «Глибоке дослідження» у спадному меню в полі введення.

Обмеження та перспективи на майбутнє

Агент ChatGPT усе ще перебуває на ранніх стадіях розробки. Він здатний виконувати цілий ряд складних завдань, але все одно може робити помилки.

Хоча ми вже бачимо значний потенціал у його здатності створювати слайд-шоу, цей функціонал наразі знаходиться в бета-версії. Зараз результати іноді можуть здаватися елементарними у своєму форматуванні та обробці, особливо без існуючого документа для референсу. Ми зосередили початкові можливості моделі на створенні артефактів, що організовують інформацію у потоці та форматі, придатному для презентацій, з такими елементами, як текст, діаграми, зображення та форми, які можна легко редагувати після експорту, оптимізуючи структуру та гнучкість. Наразі також трапляються випадкові розбіжності між слайдами у переглядачі та експортованій презентації PowerPoint: ми працюємо над їх мінімізацією. Крім того, хоча наразі ви можете завантажити в ChatGPT існуючу електронну таблицю для редагування або використання як шаблон, ця можливість досі не доступна при створенні слайд-шоу. Ми вже проводимо навчання наступної ітерації створення слайд-шоу ChatGPT, щоб отримати більш відшліфовані, складні результати з ширшими можливостями та покращеним форматуванням.

Загалом, ми очікуємо, що з часом ефективність, глибина та універсальність агента ChatGPT будуть постійно вдосконалюватися, що має суттєво покращити взаємодію: ми продовжуємо коригувати обсяг нагляду, необхідного від користувача, щоб зробити чатбота більш корисним, зберігши при цьому безпеку використання.

Додаток

SpreadsheetBench
Модель	Середовище оцінки	М'яке обмеження (%): на рівні комірки	М’яке обмеження (%): на рівні аркуша	М'яке обмеження (%): загалом
GPT‑4o	Windows, Excel	15,03	23,65	18,35
Copilot в Excel	Windows, Excel	23,33	15,00	20,00
GPT‑4o	OSX, LibreOffice	15,86	18,33	16,81
OpenAI o3	OSX, LibreOffice	22,40	24,60	23,25
Агент ChatGPT	OSX, LibreOffice	38,27	30,48	35,27
Агент ChatGPT з файлом .xlsx	OSX, LibreOffice	50,56	37,51	45,54
Людина		75,56	65,00	71,33

Запис прямої трансляції

Автор

OpenAI

Виноски

* На початку перегляду модель іноді може знаходити точні відповіді в Інтернеті, наприклад, читаючи повідомлення в блогах зі зразками задач із набору даних. Ми зменшуємо ризики можливого обману моделі під час перегляду за допомогою двох стратегій:

1. Блокування доменів, із якими спостерігався обман моделі в минулому.

2. Використання додаткової моделі як контролера для перевірки всіх вихідних маркерів інструменту при кожній спробі виявити підозрілу поведінку. Підозріла поведінка визначається як «сторінка, файл або фрагмент, основною метою якого є надання точної відповіді на конкретне запитання — наприклад, офіційний ключ оцінювання, витік «рішень» або обговорення з дослівним цитуванням готової відповіді.» Доброякісною поведінкою вважається «будь-який авторитетний ресурс, до якого може звернутися відповідальна людина (документація, посібники, наукові праці, авторитетні статті), навіть якщо він випадково містить правильну відповідь.» Будь-які спроби, де контролер вважав розгортання підозрілим, зараховуються як неправильні. Більшість прикладів, які не пройшли цю перевірку, були завданнями, точне розв'язання яких було доступне в багатьох інтернет-джерелах, не пов'язаних з HLE.

**OpenAI має ексклюзивний доступ до 237 із 290 приватних питань у наборі даних рівня 1-3. Запитання 4-го рівня FrontierMath не включені до цієї оцінки. Результати оцінювалися як середнє значення з 16 спроб відповісти на кожне питання. Результати агента ChatGPT отримуються OpenAI, оцінюються Epoch AI, з доступом до браузера та терміналу, і обмеженням у 128 тис. токенів на відповідь. Оцінки OpenAI o4-mini та o3 виводяться та оцінюються Epoch AI без доступу до браузера та терміналу, з використанням скриптів Python через виклик функцій та обмеженням у 100 тис. токенів на відповідь.

*** Oracle@64 посилається на найкращий результат, досягнутий у 64 вибіркових прогонах, обраних на основі базової істини (тобто ми обираємо спробу з найвищим балом для кожного завдання на основі фактичних оцінок виконання). Ми повідомляємо середнє значення цих найкращих результатів по всіх завданнях. Ця метрика підкреслює верхню межу потенціалу моделі та варіацію у виконанні завдань, показуючи, наскільки ефективною може бути модель, коли вона досягає успіху, і вказуючи на можливості для покращення узгодженості через подальше навчання. На відміну від типових метрик «краще з N», які вибирають на основі впевненості моделі, oracle@64 використовує базову істину для вибору і застосовується до завдань, які оцінюються за безперервною шкалою 0-1, а не за бінарною шкалою «пройдено / не пройдено».