17 июля 2025 г.

Представляем агента ChatGPT: мост между исследованиями и действиями

ChatGPT теперь думает и действует, проактивно выбирая нужные агентные навыки и выполняя задачи за вас с использованием собственного виртуального компьютера.

Попробовать в ChatGPT

Загрузка…

Теперь ChatGPT может выполнять работу за вас, используя собственный виртуальный компьютер, справляясь со сложными задачами от начала до конца.

Теперь вы можете попросить ChatGPT выполнить такие запросы, как «посмотреть мой календарь и проинформировать меня о предстоящих встречах с клиентами на основе последних новостей», «спланировать и купить ингредиенты для приготовления японского завтрака на четверых» и «проанализировать трёх конкурентов и создать презентацию». ChatGPT будет интеллектуально перемещаться по сайтам, фильтровать результаты, предлагать безопасно войти в систему при необходимости, запускать код, проводить анализ и даже предоставлять редактируемые слайд-шоу и электронные таблицы, которые обобщают его выводы.

В основе этой новой возможности находится единая агентная система. Она объединяет три сильные стороны предыдущих достижений: Operator⁠ умеет взаимодействовать с веб-сайтами, глубокие исследования⁠ — навык синтеза информации, а также интеллект и разговорную беглость ChatGPT.

ChatGPT выполняет эти задачи с помощью собственного виртуального компьютера, плавно переключаясь между рассуждениями и действиями, чтобы справляться со сложными рабочими процессами от начала до конца, основываясь на ваших инструкциях.

Самое главное — контроль всегда остается за вами. ChatGPT запрашивает разрешение перед выполнением значимых действий, и вы можете легко прервать его, взять под контроль браузер или остановить задачи в любой момент.

Начиная с сегодняшнего дня, пользователи планов Pro, Plus и Team могут активировать новые агентные возможности ChatGPT непосредственно через выпадающий список инструментов рядом с полем ввода, выбрав «режим агента» в любой момент любого обсуждения.

Хотя агент ChatGPT уже является мощным инструментом для выполнения сложных задач, сегодняшний запуск — это только начало. Мы продолжим регулярно добавлять значительные улучшения, делая его со временем более функциональным и полезным для большего числа людей.

Естественная эволюция Operator и глубоких исследований

Ранее Operator и глубокое исследование обладали уникальными преимуществами: Operator мог прокручивать, нажимать и набирать текст в интернете, в то время как глубокое исследование отлично справлялось с анализом и обобщением информации. Но они лучше всего работали в разных ситуациях: Operator не мог углубляться в анализ или писать подробные отчеты, а глубокие исследования не могли взаимодействовать с веб-сайтами для уточнения результатов или доступа к контенту, требующему аутентификации пользователя. На самом деле, мы заметили, что многие запросы, которые пользователи пытались выполнить с помощью Operator, были более подходящими для глубокого исследования, поэтому мы объединили лучшее из обоих.

Объединив эти взаимодополняющие сильные стороны в ChatGPT и добавив дополнительные инструменты, мы открыли совершенно новые возможности в одной модели. Теперь она может активно взаимодействовать с веб-сайтами — нажимать, фильтровать и собирать более точные и эффективные результаты. Вы также можете естественным образом перейти от простого обсуждения к запросу действий непосредственно в том же чате.

Агент, который работает для вас и с вами

Мы оснастили агента ChatGPT набором инструментов: визуальным браузером, который взаимодействует с вебом через графический пользовательский интерфейс, текстовым браузером для более простых веб-запросов, основанных на рассуждениях, терминалом и прямым доступом к API. Агент также может использовать коннекторы ChatGPT⁠(открывается в новом окне), которые позволяют подключать такие приложения, как Gmail и GitHub, чтобы ChatGPT мог находить информацию, относящуюся к вашим промптам, и использовать её в своих ответах. Вы также можете входить на любой сайт, взяв на себя управление браузером, что позволит ему более глубоко и широко исследовать и выполнять задачи. Предоставление ChatGPT различных путей для доступа и взаимодействия с веб-информацией позволяет ему выбрать оптимальный маршрут для наиболее эффективного выполнения задач. Например, он может собирать информацию о вашем календаре через API, эффективно обосновывая большие объемы текста с помощью текстового браузера, а также иметь возможность визуально взаимодействовать с веб-сайтами, предназначенными в первую очередь для людей.

Все это выполняется с использованием собственного виртуального компьютера, который сохраняет необходимый для задачи контекст, даже при использовании нескольких инструментов — модель может выбрать открыть страницу с помощью текстового или визуального браузера, скачать файл из интернета, обработать его, выполнив команду в терминале, а затем снова просмотреть результат в визуальном браузере. Модель адаптирует свой подход для выполнения задач с высокой скоростью, точностью и эффективностью.

Агент ChatGPT предназначен для итеративных, совместных рабочих процессов, которые гораздо более интерактивны и гибки, чем предыдущие модели. В процессе работы ChatGPT вы можете прервать его в любой момент, чтобы уточнить свои инструкции, направить его к желаемым результатам или полностью изменить задачу. Он продолжит с того места, где остановился, теперь с новой информацией, но без потери предыдущего прогресса. Аналогично, ChatGPT может при необходимости проактивно запрашивать у вас дополнительные сведения, чтобы убедиться, что задача остаётся в соответствии с вашими целями. Если задача занимает больше времени, чем предполагалось, или вы чувствуете, что зашли в тупик, вы можете приостановить её, запросить краткое содержание о ходе выполнения или остановить её полностью и получить частичные результаты. Если у вас на телефоне установлено приложение ChatGPT, оно отправит вам уведомление, когда выполнит вашу задачу.

Расширение практической полезности в реальном мире

Эти унифицированные агентные возможности значительно повышают полезность ChatGPT как в повседневных, так и в профессиональных контекстах. На работе вы можете автоматизировать повторяющиеся задачи, такие как преобразование скриншотов или панелей управления в презентации, состоящие из редактируемых векторных элементов, перенос встреч, планирование и бронирование выездных мероприятий, а также обновление электронных таблиц новыми финансовыми данными с сохранением прежнего форматирования. В личной жизни вы можете использовать его, чтобы без труда составлять планы и бронировать маршруты путешествий, организовывать и бронировать целые званые вечера, находить специалистов и назначать встречи.

Повышенные возможности модели отражаются в её передовой производительности (SOTA) при оценке возможностей просмотра веб-страниц и выполнения реальных задач.

В процессе Humanity’s Last Exam⁠(открывается в новом окне)*, оценки, измеряющей, как ИИ справляется с вопросами экспертного уровня по широкому спектру тем, — модель, работающая в агенте ChatGPT, достигла нового показателя pass@1 SOTA в 41,6. Поскольку агент планирует динамически и выбирает собственные инструменты, он может решать одну и ту же задачу различными способами в разных запусках. Когда мы масштабировали это с помощью простой стратегии параллельного развертывания — выполняя до восьми попыток одновременно и выбирая ту, которая имеет наивысшую собственную оценку уверенности, — оценка HLE агента увеличилась до 44,4.

FrontierMath** — самый сложный из известных математических бенчмарков, включающий новые, неопубликованные задачи, на решение которых у экспертов-математиков часто уходят часы или даже дни. С использованием инструментов, таких как доступ к терминалу для выполнения кода, агент ChatGPT достигает точности 27,4 %, значительно превосходя обе предыдущие модели.

Мы также оценили модель, используя бенчмарки, смоделированные по образцу сложных реальных задач. На внутреннем бенчмарке, разработанном для оценки производительности модели при выполнении сложных, экономически значимых задач по работе со знаниями, результаты агента ChatGPT сравнимы с результатами человека или превосходят их примерно в половине случаев в различных временных рамках выполнения задач, при этом значительно превосходя o3 и o4-mini. Результаты моделей оцениваются экспертами по сравнению с высококачественными человеческими эталонами, созданными лучшими специалистами в каждой области. Эти задачи, разработанные экспертами из различных профессий и отраслей, отражают реальную профессиональную деятельность — например, подготовку конкурентного анализа поставщиков неотложной помощи по запросу, создание подробных графиков амортизации и выявление жизнеспособных водных скважин для нового предприятия по производству зеленого водорода.

На DSBench⁠(открывается в новом окне), предназначенном для оценки агентов в реалистичных задачах по анализу и моделированию данных, агент ChatGPT заметно превосходит человеческие результаты.

На SpreadsheetBench, который оценивает модели по их способности редактировать электронные таблицы, созданные на основе реальных сценариев, агент ChatGPT значительно превосходит существующие модели. При предоставлении возможности непосредственного редактирования электронных таблиц агент ChatGPT набирает еще более высокие баллы — 45,5 %, по сравнению с 20,0 % у Copilot в Excel.

Методология: Авторы SpreadsheetBench использовали среду Windows и Microsoft Excel для оценки электронных таблиц. Мы использовали среду OSX и LibreOffice, что может привести к небольшим различиям в оценках. Например, авторы обнаружили общее жёсткое ограничение 15,02 % для GPT‑4o, а мы получили 13,38 %. Мы использовали полный бенчмарк из 912 вопросов.

На внутреннем бенчмарке, измеряющем способность модели выполнять задачи моделирования, за которые обычно отвечают аналитики инвестбанков на 1–3 году работы, такие как: создание финансовой модели с тремя отчетами для компаний из списка Fortune 500 с правильным форматированием и ссылками, или построение модели выкупа с привлечением заемных средств для приватизации, агент ChatGPT значительно превосходит глубокие исследования и o3. Каждая задача оценивается по сотням критериев, связанных с правильностью и использованием формул.

Мы также оценили агента ChatGPT на BrowseComp⁠, бенчмарке, который мы опубликовали ранее в этом году и который измеряет способность агентов находить труднодоступную информацию в интернете. Модель установила новый рекорд SOTA с результатом 68,9 %, что на 17,4 процентных пункта выше, чем глубокое исследование.

Наконец, на WebArena⁠(открывается в новом окне), бенчмарке, разработанном для оценки производительности агентов веб-браузинга при выполнении реальных веб-задач, модель превосходит CUA на базе o3 (модель, работающая на Operator).

Как использовать

Вы можете активировать новые агентские возможности ChatGPT непосредственно через выпадающий список инструментов в окне ввода сообщения, выбрав «режим агента» в любой момент в любом обсуждении. Просто опишите желаемую задачу — будь то проведение глубокого исследования, создание слайд-шоу или представление расходов. Во время выполнения вашей задачи на экране отображается текстовое сообщение, наглядно показывающее, что именно делает ChatGPT. Вы можете прервать работу браузера и взять его под свой контроль, когда это необходимо, чтобы задачи продолжали соответствовать вашим целям.

Агент ChatGPT может получить доступ к вашим коннекторам, что позволит ему интегрироваться с вашими рабочими процессами и получать доступ к актуальной и полезной информации. После аутентификации эти коннекторы позволяют ChatGPT просматривать информацию и выполнять такие действия, как обзор вашей входящей почты за день или нахождение свободных окон для встречи. Однако для выполнения действий на этих сайтах вам все равно будет предложена авторизация, при этом управление будет передано браузеру.

Кроме того, вы можете запланировать автоматическое повторение выполненных задач, например, формирование еженедельного отчета о метриках каждое утро понедельника.

Новые возможности, новые риски

Этот выпуск впервые даёт пользователям возможность попросить ChatGPT выполнять действия в интернете. Это создаёт новые риски, особенно потому, что агент ChatGPT может работать напрямую с вашими данными, будь то информация, полученная через коннекторы, или веб-сайты, на которые вы вошли в режиме переданного вам управления. Мы усилили надежные средства контроля из предварительного релиза системы Operator и добавили меры предосторожности для решения таких задач, как работа с конфиденциальной информацией в реальном времени в интернете, более широкий охват пользователей и (ограниченный) доступ к терминальной сети. Хотя эти меры значительно снижают риск, расширенный набор инструментов агента ChatGPT и более широкий охват пользователей означают, что его общий профиль рисков выше.

Мы уделили особое внимание защите агента ChatGPT от враждебных манипуляций через инъекции промптов, что представляет собой риск для агентных систем в целом, и подготовили дополнительные меры защиты. Инъекции промптов — это попытки сторонних лиц манипулировать поведением агента с помощью вредоносных инструкций, которые он может встретить в интернете при выполнении задачи. Вредоносный промпт, скрытый на веб-странице — например, в невидимых элементах или метаданных — может обмануть агента, заставив его совершить непредусмотренные действия, такие как передача злоумышленнику конфиденциальных данных из коннектора или выполнение вредоносного действия на сайте, на который вошел пользователь. Поскольку агент ChatGPT может выполнять прямые действия, успешные атаки могут иметь более значительное воздействие и представлять более высокие риски.

Мы обучили и протестировали агента для выявления и противодействия инъекциям промптов, а также используем мониторинг для быстрого обнаружения и реагирования на атаки с инъекциями промптов. Требование явного подтверждения пользователя перед выполнением значимых действий дополнительно снижает риск нанесения вреда в результате таких атак, а пользователи могут при необходимости вмешиваться в выполнение задач, беря управление на себя или приостанавливая их. Пользователям следует взвесить эти компромиссы при принятии решения о том, какую информацию предоставить агенту, а также предпринять шаги по минимизации их воздействия на эти риски, например, отключать коннекторы, когда они не нужны для выполнения задачи.

Мы также внедрили меры по предотвращению ошибок модели, особенно учитывая, что теперь модель может выполнять задачи, влияющие на реальный мир:

Явное подтверждение пользователя: ChatGPT обучен явно запрашивать ваше разрешение перед выполнением действий с реальными последствиями, например, перед совершением покупки.
Активный надзор («Режим наблюдения»): Некоторые критические задачи, такие как отправка электронной почты, требуют вашего активного надзора.
Проактивное снижение рисков: ChatGPT обучен активно отказывать в выполнении задач с высоким уровнем риска, таких как банковские передачи.

Наконец, мы ввели дополнительные элементы управления, чтобы ограничить доступ модели к данным:

Контроль конфиденциальности: Одним щелчком мыши в настройках ChatGPT вы можете удалить все данные о просмотре и немедленно выйти из всех активных сеансов на сайтах. В противном случае файлы cookie сохраняются в соответствии с политикой каждого посещенного веб-сайта, что может сделать повторные посещения более эффективными.
Режим переданного пользователю управления браузером: Когда вы взаимодействуете с веб-сайтом через браузер ChatGPT («режим переданного пользователю управления»), ваш ввод остается конфиденциальным. ChatGPT не собирает и не хранит данные, которые вы вводите во время этих сеансов, например, пароли, потому что модели они не нужны, и безопаснее, если она их никогда не увидит.

Наш самый мощный на сегодняшний день комплекс мер безопасности для защиты от биологических рисков

Учитывая возросшие возможности модели, мы приняли решение отнести агент ChatGPT к категории с высокими биологическими и химическими возможностями в рамках нашей Системы готовности⁠, активировав соответствующие меры предосторожности. Хотя у нас нет окончательных доказательств того, что модель может существенно помочь новичку создать серьезный биологический вред — наш порог для высокой способности — мы проявляем осторожность и внедряем необходимые меры предосторожности уже сейчас. В результате эта модель обладает самым полным на сегодняшний день набором мер безопасности с усовершенствованными средствами защиты для биологии: комплексное моделирование угроз, обучение отказу от двойного использования, постоянно работающие классификаторы и наблюдатели рассуждений, а также четкие механизмы правоприменения.

В дополнение к нашей работе по обеспечению безопасности агента ChatGPT, мы знаем, что многоуровневая биобезопасность работает лучше всего, когда меры защиты выходят за пределы одной лаборатории, поэтому мы взаимодействуем со всей экосистемой, чтобы укрепить защиту. С самого первого дня мы работали с внешними экспертами по биобезопасности, институтами безопасности и академическими исследователями, чтобы сформировать нашу модель угроз, оценки и политику. Рецензенты, обученные в области биологии, подтвердили наши оценочные данные, а эксперты по предметной области из Красных команд провели стресс-тестирование мер предосторожности в реалистичных сценариях. В начале этого месяца мы организовали семинар по биозащите с участием экспертов из государственных органов, академических кругов, национальных лабораторий и НПО, чтобы ускорить сотрудничество и продвинуть исследования в области биозащиты, поддерживаемые ИИ. Мы будем продолжать сотрудничать на глобальном уровне, чтобы опережать возникающие риски.

Узнайте больше о нашем надежном подходе к безопасности унифицированной агентной модели в системной карте⁠. Мы также запускаем программу вознаграждений за обнаружение ошибок⁠, чтобы мы могли находить и устранять реальные риски.

Доступность

Сегодня начинается развертывание агента ChatGPT для пользователей планов Pro, Plus и Team; пользователи Pro получат доступ к концу дня, а пользователи Plus и Team получат доступ в течение следующих нескольких дней. Пользователи планов Enterprise и Edu получат доступ в ближайшие недели. Пользователи Pro получают 400 сообщений в месяц, тогда как другие платные пользователи получают 40 сообщений ежемесячно, с возможностью дополнительного использования через гибкие кредитные опции.

Мы все еще работаем над предоставлением доступа для Европейской экономической зоны и Швейцарии.

Сайт предварительного просмотра системы Operator будет оставаться функциональным еще несколько недель, после чего он будет закрыт. Глубокие исследования являются частью возможностей агента ChatGPT. Если вы предпочитаете прежнюю версию функции глубокого исследования, которая может работать дольше, но по умолчанию даёт более подробные и глубокие ответы, вы всё ещё можете получить к ней доступ, выбрав «глубокое исследование» из выпадающего списка в окне ввода сообщения.

Ограничения и взгляд в будущее

Агент ChatGPT все еще находится на ранних стадиях. Он способен выполнять целый ряд сложных задач, но все же может допускать ошибки.

Хотя мы видим значительный потенциал в возможности формировать слайд-шоу, эта функция в настоящее время находится в стадии бета-тестирования. В настоящее время результаты иногда кажутся примитивными в оформлении, особенно если начинать без существующего документа. Мы сфокусировали начальные возможности модели на создании материалов, которые структурируют информацию в формате, подходящем для презентаций, с элементами (текст, диаграммы, изображения, фигуры), которые остаются легко редактируемыми после экспорта — оптимизируя структуру и гибкость. В настоящее время также иногда возникают расхождения между слайдами в программе просмотра и экспортированным PowerPoint, которые мы стараемся уменьшить. Кроме того, хотя в настоящее время вы можете загрузить существующую электронную таблицу в ChatGPT для редактирования или использования в качестве шаблона, эта возможность пока недоступна для слайд-шоу. Мы уже проводим обучение следующей итерации создания слайд-шоу ChatGPT, чтобы она могла выдавать более отточенные и сложные результаты с расширенными возможностями и улучшенным форматированием.

В целом, мы ожидаем, что со временем эффективность, глубина и универсальность агента ChatGPT будут продолжать улучшаться, включая более плавные взаимодействия, поскольку мы продолжаем корректировать степень контроля, необходимую пользователю, чтобы сделать его более полезным и безопасным в использовании.

Приложение

SpreadsheetBench
Модель	Среда оценки	Мягкое ограничение (%): уровень ячеек	Мягкое ограничение (%): уровень листа	Мягкое ограничение (%): Общее
GPT‑4o	Windows, Excel	15,03	23,65	18,35
Copilot в Excel	Windows, Excel	23,33	15,00	20,00
GPT‑4o	OSX, LibreOffice	15,86	18,33	16,81
OpenAI o3	OSX, LibreOffice	22,40	24,60	23,25
Агент ChatGPT	OSX, LibreOffice	38,27	30,48	35,27
Агент ChatGPT с файлом .xlsx	OSX, LibreOffice	50,56	37,51	45,54
Человек		75,56	65,00	71,33

Повтор трансляции в прямом эфире

Автор

OpenAI

Сноски

* При включении функции просмотра модель иногда может находить точные ответы в интернете, например, читая записи в блогах с примерами задач из набора данных. Мы снижаем риск недобросовестных действий модели во время просмотра веб-страниц двумя способами:

1. Заблокированные домены, с которых мы ранее наблюдали случаи обмана моделью.

2. Использовалась дополнительная модель- монитор, которая проверяла все выходные токены инструмента при каждой попытке, выявляя подозрительное поведение. Под подозрительным поведением понимаются страницы, файлы или фрагменты, чья основная цель — дать точный ответ на конкретный вопрос (например, официальный ключ оценивания, слитые «решения» или обсуждение, цитирующее ответ дословно). Доброжелательным считается поведение, когда ресурс является обычным авторитетным источником, к которому обратился бы прилежный человек (документация, руководства, научные статьи), даже если там случайно содержится правильный ответ. Все попытки, которые монитор посчитал подозрительными, считались неверными. Большинство отклонённых примеров относились к задачам, точные решения которых были доступны в разных интернет-источниках, не связанных с HLE.

**OpenAI имеет эксклюзивный доступ к 237 из 290 частных вопросов в наборе данных уровня 1-3. Вопросы уровня 4 по FrontierMath не включены в эту оценку. Результаты оценены как среднее значение из 16 попыток ответить на каждый вопрос. Результаты работы агента ChatGPT предоставляются OpenAI, оцениваются Epoch AI, с доступом через браузер и терминал, и ограничением в 128K токенов на один ответ. Оценки OpenAI o4-mini и o3 проводятся и оцениваются Epoch AI без доступа к браузеру и терминалу, с использованием скриптов на Python через вызов функций и ограничением в 100 000 токенов на один ответ.

*** Oracle@64 — это наивысший балл, полученный за 64 выборочных прогона, выбранных с использованием достоверных данных (т.е., мы выбираем наивысший балл для каждой задачи на основе фактической оценки производительности). Мы сообщаем среднее значение этих лучших результатов по каждой задаче по всем задачам. Этот показатель подчеркивает верхнюю границу потенциала модели и вариативность в выполнении задач, показывая, насколько эффективной может быть модель при успешной реализации, и указывая на возможности повышения согласованности через дальнейшее обучение. В отличие от типичных метрик «лучшее из N», которые выбираются на основе уверенности модели, oracle@64 использует достоверные данные для выбора и применяется к задачам, оцениваемым по непрерывной шкале 0–1, а не по двоичной шкале «успешно» или «неуспешно».