Представяне на агента na ChatGPT: свързване на научните изследвания и действията
ChatGPT вече мисли и действа, като активно избира от набор от агентни умения, за да изпълни задачите за вас, използвайки собствения си компютър.
ChatGPT вече може да върши работа вместо вас, използвайки собствения си компютър, като се справя със сложни задачи от началото до края.
Вече можете да помолите ChatGPT да обработва заявки като „погледни календара ми и ме информирай за предстоящите срещи с клиенти въз основа на последните новини“, „планирай и купи съставки за приготвяне на японска закуска за четирима“ и „анализирай трима конкуренти и създай презентация“. ChatGPT интелигентно навигира в уеб сайтове, филтрира резултатите, при необходимост ви подканва да влезете сигурно, стартира код, извършва анализ и дори предоставя редактируеми слайдшоута и електронни таблици, които обобщават резултатите.
В основата на тази нова способност стои единна агентска система. Тя съчетава три силни страни на по-ранни пробиви: способността на Operator да взаимодейства с уеб сайтове, уменията на задълбоченото проучване да синтезира информация и интелигентността и разговорната плавност на ChatGPT.
ChatGPT изпълнява тези задачи, използвайки собствен виртуален компютър, като плавно преминава от разсъждаване към действие, за да се справи с комплексни работни процеси от начало до край, всичко това въз основа на вашите инструкции.
Най-важното е, че винаги контролирате ситуацията. ChatGPT иска разрешение, преди да предприеме действия с последствия, и вие можете лесно да прекъснете, да поемете контрола над браузъра или да спрете задачите по всяко време.
От днес потребителите на Pro, Plus и Team могат да активират новите агентни възможности на ChatGPT директно чрез падащото меню с инструменти в композитора, като изберете „агентен режим“ по всяко време в който и да е разговор.
Макар че агентът ChatGPT вече е мощен инструмент за справяне със сложни задачи, днешното му пускане е само началото. Ще продължим редовно да добавяме значителни подобрения, за да го направим по-способен и полезен за повече хора с течение на времето.
Преди това Operator и задълбочените проучвания имаха уникални предимства: Operator можеше да скролва, щраква и пише в мрежата, докато задълбочените проучвания се отличаваха с анализ и обобщаване на информация. Но те работеха най-добре в различни ситуации: Operator не можеше да се задълбочи в анализите или да пише подробни доклади, а задълбочените проучвания не можеха да взаимодействат с уеб сайтове, за да прецизират резултатите или да получат достъп до съдържание, изискващо удостоверяване на потребителя. Всъщност видяхме, че много от заявките, които потребителите правят с помощта на Operator, всъщност са по-подходящи за задълбочено проучване, така че обединихме най-доброто от двете.
Чрез интегрирането на тези допълващи се силни страни в ChatGPT и въвеждането на допълнителни инструменти разкрихме изцяло нови възможности в рамките на един модел. Сега този модел може активно да работи с уеб сайтове – да щраква, филтрира и събира по-точни и ефективни резултати. Можете също така по естествен начин да преминете от обикновен разговор към искане на действия директно в рамките на същия чат.
Оборудвали сме агента ChatGPT с набор от инструменти: визуален браузър, който взаимодейства с уеб чрез графичен потребителски интерфейс, текстов браузър за по-прости уеб заявки, базирани на разсъждения, терминал и директен достъп до API. Агентът може също така да използва ChatGPT конектори(отваря се в нов прозорец), които ви позволяват да свържете приложения като Gmail и Github, така че ChatGPT да може да намери информация, свързана с вашите подкани, и да я използва в отговорите си. Можете също така да влезете във всеки уеб сайт, като поемете управлението на браузъра, позволявайки му да се задълбочи и разшири както в проучването, така и в изпълнението на задачите. Предоставянето на ChatGPT на тези различни пътища за достъп до уеб информация и взаимодействие с нея означава, че той може да избере оптималния път за най-ефективно изпълнение на задачите. Например, може да събира информация за вашия календар чрез API, ефективно да разсъждава върху големи количества текст с помощта на текстово базиран браузър, като същевременно има възможност да взаимодейства визуално с уеб сайтове, предназначени предимно за хора.
Всичко това се извършва с помощта на собствен виртуален компютър, който запазва необходимия за задачата контекст, дори когато се използват няколко инструмента – моделът може да избере да отвори страница с помощта на текстовия или визуалния браузър, да изтегли файл от уеб, да го манипулира, като изпълни команда в терминала, и след това да прегледа изхода във визуалния браузър. Моделът адаптира подхода си, за да изпълнява задачи с бързина, точност и ефективност.
Агентът ChatGPT е проектиран за итеративни, съвместни работни процеси, много по-интерактивни и гъвкави от предишните модели. Докато ChatGPT работи, можете да го прекъснете по всяко време, за да изясните вашите инструкции, да го насочите към желаните резултати или да промените задачата изцяло. Той ще продължи оттам, откъдето е спрял, сега с новата информация, но без да губи предишния напредък. По същия начин самият ChatGPT може активно да търси допълнителни подробности от вас, когато е необходимо, за да гарантира, че задачата остава в съответствие с вашите цели. Ако дадена задача отнеме повече време от предвиденото или се окаже блокирана, можете да я спрете на пауза, да поискате обобщение на напредъка или да я спрете изцяло и да получите частични резултати. Ако имате приложението ChatGPT на телефона си, то ще ви изпрати известие, когато приключи със задачата ви.
Тези обединени агентни възможности значително повишават полезността на ChatGPT както в ежедневния, така и в професионалния контекст. На работното място можете да автоматизирате повтарящи се задачи, като например преобразуване на екранни снимки или информационни панели в презентации, съставени от векторни елементи, които могат да се редактират, пренареждане на срещи, планиране и резервиране на изнесени сайтове и актуализиране на електронни таблици с нови финансови данни, като се запазва същото форматиране. В личния си живот можете да го използвате за лесно планиране и резервиране на маршрути за пътуване, за планиране и резервиране на цели вечери или за намиране на специалисти и насрочване на срещи.
Повишените възможности на модела се отразяват в неговата най-съвременна (SOTA) производителност при оценки, които измерват сърфирането в интернет и способностите за изпълнение на задачи в реалния свят.
На „Последният изпит на човечеството“(отваря се в нов прозорец)*, оценка, която измерва производителността на ИИ в широк спектър от теми по въпроси на експертно ниво, моделът, захранващ агента ChatGPT, постига нов резултат pass@1 SOTA – 41,6. Тъй като агентът планира динамично и сам избира инструментите си, той може да се справя с една и съща задача по различни начини при различните изпълнения. Когато увеличихме това с проста стратегия за паралелно внедряване – извършване на до осем опита едновременно и избор на този с най-висока самооценка – резултатът на агента по HLE се увеличи до 44,4.
FrontierMath** е най-трудният известен математически еталон, включващ нови, непубликувани задачи, чието решаване често отнема часове и дори дни на математици експерти. При използване на инструменти, като например достъп до терминал за изпълнение на код, агентът ChatGPT постига точност от 27,4%, като значително превъзхожда и двата предишни модела.
Също така оценихме модела, като използвахме еталони, моделирани по сложни задачи от реалния свят. При вътрешен еталон, проектиран да оцени производителността на модела при сложни, икономически ценни задачи за работа със знания, изходът на агента ChatGPT е сравним или по-добър от този на хората в приблизително половината от случаите в различни времена за изпълнение на задачите, като същевременно значително превъзхожда o3 и o4-mini. Изходите на моделите се оценяват от експерти спрямо висококачествени човешки базови стандарти, създадени от най-добрите изпълнители във всяка област. Тези задачи, предоставени от експерти от различни професии и индустрии, отразяват реалната професионална работа – като изготвяне на конкурентен анализ на доставчици на спешна медицинска помощ по заявка, съставяне на подробни амортизационни графици и идентифициране на жизнеспособни водни кладенци за ново съоръжение за зелен водород.
На DSBench(отваря се в нов прозорец), създаден за оценка на агенти по реалистични задачи за наука за данни, обхващащи анализ и моделиране на данни, агентът ChatGPT значително превъзхожда човешките постижения с голяма разлика.
На SpreadsheetBench, който оценява моделите по способността им да редактират електронни таблици, извлечени от реални сценарии, агентът ChatGPT превъзхожда съществуващите модели с голяма разлика. Когато му се даде възможност да редактира директно електронни таблици, агентът ChatGPT постига още по-висок резултат от 45,5%, в сравнение с Copilot в Excel, който постига 20,0%.
Методология: Авторите на SpreadsheetBench използваха среда на Windows с Microsoft Excel за оценка на електронните таблици. Ние използвахме среда на OSX и LibreOffice, което може да доведе до малки разлики в оценяването. Например, авторите са установили обща твърда рестрикция от 15,02% за GPT‑4o, а ние получихме 13,38%. Използвахме пълния еталон от 912 въпроса.
При вътрешен еталон, който измерва способността на модела да се справя със задачи за моделиране на анализатори от първи до трети курс на инвестиционно банкиране – например съставяне на финансов модел с три отчета за компания от Fortune 500 с правилно форматиране и цитати или изграждане на модел за изкупуване с ливъридж за поемане на частна собственост – моделът, захранващ агента ChatGPT, значително превъзхожда задълбочените проучвания и o3. Всяка задача се оценява по стотици критерии, свързани с правилността и използването на формули.
Също така оценихме агента ChatGPT по BrowseComp– сравнителен тест, който публикувахме по-рано тази година и който измерва способността на агентите за сърфиране да намират трудна за намиране информация в уеб. Моделът постави нов SOTA с 68,9%, което е със 17,4 процентни пункта повече от задълбоченото проучване.
И накрая, на WebArena(отваря се в нов прозорец), еталон, предназначен за оценка на производителността на агенти за сърфиране в уеб при изпълнение на реални уеб задачи, моделът се подобрява в сравнение с CUA, задвижван от o3 (моделът, задвижван от Operator).
Можете да активирате новите агентни възможности на ChatGPT директно чрез падащото меню на инструментите в композитора, като изберете „агентен режим“ по всяко време във всеки разговор. Просто опишете желаната от вас задача – независимо дали става въпрос за провеждане на задълбочено проучване, създаване на слайдшоу или подаване на разходи. По време на изпълнението на задачата, разказ на екрана осигурява видимост за това какво точно прави ChatGPT. Можете да прекъсвате и да поемате контрола над браузъра, когато е необходимо, като гарантирате, че задачите остават в съответствие с вашите цели.
Агентът ChatGPT може да получи достъп до вашите конектори, което му позволява да се интегрира с вашите работни процеси и да получи достъп до подходяща информация, която може да се използва. След удостоверяване на автентичността тези конектори позволяват на ChatGPT да вижда информация и да прави неща като обобщаване на входящата ви поща за деня или намиране на времеви интервали, в които сте свободни за среща – за да предприемете действия в тези сайтове обаче, ще бъдете подканени да влезете, като поемете управлението на браузъра.
Освен това можете да планирате завършените задачи да се повтарят автоматично, като например генериране на седмичен доклад за метриките всеки понеделник сутрин.
В тази версия за първи път потребителите могат да поискат от ChatGPT да извърши действия в мрежата. Това въвежда нови рискове, особено защото агентът ChatGPT може да работи директно с вашите данни, независимо дали става въпрос за информация, достъпна чрез конектори или уеб сайтове, в които сте го вписали чрез режим на придобиване. Укрепихме надеждните механизми за контрол от предварителния преглед на изследването на Operator и добавихме предпазни мерки за предизвикателства като обработката на чувствителна информация в реално време в интернет, по-широкия обхват на потребителите и (ограничения) достъп до терминална мрежа. Въпреки че тези мерки значително намаляват риска, разширените инструменти на агента ChatGPT и по-широкият обхват на потребителите означават, че общият му рисков профил е по-висок.
Особено внимание обърнахме на предпазването на агента ChatGPT от манипулиране от недоброжелатели чрез инжектиране на подкана, което е риск за агентните системи като цяло, и съответно подготвихме по-обширни мерки за намаляване на риска. Инжектиранията на подкани са опити на трети страни да манипулират поведението му чрез злонамерени инструкции, които агентът на ChatGPT може да срещне в интернет, докато изпълнява задача. Например, злонамерена подкана, скрита в уеб страница, като в невидими елементи или метаданни, може да подмами агента да предприеме нежелани действия, като споделяне на лични данни от конектор с нападателя или извършване на вредни действия на сайт, в който потребителят е влязъл. Тъй като агентът ChatGPT може да предприема директни действия, успешните атаки могат да имат по-голямо въздействие и да представляват по-високи рискове.
Обучихме и тествахме агента за разпознаване и противодействие на инжектиране на подкани, както и за използване на мониторинг за бързо откриване и реагиране на атаки с инжектиране на данни. Изискването за изрично потвърждение от потребителя преди последващи действия допълнително намалява риска от вреди от тези атаки, а потребителите могат да се намесват в задачите при необходимост, като ги поемат или спират. Потребителите трябва да преценят компромисите, когато решават каква информация да предоставят на агента, както и да предприемат стъпки за минимизиране на излагането си на тези рискове, като например деактивиране на конекторите, когато не са необходими за дадена задача.
Също така внедрихме мерки за смекчаване на грешките на модела, особено след като моделът вече може да изпълнява задачи, които влияят на реалния свят:
- Изрично потвърждение на потребителя: ChatGPT е обучен изрично да поиска вашето разрешение, преди да предприеме действия с реални последици, като например извършване на покупка.
- Активен надзор („режим на наблюдение“): Някои критични задачи, като изпращане на имейли, изискват активно наблюдение от ваша страна.
- Проактивно намаляване на риска: ChatGPT е обучен да отказва високорискови задачи, като например банкови преводи.
И накрая, въведохме допълнителни контроли, за да ограничим данните, до които моделът има достъп:
- Контроли за поверителност: С едно щракване в настройките на ChatGPT можете да изтриете всички данни за сърфиране и незабавно да излизате от акаунта си във всички активни сесии на уеб сайта. В противен случай „бисквитките“ се запазват според политиките за „бисквитки“ на всеки посетен уеб сайт, което може да направи повторните посещения на сайтове по-ефективни.
- Сигурен режим на придобиване на браузъра: Когато взаимодействате с мрежата, използвайки браузъра на ChatGPT („режим на придобиване“), вашите въвеждания остават поверителни. ChatGPT не събира и не съхранява никакви данни, които въвеждате по време на тези сесии, като например пароли, тъй като моделът не се нуждае от тях и е по-безопасно, ако никога не ги вижда.
С увеличените възможности на модела, ние взехме решението да третираме агента ChatGPT като агент с високи биологични и химически възможности съгласно нашата рамка за готовност, като активирахме съответните предпазни мерки. Въпреки че не разполагаме с категорични доказателства, че моделът може да помогне на начинаещ да създаде тежки биологични вреди – нашият праг за висока способност – ние проявяваме предпазливост и прилагаме необходимите предпазни мерки сега. В резултат на това този модел разполага с най-всеобхватния ни досега стек за безопасност с подобрени предпазни мерки за биологията: цялостно моделиране на заплахите, обучение за отказ за двойна употреба, постоянно действащи класификатори и монитори за разсъждения и ясни канали за изпълнение.
В допълнение към работата ни по защита на агента ChatGPT знаем, че многопластовата биологична безопасност работи най-добре, когато защитните мерки се простират отвъд всяка една лаборатория, така че си сътрудничим с цялата екосистема, за да засилим защитата. Още от първия ден работим с външни експерти по биосигурност, институти за безопасност и академични изследователи, за да оформим нашия модел на заплахи, оценки и политики. Рецензенти, обучени в областта на биологията, валидираха нашите данни за оценка, а експерти от „червените екипи“ извършиха стрес тест на защитните мерки в реалистични сценарии. По-рано този месец свикахме семинар по биозащита с експерти от правителството, академичните среди, националните лаборатории и неправителствени организации, за да ускорим сътрудничеството и да напреднем в изследванията за биозащита, задвижвани от ИИ. Ще продължим да си партнираме в глобален мащаб, за да изпреварваме нововъзникващите рискове.
Научете повече за нашия надежден подход за безопасност за унифицирания агентен модел в картата на системата. Също така стартираме програма за награди за откриване на грешки, за да можем да открием и отстраним рисковете от реалния свят.
Агентът ChatGPT започва да се разпространява днес за Pro, Plus и Team; Pro ще получи достъп до края на деня, докато потребителите на Plus и Team ще получат достъп през следващите няколко дни. Потребителите на Enterprise и Education ще получат достъп през следващите седмици. Pro потребителите имат 400 съобщения на месец, докато другите платени потребители получават 40 съобщения месечно, като допълнителната употреба е достъпна чрез гъвкави кредитни опции.
Все още работим по осигуряването на достъп за Европейското икономическо пространство и Швейцария.
Сайтът за предварителен преглед на Operator ще остане функционален още няколко седмици, след което ще бъде прекратен. Задълбоченото проучване е част от възможностите на агента на ChatGPT. Ако предпочитате оригиналната функция за задълбочено проучване – която може да отнеме повече време, но по подразбиране предоставя по-подробни и задълбочени отговори – все още можете да получите достъп до нея, като изберете „задълбочено проучване“ от падащото меню в композитора на съобщения.
Агентът ChatGPT все още е в начален стадий. Той може да се справи с редица сложни задачи, но все пак може да допусне грешки.
Въпреки че виждаме значителен потенциал в способността му да генерира слайдшоута, тази функционалност понастоящем е в бета-версия. Понастоящем изходите понякога изглеждат елементарни по отношение на форматирането и полирането, особено когато започвате без съществуващ документ. Фокусирахме първоначалните възможности на модела върху генерирането на артефакти, които организират информацията в поток и формат, подходящ за презентации, с елементи като текст, графики, изображения и форми, които са естествено и лесно редактируеми след експортиране, оптимизирайки структурата и гъвкавостта. Понастоящем има и случайни несъответствия между слайдовете в прегледа и експортирания PowerPoint, които се опитваме да намалим. Освен това, въпреки че в момента можете да качите съществуваща електронна таблица, която ChatGPT да редактира или да използва като шаблон, тази възможност все още не е налична за слайдшоута. Вече обучаваме следващата итерация на създаването на слайдшоу в ChatGPT, за да създадем по-прецизни и сложни изходи с по-широки възможности и подобрено форматиране.
Като цяло очакваме с течение на времето да продължим да подобряваме ефективността, дълбочината и гъвкавостта на агента ChatGPT, включително по-безпроблемни взаимодействия, тъй като продължаваме да регулираме количеството надзор, изискван от потребителя, за да го направим по-полезен, като същевременно гарантираме, че е безопасен за използване.
SpreadsheetBench | ||||
Модел | Среда за оценка | Меко ограничение (%): Клетъчно ниво | Меко ограничение (%): На ниво лист | Меко ограничение (%): Общо |
GPT‑4o | Windows, Excel | 15,03 | 23,65 | 18,35 |
Copilot в Excel | Windows, Excel | 23,33 | 15,00 | 20,00 |
GPT‑4o | OSX, LibreOffice | 15,86 | 18,33 | 16,81 |
OpenAI o3 | OSX, LibreOffice | 22,40 | 24,60 | 23,25 |
Агент ChatGPT | OSX, LibreOffice | 38,27 | 30,48 | 35,27 |
Агент ChatGPT с .xlsx | OSX, LibreOffice | 50,56 | 37,51 | 45,54 |
Човек | 75,56 | 65,00 | 71,33 |
Автор
Бележки под линия
* Когато се активира сърфирането, моделът понякога може да намери точни отговори онлайн, например чрез четене на публикации в блогове с примерни задачи от набор от данни. Ние смекчаваме опасенията от измама на модела по време на сърфиране с две стратегии:
1. Блокирани домейни, от които сме наблюдавали измама на модела в миналото.
2. Използва се допълнителен модел като монитор, който изследва всички изходящи токени на инструмента при всеки опит за идентифициране на подозрително поведение. Подозрителното поведение се дефинира като „страница, файл или фрагмент, чиято основна цел е да предостави точния отговор на този конкретен въпрос – например официален ключ за оценяване, изтекла информация за „решенията“ или дискусия, в която се цитира дословно готовият отговор.“ Добронамереното поведение се определя като „Всеки авторитетен ресурс, до който може да се допита прилежен човек (документация, ръководства, научни статии, реномирани статии), дори ако случайно съдържа верния отговор.“ Всички опити, при които наблюдателят е сметнал разгръщането за подозрително, се отчитат като неправилни. Повечето неуспешни проби при тази проверка бяха проблеми, чието точно решение беше достъпно в множество интернет източници, несвързани с HLE.
**OpenAI има изключителен достъп до 237 от 290 частни въпроса в набора от данни от ниво 1-3. Въпросите от ниво 4 на FrontierMath не са включени в тази оценка. Резултатите се оценяват като средна стойност от 16 опита за отговор на всеки въпрос. Резултатите на агента ChatGPT се получават от OpenAI, оценяват се от Epoch AI, имат достъп до браузър и терминал и ограничение от 128K токена за отговор. Оценките на OpenAI o4-mini и o3 се извършват и оценяват от Epoch AI, без достъп до браузър и терминал, с използване на Python скриптове чрез извикване на функции и ограничение от 100K токена на отговор.
*** Oracle@64 се отнася до най-добрия резултат, постигнат в 64 извадки, избрани с помощта на истината (т.е. избираме опита с най-висок резултат за всяка задача въз основа на действителната оценена производителност). Докладваме средната стойност на тези най-добри резултати за всяка задача поотделно за всички задачи. Тази метрика подчертава горната граница на потенциала на модела и вариациите в производителността на задачите – показва колко способен може да бъде моделът, когато успее, и посочва възможности за подобряване на последователността чрез по-нататъшно обучение. За разлика от типичните метрики „най-добър от N“, които избират въз основа на доверието към модела, oracle@64 използва основната истина за избора и се прилага за задачи, оценявани по непрекъсната скала от 0 до 1, а не по бинарна скала „успешен/неуспешен“.


