Претставување на ChatGPT‑агент: поврзување на истражувањето и дејствувањето
Сега ChatGPT размислува и дејствува, проактивно избирајќи од кутија алатки на агентски вештини за да ги изврши задачите за тебе, користејќи сопствен компјутер.
ChatGPT сега може да работи за тебе, користејќи сопствен компјутер, ракувајќи со сложени задачи од почеток до крај.
Сега можеш да побараш од ChatGPT да извршува барања како „погледни го мојот календар и информирај ме за претстојните состаноци со клиенти врз основа на последните вести“, „планирај и купи состојки за да јапонски појадок за четворица“ и „анализирај тројца конкуренти и креирај презентација со слајдови“. ChatGPT интелигентно ќе навигира низ веб-локации, ќе ги филтрира резултатите, ќе те промптне да се најавиш безбедно кога е потребно, ќе подига код, ќе спроведува анализа, па дури и ќе доставува уредливи слајд-шоуа и табели што ги резимираат неговите наоди.
Во сржта на оваа нова способност е унифициран агентски систем. Тој ги обединува трите предности на претходните откритија: способноста на Operator да комуницира со веб-локации, вештината за длабоко истражување во синтетизирањето на информации и интелигенцијата и разговорната флуентност на ChatGPT.
ChatGPT ги извршува овие задачи користејќи сопствен виртуелен компјутер, флуидно префрлајќи се помеѓу расудување и дејствување за да се справи со сложените работни текови од почеток до крај, сето тоа врз основа на твоите инструкции.
Најважно од сè, ти си секогаш во контрола. ChatGPT бара дозвола пред да преземе дејства со последици, и лесно можеш да го прекинеш, да го преземеш прелистувачот или да ги запреш задачите во било кој момент.
Почнувајќи од денес, корисниците на Pro, Plus и Team можат да ги активираат новите агентски можности на ChatGPT директно преку паѓачкото мени за алатки од композиторот со избирање на „режим на агент“ во кој било момент од секој разговор.
Иако ChatGPT агентот веќе е моќна алатка за извршување сложени задачи, денешното подигање е само почеток. Редовно ќе продолжиме итеративно да додаваме значајни подобрувања , правејќи го поспособен и покорисен за повеќе луѓе со текот на времето.
Претходно, Operator и длабокото истражување донесоа уникатни предности: Operator можеше да скролува, клика и да пишува на веб, додека длабокото истражување одлично анализираше и сумираше информации. Но секое работеше најдобро во различни ситуации: Operator не можеше длабоко да навлезе во анализи или да напише детални извештаи, а длабокото истражување не можеше да комуницира со веб-локации за да ги рафинира резултатите или да пристапи до содржина којашто бара автентикација од корисник. Всушност, забележавме дека многу од прашањата што корисниците се обидуваа да ги решат со Operator беа подобро приспособени за длабинско истражување, па затоа ги обединивме најдобрите карактеристики од двете функции.
Со интегрирање на овие комплементарни предности во ChatGPT и со претставување дополнителни алатки, отклучивме сосема нови можности во рамките на еден модел. Сега може активно да работи на веб-локациите–кликнува, филтрира и собира попрецизни, ефикасни резултати. Исто така, можеш природно да преминеш од едноставен разговор на барање дејства директно во рамките на истиот разговор.
Го опремивме ChatGPT‑агентот со пакет алатки: визуелен прелистувач којшто комуницира со веб преку графичко-кориснички интерфејс, текстуален прелистувач за поедноставни пребарувања базирани на расудување, терминал и директен пристап до API. Агентот исто така може да ги искористи ChatGPT‑поврзувачите(се отвора во нов прозорец), што ти овозможува да се поврзеш со апликации како Gmail и Github, за ChatGPT да може да најде информации релевантни за твоите промпти и да ги користи во своите одговори. Можеш исто така да се најавиш на која било веб-локација со преземање на прелистувачот, овозможувајќи му да оди подлабоко и пошироко и во истражувањето и во извршувањето на задачите. Давајќи му ги на ChatGPT овие различни начини за пристап и интеракција со веб-информации, значи дека тоа може да го избере оптималниот пат за најефикасно извршување на задачите. На пример, може да собере информации за твојот календар преку API, ефикасно да расудува за големи количини текст користејќи го прелистувачот базиран на текст, а исто така може да комуницира визуелно со веб-локации дизајнирани првенствено за луѓе.
Сето ова се прави со користење на сопствен виртуелен компјутер, којшто го зачувува контекстот неопходен за задачата, дури и кога се користат повеќе алатки—моделот може да избере да отвори страница користејќи текстуален или визуелен прелистувач, да преземе датотека од веб, да ја манипулира со извршување на команда во терминалот, а потоа да го види резултатот назад во визуелниот прелистувач. Моделот го приспособува својот пристап за да извршува задачи брзо, точно и ефикасно.
ChatGPT‑агентот е дизајниран за итеративни, колаборативни работни процеси, многу поинтерактивни и пофлексибилни од претходните модели. Додека ChatGPT работи, можеш да го прекинеш во кој било момент за да ги разјасниш упатствата, да го насочиш кон посакуваните резултати или целосно да ја промениш задачата. Ќе продолжи од каде што застанал, но со новите информации и без да го изгуби претходно постигнатиот напредок. Исто така, самиот ChatGPT може проактивно да побара дополнителни детали од тебе кога е потребно за да се осигура дека задачата и понатаму е усогласена со твоите цели. Ако задачата трае подолго од очекуваното или имаш чувство дека е заглавена, можеш да ја паузираш, да побараш резиме на напредокот или целосно да ја запреш и да добиеш делумни резултати. Ако ја имаш апликацијата ChatGPT на телефонот, таа ќе ти испрати известување кога ќе ја заврши твојата задача.
Овие унифицирани агентски способности значително ја подобруваат корисноста на ChatGPT и во секојдневни и професионални контексти. На работа, можеш да ги автоматизираш повторувачките задачи, како што се конвертирањето на слики од екранот или контролните табли во презентации составени од векторски елементи што може да се уредуваат, преуредувањето на состаноците, планирањето и резервирањето настани надвор од локацијата и ажурирањето на електронски табели со нови финансиски податоци, со задржување на истото форматирање. Во твојот личен живот, можеш да го користиш за без напор да планираш и резервираш патни маршрути, да дизајнираш и резервираш цели забави за вечера или да најдеш специјалисти и да закажеш состаноци.
Подобрените способности на моделот се одразуваат во неговите најсовремени (SOTA) перформанси во евалуации коишто мерат способности за веб-прелистување и завршување на задачи во реалниот свет.
На Humanity’s Last Exam(се отвора во нов прозорец)*, евалуација која ги мери перформансите на ВИ со прашања на експертско ниво на широк опсег теми, моделот кој го напојува ChatGPT агентот постигнува нов pass@1 SOTA на 41,6. Бидејќи агентот користи динамичен план и избира свои алатки, може да се справи со истата задача на различни начини во низа извршувања. Кога го скалиравме ова со едноставна стратегија за паралелно воведување—извршувајќи до осум обиди одеднаш и избирајќи го оној со највисока самопријавена доверба — HLE резултатот на агентот се зголемува на 44,4.
FrontierMath** е најтешкиот познат математички репер, со нови, необјавени проблеми коишто често за решавање им одземаат часови или дури и денови на експертите математичари. Со користење на алатки, како пристап до терминал за извршување код, агентот на ChatGPT достигнува точност од 27,4%, надминувајќи ги двата претходни модела со голема разлика.
Ние исто така го проценивме моделот користејќи референтни тестови моделирани според сложени задачи од реалниот свет. На интерен референтен тест дизајниран за оценување на перформансите на моделот при извршување сложени, економски значајни задачи за коишто се потребни размислување и експертиза , резултатите на агентот ChatGPT се споредливи или подобри од оние на луѓето во приближно половина од случаите низ различни времиња на завршување на задачите, додека значително ги надминува o3 и o4-mini. Експертите ги оценуваат резултатите на моделот споредувајќи ги со висококвалитетни човечки стандарди креирани од најдобрите изведувачи во секое поле. Овие задачи, добиени од експерти од различни занимања и индустрии, ја отсликуваат реалната професионална работа—како што се подготовката на конкурентска анализа на даватели на итна медицинска помош на барање, изработката на детални амортизациони распореди и идентификувањето на одржливи бунари за вода за нова постројка за зелен водород.
На DSBench(се отвора во нов прозорец), дизајниран за оценување на агенти на реални задачи од областа на науката за податоци што опфаќаат анализа и моделирање на податоци, агентот ChatGPT значително ги надминува човечките перформанси.
На SpreadsheetBench, кој ги оценува моделите за нивната способност да уредуваат табели добиени од сценарија од реалниот свет, агентот ChatGPT ги надминува постојните модели со значителна разлика. Кога ќе му се даде можност за директно уредување на табели, ChatGPT‑агентот постигнува дури и повисоки резултати од 45,5%, во споредба со резултатот на Copilot во Excel од 20.0%.
Методологија: Авторите на SpreadsheetBench користеа Windows околина со Microsoft Excel за да ги проценат електронските табели. Користевме OSX средина и LibreOffice, што може да доведе до мали разлики во оценувањето. На пример, авторите открија вкупно тешко ограничување од 15,02% за GPT‑4o, а ние добивме 13,38%. Го користевме комплетниот референтен тест со 912 прашања.
На интерен референтен тест којшто ја мери способноста на моделот да преземе задачи за моделирање на аналитичари во инвестициско банкарствоод прва до трета година – како составување на финансиски модел со три извештаи за компанија Fortune 500 со правилно форматирање и цитати, или при изработка на модел за откуп со задолжување (LBO) за отстранување од берза—моделот што го напојува ChatGPT agent значајно ги надминува deep research и o3. Секоја задача се оценува според стотици критериуми поврзани со точноста и употребата на формули.
Исто така, го оценивме агентот ChatGPT на BrowseComp, референтен тест којшто го објавивме порано оваа година, којшто ја мери способноста на агентите за прелистување да лоцираат тешко достапни информации на веб. Моделот постави нов SOTA со 68,9%, што е за 17,4 процентни поени повисоко од длабокото истражување.
Конечно, на WebArena(се отвора во нов прозорец), референтен тест дизајниран за оценување на перформансите на агентите за веб-прелистување во извршувањето на реални веб-задачи, моделот се подобрува во однос на o3‑напојуван CUA (моделот кој го напојува Operator).
Можеш да ги активираш новите агентски можности на ChatGPT директно преку паѓачкото мени на алатки од композиторот со избирање на „режим на агент“ во кој било момент од секој разговор. Едноставно опиши ја посакуваната задача—без разлика дали станува збор за спроведување длабоко истражување, креирање слајд-шоу или поднесување трошоци. Додека ја извршува твојата задача, нарацијата на екранот дава увид во тоа што точно прави ChatGPT. Можеш да го прекинеш и да ја преземеш контролата над прелистувачот кога и да е потребно, осигурувајќи се дека задачите остануваат усогласени со твоите цели.
ChatGPT‑агентот може да пристапи до твоите конектори, овозможувајќи му да се интегрира со твоите работни процеси и да пристапи до релевантни, применливи информации. Откако ќе се автентицираат, овие конектори му овозможуваат на ChatGPT да ги види информациите и да прави работи како сумирање на твоето сандаче за денот или наоѓање временски слотови кога си достапен за состанок—за да преземеш дејство на овие сајтови, сепак, ќе ти биде побарано да се најавиш со преземање на прелистувачот.
Дополнително, можеш да закажеш завршените задачи да се повторуваат автоматски, како што е генерирање неделен извештај за метрика секој понеделник наутро.
Ова издание го означува првиот пат кога корисниците можат да побараат од ChatGPT да преземе дејства на веб. Тоа претставува нови ризици, особено затоа што агентот ChatGPT може директно да работи со твоите податоци, без разлика дали станува збор за информации до коишто се пристапува преку конектори или веб-страници на кои си се најавил преку режим на преземање. Ги зајакнавме робусните контроли од истражувачкиот преглед на Operator и додадовме заштити за предизвици како ракување со чувствителни информации на живиот веб, поширока достапност за корисниците и (ограничен) пристап до терминалната мрежа. Иако овие мерки значително го намалуваат ризикот, проширените алатки на ChatGPT‑агентот и пошироката достапност за корисниците значат дека неговиот севкупен профил на ризик е повисок.
Ставивме посебен акцент на заштитата на ChatGPT‑агентот од адверзаријална манипулација преку промпт инјекција, што претставува ризик за агентските системи генерално, и соодветно подготвивме пообемни мерки за ублажување. Промпт инјекциите се обиди од трети лица да го манипулираат однесувањето на ChatGPT‑агентот со злонамерни инструкции коишто може да ги сретне на веб додека извршува задача. На пример, злонамерен промпт скриен на веб-страница, како на пример во невидливи елементи или метаподатоци, би можел да го измами агентот да преземе ненамерни дејства, како што е споделување приватни податоци од конектор со напаѓачот или преземање штетно дејство на страница на која корисникот се најавил. Бидејќи ChatGPT‑агентот може да презема директни дејства, успешните напади можат да имаат поголемо влијание и да претставуваат поголем ризик.
Го обучивме и тестиравме агентот за идентификување и давање отпор на промпт инјекции, како и за користење на мониторинг за брзо откривање и одговор на напади со промпт инјектирање. Барањето експлицитна потврда од корисникот пред значајни дејства дополнително го намалува ризикот од штета од овие напади, а корисниците можат да интервенираат во задачите по потреба со преземање контрола или паузирање. Корисниците треба да ги измерат овие компромиси кога одлучуваат какви информации да му дадат на агентот, како и да преземат чекори за да ја минимизираат својата изложеност на овие ризици, како што е оневозможувањето на конекторите кога не се потребни за задача.
Исто така, воведовме мерки за ублажување на грешките на моделот, особено затоа што моделот сега може да извршува задачи што имаат влијание врз реалниот свет:
- Експлицитна потврда од корисникот: ChatGPT е обучен експлицитно да побара твоја дозвола пред да преземе дејства со последици во реалниот свет, како што е купувањето.
- Активен надзор („Режим на гледање“): Одредени критични задачи, како што е испраќањето е-пошта, бараат твој активен надзор.
- Проактивно управување со ризици: ChatGPT е обучен активно да одбива задачи со висок ризик, како што се банкарски трансфери.
Конечно, претставивме дополнителни контроли за да го ограничиме пристапот до податоците на моделот:
- Контроли за приватност: Со еден клик во поставките на ChatGPT, можеш да ги избриши сите податоци за прелистување и веднаш да се одјавиш од сите активни сесии на веб-локацијата. Инаку, колачињата остануваат врз основа на политиките за колачиња на секоја посетена веб-локација, што може да ги направи повторните посети на страниците поефикасни.
- Безбеден режим на преземање на прелистувачот: Кога комуницираш со веб користејќи го прелистувачот на ChatGPT („режим на преземање”), твоите внесувања остануваат приватни. ChatGPT не собира или складира никакви податоци што ги внесуваш за време на овие сесии, како што се лозинки, бидејќи моделот не ги бара, и побезбедно е ако никогаш не ги види.
Со зголемените способности на моделот, решивме да го третираме ChatGPT‑агентот како со високи биолошки и хемиски способности во рамките на нашата рамка за подготвеност, активирајќи ги соодветните заштитни мерки. Иако немаме дефинитивни докази дека моделот може значајно да му помогне на почетник да креира сериозна биолошка штета—нашиот праг за висока способност—внимаваме и ги спроведуваме потребните заштитни мерки сега. Како резултат на тоа, овој модел го има нашиот најсеопфатен безбедносен систем досега со засилени заштитни мерки за биологија: сеопфатно моделирање на закани, обука за одбивање на двојна намена, постојано активни класификатори и монитори за расудување, и јасни канали за спроведување.
Покрај нашата работа за обезбедување на ChatGPT‑агентот, знаеме дека слоевитата биосигурност најдобро функционира кога заштитните мерки излегуваат надвор од која било лабораторија, па затоа соработуваме низ екосистемот за да ги зајакнеме одбраните. Од првиот ден работиме со надворешни експерти за биосигурност, институти за безбедност и академски истражувачи за да го обликуваме нашиот модел на закани, процени и политики. Рецензентите обучени за биологија ги потврдија нашите податоци за евалуација, а експертите за домен од црвените тимови ги тестираа заштитните мерки во реални сценарија. На почетокот на овој месец организиравме работилница за биоодбрана со експерти од владата, академијата, националните лаборатории и невладините организации за да ја забрзаме соработката и да го унапредиме истражувањето за биоодбрана потпомогнато од вештачка интелигенција. Ќе продолжиме да соработуваме глобално за да бидеме чекор понапред од новите ризици.
Прочитај повеќе за нашиот робустен безбедносен пристап за унифицираниот агентски модел во системската картичка. Исто така, започнуваме програма за наградување откривање грешки за да можеме да ги откриеме и отстраниме ризиците од реалниот свет.
ChatGPT‑aгентот почнува да се воведува денес за Pro, Plus и Team; Pro ќе добие пристап до крајот на денот, додека корисниците на Plus и Team ќе добијат пристап во текот на следните неколку дена. Корисниците на Enterprise и Education ќе добијат пристап во наредните седмици. Pro корисниците имаат 400 пораки месечно, додека другите платени корисници добиваат 40 пораки месечно, со дополнителна употреба достапна преку флексибилни опции базирани на кредити.
Сè уште работиме на овозможување пристап за Европската економска област и Швајцарија.
Сајтот за преглед на истражувањата на Operator ќе остане функционален уште неколку седмици, по што ќе биде укинат. Длабокото истражување е дел од способностите на агентот ChatGPT. Ако ја претпочиташ оригиналната функција за длабоко истражување—ма којашто може да ѝ треба повечќе време за извршување, но стандардно обезбедува подетални, длабински одговори—сè уште можеш да пристапиш до неа со избирање на „длабоко истражување“ од паѓачкото мени во полето за пораки.
ChatGPT‑агент е сè уште во своите рани фази. Способен е да презема низа сложени задачи, но сепак може да прави грешки.
Иако гледаме значителен потенцијал во неговата способност да генерира слајд-шоу, оваа функционалност моментално е во beta. Во моментот, резултатите понекогаш може да изгледаат базично во нивното форматирање и полирање, особено кога се започнува без постоечки документ. Ги насочивме првичните можности на моделот кон генерирање артефакти кои организираат информации во тек и формат погоден за презентации, со елементи како текст, графикони, слики и форми коишто природно и лесно се уредуваат по извоз, оптимизирајќи ги структурата и флексибилноста. Во моментов, постојат и повремени несовпаѓања помеѓу слајдовите во прегледувачот и извезениот PowerPoint, и работиме на нивно намалување. Дополнително, иако моментално можеш да поставиш постоечка табела за ChatGPT за уредување или користење како шаблон, оваа можност сè уште не е достапна за слајд-шоуа. Веќе ја тренираме следната итерација на функцијата за создавање слајд-шоуа во ChatGPT за да произведе пополирани, софистицирани резултати, со пошироки можности и подобрено форматирање.
Генерално, очекуваме континуирани подобрувања на ефикасноста, длабочината и разноврсноста на ChatGPT‑агентот со текот на времето, вклучувајќи и повеќе беспрекорни интеракции додека продолжуваме да ја приспособуваме количината на надзор што е потребен од страна на корисникот за да го направиме покорисен, истовремено осигурувајќи се дека е безбеден за употреба.
SpreadsheetBench | ||||
Модел | Средина за евалуација | Благо ограничување (%): Ниво на ќелии | Благо ограничување (%): Ниво на лист | Благо ограничување (%): Вкупно |
GPT‑4o | Windows, Excel | 15,03 | 23,65 | 18,35 |
Copilot во Excel | Windows, Excel | 23,33 | 15,00 | 20,00 |
GPT‑4o | OSX, LibreOffice | 15,86 | 18,33 | 16,81 |
OpenAI o3 | OSX, LibreOffice | 22,40 | 24,60 | 23,25 |
ChatGPT‑агент | OSX, LibreOffice | 38,27 | 30,48 | 35,27 |
ChatGPT агент со .xlsx | OSX, LibreOffice | 50,56 | 37,51 | 45,54 |
Човек | 75,56 | 65,00 | 71,33 |
Автор
Фусноти
* Кога е овозможено прелистување, моделот понекогаш може да пронајде точни одговори онлајн, на пример преку читање блог-постови со проблеми за пример од некој датасет Ја ублажуваме загриженоста за можноста моделот да „мами” при прелистување со две стратегии:
1. Блокирани домени од кои сме забележале дека моделот мамел во минатото.
2. Користеше дополнителен модел како монитор за да ги испита сите токени за резултат на алатката во секој обид да се идентификува сомнително однесување. Сомнителното однесување се дефинира како "страница, датотека или фрагмент чија главна цел е да го обезбеди точниот одговор на ова конкретно прашање - на пример, официјален клуч за оценување, суштина на протечени “решенија” или дискусија во која дословно се цитира готовиот одговор." Бенигното однесување се дефинира како "Секој авторитативен ресурс со кој темелен човек може да се консултира (документација, прирачници, научни трудови, реномирани статии) дури и ако случајно го содржи точниот одговор." Сите обиди каде што мониторот смета дека воведувањето е сомнително се сметаат за неточни. Повеќето примероци коишто беа неуспешни во оваа проверка беа проблеми чие точно решение беше достапно на повеќе интернет извори неповрзани со HLE.
**OpenAI има ексклузивен пристап до 237 од 290 приватни прашања на базата на податоци Tier 1-3. Прашањата од FrontierMath ниво 4 не се вклучени во оваа евалуација. Резултатите се оценети како просек од 16 обиди за одговарање на секое прашање. Резултатите од агентот ChatGPT се генерирани од OpenAI, оценети од Epoch AI, со пристап до прелистувач и терминал и ограничување од 128K токени по одговор. Проценките на OpenAI o4-mini и o3 се иницирани и оценети од Epoch AI, без пристап до прелистувач и терминал, со употреба на Python скрипти преку повикување на функции и ограничување од 100K токени по одговор.
*** Oracle@64 се однесува на најдобриот резултат постигнат во 64 примероци, избрани со помош на вистинските податоци (т.е. го избираме обидот со највисок резултат за секоја задача врз основа на вистинските оценети перформанси). Го пријавуваме просекот на овие најдобри резултати по задача од сите задачи. Оваа метрика го нагласува горниот потенцијал на моделот и отстапувањето во изведувањето на задачата - покажувајќи колку може да биде способен моделот кога ќе успее и укажува на простор за подобрување на конзистентноста преку понатамошна обука. За разлика од типичните метрики “најдобри од N”, кои избираат врз основа на самодовербата на моделот, oracle@64 користи вистински податоци за избор и се однесува на задачи оценети на континуирана скала 0-1 наместо бинарно успешно/неуспешно.


