2025 ж. 17 шілде

ChatGPT агентін таныстыру: зерттеу мен әрекетті байланыстыру

Енді ChatGPT өзі қолданатын компьютер арқылы тапсырмаларды орындау үшін агенттік дағдылар құралдарынан алдын ала таңдап, ойлап әрі әрекет етеді.

ChatGPT-те қолданып көріңіз

Жүктелуде…

Енді ChatGPT өз компьютерін пайдаланып, күрделі тапсырмаларды басынан аяғына дейін орындап, сіз үшін жұмыс істей алады.

Енді сіз ChatGPT‑тен: «күнтізбеме қарап, соңғы жаңалықтарға сүйеніп, алдағы клиент кездесулері бойынша қысқаша мәлімет дайында», «төрт адамға жапонша таңғы ас әзірлеуге ингредиенттерді жоспарлап, сатып ал», және «үш бәсекелесті талдап, слайдтар топтамасын жаса» сияқты өтініштерді орындауды сұрай аласыз. ChatGPT сайттарда ақылды түрде шарлап, нәтижелерді сүзеді, қажет болса қауіпсіз кіруді сұрайды, код іске қосады, талдау жүргізеді, тіпті қорытындыларын жинақтайтын өңдеуге болатын слайдтар мен электрондық кестелерді де ұсына алады.

Бұл жаңа мүмкіндіктің өзегінде біртұтас агенттік жүйе жатыр. Ол алдыңғы серпілістердің үш күшті жағын біріктіреді: Operator-дың⁠ веб-сайттармен әрекеттесу қабілеті, терең зерттеудің⁠ ақпаратты синтездеу шеберлігі және ChatGPT‑тің зеректігі мен әңгімелесу еркіндігі.

ChatGPT бұл тапсырмаларды өзінің виртуалды компьютері арқылы орындайды, ой қорыту мен әрекет арасында икемді ауысып, нұсқауларыңызға сүйене отырып, күрделі жұмыс ағындарын басынан аяғына дейін басқарады.

Ең маңыздысы, басқару әрқашан өзіңізде. ChatGPT салдары бар әрекеттерді жасамас бұрын рұқсат сұрайды, ал сіз кез келген сәтте оны оңай тоқтатып, браузерді өз қолыңызға алып немесе тапсырманы мүлде доғара аласыз.

Бүгіннен бастап Pro, Plus және Team пайдаланушылары ChatGPT‑тің жаңа агенттік мүмкіндіктерін хабарлама құрастырушыдағы құралдар ашылмалы мәзірінен кез келген әңгімеде кез келген сәтте ‘agent mode’ таңдау арқылы тікелей қоса алады.

ChatGPT агенті күрделі тапсырмаларды орындауға арналған қуатты құрал болса да, бүгінгі іске қосылу — тек бастамасы. Біз оны уақыт өте келе көбірек адамға анағұрлым қабілетті әрі пайдалы ету үшін үнемі елеулі жақсартуларды кезең-кезеңімен қоса береміз.

Operator мен терең зерттеудің табиғи эволюциясы

Бұған дейін Operator мен терең зерттеудің әрқайсысының өзіне тән артықшылықтары болды: Operator вебте айналдырып, шертіп, мәтін енгізе алатын, ал терең зерттеу ақпаратты талдау мен жинақтауда үздік еді. Бірақ олар әртүрлі жағдайларда жақсы жұмыс істейтін: Operator талдауға терең бойлай алмайтын немесе егжей-тегжейлі есеп жаза алмайтын, ал терең зерттеу нәтижелерді нақтылау не пайдаланушы аутентификациясын қажет ететін мазмұнға қол жеткізу үшін сайттармен әрекеттесе алмайтын. Шын мәнінде, біз пайдаланушылар Operator көмегімен орындауға тырысқан көптеген сұраулардың терең зерттеуге көбірек сай келетінін көрдік, сондықтан екеуінің ең жақсы жақтарын біріктірдік.

Осы бірін-бірі толықтыратын артықшылықтарды ChatGPT‑ке біріктіріп, қосымша құралдар енгізу арқылы біз бір модель ішіндегі мүлде жаңа мүмкіндіктерді аштық. Енді ол сайттармен белсенді әрекеттесе алады — шертіп, сүзгілеп, анағұрлым дәл әрі тиімді нәтижелер жинайды. Сондай-ақ сіз бір чаттың ішінде қарапайым әңгімеден тікелей әрекет сұрауға табиғи түрде өте аласыз.

Сіз үшін де, сізбен бірге де жұмыс істейтін агент

Біз ChatGPT агентін құралдар жиынтығымен жабдықтадық: графикалық пайдаланушы интерфейсі арқылы вебпен әрекеттесетін визуалды браузер, ой қорытуға негізделген қарапайым веб-сұрауларға арналған мәтіндік браузер, терминал және API-ге тікелей қолжеткізу. Сондай-ақ агент ChatGPT коннекторларын⁠(жаңа терезеде ашылады) пайдалана алады, бұл Gmail мен Github сияқты қолданбаларды қосуға мүмкіндік береді, сонда ChatGPT көмексөздеріңізге қатысты ақпаратты тауып, оны жауаптарында қолдана алады. Сондай-ақ браузерді өз қолыңызға алу арқылы кез келген сайтқа кіре аласыз, бұл оған зерттеу мен тапсырма орындауда тереңірек әрі ауқымдырақ жұмыс істеуге мүмкіндік береді. ChatGPT‑ке веб-ақпаратқа қол жеткізу және онымен әрекеттесудің осы әртүрлі жолдарын беру оның тапсырмаларды барынша тиімді орындау үшін оңтайлы жолды таңдай алуын білдіреді. Мысалы, ол күнтізбеңіз туралы ақпаратты API арқылы жинай алады, мәтіндік браузер арқылы үлкен көлемдегі мәтін үстінен тиімді ой қорыта алады, сонымен қатар негізінен адамдарға арналған веб-сайттармен визуалды әрекеттесу мүмкіндігіне ие болады.

Мұның бәрі оның өзінің виртуалды компьютері арқылы жасалады, ол бірнеше құрал қолданылса да, тапсырмаға қажет контексті сақтайды — модель бетті мәтіндік не визуалды браузерде ашуды таңдай алады, файлды вебтен жүктеп, терминалда пәрмен іске қосу арқылы оны өңдеп, кейін нәтижені қайтадан визуалды браузерде көре алады. Модель тапсырмаларды жылдам, дәл және тиімді орындау үшін тәсілін бейімдейді.

ChatGPT агенті итеративті, бірлескен жұмыс ағындарына арналып жасалған және алдыңғы модельдерге қарағанда әлдеқайда интерактивті әрі икемді. ChatGPT жұмыс істеп жатқанда, сіз кез келген сәтте тоқтатып, нұсқауларыңызды нақтылай аласыз, оны қалаған нәтижеге қарай бағыттай аласыз немесе тапсырманы мүлде өзгерте аласыз. Ол жаңа ақпаратпен, бірақ алдыңғы ілгерілеуді жоғалтпай, тоқтаған жерінен жалғастырады. Сол сияқты, қажет болғанда тапсырма сіздің мақсаттарыңызға сай болып қалуы үшін ChatGPT‑тің өзі де сізден қосымша мәліметтерді белсенді түрде сұрауы мүмкін. Егер тапсырма күткеннен ұзаққа созылса немесе тұрып қалғандай көрінсе, оны кідірте аласыз, одан орындалу барысының қысқаша мазмұнын сұрай аласыз немесе мүлде тоқтатып, ішінара нәтижелерді ала аласыз. Егер телефоныңызда ChatGPT қолданбасы орнатылған болса, тапсырмаңыз аяқталғанда ол сізге хабарландыру жібереді.

Шынайы өмірдегі пайданың кеңеюі

Бұл біріккен агенттік мүмкіндіктер ChatGPT‑тің күнделікті де, кәсіби де жағдайда пайдалылығын айтарлықтай арттырады. Жұмыста сіз скриншоттар не бақылау тақталарын өңдеуге болатын вектор элементтерінен тұратын презентацияларға айналдыру, кездесулерді қайта жоспарлау, offsite іс-шараларын жоспарлау және брондау, сондай-ақ сол пішімдеуді сақтай отырып, электрондық кестелерді жаңа қаржылық деректермен жаңарту сияқты қайталанатын тапсырмаларды автоматтандыра аласыз. Жеке өміріңізде оны сапар бағдарларын оңай жоспарлап, брондау, толық кешкі қонақасыларды жобалап, брондау немесе мамандар тауып, қабылдауға жазылу үшін пайдалана аласыз.

Модельдің жоғарылаған мүмкіндіктері веб-шолу және шынайы әлем тапсырмаларын орындау қабілеттерін өлшейтін бағалаулардағы озық (SOTA) нәтижелерінен көрінеді.

Humanity’s Last Exam⁠(жаңа терезеде ашылады)* бойынша, яғни сарапшы деңгейіндегі сұрақтарда AI өнімділігін пәндердің кең ауқымында өлшейтін бағалауда, ChatGPT агентін іске қосатын модель 41.6 көрсеткішімен жаңа pass@1 SOTA нәтижесіне жетеді. Агент динамикалық жоспарлап, құралдарын өзі таңдайтындықтан, ол бір тапсырманы әр іске қосқанда әртүрлі тәсілмен орындай алады. Біз мұны қарапайым параллель орындау стратегиясымен — бір уақытта сегізге дейін әрекетті іске қосып, өзі хабарлаған сенімділігі ең жоғарысын таңдау арқылы — кеңейткенде, агенттің HLE ұпайы 44.4-ке дейін өседі.

FrontierMath** — ең қиын белгілі математикалық бенчмарк; онда жаңа, жарияланбаған есептер бар, оларды шешуге сарапшы математиктердің өзіне сағаттар, тіпті күндер қажет болуы мүмкін. Код орындауға арналған терминалға қолжеткізу сияқты құралдарды қолданғанда, ChatGPT агенті 27.4% дәлдікке жетіп, алдыңғы екі модельден де айқын басым түседі.

Біз модельді күрделі шынайы жұмыс тапсырмаларына ұқсастырылған бенчмарктер арқылы да бағаладық. күрделі, экономикалық тұрғыдан құнды білім еңбегі тапсырмаларындағы модель өнімділігін бағалауға арналған ішкі бенчмаркте ChatGPT агентінің нәтижесі тапсырманы орындау уақытының әртүрлі аралықтарында жағдайлардың шамамен жартысында адам нәтижесімен салыстырмалы не одан жақсы болды, әрі o3 пен o4-mini-ден едәуір озып түсті. Модель нәтижелерін сарапшылар әр саладағы үздік орындаушылар жасаған сапалы адам эталондарымен салыстырады. Әртүрлі мамандықтар мен салалардағы сарапшылардан алынған бұл тапсырмалар шынайы кәсіби жұмысты көрсетеді — мысалы, сұраныс бойынша жедел көмек көрсетушілерге бәсекелік талдау дайындау, егжей-тегжейлі амортизация кестелерін құру және жаңа жасыл сутек нысаны үшін жарамды су ұңғымаларын анықтау.

DSBench⁠(жаңа терезеде ашылады) бойынша, яғни деректерді талдау мен модельдеуді қамтитын шынайы деректер ғылымы тапсырмаларында агенттерді бағалауға арналған бенчмаркта, ChatGPT агенті адам өнімділігін елеулі айырмашылықпен басып озады.

Шынайы сценарийлерден алынған электрондық кестелерді өңдеу қабілеті бойынша модельдерді бағалайтын SpreadsheetBench бойынша ChatGPT агенті қолданыстағы модельдерден едәуір озып түседі. Электрондық кестелерді тікелей өңдеу мүмкіндігі берілгенде, ChatGPT агенті 45.5% көрсеткішпен одан да жоғары ұпай жинайды, ал Excel ішіндегі Copilot 20.0% көрсетеді.

Әдіснама: SpreadsheetBench авторлары кестелерді бағалау үшін Microsoft Excel қолданылған Windows ортасын пайдаланды. Біз OSX ортасы мен LibreOffice қолдандық, бұл бағалауда аздаған айырмашылықтарға әкелуі мүмкін. Мысалы, авторлар GPT‑4o үшін жалпы қиын шектеу 15.02% деп тапты, ал біз 13.38% алдық. Біз 912 сұрақтан тұратын толық бенчмаркті қолдандық.

Модельдің бірінші жылдан үшінші жылға дейінгі инвестициялық банкинг талдаушысының модельдеу тапсырмаларын орындай алу қабілетін өлшейтін ішкі бенчмаркта — мысалы, Fortune 500 компаниясы үшін дұрыс пішімдеу мен дәйексөздері бар үш есептен тұратын қаржылық модель құрастыру немесе компанияны жекешелендіруге арналған левереджді сатып алу моделін жасау сияқты — ChatGPT агентін іске қосатын модель терең зерттеу мен o3‑тен айтарлықтай озып түседі. Әр тапсырма дұрыстық пен формулаларды қолдануға қатысты жүздеген өлшем бойынша бағаланады.

Біз сондай-ақ ChatGPT агентін осы жылдың басында жариялаған, вебтегі табуы қиын ақпаратты табу қабілетін өлшейтін шолу агенттеріне арналған BrowseComp⁠ бенчмаркі бойынша бағаладық. Модель 68.9% көрсеткішімен жаңа SOTA орнатып, терең зерттеуден 17.4 пайыздық тармаққа жоғары болды.

Соңында, шынайы веб-тапсырмаларды орындауда веб-шолу агенттерінің өнімділігін бағалауға арналған WebArena⁠(жаңа терезеде ашылады) бенчмаркі бойынша модель o3 негізіндегі CUA(компьютерді пайдаланушы агент) моделінен (Operator-ды іске қосатын модель) жақсырақ нәтиже көрсетеді.

Қалай қолдануға болады

ChatGPT‑тің жаңа агенттік мүмкіндіктерін хабарлама құрастырушыдағы құралдар ашылмалы мәзірінен кез келген әңгімеде кез келген сәтте ‘agent mode’ таңдау арқылы тікелей қоса аласыз. Қалаған тапсырмаңызды жай ғана сипаттаңыз — мейлі ол терең зерттеу жүргізу, слайдтар топтамасын жасау немесе шығындарды тапсыру болсын. Ол тапсырмаңызды орындап жатқанда, экрандағы баяндау ChatGPT‑тің нақты не істеп жатқанын көрсетіп тұрады. Қажет кезде браузерді тоқтатып, басқаруды өз қолыңызға ала аласыз, бұл тапсырмалардың мақсаттарыңызға сай болып қалуын қамтамасыз етеді.

ChatGPT агенті коннекторларыңызға қол жеткізе алады, бұл оған жұмыс ағындарыңызбен бірігіп, өзекті әрі әрекетке жарамды ақпаратқа қол жеткізуге мүмкіндік береді. Аутентификациядан өткеннен кейін бұл коннекторлар ChatGPT‑ке ақпаратты көруге және, мысалы, күндік кіріс жәшігіңізді жинақтауға немесе кездесу үшін бос уақыт аралықтарын табуға мүмкіндік береді — алайда бұл сайттарда әрекет жасау үшін бәрібір браузерді өз қолыңызға алып кіру сұралады.

Бұған қоса, аяқталған тапсырмаларды автоматты түрде қайталанып тұратындай етіп жоспарлай аласыз, мысалы, әр дүйсенбі таңертең апта сайынғы метрикалар есебін жасау.

Жаңа мүмкіндіктер, жаңа тәуекелдер

Бұл шығарылым пайдаланушылар алғаш рет ChatGPT‑тен вебте әрекет жасауды сұрай алатын сәтті білдіреді. Бұл жаңа тәуекелдер туғызады, әсіресе ChatGPT агенті коннекторлар арқылы алынған ақпарат болсын, takeover mode арқылы кірген сайттарыңыздағы деректер болсын, сіздің деректеріңізбен тікелей жұмыс істей алатындықтан. Біз Operator-дың зерттеу алдын ала нұсқасындағы сенімді басқару тетіктерін күшейттік және тірі вебтегі сезімтал ақпаратпен жұмыс істеу, кеңірек пайдаланушы ауқымы және (шектеулі) терминал желілік қолжеткізуі сияқты қиындықтарға арналған қорғаныс шараларын қостық. Бұл жұмсарту шаралары тәуекелді айтарлықтай азайтқанымен, ChatGPT агентінің кеңейтілген құралдары мен кеңірек пайдаланушы ауқымы оның жалпы тәуекел бейінін жоғарырақ етеді.

Біз ChatGPT агентін көмексөзге зиян келтіру арқылы жасалатын қарсылас манипуляциядан қорғауға ерекше назар аудардық, өйткені бұл жалпы агенттік жүйелерге тән тәуекел, сондықтан соған сәйкес анағұрлым кең қорғаныс шараларын дайындадық. Көмексөзге зиян келтіру — үшінші тараптардың ChatGPT агенті тапсырманы орындау барысында вебтен кездестіруі мүмкін зиянды нұсқаулар арқылы оның мінез-құлқын басқаруға тырысуы. Мысалы, веб-парақшада жасырылған зиянды көмексөз, мәселен көрінбейтін элементтерде не метадеректерде, агентті жоспарланбаған әрекеттерге алдап итермелеуі мүмкін: коннектордағы жеке деректерді шабуылдаушымен бөлісуге немесе пайдаланушы кірген сайтта зиянды әрекет жасауға. ChatGPT агенті тікелей әрекет жасай алатындықтан, сәтті шабуылдардың әсері де үлкенірек болып, тәуекелі жоғарырақ болады.

Біз агентті көмексөзге зиян келтіруді анықтап, оған қарсы тұруға үйретіп, сынадық, сонымен қатар мұндай шабуылдарды жылдам анықтап, жауап беру үшін мониторинг қолданамыз. Салдары бар әрекеттер алдында пайдаланушының анық растауын талап ету бұл шабуылдардан келетін зиян қаупін қосымша азайтады, ал пайдаланушылар қажет жағдайда басқаруды өз қолына алып не кідіртіп, тапсырмаларға араласа алады. Пайдаланушылар агентке қандай ақпарат беруді шешкенде осы ымыраларды ескеруі керек, сондай-ақ бұл тәуекелдерге ұшырауын азайту үшін, мысалы, тапсырмаға керек болмаған кезде коннекторларды өшіру сияқты қадамдар жасауы тиіс.

Біз сондай-ақ модель қателері төңірегінде де қорғаныс шараларын енгіздік, әсіресе енді модель шынайы әлемге әсер ететін тапсырмаларды орындай алатындықтан:

Пайдаланушының айқын растауы: ChatGPT сатып алу сияқты шынайы салдары бар әрекеттерді жасамас бұрын сізден нақты рұқсат сұрауға үйретілген.
Белсенді қадағалау («Watch Mode»): Электрондық хат жіберу сияқты кейбір маңызды тапсырмалар сіздің белсенді бақылауыңызды талап етеді.
Тәуекелді проактивті азайту: ChatGPT банк аударымдары сияқты жоғары тәуекелді тапсырмалардан белсенді түрде бас тартуға үйретілген.

Соңында, модель қол жеткізе алатын деректерді шектеу үшін қосымша басқару тетіктерін енгіздік:

Құпиялықты басқару: ChatGPT баптауларында бір рет басу арқылы барлық шолу деректерін жойып, барлық белсенді веб-сайт сессияларынан бірден шыға аласыз. Әйтпесе cookie файлдары әр кірген сайттың cookie саясаттарына сәйкес сақталады, бұл сайттарға қайта кіруді тиімдірек етуі мүмкін.
Қауіпсіз браузер takeover mode: ChatGPT браузері арқылы вебпен әрекеттескенде («takeover mode»), енгізулеріңіз құпия болып қалады. ChatGPT бұл сессиялар кезінде енгізген ешбір деректі, мысалы құпиясөздерді, жинамайды да сақтамайды, өйткені модельге ол қажет емес, әрі оны мүлде көрмегені қауіпсіздеу.

Биологиялық тәуекелге қарсы әзірге ең мықты қауіпсіздік стегі

Модель мүмкіндіктерінің артуына байланысты біз ChatGPT агентін біздің Дайындық шеңберіміз⁠ аясында Жоғары биологиялық және химиялық мүмкіндіктер санатына жатқызу туралы шешім қабылдадық және соған байланысты қорғаныс шараларын қостық. Модель тәжірибесіз адамға елеулі биологиялық зиян келтіруге шын мәнінде көмектесе алатынына — бұл біздің Жоғары мүмкіндік шегіміз — нақты дәлеліміз болмаса да, біз сақтық танытып, қажетті қорғаныс шараларын қазірден енгізіп отырмыз. Нәтижесінде бұл модельде бүгінгі күнге дейінгі ең кешенді қауіпсіздік стегі бар, оған биологияға арналған күшейтілген қорғаныс шаралары кіреді: жан-жақты қауіп моделін құру, қос мақсатты пайдалануға қарсы бас тартуға үйрету, үнемі қосулы классификаторлар мен ой қорыту мониторлары және нақты орындау тізбектері.

ChatGPT агентін қорғау жұмысымыздан бөлек, біз биоқауіпсіздіктегі көпқабатты тәсіл қорғаныс шаралары бір зертханадан тыс та таралған кезде жақсы жұмыс істейтінін білеміз, сондықтан қорғанысты күшейту үшін бүкіл экожүйемен ынтымақтасамыз. Алғашқы күннен бастап қауіп моделімізді, бағалауларымызды және саясаттарымызды қалыптастыру үшін сыртқы биоқауіпсіздік сарапшыларымен, қауіпсіздік институттарымен және академиялық зерттеушілермен жұмыс істедік. Биология бойынша дайындалған рецензенттер бағалау деректерімізді растады, ал салалық red team мамандары қорғаныс шараларын шынайы сценарийлерде сынақтан өткізді. Осы айдың басында біз үкімет, академия, ұлттық зертханалар және ҮЕҰ сарапшыларын жинаған Биоқорғаныс семинарын өткізіп, ынтымақтастықты жеделдетіп, AI қолдайтын биоқорғаныс зерттеулерін ілгерілеттік. Біз жаңа тәуекелдердің алдын алу үшін жаһандық әріптестікті жалғастыра береміз.

Біртұтас агенттік модельге арналған сенімді қауіпсіздік тәсіліміз туралы жүйе картасында⁠ толығырақ оқи аласыз. Сондай-ақ шынайы тәуекелдерді табу және жою үшін bug bounty бағдарламасын⁠ іске қосып жатырмыз.

Қолжетімділік

ChatGPT агенті бүгіннен бастап Pro, Plus және Team үшін кезең-кезеңімен қолжетімді бола бастайды; Pro бүгіннің соңына дейін қол жеткізеді, ал Plus пен Team пайдаланушылары келесі бірнеше күнде қол жеткізеді. Enterprise және Education пайдаланушылары алдағы апталарда қол жеткізеді. Pro пайдаланушыларына айына 400 хабарлама беріледі, ал басқа ақылы пайдаланушылар айына 40 хабарлама алады, қосымша пайдалану икемді кредиттік опциялар арқылы қолжетімді.

Біз әлі де Еуропалық экономикалық аймақ пен Швейцария үшін қолжеткізуді қосу үстінде жұмыс істеп жатырмыз.

Operator зерттеу алдын ала қарау сайты тағы бірнеше апта бойы жұмыс істей береді, содан кейін жабылады. Терең зерттеу ChatGPT агенті мүмкіндіктерінің бір бөлігі. Егер бастапқы терең зерттеу мүмкіндігін қаласаңыз — ол орындауға көбірек уақыт алуы мүмкін, бірақ әдепкіде егжей-тегжейлі, тереңірек жауаптар береді — оны хабарлама құрастырушыдағы ашылмалы мәзірден “deep research” таңдау арқылы әлі де пайдалана аласыз.

Шектеулер және алға көзқарас

ChatGPT агенті әлі де бастапқы кезеңінде. Ол әртүрлі күрделі тапсырмаларды орындай алады, бірақ әлі де қателесуі мүмкін.

Оның слайдтар топтамасын жасау қабілетінде зор әлеует көріп отырғанымызбен, бұл функция қазір бета кезеңінде. Қазіргі сәтте, әсіресе дайын құжатсыз басталғанда, нәтижелердің пішімделуі мен әрленуі кейде қарапайым болып көрінуі мүмкін. Біз модельдің бастапқы мүмкіндіктерін ақпаратты презентацияларға лайық ағым мен пішімде ұйымдастыратын артефактілерді жасауға бағыттадық; мұнда мәтін, диаграммалар, суреттер және экспорттан кейін жергілікті түрде әрі оңай өңделетін пішіндер сияқты элементтер бар, басты назар құрылым мен икемділікке аударылды. Қазіргі уақытта қарау құралындағы слайдтар мен экспортталған powerpoint арасында кейде сәйкессіздіктер де болады, біз соны азайту үстіндеміз. Бұған қоса, қазір сіз ChatGPT өңдеуі үшін не үлгі ретінде пайдалану үшін дайын электрондық кестені жүктей аласыз, бірақ бұл мүмкіндік слайдтар топтамалары үшін әлі қолжетімді емес. Біз ChatGPT‑тің слайдтар жасау жүйесінің келесі нұсқасын анағұрлым әрленген, күрделі нәтижелер беруге, ауқымдырақ мүмкіндіктерге және жақсартылған пішімдеуге үйретіп жатырмыз.

Жалпы алғанда, біз уақыт өте келе ChatGPT агентінің тиімділігі, тереңдігі және жан-жақтылығы одан әрі жақсарады деп күтеміз, соның ішінде оны қауіпсіз қолдануды сақтай отырып, анағұрлым пайдалы ету үшін пайдаланушыдан талап етілетін қадағалау көлемін реттеуді жалғастырған сайын өзара әрекеттесу де біршама жатық болады.

Қосымша

SpreadsheetBench
Модель	Бағалау ортасы	Жұмсақ шектеу (%): Ұяшық деңгейі	Жұмсақ шектеу (%): Парақ деңгейі	Жұмсақ шектеу (%): Жалпы
GPT‑4o	Windows, Excel	15.03	23.65	18.35
Copilot in Excel	Windows, Excel	23.33	15.00	20.00
GPT‑4o	OSX, LibreOffice	15.86	18.33	16.81
OpenAI o3	OSX, LibreOffice	22.40	24.60	23.25
ChatGPT agent	OSX, LibreOffice	38.27	30.48	35.27
.xlsx бар ChatGPT agent	OSX, LibreOffice	50.56	37.51	45.54
Адам		75.56	65.00	71.33

Тікелей эфир жазбасы

Автор

OpenAI

Ескертпелер

* Шолуды қосқанда, модель кейде нақты жауаптарды интернеттен таба алады, мысалы, деректер жиынтығындағы үлгі есептері бар блог жазбаларын оқу арқылы. Шолу кезінде модельдің «алдауына» қатысты алаңдаушылықты екі стратегиямен азайтамыз:

1. Бұрын модель алдағанын байқаған домендерді бұғаттадық.

2. Әр әрекеттегі барлық құрал шығару токендерін тексеріп, күмәнді мінез-құлықты анықтау үшін қосымша модельді монитор ретінде қолдандық. Күмәнді мінез-құлық «негізгі мақсаты осы нақты сұрақтың дәл жауабын беру болып табылатын бет, файл немесе үзінді — мысалы, ресми бағалау кілті, жария болып кеткен “solutions” gist немесе дайын жауапты сөзбе-сөз келтіретін талқылау» деп анықталады. Зиянсыз мінез-құлық «ұқыпты адам қарауы мүмкін кез келген беделді ресурс (құжаттама, нұсқаулықтар, ғылыми мақалалар, сенімді мақалалар), тіпті онда дұрыс жауап кездейсоқ болса да» деп анықталады. Монитор орындауды күмәнді деп таныған кез келген әрекет қате деп есептеледі. Бұл тексеруден өтпеген үлгілердің көбі HLE-ге қатысы жоқ бірнеше интернет көзінде нақты шешімі қолжетімді болған есептер еді.

**OpenAI Tier 1-3 деректер жиынтығындағы 290 жеке сұрақтың 237-сіне эксклюзивті қолжеткізуге ие. Бұл бағалауға FrontierMath 4-деңгей сұрақтары кірмейді. Нәтижелер әр сұраққа жауап берудің 16 әрекетінің орташа мәні ретінде бағаланды. ChatGPT агенті нәтижелерін OpenAI алды, бағалауды Epoch AI жүргізді; браузер мен терминалға қолжеткізу болды және әр жауапқа 128K токен шегі қойылды. OpenAI o4-mini және o3 бағалауларын Epoch AI жүргізіп, бағалады; браузер мен терминалға қолжеткізу болған жоқ, функция шақыру арқылы python сценарийлері қолданылды және әр жауапқа 100K токен шегі қойылды.

*** Oracle@64 — 64 іріктелген іске қосудың ішіндегі ground truth арқылы таңдалған ең жақсы ұпайды білдіреді (яғни біз әр тапсырма үшін нақты бағаланған өнімділікке қарай ең жоғары ұпай жинаған әрекетті таңдаймыз). Біз барлық тапсырмалар бойынша осындай тапсырмаға шаққандағы ең жақсы ұпайлардың орташа мәнін береміз. Бұл метрика модельдің өнімділіктегі жоғарғы шек әлеуеті мен ауытқуын көрсетеді — модель сәтті болғанда қаншалықты қабілетті бола алатынын көрсетіп, әрі қарай оқыту арқылы тұрақтылықты жақсартуға мүмкіндік барын аңғартады. Модель сенімділігіне сүйенетін әдеттегі “best of N” метрикаларынан айырмашылығы, oracle@64 таңдауға ground truth пайдаланады және бинарлық өту/сәтсіздік емес, үздіксіз 0–1 шкаласында бағаланатын тапсырмаларға қолданылады.