ChatGPT એજન્ટ રજૂ કરીએ છીએ: સંશોધન અને ક્રિયા વચ્ચેનું જોડાણ
ChatGPT હવે વિચારે છે અને કાર્ય કરે છે, તમારા માટે તેના પોતાના કમ્પ્યુટરથી કાર્યો પૂર્ણ કરવા એજન્ટિક કૌશલ્યોની ટૂલબોક્સમાંથી સક્રિયપણે પસંદ કરે છે.
ChatGPT હવે તેના પોતાના કમ્પ્યુટરનો ઉપયોગ કરીને તમારા માટે કામ કરી શકે છે, અને જટિલ કાર્યોને શરૂઆતથી અંત સુધી સંભાળી શકે છે.
હવે તમે ChatGPT ને આવી વિનંતીઓ સંભાળવા કહી શકો છો જેમ કે ‘મારું કેલેન્ડર જુઓ અને તાજા સમાચારના આધારે આવનારી ક્લાયન્ટ મીટિંગ્સ વિશે મને સંક્ષિપ્ત માહિતી આપો,’ ‘ચાર લોકો માટે જાપાની નાસ્તો બનાવવા માટે યોજના બનાવો અને સામગ્રી ખરીદો,’ અને ‘ત્રણ સ્પર્ધકોનું વિશ્લેષણ કરો અને એક slide deck બનાવો.’ ChatGPT બુદ્ધિપૂર્વક વેબસાઇટ્સ પર નેવિગેટ કરશે, પરિણામો ફિલ્ટર કરશે, જરૂર પડે ત્યારે સુરક્ષિત રીતે લોગ ઇન કરવા માટે તમને પ્રોમ્પ્ટ કરશે, કોડ ચલાવશે, વિશ્લેષણ કરશે, અને તેના નિષ્કર્ષોનું સારાંશ આપતી સંપાદિત કરી શકાય તેવી slideshows અને spreadsheets પણ આપશે.
આ નવી ક્ષમતાના કેન્દ્રમાં એક એકીકૃત agentic system છે. તે અગાઉની સિદ્ધિઓની ત્રણ શક્તિઓને સાથે લાવે છે: Operatorની વેબસાઇટ્સ સાથે ઇન્ટરેક્ટ કરવાની ક્ષમતા, ડીપ રિસર્ચની માહિતી સંકલિત કરવાની કુશળતા, અને ChatGPT ની બુદ્ધિમત્તા તથા વાતચીતની પ્રવાહિતા.
ChatGPT આ કાર્યો તેના પોતાના વર્ચ્યુઅલ કમ્પ્યુટર દ્વારા કરે છે, અને તમારી સૂચનાઓના આધારે શરૂઆતથી અંત સુધી જટિલ workflows સંભાળવા માટે reasoning અને action વચ્ચે સરળતાથી બદલાય છે.
સૌથી મહત્વની વાત એ છે કે નિયંત્રણ હંમેશા તમારા હાથમાં છે. મહત્વપૂર્ણ અસર ધરાવતી ક્રિયાઓ કરતાં પહેલાં ChatGPT પરવાનગી માંગે છે, અને તમે કોઈપણ સમયે તેને સરળતાથી રોકી શકો છો, બ્રાઉઝરનો કાબૂ લઈ શકો છો અથવા કાર્ય બંધ કરી શકો છો.
આજથી, Pro, Plus, અને Team વપરાશકર્તાઓ composer માં tools dropdown દ્વારા કોઈપણ સંવાદમાં કોઈપણ સમયે ‘agent mode’ પસંદ કરીને સીધા ChatGPT ની નવી agentic capabilities સક્રિય કરી શકે છે.
જ્યારે ChatGPT એજન્ટ પહેલેથી જ જટિલ કાર્યો સંભાળવા માટે શક્તિશાળી સાધન છે, ત્યારે આજનું લોન્ચ માત્ર શરૂઆત છે. અમે નિયમિત રીતે નોંધપાત્ર સુધારાઓ ઉમેરતા રહીશું, જેથી સમય જતાં તે વધુ લોકો માટે વધુ સક્ષમ અને ઉપયોગી બને.
અગાઉ, Operator અને ડીપ રિસર્ચ બંને અલગ-અલગ અનન્ય શક્તિઓ લાવતા હતા: Operator વેબ પર scroll, click અને type કરી શકતો હતો, જ્યારે ડીપ રિસર્ચ માહિતીનું વિશ્લેષણ અને સારાંશ બનાવવા માં નિષ્ણાત હતો. પરંતુ તેઓ જુદી પરિસ્થિતિઓમાં શ્રેષ્ઠ રીતે કામ કરતા: Operator વિશ્લેષણમાં ઊંડે જઈ શકતો નહોતો અથવા વિગતવાર અહેવાલ લખી શકતો નહોતો, અને ડીપ રિસર્ચ પરિણામોને વધુ સચોટ બનાવવા અથવા વપરાશકર્તા authentication જરૂરી હોય તેવી સામગ્રી મેળવવા વેબસાઇટ્સ સાથે ક્રિયા કરી શકતું નહોતું. હકીકતમાં, અમે જોયું કે વપરાશકર્તાઓ Operator સાથે કરવાના ઘણા પ્રશ્નો ખરેખર ડીપ રિસર્ચ માટે વધુ યોગ્ય હતા, તેથી અમે બંનેમાંથી શ્રેષ્ઠને સાથે લાવ્યા.
ChatGPT માં આ પરસ્પરપૂર્ણ શક્તિઓને એકીકૃત કરીને અને વધારાના સાધનો રજૂ કરીને, અમે એક જ મોડલમાં સંપૂર્ણ નવી ક્ષમતાઓ ખુલ્લી કરી છે. હવે તે સક્રિય રીતે વેબસાઇટ્સ સાથે જોડાઈ શકે છે—clicking, filtering અને વધુ ચોક્કસ, કાર્યક્ષમ પરિણામો એકત્રિત કરીને. તમે એ જ chat માં સરળ વાતચીતમાંથી સીધી ક્રિયાઓની વિનંતી તરફ સ્વાભાવિક રીતે આગળ વધી શકો છો.
અમે ChatGPT એજન્ટને સાધનોના એક સમૂહથી સજ્જ કર્યો છે: graphical-user interface દ્વારા વેબ સાથે ઇન્ટરેક્ટ કરતો visual browser, સરળ reasoning આધારિત વેબ પ્રશ્નો માટે text-based browser, terminal, અને સીધી API access. એજન્ટ ChatGPT connectors(નવી વિન્ડોમાં ખૂલે છે) નો પણ ઉપયોગ કરી શકે છે, જે તમને Gmail અને Github જેવી apps જોડવાની મંજૂરી આપે છે જેથી ChatGPT તમારા prompts સાથે સંબંધિત માહિતી શોધી શકે અને તેનો ઉપયોગ તેના પ્રતિસાદોમાં કરી શકે. તમે બ્રાઉઝરનો કાબૂ લઈને કોઈપણ વેબસાઇટમાં લોગ ઇન પણ કરી શકો છો, જેથી તે સંશોધન અને કાર્ય અમલ બંનેમાં વધુ ઊંડે અને વ્યાપક રીતે જઈ શકે. ChatGPT ને વેબ માહિતી સુધી પહોંચવા અને તેની સાથે ક્રિયા કરવા માટે આ અલગ માર્ગો આપવાથી તે કાર્યો સૌથી કાર્યક્ષમ રીતે કરવા શ્રેષ્ઠ માર્ગ પસંદ કરી શકે છે. ઉદાહરણ તરીકે, તે API દ્વારા તમારા કેલેન્ડરની માહિતી એકત્રિત કરી શકે છે, text-based browser નો ઉપયોગ કરીને મોટા પ્રમાણમાં લખાણ પર કાર્યક્ષમ રીતે reasoning કરી શકે છે, અને સાથે જ મુખ્યત્વે માનવો માટે રચાયેલ વેબસાઇટ્સ સાથે દૃશ્યમાન રીતે ઇન્ટરેક્ટ કરવાની ક્ષમતા પણ રાખે છે.
આ બધું તેના પોતાના વર્ચ્યુઅલ કમ્પ્યુટરનો ઉપયોગ કરીને થાય છે, જે કાર્ય માટે જરૂરી context જાળવી રાખે છે, ભલે અનેક સાધનોનો ઉપયોગ કરવામાં આવે—મોડલ text browser અથવા visual browser નો ઉપયોગ કરીને પેજ ખોલવાનું પસંદ કરી શકે છે, વેબ પરથી ફાઇલ ડાઉનલોડ કરી શકે છે, terminal માં command ચલાવી તેને ફેરવી શકે છે, અને પછી visual browser માં output પાછું જોઈ શકે છે. મોડલ ઝડપ, ચોકસાઈ અને કાર્યક્ષમતાથી કાર્યો કરવા માટે તેની પદ્ધતિ ઢાળી લે છે.
ChatGPT એજન્ટ પુનરાવર્તિત, સહયોગી workflows માટે રચાયેલ છે અને અગાઉના મોડલ્સ કરતાં ઘણો વધુ ઇન્ટરેક્ટિવ અને લવચીક છે. ChatGPT કામ કરી રહ્યું હોય ત્યારે, તમે કોઈપણ સમયે તમારી સૂચનાઓ સ્પષ્ટ કરવા, ઇચ્છિત પરિણામોની દિશામાં તેને દોરવા, અથવા કાર્ય સંપૂર્ણપણે બદલવા માટે વચ્ચે અટકાવી શકો છો. તે હવે નવી માહિતી સાથે, પરંતુ અગાઉની પ્રગતિ ગુમાવ્યા વિના, જ્યાંથી રોકાયું હતું ત્યાંથી ફરી શરૂ કરશે. તેવી જ રીતે, જરૂર પડે ત્યારે કાર્ય તમારા લક્ષ્યો સાથે સંકલિત રહે તે માટે ChatGPT પોતે પણ સક્રિય રીતે તમારી પાસેથી વધારાની વિગતો માગી શકે છે. જો કાર્ય અપેક્ષા કરતાં વધુ સમય લે અથવા અટવાયેલું લાગે, તો તમે તેને pause કરી શકો છો, તેની પાસે પ્રગતિનો સારાંશ માગી શકો છો, અથવા સંપૂર્ણપણે બંધ કરીને આંશિક પરિણામો મેળવી શકો છો. જો તમારા ફોનમાં ChatGPT app હોય, તો તમારા કાર્ય પૂર્ણ થયા પછી તે તમને સૂચના મોકલશે.
આ એકીકૃત agentic capabilities દૈનિક અને વ્યાવસાયિક બંને સંદર્ભોમાં ChatGPT ની ઉપયોગિતા નોંધપાત્ર રીતે વધારે છે. કામ પર, તમે પુનરાવર્તિત કાર્યોને automate કરી શકો છો, જેમ કે screenshots અથવા dashboards ને editable vector elements ધરાવતી presentations માં ફેરવવું, meetings ફરી ગોઠવવી, offsites ની યોજના અને booking કરવી, અને એ જ formatting જાળવી રાખીને spreadsheets ને નવા financial data સાથે update કરવી. તમારા વ્યક્તિગત જીવનમાં, તમે તેનો ઉપયોગ સરળતાથી પ્રવાસ itinerary ની યોજના અને booking કરવા, સંપૂર્ણ dinner parties ડિઝાઇન અને book કરવા, અથવા નિષ્ણાતો શોધી appointments ગોઠવવા માટે કરી શકો છો.
મોડલની ઉન્નત ક્ષમતાઓ વેબ browsing અને વાસ્તવિક કાર્ય પૂર્ણ કરવાની ક્ષમતાઓ માપતી evaluations પર તેની state-of-the-art (SOTA) performance માં પ્રતિબિંબિત થાય છે.
Humanity’s Last Exam(નવી વિન્ડોમાં ખૂલે છે)* પર, જે એક evaluation છે અને નિષ્ણાત સ્તરના પ્રશ્નો પર વિવિધ વિષયો દરમિયાન AI ની performance માપે છે, ChatGPT એજન્ટને શક્તિ આપતું મોડલ 41.6 પર pass@1 માટે નવી SOTA મેળવે છે. કારણ કે એજન્ટ ગતિશીલ રીતે યોજના બનાવે છે અને પોતાનાં સાધનો પસંદ કરે છે, તે અલગ-અલગ runs માં એ જ કાર્યને જુદા માર્ગોથી હાથ ધરવા સક્ષમ છે. જ્યારે અમે આને સરળ parallel rollout strategy સાથે scale કર્યું—એકસાથે આઠ પ્રયત્નો સુધી ચલાવી અને સૌથી વધુ self-reported confidence ધરાવતા પ્રયત્નને પસંદ કરીને—ત્યારે એજન્ટનો HLE સ્કોર 44.4 સુધી વધી જાય છે.
FrontierMath** સૌથી કઠિન જાણીતી ગણિત benchmark છે, જેમાં નવા અને અપ્રકાશિત પ્રશ્નો છે, જેને ઉકેલવા નિષ્ણાત ગણિતજ્ઞોને ઘણી વાર કલાકો કે દિવસો લાગી જાય છે. terminal દ્વારા code execution જેવી tool use સાથે, ChatGPT એજન્ટ 27.4% ચોકસાઈ સુધી પહોંચે છે, અને બંને અગાઉના મોડલ્સને મોટા અંતરે પાછળ મૂકે છે.
અમે મોડલનું મૂલ્યાંકન જટિલ વાસ્તવિક કાર્યો પરથી બનાવેલા benchmarks નો ઉપયોગ કરીને પણ કર્યું. જટિલ, આર્થિક રીતે મૂલ્યવાન knowledge-work કાર્યો પર મોડલ performance માપવા માટે રચાયેલ આંતરિક benchmark પર, ChatGPT એજન્ટનું output વિવિધ કાર્ય પૂર્ણતા સમયગાળાઓમાં આશરે અડધી પરિસ્થિતિઓમાં માનવો જેટલું અથવા તેનાથી સારું છે, અને સાથે o3 અને o4-mini કરતાં નોંધપાત્ર રીતે આગળ છે. મોડલ outputs ને દરેક ક્ષેત્રના શ્રેષ્ઠ પ્રદર્શનકારો દ્વારા બનાવાયેલા ઉચ્ચ-ગુણવત્તાવાળા human baselines સામે નિષ્ણાતો દ્વારા આંકવામાં આવે છે. વિવિધ વ્યવસાયો અને ઉદ્યોગોના નિષ્ણાતોથી મેળવેલા આ કાર્યો વાસ્તવિક વ્યાવસાયિક કાર્યને પ્રતિબિંબિત કરે છે—જેમ કે on-demand urgent care providers નું સ્પર્ધાત્મક વિશ્લેષણ તૈયાર કરવું, વિગતવાર amortization schedules બનાવવી, અને નવી green hydrogen facility માટે યોગ્ય water wells ઓળખવા.
DSBench(નવી વિન્ડોમાં ખૂલે છે) પર, જે data analysis અને modeling આવરી લેતાં વાસ્તવિક data science કાર્યો પર agents નું મૂલ્યાંકન કરવા માટે રચાયેલ છે, ChatGPT એજન્ટ માનવ performance કરતાં નોંધપાત્ર અંતરે આગળ નીકળે છે.
SpreadsheetBench પર, જે વાસ્તવિક પરિસ્થિતિઓ પરથી મેળવેલી spreadsheets edit કરવાની મોડલ્સની ક્ષમતાનું મૂલ્યાંકન કરે છે, ChatGPT એજન્ટ હાલના મોડલ્સ કરતાં નોંધપાત્ર અંતરે આગળ છે. જ્યારે તેને સીધી spreadsheets edit કરવાની ક્ષમતા આપવામાં આવે છે, ત્યારે ChatGPT એજન્ટ 45.5% સાથે વધુ ઊંચો સ્કોર કરે છે, જ્યારે Excel માં Copilot 20.0% પર છે.
પદ્ધતિ: SpreadsheetBench ના લેખકોએ સ્પ્રેડશીટ્સનું મૂલ્યાંકન કરવા માટે Microsoft Excel સાથે Windows પર્યાવરણનો ઉપયોગ કર્યો. અમે OSX પર્યાવરણ અને LibreOffice નો ઉપયોગ કર્યો, જેના કારણે ગ્રેડિંગમાં નાના ફરક પડી શકે છે. ઉદાહરણ તરીકે, લેખકોએ GPT‑4o માટે Overall Hard restriction 15.02% દર્શાવી, અને અમને 13.38% મળ્યું. અમે સંપૂર્ણ 912-પ્રશ્નોના benchmark નો ઉપયોગ કર્યો.
એક આંતરિક benchmark પર, જે મોડલની પ્રથમથી ત્રીજા વર્ષ સુધીની investment banking analyst modeling tasks કરવાની ક્ષમતા માપે છે—જેમ કે Fortune 500 કંપની માટે યોગ્ય formatting અને citations સાથે three-statement financial model તૈયાર કરવો, અથવા take-private માટે leveraged buyout model બનાવવો—ChatGPT એજન્ટને શક્તિ આપતું મોડલ ડીપ રિસર્ચ અને o3 કરતાં નોંધપાત્ર રીતે આગળ છે. દરેક કાર્યની correctness અને formula use સંબંધિત સૈંકડો માપદંડો પર ગ્રેડિંગ થાય છે.
અમે ChatGPT એજન્ટનું મૂલ્યાંકન BrowseComp પર પણ કર્યું, જે benchmark અમે આ વર્ષની શરૂઆતમાં પ્રકાશિત કર્યો હતો અને વેબ પર મુશ્કેલથી મળતી માહિતી શોધવામાં browsing agents ની ક્ષમતા માપે છે. મોડલે 68.9% સાથે નવી SOTA સ્થાપી, જે ડીપ રિસર્ચ કરતાં 17.4 percentage points વધારે છે.
અંતમાં, WebArena(નવી વિન્ડોમાં ખૂલે છે) પર, જે વાસ્તવિક વેબ કાર્યો પૂર્ણ કરવામાં web-browsing agents ની performance માપવા માટે રચાયેલ benchmark છે, મોડલ o3‑powered CUA (Operator ને શક્તિ આપતું મોડલ) કરતાં સુધારો દર્શાવે છે.
તમે composer માં tools dropdown દ્વારા કોઈપણ સંવાદમાં કોઈપણ સમયે ‘agent mode’ પસંદ કરીને સીધા ChatGPT ની નવી agentic capabilities સક્રિય કરી શકો છો. માત્ર તમારું ઇચ્છિત કાર્ય વર્ણવો—ચાહે તે ડીપ રિસર્ચ કરવાનું હોય, slideshow બનાવવાનું હોય, અથવા expenses submit કરવાની હોય. જ્યારે તે તમારું કાર્ય કરે છે, ત્યારે on-screen narration ChatGPT શું કરી રહ્યું છે તેની સ્પષ્ટ દેખાવ આપે છે. જરૂરી હોય ત્યારે તમે વચ્ચે અટકાવી શકો છો અને બ્રાઉઝરનો કાબૂ લઈ શકો છો, જેથી કાર્યો તમારા લક્ષ્યો સાથે સંકલિત રહે.
ChatGPT એજન્ટ તમારા connectors સુધી પહોંચી શકે છે, જેથી તે તમારા workflows સાથે સંકલિત થઈ શકે અને સંબંધિત, કાર્યલક્ષી માહિતી મેળવી શકે. એકવાર authentication થઈ જાય પછી, આ connectors ChatGPT ને માહિતી જોવાની અને દિવસ માટે તમારા inbox નો સારાંશ બનાવવાની અથવા મીટિંગ માટે તમે કયા સમયખંડમાં ઉપલબ્ધ છો તે શોધવાની મંજૂરી આપે છે—પરંતુ આ sites પર ક્રિયા કરવા માટે તમને હજુ પણ browser takeover કરીને log in કરવા માટે prompt કરવામાં આવશે.
વધારેમાં, તમે પૂર્ણ થયેલા કાર્યોને આપમેળે પુનરાવર્તિત થવા માટે schedule કરી શકો છો, જેમ કે દર સોમવારની સવારમાં સાપ્તાહિક metrics report બનાવવી.
આ રિલીઝ પ્રથમ વખત દર્શાવે છે કે વપરાશકર્તાઓ ChatGPT ને વેબ પર ક્રિયા કરવા કહી શકે છે. આ નવા જોખમો લાવે છે, ખાસ કરીને કારણ કે ChatGPT એજન્ટ તમારા ડેટા સાથે સીધું કામ કરી શકે છે, ભલે તે connectors દ્વારા મેળવેલી માહિતી હોય કે takeover mode દ્વારા તમે તેને log in કરેલી વેબસાઇટ્સ હોય. અમે Operator ના research preview ના મજબૂત નિયંત્રણોને વધુ મજબૂત બનાવ્યા છે અને live web પર સંવેદનશીલ માહિતી સંભાળવી, વધુ વ્યાપક user reach અને (મર્યાદિત) terminal network access જેવા પડકારો માટે safeguards ઉમેર્યા છે. આ mitigations જોખમને નોંધપાત્ર રીતે ઘટાડે છે, છતાં ChatGPT એજન્ટના વિસ્તૃત સાધનો અને વિશાળ user reach નો અર્થ એ છે કે તેની કુલ risk profile વધુ ઊંચી છે.
અમે ખાસ ભાર પ્રોમ્પ્ટ ઇન્જેક્શન દ્વારા થતી adversarial manipulation સામે ChatGPT એજન્ટને સુરક્ષિત રાખવા પર મૂક્યો છે, જે સામાન્ય રીતે agentic systems માટે જોખમ છે, અને તે મુજબ વધુ વ્યાપક mitigations તૈયાર કર્યા છે. Prompt injections એ ત્રીજા પક્ષો દ્વારા દુર્ભાવનાપૂર્ણ સૂચનાઓ મારફતે તેના વર્તનને બદલી નાખવાના પ્રયાસો છે, જે ChatGPT એજન્ટને કાર્ય પૂર્ણ કરતી વખતે વેબ પર મળી શકે છે. ઉદાહરણ તરીકે, વેબપેજમાં છુપાયેલ malicious prompt, જેમ કે અદૃશ્ય elements અથવા metadata માં, એજન્ટને અનિચ્છિત ક્રિયાઓ કરવા માટે ભુલાવી શકે છે, જેમ કે connector માંથી ખાનગી data હુમલાખોર સાથે શેર કરવો, અથવા વપરાશકર્તાએ log in કરેલી site પર હાનિકારક ક્રિયા કરવી. કારણ કે ChatGPT એજન્ટ સીધી ક્રિયાઓ કરી શકે છે, સફળ હુમલાઓ વધુ અસરકારક બની શકે છે અને ઊંચા જોખમ ઉભા કરી શકે છે.
અમે prompt injections ઓળખવા અને તેનો પ્રતિરોધ કરવા માટે એજન્ટને train અને test કર્યો છે, ઉપરાંત prompt injection હુમલાઓને ઝડપથી શોધવા અને પ્રતિસાદ આપવા monitoring નો ઉપયોગ કર્યો છે. મહત્વપૂર્ણ ક્રિયાઓ પહેલાં સ્પષ્ટ user confirmation જરૂરી બનાવવાથી આવા હુમલાઓથી નુકસાન થવાનો જોખમ વધુ ઘટે છે, અને વપરાશકર્તાઓ takeover અથવા pausing દ્વારા જરૂરી મુજબ કાર્યોમાં હસ્તક્ષેપ કરી શકે છે. વપરાશકર્તાઓએ નક્કી કરવું જોઈએ કે એજન્ટને કઈ માહિતી આપવી, અને આ જોખમો પ્રત્યેનો પોતાનો exposure ઓછો કરવા પગલાં લેવા જોઈએ, જેમ કે જ્યારે કાર્ય માટે જરૂર ન હોય ત્યારે connectors અક્ષમ કરવું.
અમે મોડલની ભૂલો વિશે પણ mitigations અમલમાં મૂકી છે, ખાસ કરીને હવે જ્યારે મોડલ વાસ્તવિક દુનિયાને અસર કરતા કાર્યો કરી શકે છે:
- સ્પષ્ટ user confirmation: ખરીદી કરવા જેવી વાસ્તવિક પરિણામવાળી ક્રિયાઓ કરતાં પહેલાં તમારી પરવાનગી સ્પષ્ટ રીતે માંગવા માટે ChatGPT ને train કરવામાં આવ્યું છે.
- સક્રિય દેખરેખ (“Watch Mode”): ઇમેઇલ મોકલવા જેવા કેટલાક મહત્વપૂર્ણ કાર્યો માટે તમારી સક્રિય દેખરેખ જરૂરી છે.
- સક્રિય જોખમ ઘટાડો: બેંક ટ્રાન્સફર જેવા ઊંચા જોખમવાળા કાર્યોને સક્રિય રીતે અસ્વીકાર કરવા માટે ChatGPT ને train કરવામાં આવ્યું છે.
અંતમાં, અમે મોડલને ઉપલબ્ધ ડેટા મર્યાદિત કરવા માટે વધારાના નિયંત્રણો રજૂ કર્યા છે:
- ગોપનીયતા નિયંત્રણો: ChatGPT ની settings માં એક જ click થી, તમે બધા browsing data ડિલીટ કરી શકો છો અને બધી સક્રિય website sessions માંથી તરત log out થઈ શકો છો. નહીતર, cookies દરેક મુલાકાત લેવાયેલી વેબસાઇટની cookie policies મુજબ ટકી રહે છે, જે sites પર ફરી મુલાકાતને વધુ કાર્યક્ષમ બનાવી શકે છે.
- સુરક્ષિત browser takeover mode: જ્યારે તમે ChatGPT ના browser (“takeover mode”) નો ઉપયોગ કરીને વેબ સાથે ઇન્ટરેક્ટ કરો છો, ત્યારે તમારા inputs ખાનગી રહે છે. ChatGPT આ sessions દરમિયાન તમે દાખલ કરેલ કોઈપણ data, જેમ કે passwords, એકત્રિત કે સંગ્રહિત કરતું નથી, કારણ કે મોડલને તેની જરૂર નથી, અને જો તે તેને ક્યારેય ન જોશે તો વધુ સુરક્ષિત છે.
મોડલની વધેલી ક્ષમતાઓ સાથે, અમે અમારી પ્રિપેરડનેસ ફ્રેમવર્ક હેઠળ ChatGPT એજન્ટને High Biological and Chemical capabilities તરીકે ગણવાનો નિર્ણય લીધો છે, અને સંબંધિત safeguards સક્રિય કર્યા છે. જ્યારે અમારી પાસે એવો નિશ્ચિત પુરાવો નથી કે મોડલ અર્થપૂર્ણ રીતે કોઈ નવા વ્યક્તિને ગંભીર જૈવિક નુકસાન સર્જવામાં મદદ કરી શકે—જે High capability માટેની અમારી મર્યાદા છે—ત્યારે પણ અમે સાવચેતી રાખી રહ્યા છીએ અને જરૂરી safeguards હવે અમલમાં મૂકી રહ્યા છીએ. પરિણામે, biology માટે વધારેલી સુરક્ષાઓ સાથે આ મોડલ પાસે આજદિનનો અમારો સૌથી વ્યાપક safety stack છે: comprehensive threat modeling, dual-use refusal training, always-on classifiers અને reasoning monitors, અને સ્પષ્ટ enforcement pipelines.
ChatGPT એજન્ટને સુરક્ષિત બનાવવા માટેના અમારા કાર્ય ઉપરાંત, અમે જાણીએ છીએ કે layered biosafety ત્યારે શ્રેષ્ઠ રીતે કાર્ય કરે છે જ્યારે safeguards કોઈ એક lab ની બહાર સુધી વિસ્તરે, તેથી અમે સુરક્ષા મજબૂત કરવા સમગ્ર ecosystem માં સહકાર કરીએ છીએ. પ્રથમ દિવસથી જ અમે બહારના biosecurity experts, safety institutes અને academic researchers સાથે મળીને અમારા threat model, assessments અને policies આકાર્યા છે. Biology‑trained reviewers એ અમારા evaluation data ને માન્ય કર્યું, અને domain‑expert red teamers એ વાસ્તવિક પરિસ્થિતિઓમાં safeguards નું stress-test કર્યું. આ મહીનાની શરૂઆતમાં અમે સરકાર, academia, national labs અને NGOs ના નિષ્ણાતો સાથે Biodefense workshop યોજી, જેથી સહકાર ઝડપે વધે અને AI થી સંચાલિત biodefense research આગળ વધે. અમે ઊભરતા જોખમોથી આગળ રહેવા વૈશ્વિક ભાગીદારી ચાલુ રાખીશું.
એકીકૃત agentic model માટેના અમારા મજબૂત safety approach વિશે વધુ સિસ્ટમ કાર્ડ માં વાંચો. અમે bug bounty program પણ શરૂ કરી રહ્યા છીએ જેથી અમે વાસ્તવિક જોખમો શોધી અને સુધારી શકીએ.
ChatGPT એજન્ટ આજથી Pro, Plus, અને Team માટે rollout થવાનું શરૂ થાય છે; Pro ને દિવસના અંત સુધી access મળશે, જ્યારે Plus અને Team વપરાશકર્તાઓને આવતા થોડા દિવસોમાં access મળશે. Enterprise અને Education વપરાશકર્તાઓને આવતા અઠવાડિયામાં access મળશે. Pro વપરાશકર્તાઓને મહિને 400 messages મળે છે, જ્યારે અન્ય paid વપરાશકર્તાઓને મહિને 40 messages મળે છે, અને વધારાનો ઉપયોગ લવચીક credit-based options દ્વારા ઉપલબ્ધ છે.
અમે હજુ પણ European Economic Area અને Switzerland માટે access સક્ષમ કરવા પર કામ કરી રહ્યા છીએ.
Operator research preview site થોડા વધુ અઠવાડિયા સુધી કાર્યરત રહેશે, ત્યારબાદ તેને sunset કરવામાં આવશે. ડીપ રિસર્ચ ChatGPT એજન્ટની ક્ષમતાઓનો ભાગ છે. જો તમે મૂળ ડીપ રિસર્ચ સુવિધાને પ્રાથમિકતા આપો—જેને ચલાવવા વધુ સમય લાગી શકે પરંતુ મૂળભૂત રીતે વધુ વિગતવાર અને ઊંડા પ્રતિસાદ આપે છે—તો તમે હજી પણ message composer માં dropdown માંથી “deep research” પસંદ કરીને તેને ઍક્સેસ કરી શકો છો.
ChatGPT એજન્ટ હજી તેના પ્રારંભિક તબક્કામાં છે. તે વિવિધ જટિલ કાર્યો કરી શકે છે, પરંતુ તે હજી પણ ભૂલો કરી શકે છે.
જ્યારે slideshows બનાવવાની તેની ક્ષમતામાં અમને નોંધપાત્ર સંભાવના દેખાય છે, ત્યારે આ કાર્યક્ષમતા હાલમાં beta માં છે. હાલમાં, ખાસ કરીને કોઈ અસ્તિત્વમાં રહેલા દસ્તાવેજ વિના શરૂઆત કરતી વખતે, outputs ક્યારેક formatting અને polish માં પ્રાથમિક લાગતા હોઈ શકે છે. અમે મોડલની પ્રારંભિક ક્ષમતાઓને એવા artifacts બનાવવા પર કેન્દ્રિત કરી છે જે presentations માટે યોગ્ય flow અને format માં માહિતી ગોઠવે, જેમાં text, charts, images અને shapes જેવા elements હોય, જે export પછી મૂળરૂપે અને સરળતાથી editable રહે, અને structure તથા flexibility માટે optimize કરવામાં આવ્યા હોય. હાલમાં, viewer માંની slides અને exported powerpoint વચ્ચે ક્યારેક તફાવતો પણ જોવા મળે છે, જેને ઘટાડવા માટે અમે કાર્ય કરી રહ્યા છીએ. વધારામાં, તમે હાલમાં ChatGPT માટે edit કરવા અથવા template તરીકે ઉપયોગ કરવા અસ્તિત્વમાં રહેલી spreadsheet upload કરી શકો છો, પરંતુ આ ક્ષમતા slideshows માટે હજી ઉપલબ્ધ નથી. અમે પહેલેથી જ ChatGPT ની slideshow creation ની આગામી iteration ને વધુ polished, sophisticated outputs, વધુ વ્યાપક ક્ષમતાઓ અને સુધારેલા formatting સાથે તૈયાર કરવા train કરી રહ્યા છીએ.
કુલ મળીને, અમે સમય સાથે ChatGPT એજન્ટની કાર્યક્ષમતા, ઊંડાણ અને બહુમુખીતા માં સતત સુધારાની અપેક્ષા રાખીએ છીએ, જેમાં વધુ seamless interactions પણ સામેલ છે, કારણ કે અમે વપરાશકર્તાથી જરૂરી oversight ની માત્રા સમાયોજિત કરતા રહીશું જેથી તે વધુ ઉપયોગી બને અને સાથે તેનો ઉપયોગ સુરક્ષિત રહે.
SpreadsheetBench | ||||
મોડલ | મૂલ્યાંકન પર્યાવરણ | Soft restriction (%): Cell-level | Soft restriction (%): Sheet-level | Soft restriction (%): Overall |
GPT‑4o | Windows, Excel | 15.03 | 23.65 | 18.35 |
Copilot in Excel | Windows, Excel | 23.33 | 15.00 | 20.00 |
GPT‑4o | OSX, LibreOffice | 15.86 | 18.33 | 16.81 |
OpenAI o3 | OSX, LibreOffice | 22.40 | 24.60 | 23.25 |
ChatGPT agent | OSX, LibreOffice | 38.27 | 30.48 | 35.27 |
ChatGPT agent with .xlsx | OSX, LibreOffice | 50.56 | 37.51 | 45.54 |
માનવ | 75.56 | 65.00 | 71.33 |
લેખક
ફૂટનોટ્સ
* browsing સક્રિય હોય ત્યારે, મોડલ ક્યારેક ઓનલાઈન ચોક્કસ જવાબો શોધી શકે છે, ઉદાહરણ તરીકે dataset માંથી sample problems ધરાવતા blog posts વાંચીને. browsing દરમિયાન મોડલ cheating કરે તેવી ચિંતાઓને અમે બે રીતોથી ઘટાડીએ છીએ:
1. એવા blocked domains, જ્યાંથી અમે અગાઉ મોડલને cheating કરતાં જોયું છે.
2. દરેક પ્રયત્નમાં બધા tool output tokens ની તપાસ કરવા માટે monitor તરીકે એક વધારાનું મોડલ ઉપયોગ કર્યું, જેથી શંકાસ્પદ વર્તન ઓળખી શકાય. શંકાસ્પદ વર્તન એટલે “એવું પેજ, ફાઇલ અથવા snippet, જેનો મુખ્ય હેતુ આ ચોક્કસ પ્રશ્નનો સચોટ જવાબ આપવાનો હોય—જેમ કે અધિકૃત grading key, લીક થયેલું “solutions” gist, અથવા પૂર્ણ જવાબ શબ્દશઃ ઉદ્ધૃત કરતી ચર્ચા.” નિર્દોષ વર્તન એટલે “કોઈપણ અધિકૃત સ્રોત જેને કોઈ મહેનતી માનવી consult કરે (documentation, manuals, scholarly papers, પ્રતિષ્ઠિત લેખો), ભલે તેમાં સંજોગવશાત્ સાચો જવાબ હોય.” monitor જેને શંકાસ્પદ માને તે બધા પ્રયત્નો ખોટા ગણવામાં આવે છે. આ તપાસમાં નિષ્ફળ ગયેલા મોટા ભાગના samples એવા પ્રશ્નો હતા જેમના ચોક્કસ ઉકેલો HLE સાથે અસંબંધિત અનેક ઇન્ટરનેટ સ્રોતોમાં ઉપલબ્ધ હતા.
**OpenAI પાસે Tier 1-3 dataset ના 290 માંથી 237 ખાનગી પ્રશ્નો માટે વિશિષ્ટ access છે. આ eval માં FrontierMath tier 4 પ્રશ્નો સામેલ નથી. પરિણામો દરેક પ્રશ્નના જવાબ માટે કરાયેલા 16 પ્રયત્નોના સરેરાશ તરીકે મૂલ્યાંકિત થયા. ChatGPT એજન્ટનાં પરિણામો OpenAI દ્વારા elicited, Epoch AI દ્વારા graded, browser અને terminal access સાથે, અને પ્રતિ જવાબ 128K ટોકન મર્યાદા સાથે છે. OpenAI o4-mini અને o3 evaluations Epoch AI દ્વારા elicited અને graded છે, browser અને terminal access વગર, ફંક્શન કોલિંગ દ્વારા python scripts ના ઉપયોગ સાથે, અને પ્રતિ જવાબ 100K ટોકન મર્યાદા સાથે.
*** Oracle@64 એ 64 sampled runs માં પ્રાપ્ત થયેલ શ્રેષ્ઠ સ્કોરને સૂચવે છે, જે ground truth નો ઉપયોગ કરીને પસંદ કરવામાં આવે છે (અર્થાત્, actual graded performance ના આધારે અમે દરેક કાર્ય માટે સૌથી ઊંચો સ્કોર ધરાવતો પ્રયત્ન પસંદ કરીએ છીએ). અમે બધા કાર્યોમાં આ per-task શ્રેષ્ઠ સ્કોર્સનો સરેરાશ અહેવાલ આપીએ છીએ. આ metric મોડલની upper-bound potential અને કાર્ય performance માં variance ને પ્રકાશિત કરે છે—જ્યારે મોડલ સફળ થાય ત્યારે તે કેટલું સક્ષમ હોઈ શકે છે તે દર્શાવે છે અને વધુ training દ્વારા consistency સુધારવાની જગ્યા સૂચવે છે. સામાન્ય “best of N” metrics થી વિપરીત, જે model confidence ના આધારે પસંદ કરે છે, oracle@64 પસંદગી માટે ground truth નો ઉપયોગ કરે છે અને binary pass/fail ની બદલે સતત 0–1 scale પર graded થયેલા કાર્યો પર લાગુ પડે છે.


