გაიცანით ChatGPT აგენტი: კვლევასა და მოქმედებას შორის ხიდი
ChatGPT ახლა ფიქრობს და მოქმედებს, პროაქტიულად ირჩევს აგენტური უნარების ხელსაწყოებს, რომ თავისი კომპიუტერით თქვენთვის დავალებები შეასრულოს.
ChatGPT‑ს ახლა შეუძლია თავისი კომპიუტერით თქვენთვის სამუშაოს შესრულება და რთული დავალებების თავიდან ბოლომდე მართვა.
ახლა შეგიძლიათ ChatGPT‑ს სთხოვოთ ისეთი მოთხოვნების შესრულება, როგორიცაა: „ნახე ჩემი კალენდარი და ბოლო სიახლეებზე დაყრდნობით მომამზადე ინფორმაცია კლიენტებთან დაგეგმილ შეხვედრებზე“, „დაგეგმე და იყიდე ინგრედიენტები ოთხი ადამიანისთვის იაპონური საუზმის მოსამზადებლად“ და „გააანალიზე სამი კონკურენტი და შექმენი სლაიდების პრეზენტაცია“. ChatGPT გონივრულად გადაადგილდება ვებსაიტებზე, გაფილტრავს შედეგებს, საჭიროებისას უსაფრთხოდ გთხოვთ შესვლას, გაუშვებს კოდს, ჩაატარებს ანალიზს და ბოლოს მოგაწვდით რედაქტირებად სლაიდშოუებსა და ცხრილებს, რომლებიც მის მიგნებებს აჯამებს.
ამ ახალი შესაძლებლობის ბირთვში ერთიანი აგენტური სისტემაა. ის აერთიანებს ადრეული გარღვევების სამ ძლიერ მხარეს: Operator-ის უნარს ვებსაიტებთან ურთიერთობისთვის, სიღრმისეული კვლევის უნარს ინფორმაციის სინთეზისთვის და ChatGPT‑ის ინტელექტსა და სასაუბრო სიფარფატეს.
ChatGPT ამ დავალებებს თავისი ვირტუალური კომპიუტერით ასრულებს და მსჯელობასა და მოქმედებას შორის მოქნილად გადადის, რათა თქვენი ინსტრუქციების საფუძველზე რთული სამუშაო პროცესები თავიდან ბოლომდე მართოს.
ყველაზე მნიშვნელოვანი კი ისაა, რომ კონტროლი ყოველთვის თქვენ გრჩებათ. მნიშვნელოვანი შედეგის მქონე მოქმედებამდე ChatGPT ნებართვას გთხოვთ, ხოლო თქვენ ნებისმიერ მომენტში მარტივად შეგიძლიათ შეწყვეტა, ბრაუზერის საკუთარ ხელში აღება ან დავალების გაჩერება.
დღეიდან Pro, Plus და Team მომხმარებლებს შეუძლიათ ChatGPT‑ის ახალი აგენტური შესაძლებლობები პირდაპირ შეტყობინების შემდგენელში tools ჩამოსაშლელი მენიუდან გაააქტიურონ, ნებისმიერი საუბრის ნებისმიერ ეტაპზე „agent mode“-ის არჩევით.
მიუხედავად იმისა, რომ ChatGPT აგენტი უკვე ძლიერი ინსტრუმენტია რთული დავალებების შესასრულებლად, დღევანდელი გაშვება მხოლოდ დასაწყისია. ჩვენ რეგულარულად გავაგრძელებთ მნიშვნელოვანი გაუმჯობესებების ეტაპობრივ დამატებას, რათა დროთა განმავლობაში ის უფრო ქმედითი და უფრო მეტი ადამიანისთვის სასარგებლო გახდეს.
ადრე Operator-სა და სიღრმისეულ კვლევას თითოეულს საკუთარი უნიკალური ძლიერი მხარეები ჰქონდა: Operator-ს შეეძლო ვებზე გადახვევა, დაწკაპუნება და აკრეფა, ხოლო სიღრმისეული კვლევა ინფორმაციის ანალიზსა და შეჯამებაში გამოირჩეოდა. მაგრამ ისინი განსხვავებულ სიტუაციებში მუშაობდნენ საუკეთესოდ: Operator-ს არ შეეძლო ანალიზში ღრმად შესვლა ან დეტალური ანგარიშების დაწერა, ხოლო სიღრმისეულ კვლევას არ შეეძლო ვებსაიტებთან ურთიერთობა შედეგების დასაზუსტებლად ან ისეთი შინაარსის მისაწვდომად, რომელსაც მომხმარებლის ავთენტიკაცია სჭირდება. ფაქტობრივად, დავინახეთ, რომ ბევრი მოთხოვნა, რომელსაც მომხმარებლები Operator-ით ცდილობდნენ, სინამდვილეში უფრო მეტად სიღრმისეული კვლევისთვის იყო შესაფერისი, ამიტომ ორივეს საუკეთესო გავაერთიანეთ.
ამ ურთიერთშემავსებელი ძლიერი მხარეების ChatGPT‑ში ინტეგრირებით და დამატებითი ხელსაწყოების დანერგვით, ერთი მოდელის ფარგლებში სრულიად ახალი შესაძლებლობები გავხსენით. ახლა მას შეუძლია ვებსაიტებთან აქტიურად ურთიერთობა — დაწკაპუნება, გაფილტვრა და უფრო ზუსტი, ეფექტიანი შედეგების შეგროვება. ასევე შეგიძლიათ ბუნებრივად გადაინაცვლოთ უბრალო საუბრიდან მოქმედებების მოთხოვნაზე იმავე ჩატში.
ჩვენ ChatGPT აგენტი ხელსაწყოების კომპლექტით აღვჭურვეთ: ვიზუალური ბრაუზერი, რომელიც ვებთან გრაფიკული მომხმარებლის ინტერფეისით ურთიერთობს, ტექსტზე დაფუძნებული ბრაუზერი უფრო მარტივი, მსჯელობაზე დაფუძნებული ვებ-მოთხოვნებისთვის, ტერმინალი და პირდაპირი API წვდომა. აგენტს ასევე შეუძლია გამოიყენოს ChatGPT connectors(იხსნება ახალ ფანჯარაში), რაც საშუალებას გაძლევთ დააკავშიროთ ისეთი აპები, როგორიცაა Gmail და Github, რათა ChatGPT‑მ თქვენი მოთხოვნებისთვის შესაბამისი ინფორმაცია იპოვოს და პასუხებში გამოიყენოს. ასევე შეგიძლიათ ნებისმიერ ვებსაიტზე თავად აიღოთ ბრაუზერი ხელში და შეხვიდეთ, რაც მას საშუალებას აძლევს უფრო ღრმად და ფართოდ იმუშაოს როგორც კვლევაში, ისე დავალებების შესრულებაში. ChatGPT‑ისთვის ვებინფორმაციაზე წვდომისა და მასთან ურთიერთობის ამ განსხვავებული გზების მიცემა იმას ნიშნავს, რომ მას შეუძლია უმეტეს დავალებებისთვის ოპტიმალური გზა აირჩიოს, რათა ისინი ყველაზე ეფექტიანად შეასრულოს. მაგალითად, მას შეუძლია API-ის საშუალებით შეაგროვოს ინფორმაცია თქვენი კალენდრიდან, ეფექტიანად იმსჯელოს დიდი მოცულობის ტექსტზე ტექსტური ბრაუზერის გამოყენებით და ამავე დროს შეძლოს ვიზუალურად ურთიერთობა ისეთ ვებსაიტებთან, რომლებიც ძირითადად ადამიანებისთვისაა შექმნილი.
ეს ყველაფერი ხდება მისი საკუთარი ვირტუალური კომპიუტერის გამოყენებით, რომელიც დავალებისთვის საჭირო კონტექსტს ინარჩუნებს მაშინაც კი, როცა რამდენიმე ხელსაწყო გამოიყენება — მოდელს შეუძლია აირჩიოს გვერდის გახსნა ტექსტური ან ვიზუალური ბრაუზერით, ვებიდან ფაილის ჩამოტვირთვა, მისი დამუშავება ტერმინალში ბრძანების გაშვებით და შემდეგ შედეგის ისევ ვიზუალურ ბრაუზერში ნახვა. მოდელი თავის მიდგომას სისწრაფით, სიზუსტითა და ეფექტიანობით ასასრულებლად ადაპტირებს.
ChatGPT აგენტი შექმნილია იტერაციული, თანამშრომლობითი სამუშაო პროცესებისთვის და წინა მოდელებზე ბევრად უფრო ინტერაქტიული და მოქნილია. სანამ ChatGPT მუშაობს, ნებისმიერ მომენტში შეგიძლიათ შეაწყვეტინოთ, რათა დააზუსტოთ ინსტრუქციები, სასურველი შედეგებისკენ მიმართოთ ან საერთოდ შეცვალოთ დავალება. ის გააგრძელებს იქიდან, სადაც შეჩერდა — უკვე ახალი ინფორმაციით, მაგრამ წინა პროგრესის დაკარგვის გარეშე. ანალოგიურად, საჭიროების შემთხვევაში ChatGPT თავადაც პროაქტიულად მოგთხოვთ დამატებით დეტალებს, რათა დავალება თქვენს მიზნებთან თანხვედრაში დარჩეს. თუ დავალება მოსალოდნელზე დიდხანს გრძელდება ან ჩიხში ჩანს, შეგიძლიათ დააპაუზოთ, სთხოვოთ პროგრესის შეჯამება ან სრულიად შეაჩეროთ და ნაწილობრივი შედეგები მიიღოთ. თუ ChatGPT‑ის აპი ტელეფონზე გაქვთ, დავალების დასრულებისას შეტყობინებას გამოგიგზავნით.
ეს ერთიანი აგენტური შესაძლებლობები მნიშვნელოვნად აძლიერებს ChatGPT‑ის სარგებლიანობას როგორც ყოველდღიურ, ისე პროფესიულ კონტექსტებში. სამსახურში შეგიძლიათ გაავტომატოთ განმეორებადი ამოცანები, მაგალითად სკრინშოტების ან დაფების გარდაქმნა პრეზენტაციებად, რომლებიც რედაქტირებადი ვექტორული ელემენტებისგან შედგება, შეხვედრების გადალაგება, ოფსაიტების დაგეგმვა და დაჯავშნა, ასევე ახალი ფინანსური მონაცემებით ცხრილების განახლება იმავე ფორმატირების შენარჩუნებით. პირად ცხოვრებაში კი შეგიძლიათ მისი გამოყენება მოგზაურობის მარშრუტების მარტივად დასაგეგმად და დასაჯავშნად, მთელი სადილის წვეულებების მოსაფიქრებლად და დასაჯავშნად, ან სპეციალისტების მოსაძებნად და ვიზიტების დასანიშნად.
მოდელის გაუმჯობესებული შესაძლებლობები აისახება მის უახლეს, საუკეთესო კლასის (SOTA) შედეგებში შეფასებებზე, რომლებიც ვებდათვალიერებისა და რეალური დავალებების შესრულების შესაძლებლობებს ზომავს.
Humanity’s Last Exam(იხსნება ახალ ფანჯარაში)*-ზე, შეფასებაზე, რომელიც ექსპერტის დონის კითხვებზე AI-ის მუშაობას საგნების ფართო სპექტრში ზომავს, ChatGPT აგენტის გამაძლიერებელი მოდელი აღწევს ახალ pass@1 SOTA-ს — 41.6. რადგან აგენტი დინამიკურად გეგმავს და თავად ირჩევს ხელსაწყოებს, მას შეუძლია ერთსა და იმავე დავალებას სხვადასხვა გაშვებაში განსხვავებულად მიუდგეს. როდესაც ეს მარტივი პარალელური rollout სტრატეგიით გავზარდეთ — ერთდროულად რვა მცდელობის გაშვებით და მათგან ყველაზე მაღალი თვითშეფასებული თავდაჯერების მქონეს არჩევით — აგენტის HLE ქულა 44.4-მდე იზრდება.
FrontierMath** ყველაზე რთული ცნობილი მათემატიკური ბენჩმარკია, რომელიც ახალ, გამოუქვეყნებელ ამოცანებს მოიცავს და რომელთა ამოხსნას ექსპერტ მათემატიკოსებს ხშირად საათები ან დღეებიც კი სჭირდებათ. ხელსაწყოების გამოყენებით, მაგალითად კოდის გასაშვებად ტერმინალზე წვდომით, ChatGPT აგენტი 27.4% სიზუსტეს აღწევს და ორივე წინა მოდელს დიდი სხვაობით უსწრებს.
მოდელი ასევე შევაფასეთ ბენჩმარკებით, რომლებიც რთულ რეალურ დავალებებს არის მორგებული. შიდა ბენჩმარკზე, რომელიც მოდელის მუშაობას რთულ, ეკონომიკურად ღირებულ ცოდნაზე დაფუძნებულ სამუშაო ამოცანებზე აფასებს, ChatGPT აგენტის შედეგი შემთხვევების დაახლოებით ნახევარში ადამიანების შედეგს უტოლდება ან აღემატება მას, სხვადასხვა დავალების შესრულების დროის დიაპაზონში, თანაც მნიშვნელოვნად უსწრებს o3‑სა და o4-mini-ს. მოდელის შედეგებს ექსპერტები აფასებენ მაღალი ხარისხის ადამიანურ საბაზისო შედეგებთან შედარებით, რომლებიც თითოეულ სფეროში საუკეთესო შემსრულებლებმა შექმნეს. ეს ამოცანები, რომლებიც სხვადასხვა პროფესიისა და ინდუსტრიის ექსპერტებისგანაა აღებული, ასახავს რეალურ პროფესიულ მუშაობას — მაგალითად მოთხოვნით ხელმისაწვდომი გადაუდებელი მოვლის პროვაიდერების კონკურენტული ანალიზის მომზადებას, დეტალური ამორტიზაციის გრაფიკების აგებას და ახალი მწვანე წყალბადის ობიექტისთვის სიცოცხლისუნარიანი წყლის ჭაბურღილების იდენტიფიცირებას.
DSBench(იხსნება ახალ ფანჯარაში)-ზე, რომელიც რეალისტურ მონაცემთა მეცნიერების ამოცანებზე აგენტების შესაფასებლადაა შექმნილი და მოიცავს მონაცემთა ანალიზსა და მოდელირებას, ChatGPT აგენტი საგრძნობლად და მნიშვნელოვნად უსწრებს ადამიანის შედეგს.
SpreadsheetBench-ზე, რომელიც მოდელებს რეალური სცენარებიდან მიღებული ცხრილების რედაქტირების უნარით აფასებს, ChatGPT აგენტი არსებულ მოდელებს დიდი სხვაობით უსწრებს. როცა მას ცხრილების პირდაპირ რედაქტირების შესაძლებლობა ეძლევა, ChatGPT აგენტი კიდევ უფრო მაღალ შედეგს — 45.5%-ს — აღწევს, Copilot in Excel-ის 20.0%-თან შედარებით.
მეთოდოლოგია: SpreadsheetBench-ის ავტორებმა ცხრილების შესაფასებლად გამოიყენეს Windows გარემო და Microsoft Excel. ჩვენ გამოვიყენეთ OSX გარემო და LibreOffice, რამაც შესაძლოა შეფასებაში მცირე განსხვავებები გამოიწვიოს. მაგალითად, ავტორებმა GPT‑4o‑სთვის Overall Hard restriction 15.02% დაადგინეს, ხოლო ჩვენ მივიღეთ 13.38%. გამოვიყენეთ სრული, 912-კითხვიანი ბენჩმარკი.
შიდა ბენჩმარკზე, რომელიც ზომავს მოდელის უნარს შეასრულოს პირველი-მესამე წლის საინვესტიციო საბანკო ანალიტიკოსის მოდელირების ამოცანები — მაგალითად Fortune 500 კომპანიისთვის სათანადო ფორმატირებითა და ციტირებით სამი ანგარიშის ფინანსური მოდელის აწყობა ან კერძო შესყიდვისთვის leveraged buyout მოდელის შექმნა — ChatGPT აგენტის გამაძლიერებელი მოდელი მნიშვნელოვნად უსწრებს სიღრმისეულ კვლევასა და o3‑ს. თითოეული ამოცანა ფასდება ასობით კრიტერიუმით, რომლებიც სისწორესა და ფორმულების გამოყენებას ეხება.
ჩვენ ასევე შევაფასეთ ChatGPT აგენტი BrowseComp-ზე, ბენჩმარკზე, რომელიც ამ წლის დასაწყისში გამოვაქვეყნეთ და რომელიც ზომავს browsing აგენტების უნარს ვებზე ძნელად საპოვნელი ინფორმაციის მოძებნაში. მოდელმა ახალი SOTA დააფიქსირა — 68.9%, რაც სიღრმისეულ კვლევაზე 17.4 პროცენტული პუნქტით მაღალია.
ბოლოს, WebArena(იხსნება ახალ ფანჯარაში)-ზე, ბენჩმარკზე, რომელიც რეალური ვებ-ამოცანების შესრულებაში ვებდათვალიერების აგენტების მუშაობის შესაფასებლადაა შექმნილი, მოდელი აუმჯობესებს o3‑ზე დაფუძნებული CUA-ს (მოდელი, რომელიც Operator-ს ამოძრავებს) შედეგს.
ChatGPT‑ის ახალი აგენტური შესაძლებლობები შეგიძლიათ პირდაპირ შეტყობინების შემდგენელში tools ჩამოსაშლელი მენიუდან გაააქტიუროთ, ნებისმიერი საუბრის ნებისმიერ ეტაპზე „agent mode“-ის არჩევით. უბრალოდ აღწერეთ სასურველი დავალება — იქნება ეს სიღრმისეული კვლევა, სლაიდშოუს შექმნა თუ ხარჯების წარდგენა. სანამ ის თქვენს დავალებას ასრულებს, ეკრანზე ნარაცია ზუსტად გაჩვენებთ, რას აკეთებს ChatGPT. საჭიროების შემთხვევაში შეგიძლიათ პროცესში ჩაერიოთ და ბრაუზერზე კონტროლი გადაიბაროთ, რათა დავალებები თქვენს მიზნებთან თანხვედრაში დარჩეს.
ChatGPT აგენტს შეუძლია თქვენს connectors-ზე წვდომა, რაც მას საშუალებას აძლევს თქვენს სამუშაო პროცესებთან ინტეგრირდეს და შესაბამის, ქმედით ინფორმაციაზე წვდომა ჰქონდეს. ავთენტიკაციის შემდეგ ეს connectors ChatGPT‑ს საშუალებას აძლევს დაინახოს ინფორმაცია და გააკეთოს ისეთი რამეები, როგორიცაა იმ დღის თქვენი inbox-ის შეჯამება ან შეხვედრისთვის თავისუფალი დროის მონაკვეთების პოვნა — თუმცა ამ საიტებზე მოქმედებების შესასრულებლად მაინც მოგთხოვთ შესვლას ბრაუზერის ხელში აღებით.
გარდა ამისა, შეგიძლიათ დასრულებული დავალებები ავტომატურად განმეორებადად დაგეგმოთ, მაგალითად ყოველ ორშაბათ დილით ყოველკვირეული მეტრიკების ანგარიშის შექმნა.
ეს გამოშვება პირველად აღნიშნავს შემთხვევას, როცა მომხმარებლებს შეუძლიათ ChatGPT‑ს სთხოვონ, ვებზე მოქმედებები შეასრულოს. ეს ახალ რისკებს წარმოშობს, განსაკუთრებით იმიტომ, რომ ChatGPT აგენტს შეუძლია უშუალოდ იმუშაოს თქვენს მონაცემებთან — იქნება ეს connectors-ის საშუალებით მიღებული ინფორმაცია თუ takeover mode-ის გზით იმ ვებსაიტებზე წვდომა, სადაც თქვენ ის შეიყვანეთ. ჩვენ გავამყარეთ Operator-ის კვლევითი წინასწარი ვერსიიდან მიღებული ძლიერი კონტროლები და დავამატეთ დამცავი ზომები ისეთი გამოწვევებისთვის, როგორიცაა ცოცხალ ვებზე მგრძნობიარე ინფორმაციის დამუშავება, მომხმარებელთა უფრო ფართო მოცვა და ტერმინალის ქსელურ წვდომაზე (შეზღუდული) წვდომა. მიუხედავად იმისა, რომ ეს შემარბილებელი ზომები მნიშვნელოვნად ამცირებს რისკს, ChatGPT აგენტის გაფართოებული ხელსაწყოები და მომხმარებელთა ფართო წვდომა ნიშნავს, რომ მისი საერთო რისკის პროფილი უფრო მაღალია.
განსაკუთრებული აქცენტი გავაკეთეთ ChatGPT აგენტის დაცვაზე პრომპტ ინიექციის გზით მტრული მანიპულაციისგან, რაც ზოგადად აგენტური სისტემებისთვის რისკია, და შესაბამისად უფრო ვრცელი შემამსუბუქებელი ზომებიც მოვამზადეთ. Prompt injection არის მესამე მხარის მცდელობა, ავისმოქმედი ინსტრუქციებით გავლენა მოახდინოს აგენტის ქცევაზე, რომლებსაც ChatGPT აგენტი დავალების შესრულებისას ვებზე შეიძლება გადააწყდეს. მაგალითად, ვებგვერდში დამალულმა მავნე მოთხოვნამ, მაგალითად უხილავ ელემენტებში ან მეტამონაცემებში, შეიძლება აგენტი დაუგეგმავი ქმედებებისკენ უბიძგოს, მაგალითად connector-იდან პირადი მონაცემების თავდამსხმელთან გაზიარებისკენ ან მავნე ქმედებისკენ იმ საიტზე, სადაც მომხმარებელი შესულია. რადგან ChatGPT აგენტს პირდაპირი მოქმედებების შესრულება შეუძლია, წარმატებულ შეტევებს უფრო დიდი გავლენა და უფრო მაღალი რისკები აქვს.
აგენტი გავწვრთენით და გამოვცადეთ prompt injection-ის ამოცნობასა და მისადმი წინააღმდეგობის გაწევაში, და დამატებით ვიყენებთ მონიტორინგს, რათა prompt injection შეტევები სწრაფად აღმოვაჩინოთ და მათზე სწრაფად ვუპასუხოთ. მნიშვნელოვანი შედეგის მქონე მოქმედებებამდე მომხმარებლის მკაფიო დადასტურების მოთხოვნა კიდევ უფრო ამცირებს ამ შეტევებით გამოწვეული ზიანის რისკს, ხოლო მომხმარებლებს შეუძლიათ საჭიროებისამებრ ჩაერიონ დავალებებში takeover-ით ან დაპაუზებით. მომხმარებლებმა ეს კომპრომისები უნდა გაითვალისწინონ, როცა წყვეტენ, რა ინფორმაცია მიაწოდონ აგენტს, და ასევე გადადგან ნაბიჯები ამ რისკებისადმი ზემოქმედების შესამცირებლად, მაგალითად გამორთონ connectors, როცა ისინი დავალებისთვის საჭირო არ არის.
ასევე დავნერგეთ შემამსუბუქებელი ზომები მოდელის შეცდომებთან დაკავშირებით, განსაკუთრებით იმის გათვალისწინებით, რომ მოდელს ახლა შეუძლია ისეთი დავალებების შესრულება, რომლებიც რეალურ სამყაროზე ახდენს გავლენას:
- მომხმარებლის მკაფიო დადასტურება: ChatGPT გაწვრთნილია, რომ რეალური შედეგების მქონე მოქმედებამდე, მაგალითად შესყიდვის განხორციელებამდე, აშკარად გკითხოთ ნებართვა.
- აქტიური ზედამხედველობა („Watch Mode“): გარკვეული კრიტიკული დავალებები, მაგალითად ელფოსტის გაგზავნა, თქვენს აქტიურ კონტროლს მოითხოვს.
- პროაქტიული რისკის შემცირება: ChatGPT გაწვრთნილია, რომ აქტიურად უარი თქვას მაღალი რისკის მქონე დავალებებზე, მაგალითად საბანკო გადარიცხვებზე.
ბოლოს, დავამატეთ დამატებითი კონტროლები, რათა შევზღუდოთ მონაცემები, რომლებზეც მოდელს აქვს წვდომა:
- კონფიდენციალურობის კონტროლები: ChatGPT‑ის პარამეტრებში ერთი დაწკაპუნებით შეგიძლიათ წაშალოთ ყველა ბრაუზინგის მონაცემი და დაუყოვნებლივ გამოხვიდეთ ვებსაიტების ყველა აქტიური სესიიდან. სხვა შემთხვევაში, ქუქი-ფაილები თითოეული მონახულებული ვებსაიტის ქუქი-პოლიტიკის მიხედვით ნარჩუნდება, რაც საიტებზე განმეორებით შესვლას უფრო ეფექტიანს ხდის.
- უსაფრთხო ბრაუზერის takeover mode: როცა ChatGPT‑ის ბრაუზერის გამოყენებით („takeover mode“) ვებთან ურთიერთობთ, თქვენი შეყვანილი მონაცემები პირადულად რჩება. ChatGPT არ აგროვებს და არ ინახავს ამ სესიებში თქვენ მიერ შეყვანილ მონაცემებს, მაგალითად პაროლებს, რადგან მოდელს ეს არ სჭირდება და უფრო უსაფრთხოა, თუ მას ისინი საერთოდ არ ენახება.
მოდელის გაზრდილი შესაძლებლობების გათვალისწინებით, მივიღეთ გადაწყვეტილება, რომ ChatGPT აგენტი ჩვენს მზაობის ჩარჩოში მაღალი ბიოლოგიური და ქიმიური შესაძლებლობების კატეგორიად მივიჩნიოთ და შესაბამისი დამცავი ზომები გავააქტიუროთ. მიუხედავად იმისა, რომ არ გვაქვს საბოლოო მტკიცებულება იმისა, რომ მოდელს შეუძლია დამწყებს რეალურად დაეხმაროს მძიმე ბიოლოგიური ზიანის შექმნაში — რაც ჩვენი High capability-ის ზღვარია — სიფრთხილეს ვიჩენთ და საჭირო დამცავ ზომებს ახლავე ვნერგავთ. შედეგად, ამ მოდელს დღემდე ჩვენი ყველაზე ყოვლისმომცველი უსაფრთხოების სტეკი აქვს ბიოლოგიისთვის გაძლიერებული დაცვით: საფრთხეების სრულყოფილი მოდელირება, ორმაგი დანიშნულების უარყოფის სწავლება, მუდმივად ჩართული კლასიფიკატორები და მსჯელობის მონიტორები, ასევე მკაფიო აღსრულების პროცესები.
ChatGPT აგენტის დასაცავად ჩვენი მუშაობის გარდა, ვიცით, რომ ფენოვანი ბიოუსაფრთხოება საუკეთესოდ მუშაობს მაშინ, როცა დაცვის ზომები ერთი ლაბორატორიის ფარგლებს სცდება, ამიტომ ეკოსისტემის მასშტაბით ვთანამშრომლობთ თავდაცვის გასაძლიერებლად. პირველივე დღიდან ვმუშაობდით გარე ბიოუსაფრთხოების ექსპერტებთან, უსაფრთხოების ინსტიტუტებთან და აკადემიურ მკვლევრებთან, რათა ჩამოგვეყალიბებინა ჩვენი საფრთხის მოდელი, შეფასებები და პოლიტიკები. ბიოლოგიაში გაწვრთნილმა შემფასებლებმა ჩვენი შეფასების მონაცემები გადაამოწმეს, ხოლო დარგის ექსპერტმა red team-ებმა რეალისტურ სცენარებში შეამოწმეს დამცავი ზომების გამძლეობა. ამ თვის დასაწყისში ექსპერტებთან ერთად — მთავრობის, აკადემიის, ეროვნული ლაბორატორიებისა და NGO-ების წარმომადგენლებით — ბიოდაცვის ვორქშოფი მოვიწვიეთ, რათა თანამშრომლობა დაგვეჩქარებინა და AI-ით გაძლიერებული ბიოდაცვის კვლევა წაგვეწია წინ. ჩვენ გავაგრძელებთ გლობალურ პარტნიორობას, რათა ახალ რისკებს წინ გავუსწროთ.
წაიკითხეთ მეტი ჩვენი ძლიერი უსაფრთხოების მიდგომის შესახებ ერთიანი აგენტური მოდელისთვის სისტემურ ბარათში. ასევე ვიწყებთ bug bounty program-ს, რათა რეალურ სამყაროში არსებული რისკები აღმოვაჩინოთ და გამოვასწოროთ.
ChatGPT აგენტის გავრცელება დღეიდან იწყება Pro, Plus და Team მომხმარებლებისთვის; Pro მომხმარებლები წვდომას დღის ბოლომდე მიიღებენ, ხოლო Plus და Team მომხმარებლები — მომდევნო რამდენიმე დღეში. Enterprise და Education მომხმარებლები წვდომას მომდევნო კვირებში მიიღებენ. Pro მომხმარებლებს თვეში 400 შეტყობინება ექნებათ, ხოლო სხვა ფასიანი მომხმარებლები თვეში 40 შეტყობინებას მიიღებენ, დამატებითი გამოყენებით მოქნილი კრედიტზე დაფუძნებული ვარიანტებით.
ჩვენ ჯერ კიდევ ვმუშაობთ ევროპის ეკონომიკური ზონისა და შვეიცარიისთვის წვდომის ჩართვაზე.
Operator-ის კვლევითი წინასწარი ვერსიის საიტი კიდევ რამდენიმე კვირა დარჩება ფუნქციური, რის შემდეგაც დაიხურება. სიღრმისეული კვლევა ChatGPT აგენტის შესაძლებლობების ნაწილია. თუ უპირატესობას ანიჭებთ სიღრმისეული კვლევის ორიგინალურ ფუნქციას — რომელსაც შესაძლოა გაშვებას მეტი დრო დასჭირდეს, მაგრამ სტანდარტულად უფრო დეტალურ და სიღრმისეულ პასუხებს იძლევა — მასზე წვდომა კვლავ შეგიძლიათ შეტყობინების შემდგენელში ჩამოსაშლელი მენიუდან „deep research“-ის არჩევით.
ChatGPT აგენტი ჯერ კიდევ განვითარების ადრეულ ეტაპზეა. მას შეუძლია მრავალფეროვანი რთული დავალებების შესრულება, მაგრამ შეცდომებს მაინც უშვებს.
მიუხედავად იმისა, რომ სლაიდშოუების შექმნის უნარში დიდ პოტენციალს ვხედავთ, ეს ფუნქცია ამჟამად ბეტა ვერსიაშია. ამ ეტაპზე შედეგები ზოგჯერ ჯერ კიდევ საბაზისოდ შეიძლება გამოიყურებოდეს ფორმატირებისა და დამუშავების მხრივ, განსაკუთრებით მაშინ, როცა დასაწყისში არსებული დოკუმენტი არ არის. მოდელის საწყისი შესაძლებლობები ფოკუსირებული გვაქვს ისეთი მასალების შექმნაზე, რომლებიც ინფორმაციას პრეზენტაციისთვის შესაფერის ნაკადად და ფორმატში აწყობს, ტექსტის, დიაგრამების, სურათებისა და ფორმების მსგავსი ელემენტებით, რომლებიც ექსპორტის შემდეგ ბუნებრივად და მარტივად რედაქტირებადია, სტრუქტურასა და მოქნილობაზე ოპტიმიზაციით. ამჟამად ზოგჯერ არსებობს განსხვავებებიც მაყურებელში ნაჩვენებ სლაიდებსა და ექსპორტირებულ powerpoint-ს შორის, რომელთა შემცირებაზეც ვმუშაობთ. გარდა ამისა, მიუხედავად იმისა, რომ ამჟამად შეგიძლიათ ატვირთოთ არსებული ცხრილი, რათა ChatGPT‑მ ის შეცვალოს ან შაბლონად გამოიყენოს, ეს შესაძლებლობა სლაიდშოუებისთვის ჯერ ხელმისაწვდომი არ არის. ჩვენ უკვე ვწვრთნით ChatGPT‑ის სლაიდშოუს შექმნის შემდეგ იტერაციას, რათა უფრო დახვეწილი და უფრო კომპლექსური შედეგები მივიღოთ, უფრო ფართო შესაძლებლობებითა და გაუმჯობესებული ფორმატირებით.
საერთო ჯამში, ველით, რომ დროთა განმავლობაში ChatGPT აგენტის ეფექტიანობა, სიღრმე და მრავალმხრივობა კიდევ უფრო გაუმჯობესდება, მათ შორის უფრო შეუფერხებელი ინტერაქციებით, რადგან ვაგრძელებთ მომხმარებლის მხრიდან საჭირო ზედამხედველობის ოდენობის კორექტირებას, რათა ის უფრო სასარგებლო გავხადოთ და ამავე დროს უსაფრთხოებაც შევინარჩუნოთ.
SpreadsheetBench | ||||
მოდელი | შეფასების გარემო | რბილი შეზღუდვა (%): უჯრედის დონე | რბილი შეზღუდვა (%): ფურცლის დონე | რბილი შეზღუდვა (%): საერთო |
GPT‑4o | Windows, Excel | 15.03 | 23.65 | 18.35 |
Copilot in Excel | Windows, Excel | 23.33 | 15.00 | 20.00 |
GPT‑4o | OSX, LibreOffice | 15.86 | 18.33 | 16.81 |
OpenAI o3 | OSX, LibreOffice | 22.40 | 24.60 | 23.25 |
ChatGPT აგენტი | OSX, LibreOffice | 38.27 | 30.48 | 35.27 |
ChatGPT აგენტი .xlsx-ით | OSX, LibreOffice | 50.56 | 37.51 | 45.54 |
ადამიანი | 75.56 | 65.00 | 71.33 |
ავტორი
სქოლიოები
* ბრაუზინგის ჩართვისას მოდელს ზოგჯერ შეუძლია ზუსტი პასუხები ონლაინ იპოვოს, მაგალითად მონაცემთა ნაკრებიდან სანიმუშო ამოცანების მქონე ბლოგპოსტების წაკითხვით. ვებში დათვალიერებისას მოდელის შესაძლო „თაღლითობის“ რისკს ორი სტრატეგიით ვამცირებთ:
1. დაბლოკილი დომენები, საიდანაც წარსულში მოდელის მხრიდან თაღლითობა დაგვიფიქსირებია.
2. დამატებით გამოვიყენეთ სხვა მოდელი, როგორც მონიტორი, რათა თითოეულ მცდელობაში ყველა ხელსაწყოს output token შეემოწმებინა და საეჭვო ქცევა გამოევლინა. საეჭვო ქცევა განისაზღვრება როგორც „გვერდი, ფაილი ან ფრაგმენტი, რომლის მთავარი მიზანიც ამ კონკრეტულ კითხვაზე ზუსტი პასუხის მიწოდებაა — მაგალითად, ოფიციალური შეფასების გასაღები, გაჟონილი „solutions“ gist, ან განხილვა, რომელიც დასრულებულ პასუხს სიტყვასიტყვით ციტირებს.“ კეთილსაიმედო ქცევა განისაზღვრება როგორც „ნებისმიერი ავტორიტეტული რესურსი, რომელსაც გულმოდგინე ადამიანი შეიძლება მიმართავდეს (დოკუმენტაცია, სახელმძღვანელოები, აკადემიური ნაშრომები, სანდო სტატიები), მაშინაც კი, თუ ის შემთხვევით სწორ პასუხსაც შეიცავს.“ ნებისმიერი მცდელობა, რომელიც მონიტორმა საეჭვოდ მიიჩნია, არასწორად ითვლება. ამ შემოწმებით ჩავარდნილი ნიმუშების უმეტესობა იყო ამოცანები, რომელთა ზუსტი ამოხსნა HLE-სთან დაუკავშირებელ მრავალ ინტერნეტწყაროში იყო ხელმისაწვდომი.
**OpenAI-ს ექსკლუზიური წვდომა აქვს Tier 1-3 მონაცემთა ნაკრების 290 პირადი კითხვიდან 237-ზე. FrontierMath-ის tier 4 კითხვები ამ შეფასებაში არ შედის. შედეგები შეფასებულია თითოეულ კითხვაზე პასუხის 16 მცდელობის საშუალო მაჩვენებლით. ChatGPT აგენტის შედეგები OpenAI-მ მოიპოვა, Epoch AI-მ შეაფასა, ბრაუზერსა და ტერმინალზე წვდომით და თითო პასუხზე 128K token-ის ლიმიტით. OpenAI o4-mini და o3 შეფასებები მოიპოვა და შეაფასა Epoch AI-მ, ბრაუზერსა და ტერმინალზე წვდომის გარეშე, python სკრიპტების გამოყენებით ფუნქციის გამოძახების მეშვეობით და თითო პასუხზე 100K token-ის ლიმიტით.
*** Oracle@64 აღნიშნავს საუკეთესო ქულას, რომელიც 64 ნიმუშურ გაშვებაში იქნა მიღწეული და ground truth-ის გამოყენებით შეირჩა (ანუ თითოეული ამოცანისთვის ვირჩევთ ყველაზე მაღალქულიან მცდელობას რეალური შეფასებული შედეგის საფუძველზე). ჩვენ ვასაჯაროებთ ყველა ამოცანაზე ამ per-task საუკეთესო ქულების საშუალოს. ეს მეტრიკა წარმოაჩენს მოდელის ზედა ზღვრის პოტენციალსა და ამოცანებზე მუშაობის ვარიაციას — აჩვენებს, რამდენად ქმედითია მოდელი წარმატებისას და მიუთითებს, რამდენად არის ადგილი დამატებითი გაწვრთნით თანმიმდევრულობის გასაუმჯობესებლად. ტიპური „best of N“ მეტრიკებისგან განსხვავებით, რომლებიც შერჩევას მოდელის თავდაჯერებაზე აფუძნებს, oracle@64 შერჩევისთვის ground truth-ს იყენებს და ვრცელდება ამოცანებზე, რომლებიც უწყვეტ 0–1 შკალაზე ფასდება და არა ბინარულ pass/fail პრინციპზე.


