განახლება 2025 წლის 10 ივნისს: OpenAI o3‑pro ახლა უკვე ხელმისაწვდომია Pro მომხმარებლებისთვის ChatGPT‑ში, ასევე ჩვენს API-ში. როგორც OpenAI o1‑pro, o3‑pro ჩვენი ყველაზე ინტელექტუალური მოდელის, OpenAI o3‑ის, ვერსიაა, რომელიც შექმნილია იმისთვის, რომ უფრო დიდხანს იფიქროს და ყველაზე სანდო პასუხები მოგვცეს. სრული დეტალები შეგიძლიათ იხილოთ ჩვენს რელიზის შენიშვნებში(იხსნება ახალ ფანჯარაში).
დღეს ვუშვებთ OpenAI o3-სა და o4-mini-ს, ჩვენი o-სერიის მოდელების უახლეს ვერსიებს, რომლებიც გაწვრთნილია პასუხამდე უფრო ხანგრძლივად საფიქრებლად. ეს არის ყველაზე ჭკვიანი მოდელები, რომლებიც დღემდე გამოგვიშვია, და წარმოადგენს მნიშვნელოვან ნახტომს ChatGPT‑ის შესაძლებლობებში — როგორც ცნობისმოყვარე მომხმარებლებისთვის, ისე მოწინავე მკვლევრებისთვის. პირველად, ჩვენს მსჯელობის მოდელებს შეუძლიათ აგენტურად გამოიყენონ და გააერთიანონ ChatGPT‑ში არსებული ყველა ხელსაწყო — ეს მოიცავს ვებძებნას, ატვირთული ფაილებისა და სხვა მონაცემების ანალიზს Python-ით, ვიზუალურ შეყვანებზე ღრმა მსჯელობას და სურათების გენერირებასაც კი. უმნიშვნელოვანესია, რომ ეს მოდელები გაწვრთნილია იმსჯელონ, როდის და როგორ გამოიყენონ ხელსაწყოები, რათა შექმნან დეტალური და გააზრებული პასუხები სწორ გამომავალ ფორმატებში, როგორც წესი, ერთ წუთზე ნაკლებ დროში, და გადაჭრან უფრო რთული პრობლემები. ეს მათ საშუალებას აძლევს უფრო ეფექტიანად გაუმკლავდნენ მრავალმხრივ შეკითხვებს — ეს ნაბიჯია უფრო აგენტური ChatGPT‑ისკენ, რომელსაც შეუძლია დამოუკიდებლად შეასრულოს ამოცანები თქვენს სახელზე. უახლესი დონის მსჯელობისა და ხელსაწყოებზე სრული წვდომის გაერთიანებული ძალა მნიშვნელოვნად აძლიერებს წარმადობას როგორც აკადემიურ ბენჩმარკებზე, ისე რეალურ ამოცანებში და აყალიბებს ახალ სტანდარტს როგორც ინტელექტში, ისე სარგებლიანობაში.
OpenAI o3 ჩვენი ყველაზე ძლიერი მსჯელობის მოდელია, რომელიც ახალ ზღვარს აწევს კოდირებაში, მათემატიკაში, მეცნიერებაში, ვიზუალურ აღქმაში და სხვა სფეროებში. ის ამყარებს ახალ SOTA-ს ბენჩმარკებზე, მათ შორის Codeforces-ზე, SWE-bench-ზე (მორგებული, მოდელისთვის სპეციფიკური scaffold-ის აგების გარეშე) და MMMU-ზე. ის იდეალურია რთული მოთხოვნებისთვის, რომლებიც მრავალმხრივ ანალიზს მოითხოვს და რომელთა პასუხებიც შესაძლოა დაუყოვნებლივ აშკარა არ იყოს. ის განსაკუთრებით ძლიერად მუშაობს ვიზუალურ ამოცანებზე, როგორიცაა სურათების, დიაგრამებისა და გრაფიკის ანალიზი. გარე ექსპერტების შეფასებებში o3 რთულ, რეალურ ამოცანებზე OpenAI o1‑ზე 20 პროცენტით ნაკლებ სერიოზულ შეცდომას უშვებს — განსაკუთრებით გამოირჩევა პროგრამირებაში, ბიზნესში/კონსალტინგში და კრეატიული იდეების გენერირებაში. ადრეულმა ტესტერებმა ხაზი გაუსვეს მის ანალიტიკურ სიმკაცრეს, როგორც სააზროვნო პარტნიორს, და მის უნარს, შექმნას და კრიტიკულად შეაფასოს ახალი ჰიპოთეზები — განსაკუთრებით ბიოლოგიის, მათემატიკისა და ინჟინერიის კონტექსტებში.
OpenAI o4-mini უფრო მცირე მოდელია, ოპტიმიზებული სწრაფი და ხარჯეფექტური მსჯელობისთვის — ის თავისი ზომისა და ფასისთვის შთამბეჭდავ წარმადობას აღწევს, განსაკუთრებით მათემატიკაში, კოდირებასა და ვიზუალურ ამოცანებში. ის საუკეთესო შედეგის მქონე ბენჩმარკირებული მოდელია AIME 2024-სა და 2025-ზე. მიუხედავად იმისა, რომ კომპიუტერზე წვდომა AIME გამოცდის სირთულეს მნიშვნელოვნად ამცირებს, ასევე საყურადღებოა, რომ o4-mini Python ინტერპრეტატორზე წვდომის შემთხვევაში AIME 2025-ზე აღწევს 99.5% pass@1-ს (100% consensus@8). მიუხედავად იმისა, რომ ეს შედეგები არ უნდა შედარდეს იმ მოდელების შედეგებთან, რომლებსაც ხელსაწყოებზე წვდომა არ აქვთ, ისინი ერთ-ერთი მაგალითია იმისა, რამდენად ეფექტიანად იყენებს o4-mini ხელმისაწვდომ ხელსაწყოებს; o3‑ც აჩვენებს მსგავს გაუმჯობესებას AIME 2025-ზე ხელსაწყოების გამოყენებით (98.4% pass@1, 100% consensus@8).
ექსპერტულ შეფასებებში o4-mini ასევე აჭარბებს თავის წინამორბედს, o3‑mini-ს, არა-STEM ამოცანებსა და ისეთ დომენებში, როგორიცაა მონაცემთა მეცნიერება. თავისი ეფექტიანობის წყალობით, o4-mini მნიშვნელოვნად უფრო მაღალ გამოყენების ლიმიტებს უჭერს მხარს, ვიდრე o3, რაც მას ძლიერ ვარიანტად აქცევს დიდი მოცულობისა და მაღალი მწარმოებლურობის შემთხვევებისთვის, სადაც მსჯელობა სასარგებლოა. გარე ექსპერტმა შემფასებლებმა ორივე მოდელი შეაფასეს, როგორც გაუმჯობესებული ინსტრუქციების მიყოლისა და უფრო სასარგებლო, გადამოწმებადი პასუხების მაჩვენებლები მათ წინამორბედებთან შედარებით, გაუმჯობესებული ინტელექტისა და ვებ-წყაროების ჩართვის წყალობით. ჩვენი მსჯელობის მოდელების წინა იტერაციებთან შედარებით, ეს ორი მოდელი ასევე უფრო ბუნებრივ და სასაუბრო ხასიათს უნდა ატარებდეს, განსაკუთრებით მაშინ, როცა პასუხების უფრო პერსონალიზებისა და შესაბამისობისთვის მეხსიერებასა და წინა საუბრებს ეყრდნობა.
მულტიმოდალური
კოდირება
SWE-bench-ის შეფასების ყველა გაშვება იყენებს n=477 ვერიფიცირებული ამოცანის ფიქსირებულ ქვეჯგუფს, რომლებიც ჩვენს შიდა ინფრასტრუქტურაზეა ვალიდირებული.
ინსტრუქციების მიყოლა და აგენტური ხელსაწყოების გამოყენება
ყველა მოდელი შეფასებულია მაღალი ‘reasoning effort’ პარამეტრებით — ChatGPT‑ში ‘o4-mini-high’-ის მსგავსი ვარიანტების მსგავსად.
OpenAI o3‑ის განვითარების განმავლობაში დავაკვირდით, რომ მასშტაბური განმამტკიცებელი სწავლება აჩვენებს იმავე „მეტი გამოთვლითი რესურსი = უკეთესი წარმადობა“ ტენდენციას, რაც GPT‑სერიის წინასწარ გაწვრთნაში გვინახავს. მასშტაბირების გზის ხელახლა გავლით — ამჯერად RL-ში — კიდევ ერთი რიგითობის ზრდას მივაღწიეთ როგორც სასწავლო გამოთვლით რესურსში, ისე ინფერენსის დროს მსჯელობაში, და მაინც ვხედავთ წარმადობის მკაფიო გაუმჯობესებებს, რაც ადასტურებს, რომ მოდელების წარმადობა აგრძელებს გაუმჯობესებას რაც მეტად ვაძლევთ ფიქრის საშუალებას. OpenAI o1‑თან თანაბარი დაყოვნებისა და ღირებულების პირობებში, o3 ChatGPT‑ში უფრო მაღალ წარმადობას იძლევა — და დავადასტურეთ, რომ თუ მას უფრო დიდხანს ვაფიქრებთ, მისი წარმადობა კვლავ იზრდება.
ასევე გავწვრთენით ორივე მოდელი, რათა გამოიყენონ ხელსაწყოები განმამტკიცებელი სწავლების გზით — ვასწავლეთ არა მხოლოდ როგორ გამოიყენონ ხელსაწყოები, არამედ ისიც, როდის გამოიყენონ ისინი. სასურველი შედეგების მიხედვით ხელსაწყოების გამოყენების მათი უნარი მათ უფრო შესაძლებლობიანს ხდის ღია ტიპის სიტუაციებში — განსაკუთრებით ვიზუალურ მსჯელობასა და მრავალსაფეხურიან სამუშაო პროცესებში. ეს გაუმჯობესება აისახება როგორც აკადემიურ ბენჩმარკებზე, ისე რეალურ ამოცანებზე, როგორც ადრეულმა ტესტერებმა განაცხადეს.

პირველად, ამ მოდელებს შეუძლიათ სურათების პირდაპირ ინტეგრირება თავიანთ სააზროვნო ჯაჭვში. ისინი სურათს უბრალოდ არ ხედავენ — ისინი მასთან ერთად ფიქრობენ. ეს ხსნის პრობლემების გადაჭრის ახალ კლასს, რომელიც ვიზუალურ და ტექსტურ მსჯელობას აერთიანებს, რაც აისახება მათ უახლესი დონის შედეგებში მულტიმოდალურ ბენჩმარკებზე.
ადამიანებს შეუძლიათ ატვირთონ დაფის ფოტო, სახელმძღვანელოს დიაგრამა ან ხელით დახატული ესკიზი, და მოდელს შეუძლია მისი ინტერპრეტაცია — მაშინაც კი, თუ სურათი ბუნდოვანია, შებრუნებულია ან დაბალი ხარისხისაა. ხელსაწყოების გამოყენებით მოდელებს შეუძლიათ სურათების ოპერატიულად მანიპულირება — მათი მოტრიალება, გადიდება ან ტრანსფორმაცია — როგორც მსჯელობის პროცესის ნაწილი.
ეს მოდელები ვიზუალური აღქმის ამოცანებში საუკეთესო სიზუსტეს აჩვენებენ, რაც მათ საშუალებას აძლევს გადაჭრან კითხვები, რომლებიც ადრე მიუწვდომელი იყო. მეტის გასაგებად იხილეთ ვიზუალური მსჯელობის კვლევითი ბლოგი.
OpenAI o3‑ს და o4-mini-ს ChatGPT‑ში ხელსაწყოებზე სრული წვდომა აქვთ, ისევე როგორც თქვენს საკუთარ მორგებულ ხელსაწყოებზე API-ში ფუნქციის გამოძახების მეშვეობით. ეს მოდელები გაწვრთნილია იმსჯელონ იმაზე, როგორ გადაჭრან პრობლემები, აირჩიონ როდის და როგორ გამოიყენონ ხელსაწყოები, რათა სწრაფად — როგორც წესი, ერთ წუთზე ნაკლებ დროში — შექმნან დეტალური და გააზრებული პასუხები სწორ გამომავალ ფორმატებში.
მაგალითად, მომხმარებელმა შეიძლება იკითხოს: “როგორ შედარდება კალიფორნიაში ზაფხულის ენერგომოხმარება გასულ წელთან?” მოდელს შეუძლია ვებში მოძებნოს საჯარო კომუნალური მონაცემები, დაწეროს Python კოდი პროგნოზის ასაგებად, შექმნას გრაფიკი ან სურათი და ახსნას პროგნოზის უკან მდგომი მთავარი ფაქტორები, ერთმანეთთან დააკავშიროს რამდენიმე ხელსაწყოს გამოძახება. მსჯელობა მოდელებს საშუალებას აძლევს, საჭიროებისამებრ რეაგირება მოახდინონ და მიმართულება შეცვალონ იმ ინფორმაციის მიხედვით, რომელსაც ხვდებიან. მაგალითად, მათ შეუძლიათ ძიების პროვაიდერების დახმარებით ვებში რამდენჯერმე მოძებნონ, ნახონ შედეგები და, თუ მეტი ინფორმაცია სჭირდებათ, ახალი ძიებები სცადონ.
ეს მოქნილი, სტრატეგიული მიდგომა მოდელებს საშუალებას აძლევს გაუმკლავდნენ ამოცანებს, რომლებიც მოითხოვს მოდელის ჩაშენებული ცოდნის ფარგლებს გარეთ არსებულ განახლებულ ინფორმაციაზე წვდომას, გაფართოებულ მსჯელობას, სინთეზსა და მოდალობებს შორის შედეგების გენერირებას.
ყველა მაგალითი შესრულდა OpenAI o3‑ით.
OpenAI o3
OpenAI o1
OpenAI o3 სწორ პასუხს ძიების გამოყენების გარეშე იღებს, მაშინ როცა o1 ვერ ახერხებს სწორი პასუხის მიწოდებას.
ხარჯეფექტური მსჯელობის განვითარება
ღირებულება vs წარმადობა: o3‑mini და o4-mini


ღირებულება vs წარმადობა: o1 და o3


OpenAI o3 და o4-mini ყველაზე ინტელექტუალური მოდელებია, რომლებიც ოდესმე გამოგვიშვია, და ისინი ხშირად ასევე უფრო ეფექტიანებიც არიან, ვიდრე მათი წინამორბედები — OpenAI o1 და o3‑mini. მაგალითად, 2025 წლის AIME მათემატიკურ შეჯიბრზე o3‑ის ღირებულება-წარმადობის frontier მკაფიოდ აუმჯობესებს o1‑ს, და ანალოგიურად, o4-mini-ის frontier მკაფიოდ აუმჯობესებს o3‑mini‑ს. უფრო ზოგადად, ველით, რომ რეალური გამოყენებების უმეტესობაში o3 და o4-mini, შესაბამისად, o1‑სა და o3‑mini‑ზე ერთდროულად უფრო ჭკვიანიც და იაფიც იქნება.
მოდელის შესაძლებლობების ყოველი გაუმჯობესება უსაფრთხოების შესაბამის გაუმჯობესებასაც მოითხოვს. OpenAI o3‑ისა და o4-mini-სთვის უსაფრთხოების სასწავლო მონაცემები სრულად თავიდან ავაგეთ და დავამატეთ ახალი უარის მოთხოვნები ისეთ სფეროებში, როგორიცაა ბიოლოგიური საფრთხეები (biorisk), მავნე პროგრამების გენერირება და jailbreak-ები. ამ განახლებულმა მონაცემებმა განაპირობა ის, რომ o3‑მა და o4-mini-მ ძლიერ შედეგებს მიაღწიეს ჩვენს შიდა უარის ბენჩმარკებზე (მაგ., ინსტრუქციების იერარქია, jailbreak-ები). მოდელის უარების ძლიერი შედეგების გარდა, ასევე შევიმუშავეთ სისტემის დონის შემამსუბუქებელი ზომები, რომლებიც მოწინავე მოდელებთან დაკავშირებული რისკის სფეროებში სახიფათო მოთხოვნებს ამოიცნობს. ჩვენი ადრინდელი მუშაობის მსგავსად სურათის გენერირებაში, გავწვრთენით მსჯელობის LLM მონიტორი, რომელიც ეყრდნობა ადამიანის მიერ დაწერილ და ინტერპრეტირებად უსაფრთხოების სპეციფიკაციებს. biorisk-ზე გამოყენებისას ამ მონიტორმა ჩვენს ადამიანურ red‑teaming კამპანიაში საუბრების ~99% წარმატებით მონიშნა.
ორივე მოდელი დღემდე ჩვენი ყველაზე მკაცრი უსაფრთხოების პროგრამით გამოვცადეთ. ჩვენი განახლებული მზაობის ჩარჩოს შესაბამისად, o3 და o4-mini შევაფასეთ ჩარჩოთი დაფარული სამი აღრიცხვადი შესაძლებლობის სფეროში: ბიოლოგიური და ქიმიური, კიბერუსაფრთხოება და AI-ის თვითგაუმჯობესება. ამ შეფასებების შედეგებზე დაყრდნობით დავადგინეთ, რომ როგორც o3, ისე o4‑mini, სამივე კატეგორიაში ჩარჩოს "High" ზღურბლზე ქვემოთ რჩება. ამ შეფასებების დეტალური შედეგები გამოვაქვეყნეთ თანდართულ სისტემურ ბარათში.
ასევე გიზიარებთ ახალ ექსპერიმენტს: Codex CLI, მსუბუქ კოდირების აგენტს, რომლის გაშვებაც შეგიძლიათ თქვენი ტერმინალიდან. ის პირდაპირ მუშაობს თქვენს კომპიუტერზე და შექმნილია იმისთვის, რომ მაქსიმალურად გამოიყენოს ისეთი მოდელების მსჯელობის შესაძლებლობები, როგორიცაა o3 და o4-mini; მალე დაემატება დამატებითი API მოდელების მხარდაჭერაც, როგორიცაა GPT‑4.1.
თქვენ შეგიძლიათ მულტიმოდალური მსჯელობის უპირატესობები ბრძანების სტრიქონიდან მიიღოთ, თუ მოდელს გადასცემთ ეკრანის ანაბეჭდებს ან დაბალი სიზუსტის ესკიზებს თქვენს კოდზე ლოკალურ წვდომასთან ერთად. ჩვენ ამას აღვიქვამთ, როგორც მინიმალურ ინტერფეისს, რომელიც ჩვენს მოდელებს აკავშირებს მომხმარებლებთან და მათ კომპიუტერებთან. Codex CLI სრულად ღია კოდით უკვე დღეს ხელმისაწვდომია github.com/openai/codex(იხსნება ახალ ფანჯარაში)-ზე.
ამასთან ერთად, ვიწყებთ $1 მილიონის ინიციატივას Codex CLI-ისა და OpenAI მოდელების გამოყენებით პროექტების მხარდასაჭერად. გრანტების განაცხადებს შევაფასებთ და მივიღებთ $25,000 USD-ის ინკრემენტებით API კრედიტების სახით. წინადადებების გაგზავნა შესაძლებელია აქ.
ChatGPT Plus, Pro და Team მომხმარებლები მოდელების ამრჩევში დღეიდან დაინახავენ o3‑ს, o4-mini-ს და o4-mini-high-ს, რომლებიც ჩაანაცვლებენ o1‑ს, o3‑mini‑ს და o3‑mini‑high‑ს. ChatGPT Enterprise და Edu მომხმარებლები წვდომას ერთ კვირაში მიიღებენ. უფასო მომხმარებლებს შეუძლიათ o4-mini სცადონ, თუ მოთხოვნის გაგზავნამდე კომპოზერში აირჩევენ 'Think'-ს. ყველა გეგმაში rate limit-ები უცვლელი რჩება წინა მოდელების ნაკრებთან შედარებით.
ვგეგმავთ OpenAI o3‑pro‑ის გამოშვებას რამდენიმე კვირაში სრული ხელსაწყოთა მხარდაჭერით. ამ დროისთვის Pro მომხმარებლებს კვლავ აქვთ წვდომა o1‑pro‑ზე.
o3 და o4-mini ასევე უკვე დღეს ხელმისაწვდომია დეველოპერებისთვის ჩატის დასრულების API-სა და Responses API-ს მეშვეობით (ზოგ დეველოპერს ამ მოდელებზე წვდომისთვის დასჭირდება თავიანთი ორგანიზაციების ვერიფიკაცია(იხსნება ახალ ფანჯარაში)). Responses API მხარს უჭერს მსჯელობის შეჯამებებს, ფუნქციის გამოძახებების გარშემო reasoning token-ების შენარჩუნების შესაძლებლობას უკეთესი წარმადობისთვის და მალე მხარს დაუჭერს ჩაშენებულ ხელსაწყოებს, როგორიცაა ვებძებნა, ფაილების ძებნა და code interpreter მოდელის მსჯელობის ფარგლებში. დასაწყებად გაეცანით ჩვენს დოკუმენტაციას(იხსნება ახალ ფანჯარაში) და დაელოდეთ სხვა განახლებებს.
დღევანდელი განახლებები ასახავს მიმართულებას, რომლისკენაც ჩვენი მოდელები მიდიან: ჩვენ ვაახლოებთ o-სერიის სპეციალიზებულ მსჯელობის შესაძლებლობებს GPT‑სერიის ბუნებრივი სასაუბრო უნარებისა და ხელსაწყოების გამოყენების უფრო ფართო შესაძლებლობებთან. ამ ძლიერი მხარეების გაერთიანებით, ჩვენი მომავალი მოდელები მხარს დაუჭერს უწყვეტ, ბუნებრივ საუბარს პროაქტიულ ხელსაწყოების გამოყენებასთან და მოწინავე პრობლემების გადაჭრასთან ერთად.
განახლება 2025 წლის 28 ივლისს: SWE-Lancer-ის მონაცემთა ნაკრები და შედეგები განახლდა 2025 წლის 17 ივლისის მდგომარეობით, ხელმისაწვდომია აქ: https://github.com/openai/preparedness(იხსნება ახალ ფანჯარაში) და ჩვენს სისტემურ ბარათებში. ეს განახლება აგვარებს რამდენიმე პრობლემას, რომლებიც გავლენას ახდენდა გამომუშავებული დოლარების შედეგებზე, და ხსნის შესრულების დროს ინტერნეტკავშირის მოთხოვნას, რითაც მოდელის წარმადობის ცვალებადობის ერთ-ერთი მთავარი წყარო ქრება.
განახლება 2025 წლის 16 აპრილს: o3‑ის შედეგები Charxiv-r-სა და Mathvista-ზე განახლდა, რათა ასახულიყო system prompt-ის ცვლილება, რომელიც თავდაპირველ შეფასებაში არ იყო წარმოდგენილი.
ავტორი
შენიშვნები
* tau-bench-ის შეფასების რიცხვები საშუალოდ აღებულია 5 გაშვებაზე, რათა შემცირდეს ვარიაცია, და გაშვებულია ყოველგვარი მორგებული ხელსაწყოებისა თუ მოთხოვნების გარეშე. აღმოვაჩინეთ, რომ tau-bench retail გაშვებები უფრო მეტად არის მიდრეკილი მომხმარებლის მოდელის შეცდომებისკენ. დაჩრდილული სვეტის რიცხვები გაშვებულია GPT-4.1-ით როგორც მომხმარებლის მოდელით, რადგან ის GPT-4o-ზე მნიშვნელოვნად უკეთ მიჰყვება ინსტრუქციებს.
* SWE-bench იყენებს 256k მაქსიმალურ კონტექსტის სიგრძეს, რაც o4-mini-ის ამოხსნის მაჩვენებელს დაახლოებით 3%-ით აუმჯობესებს და o3-ის ამოხსნის მაჩვენებელზე <1%-ით მოქმედებს. ასევე გამოვრიცხავთ 23 ნიმუშს, რომლებიც ჩვენს შიდა ინფრასტრუქტურაზე გაშვებადი არ არის.
** browsing-ის ჩართვისას მოდელს ზოგჯერ შეუძლია ზუსტი პასუხები ონლაინ იპოვოს, მაგალითად, ბლოგპოსტების წაკითხვით, რომლებშიც მონაცემთა ნაკრებიდან ამოცანების მაგალითებია მოცემული. browsing-ის დროს მოდელის “თაღლითობის” შესახებ შეშფოთების შესამცირებლად ორ სტრატეგიას ვიყენებთ:
დავბლოკეთ დომენები, საიდანაც წარსულში გვინახავს მოდელის თაღლითობა.
მონიტორად გამოვიყენეთ მსჯელობის მოდელი, რათა თითოეულ მცდელობაში ყველა token შეესწავლა და საეჭვო ქცევა გამოევლინა. საეჭვო ქცევა განისაზღვრება როგორც "გვერდი, ფაილი ან ფრაგმენტი, რომლის მთავარი მიზანია სწორედ ამ კონკრეტულ კითხვაზე ზუსტი პასუხის მიწოდება — მაგალითად, ოფიციალური შეფასების გასაღები, გაჟონილი “solutions” gist ან დისკუსია, რომელიც დასრულებულ პასუხს სიტყვასიტყვით ციტირებს." უწყინარი ქცევა განისაზღვრება როგორც "ნებისმიერი ავტორიტეტული რესურსი, რომელსაც გულმოდგინე ადამიანი შეიძლება მიმართავდეს (დოკუმენტაცია, სახელმძღვანელოები, სამეცნიერო ნაშრომები, სანდო სტატიები), თუნდაც მასში შემთხვევით სწორი პასუხიც იყოს." ნებისმიერი მცდელობა, რომელიც მონიტორმა საეჭვოდ მიიჩნია, არასწორად ითვლება. ნიმუშების უმეტესობა, რომლებმაც ეს შემოწმება ვერ გაიარეს, ისეთი პრობლემები იყო, რომელთა ზუსტი ამოხსნა ინტერნეტის მრავალ წყაროში იყო ხელმისაწვდომი და არ იყო დაკავშირებული HLE-სთან.
ბოლოს, ჩვენი შეფასებები browsing-ით შესაძლოა სრულად გამეორებადი არ იყოს OpenAI API-ში, რადგან ChatGPT-სა და OpenAI API-ს შორის საძიებო სისტემების backend-ები განსხვავდება. ეს შედეგები გამიზნულია ChatGPT მომხმარებლის გამოცდილების წარმომადგენლად, თუმცა მოთხოვნის მიხედვით, ძიების კონფიგურაცია დროთა განმავლობაში შეიძლება შეიცვალოს.
მონაწილეები
Aaditya Singh, Aaron Schlesinger, Adam Fry, Adam Lerer, Adam Perelman, Adam Walker, Ahmed El-Kishky, Aidan Clark, Aidan McLaughlin, Aiden Low, Akila Welihinda, Akshay Nathan, Aleksander Madry, Aleksandra Spyra, Alex Karpenko, Alex Neitz, Alex Tachard Passos, Alex Wei, Alexander Prokofiev, Alexander Zielenski, Alexandra Barr, Alexey Ivanov, Alexi Christakis, Alfred Xue, Allison Tam, Ally Bennett, Ally Bennett , Amelia Liu, Amy McDonald Sandjideh, Ananya Kumar, Andre Saraiva, Andrea Vallone, Andrew Chen, Andrew Duberstein, Andrew Gibiansky, Andrew Kondrich, Andrew Tulloch, Andrey Mishchenko, Andy Applebaum, Andy Wang, Angela Baek, Annie Wei, Anting Shen, Antoine Pelisse, Anuj Saharan, Arun Vijayvergiya, Ashley Tyra, Ashvin Nair, Avi Nayak, Avital Oliver, Behrooz Ghorbani, Belinda Truong, Ben Sokolowsky, Beth Hoover, Bo Xu, Boaz Barak, Bohan Zhang, Borys Minaiev, Botao Hao, Bowen Baker, Bowen Cheng, Brandon McKinzie, Brandon Wang, Brian Hsu, Brian Yang, Brian Yu, Brian Zhang, Camillo Lugaresi, Carolina Paz, Carpus Chang, Cary Bassin , Cary Hudson, Casey Chu, Chak Li, Charles Zhao, Charlie Jatt, Charlotte Cole, Chelsea Voss, Chen Shen, Chengxu Zhuang, Chris Colby, Chris Hallacy , Chris Koch, Christina Kaplan, Christina Kim, Colin Reid, Colin Wei, Cristina Scheau, D. Sculley, Damien Deville, Dan Roberts, Dana Palmie, Dane Stuckey, Daniel Levine, David Hu, David Martin, David Robinson, David Sasaki, Davis Wu, Derek Chen, Dibya Bhattacharjee, Dimitris Tsipras, Dinghua Li, DJ Strouse, dmed Medina, Drew Hintz, Eddie Zhang, Edmund Wong, Elaine Ya Le, Eli Yani , Elizabeth Proehl, Emily Sokolova, Enoch Cheung, Eri Schwartz, Eric Mitchell, Eric Ning, Eric Sigler, Eric Wallace, Eugenio Panero, Evan Mays, Evgenii Nikishin, Fan Wang, Fangyuan Li, Filippo Raso, Foivos Tsimpourlas, Fouad Matin, Francis Song, Francis Zhang, Gary Yang, Gene Oden, Giambattista Parascandolo, Gildas Chabot, Grace Kim, Grace Zhao, Greg Brockman, Gregory Valiant, Guillaume Leclerc, Hadi Salman, Haitang Hu, Hannah Sheahan, Hao Sheng, Haoyu Wang, Henrique Ponde de Oliveira Pinto, Henry Aspegren, Heqing Yan, Hessam Bagherinezhad, Hongyu Ren, Hunter Lightman, Hyeonwoo Noh, Ian Kivlichan, Ian Sohl, Ignasi Clavera, Ikai Lan, Ilge Akkaya, Ilya Kostrikov, Irina Kofman, Isa Fulford, Jake Brill, Jakub Pachocki, James Betker, James Lee, James Qin, Jamie Kiros, Jason Ai, Jay Wang, Jean Harb, Jeff Mickey, Jeffrey Han, Jeffrey Wang, Jeremy Chen, Jerry Tworek, Jessica Liang, Jessica Shieh, Ji Lin, Jiahui Yu, Jianfeng Wang, Jie Tang, Jihan Yin, Jing Li, Joanne Jang, Joel Morris, Johannes Ferstad, Johannes Heidecke, John Fishbein, Jon Okun, Jonathan Gordon, Joost Huizinga, Jos Kraaijeveld, Joseph Mo, Josh Lawson , Josh Tobin, Junhua Mao, Kai Chen, Kai Hayashi, Karan Singhal, Karina Nguyen, Katy Shi, Kelly Stirman, Kenji Hata, Kenny Nguyen, Keren Gu-Lemberg, Kevin Gladstone, Kevin King, Kevin Liu, Kevin Lu, Kevin Park, Kevin Stone, Kevin Weil, Kevin Whinnery, Kevin Yu, Kote Mushegiani, Kristen Ying, Kristian Georgiev, Kshitij Gupta, Kyle Kosic, Lama Ahmad, Larry Lv, Lauren Itow, Lauren Yang, Lee Byron, Leo Chen, Leo Liu, Leon Maksin, Leyton Ho, Li Jing, Liang Xiong, Lin Yang, Linden Li, Lorenz Kuhn, Louis Feuvrier, Lu Zhang, Łukasz Kaiser, Mahmoud Eariby, Maja Trębacz, Manas Joglekar, Manoli Liodakis, Manuka Stratta, Mark Chen, Mark Hudnall, Mark Sun, Mark Wang, Martin Li, Marvin Zhang, Mateusz Litwin, Matt Jones, Matt Lim, Max Johnson, Max Schwarzer, Mayank Gupta, Meghan Shah, Mengqing Wang, Mengyuan Yan, Mia Glaese, Michael Bolin, Michael Lampe, Michael Malek, Michael Sharman, Michael Zhang, Michele Wang, Michelle Pokrass, Miguel Oom Temudo de Castro, Mihai Florian, Mike McClay, Mike Trpcic, Miki Habryn, Miles Wang, Ming Chen, Mingxuan Wang, Minnia Feng, Mitchell Gordon, Mo Bavarian, Mostafa Rohaninejad, Nacho Soto, Nakul Khanna, Nat McAleese, Natalie Staudacher, Natan LaFontaine, Neel Ajjarapu, Nick Felt, Nick Turley, Nikil Pancha, Nikita Mikhaylin, Niko Felix, Nikunj Handa, Ning Liu, Nishant Rai, Noah Jorgensen, Noam Brown, Oleg Boiko, Oleg Murk, Olivia Watkins, Olivier Godement, Oona Gleeson, Paul Ashbourne, Pavel Belov, Peter Flockhart, Peter Hoeschele, Peter Zhokhov, Philip Pronin, Phillip Guo, Phoebe Thacker, Prafulla Dhariwal, Prashanth R, Rachel Dias, Rahul Arora, Rajkumar Samuel, Rasmus Rygaard, Ravi Teja Mullapudi, Raymond Li, Raz Gaon, Reah Miyara, Reiichiro Nakano, Reimar Leike, Rennie Song, Rhythm Garg, RJ Marsan, Robert Xiong, Robin Brown, Roman Tsiupa, Rui Shu, Ruslan Nigmatullin, Saachi Jain, Saagar Patel, Sam Altman, Sam Toizer, Sam Toyer, Samir Ahmed, Samuel Miserendino, Samuel Wolrich , Sandhini Agarwal, Santiago Hernández, Sarah Dong, Savannah Heon, Scott Ethersmith, Scott Mayer McKinney, Sean Fitzgerald, Sever Banesiu, Shamez Hemani, Shengjia Zhao, Shengli Hu, Shibani Santurkar, Shreyas Krishnaswamy, Shuchao Bi, Shunyu Yao, Shuyuan Zhang, Simón Posada Fishman, Spencer Papay, Spug Golden, Srinivas Narayanan, Stanley Hsieh, Stephen Logsdon, Sundeep Tirumalareddy, Tal Stramer, Tao Wang, Tao Xin, Taylor Gordon, Tejal Patwardhan, Thibault Sottiaux, Tina Sriskandarajah, Tony Casparro, Tony Zhao, Trevor Creech, Uzair Navid Iftikhar, Valerie Qi, Vineet Kosaraju, Vishal Kuo, Vitchyr Pong, Vivek Verma, Vlad Petrov, Wenda Zhou, Wenlei Xie, Wenting Zhan, Will DePue, Will Ellsworth, William Sheu, Wyatt Thompson, Yaming Lin, Yann Dubois, Yaodong Yu, Yara Khakbaz, Yash Patil, Yifan Wu, Yilong Qin, Yining Chen, Yirui Zhang, Yo Shavit , Young Cha, Yunyun Wang, Yushi Wang, Zack Sultan, Zehao Dou, Zewei Chu, Zheng Shao, Zhigang Wang, Zhishuai Zhang, Zihao Zhang