განახლება 2026 წლის 24 აპრილს: GPT‑5.5 და GPT‑5.5 Pro ახლა უკვე ხელმისაწვდომია API-ში. სისტემური ბარათი ასევე განახლდა, რათა აღწეროს დამატებითი დამცავი მექანიზმები, რომლებიც ვრცელდება.
ჩვენ ვუშვებთ GPT‑5.5‑ს, ჩვენს ყველაზე ჭკვიან და გამოყენებისთვის ყველაზე ინტუიციურ მოდელს დღემდე, და შემდეგ ნაბიჯს კომპიუტერზე საქმის გაკეთების ახალი გზისკენ.
GPT‑5.5 უფრო სწრაფად ხვდება, რის გაკეთებას ცდილობთ, და სამუშაოს უფრო დიდ ნაწილს თავად ასრულებს. ის გამორჩეულია კოდის წერასა და გამართვაში, ონლაინ კვლევაში, მონაცემების ანალიზში, დოკუმენტებისა და ცხრილების შექმნაში, პროგრამული უზრუნველყოფის გამოყენებაში და ინსტრუმენტებს შორის გადაადგილებაში, სანამ ამოცანა არ დასრულდება. ყოველ ნაბიჯზე ფრთხილი მართვის ნაცვლად, შეგიძლიათ GPT‑5.5‑ს მისცეთ არეული, მრავალნაწილიანი ამოცანა და ენდოთ, რომ ის დაგეგმავს, გამოიყენებს ინსტრუმენტებს, გადაამოწმებს თავის ნამუშევარს, გაუმკლავდება ბუნდოვანებას და გააგრძელებს მუშაობას.
გაუმჯობესება განსაკუთრებით ძლიერია აგენტურ კოდირებაში, კომპიუტერის გამოყენებაში, ცოდნაზე დაფუძნებულ სამუშაოში და ადრეულ სამეცნიერო კვლევაში — სფეროებში, სადაც პროგრესი დამოკიდებულია კონტექსტზე დაფუძნებულ მსჯელობასა და დროში გაწერილ მოქმედებაზე. GPT‑5.5 ინტელექტის ამ მატებას სიჩქარის გარეშე კომპრომისის გარეშე იძლევა: უფრო დიდი და უფრო შესაძლებლობიანი მოდელები ხშირად უფრო ნელა ემსახურება მომხმარებელს, მაგრამ GPT‑5.5 რეალურ სერვინგში თითო token-ზე დაყოვნებით GPT‑5.4‑ს უტოლდება, მაშინ როცა ინტელექტის გაცილებით მაღალ დონეზე მუშაობს. ის ასევე მნიშვნელოვნად ნაკლებ token-ს იყენებს იგივე Codex ამოცანების დასასრულებლად, რაც მას უფრო ეფექტიანსაც ხდის და უფრო შესაძლებლობიანსაც.
ჩვენ GPT‑5.5‑ს ვუშვებთ დღემდე ჩვენი ყველაზე ძლიერი დამცავი მექანიზმებით, რომლებიც შექმნილია ბოროტად გამოყენების შესამცირებლად და ამავე დროს სასარგებლო სამუშაოებზე წვდომის შესანარჩუნებლად. ჩვენ შევაფასეთ ეს მოდელი უსაფრთხოებისა და მზაობის ჩარჩოების მთელ პაკეტში, ვიმუშავეთ შიდა და გარე red team-ებთან, დავამატეთ მიზნობრივი ტესტირება მოწინავე კიბერუსაფრთხოებისა და ბიოლოგიური შესაძლებლობებისთვის და გამოშვებამდე რეალურ გამოყენების შემთხვევებზე უკუკავშირი მივიღეთ თითქმის 200 სანდო ადრეული წვდომის პარტნიორისგან.
დღეიდან GPT‑5.5 ხელმისაწვდომდება ChatGPT‑სა და Codex-ში Plus, Pro, Business და Enterprise მომხმარებლებისთვის, ხოლო GPT‑5.5 Pro ხელმისაწვდომდება ChatGPT‑ში Pro, Business და Enterprise მომხმარებლებისთვის. API-ში განთავსება განსხვავებულ დამცავ მექანიზმებს მოითხოვს და ჩვენ მჭიდროდ ვთანამშრომლობთ პარტნიორებსა და მომხმარებლებთან, რათა დაკმაყოფილდეს მისი ფართომასშტაბიანი სერვინგისთვის საჭირო უსაფრთხოებისა და დაცულობის მოთხოვნები. ძალიან მალე GPT‑5.5‑სა და GPT‑5.5 Pro-ს API-შიც შემოვიტანთ.
GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro | |
Terminal-Bench 2.0 | 82.7% | 75.1% | - | - | 69.4% | 68.5% |
Expert-SWE (შიდა) | 73.1% | 68.5% | - | - | - | - |
GDPval (მოგებები ან ფრეები) | 84.9% | 83.0% | 82.3% | 82.0% | 80.3% | 67.3% |
OSWorld-Verified | 78.7% | 75.0% | - | - | 78.0% | - |
Toolathlon | 55.6% | 54.6% | - | - | - | 48.8% |
BrowseComp | 84.4% | 82.7% | 90.1% | 89.3% | 79.3% | 85.9% |
FrontierMath Tier 1–3 | 51.7% | 47.6% | 52.4% | 50.0% | 43.8% | 36.9% |
FrontierMath Tier 4 | 35.4% | 27.1% | 39.6% | 38.0% | 22.9% | 16.7% |
CyberGym | 81.8% | 79.0% | - | - | 73.1% | - |
OpenAI აგებს აგენტური AI-ის გლობალურ ინფრასტრუქტურას, რაც ადამიანებსა და ბიზნესებს მთელ მსოფლიოში AI-ის დახმარებით საქმის გაკეთების შესაძლებლობას აძლევს. ბოლო ერთი წლის განმავლობაში ვნახეთ, რომ AI-მ მნიშვნელოვნად დააჩქარა პროგრამული ინჟინერია. GPT‑5.5‑ით Codex-სა და ChatGPT‑ში, იგივე ტრანსფორმაცია ახლა უკვე სამეცნიერო კვლევებსა და იმ ფართო სამუშაოზეც ვრცელდება, რომელსაც ადამიანები კომპიუტერებზე ასრულებენ.
ამ ყველა სფეროში GPT‑5.5 უბრალოდ უფრო ინტელექტუალური კი არ არის; ის პრობლემების გადაჭრის პროცესშიც უფრო ეფექტიანია და ხშირად უფრო მაღალი ხარისხის შედეგს ნაკლები token-ით და ნაკლები განმეორებითი მცდელობით აღწევს. Artificial Analysis-ის Coding Index-ზე GPT‑5.5 ტექნიკის მოწინავე დონის ინტელექტს აწვდის კონკურენტ მოწინავე კოდირების მოდელებთან შედარებით ნახევარ ფასად.
Artificial Analysis Intelligence Index(იხსნება ახალ ფანჯარაში) არის გარე მხარის მიერ ჩატარებული 10 შეფასების შეწონილი საშუალო: AA-LCR, AA-Omniscience, CritPt, GDPval-AA, GPQA Diamond, Humanity’s Last Exam, IFBench, SciCode, Terminal-Bench Hard, τ²-Bench Telecom.
GPT‑5.5 ჩვენი ყველაზე ძლიერი აგენტური კოდირების მოდელია დღემდე. Terminal-Bench 2.0-ზე, რომელიც ამოწმებს რთულ ბრძანების სტრიქონის სამუშაო ნაკადებს, სადაც საჭიროა დაგეგმვა, იტერაცია და ინსტრუმენტების კოორდინაცია, ის აღწევს 82.7%-იან ტექნიკის მოწინავე სიზუსტეს. SWE-Bench Pro-ზე, რომელიც აფასებს GitHub-ის რეალურ issue-ების გადაწყვეტას, ის აღწევს 58.6%-ს და წინა მოდელებთან შედარებით ერთჯერად გატარებაში უფრო მეტ ამოცანას წყვეტს თავიდან ბოლომდე. Expert-SWE-ზე, ჩვენს შიდა მოწინავე შეფასებაზე გრძელჰორიზონტიანი კოდირების ამოცანებისთვის, სადაც ადამიანის საშუალო სავარაუდო დასრულების დრო 20 საათია, GPT‑5.5 ასევე აჯობებს GPT‑5.4‑ს.
სამივე შეფასებაში GPT‑5.5 აუმჯობესებს GPT‑5.4‑ის შედეგებს და ამავე დროს ნაკლებ token-ს იყენებს.
მოდელის კოდირების სიძლიერე განსაკუთრებით მკაფიოდ ჩანს Codex-ში, სადაც მას შეუძლია საინჟინრო სამუშაოს შესრულება — იმპლემენტაციიდან და რეფაქტორინგიდან დაწყებული, გამართვით, ტესტირებითა და ვალიდაციით დასრულებული. ადრეული ტესტირება მიანიშნებს, რომ GPT‑5.5 უკეთ ავლენს იმ ქცევებს, რომლებზეც რეალური საინჟინრო სამუშაოა დამოკიდებული: დიდი სისტემების მასშტაბზე კონტექსტის შენარჩუნება, ბუნდოვანი ჩავარდნების გააზრება, ვარაუდების ინსტრუმენტებით შემოწმება და ცვლილებების გარშემო არსებულ კოდურ ბაზაში გატანა.
გამოტანილი ტრაექტორია იყენებს NASA/JPL Horizons-ის ვექტორულ მონაცემებს Orion-ისთვის, მთვარისთვის და მზისთვის, ხოლო წაკითხვადობისთვის გამოყენებულია ჩვენების მასშტაბირება.
მოთხოვნა: [მიმაგრებული სურათი] განახორციელე ეს როგორც ახალი აპი webgl-ით და vite-ით Artemis II მისიის რეალური მონაცემების გამოყენებით. დარწმუნდი, რომ აპი საფუძვლიანად არის დატესტილი, სრულად ფუნქციონირებს და სურათზე ნაჩვენებ აპს ჰგავს. განსაკუთრებული ყურადღება მიაქციე პლანეტებისა და ფრენის ტრაექტორიების რენდერინგს. მინდა, რომ 3D რენდერინგთან ინტერაქცია შევძლო. დარწმუნდი, რომ მას რეალისტური ორბიტალური მექანიკა აქვს.
ბენჩმარკებს მიღმაც, ადრეულმა ტესტერებმა თქვეს, რომ GPT‑5.5 უფრო ძლიერად ავლენს სისტემის ფორმის გაგების უნარს: რატომ ფუჭდება რაღაც, სად უნდა დაჯდეს გამოსწორება და კოდურ ბაზაში კიდევ რას შეეხება ეს.

„პირველი კოდირების მოდელი, რომელიც გამომიყენებია და რომელსაც სერიოზული კონცეპტუალური სიცხადე აქვს.“
Dan Shipper-მა, Every-ის დამფუძნებელმა და CEO-მ, GPT‑5.5 აღწერა როგორც „პირველი კოდირების მოდელი, რომელიც გამომიყენებია და რომელსაც სერიოზული კონცეპტუალური სიცხადე აქვს.“
აპის გაშვების შემდეგ მან რამდენიმე დღე დახარჯა გაშვებისშემდგომი პრობლემის გამართვაში, სანამ სისტემის ნაწილის გადასაწერად ერთ-ერთ თავის საუკეთესო ინჟინერს მოიყვანდნენ. GPT‑5.5‑ის შესამოწმებლად მან, ფაქტობრივად, დრო უკან დაახვია: შეძლებდა თუ არა მოდელი დაზიანებული მდგომარეობის ნახვას და ისეთი გადაწერის შეთავაზებას, როგორიც ინჟინერმა საბოლოოდ აირჩია? GPT‑5.4‑ს არ შეეძლო. GPT‑5.5‑ს — შეეძლო.

„მართლა ისეთი შეგრძნებაა, თითქოს უფრო მაღალ ინტელექტთან ვმუშაობდე, და თითქმის პატივისცემის განცდაც ჩნდება.“
Pietro Schirano-მ, MagicPath-ის CEO-მ, მსგავსი ხარისხობრივი ნახტომი დაინახა, როდესაც GPT‑5.5‑მა ასობით frontend და refactor ცვლილების მქონე branch შეაერთა main branch-ში, რომელიც თავადაც მნიშვნელოვნად იყო შეცვლილი, და სამუშაო ერთ მცდელობაში დაახლოებით 20 წუთში გადაჭრა.
უფროსმა ინჟინრებმა, რომლებმაც მოდელი გამოსცადეს, თქვეს, რომ GPT‑5.5 შესამჩნევად სჯობდა GPT‑5.4‑სა და Claude Opus 4.7-ს მსჯელობასა და ავტონომიურობაში, პრობლემების წინასწარ შემჩნევაში და ტესტირებისა და რევიუს საჭიროებების წინასწარ პროგნოზირებაში აშკარა მოთხოვნის გარეშეც კი. ერთ შემთხვევაში, ინჟინერმა მას სთხოვა თანამშრომლობითი markdown რედაქტორის კომენტარების სისტემის ხელახალი არქიტექტურა და დაბრუნდა თითქმის დასრულებულ 12-diff stack-თან. სხვებმა თქვეს, რომ იმპლემენტაციის გასწორება გასაკვირად ცოტად სჭირდებოდათ და GPT‑5.5‑ის გეგმებში უფრო მეტად დარწმუნებულები იყვნენ, ვიდრე GPT‑5.4‑ის შემთხვევაში.
ერთმა NVIDIA-ს ინჟინერმა, რომელსაც მოდელზე ადრეული წვდომა ჰქონდა, ასე შორსაც კი წავიდა: „GPT‑5.5‑ზე წვდომის დაკარგვა ისეთი შეგრძნებაა, თითქოს კიდური მომკვეთეს.“
“GPT-5.5 is noticeably smarter and more persistent than GPT-5.4, with stronger coding performance and more reliable tool use. It stays on task for significantly longer without stopping early, which matters most for the complex, long-running work our users delegate to Cursor.”
იგივე სიძლიერეები, რომლებიც GPT‑5.5‑ს კოდირებაში გამორჩეულს ხდის, მას კომპიუტერზე ყოველდღიური სამუშაოსთვისაც ძლიერ ინსტრუმენტად აქცევს. რადგან მოდელი უკეთ იგებს განზრახვას, მას უფრო ბუნებრივად შეუძლია გაიაროს ცოდნაზე დაფუძნებული სამუშაოს სრული ციკლი: ინფორმაციის მოძიება, მნიშვნელოვნების გაგება, ინსტრუმენტების გამოყენება, შედეგის გადამოწმება და ნედლი მასალის რაიმე სასარგებლოდ გადაქცევა.
Codex-ში GPT‑5.5 GPT‑5.4‑ზე უკეთესია დოკუმენტების, ცხრილებისა და სლაიდ-პრეზენტაციების გენერირებაში. ალფა-ტესტერებმა თქვეს, რომ მან წინა მოდელებს აჯობა ისეთ სამუშაოში, როგორიცაა ოპერაციული კვლევა, ცხრილების მოდელირება და არეული ბიზნეს-ინფუთების გეგმებად ქცევა. როცა ამას Codex-ის კომპიუტერის გამოყენების უნარებიც ერთვის, GPT‑5.5 უფრო გვაახლოებს იმ განცდასთან, რომ მოდელს ნამდვილად შეუძლია კომპიუტერის თქვენთან ერთად გამოყენება: ეკრანზე მიმდინარე პროცესის დანახვა, დაკლიკება, აკრეფა, ინტერფეისებში ნავიგაცია და ინსტრუმენტებს შორის ზუსტად გადაადგილება.
OpenAI-ის გუნდები ამ სიძლიერეებს უკვე რეალურ სამუშაო პროცესებში იყენებენ. დღეს კომპანიის 85%-ზე მეტი ყოველ კვირას იყენებს Codex-ს სხვადასხვა ფუნქციაში, მათ შორის პროგრამულ ინჟინერიაში, ფინანსებში, კომუნიკაციებში, მარკეტინგში, მონაცემთა მეცნიერებასა და პროდუქტის მართვაში. Comms-ში გუნდმა Codex-ში GPT‑5.5 გამოიყენა ექვსთვიანი speaking request მონაცემების გასაანალიზებლად, ქულების და რისკის ჩარჩოს ასაგებად და ავტომატიზებული Slack აგენტის ვალიდაციისთვის, რათა დაბალი რისკის მოთხოვნები ავტომატურად დამუშავდეს, ხოლო მაღალი რისკის მოთხოვნები კვლავ ადამიანურ რევიუზე გადაიგზავნოს. Finance-ში გუნდმა Codex გამოიყენა 24,771 K-1 საგადასახადო ფორმის გადასახედად, ჯამში 71,637 გვერდზე, ისეთი სამუშაო ნაკადით, რომელიც პირად ინფორმაციას გამორიცხავდა და გუნდს ამოცანის დასრულებაში წინა წელთან შედარებით ორი კვირით დააჩქარა. Go-to-Market გუნდში ერთმა თანამშრომელმა ყოველკვირეული ბიზნეს-ანგარიშების გენერირება ავტომატიზდა და კვირაში 5-10 საათი დაზოგა.
ChatGPT‑ში GPT‑5.5 Thinking რთული პრობლემებისთვის უფრო სწრაფ დახმარებას ხსნის, უფრო ჭკვიანი და უფრო მოკლე პასუხებით, რათა რთულ სამუშაოს უფრო ეფექტიანად გაუმკლავდეთ. ის გამორჩეულია პროფესიულ სამუშაოში, როგორიცაა კოდირება, კვლევა, ინფორმაციის სინთეზი და ანალიზი, ასევე დოკუმენტებზე მძიმე ამოცანებში, განსაკუთრებით plugin-ების გამოყენებისას.
GPT‑5.5 Pro-ში ადრეული ტესტერები ხედავენ მნიშვნელოვან წინსვლას როგორც სამუშაოს სირთულეში, ისე ხარისხში, რომლის შესრულებაც ChatGPT‑ს შეუძლია, დაყოვნების გაუმჯობესებით, რაც მას ბევრად უფრო პრაქტიკულს ხდის მომთხოვნი ამოცანებისთვის. GPT‑5.4 Pro-სთან შედარებით, ტესტერებმა GPT‑5.5 Pro-ის პასუხები მნიშვნელოვნად უფრო ყოვლისმომცველი, კარგად სტრუქტურირებული, ზუსტი, რელევანტური და სასარგებლო მიიჩნიეს, განსაკუთრებით ძლიერი შედეგებით ბიზნესში, იურიდიულ სფეროში, განათლებასა და მონაცემთა მეცნიერებაში.
GPT‑5.5 ტექნიკის მოწინავე შედეგს აღწევს მრავალ ბენჩმარკზე, რომლებიც ამ სახის სამუშაოს ასახავს. GDPval-ზე, რომელიც ამოწმებს აგენტების უნარს 44 პროფესიაში კარგად განსაზღვრული ცოდნაზე დაფუძნებული სამუშაო შეასრულონ, GPT‑5.5 იღებს 84.9%-ს. OSWorld-Verified-ზე, რომელიც ზომავს, შეუძლია თუ არა მოდელს რეალური კომპიუტერული გარემოების დამოუკიდებლად მართვა, ის აღწევს 78.7%-ს. ხოლო Tau2-bench Telecom-ზე, რომელიც რთულ მომხმარებელთა მომსახურების სამუშაო ნაკადებს ამოწმებს, ის მოთხოვნის მორგების გარეშე 98.0%-ს აღწევს. GPT‑5.5 ასევე ძლიერ შედეგებს აჩვენებს ცოდნაზე დაფუძნებული სამუშაოს სხვა ბენჩმარკებზეც: 60.0% FinanceAgent-ზე, 88.5% საინვესტიციო ბანკინგის შიდა მოდელირების ამოცანებზე, და 54.1% OfficeQA Pro-ზე.
Tau2-bench Telecom გაშვებული იყო მოთხოვნის მორგების გარეშე (და GPT‑4.1‑ით როგორც მომხმარებლის მოდელით). GPT‑5.5 უკეთ ესმის ამოცანის განზრახვა და თავის წინამორბედებზე უფრო token-ეფექტიანია.
„GPT-5.5 უზრუნველყოფს იმ მდგრად წარმადობას, რომელიც შესრულებაზე ორიენტირებულ სამუშაოს სჭირდება. NVIDIA GB200 NVL72 სისტემებზე აგებული და გაშვებული მოდელი ჩვენს გუნდებს საშუალებას აძლევს, ბუნებრივი ენის მოთხოვნებიდან თავიდან ბოლომდე ფუნქციები გამოაქვეყნონ, გამართვის დრო დღეებიდან საათებამდე შეამცირონ და რთულ კოდის ბაზებში კვირების ექსპერიმენტაცია ერთღამიან პროგრესად აქციონ. ეს უბრალოდ უფრო სწრაფი კოდირება კი არაა — ეს მუშაობის ახალი გზაა, რომელიც ადამიანებს ძირეულად განსხვავებული სიჩქარით მოქმედებაში ეხმარება.“
GPT‑5.5 ასევე აჩვენებს გაუმჯობესებას სამეცნიერო და ტექნიკური კვლევის სამუშაო პროცესებში, რომლებიც რთულ კითხვაზე პასუხის გაცემაზე მეტს მოითხოვს. მკვლევრებს სჭირდებათ იდეის გამოკვლევა, მტკიცებულებების შეგროვება, ვარაუდების შემოწმება, შედეგების ინტერპრეტაცია და იმის გადაწყვეტა, თუ რა უნდა სცადონ შემდეგ. GPT‑5.5 ამ ციკლში სხვა მოდელებზე უკეთ ინარჩუნებს მდგრადობას.
განსაკუთრებით აღსანიშნავია, რომ GPT‑5.5 აშკარად აუმჯობესებს GPT‑5.4‑ს GeneBench(იხსნება ახალ ფანჯარაში)-ზე, ახალ შეფასებაზე, რომელიც გენეტიკასა და რაოდენობრივ ბიოლოგიაში მრავალსაფეხურიან სამეცნიერო მონაცემთა ანალიზზეა ორიენტირებული. ეს პრობლემები მოდელებისგან მოითხოვს მინიმალური ზედამხედველობით იმსჯელონ პოტენციურად ბუნდოვან ან შეცდომების შემცველ მონაცემებზე, გაუმკლავდნენ რეალისტურ დაბრკოლებებს, როგორიცაა დამალული confounder-ები ან QC ჩავარდნები, და სწორად დანერგონ და განმარტონ თანამედროვე სტატისტიკური მეთოდები. მოდელის შედეგი შთამბეჭდავია იმის გათვალისწინებით, რომ ამ ამოცანები ხშირად შეესაბამება სამეცნიერო ექსპერტებისთვის მრავალდღიან პროექტებს.
ასევე, BixBench(იხსნება ახალ ფანჯარაში)-ზე, ბენჩმარკზე, რომელიც რეალური ბიოინფორმატიკისა და მონაცემთა ანალიზის გარშემოა აგებული, GPT‑5.5‑მა წამყვანი შედეგი აჩვენა იმ მოდელებს შორის, რომელთა ქულებიც გამოქვეყნებულია. მოდელის სამეცნიერო შესაძლებლობები ახლა უკვე საკმარისად ძლიერია, რომ ბიოსამედიცინო კვლევის მოწინავე საზღვრებზე პროგრესი რეალურად დააჩქაროს, როგორც ნამდვილი თანამეცნიერი.
სხვა მაგალითში, GPT‑5.5‑ის შიდა ვერსიამ სპეციალური harness-ით დაეხმარა ახალი მტკიცებულების(იხსნება ახალ ფანჯარაში) აღმოჩენაში Ramsey-ის რიცხვებზე — კომბინატორიკის ერთ-ერთ ცენტრალურ ობიექტზე. კომბინატორიკა სწავლობს, როგორ ერთიანდება დისკრეტული ობიექტები: გრაფები, ქსელები, სიმრავლეები და ნიმუშები. Ramsey-ის რიცხვები უხეშად სვამს კითხვას, რამდენად დიდი უნდა იყოს ქსელი, სანამ რაიმე სახის წესრიგის გამოჩენა გარანტირებული გახდება. ამ სფეროში შედეგები იშვიათია და ხშირად ტექნიკურად რთული. აქ GPT‑5.5‑მა იპოვა ხანგრძლივად ცნობილი ასიმპტოტური ფაქტის მტკიცებულება არადიაგონალურ Ramsey-ის რიცხვებზე, რომელიც მოგვიანებით Lean-ში გადამოწმდა. ეს შედეგი GPT‑5.5‑ის მიერ არა მხოლოდ კოდის ან ახსნის, არამედ ძირითადი კვლევითი სფეროსთვის მოულოდნელი და სასარგებლო მათემატიკური არგუმენტის შეტანის კონკრეტული მაგალითია.
ადრეული ტესტერები ChatGPT‑ში GPT‑5.5 Pro-ს ერთმაგალითიან პასუხის ძრავად ნაკლებად, კვლევით პარტნიორად უფრო მეტად იყენებდნენ: მრავალგზის გავლით ხელნაწერების კრიტიკა, ტექნიკური არგუმენტების გამძლეობის შემოწმება, ანალიზების შეთავაზება და კოდთან, ჩანაწერებთან და PDF კონტექსტთან მუშაობა. საერთო ხაზი ისაა, რომ GPT‑5.5 უკეთ ეხმარება მკვლევრებს კითხვიდან ექსპერიმენტამდე და შემდეგ შედეგამდე გადაადგილებაში.
Derya Unutmaz-მა, იმუნოლოგიის პროფესორმა და მკვლევარმა Jackson Laboratory for Genomic Medicine-იდან, GPT‑5.5 Pro გამოიყენა 62 ნიმუშისა და თითქმის 28,000 გენისგან შემდგარი გენების ექსპრესიის მონაცემთა ნაკრების გასაანალიზებლად და მიიღო დეტალური კვლევითი ანგარიში, რომელმაც არა მხოლოდ შედეგები შეაჯამა, არამედ მნიშვნელოვანი კითხვები და ხედვებიც გამოკვეთა — სამუშაო, რომელიც, მისი თქმით, მის გუნდს თვეებს წაართმევდა.
Bartosz Naskręcki-მ, მათემატიკის ასისტენტ-პროფესორმა პოლონეთის პოზნანის Adam Mickiewicz University-ში, Codex-ში GPT‑5.5 გამოიყენა, რათა ერთი მოთხოვნიდან 11 წუთში აეგო ალგებრული გეომეტრიის აპი, რომელიც კვადრატული ზედაპირების კვეთას ვიზუალიზებდა და მიღებულ მრუდს Weierstrass-ის მოდელად გარდაქმნიდა.
შემდეგ მან აპი უფრო სტაბილური სინგულარობის ვიზუალიზაციით და ზუსტი კოეფიციენტებით გააფართოვა, რომელთა ხელახლა გამოყენებაც შემდგომ სამუშაოში შეიძლება. მისთვის უფრო დიდი ცვლილება ისაა, რომ Codex-ს ახლა შეუძლია დაეხმაროს მორგებული მათემატიკური ვიზუალიზაციისა და კომპიუტერული ალგებრის workflow-ების იმპლემენტაციაში, რაც ადრე სპეციალიზებულ ხელსაწყოებს მოითხოვდა. ერთად ეს მაგალითები აჩვენებს, როგორ გარდაქმნის GPT‑5.5 ექსპერტის განზრახვას მუშა კვლევით ხელსაწყოებად და ანალიზებად.

კრედიტი: Bartosz Naskręcki(იხსნება ახალ ფანჯარაში)
მოთხოვნა: # ალგებრული გეომეტრიის ზედაპირების კვეთა
შექმენი აპი, რომელიც ხატავს ორ კვადრატულ ზედაპირს და წითლად აფერადებს კვეთის მრუდს. ამის Weierstrass-ის მრუდად გადასაყვანად გამოიყენე გამოთვლითი Riemann-Roch-ის თეორემა.
## მთავარი ფანჯარა
ორი შეფერილი ზედაპირი ოდნავ გამჭვირვალე დაჩრდილვით, მაღალი ხარისხის რენდერინგი, რომლებიც კვეთენ ერთმანეთს წითლად შეფერილი ალგებრული მრუდის გასწვრივ
ბრუნვა მაუსით ორივე მიმართულებით, სრული pinch მექანიზმი ზუმისთვის, haptic დაჭერა პატარა მენიუს საჩვენებლად, სადაც სლაიდერები იქნება თითოეული ზედაპირის კოეფიციენტების შესაცვლელად; ამოცნობა Z-buffor დონით
## მარჯვენა გვერდითი ფანჯარა
მოკლე Weierstrass-ის განტოლება (Q-ზე ან კვადრატული ველის გაფართოებაზე), რომელიც ეფექტური Riemann-Roch-ის თეორემის ფორმულებით პროცესში გამოითვლება
## Ambient რეჟიმი, სადაც ყველა კონტროლი დამალულია და მომხმარებელს შეუძლია ფორმების სილამაზით დატკბეს
## სპეციფიკაცია
აპი ბრაუზერში მუშაობს, მსუბუქი იმპლემენტაციით, უახლესი full stack ბიბლიოთეკებით, პორტატული, განთავსებადი
## დოკუმენტაცია
Git repo, ჟურნალი, გეგმა (Markdown ფაილები)
„OpenAI-ის ახალი GPT-5.5 მოდელის გამოყენება ჩვენს ჰარნესში წარმოუდგენლად შთამაგონებელია: ის მსჯელობს უზარმაზარ ბიოქიმიურ მონაცემთა ნაკრებებზე, რათა ადამიანის მედიკამენტების შედეგები იწინასწარმეტყველოს, და შემდეგ ჩვენს ყველაზე რთულ drug discovery შეფასებებში სიზუსტის მნიშვნელოვან ზრდას აჩვენებს. თუ OpenAI ასე გააგრძელებს, წლის ბოლოსთვის მედიკამენტების აღმოჩენის საფუძვლები შეიცვლება.“
GPT‑5.5‑ის GPT‑5.4‑ის დაყოვნებით სერვინგმა მოგვიწვია ინფერენციის გადაფიქრება როგორც ინტეგრირებული სისტემის, და არა იზოლირებული ოპტიმიზაციების ნაკრების. GPT‑5.5 თანადაპროექტდა, გაწვრთნილ იქნა და ემსახურება NVIDIA GB200 და GB300 NVL72 სისტემებზე. Codex-მა და GPT‑5.5‑მა გადამწყვეტი როლი ითამაშეს იმაში, თუ როგორ მივაღწიეთ ჩვენს შესრულების მიზნებს. Codex დაეხმარა გუნდს იდეიდან ბენჩმარკირებად იმპლემენტაციამდე უფრო სწრაფად მისვლაში, მიდგომების მონახაზში, ექსპერიმენტების გამართვაში და იმ ოპტიმიზაციების გამოვლენაში, რომლებშიც ღრმა ინვესტირება ღირდა. GPT‑5.5 დაეხმარა თვით stack-ში მნიშვნელოვანი გაუმჯობესებების პოვნასა და დანერგვაში. მარტივად რომ ვთქვათ, მოდელმა დაეხმარა იმ ინფრასტრუქტურის გაუმჯობესებას, რომელიც თავად მას ემსახურება.
ერთ-ერთი ასეთი გაუმჯობესება იყო დატვირთვის დაბალანსებისა და დანაწილების ევრისტიკები. GPT‑5.5‑მდე ჩვენ ამაჩქარებელზე მოთხოვნებს ნაწილებად წინასწარ განსაზღვრულ ფიქსირებულ რაოდენობად ვყოფდით, რათა გამოთვლითი ბირთვების შორის მუშაობა დაგვებალანსებინა და დიდი და პატარა მოთხოვნები ერთსა და იმავე GPU-ზე გაშვებულიყო. თუმცა, წინასწარ განსაზღვრული სტატიკური ნაწილების რაოდენობა ყველა ტიპის ტრაფიკისთვის ოპტიმალური არ არის. GPU-ების უკეთ გამოსაყენებლად, Codex-მა გააანალიზა რამდენიმე კვირის წარმოების ტრაფიკის ნიმუშები და დაწერა მორგებული ევრისტიკული ალგორითმები, რათა სამუშაო ოპტიმალურად დაენაწილებინა და დაებალანსებინა. ამ ძალისხმევამ განსაკუთრებით დიდი გავლენა იქონია და token-ების გენერაციის სიჩქარე 20%-ზე მეტით გაზარდა.
მსოფლიოს მომზადება იმ მოდელებისთვის, რომლებიც უსაფრთხოების მოწყვლადობების აღმოჩენასა და გასწორებაში ძალიან ძლიერები არიან, გუნდური სპორტია და მოითხოვს, რომ მთელი ეკოსისტემა აქტიურად მუშაობდეს მდგრადობის ასაშენებლად, მოდელებზე დემოკრატიზებული წვდომითა და განმეორებითი დანერგვით კიბერდაცვის შემდეგი ეპოქისთვის.
მოწინავე მოდელები კიბერუსაფრთხოების სფეროში სულ უფრო შესაძლებლობიანი ხდებიან. ეს შესაძლებლობები ფართოდ გავრცელდება და ჩვენი აზრით, საუკეთესო გზა ისაა, რომ დავრწმუნდეთ — მათი გამოყენება შეიძლება კიბერდაცვის დასაჩქარებლად და ეკოსისტემის გასაძლიერებლად.
GPT‑5.5 მცირე, მაგრამ მნიშვნელოვანი ნაბიჯია იმ AI-ისკენ, რომელსაც შეუძლია მსოფლიოს ზოგიერთი ყველაზე რთული გამოწვევის, მაგალითად კიბერუსაფრთხოების, გადაჭრა. დეკემბერში GPT‑5.2‑ით ჩვენ პროაქტიულად დავნერგეთ აუცილებელი კიბერ-დამცავი მექანიზმები, რათა ჩვენს მოდელებთან პოტენციური კიბერბოროტად გამოყენება შეგვეზღუდა; ახლა კი GPT‑5.5‑ით ვნერგავთ უფრო მკაცრ კლასიფიკატორებს პოტენციური კიბერრისკისთვის, რაც ზოგიერთ მომხმარებელს თავიდან შესაძლოა გამაღიზიანებლად მოეჩვენოს, სანამ დროთა განმავლობაში მათ დავაზუსტებთ.
კიბერუსაფრთხოება წლების განმავლობაში ჩვენს მზაობის ჩარჩოში(იხსნება ახალ ფანჯარაში) კატეგორიად გვაქვს განსაზღვრული, რადგან ჩვენი მოდელები თანდათან უმჯობესდებოდა, ხოლო ჩვენ ეტაპობრივად ვამუშავებდით და ვაკალიბრირებდით შემამსუბუქებელ ზომებს, რათა პასუხისმგებლობით შეგვეძლოს ისეთი მოდელების გამოშვება, რომლებსაც მნიშვნელოვანი კიბერუსაფრთხოების შესაძლებლობები აქვთ.
- ჩვენ ვნერგავთ ინდუსტრიაში წამყვან დამცავ მექანიზმებს კიბერშესაძლებლობების ამ დონისთვის. კიბერზე სპეციფიკური დამცავი მექანიზმები პირველად შარშან GPT‑5.2(იხსნება ახალ ფანჯარაში)-თან ერთად წარვადგინეთ და შემდგომ დანერგვებში მათ ტესტირებას, დახვეწასა და განვითარებას ვაგრძელებდით. GPT‑5.5‑ისთვის ჩვენ შევქმენით უფრო მკაცრი კონტროლი მაღალი რისკის აქტივობაზე, მგრძნობიარე კიბერმოთხოვნებზე და დავამატეთ დაცვა განმეორებითი ბოროტად გამოყენებისგან. ფართო წვდომა შესაძლებელი ხდება ჩვენი ინვესტიციების წყალობით მოდელის უსაფრთხოებაში, ავთენტიფიცირებულ გამოყენებაში და დაუშვებელი გამოყენების მონიტორინგში. ამ დამცავი მექანიზმების მდგრადობის განვითარებისთვის, ტესტირებისა და იტერაციისთვის თვეების განმავლობაში ვმუშაობდით გარე ექსპერტებთან. GPT‑5.5‑ით ჩვენ უზრუნველვყოფთ, რომ დეველოპერებს კოდის დაცვა მარტივად შეეძლოთ, და ამავე დროს ვაწესებთ უფრო ძლიერ კონტროლს იმ კიბერ-ნაკადებზე, რომლებიც ბოროტი აქტორების მხრიდან ზიანის მიყენების ყველაზე მაღალი ალბათობით ხასიათდება.
- ჩვენ ვაფართოებთ წვდომას, რათა კიბერდაცვა ყველა დონეზე დავაჩქაროთ. ჩვენ ვხსნით ჩვენს კიბერ-ნებადართულ მოდელებს Trusted Access for Cyber-ის მეშვეობით, დაწყებით Codex-ით, რაც GPT‑5.5‑ის მოწინავე კიბერუსაფრთხოების შესაძლებლობებზე გაფართოებულ წვდომას მოიცავს შედარებით ნაკლები შეზღუდვებით იმ დადასტურებული მომხმარებლებისთვის, რომლებიც გაშვებისას გარკვეულ ნდობის სიგნალებს(იხსნება ახალ ფანჯარაში) აკმაყოფილებენ. ორგანიზაციებს, რომლებიც პასუხისმგებელნი არიან კრიტიკული ინფრასტრუქტურის დაცვაზე, შეუძლიათ განაცხადი შეიტანონ GPT‑5.4‑Cyber‑ის მსგავსი კიბერ-ნებადართული მოდელების გამოყენებაზე, მკაცრი უსაფრთხოების მოთხოვნების დაცვით, რათა ეს მოდელები საკუთარი შიდა სისტემების დასაცავად გამოიყენონ. ეს დამოწმებული დამცველების ფართო სპექტრს აძლევს უფრო შესაძლებლობიან ინსტრუმენტებს ლეგიტიმური უსაფრთხოების სამუშაოსთვის ნაკლები ზედმეტი დაბრკოლებით, რათა მნიშვნელოვანი თავდაცვითი შესაძლებლობებზე წვდომა დემოკრატიზებული იყოს. მომხმარებლებს შეუძლიათ სანდო წვდომისთვის მიმართონ chatgpt.com/cyber(იხსნება ახალ ფანჯარაში)-ზე, რათა GPT‑5.5‑ის გამოყენებისას დადასტურებული თავდაცვითი სამუშაოსთვის ზედმეტი უარები შემცირდეს.
- ჩვენ ვმუშაობთ სამთავრობო პარტნიორებთან, რათა კრიტიკული ინფრასტრუქტურა საზოგადოების სასარგებლოდ დავიცვათ. ერთად ვიკვლევთ, როგორ შეიძლება მოწინავე AI-მა მხარი დაუჭიროს იმ სანდო ოფიციალური პირების თავდაცვით საქმიანობას, რომლებიც პასუხისმგებელნი არიან იმ სისტემებზე, რომლებზეც ადამიანები არიან დამოკიდებული — დაწყებული მნიშვნელოვანი საგადასახადო მონაცემების დამცავი ციფრული სისტემებიდან, დამთავრებული ელექტროგადამცემი ქსელითა და ადგილობრივი თემების წყალმომარაგებით.
ჩვენ GPT‑5.5‑ის ბიოლოგიურ/ქიმიურ და კიბერუსაფრთხოების შესაძლებლობებს ჩვენს მზაობის ჩარჩოს(იხსნება ახალ ფანჯარაში) მიხედვით High დონედ ვაფასებთ. მიუხედავად იმისა, რომ GPT‑5.5‑მა კიბერუსაფრთხოების Critical შესაძლებლობის დონეს ვერ მიაღწია, ჩვენმა შეფასებებმა და ტესტირებამ აჩვენა, რომ მისი კიბერუსაფრთხოების შესაძლებლობები GPT‑5.4‑თან შედარებით წინგადადგმული ნაბიჯია.
გარდა ამისა, GPT‑5.5‑მა გამოშვებამდე გაიარა ჩვენი უსაფრთხოებისა და მმართველობის სრული პროცესი, მათ შორის მზაობის შეფასებები, სფეროს სპეციფიკური ტესტირება, ახალი მიზნობრივი შეფასებები მოწინავე ბიოლოგიური და კიბერუსაფრთხოების შესაძლებლობებისთვის და ძლიერი ტესტირება გარე ექსპერტებთან. მეტ დეტალს ვიზიარებთ GPT‑5.5‑ის სისტემურ ბარათში(იხსნება ახალ ფანჯარაში).
ეს მუშაობა ასახავს ჩვენს უფრო ფართო მიდგომას AI მდგრადობის მიმართ, რომელიც, ჩვენი აზრით, საჭიროა მოდელების შესაძლებლობების წინსვლასთან ერთად. ჩვენ გვსურს, რომ ძლიერი AI ხელმისაწვდომი იყოს იმ ადამიანებისთვის, რომლებიც მას სისტემების, ინსტიტუტებისა და საზოგადოების დასაცავად იყენებენ. სიცოცხლისუნარიანი გზა არის სანდო წვდომა, ძლიერი დამცავი მექანიზმები, რომლებიც შესაძლებლობებთან ერთად მასშტაბირდება, და ოპერაციული უნარი სერიოზული ბოროტად გამოყენების აღმოჩენისა და მასზე რეაგირებისთვის.
დღეიდან GPT‑5.5 ხელმისაწვდომდება ChatGPT‑სა და Codex-ში Plus, Pro, Business და Enterprise მომხმარებლებისთვის, ხოლო GPT‑5.5 Pro ხელმისაწვდომდება ChatGPT‑ში Pro, Business და Enterprise მომხმარებლებისთვის. ძალიან მალე GPT‑5.5‑სა და GPT‑5.5 Pro-ს API-შიც შემოვიტანთ.
ChatGPT‑ში GPT‑5.5 Thinking ხელმისაწვდომია Plus, Pro, Business და Enterprise მომხმარებლებისთვის. GPT‑5.5 Pro, რომელიც კიდევ უფრო რთული კითხვებისა და უფრო მაღალი სიზუსტის სამუშაოსთვისაა შექმნილი, ხელმისაწვდომია Pro, Business და Enterprise მომხმარებლებისთვის.
Codex-ში GPT‑5.5 ხელმისაწვდომია Plus, Pro, Business, Enterprise, Edu და Go გეგმებისთვის 400K კონტექსტური ფანჯრით. GPT‑5.5 ასევე ხელმისაწვდომია Fast რეჟიმში და token-ებს 1.5-ჯერ უფრო სწრაფად გენერირებს 2.5-ჯერ მეტი ფასის სანაცვლოდ.
API დეველოპერებისთვის gpt-5.5 მალე ხელმისაწვდომი იქნება Responses და ჩატის დასრულების API-ებში, ფასით $5 თითო 1M შემავალ token-ზე და $30 თითო 1M გამავალ token-ზე, 1M კონტექსტური ფანჯრით. Batch და Flex ფასები ხელმისაწვდომია სტანდარტული API ტარიფის ნახევარ ფასად, ხოლო Priority დამუშავება — სტანდარტულ ტარიფზე 2.5-ჯერ უფრო მაღალ ფასად. ჩვენ ასევე API-ში გამოვუშვებთ gpt-5.5-pro-ს კიდევ უფრო მაღალი სიზუსტისთვის, ფასით $30 თითო 1M შემავალ token-ზე და $180 თითო 1M გამავალ token-ზე. სრული დეტალებისთვის იხილეთ ფასების გვერდი.
მიუხედავად იმისა, რომ GPT‑5.5 GPT‑5.4‑ზე უფრო მაღალი ფასით არის წარმოდგენილი, ის ერთდროულად უფრო ინტელექტუალური და გაცილებით უფრო token-ეფექტიანია. Codex-ში ჩვენ გამოცდილება ფრთხილად მოვარგეთ ისე, რომ GPT‑5.5 მომხმარებლების უმეტესობისთვის GPT‑5.4‑ზე უკეთეს შედეგს ნაკლები token-ით იძლეოდეს და ამავე დროს გამოწერის დონეების მიხედვით გულუხვ გამოყენებას მაინც ინარჩუნებდეს.
კოდირება
შეფასება | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
SWE-Bench Pro (საჯარო) * | 58.6% | 57.7% | - | - | 64.3% | 54.2% |
Terminal-Bench 2.0 | 82.7% | 75.1% | - | - | 69.4% | 68.5% |
Expert-SWE (შიდა) | 73.1% | 68.5% | - | - | - | - |
*ლაბორატორიებმა ამ შეფასებაზე დამახსოვრების ნიშნები(იხსნება ახალ ფანჯარაში) აღნიშნეს
პროფესიული
შეფასება | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
GDPval (მოგებები ან ფრეები) | 84.9% | 83.0% | 82.3% | 82.0% | 80.3% | 67.3% |
FinanceAgent v1.1 | 60.0% | 56.0% | - | 61.5% | 64.4% | 59.7% |
Investment Banking Modeling Tasks (შიდა) | 88.5% | 87.3% | 88.6% | 83.6% | - | - |
OfficeQA Pro | 54.1% | 53.2% | - | - | 43.6% | 18.1% |
კომპიუტერის გამოყენება და ხედვა
შეფასება | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
OSWorld-Verified | 78.7% | 75.0% | - | - | 78.0% | - |
MMMU Pro (ინსტრუმენტების გარეშე) | 81.2% | 81.2% | - | - | - | 80.5% |
MMMU Pro (ინსტრუმენტებით) | 83.2% | 82.1% | - | - | - | - |
ინსტრუმენტების გამოყენება
შეფასება | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
BrowseComp | 84.4% | 82.7% | 90.1% | 89.3% | 79.3% | 85.9% |
MCP Atlas** | 75.3% | 70.6% | - | - | 79.1% | 78.2% |
Toolathlon | 55.6% | 54.6% | - | - | - | 48.8% |
Tau2-bench Telecom*** | 98.0% | 92.8% | - | - | - | - |
** MCP Atlas: Scale AI-ის შედეგები 2026 წლის აპრილის ბოლო განახლების შემდეგ.
*** Tau2-bench telecom: 5.5-ისა და 5.4-ის შედეგები ორიგინალური მოთხოვნებით, ანუ მოთხოვნის კორექტირების გარეშე. ეს გამოტოვებს სხვა ლაბორატორიების შედეგებს, რომლებიც მოთხოვნის კორექტირებით შეფასდა.
აკადემიური
შეფასება | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
GeneBench | 25.0% | 19.0% | 33.2% | 25.6% | - | - |
FrontierMath Tier 1–3 | 51.7% | 47.6% | 52.4% | 50.0% | 43.8% | 36.9% |
FrontierMath Tier 4 | 35.4% | 27.1% | 39.6% | 38.0% | 22.9% | 16.7% |
BixBench | 80.5% | 74.0% | - | - | - | - |
GPQA Diamond | 93.6% | 92.8% | - | 94.4% | 94.2% | 94.3% |
Humanity's Last Exam (ინსტრუმენტების გარეშე) | 41.4% | 39.8% | 43.1% | 42.7% | 46.9% | 44.4% |
Humanity's Last Exam (ინსტრუმენტებით) | 52.2% | 52.1% | 57.2% | 58.7% | 54.7% | 51.4% |
კიბერუსაფრთხოება
შეფასება | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
Capture-the-Flags challenge tasks (შიდა)**** | 88.1% | 83.7% | - | - | - | - |
CyberGym | 81.8% | 79.0% | - | - | 73.1% | - |
**** სისტემურ ბარათებში გამოყენებული ყველაზე რთული CTF-ების გაფართოება დამატებითი რთული გამოწვევებით.
გრძელი კონტექსტი
შეფასება | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
Graphwalks BFS 256k f1 | 73.7% | 62.5% | - | - | 76.9% | - |
Graphwalks BFS 1მლნ f1 | 45.4% | 9.4% | - | - | 41.2% (Opus 4.6) | - |
Graphwalks parents 256k f1 | 90.1% | 82.8% | - | - | 93.6% | - |
Graphwalks parents 1მლნ f1 | 58.5% | 44.4% | - | - | 72.0% (Opus 4.6) | - |
OpenAI MRCR v2 8-needle 4K-8K | 98.1% | 97.3% | - | - | - | - |
OpenAI MRCR v2 8-needle 8K-16K | 93.0% | 91.4% | - | - | - | - |
OpenAI MRCR v2 8-needle 16K-32K | 96.5% | 97.2% | - | - | - | - |
OpenAI MRCR v2 8-needle 32K-64K | 90.0% | 90.5% | - | - | - | - |
OpenAI MRCR v2 8-needle 64K-128K | 83.1% | 86.0% | - | - | - | - |
OpenAI MRCR v2 8-needle 128K-256K | 87.5% | 79.3% | - | - | 59.2% | - |
OpenAI MRCR v2 8-needle 256K-512K | 81.5% | 57.5% | - | - | - | - |
OpenAI MRCR v2 8-needle 512K-1M | 74.0% | 36.6% | - | - | 32.2% | - |
აბსტრაქტული მსჯელობა
შეფასება | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
ARC-AGI-1 (დადასტურებული) | 95.0% | 93.7% | - | 94.5% | 93.5% | 98.0% |
ARC-AGI-2 (დადასტურებული) | 85.0% | 73.3% | - | 83.3% | 75.8% | 77.1% |
GPT‑ის შეფასებები ჩატარდა xhigh-ზე დაყენებული მსჯელობის ძალისხმევით და კვლევით გარემოში, რაც ზოგ შემთხვევაში შეიძლება ოდნავ განსხვავებულ შედეგს იძლეოდეს წარმოებით ChatGPT‑სთან შედარებით.








