წარმოგიდგენთ GPT‑5.1‑Codex‑Max‑ს, ჩვენს ახალ მოწინავე აგენტურ კოდირების მოდელს, რომელიც დღეს უკვე ხელმისაწვდომია Codex-ში. GPT‑5.1‑Codex‑Max აგებულია ჩვენი ფუნდამენტური მსჯელობის მოდელის განახლებაზე, რომელიც გაწვრთნილია აგენტურ ამოცანებზე პროგრამული ინჟინერიის, მათემატიკის, კვლევის და სხვა მიმართულებებით. GPT‑5.1‑Codex‑Max უფრო სწრაფია, უფრო ინტელექტუალურია და განვითარების ციკლის ყველა ეტაპზე უფრო ეფექტურად იყენებს token-ებს — და ეს ახალი ნაბიჯია საიმედო კოდირების პარტნიორისკენ.
GPT‑5.1‑Codex‑Max შექმნილია ხანგრძლივი და დეტალური სამუშაოსთვის. ეს არის ჩვენი პირველი მოდელი, რომელიც ბუნებრივად გაწვრთნილია მრავალ კონტექსტურ ფანჯარაში სამუშაოდ პროცესით, რომელსაც compaction ეწოდება, და შეუძლია ერთ ამოცანაში თანმიმდევრულად იმუშაოს მილიონობით token-ზე. ეს შესაძლებელს ხდის პროექტის მასშტაბის რეფაქტორინგს, ღრმა დებაგინგის სესიებს და მრავალსაათიან აგენტურ ციკლებს.
GPT‑5.1‑Codex‑Max დღესვე ხელმისაწვდომია Codex-ში CLI-ში, IDE გაფართოებაში, cloud-ში და კოდის მიმოხილვაში გამოსაყენებლად, ხოლო API წვდომა მალე დაემატება.
GPT‑5.1‑Codex‑Max გაწვრთნილია რეალურ პროგრამული ინჟინერიის ამოცანებზე, როგორიცაა PR-ის შექმნა, კოდის მიმოხილვა, ფრონტენდ კოდირება და კითხვა-პასუხი, და მრავალ მოწინავე კოდირების შეფასებაში ჩვენს წინა მოდელებს აჭარბებს. benchmark-ებში მიღებულ გაუმჯობესებებს თან ახლავს რეალურ გამოყენებაში მიღწეული პროგრესიც: GPT‑5.1‑Codex‑Max არის პირველი მოდელი, რომელიც Windows გარემოში სამუშაოდ გავწვრთენით, ხოლო მოდელის სწავლება ახლა ასევე მოიცავს ამოცანებს, რომლებიც მას Codex CLI-ში უკეთეს თანამშრომლად აქცევს.
* ყველა შეფასება შესრულდა compaction-ის ჩართულობით Extra High მსჯელობის ძალისხმევაზე
* Terminal-Bench2.0 გაეშვა Codex CLI-ით Laude Institute Harbor harness(იხსნება ახალ ფანჯარაში)-ში
GPT‑5.1‑Codex‑Max აჩვენებს token-ის ეფექტიანობის მნიშვნელოვან გაუმჯობესებას უფრო ეფექტური მსჯელობის წყალობით. SWE-bench Verified-ზე, ‘medium’ მსჯელობის ძალისხმევით GPT‑5.1‑Codex‑Max უკეთეს შედეგს აღწევს, ვიდრე GPT‑5.1‑Codex იგივე მსჯელობის ძალისხმევით, და ამასთან 30%-ით ნაკლებ აზროვნების token-ს იყენებს. ამოცანებისთვის, სადაც დაყოვნებისადმი მგრძნობელობა დაბალია, ასევე წარმოგიდგენთ ახალ Extra High (‘xhigh’) მსჯელობის ძალისხმევას, რომელიც უკეთესი პასუხისთვის კიდევ უფრო დიდხანს ფიქრობს. მაინც, ყოველდღიური გამოყენებისთვის ამოცანების უმეტესობაში კვლავ medium-ს ვურჩევთ.
ველით, რომ token-ის ეფექტიანობის გაუმჯობესება დეველოპერებისთვის რეალურ დანაზოგად გადაიქცევა.
მაგალითად, GPT‑5.1‑Codex‑Max‑ს შეუძლია შექმნას მაღალი ხარისხის ფრონტენდ დიზაინები მსგავსი ფუნქციონალითა და ესთეტიკით, მაგრამ GPT‑5.1‑Codex‑თან შედარებით ბევრად დაბალ ფასად.
მოთხოვნა: შექმენი ერთი თვითკმარი ბრაუზერის აპი, რომელიც აჩვენებს ინტერაქტიულ CartPole RL sandbox-ს canvas გრაფიკით, მცირე policy-gradient კონტროლერით, მეტრიკებით და SVG ქსელის ვიზუალიზატორით.
ფუნქციები
უნდა შეეძლოს რეალურად გაწვრთნას policy, რათა მოდელი cart pole-ში უკეთესი გახდესვიზუალიზატორი აქტივაციებისთვის/წონებისთვის, როცა მოდელი სწავლობს ან inference-ზეანაბიჯები ეპიზოდში, ჯილდოები ამ ეპიზოდშიბოლო გადარჩენის დრო და საუკეთესო გადარჩენის დრო ნაბიჯებში
შეინახე index.html-ში
Compaction GPT‑5.1‑Codex‑Max‑ს საშუალებას აძლევს დაასრულოს ამოცანები, რომლებიც ადრე კონტექსტური ფანჯრის შეზღუდვების გამო წარუმატებელი იქნებოდა, მაგალითად რთული რეფაქტორინგები და ხანგრძლივი აგენტური ციკლები, რადგან ის საკუთარ ისტორიას ამცირებს და ამასთან დიდ დროში ყველაზე მნიშვნელოვან კონტექსტს ინარჩუნებს. Codex-ის აპლიკაციებში GPT‑5.1‑Codex‑Max ავტომატურად აკუმშავს თავის სესიას, როდესაც კონტექსტური ფანჯრის ზღვარს უახლოვდება, რითაც ახალ კონტექსტურ ფანჯარას იღებს. ის ამ პროცესს იმეორებს, სანამ ამოცანა არ დასრულდება.
ხანგრძლივ პერიოდში თანმიმდევრული მუშაობის შენარჩუნების უნარი ფუნდამენტური შესაძლებლობაა უფრო ზოგადი და საიმედო AI სისტემებისკენ მიმავალ გზაზე. GPT‑5.1‑Codex‑Max‑ს შეუძლია დამოუკიდებლად საათების განმავლობაში იმუშაოს. ჩვენს შიდა შეფასებებში გვინახავს, რომ GPT‑5.1‑Codex‑Max ამოცანებზე 24 საათზე მეტხანს მუშაობდა. ის დაჟინებით აუმჯობესებს თავის იმპლემენტაციას, ასწორებს ტესტების ჩავარდნებს და საბოლოოდ წარმატებულ შედეგს იძლევა.
ამ მაგალითში GPT‑5.1‑Codex‑Max დამოუკიდებლად ახორციელებს Codex CLI-ის ღია კოდის რეპოზიტორიუმის რეფაქტორინგს.
როცა სესიის სიგრძე მოდელის კონტექსტური ფანჯრის ზღვარს უახლოვდება, ის სესიას ავტომატურად აკუმშავს, რათა ადგილი გაათავისუფლოს და ამოცანის შესრულება პროგრესის დაკარგვის გარეშე გააგრძელოს.
ვიდეო სიცხადისთვის შემოკლებული და აჩქარებულია.
GPT‑5.1‑Codex‑Max მნიშვნელოვნად უკეთესად ასრულებს შეფასებებს, რომლებიც მოითხოვს ხანგრძლივ, გრძელჰორიზონტიან მსჯელობას. რადგან მას შეუძლია compaction-ის გამოყენებით მრავალ კონტექსტურ ფანჯარაში თანმიმდევრულად იმუშაოს, მოდელი უკეთეს შედეგებს იძლევა ისეთ გამოწვევებში, როგორიცაა გრძელჰორიზონტიანი კოდირება და კიბერუსაფრთხოება. ამ მოდელის შედეგები პირველ და მესამე მხარის შეფასებებზე გავაანალიზეთ GPT‑5.1‑Codex‑Max‑ის სისტემურ ბარათში.
GPT‑5.1‑Codex‑Max არ აღწევს მაღალ შესაძლებლობას კიბერუსაფრთხოებაში ჩვენი მზაობის ჩარჩოს მიხედვით, მაგრამ ეს არის დღემდე ჩვენ მიერ დანერგილი ყველაზე ძლიერი კიბერუსაფრთხოების მოდელი და აგენტური კიბერუსაფრთხოების შესაძლებლობები სწრაფად ვითარდება. შედეგად, ჩვენ ვდგამთ ნაბიჯებს კიბერუსაფრთხოებაში მაღალი შესაძლებლობისთვის მოსამზადებლად, ვაძლიერებთ ჩვენს დამცავ მექანიზმებს კიბერ სფეროში და ვმუშაობთ იმის უზრუნველსაყოფად, რომ დამცველებმაც ისარგებლონ ამ გაუმჯობესებული შესაძლებლობებით ისეთი პროგრამების მეშვეობით, როგორიცაა Aardvark.
როდესაც GPT‑5‑Codex გამოვუშვით, დავნერგეთ სპეციალური კიბერუსაფრთხოებაზე ორიენტირებული მონიტორინგი, რათა აღმოგვეჩინა და შეგვეჩერებინა მავნე აქტივობა. მიუხედავად იმისა, რომ მასშტაბურ ბოროტად გამოყენებაში მნიშვნელოვანი ზრდა არ გვინახავს, მოწინავე შესაძლებლობებისთვის დამატებით შემამსუბუქებელ ზომებს ვამზადებთ. ჩვენმა გუნდებმა უკვე შეაჩერეს კიბეროპერაციები, რომლებიც ჩვენი მოდელების ბოროტად გამოყენებას ცდილობდნენ, ხოლო საეჭვო აქტივობა ჩვენი პოლიტიკის მონიტორინგის სისტემებით გადამისამართდება შესამოწმებლად.
Codex სტანდარტულად შექმნილია უსაფრთხო sandbox-ში გასაშვებად: ფაილებში ჩაწერა მისი სამუშაო სივრცით არის შეზღუდული, ხოლო ქსელზე წვდომა გამორთულია, თუ დეველოპერი მას არ ჩართავს. გირჩევთ, Codex ამ შეზღუდული წვდომის რეჟიმში შეინარჩუნოთ, რადგან ინტერნეტის ან ვებ ძიების ჩართვამ შეიძლება არასანდო კონტენტისგან მომდინარე prompt-injection რისკები შემოიტანოს.
რადგან Codex სულ უფრო უკეთ ასრულებს ხანგრძლივ ამოცანებს, დეველოპერებისთვის სულ უფრო მნიშვნელოვანი ხდება აგენტის სამუშაოს გადამოწმება ცვლილებების შეტანამდე ან production-ში გაშვებამდე. ამის მხარდასაჭერად, Codex ქმნის ტერმინალის ლოგებს და უთითებს თავის ინსტრუმენტის გამოძახებებსა და ტესტის შედეგებს. მიუხედავად იმისა, რომ მისი კოდის მიმოხილვები ამცირებს production-ში მოდელის ან ადამიანის მიერ შექმნილი ბაგების გაშვების რისკს, Codex უნდა განიხილებოდეს დამატებით რევიუერად და არა ადამიანური მიმოხილვების შემცვლელად.
კიბერუსაფრთხოების შესაძლებლობები შეიძლება გამოყენებულ იქნას როგორც თავდაცვისთვის, ისე შეტევისთვის, ამიტომ ვიყენებთ დანერგვის იტერაციულ მიდგომას: ვსწავლობთ რეალურ გამოყენებას, ვაახლებთ დამცავ მექანიზმებს და ვინარჩუნებთ მნიშვნელოვან თავდაცვით ინსტრუმენტებს, როგორიცაა მოწყვლადობების ავტომატური სკანირება და გამოსწორების დახმარება.
GPT‑5.1‑Codex‑Max ხელმისაწვდომია Codex-ში ChatGPT Plus, Pro, Business, Edu და Enterprise გეგმებით. დეტალებისთვის, თუ როგორ მუშაობს გამოყენების ლიმიტები თქვენს გეგმაში, იხილეთ ჩვენი დოკუმენტაცია(იხსნება ახალ ფანჯარაში).
დეველოპერებისთვის, რომლებიც Codex CLI-ს API გასაღებით იყენებენ, ვგეგმავთ GPT‑5.1‑Codex‑Max მალე API-შიც გავხადოთ ხელმისაწვდომი.
დღეიდან GPT‑5.1‑Codex‑Max ჩაანაცვლებს GPT‑5.1‑Codex‑ს, როგორც ნაგულისხმევ მოდელს Codex-ის ზედაპირებზე. GPT‑5.1-ისგან განსხვავებით, რომელიც ზოგადი დანიშნულების მოდელია, გირჩევთ GPT‑5.1‑Codex‑Max და Codex-ის მოდელების ოჯახი გამოიყენოთ მხოლოდ აგენტური კოდირების ამოცანებისთვის Codex-ში ან Codex-ის მსგავს გარემოებში.
GPT‑5.1‑Codex‑Max აჩვენებს, რამდენად წინ წავიდნენ მოდელები გრძელჰორიზონტიანი კოდირების ამოცანების შენარჩუნებაში, რთული სამუშაო ნაკადების მართვაში და მაღალი ხარისხის იმპლემენტაციების ბევრად ნაკლები token-ით წარმოებაში. ვნახეთ, რომ მოდელის შერწყმამ ჩვენს CLI-ის, IDE გაფართოების, cloud ინტეგრაციისა და კოდის მიმოხილვის ხელსაწყოების თანმიმდევრულ განახლებებთან საინჟინრო პროდუქტიულობა მნიშვნელოვნად გაზარდა: შიდა მონაცემებით, OpenAI-ის ინჟინრების 95% Codex-ს ყოველკვირეულად იყენებს და ამ ინჟინრებს Codex-ის დანერგვის შემდეგ დაახლოებით 70%-ით მეტი შერწყმის მოთხოვნა გააქვთ. როცა აგენტების შესაძლებლობების მოწინავე ზღვარს ვაფართოებთ, მოუთმენლად ველით, რას შექმნით მათით.
GPT‑5.1‑Codex (high) | GPT‑5.1‑Codex‑Max (xhigh) | |
SWE-bench Verified (n=500) | 73.7% | 77.9% |
SWE-Lancer IC SWE | 66.3% | 79.9% |
Terminal-Bench 2.0 | 52.8% | 58.1% |


