GPT‑5.1 დეველოპერებისთვის — გაცნობა
დღეს API პლატფორმაზე ვუშვებთ GPT‑5.1‑ს — GPT‑5 სერიის შემდეგ მოდელს, რომელიც ინტელექტსა და სიჩქარეს აბალანსებს აგენტური და კოდირების ამოცანების ფართო სპექტრისთვის. GPT‑5.1 დინამიკურად ეგუება, რამდენ დროს ხარჯავს ფიქრზე, ამოცანის სირთულის მიხედვით, რის შედეგადაც მოდელი მნიშვნელოვნად უფრო სწრაფი და token-ების მხრივ უფრო ეფექტიანია უფრო მარტივ ყოველდღიურ ამოცანებზე. მოდელს ასევე აქვს „მსჯელობის გარეშე“ რეჟიმი, რათა უფრო სწრაფად უპასუხოს ამოცანებს, რომლებსაც ღრმა ფიქრი არ სჭირდება, და ამავე დროს შეინარჩუნოს GPT‑5.1‑ის მოწინავე ინტელექტი.
იმისთვის, რომ GPT‑5.1 კიდევ უფრო ეფექტიანი გავხადოთ, ვუშვებთ მოთხოვნის გაფართოებულ ქეშირებას 24 საათამდე ქეშის შენარჩუნებით, რაც შემდგომ კითხვებზე უფრო სწრაფ პასუხებს უზრუნველყოფს უფრო დაბალ ფასად. ჩვენი Priority Processing(იხსნება ახალ ფანჯარაში) მომხმარებლებიც GPT‑5‑თან შედარებით GPT‑5.1‑ზე საგრძნობლად უფრო სწრაფ წარმადობას მიიღებენ.
კოდირების მხრივ, ჩვენ მჭიდროდ ვითანამშრომლეთ სტარტაპებთან, როგორიცაა Cursor, Cognition, Augment Code, Factory და Warp, რათა GPT‑5.1‑ის კოდირების პიროვნება, მართვადობა და კოდის ხარისხი გაგვეუმჯობესებინა. ზოგადად, GPT‑5.1 კოდირებისთვის უფრო ინტუიციური გამოსაყენებელია და ამოცანების შესრულებისას მომხმარებლისთვის განკუთვნილი განახლებებით უფრო კომუნიკაბელურია.
დასასრულ, GPT‑5.1‑თან ერთად წარმოგიდგენთ ორ ახალ ინსტრუმენტს: apply_patch ინსტრუმენტს, რომელიც შექმნილია კოდის უფრო საიმედოდ რედაქტირებისთვის, და shell ინსტრუმენტს, რომელიც მოდელს shell ბრძანებების გაშვების საშუალებას აძლევს.
GPT‑5.1 GPT‑5 სერიის შემდეგი წინსვლაა და ვგეგმავთ, განვაგრძოთ ინვესტირება უფრო ჭკვიან და უფრო შესაძლებლობიან მოდელებში, რათა დეველოპერებს საიმედო აგენტური სამუშაო ნაკადების შექმნაში დავეხმაროთ.
იმისთვის, რომ GPT‑5.1 უფრო სწრაფი გამხდარიყო, საფუძვლიანად გადავამუშავეთ, როგორ ვავარჯიშებდით მას ფიქრში. პირდაპირ ამოცანებზე GPT‑5.1 ფიქრზე ნაკლებ token-ს ხარჯავს, რაც პროდუქტებში უფრო სწრაფ გამოცდილებას და token-ების დაბალ დანახარჯს უზრუნველყოფს. რთულ ამოცანებზე, რომლებსაც დამატებითი ფიქრი სჭირდება, GPT‑5.1 მაინც შეუპოვარია — იკვლევს ვარიანტებს და ამოწმებს საკუთარ ნამუშევარს, რათა საიმედოობა მაქსიმალური იყოს.
Balyasny Asset Management(იხსნება ახალ ფანჯარაში)-მა განაცხადა, რომ GPT‑5.1‑მა „ჩვენი სრული დინამიკური შეფასების ნაკრებში GPT‑4.1‑საც და GPT‑5‑საც აჯობა, თან GPT‑5‑ზე 2-3-ჯერ სწრაფად მუშაობდა.“ მათ ასევე თქვეს, რომ მათი ინსტრუმენტებით დატვირთული მსჯელობის ამოცანების მასშტაბით GPT‑5.1 „მუდმივად იყენებდა დაახლოებით ორჯერ ნაკლებ token-ს, ვიდრე წამყვანი კონკურენტები, მსგავს ან უკეთეს ხარისხზე.“ ანალოგიურად, AI სადაზღვევო BPO Pace(იხსნება ახალ ფანჯარაში)-მაც გამოსცადა მოდელი და თქვა, რომ მათი აგენტები „GPT‑5.1‑ზე 50%-ით უფრო სწრაფად მუშაობენ, თან ჩვენს შეფასებებში GPT‑5‑ისა და სხვა წამყვანი მოდელების სიზუსტეს აჭარბებენ.“
GPT‑5.1 აზროვნებისთვის დახარჯულ დროს GPT‑5‑ზე უფრო დინამიკურად ცვლის. ChatGPT‑ის ამოცანების რეპრეზენტაციულ განაწილებაზე GPT‑5.1 ბევრად უფრო სწრაფია მარტივ ამოცანებში, თუნდაც მსჯელობის მაღალი ძალისხმევის პირობებში.
მაგალითად, როდესაც ეკითხებიან „აჩვენე npm ბრძანება გლობალურად დაყენებული პაკეტების სიის სანახავად“, GPT‑5.1 პასუხობს 2 წამში 10 წამის ნაცვლად.
GPT-5 (Medium) მოითხოვს ~250 token-ს (~10 წამი)
GPT-5.1 (Medium) მოითხოვს ~50 token-ს (~2 წამი)
დეველოპერებს ახლა შეუძლიათ გამოიყენონ GPT‑5.1 მსჯელობის გარეშე, თუ reasoning_effort-ს დააყენებენ მნიშვნელობაზე 'none'. ეს მოდელს არამსჯელობელი მოდელივით ამოქმედებს ლატენტობაზე მგრძნობიარე გამოყენების შემთხვევებისთვის, GPT‑5.1‑ის მაღალი ინტელექტით და ეფექტიანი tool-calling-ის დამატებითი უპირატესობით. GPT‑5‑ზე 'minimal' მსჯელობასთან შედარებით, GPT‑5.1 მსჯელობის გარეშე უკეთესია პარალელურ tool calling-ში (რაც თავის მხრივ ამოცანის ბოლომდე დასრულების საერთო სიჩქარეს ზრდის), კოდირების ამოცანებში, ინსტრუქციების მიყოლაში და საძიებო ინსტრუმენტების გამოყენებაში — და მხარს უჭერს ვებ ძიებას(იხსნება ახალ ფანჯარაში) ჩვენს API პლატფორმაზე. Sierra(იხსნება ახალ ფანჯარაში)-მ გააზიარა, რომ GPT‑5.1‑მა „მსჯელობის გარეშე“ რეჟიმში მათ რეალურ შეფასებებში აჩვენა „20%-იანი გაუმჯობესება დაბალი ლატენტობის tool calling-ის წარმადობაში GPT‑5 minimal reasoning-თან შედარებით“.
reasoning_effort-ში მნიშვნელობად 'none'-ის დამატებით, დეველოპერებს ახლა კიდევ მეტი მოქნილობა და კონტროლი აქვთ თავიანთი გამოყენების შემთხვევისთვის სიჩქარეს, ფასსა და ინტელექტს შორის ბალანსზე. GPT‑5.1 ნაგულისხმევად იყენებს 'none'-ს, რაც იდეალურია ლატენტობაზე მგრძნობიარე დატვირთვებისთვის. ვურჩევთ დეველოპერებს აირჩიონ 'low' ან 'medium' უფრო მაღალი სირთულის ამოცანებისთვის და 'high', როცა ინტელექტი და საიმედოობა სიჩქარეზე მნიშვნელოვანია.
გაფართოებული ქეშირება მსჯელობის ეფექტიანობას აუმჯობესებს, რადგან მოთხოვნებს საშუალებას აძლევს ქეშში აქტიური დარჩეს 24 საათამდე, დღეს მხარდაჭერილი რამდენიმე წუთის ნაცვლად. უფრო ხანგრძლივი შენარჩუნების ფანჯრის პირობებში, უფრო მეტ შემდგომ მოთხოვნას შეუძლია ქეშირებული კონტექსტის გამოყენება — შედეგად მიიღება უფრო დაბალი ლატენტობა, შემცირებული ღირებულება და უფრო გამართული მუშაობა ხანგრძლივი ინტერაქციებისთვის, როგორიცაა მრავალსვლიანი ჩატი, კოდირების სესიები ან ცოდნის მოპოვების სამუშაო ნაკადები.
მოთხოვნის ქეშის ფასი უცვლელი რჩება: ქეშირებული შემავალი token-ები არაქეშირებულ token-ებზე 90%-ით იაფია და ქეშში ჩაწერასა თუ შენახვაზე დამატებითი გადასახადი არ მოქმედებს. GPT‑5.1‑თან გაფართოებული ქეშირების გამოსაყენებლად დაამატეთ პარამეტრი “prompt_cache_retention='24h'” Responses ან ჩატის დასრულების API-ში. მეტი დეტალისთვის იხილეთ მოთხოვნის ქეშირების დოკუმენტაცია(იხსნება ახალ ფანჯარაში).
GPT‑5.1 ავითარებს GPT‑5‑ის კოდირების შესაძლებლობებს უფრო მართვადი კოდირების პიროვნებით, ნაკლები ზედმეტი ფიქრით, გაუმჯობესებული კოდის ხარისხით, მომხმარებელზე უკეთ მორგებული განახლების შეტყობინებებით (პრეამბულებით) tool call-ების მიმდევრობების დროს და უფრო ფუნქციური ფრონტენდ დიზაინებით — განსაკუთრებით მსჯელობის დაბალი ძალისხმევისას.
უფრო მარტივ კოდირების ამოცანებზე, მაგალითად კოდის სწრაფ რედაქტირებაზე, GPT‑5.1‑ის უფრო მაღალი სიჩქარე უკან-წინ უფრო იოლ იტერაციას შესაძლებელს ხდის. GPT‑5.1‑ის მაღალი სიჩქარე მარტივ ამოცანებზე არ აუარესებს შედეგს რთულ ამოცანებზე. SWE-bench Verified-ზე GPT‑5.1 GPT‑5‑ზე კიდევ უფრო დიდხანს მუშაობს და 76.3%-ს აღწევს.
SWE-bench Verified-ში მოდელს ეძლევა კოდის რეპოზიტორიუმი და პრობლემის აღწერა, და მან უნდა შექმნას patch პრობლემის გადასაჭრელად. ნიშნულები მიუთითებს მსჯელობის ძალისხმევაზე. სიზუსტე დათვლილია ყველა 500 პრობლემაზე საშუალოდ. ყველა მოდელი იყენებდა harness-ს JSON-ზე დაფუძნებული apply_patch ინსტრუმენტით.
GPT‑5.1‑ზე ადრეული უკუკავშირი კოდირებაზე მომუშავე რამდენიმე კომპანიისგან მივიღეთ. აი მათი შთაბეჭდილებები:
- Augment Code(იხსნება ახალ ფანჯარაში)-მა GPT‑5.1‑ს უწოდა „უფრო გააზრებული, ნაკლები ფუჭი მოქმედებით, უფრო ეფექტიანი მსჯელობით და ამოცანაზე უკეთესი ფოკუსით“, და ხედავენ „უფრო ზუსტ ცვლილებებს, უფრო გამართულ შერწყმის მოთხოვნებს და უფრო სწრაფ იტერაციას მრავალფაილიან პროექტებში.“
- Cline(იხსნება ახალ ფანჯარაში) -მა გააზიარა, რომ მათ შეფასებებში „GPT‑5.1‑მა ჩვენს diff რედაქტირების ბენჩმარკზე SOTA მიაღწია 7%-იანი გაუმჯობესებით, რაც რთული კოდირების ამოცანებისთვის გამორჩეულ საიმედოობას აჩვენებს.“
- CodeRabbit(იხსნება ახალ ფანჯარაში)-მა GPT‑5.1‑ს უწოდა თავისი „საუკეთესო არჩევანის მოდელი PR მიმოხილვებისთვის.“
- Cognition(იხსნება ახალ ფანჯარაში)-მა თქვა, რომ GPT‑5.1 „შესამჩნევად უკეთ იგებს, რას ითხოვ და შენთან ერთად მუშაობს, რომ ეს შესრულდეს.“
- Factory(იხსნება ახალ ფანჯარაში)-მ თქვა, რომ „GPT‑5.1 საგრძნობლად უფრო სწრაფ პასუხებს იძლევა და მსჯელობის სიღრმეს ამოცანას უსადაგებს, ამცირებს ზედმეტ ფიქრს და აუმჯობესებს დეველოპერის საერთო გამოცდილებას.“
- Warp(იხსნება ახალ ფანჯარაში) GPT‑5.1‑ს ახალი მომხმარებლებისთვის ნაგულისხმევ მოდელად ხდის და ამბობს, რომ ის „ეყრდნობა შთამბეჭდავ ინტელექტუალურ გაუმჯობესებებს, რომლებიც GPT‑5 სერიამ შემოიტანა, თან ბევრად უფრო რეაგირებადი მოდელია.“
„GPT 5.1 უბრალოდ კიდევ ერთი LLM არ არის — ის ნამდვილად აგენტურია, ყველაზე ბუნებრივად ავტონომიური მოდელია, რაც კი ოდესმე გამომიცდია. წერს შენსავით, კოდს წერს შენსავით, ძალდაუტანებლად მიჰყვება რთულ ინსტრუქციებს და განსაკუთრებით ძლიერია ფრონტენდ ამოცანებში, თანაც მარტივად ერგება თქვენს არსებულ კოდურ ბაზას. მისი სრული პოტენციალის გახსნა ნამდვილად შეგიძლიათ Responses API-ში და გვიხარია, რომ მას ჩვენს IDE-შიც გთავაზობთ.“
Responses API-ში დეველოპერებს მოდელისგან მაქსიმუმის მისაღებად GPT‑5.1‑თან ერთად ორ ახალ ინსტრუმენტს წარმოგიდგენთ: თავისუფალი ფორმატის apply_patch ინსტრუმენტს, რათა კოდის რედაქტირება JSON escaping-ის საჭიროების გარეშე კიდევ უფრო საიმედო გახდეს, და shell ინსტრუმენტს, რომელიც მოდელს თქვენს ლოკალურ მანქანაზე გასაშვები ბრძანებების დაწერის საშუალებას აძლევს.
თავისუფალი ფორმატის apply_patch ინსტრუმენტი GPT‑5.1‑ს საშუალებას აძლევს შექმნას, განაახლოს და წაშალოს ფაილები კოდურ ბაზაში სტრუქტურირებული diff-ების გამოყენებით. მხოლოდ რედაქტირებების შეთავაზების ნაცვლად, მოდელი გამოყოფს patch ოპერაციებს, რომლებსაც აპლიკაცია ასრულებს და რომელთა შესახებაც ანგარიშს აბრუნებს, რაც იტერაციულ, მრავალსაფეხურიან კოდის რედაქტირების სამუშაო ნაკადებს შესაძლებელს ხდის.
Responses API-ში apply_patch ინსტრუმენტის გამოსაყენებლად, ჩასვით ის tools მასივში "tools": [{“type”: “apply_patch”}]-ით და ან შეიტანეთ ფაილის შიგთავსი თქვენს input-ში, ან მიეცით მოდელს ინსტრუმენტები თქვენი ფაილური სისტემასთან ურთიერთობისთვის. მოდელი შექმნის apply_patch_call ელემენტებს ფაილების შექმნისთვის, განახლებისთვის ან წასაშლელად, რომლებიც შეიცავს diff-ებს, რომლებსაც თქვენ თქვენს ფაილურ სისტემაზე გამოიყენებთ. მეტი ინფორმაციისთვის apply_patch ინსტრუმენტთან ინტეგრაციის შესახებ, იხილეთ ჩვენი დეველოპერის დოკუმენტაცია(იხსნება ახალ ფანჯარაში).
shell ინსტრუმენტი მოდელს საშუალებას აძლევს, ლოკალურ კომპიუტერთან იმუშაოს კონტროლირებადი ბრძანების სტრიქონის ინტერფეისის მეშვეობით. მოდელი სთავაზობს shell ბრძანებებს; დეველოპერის ინტეგრაცია მათ ასრულებს და შედეგებს აბრუნებს. ეს ქმნის მარტივ გეგმა-შესრულების ციკლს, რომელიც მოდელებს საშუალებას აძლევს შეამოწმონ სისტემა, გაუშვან უტილიტები და შეაგროვონ მონაცემები, სანამ დავალებას დაასრულებენ.
Responses API-ში shell ინსტრუმენტის გამოსაყენებლად, დეველოპერებს შეუძლიათ ჩასვან ის tools მასივში "tools": [{“type”: “shell”}]. API შექმნის "shell_call" ელემენტებს, რომლებიც შესასრულებელ shell ბრძანებებს შეიცავს. დეველოპერები ბრძანებებს ლოკალურ გარემოში ასრულებენ და შესრულების შედეგებს აბრუნებენ შემდეგ API მოთხოვნაში "shell_call_output" ელემენტში. მეტი გაიგეთ ჩვენს დეველოპერის დოკუმენტაციაში(იხსნება ახალ ფანჯარაში).
GPT‑5.1 და gpt-5.1-chat-latest API-ში დეველოპერებისთვის ხელმისაწვდომია ყველა ფასიან ტიერზე. ფასები და rate limit-ები(იხსნება ახალ ფანჯარაში) GPT‑5‑ის იდენტურია. ასევე API-ში ვუშვებთ gpt-5.1-codex-სა და gpt-5.1-codex-mini-ს. მიუხედავად იმისა, რომ GPT‑5.1 კოდირების ამოცანების უმეტესობაში გამოირჩევა, gpt-5.1-codex მოდელები ოპტიმიზებულია ხანგრძლივი, აგენტური კოდირების ამოცანებისთვის Codex-ში ან Codex-ის მსგავს harness-ებში.
დეველოპერებს შეუძლიათ შექმნა დაიწყონ ჩვენი GPT‑5.1‑ის დეველოპერის დოკუმენტაციით(იხსნება ახალ ფანჯარაში) და მოდელის მოთხოვნების გზამკვლევით(იხსნება ახალ ფანჯარაში). ამ ეტაპზე API-ში GPT‑5‑ის მოხსნას არ ვგეგმავთ და დეველოპერებს წინასწარ შევატყობინებთ, თუ და როცა ამის გაკეთებას გადავწყვეტთ.
ჩვენ ერთგულები ვართ, ეტაპობრივად დავნერგოთ ყველაზე შესაძლებლობიანი და საიმედო მოდელები რეალური აგენტური და კოდირების სამუშაოსთვის — მოდელები, რომლებიც ეფექტიანად ფიქრობენ, სწრაფად იტერირებენ და რთულ ამოცანებს უმკლავდებიან ისე, რომ დეველოპერებს სამუშაო დინებიდან არ აგდებენ. ადაპტური მსჯელობით, უფრო ძლიერი კოდირების წარმადობით, უფრო მკაფიო მომხმარებელზე ორიენტირებული განახლებებით და ახალი ინსტრუმენტებით, როგორიცაა apply_patch და shell, GPT‑5.1 შექმნილია იმისთვის, რომ ნაკლები შეფერხებით აგაშენებინოთ. და ჩვენ აქ სერიოზულ ინვესტირებას ვაგრძელებთ: უახლოეს კვირებსა და თვეებში შეგიძლიათ ელოდოთ უფრო შესაძლებლობიან აგენტურ და კოდირების მოდელებს.
შეფასება | GPT‑5.1 (high) | GPT‑5 (high) |
SWE-bench Verified | 76.3% | 72.8% |
GPQA Diamond | 88.1% | 85.7% |
AIME 2025 | 94.0% | 94.6% |
FrontierMath | 26.7% | 26.3% |
MMMU | 85.4% | 84.2% |
Tau2-bench Airline | 67.0% | 62.6% |
Tau2-bench Telecom* | 95.6% | 96.7% |
Tau2-bench Retail | 77.9% | 81.1% |
BrowseComp Long Context 128k | 90.0% | 90.0% |
* Tau2-bench Telecom-ისთვის GPT‑5.1‑ს მივეცით მოკლე, ზოგადად სასარგებლო მოთხოვნა მისი წარმადობის გასაუმჯობესებლად.


