გადადით მთავარ შინაარსზე
OpenAI

7 აგვისტო, 2025

პროდუქტი

GPT‑5-ის წარდგენა დეველოპერებისთვის

საუკეთესო მოდელი კოდირებისა და აგენტური ამოცანებისთვის.

იტვირთება…

შესავალი

დღეს ჩვენს API პლატფორმაზე ვუშვებთ GPT‑5‑ს — ჩვენს საუკეთესო მოდელს კოდირებისა და აგენტური ამოცანებისთვის.

GPT‑5 მოწინავეა (SOTA) კოდირების მთავარ ბენჩმარკებზე: SWE-bench Verified-ზე 74.9% და Aider polyglot-ზე 88% დააგროვა. GPT‑5 ისე გავწვრთენით, რომ ნამდვილი კოდირების თანამშრომელი იყოს. ის გამოირჩევა მაღალი ხარისხის კოდის შექმნით და ისეთი ამოცანების შესრულებით, როგორიცაა ბაგების გასწორება, კოდის რედაქტირება და რთული კოდბაზების შესახებ კითხვებზე პასუხი. მოდელი სამართავია და თანამშრომლობაზეა ორიენტირებული — მას შეუძლია ძალიან დეტალური ინსტრუქციების მაღალი სიზუსტით შესრულება და შეუძლია საკუთარი ქმედებების წინასწარი ახსნა ინსტრუმენტების გამოძახებამდე და მათ შორის.  მოდელი ასევე გამოირჩევა front-end კოდირებაში და შიდა ტესტირებაში frontend ვებ-დეველოპმენტში OpenAI o3‑ს დროის 70%-ში აჯობა.

GPT‑5 რეალურ კოდირების ამოცანებზე გავწვრთენით ადრეულ ტესტერებთან თანამშრომლობით, როგორც სტარტაპებიდან, ისე საწარმოებიდან. Cursor ამბობს, რომ GPT‑5 „ყველაზე ჭკვიანი მოდელია, რომელიც [მათ] გამოუყენებიათ“ და „გამორჩეულად ინტელექტუალურია, ადვილად სამართავია და ისეთი პიროვნულობაც კი აქვს, რაც [მათ] სხვა მოდელებში არ უნახავთ“. Windsurf-მა გაგვიზიარა, რომ GPT‑5 მათ შეფასებებში SOTA-ა და „სხვა მოწინავე მოდელებთან შედარებით ინსტრუმენტების გამოძახების შეცდომების მაჩვენებელი ორჯერ ნაკლები აქვს“. Vercel ამბობს, რომ „ეს საუკეთესო frontend AI მოდელია, რომელიც უმაღლეს შედეგებს აღწევს როგორც ესთეტიკურ ხედვაში, ისე კოდის ხარისხში, და საკუთარი კატეგორია აქვს“.

GPT‑5 ასევე გამოირჩევა ხანგრძლივ აგენტურ ამოცანებში — τ2-bench telecom-ზე, ინსტრუმენტების გამოძახების ბენჩმარკზე, რომელიც სულ 2 თვის წინ გამოქვეყნდა, SOTA შედეგს (96.7%) აჩვენებს. GPT‑5‑ის გაუმჯობესებული ინსტრუმენტული ინტელექტი საშუალებას აძლევს მას საიმედოდ დააკავშიროს ათობით ინსტრუმენტის გამოძახება — როგორც მიმდევრობით, ისე პარალელურად — მიმართულების დაკარგვის გარეშე, რაც რეალური სამყაროს რთული ამოცანების სრულად შესრულებაში ბევრად უკეთესს ხდის. ის ასევე უფრო ზუსტად მისდევს ინსტრუმენტების ინსტრუქციებს, უკეთ უმკლავდება ინსტრუმენტების შეცდომებს და გამოირჩევა გრძელი კონტექსტიდან კონტენტის მოძიებაში. Manus ამბობს, რომ GPT‑5‑მა „[მათ] შიდა ბენჩმარკებზე ერთ მოდელზე ნანახი საუკეთესო შედეგი აჩვენა“. Notion ამბობს, რომ „[მოდელის] სწრაფი პასუხები, განსაკუთრებით დაბალი მსჯელობის რეჟიმში, GPT‑5‑ს იდეალურ მოდელად აქცევს, როცა რთული ამოცანების ერთმაგალითიანად გადაწყვეტა გჭირდებათ“. Inditex-მა გაგვიზიარა, რომ „რაც [GPT‑5]‑ს ნამდვილად გამოარჩევს, მისი მსჯელობის სიღრმეა: ნიუანსური, მრავალშრიანი პასუხები, რომლებიც საგნობრივი სფეროს რეალურ გაგებას ასახავს“.

ჩვენს API-ში ვამატებთ ახალ შესაძლებლობებს, რათა დეველოპერებს მეტი კონტროლი ჰქონდეთ მოდელის პასუხებზე. GPT‑5 მხარს უჭერს ახალ verbosity პარამეტრს (მნიშვნელობები: low, medium, high), რომელიც ეხმარება გააკონტროლოთ, იქნება პასუხები მოკლე და საქმიანი თუ გრძელი და ყოვლისმომცველი. GPT‑5‑ის reasoning_effort პარამეტრს ახლა შეუძლია მიიღოს minimal მნიშვნელობაც, რათა პასუხები უფრო სწრაფად დაბრუნდეს, ფართო მსჯელობის გარეშე. ასევე დავამატეთ ინსტრუმენტის ახალი ტიპი — custom tools — რათა GPT‑5‑მ ინსტრუმენტები JSON-ის ნაცვლად უბრალო ტექსტით გამოიძახოს. Custom tools მხარს უჭერს დეველოპერის მიერ მოწოდებული კონტექსტისგან თავისუფალი გრამატიკებით შეზღუდვას.

API-ში GPT‑5‑ს სამ ზომაში ვუშვებთ — gpt-5, gpt-5-mini და gpt-5-nano — რათა დეველოპერებს მეტი მოქნილობა მივცეთ წარმადობას, ფასსა და დაყოვნებას შორის ბალანსის დასაჭერად. მაშინ როცა ChatGPT‑ში GPT‑5 მსჯელობის, არამსჯელობის და მარშრუტიზატორი მოდელების სისტემაა, API პლატფორმაში GPT‑5 ის მსჯელობის მოდელია, რომელიც ChatGPT‑ში მაქსიმალურ წარმადობას უზრუნველყოფს. საყურადღებოა, რომ minimal მსჯელობის მქონე GPT‑5 სხვა მოდელია, ვიდრე ChatGPT‑ის არამსჯელობის მოდელი, და დეველოპერებისთვის უკეთ არის მორგებული. არამსჯელობის მოდელი, რომელიც ChatGPT‑ში გამოიყენება, ხელმისაწვდომია როგორც gpt-5-chat-latest.

ChatGPT‑ში GPT‑5‑ის შესახებ წასაკითხად და ChatGPT‑ის სხვა გაუმჯობესებების შესახებ მეტის გასაგებად, იხილეთ ჩვენი კვლევითი ბლოგი. თუ გაინტერესებთ, როგორ აპირებენ საწარმოები GPT‑5‑ის გამოყენებას, იხილეთ ჩვენი საწარმოო ბლოგი.

კოდირება

GPT‑5 ყველაზე ძლიერი კოდირების მოდელია, რომელიც ოდესმე გამოგვიშვია. ის კოდირების ბენჩმარკებსა და რეალური სამყაროს გამოყენების შემთხვევებში o3‑ს აჭარბებს და სპეციალურადაა მორგებული, რომ ბრწყინავდეს აგენტურ კოდირების პროდუქტებში, როგორიცაა Cursor, Windsurf, GitHub Copilot და Codex CLI. GPT‑5‑მა შთაბეჭდილება მოახდინა ჩვენს ალფა ტესტერებზე და მათ ბევრ კერძო შიდა შეფასებაში რეკორდები დაამყარა. 

ადრეული გამოხმაურება GPT‑5‑ზე რეალური კოდირების ამოცანებისთვის

„GPT-5 ყველაზე ჭკვიანი კოდირების მოდელია, რომელიც გამოგვიყენებია. ჩვენმა გუნდმა GPT-5 გამორჩეულად ინტელექტუალურ, ადვილად სამართავ და ისეთ პიროვნულ თვისებებიც კი აღმოაჩინა, როგორიც სხვა არც ერთ მოდელში არ გვინახავს. ის არა მხოლოდ რთულ, ღრმად დამალულ ბაგებს პოულობს, არამედ შეუძლია გაუშვას ხანგრძლივი, მრავალეტაპიანი ფონური აგენტები, რათა რთული ამოცანები ბოლომდე მიიყვანოს — ისეთები, რომლებზეც სხვა მოდელები ხშირად ჩერდებოდნენ. ის ჩვენი ყოველდღიური ძირითადი არჩევანი გახდა ყველაფერში, PR-ების მოცულობის განსაზღვრიდან და დაგეგმვიდან დაწყებული, სრულციკლიანი build-ების დასრულებით დამთავრებული.“
Michael Truell, თანადამფუძნებელი და CEO Cursor-ში

SWE-bench Verified-ზე, რეალური სამყაროს პროგრამული ინჟინერიის ამოცანებზე დაფუძნებულ შეფასებაზე, GPT‑5 74.9%-ს აგროვებს, o3‑ის 69.1%-თან შედარებით. საყურადღებოა, რომ GPT‑5 ამ მაღალ ქულას უფრო დიდი ეფექტიანობითა და სისწრაფით აღწევს: o3‑თან შედარებით, მსჯელობის მაღალი ინტენსივობის რეჟიმში, GPT‑5 იყენებს 22%-ით ნაკლებ output token-ს და 45%-ით ნაკლებ ინსტრუმენტის გამოძახებას.

SWE-bench Verified-ში მოდელს ეძლევა კოდის რეპოზიტორიუმი და პრობლემის აღწერა, და მან პრობლემის გადასაჭრელად patch უნდა შექმნას. ტექსტური იარლიყები მსჯელობის ინტენსივობას მიუთითებს. ჩვენი ქულები გამოტოვებს 500-დან 23 პრობლემას, რომელთა გადაწყვეტებიც ჩვენს ინფრასტრუქტურაზე საიმედოდ არ გადიოდა. GPT‑5‑ს მიეცა მოკლე მოთხოვნა, რომელიც გადაწყვეტების საფუძვლიან გადამოწმებას უსვამდა ხაზს; იგივე მოთხოვნამ o3‑ს სარგებელი არ მოუტანა.

Aider polyglot-ზე, კოდის რედაქტირების შეფასებაზე, GPT‑5 ახალ რეკორდს — 88%-ს — ამყარებს, რაც o3‑თან შედარებით შეცდომების მაჩვენებლის ერთი მესამედით შემცირებას ნიშნავს.

Aider polygot(იხსნება ახალ ფანჯარაში)-ში (diff) მოდელს ეძლევა პროგრამირების სავარჯიშო Exercism-იდან და მან თავისი გადაწყვეტა კოდის diff-ის სახით უნდა დაწეროს. მსჯელობის მოდელები გაშვებული იყო მსჯელობის მაღალი ინტენსივობით.

ასევე აღმოვაჩინეთ, რომ GPT‑5 შესანიშნავად იძირება კოდბაზებში, რათა უპასუხოს კითხვებს იმის შესახებ, როგორ მუშაობს ან როგორ ურთიერთქმედებს სხვადასხვა ნაწილი. OpenAI-ის განმამტკიცებელი სწავლების სტეკივით რთულ კოდბაზშიც კი ვხედავთ, რომ GPT‑5 გვეხმარება ჩვენს კოდზე მსჯელობასა და კითხვებზე პასუხში, რითაც ჩვენს ყოველდღიურ მუშაობას აჩქარებს. 

Frontend ინჟინერია

ვებ-აპებისთვის frontend კოდის შექმნისას GPT‑5 უფრო მეტად არის ორიენტირებული ესთეტიკაზე, უფრო ამბიციურია და უფრო ზუსტიც. o3‑თან გვერდიგვერდ შედარებებში ჩვენი ტესტერები GPT‑5‑ს დროის 70%-ში ამჯობინებდნენ.

აქ მოცემულია რამდენიმე სახალისო, შერჩეული მაგალითი იმისა, თუ რა შეუძლია GPT‑5‑ს ერთი მოთხოვნით:

მოთხოვნა: გთხოვთ, შექმნათ ლამაზი, რეალისტური landing page სერვისისთვის, რომელიც ყავის ნამდვილ ენთუზიასტს $200/თვეში სთავაზობს გამოწერას აღჭურვილობის ქირაობითა და ქოუჩინგით ყავის მოხალვასა და იდეალური ესპრესოს შექმნაში. სამიზნე აუდიტორია არის bay area-ში მცხოვრები საშუალო ასაკის ადამიანი, რომელიც შეიძლება ტექნოლოგიების სფეროში მუშაობდეს, განათლებული იყოს, ჰქონდეს თავისუფალი შემოსავალი და გატაცებული იყოს ყავის ხელოვნებითა და მეცნიერებით. ოპტიმიზაცია გაუკეთეთ 6-თვიანი გამოწერის კონვერსიას.

GPT‑5‑ის მეტი მაგალითი იხილეთ ჩვენს გალერეაში აქ(იხსნება ახალ ფანჯარაში).

კოდირების თანამშრომლობა

GPT‑5 უკეთესი თანამშრომელია, განსაკუთრებით აგენტურ კოდირების პროდუქტებში, როგორიცაა Cursor, Windsurf, GitHub Copilot და Codex CLI. მუშაობის პროცესში GPT‑5‑ს შეუძლია ინსტრუმენტების გამოძახებებს შორის გეგმები, განახლებები და შეჯამებები გამოიტანოს. ჩვენს წინა მოდელებთან შედარებით, GPT‑5 უფრო პროაქტიურია ამბიციური ამოცანების დასრულებაში, თქვენი დადასტურების მოლოდინის გარეშე და მაღალი სირთულისგან უკანდახევის გარეშე.

აი მაგალითი, როგორ შეიძლება გამოიყურებოდეს GPT‑5 რთულ ამოცანაზე მუშაობისას (ამ შემთხვევაში — რესტორნისთვის ვებსაიტის შექმნა):

მას შემდეგ, რაც მომხმარებელი თავისი რესტორნისთვის ვებსაიტს ითხოვს, GPT‑5 იზიარებს მოკლე გეგმას, ქმნის აპის ჩონჩხს, აყენებს დამოკიდებულებებს, ქმნის საიტის კონტენტს, უშვებს build-ს კომპილაციის შეცდომების შესამოწმებლად, აჯამებს შესრულებულს და სთავაზობს შესაძლო შემდეგ ნაბიჯებს. ეს ვიდეო დაახლოებით 3-ჯერ არის აჩქარებული, რომ ლოდინი არ მოგიწიოთ; ვებსაიტის შექმნის სრული ხანგრძლივობა დაახლოებით სამი წუთი იყო.

აგენტური ამოცანები

აგენტური კოდირების მიღმაც, GPT‑5 ზოგადად აგენტურ ამოცანებში უკეთესია. GPT‑5 ამყარებს ახალ რეკორდებს ინსტრუქციების შესრულების (69.6% Scale MultiChallenge-ზე, o3‑mini‑ის შეფასებით) და ინსტრუმენტების გამოძახების (96.7% τ2-bench telecom-ზე) ბენჩმარკებზე. ინსტრუმენტული ინტელექტის გაუმჯობესება GPT‑5‑ს საშუალებას აძლევს ქმედებები უფრო საიმედოდ დააჯაჭვოს, რათა რეალური სამყაროს ამოცანები შეასრულოს.

ადრეული გამოხმაურება GPT‑5‑ზე აგენტური ამოცანებისთვის

„GPT-5 დიდი წინგადადგმული ნაბიჯია. მან ჩვენს შიდა ბენჩმარკებზე ერთ მოდელზე ნანახი საუკეთესო შედეგი აჩვენა. GPT-5 გამოირჩეოდა სხვადასხვა აგენტურ ამოცანაში — მანამდე, სანამ ერთი ხაზის კოდს შევცვლიდით ან მოთხოვნას მოვარგებდით. ახალმა შესავლურმა შეტყობინებებმა და ინსტრუმენტების გამოყენებაზე უფრო ზუსტმა კონტროლმა ჩვენს აგენტებში სტაბილურობისა და მართვადობის მნიშვნელოვანი ნახტომი უზრუნველყო.“
Yichao ‘Peak’ Ji, თანადამფუძნებელი და მთავარი მეცნიერი Manus-ში

ინსტრუქციების შესრულება

GPT‑5 ინსტრუქციებს თავის ნებისმიერ წინამორბედზე უფრო საიმედოდ მისდევს და მაღალ შედეგებს აჩვენებს COLLIE-ზე, Scale MultiChallenge-ზე და ჩვენს შიდა ინსტრუქციების შესრულების შეფასებაში.

COLLIE(იხსნება ახალ ფანჯარაში)-ში მოდელებმა უნდა დაწერონ ტექსტი, რომელიც სხვადასხვა შეზღუდვას აკმაყოფილებს. Scale MultiChallenge(იხსნება ახალ ფანჯარაში)-ში მოდელები მრავალეტაპიან საუბრებში წინა შეტყობინებებიდან ოთხი ტიპის ინფორმაციის სწორად გამოყენებაზე იტესტებიან. ჩვენი ქულები მიღებულია o3‑mini‑ის შემფასებლად გამოყენებით, რომელიც GPT‑4o‑ზე უფრო ზუსტი აღმოჩნდა. OpenAI API-ის ინსტრუქციების შესრულების ჩვენს შიდა შეფასებაში მოდელებმა რთული ინსტრუქციები უნდა დაიცვან, რომლებიც რეალური დეველოპერების უკუკავშირიდან არის მიღებული. მსჯელობის მოდელები გაშვებული იყო მსჯელობის მაღალი ინტენსივობით.

ინსტრუმენტების გამოძახება

ბევრი ვიმუშავეთ ინსტრუმენტების გამოძახების იმ მიმართულებებით გაუმჯობესებაზე, რომლებიც დეველოპერებისთვის მნიშვნელოვანია. GPT‑5 უკეთესად მისდევს ინსტრუმენტების ინსტრუქციებს, უკეთ უმკლავდება ინსტრუმენტების შეცდომებს და უკეთ აკეთებს მრავალი ინსტრუმენტის გამოძახებას პროაქტიულად — მიმდევრობით ან პარალელურად. საჭიროების შემთხვევაში, GPT‑5‑ს ასევე შეუძლია მომხმარებლისთვის ხილული შესავლური შეტყობინებების გამოტანა ინსტრუმენტების გამოძახებამდე და მათ შორის, რათა გრძელი აგენტური ამოცანების დროს პროგრესის შესახებ მომხმარებლები განაახლოს.

ორი თვის წინ Sierra.ai-მ გამოაქვეყნა τ2-bench telecom, როგორც რთული ინსტრუმენტების გამოყენების ბენჩმარკი, რომელმაც აჩვენა, როგორ ეცემა მნიშვნელოვნად ენობრივი მოდელების წარმადობა ისეთ გარემოს მდგომარეობასთან ურთიერთქმედებისას, რომლის შეცვლაც მომხმარებლებს შეუძლიათ. მათ პუბლიკაციაში(იხსნება ახალ ფანჯარაში) არც ერთმა მოდელმა 49%-ზე მეტი ვერ დააგროვა. GPT‑5 97%-ს აგროვებს.

τ2-bench(იხსნება ახალ ფანჯარაში)-ში მოდელმა ინსტრუმენტები უნდა გამოიყენოს მომხმარებელთა მომსახურების ამოცანის შესასრულებლად, სადაც შეიძლება არსებობდეს მომხმარებელი, რომელსაც შეუძლია კომუნიკაცია და სამყაროს მდგომარეობაზე მოქმედება. მსჯელობის მოდელები გაშვებული იყო მსჯელობის მაღალი ინტენსივობით.

GPT‑5 ასევე გრძელი კონტექსტის წარმადობაშიც ძლიერ გაუმჯობესებას აჩვენებს. OpenAI-MRCR-ზე, რომელიც გრძელი კონტექსტიდან ინფორმაციის მოძიების საზომია, GPT‑5 o3‑სა და GPT‑4.1‑ს აჭარბებს, და ეს უპირატესობა მნიშვნელოვნად იზრდება უფრო გრძელი შეყვანის სიგრძეებზე.

OpenAI-MRCR(იხსნება ახალ ფანჯარაში)-ში (multi-round co-reference resolution) გრძელ, მსგავსი მოთხოვნებისა და პასუხების „თივის ზვინებში“ თავსდება რამდენიმე იდენტური „ნემსი“ მომხმარებლის მოთხოვნა, და მოდელს ეთხოვება i-ე ნემსის პასუხის გამეორება. Mean match ratio ზომავს საშუალო სტრიქონის დამთხვევის კოეფიციენტს მოდელის პასუხსა და სწორ პასუხს შორის. 256k მაქსიმალური შეყვანის token-ებზე წერტილები წარმოადგენს 128k–256k შეყვანის token-ებზე საშუალოებს და ასე შემდეგ. აქ 256k ნიშნავს 256 * 1,024 = 262,114 token-ს. მსჯელობის მოდელები გაშვებული იყო მსჯელობის მაღალი ინტენსივობით.

ჩვენ ასევე ღია კოდად ვუშვებთ BrowseComp Long Context(იხსნება ახალ ფანჯარაში)-ს, ახალ ბენჩმარკს გრძელი კონტექსტის კითხვა-პასუხის შესაფასებლად. ამ ბენჩმარკში მოდელს ეძლევა მომხმარებლის შეკითხვა, შესაბამისი ძიების შედეგების გრძელი სია, და მან ამ შედეგებზე დაყრდნობით უნდა უპასუხოს კითხვას. BrowseComp Long Context ისე შევქმენით, რომ იყოს რეალისტური, რთული და საიმედოდ სწორი საფუძვლიანი პასუხები ჰქონდეს. 128K–256K token-იანი შეყვანებისას GPT‑5 სწორ პასუხს შემთხვევების 89%-ში იძლევა.

API-ში ყველა GPT‑5 მოდელს შეუძლია მიიღოს მაქსიმუმ 272,000 შეყვანის token და გამოიტანოს მაქსიმუმ 128,000 reasoning & output token, ჯამში 400,000 token-იანი კონტექსტის სიგრძისთვის.

ფაქტობრივი სიზუსტე

GPT‑5 ჩვენს წინა მოდელებზე უფრო სანდოა. LongFact-ისა და FactScore-ის ბენჩმარკების მოთხოვნებზე GPT‑5 დაახლოებით 80%-ით ნაკლებ ფაქტობრივ შეცდომას უშვებს, ვიდრე o3. ეს მას უკეთესად შესაფერისს ხდის აგენტური გამოყენების შემთხვევებისთვის, სადაც სისწორე მნიშვნელოვანია — განსაკუთრებით კოდში, მონაცემებსა და გადაწყვეტილების მიღებაში.

უფრო მაღალი ქულები უარესია. LongFact(იხსნება ახალ ფანჯარაში) და FActScore(იხსნება ახალ ფანჯარაში) შედგება ღია ტიპის, ფაქტების მოძიებაზე ორიენტირებული კითხვებისგან. ჩვენ ვიყენებთ LLM-ზე დაფუძნებულ შემფასებელს browse შესაძლებლობით, რათა ამ ბენჩმარკების მოთხოვნებზე პასუხები ფაქტობრივად გადავამოწმოთ და ფაქტობრივად არასწორი მტკიცებების წილი გავზომოთ. იმპლემენტაციისა და შეფასების დეტალები ხელმისაწვდომია სისტემურ ბარათში. მსჯელობის მოდელები გამოყენებული იყო მსჯელობის მაღალი ინტენსივობით. ძიება ჩართული არ ყოფილა.

ზოგადად, GPT‑5 გაწვრთნილია, რომ საკუთარი შეზღუდვების მიმართ უფრო გაცნობიერებული იყოს და მოულოდნელ სირთულეებს უკეთ გაუმკლავდეს. ასევე GPT‑5 ისე გავწვრთენით, რომ ჯანმრთელობასთან დაკავშირებულ კითხვებზე ბევრად უფრო ზუსტი იყოს (მეტი წაიკითხეთ ჩვენს კვლევით ბლოგში). როგორც ყველა ენობრივი მოდელის შემთხვევაში, გირჩევთ GPT‑5‑ის ნაშრომი გადაამოწმოთ მაშინ, როცა მნიშვნელობა მაღალია.

ახალი შესაძლებლობები

მინიმალური მსჯელობის ინტენსივობა

დეველოპერებს API-ში reasoning_effort პარამეტრით შეუძლიათ აკონტროლონ GPT‑5‑ის ფიქრის დრო. წინა მნიშვნელობების — low, medium (ნაგულისხმევი) და high — გარდა, GPT‑5 მხარს უჭერს ასევე minimal-ს, რომელიც GPT‑5‑ის მსჯელობას მინიმუმამდე ამცირებს, რათა პასუხი სწრაფად დაბრუნდეს.

უფრო მაღალი reasoning_effort მნიშვნელობები ხარისხს მაქსიმუმამდე აჰყავს, უფრო დაბალი მნიშვნელობები კი სიჩქარეს. ყველა ამოცანა ერთნაირად არ სარგებლობს დამატებითი მსჯელობით, ამიტომ გირჩევთ ექსპერიმენტი ჩაატაროთ, რომ ნახოთ, რომელი მუშაობს უკეთ თქვენსთვის მნიშვნელოვან გამოყენების შემთხვევებზე.

მაგალითად, low-ზე მაღალი მსჯელობა შედარებით მარტივ გრძელკონტექსტიან მოძიებაში ცოტას მატებს, მაგრამ საკმაოდ ბევრ პროცენტულ პუნქტს ამატებს CharXiv Reasoning(იხსნება ახალ ფანჯარაში)-ს, ვიზუალური მსჯელობის ბენჩმარკს.

GPT‑5‑ის მსჯელობის ინტენსივობა სხვადასხვა ამოცანაზე განსხვავებულ სარგებელს იძლევა. CharXiv Reasoning-ისთვის GPT‑5‑ს python ინსტრუმენტზე წვდომა ჰქონდა.

ვრცლადობა

იმისთვის, რომ GPT‑5‑ის პასუხების ნაგულისხმევი სიგრძე უფრო მარტივად იმართებოდეს, შემოვიტანეთ ახალი API პარამეტრი verbosity, რომელიც იღებს მნიშვნელობებს low, medium (ნაგულისხმევი) და high. თუ აშკარა ინსტრუქციები verbosity-ის პარამეტრებს ეწინააღმდეგება, უპირატესობა აშკარა ინსტრუქციებს ენიჭება. მაგალითად, თუ GPT‑5‑ს სთხოვთ „დაწერე 5-პარაგრაფიანი ესე“, მოდელის პასუხი ყოველთვის 5 პარაგრაფი უნდა იყოს verbosity-ის დონის მიუხედავად (თუმცა თავად პარაგრაფები შეიძლება უფრო გრძელი ან მოკლე იყოს).

ვრცლადობა=დაბალი

Why is the sky blue?

Because of Rayleigh scattering. Air molecules are much smaller than the wavelength of visible light, so they scatter short wavelengths (blue/violet) far more than long ones (red). The scattered blue light comes to your eyes from all directions, making the sky look blue. We don’t see violet as much because the Sun emits less of it, our eyes are less sensitive to it, and some is absorbed in the upper atmosphere. At sunrise and sunset, the longer path through air removes more blue, leaving the sky reddish.

ვრცლადობა=საშუალო

Why is the sky blue?

Because of Rayleigh scattering. Sunlight contains all colors, but air molecules scatter shorter wavelengths (blue/violet) much more strongly than longer wavelengths (red). The scattering strength goes roughly as 1/(wavelength)^4, so blue light gets redirected across the sky and into your eyes.

We don’t see a violet sky because:

  • The Sun emits slightly less violet than blue.
  • The upper atmosphere absorbs some violet/UV.
  • Human eyes are less sensitive to violet.

At sunrise and sunset, sunlight passes through more atmosphere, scattering out most of the blues along the way and leaving the longer red/orange wavelengths to dominate.

ვრცლადობა=მაღალი

Why is the sky blue?

The sky looks blue because sunlight gets scattered by the tiny molecules in Earth’s atmosphere. This process is called Rayleigh scattering.

Key points:

  • Sunlight is made of many colors (wavelengths). Shorter wavelengths, like violet and blue, are scattered much more strongly by air molecules than longer wavelengths like red. The scattering strength increases sharply as wavelength gets shorter.
  • As sunlight passes through the atmosphere, the shorter-wavelength light (especially blue) is scattered in all directions, so no matter where you look away from the Sun, you see that scattered blue light — the “blue sky.”

Why not violet?

  • The Sun emits less violet than blue.
  • Our eyes are less sensitive to violet.
  • Some violet/UV is absorbed higher up by ozone.

Together, that makes the scattered light we perceive look mainly blue.

Why are sunsets red/orange?

  • Near sunrise and sunset, sunlight travels a much longer path through the atmosphere.
  • Much of the blue light gets scattered out of the direct path before it reaches your eyes, leaving the remaining direct sunlight enriched in reds and oranges.

Other influences:

  • Haze, pollution, smoke, or dust have larger particles that scatter light less selectively (called Mie scattering), making the sky look paler or whitish.
  • The blue sky is partially polarized due to the scattering geometry, which is why polarized sunglasses can darken parts of it.
  • On worlds with different atmospheres and particle sizes (like Mars), skies can look butterscotch or reddish for similar scattering reasons.

If Earth had no atmosphere, there would be nothing to scatter sunlight, and the sky would appear black even in daytime, with the Sun as a bright disk.

შესავლური შეტყობინებები ინსტრუმენტების გამოძახებამდე

საჭიროების შემთხვევაში, GPT‑5 გამოიტანს მომხმარებლისთვის ხილულ შესავლურ შეტყობინებებს ინსტრუმენტების გამოძახებამდე და მათ შორის. ფარული მსჯელობის შეტყობინებებისგან განსხვავებით, ეს ხილული შეტყობინებები GPT‑5‑ს საშუალებას აძლევს მომხმარებელს გაუზიაროს გეგმები და პროგრესი, რაც საბოლოო მომხმარებლებს ეხმარება გაიგონ მისი მიდგომა და განზრახვა ინსტრუმენტების გამოძახებების უკან.

Custom tools

ვნერგავთ ინსტრუმენტის ახალ ტიპს — custom tools — რომელიც GPT‑5‑ს საშუალებას აძლევს ინსტრუმენტი JSON-ის ნაცვლად უბრალო ტექსტით გამოიძახოს. იმისათვის, რომ GPT‑5 custom tool-ის ფორმატებს მისდევდეს, დეველოპერებს შეუძლიათ მიაწოდონ regex ან თუნდაც უფრო სრულად განსაზღვრული კონტექსტისგან თავისუფალი გრამატიკა(იხსნება ახალ ფანჯარაში).

მანამდე, დეველოპერის მიერ განსაზღვრული ინსტრუმენტებისთვის ჩვენი ინტერფეისი მოითხოვდა, რომ ისინი JSON-ით გამოძახებულიყო — ფორმატით, რომელსაც ფართოდ იყენებენ ვებ API-ები და ზოგადად დეველოპერები. თუმცა, სწორი JSON-ის გამოტანა მოითხოვს, რომ მოდელმა სრულყოფილად დააესქეიფოს ყველა ბრჭყალი, უკუსლეში, ახალი ხაზები და სხვა საკონტროლო სიმბოლოები. მიუხედავად იმისა, რომ ჩვენი მოდელები JSON-ის გამოსატანად კარგად არიან გაწვრთნილი, გრძელ შეყვანებზე, როგორიცაა ასობით ხაზის კოდი ან 5-გვერდიანი ანგარიში, შეცდომის ალბათობა მატულობს. Custom tools-ით GPT‑5‑ს შეუძლია ინსტრუმენტის შეყვანები უბრალო ტექსტად დაწეროს, ყველა იმ სიმბოლოს დასქეიფვის გარეშე, რომელსაც ეს სჭირდება.

SWE-bench Verified-ზე, custom tools-ის გამოყენებით JSON tools-ის ნაცვლად, GPT‑5 დაახლოებით იმავე შედეგს აჩვენებს.

უსაფრთხოება

GPT‑5 უსაფრთხოებაში მოწინავე ზღვარს აფართოებს და უფრო მდგრადი, საიმედო და სასარგებლო მოდელია. GPT‑5 ჩვენს წინა მოდელებზე მნიშვნელოვნად ნაკლებად არის მიდრეკილი ჰალუცინაციებისკენ, უფრო გულწრფელად აცნობებს მომხმარებელს თავის ქმედებებსა და შესაძლებლობებზე და, სადაც შესაძლებელია, ყველაზე სასარგებლო პასუხს იძლევა, უსაფრთხოების საზღვრებში დარჩენით. მეტი შეგიძლიათ წაიკითხოთ ჩვენს კვლევით ბლოგში.

ხელმისაწვდომობა და ფასები

GPT‑5 უკვე ხელმისაწვდომია API პლატფორმაში სამ ზომაში: gpt-5, gpt-5-mini და gpt-5-nano. ის ხელმისაწვდომია Responses API-ზე, ჩატის დასრულების API-ზე და Codex CLI-ში ნაგულისხმევია. GPT‑5‑ის ფასი შეადგენს $1.25/1M შეყვანის token-ს და $10/1M გამოტანის token-ს, GPT‑5 mini-ის ფასი შეადგენს $0.25/1M შეყვანის token-ს და $2/1M გამოტანის token-ს, ხოლო GPT‑5 nano-ის ფასი შეადგენს $0.05/1M შეყვანის token-ს და $0.40/1M გამოტანის token-ს.

ეს მოდელები  მხარს უჭერს reasoning_effort და verbosity API პარამეტრებს, ასევე custom tools-ს. ისინი ასევე მხარს უჭერს ინსტრუმენტების პარალელურ გამოძახებას, ჩაშენებულ ინსტრუმენტებს (ვებ ძიება, ფაილის ძიება, სურათის გენერირება და სხვა), API-ის ძირითად შესაძლებლობებს (streaming, სტრუქტურირებული შედეგები და სხვა) და ხარჯების დამზოგავ ფუნქციებს, როგორიცაა მოთხოვნის ქეშირება და Batch API.

GPT‑5‑ის არამსჯელობის ვერსია, რომელიც ChatGPT‑ში გამოიყენება, API-ში ხელმისაწვდომია როგორც gpt-5-chat-latest, ასევე ფასით $1.25/1M შეყვანის token და $10/1M გამოტანის token.

GPT‑5 ასევე გაეშვა Microsoft-ის პლატფორმებზე, მათ შორის Microsoft 365 Copilot, Copilot, GitHub Copilot და Azure AI Foundry-ში.

დეტალური ბენჩმარკები

ინტელექტი
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
AIME ’25(no tools)94,6%91,1%85,2%88,9%92,7%46,4%40,2%-
FrontierMath(with python tool only)26,3%22,1%9,6%15,8%15,4%---
GPQA diamond(no tools)85,7%82,3%71,2%83,3%81,4%66,3%65,0%50,3%
HLE[1](no tools)24,8%16,7%8,7%20,2%14,7%5,4%3,7%-
HMMT 2025(no tools)93,3%87,8%75,6%81,7%85,0%28,9%35,0%-

[1] ჩვენს წინა ბლოგპოსტში მოცემულ რიცხვებთან მცირე აცდენაა, რადგან ისინი HLE-ის ძველ ვერსიაზე იყო გაშვებული.

მულტიმოდალური
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
MMMU84,2%81,6%75,6%82,9%81,6%74,8%72,7%55,4%
MMMU-Pro(avg across standard and vision sets)78,4%74,1%62,6%76,4%73,4%60,3%58,9%33,0%
CharXiv reasoning(python enabled)81,1%75,5%62,7%78,6%72,0%56,7%56,8%40,5%
VideoMMMU, max frame 25684,6%82,5%66,8%83,3%79,4%60,9%55,1%30,2%
ERQA65,7%62,9%50,1%64,0%56,5%44,3%42,3%26,5%
კოდირება
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
SWE-Lancer: IC SWE Diamond Freelance Coding Tasks112 ათ. US$75 ათ. US$49 ათ. US$86 ათ. US$66 ათ. US$34 ათ. US$31 ათ. US$9 ათ. US$
SWE-bench Verified[2]74,9%71,0%54,7%69,1%68,1%54,6%23,6%-
Aider polyglot(diff)88,0%71,6%48,4%79,6%58,2%52,9%31,6%6,2%

[2] ჩვენ გამოვტოვებთ 23/500 ამოცანას, რომლებიც ჩვენს ინფრასტრუქტურაზე ვერ გაეშვა. გამოტოვებული 23 ამოცანის სრული სიაა: 'astropy__astropy-7606', 'astropy__astropy-8707', 'astropy__astropy-8872', 'django__django-10097', 'django__django-7530', 'matplotlib__matplotlib-20488', 'matplotlib__matplotlib-20676', 'matplotlib__matplotlib-20826', 'matplotlib__matplotlib-23299', 'matplotlib__matplotlib-24970', 'matplotlib__matplotlib-25479', 'matplotlib__matplotlib-26342', 'psf__requests-6028', 'pylint-dev__pylint-6528', 'pylint-dev__pylint-7080', 'pylint-dev__pylint-7277', 'pytest-dev__pytest-5262', 'pytest-dev__pytest-7521', 'scikit-learn__scikit-learn-12973', 'sphinx-doc__sphinx-10466', 'sphinx-doc__sphinx-7462', 'sphinx-doc__sphinx-8265' და 'sphinx-doc__sphinx-9367'.

ინსტრუქციების შესრულება
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
Scale multichallenge[3](o3-mini grader)69,6%62,3%54,9%60,4%57,5%46,2%42,2%31,1%
Internal API instruction following eval(hard)64,0%65,8%56,1%47,4%44,7%49,1%45,1%31,6%
COLLIE99,0%98,5%96,9%98,4%96,1%65,8%54,6%42,5%

[3] შენიშვნა: ვხედავთ, რომ MultiChallenge-ში ნაგულისხმევი შემფასებელი (GPT-4o) ხშირად არასწორად აფასებს მოდელის პასუხებს. ჩვენი დაკვირვებით, შემფასებლის მსჯელობის მოდელზე, როგორიცაა o3-mini, გადაყვანა შეფასების სიზუსტეს მნიშვნელოვნად აუმჯობესებს იმ ნიმუშებზე, რომლებიც შევამოწმეთ.

ფუნქციის გამოძახება
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
Tau2-bench airline62,6%60,0%41,0%64,8%60,2%56,0%51,0%14,0%
Tau2-bench retail81,1%78,3%62,3%80,2%70,5%74,0%66,0%21,5%
Tau2-bench telecom96,7%74,1%35,5%58,2%40,5%34,0%44,0%12,1%
გრძელი კონტექსტი
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
OpenAI-MRCR: 2 needle 128k95,2%84,3%43,2%55,0%56,4%57,2%47,2%36,6%
OpenAI-MRCR: 2 needle 256k86,8%58,8%34,9%--56,2%45,5%22,6%
Graphwalks bfs <128k78,3%73,4%64,0%77,3%62,3%61,7%61,7%25,0%
Graphwalks parents <128k73,3%64,3%43,8%72,9%51,1%58,0%60,5%9,4%
BrowseComp Long Context 128k90,0%89,4%80,4%88,3%80,0%85,9%89,0%89,4%
BrowseComp Long Context 256k88,8%86,0%68,4%--75,5%81,6%19,1%
VideoMME(long, with subtitle category)86,7%78,5%65,7%84,9%79,5%78,7%68,4%55,2%
ჰალუცინაციები
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
LongFact-Concepts hallucination rate(no tools)[lower is better]1,0%0,7%1,0%5,2%3,0%0,7%1,1%-
LongFact-Objects hallucination rate(no tools)[lower is better]1,2%1,3%2,8%6,8%8,9%1,1%1,8%-
FActScore hallucination rate(no tools)[lower is better]2,8%3,5%7,3%23,5%38,7%6,7%10,9%-

ავტორი

OpenAI