დღეს ჩვენს API პლატფორმაზე ვუშვებთ GPT‑5‑ს — ჩვენს საუკეთესო მოდელს კოდირებისა და აგენტური ამოცანებისთვის.
GPT‑5 მოწინავეა (SOTA) კოდირების მთავარ ბენჩმარკებზე: SWE-bench Verified-ზე 74.9% და Aider polyglot-ზე 88% დააგროვა. GPT‑5 ისე გავწვრთენით, რომ ნამდვილი კოდირების თანამშრომელი იყოს. ის გამოირჩევა მაღალი ხარისხის კოდის შექმნით და ისეთი ამოცანების შესრულებით, როგორიცაა ბაგების გასწორება, კოდის რედაქტირება და რთული კოდბაზების შესახებ კითხვებზე პასუხი. მოდელი სამართავია და თანამშრომლობაზეა ორიენტირებული — მას შეუძლია ძალიან დეტალური ინსტრუქციების მაღალი სიზუსტით შესრულება და შეუძლია საკუთარი ქმედებების წინასწარი ახსნა ინსტრუმენტების გამოძახებამდე და მათ შორის. მოდელი ასევე გამოირჩევა front-end კოდირებაში და შიდა ტესტირებაში frontend ვებ-დეველოპმენტში OpenAI o3‑ს დროის 70%-ში აჯობა.
GPT‑5 რეალურ კოდირების ამოცანებზე გავწვრთენით ადრეულ ტესტერებთან თანამშრომლობით, როგორც სტარტაპებიდან, ისე საწარმოებიდან. Cursor ამბობს, რომ GPT‑5 „ყველაზე ჭკვიანი მოდელია, რომელიც [მათ] გამოუყენებიათ“ და „გამორჩეულად ინტელექტუალურია, ადვილად სამართავია და ისეთი პიროვნულობაც კი აქვს, რაც [მათ] სხვა მოდელებში არ უნახავთ“. Windsurf-მა გაგვიზიარა, რომ GPT‑5 მათ შეფასებებში SOTA-ა და „სხვა მოწინავე მოდელებთან შედარებით ინსტრუმენტების გამოძახების შეცდომების მაჩვენებელი ორჯერ ნაკლები აქვს“. Vercel ამბობს, რომ „ეს საუკეთესო frontend AI მოდელია, რომელიც უმაღლეს შედეგებს აღწევს როგორც ესთეტიკურ ხედვაში, ისე კოდის ხარისხში, და საკუთარი კატეგორია აქვს“.
GPT‑5 ასევე გამოირჩევა ხანგრძლივ აგენტურ ამოცანებში — τ2-bench telecom-ზე, ინსტრუმენტების გამოძახების ბენჩმარკზე, რომელიც სულ 2 თვის წინ გამოქვეყნდა, SOTA შედეგს (96.7%) აჩვენებს. GPT‑5‑ის გაუმჯობესებული ინსტრუმენტული ინტელექტი საშუალებას აძლევს მას საიმედოდ დააკავშიროს ათობით ინსტრუმენტის გამოძახება — როგორც მიმდევრობით, ისე პარალელურად — მიმართულების დაკარგვის გარეშე, რაც რეალური სამყაროს რთული ამოცანების სრულად შესრულებაში ბევრად უკეთესს ხდის. ის ასევე უფრო ზუსტად მისდევს ინსტრუმენტების ინსტრუქციებს, უკეთ უმკლავდება ინსტრუმენტების შეცდომებს და გამოირჩევა გრძელი კონტექსტიდან კონტენტის მოძიებაში. Manus ამბობს, რომ GPT‑5‑მა „[მათ] შიდა ბენჩმარკებზე ერთ მოდელზე ნანახი საუკეთესო შედეგი აჩვენა“. Notion ამბობს, რომ „[მოდელის] სწრაფი პასუხები, განსაკუთრებით დაბალი მსჯელობის რეჟიმში, GPT‑5‑ს იდეალურ მოდელად აქცევს, როცა რთული ამოცანების ერთმაგალითიანად გადაწყვეტა გჭირდებათ“. Inditex-მა გაგვიზიარა, რომ „რაც [GPT‑5]‑ს ნამდვილად გამოარჩევს, მისი მსჯელობის სიღრმეა: ნიუანსური, მრავალშრიანი პასუხები, რომლებიც საგნობრივი სფეროს რეალურ გაგებას ასახავს“.
ჩვენს API-ში ვამატებთ ახალ შესაძლებლობებს, რათა დეველოპერებს მეტი კონტროლი ჰქონდეთ მოდელის პასუხებზე. GPT‑5 მხარს უჭერს ახალ verbosity პარამეტრს (მნიშვნელობები: low, medium, high), რომელიც ეხმარება გააკონტროლოთ, იქნება პასუხები მოკლე და საქმიანი თუ გრძელი და ყოვლისმომცველი. GPT‑5‑ის reasoning_effort პარამეტრს ახლა შეუძლია მიიღოს minimal მნიშვნელობაც, რათა პასუხები უფრო სწრაფად დაბრუნდეს, ფართო მსჯელობის გარეშე. ასევე დავამატეთ ინსტრუმენტის ახალი ტიპი — custom tools — რათა GPT‑5‑მ ინსტრუმენტები JSON-ის ნაცვლად უბრალო ტექსტით გამოიძახოს. Custom tools მხარს უჭერს დეველოპერის მიერ მოწოდებული კონტექსტისგან თავისუფალი გრამატიკებით შეზღუდვას.
API-ში GPT‑5‑ს სამ ზომაში ვუშვებთ — gpt-5, gpt-5-mini და gpt-5-nano — რათა დეველოპერებს მეტი მოქნილობა მივცეთ წარმადობას, ფასსა და დაყოვნებას შორის ბალანსის დასაჭერად. მაშინ როცა ChatGPT‑ში GPT‑5 მსჯელობის, არამსჯელობის და მარშრუტიზატორი მოდელების სისტემაა, API პლატფორმაში GPT‑5 ის მსჯელობის მოდელია, რომელიც ChatGPT‑ში მაქსიმალურ წარმადობას უზრუნველყოფს. საყურადღებოა, რომ minimal მსჯელობის მქონე GPT‑5 სხვა მოდელია, ვიდრე ChatGPT‑ის არამსჯელობის მოდელი, და დეველოპერებისთვის უკეთ არის მორგებული. არამსჯელობის მოდელი, რომელიც ChatGPT‑ში გამოიყენება, ხელმისაწვდომია როგორც gpt-5-chat-latest.
ChatGPT‑ში GPT‑5‑ის შესახებ წასაკითხად და ChatGPT‑ის სხვა გაუმჯობესებების შესახებ მეტის გასაგებად, იხილეთ ჩვენი კვლევითი ბლოგი. თუ გაინტერესებთ, როგორ აპირებენ საწარმოები GPT‑5‑ის გამოყენებას, იხილეთ ჩვენი საწარმოო ბლოგი.
GPT‑5 ყველაზე ძლიერი კოდირების მოდელია, რომელიც ოდესმე გამოგვიშვია. ის კოდირების ბენჩმარკებსა და რეალური სამყაროს გამოყენების შემთხვევებში o3‑ს აჭარბებს და სპეციალურადაა მორგებული, რომ ბრწყინავდეს აგენტურ კოდირების პროდუქტებში, როგორიცაა Cursor, Windsurf, GitHub Copilot და Codex CLI. GPT‑5‑მა შთაბეჭდილება მოახდინა ჩვენს ალფა ტესტერებზე და მათ ბევრ კერძო შიდა შეფასებაში რეკორდები დაამყარა.
ადრეული გამოხმაურება GPT‑5‑ზე რეალური კოდირების ამოცანებისთვის
„GPT-5 ყველაზე ჭკვიანი კოდირების მოდელია, რომელიც გამოგვიყენებია. ჩვენმა გუნდმა GPT-5 გამორჩეულად ინტელექტუალურ, ადვილად სამართავ და ისეთ პიროვნულ თვისებებიც კი აღმოაჩინა, როგორიც სხვა არც ერთ მოდელში არ გვინახავს. ის არა მხოლოდ რთულ, ღრმად დამალულ ბაგებს პოულობს, არამედ შეუძლია გაუშვას ხანგრძლივი, მრავალეტაპიანი ფონური აგენტები, რათა რთული ამოცანები ბოლომდე მიიყვანოს — ისეთები, რომლებზეც სხვა მოდელები ხშირად ჩერდებოდნენ. ის ჩვენი ყოველდღიური ძირითადი არჩევანი გახდა ყველაფერში, PR-ების მოცულობის განსაზღვრიდან და დაგეგმვიდან დაწყებული, სრულციკლიანი build-ების დასრულებით დამთავრებული.“
SWE-bench Verified-ზე, რეალური სამყაროს პროგრამული ინჟინერიის ამოცანებზე დაფუძნებულ შეფასებაზე, GPT‑5 74.9%-ს აგროვებს, o3‑ის 69.1%-თან შედარებით. საყურადღებოა, რომ GPT‑5 ამ მაღალ ქულას უფრო დიდი ეფექტიანობითა და სისწრაფით აღწევს: o3‑თან შედარებით, მსჯელობის მაღალი ინტენსივობის რეჟიმში, GPT‑5 იყენებს 22%-ით ნაკლებ output token-ს და 45%-ით ნაკლებ ინსტრუმენტის გამოძახებას.
SWE-bench Verified-ში მოდელს ეძლევა კოდის რეპოზიტორიუმი და პრობლემის აღწერა, და მან პრობლემის გადასაჭრელად patch უნდა შექმნას. ტექსტური იარლიყები მსჯელობის ინტენსივობას მიუთითებს. ჩვენი ქულები გამოტოვებს 500-დან 23 პრობლემას, რომელთა გადაწყვეტებიც ჩვენს ინფრასტრუქტურაზე საიმედოდ არ გადიოდა. GPT‑5‑ს მიეცა მოკლე მოთხოვნა, რომელიც გადაწყვეტების საფუძვლიან გადამოწმებას უსვამდა ხაზს; იგივე მოთხოვნამ o3‑ს სარგებელი არ მოუტანა.
Aider polyglot-ზე, კოდის რედაქტირების შეფასებაზე, GPT‑5 ახალ რეკორდს — 88%-ს — ამყარებს, რაც o3‑თან შედარებით შეცდომების მაჩვენებლის ერთი მესამედით შემცირებას ნიშნავს.
Aider polygot(იხსნება ახალ ფანჯარაში)-ში (diff) მოდელს ეძლევა პროგრამირების სავარჯიშო Exercism-იდან და მან თავისი გადაწყვეტა კოდის diff-ის სახით უნდა დაწეროს. მსჯელობის მოდელები გაშვებული იყო მსჯელობის მაღალი ინტენსივობით.
ასევე აღმოვაჩინეთ, რომ GPT‑5 შესანიშნავად იძირება კოდბაზებში, რათა უპასუხოს კითხვებს იმის შესახებ, როგორ მუშაობს ან როგორ ურთიერთქმედებს სხვადასხვა ნაწილი. OpenAI-ის განმამტკიცებელი სწავლების სტეკივით რთულ კოდბაზშიც კი ვხედავთ, რომ GPT‑5 გვეხმარება ჩვენს კოდზე მსჯელობასა და კითხვებზე პასუხში, რითაც ჩვენს ყოველდღიურ მუშაობას აჩქარებს.
ვებ-აპებისთვის frontend კოდის შექმნისას GPT‑5 უფრო მეტად არის ორიენტირებული ესთეტიკაზე, უფრო ამბიციურია და უფრო ზუსტიც. o3‑თან გვერდიგვერდ შედარებებში ჩვენი ტესტერები GPT‑5‑ს დროის 70%-ში ამჯობინებდნენ.
აქ მოცემულია რამდენიმე სახალისო, შერჩეული მაგალითი იმისა, თუ რა შეუძლია GPT‑5‑ს ერთი მოთხოვნით:
მოთხოვნა: გთხოვთ, შექმნათ ლამაზი, რეალისტური landing page სერვისისთვის, რომელიც ყავის ნამდვილ ენთუზიასტს $200/თვეში სთავაზობს გამოწერას აღჭურვილობის ქირაობითა და ქოუჩინგით ყავის მოხალვასა და იდეალური ესპრესოს შექმნაში. სამიზნე აუდიტორია არის bay area-ში მცხოვრები საშუალო ასაკის ადამიანი, რომელიც შეიძლება ტექნოლოგიების სფეროში მუშაობდეს, განათლებული იყოს, ჰქონდეს თავისუფალი შემოსავალი და გატაცებული იყოს ყავის ხელოვნებითა და მეცნიერებით. ოპტიმიზაცია გაუკეთეთ 6-თვიანი გამოწერის კონვერსიას.
GPT‑5‑ის მეტი მაგალითი იხილეთ ჩვენს გალერეაში აქ(იხსნება ახალ ფანჯარაში).
GPT‑5 უკეთესი თანამშრომელია, განსაკუთრებით აგენტურ კოდირების პროდუქტებში, როგორიცაა Cursor, Windsurf, GitHub Copilot და Codex CLI. მუშაობის პროცესში GPT‑5‑ს შეუძლია ინსტრუმენტების გამოძახებებს შორის გეგმები, განახლებები და შეჯამებები გამოიტანოს. ჩვენს წინა მოდელებთან შედარებით, GPT‑5 უფრო პროაქტიურია ამბიციური ამოცანების დასრულებაში, თქვენი დადასტურების მოლოდინის გარეშე და მაღალი სირთულისგან უკანდახევის გარეშე.
აი მაგალითი, როგორ შეიძლება გამოიყურებოდეს GPT‑5 რთულ ამოცანაზე მუშაობისას (ამ შემთხვევაში — რესტორნისთვის ვებსაიტის შექმნა):
მას შემდეგ, რაც მომხმარებელი თავისი რესტორნისთვის ვებსაიტს ითხოვს, GPT‑5 იზიარებს მოკლე გეგმას, ქმნის აპის ჩონჩხს, აყენებს დამოკიდებულებებს, ქმნის საიტის კონტენტს, უშვებს build-ს კომპილაციის შეცდომების შესამოწმებლად, აჯამებს შესრულებულს და სთავაზობს შესაძლო შემდეგ ნაბიჯებს. ეს ვიდეო დაახლოებით 3-ჯერ არის აჩქარებული, რომ ლოდინი არ მოგიწიოთ; ვებსაიტის შექმნის სრული ხანგრძლივობა დაახლოებით სამი წუთი იყო.
აგენტური კოდირების მიღმაც, GPT‑5 ზოგადად აგენტურ ამოცანებში უკეთესია. GPT‑5 ამყარებს ახალ რეკორდებს ინსტრუქციების შესრულების (69.6% Scale MultiChallenge-ზე, o3‑mini‑ის შეფასებით) და ინსტრუმენტების გამოძახების (96.7% τ2-bench telecom-ზე) ბენჩმარკებზე. ინსტრუმენტული ინტელექტის გაუმჯობესება GPT‑5‑ს საშუალებას აძლევს ქმედებები უფრო საიმედოდ დააჯაჭვოს, რათა რეალური სამყაროს ამოცანები შეასრულოს.
ადრეული გამოხმაურება GPT‑5‑ზე აგენტური ამოცანებისთვის
„GPT-5 დიდი წინგადადგმული ნაბიჯია. მან ჩვენს შიდა ბენჩმარკებზე ერთ მოდელზე ნანახი საუკეთესო შედეგი აჩვენა. GPT-5 გამოირჩეოდა სხვადასხვა აგენტურ ამოცანაში — მანამდე, სანამ ერთი ხაზის კოდს შევცვლიდით ან მოთხოვნას მოვარგებდით. ახალმა შესავლურმა შეტყობინებებმა და ინსტრუმენტების გამოყენებაზე უფრო ზუსტმა კონტროლმა ჩვენს აგენტებში სტაბილურობისა და მართვადობის მნიშვნელოვანი ნახტომი უზრუნველყო.“
GPT‑5 ინსტრუქციებს თავის ნებისმიერ წინამორბედზე უფრო საიმედოდ მისდევს და მაღალ შედეგებს აჩვენებს COLLIE-ზე, Scale MultiChallenge-ზე და ჩვენს შიდა ინსტრუქციების შესრულების შეფასებაში.
COLLIE(იხსნება ახალ ფანჯარაში)-ში მოდელებმა უნდა დაწერონ ტექსტი, რომელიც სხვადასხვა შეზღუდვას აკმაყოფილებს. Scale MultiChallenge(იხსნება ახალ ფანჯარაში)-ში მოდელები მრავალეტაპიან საუბრებში წინა შეტყობინებებიდან ოთხი ტიპის ინფორმაციის სწორად გამოყენებაზე იტესტებიან. ჩვენი ქულები მიღებულია o3‑mini‑ის შემფასებლად გამოყენებით, რომელიც GPT‑4o‑ზე უფრო ზუსტი აღმოჩნდა. OpenAI API-ის ინსტრუქციების შესრულების ჩვენს შიდა შეფასებაში მოდელებმა რთული ინსტრუქციები უნდა დაიცვან, რომლებიც რეალური დეველოპერების უკუკავშირიდან არის მიღებული. მსჯელობის მოდელები გაშვებული იყო მსჯელობის მაღალი ინტენსივობით.
ბევრი ვიმუშავეთ ინსტრუმენტების გამოძახების იმ მიმართულებებით გაუმჯობესებაზე, რომლებიც დეველოპერებისთვის მნიშვნელოვანია. GPT‑5 უკეთესად მისდევს ინსტრუმენტების ინსტრუქციებს, უკეთ უმკლავდება ინსტრუმენტების შეცდომებს და უკეთ აკეთებს მრავალი ინსტრუმენტის გამოძახებას პროაქტიულად — მიმდევრობით ან პარალელურად. საჭიროების შემთხვევაში, GPT‑5‑ს ასევე შეუძლია მომხმარებლისთვის ხილული შესავლური შეტყობინებების გამოტანა ინსტრუმენტების გამოძახებამდე და მათ შორის, რათა გრძელი აგენტური ამოცანების დროს პროგრესის შესახებ მომხმარებლები განაახლოს.
ორი თვის წინ Sierra.ai-მ გამოაქვეყნა τ2-bench telecom, როგორც რთული ინსტრუმენტების გამოყენების ბენჩმარკი, რომელმაც აჩვენა, როგორ ეცემა მნიშვნელოვნად ენობრივი მოდელების წარმადობა ისეთ გარემოს მდგომარეობასთან ურთიერთქმედებისას, რომლის შეცვლაც მომხმარებლებს შეუძლიათ. მათ პუბლიკაციაში(იხსნება ახალ ფანჯარაში) არც ერთმა მოდელმა 49%-ზე მეტი ვერ დააგროვა. GPT‑5 97%-ს აგროვებს.
τ2-bench(იხსნება ახალ ფანჯარაში)-ში მოდელმა ინსტრუმენტები უნდა გამოიყენოს მომხმარებელთა მომსახურების ამოცანის შესასრულებლად, სადაც შეიძლება არსებობდეს მომხმარებელი, რომელსაც შეუძლია კომუნიკაცია და სამყაროს მდგომარეობაზე მოქმედება. მსჯელობის მოდელები გაშვებული იყო მსჯელობის მაღალი ინტენსივობით.
GPT‑5 ასევე გრძელი კონტექსტის წარმადობაშიც ძლიერ გაუმჯობესებას აჩვენებს. OpenAI-MRCR-ზე, რომელიც გრძელი კონტექსტიდან ინფორმაციის მოძიების საზომია, GPT‑5 o3‑სა და GPT‑4.1‑ს აჭარბებს, და ეს უპირატესობა მნიშვნელოვნად იზრდება უფრო გრძელი შეყვანის სიგრძეებზე.
OpenAI-MRCR(იხსნება ახალ ფანჯარაში)-ში (multi-round co-reference resolution) გრძელ, მსგავსი მოთხოვნებისა და პასუხების „თივის ზვინებში“ თავსდება რამდენიმე იდენტური „ნემსი“ მომხმარებლის მოთხოვნა, და მოდელს ეთხოვება i-ე ნემსის პასუხის გამეორება. Mean match ratio ზომავს საშუალო სტრიქონის დამთხვევის კოეფიციენტს მოდელის პასუხსა და სწორ პასუხს შორის. 256k მაქსიმალური შეყვანის token-ებზე წერტილები წარმოადგენს 128k–256k შეყვანის token-ებზე საშუალოებს და ასე შემდეგ. აქ 256k ნიშნავს 256 * 1,024 = 262,114 token-ს. მსჯელობის მოდელები გაშვებული იყო მსჯელობის მაღალი ინტენსივობით.
ჩვენ ასევე ღია კოდად ვუშვებთ BrowseComp Long Context(იხსნება ახალ ფანჯარაში)-ს, ახალ ბენჩმარკს გრძელი კონტექსტის კითხვა-პასუხის შესაფასებლად. ამ ბენჩმარკში მოდელს ეძლევა მომხმარებლის შეკითხვა, შესაბამისი ძიების შედეგების გრძელი სია, და მან ამ შედეგებზე დაყრდნობით უნდა უპასუხოს კითხვას. BrowseComp Long Context ისე შევქმენით, რომ იყოს რეალისტური, რთული და საიმედოდ სწორი საფუძვლიანი პასუხები ჰქონდეს. 128K–256K token-იანი შეყვანებისას GPT‑5 სწორ პასუხს შემთხვევების 89%-ში იძლევა.
API-ში ყველა GPT‑5 მოდელს შეუძლია მიიღოს მაქსიმუმ 272,000 შეყვანის token და გამოიტანოს მაქსიმუმ 128,000 reasoning & output token, ჯამში 400,000 token-იანი კონტექსტის სიგრძისთვის.
GPT‑5 ჩვენს წინა მოდელებზე უფრო სანდოა. LongFact-ისა და FactScore-ის ბენჩმარკების მოთხოვნებზე GPT‑5 დაახლოებით 80%-ით ნაკლებ ფაქტობრივ შეცდომას უშვებს, ვიდრე o3. ეს მას უკეთესად შესაფერისს ხდის აგენტური გამოყენების შემთხვევებისთვის, სადაც სისწორე მნიშვნელოვანია — განსაკუთრებით კოდში, მონაცემებსა და გადაწყვეტილების მიღებაში.
უფრო მაღალი ქულები უარესია. LongFact(იხსნება ახალ ფანჯარაში) და FActScore(იხსნება ახალ ფანჯარაში) შედგება ღია ტიპის, ფაქტების მოძიებაზე ორიენტირებული კითხვებისგან. ჩვენ ვიყენებთ LLM-ზე დაფუძნებულ შემფასებელს browse შესაძლებლობით, რათა ამ ბენჩმარკების მოთხოვნებზე პასუხები ფაქტობრივად გადავამოწმოთ და ფაქტობრივად არასწორი მტკიცებების წილი გავზომოთ. იმპლემენტაციისა და შეფასების დეტალები ხელმისაწვდომია სისტემურ ბარათში. მსჯელობის მოდელები გამოყენებული იყო მსჯელობის მაღალი ინტენსივობით. ძიება ჩართული არ ყოფილა.
ზოგადად, GPT‑5 გაწვრთნილია, რომ საკუთარი შეზღუდვების მიმართ უფრო გაცნობიერებული იყოს და მოულოდნელ სირთულეებს უკეთ გაუმკლავდეს. ასევე GPT‑5 ისე გავწვრთენით, რომ ჯანმრთელობასთან დაკავშირებულ კითხვებზე ბევრად უფრო ზუსტი იყოს (მეტი წაიკითხეთ ჩვენს კვლევით ბლოგში). როგორც ყველა ენობრივი მოდელის შემთხვევაში, გირჩევთ GPT‑5‑ის ნაშრომი გადაამოწმოთ მაშინ, როცა მნიშვნელობა მაღალია.
დეველოპერებს API-ში reasoning_effort პარამეტრით შეუძლიათ აკონტროლონ GPT‑5‑ის ფიქრის დრო. წინა მნიშვნელობების — low, medium (ნაგულისხმევი) და high — გარდა, GPT‑5 მხარს უჭერს ასევე minimal-ს, რომელიც GPT‑5‑ის მსჯელობას მინიმუმამდე ამცირებს, რათა პასუხი სწრაფად დაბრუნდეს.
უფრო მაღალი reasoning_effort მნიშვნელობები ხარისხს მაქსიმუმამდე აჰყავს, უფრო დაბალი მნიშვნელობები კი სიჩქარეს. ყველა ამოცანა ერთნაირად არ სარგებლობს დამატებითი მსჯელობით, ამიტომ გირჩევთ ექსპერიმენტი ჩაატაროთ, რომ ნახოთ, რომელი მუშაობს უკეთ თქვენსთვის მნიშვნელოვან გამოყენების შემთხვევებზე.
მაგალითად, low-ზე მაღალი მსჯელობა შედარებით მარტივ გრძელკონტექსტიან მოძიებაში ცოტას მატებს, მაგრამ საკმაოდ ბევრ პროცენტულ პუნქტს ამატებს CharXiv Reasoning(იხსნება ახალ ფანჯარაში)-ს, ვიზუალური მსჯელობის ბენჩმარკს.
GPT‑5‑ის მსჯელობის ინტენსივობა სხვადასხვა ამოცანაზე განსხვავებულ სარგებელს იძლევა. CharXiv Reasoning-ისთვის GPT‑5‑ს python ინსტრუმენტზე წვდომა ჰქონდა.
იმისთვის, რომ GPT‑5‑ის პასუხების ნაგულისხმევი სიგრძე უფრო მარტივად იმართებოდეს, შემოვიტანეთ ახალი API პარამეტრი verbosity, რომელიც იღებს მნიშვნელობებს low, medium (ნაგულისხმევი) და high. თუ აშკარა ინსტრუქციები verbosity-ის პარამეტრებს ეწინააღმდეგება, უპირატესობა აშკარა ინსტრუქციებს ენიჭება. მაგალითად, თუ GPT‑5‑ს სთხოვთ „დაწერე 5-პარაგრაფიანი ესე“, მოდელის პასუხი ყოველთვის 5 პარაგრაფი უნდა იყოს verbosity-ის დონის მიუხედავად (თუმცა თავად პარაგრაფები შეიძლება უფრო გრძელი ან მოკლე იყოს).
ვრცლადობა=დაბალი
ვრცლადობა=საშუალო
ვრცლადობა=მაღალი
საჭიროების შემთხვევაში, GPT‑5 გამოიტანს მომხმარებლისთვის ხილულ შესავლურ შეტყობინებებს ინსტრუმენტების გამოძახებამდე და მათ შორის. ფარული მსჯელობის შეტყობინებებისგან განსხვავებით, ეს ხილული შეტყობინებები GPT‑5‑ს საშუალებას აძლევს მომხმარებელს გაუზიაროს გეგმები და პროგრესი, რაც საბოლოო მომხმარებლებს ეხმარება გაიგონ მისი მიდგომა და განზრახვა ინსტრუმენტების გამოძახებების უკან.
ვნერგავთ ინსტრუმენტის ახალ ტიპს — custom tools — რომელიც GPT‑5‑ს საშუალებას აძლევს ინსტრუმენტი JSON-ის ნაცვლად უბრალო ტექსტით გამოიძახოს. იმისათვის, რომ GPT‑5 custom tool-ის ფორმატებს მისდევდეს, დეველოპერებს შეუძლიათ მიაწოდონ regex ან თუნდაც უფრო სრულად განსაზღვრული კონტექსტისგან თავისუფალი გრამატიკა(იხსნება ახალ ფანჯარაში).
მანამდე, დეველოპერის მიერ განსაზღვრული ინსტრუმენტებისთვის ჩვენი ინტერფეისი მოითხოვდა, რომ ისინი JSON-ით გამოძახებულიყო — ფორმატით, რომელსაც ფართოდ იყენებენ ვებ API-ები და ზოგადად დეველოპერები. თუმცა, სწორი JSON-ის გამოტანა მოითხოვს, რომ მოდელმა სრულყოფილად დააესქეიფოს ყველა ბრჭყალი, უკუსლეში, ახალი ხაზები და სხვა საკონტროლო სიმბოლოები. მიუხედავად იმისა, რომ ჩვენი მოდელები JSON-ის გამოსატანად კარგად არიან გაწვრთნილი, გრძელ შეყვანებზე, როგორიცაა ასობით ხაზის კოდი ან 5-გვერდიანი ანგარიში, შეცდომის ალბათობა მატულობს. Custom tools-ით GPT‑5‑ს შეუძლია ინსტრუმენტის შეყვანები უბრალო ტექსტად დაწეროს, ყველა იმ სიმბოლოს დასქეიფვის გარეშე, რომელსაც ეს სჭირდება.
SWE-bench Verified-ზე, custom tools-ის გამოყენებით JSON tools-ის ნაცვლად, GPT‑5 დაახლოებით იმავე შედეგს აჩვენებს.
GPT‑5 უსაფრთხოებაში მოწინავე ზღვარს აფართოებს და უფრო მდგრადი, საიმედო და სასარგებლო მოდელია. GPT‑5 ჩვენს წინა მოდელებზე მნიშვნელოვნად ნაკლებად არის მიდრეკილი ჰალუცინაციებისკენ, უფრო გულწრფელად აცნობებს მომხმარებელს თავის ქმედებებსა და შესაძლებლობებზე და, სადაც შესაძლებელია, ყველაზე სასარგებლო პასუხს იძლევა, უსაფრთხოების საზღვრებში დარჩენით. მეტი შეგიძლიათ წაიკითხოთ ჩვენს კვლევით ბლოგში.
GPT‑5 უკვე ხელმისაწვდომია API პლატფორმაში სამ ზომაში: gpt-5, gpt-5-mini და gpt-5-nano. ის ხელმისაწვდომია Responses API-ზე, ჩატის დასრულების API-ზე და Codex CLI-ში ნაგულისხმევია. GPT‑5‑ის ფასი შეადგენს $1.25/1M შეყვანის token-ს და $10/1M გამოტანის token-ს, GPT‑5 mini-ის ფასი შეადგენს $0.25/1M შეყვანის token-ს და $2/1M გამოტანის token-ს, ხოლო GPT‑5 nano-ის ფასი შეადგენს $0.05/1M შეყვანის token-ს და $0.40/1M გამოტანის token-ს.
ეს მოდელები მხარს უჭერს reasoning_effort და verbosity API პარამეტრებს, ასევე custom tools-ს. ისინი ასევე მხარს უჭერს ინსტრუმენტების პარალელურ გამოძახებას, ჩაშენებულ ინსტრუმენტებს (ვებ ძიება, ფაილის ძიება, სურათის გენერირება და სხვა), API-ის ძირითად შესაძლებლობებს (streaming, სტრუქტურირებული შედეგები და სხვა) და ხარჯების დამზოგავ ფუნქციებს, როგორიცაა მოთხოვნის ქეშირება და Batch API.
GPT‑5‑ის არამსჯელობის ვერსია, რომელიც ChatGPT‑ში გამოიყენება, API-ში ხელმისაწვდომია როგორც gpt-5-chat-latest, ასევე ფასით $1.25/1M შეყვანის token და $10/1M გამოტანის token.
GPT‑5 ასევე გაეშვა Microsoft-ის პლატფორმებზე, მათ შორის Microsoft 365 Copilot, Copilot, GitHub Copilot და Azure AI Foundry-ში.
დასაწყებად გაეცანით GPT‑5‑ის დოკუმენტაციას(იხსნება ახალ ფანჯარაში), ფასების დეტალებს(იხსნება ახალ ფანჯარაში) და მოთხოვნების სახელმძღვანელოს(იხსნება ახალ ფანჯარაში).
ინტელექტი
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| AIME ’25(no tools) | 94,6% | 91,1% | 85,2% | 88,9% | 92,7% | 46,4% | 40,2% | - |
| FrontierMath(with python tool only) | 26,3% | 22,1% | 9,6% | 15,8% | 15,4% | - | - | - |
| GPQA diamond(no tools) | 85,7% | 82,3% | 71,2% | 83,3% | 81,4% | 66,3% | 65,0% | 50,3% |
| HLE[1](no tools) | 24,8% | 16,7% | 8,7% | 20,2% | 14,7% | 5,4% | 3,7% | - |
| HMMT 2025(no tools) | 93,3% | 87,8% | 75,6% | 81,7% | 85,0% | 28,9% | 35,0% | - |
[1] ჩვენს წინა ბლოგპოსტში მოცემულ რიცხვებთან მცირე აცდენაა, რადგან ისინი HLE-ის ძველ ვერსიაზე იყო გაშვებული.
მულტიმოდალური
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| MMMU | 84,2% | 81,6% | 75,6% | 82,9% | 81,6% | 74,8% | 72,7% | 55,4% |
| MMMU-Pro(avg across standard and vision sets) | 78,4% | 74,1% | 62,6% | 76,4% | 73,4% | 60,3% | 58,9% | 33,0% |
| CharXiv reasoning(python enabled) | 81,1% | 75,5% | 62,7% | 78,6% | 72,0% | 56,7% | 56,8% | 40,5% |
| VideoMMMU, max frame 256 | 84,6% | 82,5% | 66,8% | 83,3% | 79,4% | 60,9% | 55,1% | 30,2% |
| ERQA | 65,7% | 62,9% | 50,1% | 64,0% | 56,5% | 44,3% | 42,3% | 26,5% |
კოდირება
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| SWE-Lancer: IC SWE Diamond Freelance Coding Tasks | 112 ათ. US$ | 75 ათ. US$ | 49 ათ. US$ | 86 ათ. US$ | 66 ათ. US$ | 34 ათ. US$ | 31 ათ. US$ | 9 ათ. US$ |
| SWE-bench Verified[2] | 74,9% | 71,0% | 54,7% | 69,1% | 68,1% | 54,6% | 23,6% | - |
| Aider polyglot(diff) | 88,0% | 71,6% | 48,4% | 79,6% | 58,2% | 52,9% | 31,6% | 6,2% |
[2] ჩვენ გამოვტოვებთ 23/500 ამოცანას, რომლებიც ჩვენს ინფრასტრუქტურაზე ვერ გაეშვა. გამოტოვებული 23 ამოცანის სრული სიაა: 'astropy__astropy-7606', 'astropy__astropy-8707', 'astropy__astropy-8872', 'django__django-10097', 'django__django-7530', 'matplotlib__matplotlib-20488', 'matplotlib__matplotlib-20676', 'matplotlib__matplotlib-20826', 'matplotlib__matplotlib-23299', 'matplotlib__matplotlib-24970', 'matplotlib__matplotlib-25479', 'matplotlib__matplotlib-26342', 'psf__requests-6028', 'pylint-dev__pylint-6528', 'pylint-dev__pylint-7080', 'pylint-dev__pylint-7277', 'pytest-dev__pytest-5262', 'pytest-dev__pytest-7521', 'scikit-learn__scikit-learn-12973', 'sphinx-doc__sphinx-10466', 'sphinx-doc__sphinx-7462', 'sphinx-doc__sphinx-8265' და 'sphinx-doc__sphinx-9367'.
ინსტრუქციების შესრულება
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| Scale multichallenge[3](o3-mini grader) | 69,6% | 62,3% | 54,9% | 60,4% | 57,5% | 46,2% | 42,2% | 31,1% |
| Internal API instruction following eval(hard) | 64,0% | 65,8% | 56,1% | 47,4% | 44,7% | 49,1% | 45,1% | 31,6% |
| COLLIE | 99,0% | 98,5% | 96,9% | 98,4% | 96,1% | 65,8% | 54,6% | 42,5% |
[3] შენიშვნა: ვხედავთ, რომ MultiChallenge-ში ნაგულისხმევი შემფასებელი (GPT-4o) ხშირად არასწორად აფასებს მოდელის პასუხებს. ჩვენი დაკვირვებით, შემფასებლის მსჯელობის მოდელზე, როგორიცაა o3-mini, გადაყვანა შეფასების სიზუსტეს მნიშვნელოვნად აუმჯობესებს იმ ნიმუშებზე, რომლებიც შევამოწმეთ.
ფუნქციის გამოძახება
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| Tau2-bench airline | 62,6% | 60,0% | 41,0% | 64,8% | 60,2% | 56,0% | 51,0% | 14,0% |
| Tau2-bench retail | 81,1% | 78,3% | 62,3% | 80,2% | 70,5% | 74,0% | 66,0% | 21,5% |
| Tau2-bench telecom | 96,7% | 74,1% | 35,5% | 58,2% | 40,5% | 34,0% | 44,0% | 12,1% |
გრძელი კონტექსტი
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| OpenAI-MRCR: 2 needle 128k | 95,2% | 84,3% | 43,2% | 55,0% | 56,4% | 57,2% | 47,2% | 36,6% |
| OpenAI-MRCR: 2 needle 256k | 86,8% | 58,8% | 34,9% | - | - | 56,2% | 45,5% | 22,6% |
| Graphwalks bfs <128k | 78,3% | 73,4% | 64,0% | 77,3% | 62,3% | 61,7% | 61,7% | 25,0% |
| Graphwalks parents <128k | 73,3% | 64,3% | 43,8% | 72,9% | 51,1% | 58,0% | 60,5% | 9,4% |
| BrowseComp Long Context 128k | 90,0% | 89,4% | 80,4% | 88,3% | 80,0% | 85,9% | 89,0% | 89,4% |
| BrowseComp Long Context 256k | 88,8% | 86,0% | 68,4% | - | - | 75,5% | 81,6% | 19,1% |
| VideoMME(long, with subtitle category) | 86,7% | 78,5% | 65,7% | 84,9% | 79,5% | 78,7% | 68,4% | 55,2% |
ჰალუცინაციები
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| LongFact-Concepts hallucination rate(no tools)[lower is better] | 1,0% | 0,7% | 1,0% | 5,2% | 3,0% | 0,7% | 1,1% | - |
| LongFact-Objects hallucination rate(no tools)[lower is better] | 1,2% | 1,3% | 2,8% | 6,8% | 8,9% | 1,1% | 1,8% | - |
| FActScore hallucination rate(no tools)[lower is better] | 2,8% | 3,5% | 7,3% | 23,5% | 38,7% | 6,7% | 10,9% | - |


