
დღეს Realtime API-ს საყოველთაო ხელმისაწვდომობით ვუშვებთ, ახალი ფუნქციებით, რომლებიც დეველოპერებსა და კომპანიებს საშუალებას აძლევს ააგონ სანდო, პროდუქტიულ გარემოში მზადმყოფი ხმოვანი აგენტები. API ახლა მხარს უჭერს დისტანციურ MCP სერვერებს, სურათის შეყვანებს და სატელეფონო ზარებს Session Initiation Protocol-ის (SIP) მეშვეობით, რაც ხმოვან აგენტებს უფრო შესაძლებლობიანს ხდის დამატებით ინსტრუმენტებსა და კონტექსტზე წვდომის წყალობით.
ასევე ვუშვებთ ჩვენს დღემდე ყველაზე მოწინავე მეტყველების გარდაქმნა მეტყველებად მოდელს — gpt-realtime. ახალი მოდელი აჩვენებს გაუმჯობესებას რთული ინსტრუქციების შესრულებაში, ინსტრუმენტების ზუსტად გამოძახებაში და ისეთი მეტყველების წარმოქმნაში, რომელიც უფრო ბუნებრივად და ექსპრესიულად ჟღერს. ის უკეთესად განმარტავს სისტემურ შეტყობინებებსა და დეველოპერის მოთხოვნებს — იქნება ეს მხარდაჭერის ზარზე გამაფრთხილებელი ტექსტის სიტყვასიტყვით წაკითხვა, ალფანუმერული სიმბოლოების გამეორება თუ წინადადების შუაში ენებს შორის შეუფერხებლად გადართვა. ასევე ვუშვებთ ორ ახალ ხმას, Cedar-სა და Marin-ს, რომლებიც დღეიდან ექსკლუზიურად Realtime API-შია ხელმისაწვდომი.
მას შემდეგ, რაც გასული წლის ოქტომბერში პირველად წარვადგინეთ Realtime API საჯარო ბეტაში, ათასობით დეველოპერმა შექმნა API-ზე დაფუძნებული პროდუქტები და დაგვეხმარა იმ გაუმჯობესებების ჩამოყალიბებაში, რომლებსაც დღეს ვუშვებთ — ოპტიმიზებული სანდოობისთვის, დაბალი შეყოვნებისა და მაღალი ხარისხისთვის, რათა ხმოვანი აგენტები წარმატებით დაინერგოს პროდუქტიულ გარემოში. ტრადიციული მილსადენებისგან განსხვავებით, რომლებიც მეტყველებიდან ტექსტში და ტექსტიდან მეტყველებაში რამდენიმე მოდელს აერთიანებს, Realtime API აუდიოს პირდაპირ ერთი მოდელისა და API-ის მეშვეობით ამუშავებს და წარმოქმნის. ეს ამცირებს შეყოვნებას, ინარჩუნებს მეტყველების ნიუანსებს და ქმნის უფრო ბუნებრივ, ექსპრესიულ პასუხებს.
„OpenAI-ის Realtime API-ში ახალი მეტყველების გარდაქმნა მეტყველებად მოდელი აჩვენებს უფრო ძლიერ მსჯელობას და უფრო ბუნებრივ მეტყველებას — რაც მას საშუალებას აძლევს გაუმკლავდეს რთულ, მრავალსაფეხურიან მოთხოვნებს, როგორიცაა განცხადებების შევიწროება ცხოვრების სტილის საჭიროებების მიხედვით ან ხელმისაწვდომობის განხილვაში დახმარება ისეთი ინსტრუმენტებით, როგორიცაა ჩვენი BuyAbility ქულა. ამან შეიძლება Zillow-ზე სახლის ძიება ან დაფინანსების ვარიანტების შესწავლა მეგობართან საუბარივით ბუნებრივად აქციოს და გაამარტივოს ისეთი გადაწყვეტილებები, როგორიცაა სახლის ყიდვა, გაყიდვა და ქირაობა.“
– Josh Weisberg, AI-ის ხელმძღვანელი Zillow-ში
ახალი მეტყველების გარდაქმნა მეტყველებად მოდელი — gpt-realtime — ჩვენი ყველაზე მოწინავე, პროდუქტიულ გარემოში მზადმყოფი ხმოვანი მოდელია. ჩვენ მოდელი მომხმარებლებთან მჭიდრო თანამშრომლობით გავწვრთენით, რათა რეალურ სამყაროს ამოცანებში გამოირჩეოდეს, როგორიცაა მომხმარებელთა მხარდაჭერა, პირადი დახმარება და განათლება — მოვარგეთ მოდელი იმას, როგორ ქმნიან და ანერგავენ დეველოპერები ხმოვან აგენტებს. მოდელი აჩვენებს გაუმჯობესებას აუდიოს ხარისხში, ინტელექტში, ინსტრუქციების შესრულებასა და ფუნქციის გამოძახებაში.
ბუნებრივად ჟღერადი საუბარი გადამწყვეტია რეალურ სამყაროში ხმოვანი აგენტების დანერგვისთვის. მოდელებს სჭირდებათ ისაუბრონ ადამიანის ინტონაციით, ემოციითა და ტემპით, რათა შექმნან სასიამოვნო გამოცდილება და წაახალისონ მომხმარებლებთან უწყვეტი საუბარი. ჩვენ gpt-realtime გავწვრთენით, რომ წარმოქმნას უფრო მაღალი ხარისხის მეტყველება, რომელიც უფრო ბუნებრივად ჟღერს და შეუძლია მიჰყვეს დეტალურ ინსტრუქციებს, როგორიცაა „ილაპარაკე სწრაფად და პროფესიონალურად“ ან „ილაპარაკე თანაგრძნობით, ფრანგული აქცენტით“.
API-ში ვუშვებთ ორ ახალ ხმას, Marin-ს და Cedar-ს, ბუნებრივად ჟღერად მეტყველებაში ყველაზე მნიშვნელოვანი გაუმჯობესებებით. ასევე ვაახლებთ ჩვენს არსებულ რვა ხმას, რათა ამ გაუმჯობესებებით ისინიც ისარგებლონ.
gpt-realtime აჩვენებს უფრო მაღალ ინტელექტს და შეუძლია ბუნებრივი აუდიოს უფრო დიდი სიზუსტით გაგება. მოდელს შეუძლია დაიჭიროს არავერბალური ნიშნები (მაგალითად სიცილი), წინადადების შუაში ენებს შორის გადართოს და ტონი მოარგოს („მოკლე და პროფესიონალური“ vs. „კეთილი და თანაგრძნობით სავსე“). შიდა შეფასებების მიხედვით, მოდელი ასევე აჩვენებს უფრო ზუსტ შედეგებს სხვა ენებში ალფანუმერული თანმიმდევრობების (როგორიცაა ტელეფონის ნომრები, VIN-ები და სხვა) ამოცნობაში, მათ შორის ესპანურში, ჩინურში, იაპონურში და ფრანგულში. Big Bench Audio შეფასებაზე, რომელიც მსჯელობის შესაძლებლობებს ზომავს, gpt-realtime 82.8% სიზუსტეს იღებს — აჯობებს ჩვენს წინა მოდელს 2024 წლის დეკემბრიდან, რომელსაც 65.6% აქვს.
Big Bench Audio(იხსნება ახალ ფანჯარაში) ბენჩმარკი არის შეფასების მონაცემთა ნაკრები იმ ენობრივი მოდელების მსჯელობის შესაძლებლობების შესაფასებლად, რომლებსაც აუდიო შეყვანის მხარდაჭერა აქვთ. ეს მონაცემთა ნაკრები Big Bench Hard-იდან აღებულ კითხვებს — რომელიც მოწინავე მსჯელობის მკაცრი ტესტირებისთვის არის შერჩეული — აუდიო დომენზე ადაპტირებს.
როდესაც დეველოპერები მეტყველების გარდაქმნა მეტყველებად აპლიკაციას ქმნიან, ისინი მოდელს აწვდიან ინსტრუქციების ერთობლიობას, თუ როგორ უნდა მოიქცეს, მათ შორის როგორ ილაპარაკოს, რა თქვას კონკრეტულ სიტუაციაში და რა გააკეთოს ან არ გააკეთოს. ჩვენი გაუმჯობესებები ამ ინსტრუქციების დაცვის მიმართულებაზე იყო ფოკუსირებული, რათა მცირე მითითებებსაც მეტი სიგნალი ჰქონდეს მოდელისთვის. MultiChallenge აუდიო ბენჩმარკზე, რომელიც ინსტრუქციების შესრულების სიზუსტეს ზომავს, gpt-realtime 30.5%-ს იღებს, რაც მნიშვნელოვანი გაუმჯობესებაა ჩვენს წინა მოდელთან შედარებით 2024 წლის დეკემბრიდან, რომელსაც 20.6% აქვს.
MultiChallenge(იხსნება ახალ ფანჯარაში) აფასებს, რამდენად კარგად უმკლავდებიან LLM-ები ადამიანებთან მრავალსვლიან საუბრებს. ის ფოკუსირებულია რეალისტური გამოწვევების ოთხ კატეგორიაზე, რომლებთან გამკლავებაც ამჟამინდელ მოწინავე მოდელებს უჭირთ. ეს გამოწვევები მოდელებისგან მოითხოვს ერთდროულად შეუთავსონ ინსტრუქციების შესრულება, კონტექსტის მართვა და კონტექსტში მსჯელობა. ჩვენ ტესტის კითხვების აუდიოსთვის მოსახერხებელი ქვეჯგუფი ტექსტიდან მეტყველებაში გადავიყვანეთ, რათა ამ შეფასების აუდიო ვერსია შეგვექმნა.
იმისთვის, რომ მეტყველების გარდაქმნა მეტყველებად მოდელით შესაძლებლობიანი ხმოვანი აგენტი ააგოთ, მოდელს უნდა შეეძლოს სწორ დროს სწორი ინსტრუმენტების გამოძახება, რათა პროდუქტიულ გარემოში სასარგებლო იყოს. ჩვენ ფუნქციის გამოძახება სამ მიმართულებაზე გავაუმჯობესეთ: შესაბამისი ფუნქციების გამოძახება, ფუნქციების შესაბამის დროს გამოძახება და ფუნქციების შესაბამისი არგუმენტებით გამოძახება (რაც უფრო მაღალ სიზუსტეს იძლევა). ComplexFuncBench აუდიო შეფასებაზე, რომელიც ფუნქციის გამოძახების წარმადობას ზომავს, gpt-realtime 66.5%-ს იღებს, ხოლო ჩვენი წინა მოდელი 2024 წლის დეკემბრიდან 49.7%-ს იღებს.
ასევე გავაუმჯობესეთ ასინქრონული ფუნქციის გამოძახება(იხსნება ახალ ფანჯარაში). ხანგრძლივი ფუნქციის გამოძახებები სესიის მიმდინარეობას აღარ დაარღვევს — მოდელს შეუძლია შედეგების მოლოდინში სითხისებრი საუბარი გააგრძელოს. ეს ფუნქცია ბუნებრივად ხელმისაწვდომია gpt-realtime-ში, ამიტომ დეველოპერებს კოდის განახლება არ სჭირდებათ.
ComplexFuncBench(იხსნება ახალ ფანჯარაში) ზომავს, რამდენად კარგად უმკლავდებიან მოდელები ფუნქციის გამოძახების რთულ ამოცანებს. ის აფასებს მუშაობას ისეთ სცენარებში, როგორიცაა მრავალსაფეხურიანი გამოძახებები, შეზღუდვებზე ან ნაგულისხმევ პარამეტრებზე მსჯელობა, ძალიან გრძელი შეყვანების დამუშავება. ჩვენ საწყისი ტექსტური მოთხოვნები მეტყველებად გადავაქციეთ, რათა ეს შეფასება ჩვენი მოდელისთვის აგვეშენებინა.
Realtime API სესიაში MCP მხარდაჭერის ჩართვა შეგიძლიათ სესიის კონფიგურაციაში დისტანციური MCP სერვერის URL-ის გადაცემით. დაკავშირების შემდეგ API ინსტრუმენტების გამოძახებებს ავტომატურად ამუშავებს, ამიტომ ინტეგრაციების ხელით აწყობა საჭირო აღარ არის.
ეს კონფიგურაცია თქვენს აგენტს ახალი შესაძლებლობებით გაფართოებას ამარტივებს — უბრალოდ მიუთითეთ სესიას სხვა MCP სერვერი და ეს ინსტრუმენტები მაშინვე გახდება ხელმისაწვდომი. Realtime-თან MCP-ის კონფიგურაციის შესახებ მეტის გასაგებად, გაეცანით ამ გზამკვლევს(იხსნება ახალ ფანჯარაში).
ახლა, როცა gpt-realtime-ში სურათის შეყვანაც მხარდაჭერილია, შეგიძლიათ Realtime API სესიაში აუდიოსა თუ ტექსტთან ერთად დაამატოთ სურათები, ფოტოები და ეკრანის ანაბეჭდები. ახლა მოდელს შეუძლია საუბარი დააფუძნოს იმაზე, რასაც მომხმარებელი რეალურად ხედავს, რაც მომხმარებლებს აძლევს საშუალებას დასვან კითხვები, როგორიცაა „რას ხედავ?“ ან „წაიკითხე ტექსტი ამ ეკრანის ანაბეჭდში.“
იმის ნაცვლად, რომ სურათი ცოცხალ ვიდეონაკადად აღიქვას, სისტემა მას უფრო ისე ეპყრობა, როგორც საუბარში სურათის დამატებას. თქვენს აპს შეუძლია თავად გადაწყვიტოს, რომელი სურათები გაუზიაროს მოდელს და როდის გაუზიაროს ისინი. ასე თქვენ აკონტროლებთ, რას ხედავს მოდელი და როდის პასუხობს.
სურათის შეყვანით დასაწყებად გაეცანით ჩვენს დოკუმენტაციას(იხსნება ახალ ფანჯარაში).
Realtime API-ის ინტეგრაციის გასამარტივებლად და პროდუქტიულ გარემოში გამოყენებისთვის მეტი მოქნილობის მისაცემად კიდევ რამდენიმე ფუნქცია დავამატეთ.
- Session Initiation Protocol (SIP) მხარდაჭერა: დაუკავშირეთ თქვენი აპები საჯარო სატელეფონო ქსელს, PBX სისტემებს, სამაგიდო ტელეფონებს და სხვა SIP საბოლოო წერტილებს პირდაპირი მხარდაჭერით Realtime API-ში. წაიკითხეთ ამის შესახებ დოკუმენტაციაში.(იხსნება ახალ ფანჯარაში)
- ხელახლა გამოყენებადი მოთხოვნები: ახლა შეგიძლიათ შეინახოთ და ხელახლა გამოიყენოთ მოთხოვნები — რომლებიც მოიცავს დეველოპერის შეტყობინებებს, ინსტრუმენტებს, ცვლადებს და მომხმარებლის/ასისტენტის მაგალით შეტყობინებებს — Realtime API სესიებს შორის, როგორც Responses API-ში. შეიტყვეთ მეტი დოკუმენტაციაში.(იხსნება ახალ ფანჯარაში)
Realtime API მოიცავს დაცვისა და შემამსუბუქებელი მექანიზმების მრავალ ფენას, რათა არასწორი გამოყენების პრევენციაში დაგვეხმაროს. ჩვენი უსაფრთხოების მიდგომისა და სისტემური ბარათის დეტალების შესახებ მეტი შეგიძლიათ გაიგოთ ბეტა ანონსის ბლოგში. ჩვენ ვიყენებთ აქტიურ კლასიფიკატორებს Realtime API სესიებზე, რაც ნიშნავს, რომ გარკვეული საუბრები შეიძლება შეჩერდეს, თუ დადგინდება, რომ ისინი არღვევს ჩვენი მავნე შინაარსის წესებს. დეველოპერებს ასევე შეუძლიათ მარტივად დაამატონ საკუთარი დამატებითი უსაფრთხოების დამცავი მექანიზმები Agents SDK(იხსნება ახალ ფანჯარაში)-ის გამოყენებით.
ჩვენი გამოყენების პოლიტიკები კრძალავს ჩვენი სერვისებიდან მიღებული შედეგების სპამისთვის, მოტყუებისთვის ან სხვა საზიანო მიზნებისთვის ხელახლა გამოყენებას ან გავრცელებას. დეველოპერებმა საბოლოო მომხმარებლებისთვის ასევე ნათლად უნდა მიუთითონ, როდის ურთიერთობენ ისინი AI-სთან, თუ ეს კონტექსტიდან უკვე ცხადი არ არის. Realtime API იყენებს წინასწარ დაყენებულ ხმებს, რათა ხელი შეუშალოს ბოროტმოქმედებს სხვების იმიტაციაში.
Realtime API სრულად უჭერს მხარს EU Data Residency(იხსნება ახალ ფანჯარაში)-ს ევროკავშირში დაფუძნებული აპლიკაციებისთვის და დაფარულია ჩვენი კორპორაციული კონფიდენციალურობის ვალდებულებებით.
საყოველთაოდ ხელმისაწვდომი Realtime API და ახალი gpt-realtime მოდელი დღეიდან ყველა დეველოპერისთვის არის ხელმისაწვდომი. ჩვენ gpt-realtime-ის ფასებს 20%-ით ვამცირებთ gpt-4o-realtime-preview-თან შედარებით — $32 / 1M აუდიო შეყვანის token ($0.40 კეშირებული შეყვანის token-ებისთვის) და $64 / 1M აუდიო გამოტანის token (იხილეთ დეტალური ფასები(იხსნება ახალ ფანჯარაში)). ასევე დავამატეთ საუბრის კონტექსტის დეტალური კონტროლი, რათა დეველოპერებმა შეძლონ გონივრული token-ლიმიტების დაყენება და ერთდროულად რამდენიმე სვლის შეკვეცა, რაც ხანგრძლივი სესიების ხარჯს მნიშვნელოვნად ამცირებს.
დასაწყებად ეწვიეთ ჩვენს Realtime API დოკუმენტაციას(იხსნება ახალ ფანჯარაში), დატესტეთ ახალი მოდელი Playground(იხსნება ახალ ფანჯარაში)-ში და იხილეთ ჩვენი Realtime API მოთხოვნების გზამკვლევი(იხსნება ახალ ფანჯარაში).


