გადადით მთავარ შინაარსზე
OpenAI

ხმის ინტელექტის განვითარება API-ში ახალი მოდელებით

რეალურ დროში ხმოვანი მოდელების ახალი თაობა, რომელსაც შეუძლია მსჯელობა, თარგმნა და ტრანსკრიფცია საუბრის პარალელურად.

იტვირთება…

API-ში წარმოგიდგენთ სამ აუდიო მოდელს, რომლებიც დეველოპერებისთვის ხმოვანი აპების ახალ კლასს ხსნის. ამ მოდელებით დეველოპერებს შეუძლიათ შექმნან ხმოვანი გამოცდილებები, რომლებიც უფრო ბუნებრივად აღიქმება, უფრო გონივრულად რეაგირებს და მოქმედებს რეალურ დროში:

  • GPT‑Realtime‑2, ჩვენი პირველი ხმოვანი მოდელი GPT‑5‑ის კლასის მსჯელობით, რომელსაც შეუძლია უფრო რთული მოთხოვნების დამუშავება და საუბრის ბუნებრივად გაგრძელება.
  • GPT‑Realtime‑Translate, პირდაპირი თარგმნის ახალი მოდელი, რომელიც მეტყველებას 70+ შემავალი ენიდან 13 გამომავალ ენაზე თარგმნის და მოსაუბრეს ტემპს უწყობს.
  • GPT‑Realtime‑Whisper, ახალი სტრიმინგული მეტყველება-ტექსტად მოდელი, რომელიც მეტყველებას პირდაპირ რეჟიმში აწერს ტრანსკრიფციას, საუბრისასვე.

ცადეთ GPT-Realtime-2

დაიწყეთ სესია, შემდეგ კი ბუნებრივად ისაუბრეთ GPT-Realtime-2-თან.
რა შეიძლება ვიკითხო?

სესიის დაწყების შემდეგ ცადეთ თქვათ ერთ-ერთი:

  • დღეს საღამოს ბოლო წუთს დაგეგმილ ვახშამს ვმასპინძლობ. 30 წუთი მაქვს, მყავს ორი ვეგეტარიანელი მეგობარი, ერთი — სოკოს მოძულე, და მაქვს პატარა სამზარეულო. დამეხმარე მარტივი მენიუს შედგენაში.
  • იაპონიაში გამართულ Live ღონისძიებაზე სტუმრებს ვესალმები. თქვი თბილი, ბუნებრივი მისალმება იაპონურად — ისე, თითქოს მასპინძელი რაღაც განსაკუთრებულს იწყებდეს.
  • ჩემი შეკვეთის ნომერია Orbit-742Q. მკაფიოდ გამიმეორე, რომ გადავამოწმო, სწორია თუ არა.
  • დამეხმარე ვივარჯიშო იმაში, თუ როგორ ვუთხრა ჩემს გუნდს, რომ გაშვების ეტაპს მივაღწიეთ. ჯერ თქვი ეს მშვიდი თავდაჯერებულობით, შემდეგ კი — მეტი აღტაცებით.
  • მოგზაურობისთვის ვიქტორინას ვგეგმავ. მოიფიქრე სამი ეშმაკური შეკითხვა, რომლებიც ერთი შეხედვით მარტივად ჟღერს, შემდეგ კი თითოეული პასუხი ერთი წინადადებით ახსენი.

ამ დემოს დროის ლიმიტი აქვს. მისი გამოყენებით თქვენ ეთანხმებით OpenAI-ს პირობებს და ადასტურებთ, რომ გაეცანით ჩვენს კონფიდენციალურობის წესებს.

ხმა თანდათან ერთ-ერთი ყველაზე ბუნებრივი გზა ხდება, რომლითაც ადამიანები პროგრამულ უზრუნველყოფას იყენებენ. ის ადამიანს საშუალებას აძლევს დახმარება ითხოვოს მანქანის მართვისას, შეცვალოს მოგზაურობის გეგმა აეროპორტში გადაადგილებისას, მიიღოს მხარდაჭერა სასურველ ენაზე ან შეასრულოს დავალება ბეჭდვის შეწყვეტის გარეშე.

მაგრამ სასარგებლო ხმოვანი პროდუქტების შექმნას მხოლოდ სწრაფი მონაცვლეობა ან ბუნებრივად ჟღერადი ხმა არ ჰყოფნის. ხმოვან აგენტს უნდა შეეძლოს გაიგოს, რას გულისხმობს ადამიანი, შეინარჩუნოს კონტექსტი, აღდგეს მაშინ, როცა მოთხოვნა იცვლება, გამოიყენოს ხელსაწყოები საუბრის გაგრძელებისას და უპასუხოს ისე, როგორც მოცემულ მომენტს შეეფერება.

ერთად, მოდელები, რომლებსაც ვუშვებთ, რეალურ დროში აუდიოს მარტივი კითხვა-პასუხის რეჟიმიდან იმ ხმოვანი ინტერფეისებისკენ მიიწევს, რომლებსაც რეალურად შეუძლიათ საქმის გაკეთება: მოსმენა, მსჯელობა, თარგმნა, ტრანსკრიფცია და მოქმედება საუბრის განვითარების პარალელურად.

ხმა როგორც ინტერფეისი ადამიანებსა და პროდუქტებს შორის

რადგან ხმა პროგრამული უზრუნველყოფის გამოყენების უფრო ბუნებრივ გზად იქცევა, ვხედავთ, რომ დეველოპერები ხმოვან AI-ს სამ წარმოშობილ შაბლონზე აწყობენ:

  • Voice-to-action, სადაც ადამიანებს შეუძლიათ აღწერონ, რა სჭირდებათ, ხოლო სისტემას შეუძლია მოთხოვნაზე იმსჯელოს, გამოიყენოს ხელსაწყოები და შეასრულოს დავალება. მაგალითად, Zillow ქმნის ასისტენტს, რომელსაც შეუძლია მოუსმინოს, იმსჯელოს და იმოქმედოს ისეთ მოთხოვნებზე, როგორიცაა: „მომიძებნე სახლები ჩემი BuyAbility-ის ფარგლებში, ერიდე ხმაურიან ქუჩებს და შაბათისთვის ტურის დაჯავშნაში დამეხმარე.“
  • Systems-to-voice, სადაც პროგრამულ უზრუნველყოფას შეუძლია კონტექსტი ცოცხალ სალაპარაკო მითითებებად აქციოს. მაგალითად, სამოგზაურო აპს შეუძლია პროაქტიულად უთხრას მგზავრს: „თქვენი შემომავალი ფრენა აგვიანებს, მაგრამ გადაჯდომას მაინც მოასწრებთ. ვიპოვე ახალი გასასვლელი, ტერმინალში ყველაზე სწრაფი მარშრუტი დავგეგმე და თქვენი ბარგის გადატანა ისევ მოსალოდნელია.“
  • Voice-to-voice, სადაც AI-ს შეუძლია დაეხმაროს ცოცხალი საუბრების გაგრძელებას ენებს, ამოცანებს ან ცვალებად კონტექსტს შორის. მაგალითად, Deutsche Telekom ქმნის ხმოვანი მხარდაჭერის გამოცდილებებს, სადაც მომხმარებლებს შეუძლიათ ისაუბრონ მათთვის ყველაზე მოსახერხებელ ენაზე, მაშინ როცა მოდელი საუბარს რეალურ დროში თარგმნის.
დიაგრამა, რომელიც აჩვენებს ხმოვანი AI-ის სამ სამუშაო პროცესს: voice-to-action, რომელიც მეტყველებას აკავშირებს აპებთან, როგორიცაა კოდი და დეველოპმენტი, შოპინგი, ავტომობილში გამოყენება და დაგეგმვის ხელსაწყოები; systems-to-voice, რომელიც აპებს, კალენდრებს, CRM-ს და მხარდაჭერის დაფებს მეტყველებასთან აკავშირებს; და voice-to-voice, რომელიც ორ ხმოვან აგენტს აკავშირებს.

ეს შაბლონები ერთადაც შეიძლება მუშაობდეს. Priceline მიისწრაფვის მომავლისკენ, სადაც მოგზაურებს მთელი მოგზაურობის ხმით მართვა შეეძლებათ: საუბრის ფორმატში ფრენებისა და სასტუმროების ძიება, ცვლილებების მართვა — მაგალითად, სასტუმროს ჯავშნის კორექტირება ფრენის დაგვიანების შემდეგ ან TSA-ს ლოდინის დროების რეალურ დროში განახლებების მიღება — და საუბრების თარგმნა მაშინ, როცა მოგზაურები უკვე ადგილზე არიან.

რეალურ დროში ხმა: ხმოვან მოდელებს ვეხმარებით მსჯელობასა და მოქმედებაში

GPT‑Realtime‑2 შექმნილია ცოცხალი ხმოვანი ინტერაქციებისთვის, სადაც მოდელი საუბარს წინ მიიწევს მაშინ, როცა მოთხოვნაზე მსჯელობს, ხელსაწყოებს იძახებს, ასწორებს შეცდომებს ან რეაგირებს შეწყვეტებზე და პასუხობს ისე, როგორც მომენტს შეეფერება.

  • Preambles: დეველოპერებს შეუძლიათ ძირითადი პასუხის წინ ჩართონ მოკლე ფრაზები, როგორიცაა „ამას შევამოწმებ“ ან „ერთი წუთით, სანამ ამას გადავხედავ“, რათა მომხმარებელმა იცოდეს, რომ აგენტი მოთხოვნაზე მუშაობს.
  • Parallel tool calls and tool transparency: მოდელს შეუძლია ერთდროულად რამდენიმე ხელსაწყო გამოიძახოს და ეს ქმედებები გასაგონ ფრაზებად აქციოს, მაგალითად „თქვენს კალენდარს ვამოწმებ“ ან „ახლავე ვნახავ“, რაც აგენტებს ეხმარება ამოცანების შესრულებისას რეაგირება შეინარჩუნონ.
  • Stronger recovery behavior: მოდელს შეუძლია უფრო გამართულად აღდგეს ისეთი ფრაზებით, როგორიცაა „ამჟამად ამასთან დაკავშირებით პრობლემა მაქვს“, ნაცვლად იმისა, რომ ჩუმად შეჩერდეს ან საუბარი დაარღვიოს.
  • Longer context for agentic workflows: კონტექსტის ფანჯარას 32K-დან 128K-მდე ვზრდით, რათა მხარი დავუჭიროთ უფრო ხანგრძლივ, მეტად თანმიმდევრულ სესიებს და უფრო რთულ სამუშაო ნაკადებს.
  • Stronger domain understanding: მოდელი უკეთ ინარჩუნებს სპეციალიზებულ ტერმინოლოგიას, საკუთარ სახელებს, ჯანდაცვის ტერმინებს და სხვა ლექსიკას, რომელსაც მნიშვნელობა აქვს საწარმოო გარემოში.
  • More controllable tone and delivery: მოდელს შეუძლია უკეთ მოარგოს თავისი ტონი — მშვიდად ისაუბროს პრობლემის მოგვარებისას, ემპათიით მაშინ, როცა მომხმარებელი გაღიზიანებულია, ან ენთუზიაზმით, როცა წარმატებულ მოქმედებას ადასტურებს.
  • Adjustable reasoning effort: დეველოპერებს ახლა შეუძლიათ აირჩიონ minimal, low, medium, high, and xhigh მსჯელობის დონეები, სადაც low ნაგულისხმევია, რაც აბალანსებს დაბალ შეყოვნებას მარტივი ინტერაქციებისთვის უფრო გააზრებულ მსჯელობასთან რთული მოთხოვნებისთვის.

ეს გაუმჯობესებები ჩანს აუდიო შეფასებებზეც, რომლებიც საწარმოო ხმოვან აგენტებს ახლოს ასახავს: GPT‑Realtime‑2 (high) აუდიო ინტელექტში Big Bench Audio-ზე GPT‑Realtime‑1.5‑ზე 15.2%-ით მაღალ ქულას იღებს. GPT‑Realtime‑2 (xhigh) Audio MultiChallenge-ზე ინსტრუქციების მიყოლაში 13.8%-ით მაღალ ქულას იღებს, აუმჯობესებს GPT‑Realtime‑1.5‑ს და აჩვენებს უფრო ძლიერ მსჯელობას, კონტექსტის მართვასა და კონტროლს ცოცხალ საუბრებში.

Big Bench Audio აფასებს რთულ მსჯელობის შესაძლებლობებს იმ ენობრივ მოდელებში, რომლებიც აუდიო შეყვანას უჭერენ მხარს. Audio MultiChallenge(იხსნება ახალ ფანჯარაში) აფასებს მრავალსვლიან სასაუბრო ინტელექტს სალაპარაკო დიალოგის სისტემებში, მათ შორის ინსტრუქციების მიყოლას, კონტექსტის ინტეგრაციას, თვითთანმიმდევრულობას და მეტყველების ბუნებრივი შესწორებების დამუშავებას.

GPT‑Realtime‑2‑ის შესაძლებლობები მრავალ სხვადასხვა გამოყენების შემთხვევაში ჩანს:

რეალურ დროში მომუშავე მაგალითი იტვირთება…

ადრეული ტესტირებისას კომპანიებმა GPT‑Realtime‑2 გამოიყენეს ისეთი ხმოვანი აგენტების შესაქმნელად, რომლებიც მომხმარებლებსა და თანამშრომლებს ბუნებრივი საუბრის გზით საქმის კეთებაში ეხმარებიან:

„შემქმნელებს უწყვეტი პროგრესი სურთ და არა დაუსრულებელი იტერაცია. GPT-5.5 ბევრად ნაკლებ ციკლში არღვევს იმ ბარიერებს, რომლებსაც ადამიანები ჩვეულებრივ ეჯახებიან უფრო რთულ ამოცანებზე, როგორიცაა ავთენტიკაციის ნაკადები და რეალურ დროში სინქრონიზაცია. მოდელი განსაკუთრებით კარგად აჩვენებს თავს მაშინ, როცა საქმე რთულდება — მძიმე ამოცანებს ბევრად ნაკლები უკუგებითა და განმეორებითი კომუნიკაციით უმკლავდება.“
— Fabian Hedin, CTO და თანადამფუძნებელი Lovable-ში

რეალურ დროში თარგმნა: შექმენით ცოცხალი მრავალენოვანი ხმოვანი გამოცდილებები

GPT‑Realtime‑Translate დეველოპერებს ეხმარება შექმნან ცოცხალი მრავალენოვანი ხმოვანი გამოცდილებები, სადაც თითოეულ ადამიანს შეუძლია ისაუბროს მისთვის სასურველ ენაზე, მოისმინოს საუბრის რეალურ დროში თარგმანი და წაიკითხოს რეალურ დროში ტრანსკრიფციები. მას აქვს მხარდაჭერა 70-ზე მეტი შემავალი ენისა და 13 გამომავალი ენისთვის, რაც მას სასარგებლოს ხდის მომხმარებელთა მხარდაჭერისთვის, საზღვარგარეთული გაყიდვებისთვის, განათლებისთვის, ღონისძიებებისთვის, მედიისა და შემქმნელების პლატფორმებისთვის, რომლებიც გლობალურ აუდიტორიას ემსახურებიან.

დეველოპერებისთვის პირდაპირი თარგმნა უნდა ინარჩუნებდეს მნიშვნელობას და ამავე დროს მოსაუბრეს ტემპს მიჰყვებოდეს, მაშინაც კი, როცა ადამიანები ბუნებრივად საუბრობენ, კონტექსტს ცვლიან ან რეგიონულ გამოთქმასა და დარგობრივ ენას იყენებენ. მაგალითად, Deutsche Telekom ამოწმებს მოდელს მრავალენოვანი ხმოვანი ინტერაქციებისთვის, სადაც უფრო დაბალმა შეყოვნებამ და უკეთესმა გამართულობამ შეიძლება სხვადასხვა ენაზე საუბარი უფრო ბუნებრივად აქციოს.

ამ ვიდეოში Vimeo აჩვენებს, როგორ შეუძლია GPT‑Realtime‑Translate‑ს პროდუქტის საგანმანათლებლო ვიდეოს პირდაპირ ეთერში თარგმნა მისი გაშვებისას, რათა გლობალურმა მომხმარებლებმა განახლებები მათთვის სასურველ ენაზე მოისმინონ, ცალკე შექმნილი ვერსიის მოლოდინის გარეშე.

„ინდოეთისთვის ხმოვანი AI-ის შექმნა ნიშნავს მრავალფეროვანი რეგიონული ფონეტიკის მართვას. ჩვენს შეფასებებში ჰინდის, ტამილისა და ტელუგუს მასალაზე GPT-Realtime-Translate-მა სიტყვათა შეცდომის მაჩვენებელი 12.5%-ით უფრო დაბალი აჩვენა, ვიდრე ნებისმიერ სხვა ტესტირებულ მოდელს, თანაც დაბალი fallback მაჩვენებლით, ამოცანების უფრო მაღალი დასრულებით და ისეთი შეყოვნებით, რომელიც ბუნებრივ საუბარს ინარჩუნებდა. ეს მრავალენოვანი ხმოვანი AI-ის ახალ სტანდარტს ადგენს.“
— Prateek Sachan, Co-founder & CTO at BolnaAI

რეალურ დროში ტრანსკრიფცია: შექმენით დაბალი შეყოვნების ტრანსკრიფციის გამოცდილებები

GPT‑Realtime‑Whisper არის ახალი სტრიმინგული ტრანსკრიფციის მოდელი, რომელიც შექმნილია დაბალი შეყოვნების მეტყველება-ტექსტად გარდაქმნისთვის. ის აუდიოს ტრანსკრიფციას ადამიანების საუბრისასვე აკეთებს, ამიტომ პირდაპირი პროდუქტები შეიძლება უფრო სწრაფი, მეტად რეაგირებადი და ბუნებრივი იყოს — იმ მომენტში გამოჩენილი სუბტიტრებიდან შეხვედრის ჩანაწერებამდე, რომლებიც საუბარს ასწრებს.

მოდელი ცოცხალ მეტყველებას ბიზნესის სამუშაო პროცესებში გამოსაყენებელს ხდის მაშინვე, როცა ეს ხდება. გუნდებს შეუძლიათ უზრუნველყონ სუბტიტრები შეხვედრებისთვის, აუდიტორიებისთვის, ტრანსლაციებისთვის და ღონისძიებებისთვის; შექმნან შენიშვნები და შეჯამებები მაშინ, როცა საუბრები ჯერ კიდევ მიმდინარეობს; ააშენონ ხმოვანი აგენტები, რომლებსაც მომხმარებლების უწყვეტად გაგება სჭირდებათ; და შექმნან უფრო სწრაფი შემდგომი სამუშაო ნაკადები მომხმარებელთა მხარდაჭერისთვის, ჯანდაცვისთვის, გაყიდვებისთვის, რეკრუტინგისთვის და სხვა მაღალი მოცულობის სალაპარაკო ინტერაქციებისთვის.

უსაფრთხოება

Realtime API მოიცავს დაცვისა და შემარბილებელი ზომების მრავალ ფენას, რათა არასწორი გამოყენების პრევენცია მოხდეს. ჩვენ ვიყენებთ აქტიურ კლასიფიკატორებს Realtime API სესიებზე, რაც ნიშნავს, რომ გარკვეული საუბრები შეიძლება შეჩერდეს, თუ ისინი ჩვენი მავნე კონტენტის წესების დარღვევად გამოვლინდება. დეველოპერებს ასევე მარტივად შეუძლიათ საკუთარი დამატებითი უსაფრთხოების დამცავი წესების დამატება Agents SDK⁠-ის(იხსნება ახალ ფანჯარაში) გამოყენებით.

ჩვენი გამოყენების წესები⁠ კრძალავს ჩვენი სერვისებიდან მიღებული შედეგების გადამიზნებას ან გავრცელებას სპამისთვის, მოტყუებისთვის ან სხვა მავნე მიზნებისთვის. დეველოპერებმა ასევე მკაფიოდ უნდა უთხრან საბოლოო მომხმარებლებს, როდის ურთიერთობენ ისინი AI-სთან, თუ ეს უკვე აშკარა არ არის კონტექსტიდან.

Realtime API სრულად უჭერს მხარს EU Data Residency⁠-ს(იხსნება ახალ ფანჯარაში) ევროკავშირში დაფუძნებული აპლიკაციებისთვის და დაფარულია ჩვენი კორპორაციული კონფიდენციალურობის ვალდებულებებით⁠.

ფასები და ხელმისაწვდომობა

GPT‑Realtime‑2, GPT‑Realtime‑Translate და GPT‑Realtime‑Whisper ხელმისაწვდომია Realtime API-ში. GPT‑Realtime‑2‑ის ფასი არის $32 / 1M აუდიო შეყვანის token ($0.40 ქეშირებული შეყვანის token-ებისთვის) და $64 / 1M აუდიო გამოტანის token. GPT‑Realtime‑Translate‑ის ფასი არის $0.034 წუთში. GPT‑Realtime‑Whisper‑ის ფასი არის $0.017 წუთში.

დაიწყეთ

რეალურ დროში ახალი ხმოვანი მოდელების ტესტირება შეგიძლიათ Playground(იხსნება ახალ ფანჯარაში)-ში.

შესაქმნელად, გახსენით ეს მოთხოვნა Codex-ში, რათა GPT‑Realtime‑2 არსებულ აპს დაამატოთ ან ახალი დაიწყოთ. თუ ჯერ Codex არ გაქვთ, ჯერ ჩამოტვირთეთ Codex აპი.

ავტორი

OpenAI