Пређите на главни садржај
OpenAI

Unapređenje glasovne inteligencije novim modelima u API-ju

Nova generacija glasovnih modela u realnom vremenu koji mogu da rezonuju, prevode i transkribuju dok ljudi govore.

Учитавање…

Predstavljamo tri audio modela u API-ju koji otvaraju novu klasu glasovnih aplikacija za programere. Pomoću ovih modela, programeri mogu da grade glasovna iskustva koja deluju prirodnije, odgovaraju inteligentnije i preduzimaju radnje u realnom vremenu:

  • GPT‑Realtime‑2, naš prvi glasovni model sa rezonovanjem klase GPT‑5 koji može da obradi složenije zahteve i prirodno vodi razgovor dalje.
  • GPT‑Realtime‑Translate, novi model za prevod uživo koji prevodi govor sa više od 70 ulaznih jezika na 13 izlaznih jezika, prateći govornika u korak.
  • GPT‑Realtime‑Whisper, novi striming model za pretvaranje govora u tekst koji transkribuje govor uživo dok govornik priča.

Испробајте GPT-Realtime-2

Покрените сесију, а затим разговарајте природно са GPT-Realtime-2.
Шта могу питати?

Када започнете сесију, пробајте да кажете једно од овога:

  • Вечерас организујем вечеру у последњем тренутку. Имам 30 минута, двоје пријатеља вегетаријанаца, једног који не воли печурке и малу кухињу. Помози ми да испланирам једноставан мени.
  • Дочекујем госте на догађају уживо у Јапану. Пожели топлу и природну добродошлицу на јапанском — као домаћин који започиње нешто посебно.
  • Број моје поруџбине је Orbit-742Q. Понови то јасно, да могу да потврдим да је тачно.
  • Помози ми да увежбам како да свом тиму кажем да смо достигли прекретницу за лансирање. Прво то изговори са смиреним самопоуздањем, а затим са више узбуђења.
  • Планирам квиз за путовање аутомобилом. Дај ми три питања са замком која звуче варљиво једноставно, а затим објасни сваки одговор у једној реченици.

Ова демонстрација је временски ограничена. Њеним коришћењем пристајете на Услове компаније OpenAI и потврђујете да сте упознати са нашом Политика приватности.

Glas postaje jedan od najprirodnijih načina na koji ljudi koriste softver. Omogućava nekome da zatraži pomoć dok vozi, promeni plan putovanja dok hoda kroz aerodrom, dobije podršku na jeziku koji preferira ili završi zadatak bez zastajanja da bi kucao.

Ali izgradnja korisnih glasovnih proizvoda zahteva više od brzog smenjivanja replika ili glasa koji zvuči prirodno. Glasovni agent mora da razume šta osoba misli, prati kontekst, oporavi se kada se zahtev promeni, koristi alate dok se razgovor nastavlja i odgovori na način koji odgovara trenutku.

Zajedno, modeli koje lansiramo pomeraju audio u realnom vremenu od prostog obrasca poziv-odgovor ka glasovnim interfejsima koji zaista mogu da obavljaju posao: da slušaju, rezonuju, prevode, transkribuju i preduzimaju radnje kako se razgovor odvija.

Glas kao interfejs između ljudi i proizvoda

Kako glas postaje prirodniji način korišćenja softvera, vidimo da programeri grade oko tri nova obrasca u glasovnoj veštačkoj inteligenciji:

  • Govor-do-radnje, gde ljudi mogu da opišu šta im je potrebno, a sistem može da rezonuje kroz zahtev, koristi alate i dovrši zadatak. Na primer, Zillow gradi asistenta koji može da sluša, rezonuje i postupa po zahtevima kao što su: „pronađi mi kuće u okviru mog BuyAbility budžeta, izbegni prometne ulice i zakaži obilazak za subotu.”
  • Sistemi-do-govora, gde softver može da pretvori kontekst u govorne smernice uživo. Na primer, aplikacija za putovanja mogla bi proaktivno da kaže putniku: „Vaš dolazni let kasni, ali i dalje možete stići na presedanje. Pronašao sam novi izlaz, mapirao najbržu rutu kroz terminal i i dalje se očekuje da će vaš prtljag biti prebačen.”
  • Govor-do-govora, gde AI može da pomogne da se razgovori uživo nastave preko jezika, zadataka ili promenljivog konteksta. Na primer, Deutsche Telekom gradi iskustva glasovne podrške u kojima korisnici mogu da govore na jeziku koji im je najprijatniji, dok model prevodi razgovor u realnom vremenu.
Dijagram koji prikazuje tri toka rada glasovne veštačke inteligencije: govor-do-radnje, koji povezuje govor sa aplikacijama kao što su alati za kod i razvoj, kupovinu, vozila i zakazivanje; sistemi-do-govora, koji povezuje aplikacije, kalendare, CRM i kontrolne table podrške sa govorom; i govor-do-govora, koji povezuje dva glasovna agenta.

Ovi obrasci mogu da funkcionišu i zajedno. Priceline radi ka budućnosti u kojoj putnici mogu glasom da upravljaju čitavim putovanjima: da razgovorno pretražuju letove i hotele, rešavaju promene poput prilagođavanja hotelske rezervacije nakon kašnjenja leta ili dobijanja ažuriranja u realnom vremenu o TSA vremenima čekanja, i prevode razgovore kada putnici stignu na odredište.

Glas u realnom vremenu: kako glasovni modeli rezonuju i preduzimaju radnje

GPT‑Realtime‑2 je napravljen za glasovne interakcije uživo u kojima model održava tok razgovora dok rezonuje kroz zahtev, poziva alate, obrađuje ispravke ili prekide i odgovara na način koji odgovara trenutku.

  • Uvodi: Programeri mogu da omoguće kratke fraze pre glavnog odgovora, kao što su „da proverim to” ili „samo trenutak dok to pogledam”, kako bi korisnici znali da agent radi na zahtevu.
  • Paralelni pozivi alata i transparentnost alata: Model može da pozove više alata odjednom i učini te radnje čujnim frazama kao što su „proveravam vaš kalendar” ili „sad to tražim”, pomažući agentima da ostanu odzivni dok izvršavaju zadatke.
  • Snažnije ponašanje pri oporavku: Model može elegantnije da se oporavi tako što će reći stvari poput „trenutno imam poteškoća s tim”, umesto da nečujno zakaže ili prekine razgovor.
  • Duži kontekst za agentske tokove rada: Povećavamo prozor konteksta sa 32K na 128K kako bismo podržali duže, koherentnije sesije i složenije tokove zadataka.
  • Snažnije razumevanje domena: Model bolje zadržava specijalizovanu terminologiju, vlastita imena, zdravstvene termine i drugi rečnik koji je važan u produkcionim okruženjima.
  • Veća kontrola tona i isporuke: Model može bolje da prilagodi ton — da govori smireno dok rešava problem, sa empatijom kada je korisnik frustriran ili poletno kada potvrđuje uspešno izvršenu radnju.
  • Podesiv nivo rezonovanja: Programeri sada mogu da biraju između nivoa rezonovanja minimal, low, medium, high i xhigh, pri čemu je low podrazumevana vrednost, čime se usklađuju niža latencija za jednostavne interakcije i promišljenije rezonovanje za složene zahteve.

Dobici se vide na audio evaluacijama koje blisko odgovaraju produkcionim glasovnim agentima: GPT‑Realtime‑2 (high) postiže 15,2% viši rezultat na Big Bench Audio za audio inteligenciju od GPT‑Realtime‑1.5. GPT‑Realtime‑2 (xhigh) postiže 13,8% viši rezultat na Audio MultiChallenge za praćenje instrukcija, nadmašujući GPT‑Realtime‑1.5 i pokazujući snažnije rezonovanje, upravljanje kontekstom i kontrolu u razgovorima uživo.

Big Bench Audio procenjuje zahtevne sposobnosti rezonovanja kod jezičkih modela koji podržavaju audio ulaz. Audio MultiChallenge(отвара се у новом прозору) procenjuje inteligenciju višekružnog razgovora u sistemima za govorni dijalog, uključujući praćenje instrukcija, integraciju konteksta, samodoslednost i rukovanje prirodnim ispravkama u govoru.

Moć GPT‑Realtime‑2 vidi se u raznovrsnim slučajevima upotrebe:

Учитавање примера у реалном времену…

Tokom ranog testiranja, kompanije su koristile GPT‑Realtime‑2 za izgradnju glasovnih agenata koji pomažu korisnicima i zaposlenima da obave stvari kroz prirodan razgovor:

„Graditelji žele kontinuirani napredak, a ne beskrajne iteracije. GPT-5.5 probija zidove na koje ljudi obično nailaze kod složenijih zadataka, kao što su tokovi autentifikacije i sinhronizacija u realnom vremenu, u mnogo manje koraka. Model zaista blista kada posao postane težak, rešavajući zahtevne zadatke uz mnogo manje vraćanja i usaglašavanja.”
— Fabian Hedin, CTO i suosnivač u Lovable

Prevođenje u realnom vremenu: gradite višejezična glasovna iskustva uživo

GPT‑Realtime‑Translate pomaže programerima da grade višejezična glasovna iskustva uživo u kojima svaka osoba može da govori na jeziku koji preferira, da čuje razgovor preveden u realnom vremenu i da čita transkripte u realnom vremenu. Podržava više od 70 ulaznih jezika i 13 izlaznih jezika, što ga čini korisnim za korisničku podršku, prekograničnu prodaju, obrazovanje, događaje, medije i platformske usluge za autore koje služe globalnoj publici.

Za programere, prevođenje uživo mora da sačuva značenje uz praćenje tempa govornika, čak i kada ljudi govore prirodno, menjaju kontekst ili koriste regionalni izgovor i jezik specifičan za domen. Na primer, Deutsche Telekom testira model za višejezične glasovne interakcije, gde niža latencija i veća tečnost mogu da učine razgovore između jezika prirodnijim.

U ovom videu, Vimeo prikazuje kako GPT‑Realtime‑Translate može uživo da prevodi video za edukaciju o proizvodu dok se reprodukuje, tako da globalni korisnici mogu da čuju novosti na jeziku koji preferiraju bez čekanja na zasebno produciranu verziju.

„Izgradnja glasovne veštačke inteligencije za Indiju znači rad sa raznovrsnom regionalnom fonetikom. U našim evaluacijama na hindiju, tamilu i telugu jeziku, GPT-Realtime-Translate je ostvario 12,5% nižu stopu greške u rečima od bilo kog drugog modela koji smo testirali, uz niže stope fallback-a, veći broj završenih zadataka i latenciju koja je održavala prirodan tok razgovora. Postavlja novi standard za višejezičnu glasovnu veštačku inteligenciju.“
— Prateek Sachan, suosnivač i CTO u BolnaAI-ju

Transkripcija u realnom vremenu: gradite iskustva transkripcije sa niskom latencijom

GPT‑Realtime‑Whisper je novi striming model za transkripciju napravljen za pretvaranje govora u tekst sa niskom latencijom. Transkribuje audio dok ljudi govore, tako da proizvodi uživo mogu da deluju brže, odzivnije i prirodnije — od titlova koji se pojavljuju u tom trenutku do beleški sa sastanaka koje prate razgovor.

Model čini živi govor upotrebljivim unutar poslovnih tokova rada dok se dešava. Timovi mogu da omoguće titlove za sastanke, učionice, prenose i događaje; generišu beleške i sažetke dok razgovori još traju; grade glasovne agente koji moraju kontinuirano da razumeju korisnike; i kreiraju brže tokove naknadnih aktivnosti za korisničku podršku, zdravstvo, prodaju, zapošljavanje i druge obimne govorne interakcije.

Bezbednost

Realtime API uključuje više slojeva zaštite i mera ublažavanja kako bi se sprečila zloupotreba. Koristimo aktivne klasifikatore nad sesijama Realtime API-ja, što znači da određeni razgovori mogu biti zaustavljeni ako se otkrije da krše naše smernice o štetnom sadržaju. Programeri takođe mogu lako da dodaju sopstvene dodatne bezbednosne ograde koristeći Agents SDK⁠.(отвара се у новом прозору)

Naše smernice korišćenja⁠ zabranjuju prenamenu ili distribuciju izlaza iz naših usluga za spam, obmanu ili druge štetne svrhe. Programeri takođe moraju jasno da stave do znanja krajnjim korisnicima kada komuniciraju sa AI-jem, osim ako to već nije očigledno iz konteksta.

Realtime API u potpunosti podržava EU rezidentnost podataka⁠(отвара се у новом прозору) za aplikacije sa sedištem u EU i obuhvaćen je našim obavezama privatnosti za preduzeća⁠.

Cene i dostupnost

GPT‑Realtime‑2, GPT‑Realtime‑Translate i GPT‑Realtime‑Whisper dostupni su u Realtime API-ju. GPT‑Realtime‑2 se naplaćuje $32 / 1M audio ulaznih tokena ($0.40 za keširane ulazne tokene) i $64 / 1M audio izlaznih tokena. GPT‑Realtime‑Translate se naplaćuje $0.034 po minutu. GPT‑Realtime‑Whisper se naplaćuje $0.017 po minutu.

Počnite

Nove glasovne modele u realnom vremenu možete testirati u Playground-u(отвара се у новом прозору).

Da biste počeli da gradite, otvorite ovu instrukciju u Codex-u da biste dodali GPT‑Realtime‑2 postojećoj aplikaciji ili pokrenuli novu. Ako još nemate Codex, prvo preuzmite aplikaciju Codex.

Аутор

OpenAI