
Šiandien „Realtime API“ tampa bendrai prieinama ir siūlo naujų funkcijų, leidžiančių programuotojams bei įmonėms kurti patikimus, gamybai paruoštus balso agentus. API dabar palaiko nuotolinius MCP serverius, vaizdo įvestis ir telefono skambučius naudojant seanso inicijavimo protokolą (SIP); tai suteikia balso agentams daugiau galimybių, nes užtikrinama prieiga prie papildomų įrankių ir konteksto.
Taip pat išleidžiame pažangiausią iki šiol sukurtą kalbos pavertimo kalba modelį – gpt-realtime. Naujasis modelis geriau laikosi sudėtingų instrukcijų, tiksliau iškviečia įrankius ir generuoja natūraliau bei išraiškingiau skambančią kalbą. Jis geriau interpretuoja sistemos pranešimus ir programuotojų raginimus – nesvarbu, ar tai būtų atsakomybės apribojimo tekstų skaitymas žodis į žodį per palaikymo skambutį, raidinių ir skaitinių sekų kartojimas, ar sklandus kalbų perjungimas sakinio viduryje. Taip pat pristatome du naujus balsus – „Cedar“ ir „Marin“, kurie nuo šiandien pasiekiami tik „Realtime API“.
Nuo tada, kai praėjusį spalį pristatėme viešąją beta „Realtime API“ versiją, tūkstančiai programuotojų kūrė naudodami šią API ir padėjo suformuoti šiandien išleidžiamus patobulinimus, optimizuotus siekiant patikimumo, mažo delsos laiko ir aukštos kokybės, kad būtų galima sėkmingai diegti balso agentus gamyboje. Skirtingai nuo tradicinių procesų, kuriuose sujungiami keli modeliai, skirti kalbai versti tekstu ir tekstui versti kalba, „Realtime API“ apdoroja ir generuoja garsą tiesiogiai naudodama vieną modelį ir API. Taip sumažinamas delsos laikas, išsaugomi kalbos niuansai ir generuojami natūralesni, išraiškingesni atsakymai.
„Naujasis „OpenAI“ „Realtime API“ modelis, skirtas kalbai paversti kalba, pasižymi stipresniu samprotavimu ir natūralesne kalba – tai leidžia jam apdoroti sudėtingas, kelių žingsnių užklausas, pavyzdžiui, sąrašų siaurinimą pagal gyvenimo būdo poreikius arba diskusijų apie įperkamumą valdymą naudojant tokius įrankius kaip mūsų „BuyAbility“ balas. Dėl to būsto paieška „Zillow“ ar finansavimo galimybių nagrinėjimas gali tapti toks pat natūralus kaip pokalbis su draugu, padedantis supaprastinti sprendimus, tokius kaip būsto pirkimas, pardavimas ir nuoma.“
– Josh Weisberg, Zillow DI vadovas
Naujasis modelis, skirtas kalbai paversti kalba – gpt-realtime – yra mūsų pažangiausias, naudoti realioms sistemoms paruoštas balso modelis. Mokėme šį modelį glaudžiai bendradarbiaudami su klientais, kad jis puikiai atliktų realias užduotis, tokias kaip klientų palaikymas, asmeninė pagalba ir švietimas, priderindami modelį prie to, kaip programuotojai kuria ir diegia balso agentus. Modelis pasižymi patobulinimais garso kokybės, intelekto, instrukcijų laikymosi ir funkcijų iškvietimo srityse.
Diegiant balso agentus realioje aplinkoje labai svarbu, kad pokalbis skambėtų natūraliai. Modeliai turi kalbėti su intonacija, emocija ir tempu, būdingu žmogui, kad sukurtų malonią patirtį ir skatintų naudotojus tęsti pokalbį. Mokėme gpt-realtime generuoti aukštesnės kokybės kalbą, kuri skambėtų natūraliau, ir laikytis smulkių instrukcijų, pavyzdžiui, „kalbėk greitai ir profesionaliai“ arba „kalbėk empatiškai su prancūzišku akcentu“.
API išleidžiame du naujus balsus – „Marin“ ir „Cedar“, kuriuose labiausiai patobulintas natūralus kalbos skambesys. Taip pat atnaujiname esamus aštuonis balsus, kad jiems būtų pritaikyti šie patobulinimai.
gpt-realtime pasižymi aukštesniu intelektu ir gali tiksliau suprasti tiesioginį garsą. Modelis gali užfiksuoti neverbalines užuominas (pavyzdžiui, juoką), perjungti kalbą sakinio viduryje ir pritaikyti toną („žvalus ir profesionalus“ arba „malonus ir empatiškas“). Remiantis vidaus vertinimais, modelis taip pat tiksliau aptinka raidines ir skaitines sekas (pvz., telefono numerius, VIN kodus ir t. t.) kitomis kalbomis, įskaitant ispanų, kinų, japonų ir prancūzų. Atliekant „Big Bench Audio“ vertinimą, kuriuo matuojami samprotavimo gebėjimai, gpt-realtime pasiekia 32,8 proc. tikslumą ir lenkia mūsų ankstesnį 2024 m. gruodžio mėn. modelį, kurio tikslumas siekė 65,6 proc.
„Big Bench Audio“(atsidaro naujame lange) palyginamasis testas – tai vertinimo duomenų rinkinys, skirtas kalbos modelių, palaikančių garso įvestį, samprotavimo gebėjimams vertinti. Šiame duomenų rinkinyje klausimai iš „Big Bench Hard“, pasirinkto dėl griežto pažangaus samprotavimo tikrinimo, pritaikomi garso sričiai.
Kurdami programą, kurioje kalba verčiama kalba, programuotojai pateikia modeliui instrukcijų rinkinį, kaip elgtis, įskaitant nurodymus, kaip kalbėti, ką sakyti tam tikroje situacijoje ir ką daryti ar ko nedaryti. Sutelkėme dėmesį į šių instrukcijų laikymosi tobulinimą, kad modeliui būtų svarbūs net smulkūs nurodymai. „MultiChallenge“ garso palyginamajame teste, kuriame matuojamas instrukcijų laikymosi tikslumas, gpt-realtime surenka 30,5 proc. – tai reikšmingas pagerėjimas, palyginti su ankstesniu 2024 m. gruodžio mėn. modeliu, kuris surinko 20,6 proc.
„MultiChallenge“(atsidaro naujame lange) vertina, kaip gerai LLM susidoroja su kelių žingsnių pokalbiais su žmonėmis. Jame dėmesys telkiamas į keturias realių iššūkių kategorijas, su kuriomis susiduria dabartiniai pažangiausi modeliai. Šie iššūkiai reikalauja, kad modeliai vienu metu derintų instrukcijų laikymąsi, konteksto valdymą ir samprotavimą kontekste. Norėdami sukurti šio vertinimo garso versiją, konvertavome garsui pritaikytą testo klausimų poaibį iš teksto į kalbą.
Norint sukurti pajėgų balso agentą naudojant modelį, skirtą kalbai paversti kalba, modelis turi gebėti tinkamu laiku iškviesti tinkamus įrankius, kad būtų naudingas gamyboje. Patobulinome funkcijų iškvietimą trimis aspektais: aktualių funkcijų iškvietimą, funkcijų iškvietimą tinkamu laiku ir funkcijų iškvietimą su tinkamais argumentais (dėl to padidėjo tikslumas). „ComplexFuncBench“ garso vertinime, kuriame matuojamas funkcijų iškvietimo našumas, gpt-realtime surenka 66,5 proc., o ankstesnis 2024 m. gruodžio mėn. modelis – 49,7 proc.
Taip pat patobulinome asinchroninį funkcijų iškvietimą(atsidaro naujame lange). Ilgai trunkantys funkcijų iškvietimai nebetrikdys seanso eigos – laukdamas rezultatų modelis gali tęsti sklandų pokalbį. Ši funkcija yra integruota gpt-realtime, todėl programuotojams nereikia atnaujinti kodo,
„ComplexFuncBench“(atsidaro naujame lange) matuoja, kaip gerai modeliai susidoroja su sudėtingomis funkcijų iškvietimo užduotimis. Juo vertinamas našumas pagal tokius scenarijus kaip kelių žingsnių iškvietimai, samprotavimas apie apribojimus ar numanomus parametrus, labai ilgų įvesčių apdorojimas. Norėdami sukurti šį mūsų modelio vertinimą, originalius tekstinius raginimus pavertėme kalba.
Galite įjungti MCP palaikymą „Realtime API“ seanse, į seanso konfigūraciją įtraukdami nuotolinio MCP serverio URL. Prisijungus, API automatiškai tvarko įrankių iškvietimus už jus, todėl nereikia rankiniu būdu kurti integracijų.
Ši sąranka leidžia lengvai išplėsti agento galimybes – tiesiog nukreipkite seansą į kitą MCP serverį, ir tie įrankiai iškart taps prieinami. Norėdami sužinoti daugiau apie MCP konfigūravimą naudojant „Realtime“, peržiūrėkite šį vadovą(atsidaro naujame lange).
Kadangi gpt-realtime dabar palaikoma vaizdo įvestis, į „Realtime API“ seansą kartu su garsu ar tekstu galite įtraukti vaizdus, nuotraukas ir ekrano kopijas. Dabar modelis gali susieti pokalbį su tuo, ką iš tikrųjų mato naudotojas, ir leisti naudotojams užduoti tokius klausimus kaip „ką matai?“ arba „perskaityk tekstą šioje ekrano kopijoje“.
Užuot traktavusi vaizdą kaip tiesioginį vaizdo srautą, sistema jį traktuoja kaip paveikslėlio įterpimą į pokalbį. Jūsų programa gali nuspręsti, kuriais vaizdais dalytis su modeliu ir kada tai daryti. Taip išlaikote kontrolę, ką modelis mato ir kada atsako.
Norėdami pradėti naudoti vaizdo įvestį, peržiūrėkite mūsų dokumentaciją(atsidaro naujame lange).
Pridėjome keletą kitų funkcijų, kad „Realtime API“ būtų lengviau integruoti ir ji būtų lankstesnė naudoti realiose sistemose.
- Seanso inicijavimo protokolo (SIP) palaikymas: sujunkite savo programas su viešuoju telefono tinklu, PBX sistemomis, staliniais telefonais ir kitais SIP galutiniais taškais tiesiogiai naudodami „Realtime API“, Skaitykite apie tai dokumentacijoje.(atsidaro naujame lange)
- Pakartotinai naudojami raginimai: dabar galite įrašyti ir pakartotinai naudoti raginimus – susidedančius iš programuotojo pranešimų, įrankių, kintamųjų ir pavyzdinių naudotojo / asistento pranešimų – visuose „Realtime API“ seansuose, kaip ir „Responses API“. Sužinokite daugiau dokumentuose(atsidaro naujame lange).
„Realtime API“ apima kelis apsaugos priemonių ir mažinimo sluoksnius, padedančius išvengti piktnaudžiavimo. Daugiau apie mūsų saugos metodus ir sistemos kortelės informaciją galite sužinoti beta pranešimo tinklaraštyje. Naudojame aktyvius klasifikatorius „Realtime API“ seansuose, o tai reiškia, kad tam tikri pokalbiai gali būti sustabdyti, jei aptinkama, kad jie pažeidžia mūsų žalingo turinio gaires. Programuotojai taip pat gali lengvai pridėti savo papildomas saugos apsaugos priemones naudodami „Agents SDK“(atsidaro naujame lange).
Mūsų naudojimo politika draudžia pakartotinai naudoti ar platinti mūsų paslaugų išvestis šlamštui, apgaulėms ar kitiems žalingiems tikslams. Programuotojai taip pat privalo aiškiai nurodyti galutiniams naudotojams, kai jie bendrauja su DI, nebent tai jau akivaizdu iš konteksto. „Realtime API“ naudoja iš anksto nustatytus balsus, kad padėtų išvengti piktavalių, apsimetančių kitais asmenimis.
„Realtime API“ visiškai palaiko ES duomenų buvimo vietą(atsidaro naujame lange) ES veikiančioms programoms ir jai taikomi mūsų „Enterprise“ privatumo įsipareigojimai.
Bendrai prieinama „Realtime API“ ir naujasis modelis gpt-realtime nuo šiandien prieinami visiems programuotojams. Mažiname gpt-realtime kainas 20 proc., palyginti su gpt-4o-realtime-preview – 32 £ už 1 mln. garso įvesties prieigos raktų (0,40 £ už talpyklos įvesties prieigos raktus) ir 64 JAV dol. už 1 mln. garso išvesties prieigos raktų [žr. išsamias kainas(atsidaro naujame lange)]. Taip pat pridėjome detalų pokalbio konteksto valdymą, leidžiantį programuotojams nustatyti išmanius prieigos raktų limitus ir sutrumpinti kelis žingsnius vienu metu, taip žymiai sumažinant ilgų seansų išlaidas.
Norėdami pradėti, apsilankykite mūsų „Realtime API“ dokumentacijoje(atsidaro naujame lange), išbandykite naująjį modelį „Playground“(atsidaro naujame lange) ir peržiūrėkite mūsų „Realtime API“ raginimų vadovą(atsidaro naujame lange).


