
Tuomme Realtime API:n tänään yleisesti saataville. Mukana on ominaisuuksia, joiden avulla kehittäjät ja yritykset voivat rakentaa luotettavia, tuotantovalmiita ääniagentteja. API tukee nyt etäkäyttöisiä MCP-palvelimia, kuvasyötteitä ja puheluja SIP-protokollan (Session Initiation Protocol, istunnon aloitusprotokolla) kautta, mikä parantaa ääniagenttien toimintakykyä lisäämällä työkalujen ja kontekstin käyttömahdollisuuksia.
Julkaisemme myös toistaiseksi edistyneimmän puheesta puheeksi -mallimme – gpt-realtimen. Uudessa mallissa on parannettu monimutkaisten ohjeiden noudattamista, tarkkaa työkalujen kutsumista sekä luonnollisemman ja ilmeikkäämmän puheen tuottamista. Se tulkitsee paremmin järjestelmäviestejä ja kehittäjän kehotteita, olipa kyse sitten vastuuvapauslausekkeiden sanatarkasta lukemisesta tukipuhelun aikana, aakkosnumeeristen merkkien toistamisesta tai saumattomasta vaihtamisesta kielten välillä kesken lauseen. Julkaisemme myös kaksi uutta ääntä, Cedarin ja Marinin, jotka ovat saatavilla yksinomaan Realtime API:ssa tästä päivästä alkaen.
Julkaistuamme Realtime API:n julkisessa beetaversiossa viime lokakuussa tuhannet kehittäjät ovat rakentaneet API:n avulla ja auttaneet muokkaamaan tänään julkaistavia parannuksia. Ne on optimoitu luotettavuuden, vähäisen viiveen ja korkean laadun takaamiseksi, jotta ääniagentit voidaan ottaa onnistuneesti käyttöön tuotannossa. Toisin kuin perinteiset prosessit, jotka yhdistävät useita malleja puheesta tekstiksi ja tekstistä puheeksi, Realtime API käsittelee ja luo ääntä suoraan yhden mallin ja API:n kautta. Tämä vähentää viivettä, säilyttää puheen vivahteet ja tuottaa luonnollisempia, ilmeikkäämpiä vastauksia.
”Uusi OpenAI:n Realtime API:n puheesta puheeksi -malli tarjoaa vahvempaa päättelyä ja luonnollisempaa puhetta, joten se voi käsitellä monimutkaisia, monivaiheisia pyyntöjä, kuten rajata ilmoituksia elämäntyylin tarpeiden mukaan tai ohjata kohtuuhintaisuuskeskusteluja työkaluilla kuten BuyAbility-pisteytyksellä. Tämä voi saada kodin etsimisen Zillowlla tai taloudellisten vaihtoehtojen tutkimisen tuntumaan yhtä luonnolliselta kuin keskustelu ystävän kanssa ja se yksinkertaistaa ratkaisuja, kuten kodin ostamista, myymistä tai vuokraamista.”
– Josh Weisberg, Zillown tekoälyn johtaja
Uusi puheesta puheeksi -malli – gpt-realtime – on edistynein tuotantovalmis äänimallimme. Koulutimme mallin tiiviissä yhteistyössä asiakkaiden kanssa suoriutumaan erinomaisesti reaalimaailman tehtävistä, kuten asiakastuesta, henkilökohtaisesta avusta ja koulutuksesta – mukauttaen mallia kehittäjien tapaan rakentaa ja ottaa ääniagentteja käyttöön. Mallissa on parannuksia äänenlaadussa, älykkyydessä, ohjeiden noudattamisessa ja toimintojen kutsumisessa.
Luonnolliselta kuulostava keskustelu on ratkaisevan tärkeää kun ääniagentteja otetaan käyttöön tosielämässä. Mallien pitää puhua ihmistä muistuttavalla intonaatiolla, tunneilmaisulla ja tahdilla, jotta syntyy miellyttävä käyttökokemus ja rohkaistaan käyttäjiä jatkamaan keskustelua. Koulutimme gpt-realtimen tuottamaan laadukkaampaa puhetta, joka kuulostaa luonnollisemmalta ja osaa noudattaa yksityiskohtaisia ohjeita, kuten puhu ”nopeasti ja ammattimaisesti” tai ”puhu empaattisesti ranskalaisella aksentilla”.
Julkaisemme kaksi uutta ääntä API:ssa, Cedarin ja Marinin, joissa puheen luonnollisuutta on parannettu todella merkittävästi. Päivitämme myös nykyistä kahdeksaa ääntä hyötymään näitä parannuksia.
gpt-realtime osoittaa korkeampaa älykkyyttä ja pystyy ymmärtämään alkuperäistä ääntä entistä tarkemmin. Malli pystyy havaitsemaan sanattomia viestejä (kuten nauru), vaihtamaan kieltä kesken lauseen ja mukauttamaan sävyä (”terävä ja ammattimainen” vs. ”ystävällinen ja empaattinen”). Sisäisten arviointien mukaan malli on myös tarkempi aakkosnumeeristen sarjojen havaitsemisessa (kuten puhelinnumerot, VIN:t jne.) muilla kielillä, kuten espanjaksi, kiinaksi, japaniksi ja ranskaksi. Big Bench Audion päättelyominaisuuksien arvioinnissa gpt-realtime sai tulokseksi 82,8 %:n tarkkuuden, mikä oli parempi kuin joulukuussa 2024 laaditulla aikaisemmalla mallillamme, jonka tulos oli 65,6 %.
Big Bench Audio(avautuu uudessa ikkunassa) -vertailuarvo on arvioinnin tietojoukko päättelyominaisuuksien arvioimiseksi kielimalleille, jotka tukevat äänen syötetunnistetta. Tässä tietokokonaisuudessa mukautetaan Big Bench Hard -tietokannan kysymyksiä, jotka on valittu kehittyneen päättelykyvyn tiukan testaamisen perusteella äänialueelle.
Kun kehittäjät rakentavat puheesta puheeksi sovellusta he antavat mallille joukon ohjeita siitä, miten toimia, mukaan lukien sen, miten puhua, mitä sanoa tietyssä tilanteessa ja mitä tehdä tai ei tehdä. Keskityimme parannuksissa näiden ohjeiden noudattamiseen, jotta pienetkin ohjeet välittäisivät enemmän signaaleja mallille. Ohjeiden seuraamisen tarkkuutta mittaavassa MultiChallengen äänen vertailuarvossa gpt-realtime sai tulokseksi 30,5 %, mikä on selvä parannus verrattuna joulukuussa 2024 laadittuun aikaisempaan malliimme, jonka tulos oli 20,6 %.
MultiChallenge(avautuu uudessa ikkunassa) arvioi, miten hyvin LLM:t käsittelevät ihmisten kanssa käytäviä monikierroksisia keskusteluja. Siinä keskitytään neljään realististen haasteiden luokkaan, joiden kanssa nykyiset rajamallit kamppailevat. Nämä haasteet edellyttävät malleja, joissa yhdistyvät ohjeiden seuraaminen, kontekstin hallinta ja kontekstin sisäinen päättely samanaikaisesti. Muunsimme ääniystävällisen osajoukon testikysymyksistä tekstistä puheeksi luodaksemme tästä arvioinnista ääniversion.
Jotta puheesta puheeksi -mallilla voidaan rakentaa kyvykäs ääniagentti, mallin on pystyttävä kutsumaan oikeita työkaluja oikeaan aikaan, jotta siitä olisi hyötyä tuotannossa. Paransimme toimintojen kutsumista kolmella akselilla: relevanttien toimien kutsuminen, toimien kutsuminen sopivaan aikaan ja toimien kutsuminen sopivilla argumenteilla (mikä parantaa tarkkuutta). Toiminnon kutsumisen suorituskykyä mittaavassa ComplexFuncBenchin äänen arvioinnissa gpt-realtime sai tulokseksi 66,5 %, kun aikaisemman joulukuussa 2024 laaditun mallimme tulos oli 49,7 %.
Paransimme myös asynkronista toiminnon kutsumista(avautuu uudessa ikkunassa). Pitkäaikaiset toiminnon kutsut eivät enää häiritse istuntojen kulkua, vaan malli voi jatkaa tuloksia odottaessaan sujuvaa keskustelua. Ominaisuus on alkuperäisesti käytettävissä gpt-realtimessa, joten kehittäjien ei tarvitse päivittää koodiaan.
ComplexFuncBench(avautuu uudessa ikkunassa) mittaa, kuinka hyvin mallit käsittelevät haastavia toiminnon kutsumisen tehtäviä. Se arvioi suorituskykyä erilaisissa tilanteissa, kuten monivaiheisissa kutsuissa, rajoitusten tai implisiittisten parametrien päättelyssä sekä erittäin pitkien syötteiden käsittelyssä. Muunsimme alkuperäiset tekstikyselyt puheeksi rakentaaksemme tämän arvioinnin mallillemme.
Voit ottaa MCP-palvelimen tuen käyttöön Realtime API:n istunnossa siirtämällä etäkäyttöisen MCP-palvelimen URL-osoitteen istunnon määritykseen. Kun API on yhdistetty, se käsittelee automaattisesti työkalukutsuja puolestasi, joten integraatioita ei tarvitse kytkeä manuaalisesti.
Määritys mahdollistaa agenttien laajentamisen uusilla ominaisuuksilla. Osoita vain istunto toiseen MCP-palvelimeen ja työkalut ovat heti käytettävissä. Lisätietoja MCP:n laajentamisesta Realtimella löytyy tästä oppaasta(avautuu uudessa ikkunassa).
Koska kuvasyötteitä tuetaan nyt gpt-realtimessa, voit lisätä kuvia, valokuvia ja ruutukaappauksia äänen ohella tai tekstiä Realtime API:n istuntoon. Malli voi nyt perustaa keskustelun siihen, mitä käyttäjä oikeasti näkee, jolloin käyttäjät voivat kysyä kysymyksiä kuten ”mitä näet” tai ”lue tämän ruutukaappauksen teksti”.
Sen sijaan, järjestelmä että käsittelisi kuvaa kuin suoraa videolähetystä, se suhtautuu siihen enemmänkin niin kuin kuvan lisäämiseen keskusteluun. Sovelluksesi päättää, mitä kuvia se jakaa mallille ja missä vaiheessa. Näin pystyt hallitsemaan sitä, mitä malli näkee ja sitä, milloin se reagoi.
Tutustu asiakirjoihimme(avautuu uudessa ikkunassa) ja ala käyttää kuvasyötteitä.
Olemme lisänneet useita muita ominaisuuksia, jotta Realtime API:n integrointi olisi helpompaa ja sen käyttö tuotannossa joustavampaa.
- Session Initiation Protocol (SIP) -tuki: Yhdistä sovelluksesi julkiseen puhelinverkkoon, PBX-järjestelmiin, pöytäpuhelimiin ja muihin SIP-päätepisteisiin, joilla on suora Realtime API:n tuki. Lue lisää asiakirjoista.(avautuu uudessa ikkunassa)
- Uudelleenkäytettävät kehotteet: Voit nyt tallentaa ja käyttää uudelleen kehotteita, jotka koostuvat kehittäjän viesteistä, työkaluista, muuttujista ja esimerkkikäyttäjän / avustajan viesteistä eri Realtime API:n istunnoissa, kuten Realtime API:ssa. Lisätietoja saatavana asiakirjoista.(avautuu uudessa ikkunassa)
Realtime API sisältää useita suojaus- ja lieventämistoimenpiteiden kerroksia auttaakseen väärinkäytösten ehkäisyssä. Lisätietoja lähestymistavastamme turvallisuuteen ja järjestelmäkortin tiedoista on beetan julkistusblogissa. Hyödynnämme aktiivisia luokittelijoita Realtime API:n istunnoissa, mikä tarkoittaa, että tietyt keskustelut voidaan pysäyttää, jos niiden havaitaan rikkovan haitallista sisältöä koskevia ohjeitamme. Kehittäjät voivat myös helposti lisätä omia turvallisuuden suojarajoituksiaan käyttäen Agents SDK:ta.(avautuu uudessa ikkunassa)
Käyttöä koskevat käytäntömme kieltävät palveluidemme tuotosten uudelleenkäytön ja jakelun roskapostia, huijausta tai muita vahingollisia tarkoituksia varten. Kehittäjien on myös tehtävä loppukäyttäjille selväksi, milloin ne ovat vuorovaikutuksessa tekoälyn kanssa, ellei se ole itsestään selvää jo asiayhteydestä. Realtime API käyttää esiasetettuja ääniä ehkäistäkseen haitallisia toimijoita esiintymästä toisena henkilönä.
Realtime API tukee täysin EU:n Tietojen säilytysaluetta(avautuu uudessa ikkunassa) EU:ssa sijaitsevia sovelluksia varten ja se kuuluu yritysten tietosuojasitoumusten piiriin.
Yleisesti saatavilla oleva Realtime API ja uusi gpt-realtime -malli ovat tästä päivästä lähtien kaikkien kehittäjien käytettävissä. Laskemme gpt-realtimen hintoja 20 % verrattuna gpt-4o-realtime-preview-versiotunnisteeseen – 32 $ / 1M äänen syötetunnistetta (0,40 $ välimuistissa oleville syötetunnuksille) ja 64 $ / 1M äänen syötetunnistetta (katso yksityiskohtaiset hintatiedot(avautuu uudessa ikkunassa)). Olemme lisänneet myös keskustelun kontekstin tarkkaa hallintaa, jotta kehittäjät voivat määrittää älykkäitä tunnisterajoituksia ja lyhentää useita vuoroja kerralla, mikä vähentää merkittävästi pitkien istuntojen kustannuksia.
Päästäksesi alkuun tutustu Realtime API:n dokumentaatioon(avautuu uudessa ikkunassa), kokeile uutta mallia Playgroundissa(avautuu uudessa ikkunassa) ja lue Realtime API:n kehoteopastamme(avautuu uudessa ikkunassa).


