
ఈరోజు మనం డెవలపర్లు మరియు సంస్థలు నమ్మకమైన, ఉత్పత్తికి సిద్ధంగా ఉన్న వాయిస్ ఏజెంట్లను నిర్మించడానికి వీలు కల్పించే కొత్త లక్షణాలతో రియల్టైమ్ APIని సాధారణంగా అందుబాటులోకి తెస్తున్నాము. API ఇప్పుడు రిమోట్ MCP సర్వర్లు, ఇమేజ్ ఇన్పుట్లు మరియు సెషన్ ఇనిషియేషన్ ప్రోటోకాల్ (SIP) ద్వారా ఫోన్ కాలింగ్కు మద్దతు ఇస్తుంది, అదనపు సాధనాలు మరియు సందర్భానికి యాక్సెస్ ద్వారా వాయిస్ ఏజెంట్లను మరింత సామర్థ్యం కలిగిస్తుంది.
మేము ఇప్పటివరకు మా అత్యంత అధునాతన స్పీచ్-టు-స్పీచ్ నమూనాను కూడా విడుదల చేస్తున్నాము—gpt-realtime. సంక్లిష్టమైన సూచనలను పాటించడంలో, సాధనాలను ఖచ్చితత్వంతో పిలవడంలో మరియు మరింత సహజంగా మరియు వ్యక్తీకరణగా వినిపించే ప్రసంగాన్ని ఉత్పత్తి చేయడంలో కొత్త నమూనా మెరుగుదలలను చూపుతుంది. సిస్టమ్ సందేశాలను మరియు డెవలపర్ ప్రాంప్ట్లను అర్థం చేసుకోవడంలో ఇది మెరుగ్గా ఉంటుంది—అది సపోర్ట్ కాల్లో డిస్క్లైమర్ స్క్రిప్ట్లను పదం పదం చదవడం, ఆల్ఫాన్యూమరిక్స్ను తిరిగి పునరావృతం చేయడం లేదా వాక్యం మధ్యలో భాషల మధ్య సజావుగా మారడం వంటివి కావచ్చు. మేము సెడార్ మరియు మారిన్ అనే రెండు కొత్త వాయిస్లను కూడా విడుదల చేస్తున్నాము, ఇవి ఈరోజు నుండి రియల్టైమ్ APIలో ప్రత్యేకంగా అందుబాటులో ఉన్నాయి.
గత అక్టోబర్లో మేము మొదటిసారిగా రియల్టైమ్ APIని పబ్లిక్ బీటాలో ప్రవేశపెట్టినప్పటి నుండి, వేలాది మంది డెవలపర్లు APIతో నిర్మించారు మరియు మేము ఈరోజు విడుదల చేస్తున్న మెరుగుదలలను రూపొందించడంలో సహాయపడ్డారు—ఉత్పత్తిలో వాయిస్ ఏజెంట్లను విజయవంతంగా అమలు చేయడానికి విశ్వసనీయత, తక్కువ జాప్యం మరియు అధిక నాణ్యత కోసం ఆప్టిమైజ్ చేయబడింది. స్పీచ్-టు-టెక్స్ట్ మరియు టెక్స్ట్-టు-స్పీచ్ అంతటా బహుళ మోడళ్లను కలిపే సాంప్రదాయ పైప్లైన్ల మాదిరిగా కాకుండా, రియల్టైమ్ API ఒకే నమూనా మరియు API ద్వారా నేరుగా ఆడియోను ప్రాసెస్ చేస్తుంది మరియు ఉత్పత్తి చేస్తుంది. ఇది జాప్యాన్ని తగ్గిస్తుంది, ప్రసంగంలో సూక్ష్మభేదాన్ని కాపాడుతుంది మరియు మరింత సహజమైన, వ్యక్తీకరణ ప్రతిస్పందనలను ఉత్పత్తి చేస్తుంది.
“OpenAI యొక్క రియల్టైమ్ APIలోని కొత్త స్పీచ్-టు-స్పీచ్ నమూనా బలమైన తార్కికం మరియు మరింత సహజమైన ప్రసంగాన్ని చూపుతుంది—జీవనశైలి అవసరాల ఆధారంగా జాబితాలను తగ్గించడం లేదా మా BuyAbility స్కోర్ వంటి సాధనాలతో స్థోమత చర్చలను మార్గనిర్దేశం చేయడం వంటి సంక్లిష్టమైన, బహుళ-దశల అభ్యర్థనలను నిర్వహించడానికి ఇది అనుమతిస్తుంది. ఇది Zillow లో ఇంటి కోసం వెతకడం లేదా ఫైనాన్సింగ్ ఎంపికలను అన్వేషించడం స్నేహితుడితో సంభాషణ వలె సహజంగా అనిపించవచ్చు, ఇల్లు కొనడం, అమ్మడం మరియు అద్దెకు తీసుకోవడం వంటి నిర్ణయాలను సులభతరం చేయడంలో సహాయపడుతుంది.
- జోష్ వీస్బర్గ్, Zillow లో AI అధిపతి
కొత్త స్పీచ్-టు-స్పీచ్ నమూనా—gpt-realtime—మా అత్యంత అధునాతనమైన, ఉత్పత్తికి సిద్ధంగా ఉన్న వాయిస్ నమూనా. కస్టమర్ సపోర్ట్, వ్యక్తిగత సహాయం మరియు విద్య వంటి వాస్తవ ప్రపంచ పనులలో రాణించడానికి కస్టమర్లతో సన్నిహిత సహకారంతో మేము నమూనాకు శిక్షణ ఇచ్చాము—డెవలపర్లు వాయిస్ ఏజెంట్లను ఎలా నిర్మిస్తారు మరియు అమలు చేస్తారు అనే దానికి అనుగుణంగా నమూనాను సమలేఖనం చేస్తాము. ఈ నమూనా ఆడియో నాణ్యత, తెలివితేటలు, సూచనలను అనుసరించడం మరియు ఫంక్షన్ కాలింగ్ అంతటా మెరుగుదలలను చూపుతుంది.
వాస్తవ ప్రపంచంలో వాయిస్ ఏజెంట్లను అమలు చేయడానికి సహజ ధ్వని సంభాషణ చాలా కీలకం. ఆనందించదగిన అనుభవాన్ని సృష్టించడానికి మరియు వినియోగదారులతో నిరంతర సంభాషణను ప్రోత్సహించడానికి నమూనాలు మానవుని స్వరం, భావోద్వేగం మరియు వేగంతో మాట్లాడాలి. "త్వరగా మరియు వృత్తిపరంగా మాట్లాడండి" లేదా "ఫ్రెంచ్ యాసలో సానుభూతితో మాట్లాడండి" వంటి సూక్ష్మమైన సూచనలను అనుసరించగల మరియు మరింత సహజంగా వినిపించే అధిక-నాణ్యత ప్రసంగాన్ని ఉత్పత్తి చేయడానికి మేము gpt-realtime కి శిక్షణ ఇచ్చాము.
మేము APIలో రెండు కొత్త వాయిస్లను విడుదల చేస్తున్నాము, అవి మారిన్ మరియు సెడార్, సహజ ధ్వని ప్రసంగానికి అత్యంత ముఖ్యమైన మెరుగుదలలతో. ఈ మెరుగుదలల నుండి ప్రయోజనం పొందడానికి మేము ఇప్పటికే ఉన్న మా ఎనిమిది స్వరాలను కూడా నవీకరిస్తున్నాము.
gpt-realtime అధిక తెలివితేటలను చూపుతుంది మరియు స్థానిక ఆడియోను ఎక్కువ ఖచ్చితత్వంతో గ్రహించగలదు. ఈ నమూనా అశాబ్దిక సంకేతాలను (నవ్వులు వంటివి) సంగ్రహించగలదు, వాక్యం మధ్యలో భాషలను మార్చగలదు మరియు స్వరాన్ని సర్దుబాటు చేయగలదు (“చురుగ్గా మరియు ప్రొఫెషనల్” వర్సెస్ “దయగల మరియు సానుభూతిగల”). అంతర్గత మూల్యాంకనాల ప్రకారం, స్పానిష్, చైనీస్, జపనీస్ మరియు ఫ్రెంచ్ వంటి ఇతర భాషలలో ఆల్ఫాన్యూమరిక్ సీక్వెన్స్లను (ఫోన్ నంబర్లు, VINలు మొదలైనవి) గుర్తించడంలో నమూనా మరింత ఖచ్చితమైన పనితీరును చూపుతుంది. బిగ్ బెంచ్ ఆడియో ఎవాల్లో తార్కిక సామర్థ్యాలను కొలిచే విషయంలో, gpt-realtime 82.8% ఖచ్చితత్వాన్ని స్కోర్ చేస్తుంది—డిసెంబర్ 2024 నుండి మా మునుపటి నమూనాను అధిగమించింది, ఇది 65.6% స్కోర్ చేస్తుంది.
బిగ్ బెంచ్ ఆడియో(కొత్త విండోలో తెరుచుకుంటుంది) బెంచ్మార్క్ అనేది ఆడియో ఇన్పుట్కు మద్దతు ఇచ్చే భాషా నమూనాల తార్కిక సామర్థ్యాలను అంచనా వేయడానికి ఒక మూల్యాంకన డేటాసెట్. ఈ డేటాసెట్ బిగ్ బెంచ్ హార్డ్ నుండి ప్రశ్నలను—అధునాతన తార్కికం యొక్క కఠినమైన పరీక్ష కోసం ఎంపిక చేయబడింది—ఆడియో డొమైన్లోకి మారుస్తుంది.
స్పీచ్-టు-స్పీచ్ అప్లికేషన్ను రూపొందించేటప్పుడు, డెవలపర్లు నమూనాకు ఎలా ప్రవర్తించాలో, ఎలా మాట్లాడాలి, ఒక నిర్దిష్ట పరిస్థితిలో ఏమి చెప్పాలి మరియు ఏమి చేయాలి లేదా చేయకూడదు అనే దానితో సహా సూచనల సమితిని ఇస్తారు. ఈ సూచనలను పాటించడంపై మేము మా మెరుగుదలలను కేంద్రీకరించాము, తద్వారా చిన్న దిశలు కూడా నమూనాకు ఎక్కువ సంకేతాలను కలిగి ఉంటాయి. మల్టీఛాలెంజ్ ఆడియో బెంచ్మార్క్ కొలత సూచనలలో ఖచ్చితత్వాన్ని అనుసరించి, gpt-realtime స్కోర్లు 30.5%, డిసెంబర్ 2024 నుండి మా మునుపటి నమూనా కంటే గణనీయమైన మెరుగుదల, ఇది 20.6% స్కోర్ చేస్తుంది.
MultiChallenge(కొత్త విండోలో తెరుచుకుంటుంది) అనేది LLMలు మానవులతో బహుళ-మలుపు సంభాషణలను ఎంత బాగా నిర్వహిస్తాయో అంచనా వేస్తుంది. ప్రస్తుత సరిహద్దు నమూనాలు ఎదుర్కొంటున్న నాలుగు రకాల వాస్తవిక సవాళ్లపై ఇది దృష్టి పెడుతుంది. ఈ సవాళ్లకు నమూనాలు బోధన-అనుసరణ, సందర్భ నిర్వహణ మరియు సందర్భోచిత తార్కికతను ఏకకాలంలో కలపడం అవసరం. ఈ మూల్యాంకనం యొక్క ఆడియో వెర్షన్ను రూపొందించడానికి మేము పరీక్ష ప్రశ్నల యొక్క ఆడియో-ఫ్రెండ్లీ సబ్సెట్ను టెక్స్ట్-టు-స్పీచ్గా మార్చాము.
స్పీచ్-టు-స్పీచ్ నమూనాతో సమర్థవంతమైన వాయిస్ ఏజెంట్ను నిర్మించడానికి, నమూనా ఉత్పత్తిలో ఉపయోగకరంగా ఉండటానికి సరైన సమయంలో సరైన సాధనాలను పిలవగలగాలి. మేము మూడు అక్షాలపై ఫంక్షన్ కాలింగ్ను మెరుగుపరిచాము: సంబంధిత ఫంక్షన్లను కాల్ చేయడం, తగిన సమయంలో ఫంక్షన్లను కాల్ చేయడం మరియు తగిన ఆర్గ్యుమెంట్లతో ఫంక్షన్లను కాలింగ్ చేయడం (ఫలితంగా అధిక ఖచ్చితత్వం వస్తుంది). ComplexFuncBench ఆడియో eval కొలిచే ఫంక్షన్ కాలింగ్ పనితీరులో, gpt-realtime స్కోర్లు 66.5%, డిసెంబర్ 2024 నుండి మా మునుపటి నమూనా 49.7% స్కోర్లు సాధించింది.
మేము అసమకాలిక ఫంక్షన్ కాలింగ్కు(కొత్త విండోలో తెరుచుకుంటుంది) కూడా మెరుగుదలలు చేసాము. దీర్ఘకాలం కొనసాగే ఫంక్షన్ కాల్లు ఇకపై సెషన్ ప్రవాహానికి అంతరాయం కలిగించవు—ఫలితాల కోసం వేచి ఉన్నప్పుడు నమూనా మృదువైన సంభాషణను కొనసాగించగలదు. ఈ ఫీచర్ స్థానికంగా gpt-realtime లో అందుబాటులో ఉంది, కాబట్టి డెవలపర్లు తమ కోడ్ను నవీకరించాల్సిన అవసరం లేదు.
ComplexFuncBench(కొత్త విండోలో తెరుచుకుంటుంది) అనేది నమూనాలు సవాలుతో కూడిన ఫంక్షన్ కాలింగ్ టాస్క్లను ఎంత బాగా నిర్వహిస్తాయో కొలుస్తుంది. ఇది బహుళ-దశల కాల్లు, పరిమితులు లేదా అవ్యక్త పారామితుల గురించి తార్కికం, చాలా పొడవైన ఇన్పుట్లను నిర్వహించడం వంటి దృశ్యాలలో పనితీరును అంచనా వేస్తుంది. మా నమూనా కోసం ఈ మూల్యాంకనాన్ని నిర్మించడానికి మేము అసలు టెక్స్ట్ ప్రాంప్ట్లను ప్రసంగంగా మార్చాము.
రిమోట్ MCP సర్వర్ యొక్క URL ను సెషన్ కాన్ఫిగరేషన్లోకి పాస్ చేయడం ద్వారా మీరు రియల్టైమ్ API సెషన్లో MCP మద్దతును ప్రారంభించవచ్చు. కనెక్ట్ అయిన తర్వాత, API మీ కోసం టూల్ కాల్లను స్వయంచాలకంగా నిర్వహిస్తుంది, కాబట్టి ఇంటిగ్రేషన్లను మాన్యువల్గా వైర్ అప్ చేయవలసిన అవసరం లేదు.
ఈ సెటప్ మీ ఏజెంట్ను కొత్త సామర్థ్యాలతో విస్తరించడాన్ని సులభతరం చేస్తుంది—సెషన్ను వేరే MCP సర్వర్కు పాయింట్ చేయండి, ఆ సాధనాలు వెంటనే అందుబాటులోకి వస్తాయి. రియల్టైమ్తో MCPని కాన్ఫిగర్ చేయడం గురించి మరింత తెలుసుకోవడానికి, ఈ గైడ్ని(కొత్త విండోలో తెరుచుకుంటుంది) చూడండి.
ఇప్పుడు gpt-realtime లో ఇమేజ్ ఇన్పుట్లకు మద్దతు ఇవ్వడంతో, మీరు రియల్టైమ్ API సెషన్కు ఆడియో లేదా టెక్స్ట్తో పాటు ఇమేజ్లు, ఫోటోలు మరియు స్క్రీన్షాట్లను జోడించవచ్చు. ఇప్పుడు నమూనా సంభాషణను వినియోగదారుడు వాస్తవానికి ఏమి చూస్తున్నాడనే దానిపై ఆధారపడి ఉంటుంది, వినియోగదారులు "మీరు ఏమి చూస్తున్నారు?" లేదా "ఈ స్క్రీన్షాట్లోని వచనాన్ని చదవండి" వంటి ప్రశ్నలను అడగడానికి వీలు కల్పిస్తుంది.
ఒక చిత్రాన్ని ప్రత్యక్ష వీడియో స్ట్రీమ్ లాగా పరిగణించే బదులు, ఈ వ్యవస్థ దానిని సంభాషణలో ఒక చిత్రాన్ని జోడించినట్లుగా భావిస్తుంది. మీ యాప్ నమూనాతో ఏ చిత్రాలను షేర్ చేయాలో మరియు వాటిని ఎప్పుడు షేర్ చేయాలో నిర్ణయించగలదు. ఈ విధంగా, నమూనా ఏమి చూస్తుందో మరియు ఎప్పుడు స్పందిస్తుందో మీరు నియంత్రణలో ఉంటారు.
ఇమేజ్ ఇన్పుట్తో ప్రారంభించడానికి మా డాక్యుమెంట్లను(కొత్త విండోలో తెరుచుకుంటుంది) చూడండి.
రియల్టైమ్ APIని ఇంటిగ్రేట్ చేయడాన్ని సులభతరం చేయడానికి మరియు ప్రొడక్షన్ వినియోగానికి మరింత సరళంగా చేయడానికి మేము అనేక ఇతర లక్షణాలను జోడించాము.
- సెషన్ ఇనిషియేషన్ ప్రోటోకాల్ (SIP) మద్దతు: రియల్ టైమ్ APIలో ప్రత్యక్ష మద్దతుతో మీ యాప్లను పబ్లిక్ ఫోన్ నెట్వర్క్, PBX సిస్టమ్లు, డెస్క్ ఫోన్లు మరియు ఇతర SIP ఎండ్ పాయింట్లకు కనెక్ట్ చేయండి. దాని గురించి డాక్స్లో చదవండి.(కొత్త విండోలో తెరుచుకుంటుంది)
- పునర్వినియోగ ప్రాంప్ట్లు: మీరు ఇప్పుడు—డెవలపర్ సందేశాలు, సాధనాలు, వేరియబుల్స్ మరియు ఉదాహరణ వినియోగదారు/సహాయక సందేశాలతో కూడిన ప్రాంప్ట్లను—ప్రతిస్పందనల API లో లాగా రియల్టైమ్ API సెషన్లలో సేవ్ చేయవచ్చు మరియు తిరిగి ఉపయోగించవచ్చు. డాక్స్లో మరింత తెలుసుకోండి.(కొత్త విండోలో తెరుచుకుంటుంది)
దుర్వినియోగాన్ని నిరోధించడంలో సహాయపడటానికి రియల్టైమ్ API బహుళ స్థాయిల రక్షణలు మరియు ఉపశమనాలను కలిగి ఉంటుంది. మీరు మా భద్రతా విధానం మరియు సిస్టమ్ కార్డ్ వివరాల గురించి బీటా ప్రకటన బ్లాగ్లో మరింత తెలుసుకోవచ్చు. మేము రియల్ టైమ్ API సెషన్లలో యాక్టివ్ క్లాసిఫైయర్లను ఉపయోగిస్తాము, అంటే కొన్ని సంభాషణలు మా హానికరమైన కంటెంట్ మార్గదర్శకాలను ఉల్లంఘించినట్లు గుర్తించబడితే వాటిని నిలిపివేయవచ్చు. ఏజెంట్స్ SDKని(కొత్త విండోలో తెరుచుకుంటుంది) ఉపయోగించి డెవలపర్లు తమ సొంత అదనపు భద్రతా గార్డ్రైల్లను కూడా సులభంగా జోడించవచ్చు.
మా వినియోగ విధానాలు స్పామ్, మోసం లేదా ఇతర హానికరమైన ప్రయోజనాల కోసం మా సేవల నుండి అవుట్పుట్లను తిరిగి ఉపయోగించడాన్ని లేదా పంపిణీ చేయడాన్ని నిషేధిస్తాయి. డెవలపర్లు AI తో సంభాషించేటప్పుడు తుది వినియోగదారులకు స్పష్టంగా తెలియజేయాలి, అది సందర్భం నుండి ఇప్పటికే స్పష్టంగా ఉంటే తప్ప. హానికరమైన నటులు ఇతరుల వలె నటించకుండా నిరోధించడానికి రియల్టైమ్ API ప్రీసెట్ వాయిస్లను ఉపయోగిస్తుంది.
రియల్టైమ్ API EU-ఆధారిత అప్లికేషన్ల కోసం EU డేటా రెసిడెన్సీకి(కొత్త విండోలో తెరుచుకుంటుంది) పూర్తిగా మద్దతు ఇస్తుంది మరియు మా ఎంటర్ప్రైజ్ గోప్యతా నిబద్ధతల ద్వారా కవర్ చేయబడుతుంది.
సాధారణంగా అందుబాటులో ఉన్న రియల్టైమ్ API మరియు కొత్త gpt-realtime నమూనా ఈరోజు నుండి అందరు డెవలపర్లకు అందుబాటులో ఉంటాయి. gpt-4o-realtime-preview తో పోలిస్తే gpt-realtime ధరలను 20% తగ్గిస్తున్నాము—$32 / 1M ఆడియో ఇన్పుట్ టోకెన్లు (కాష్ చేసిన ఇన్పుట్ టోకెన్లకు $0.40) మరియు $64 / 1M ఆడియో అవుట్పుట్ టోకెన్లు (వివరణాత్మక ధరల(కొత్త విండోలో తెరుచుకుంటుంది)ను చూడండి). డెవలపర్లు తెలివైన టోకెన్ పరిమితులను సెట్ చేయడానికి మరియు ఒకేసారి బహుళ మలుపులను తగ్గించడానికి, దీర్ఘ సెషన్ల ఖర్చును గణనీయంగా తగ్గించడానికి సంభాషణ సందర్భం కోసం మేము సూక్ష్మ నియంత్రణను కూడా జోడించాము.
ప్రారంభించడానికి, మా రియల్టైమ్ API డాక్యుమెంటేషన్ను(కొత్త విండోలో తెరుచుకుంటుంది) సందర్శించండి, Playground(కొత్త విండోలో తెరుచుకుంటుంది) లో కొత్త నమూనాను పరీక్షించండి మరియు మా రియల్టైమ్ API ప్రాంప్టింగ్ గైడ్ను(కొత్త విండోలో తెరుచుకుంటుంది) వీక్షించండి.


