ప్రధాన కంటెంట్‌కి దాటండి
OpenAI

gpt-realtime మరియు ప్రొడక్షన్ వాయిస్ ఏజెంట్ల కోసం Realtime API అప్‌డేట్స్‌ను పరిచయం చేస్తోంది

మేము మరింత అధునాతన స్పీచ్-టు-స్పీచ్ నమూనా మరియు MCP సర్వర్ మద్దతు, ఇమేజ్ ఇన్‌పుట్ మరియు SIP ఫోన్ కాలింగ్ మద్దతుతో సహా కొత్త API సామర్థ్యాలను విడుదల చేస్తున్నాము.

వాయిస్ ఇంటరాక్షన్‌ను చూపించే శైలీకృత ఇంటర్‌ఫేస్. సెంటర్డ్ అనేది వేవ్‌ఫార్మ్ విజువలైజేషన్, ప్లే/పాజ్ బటన్, “ఏజెంట్ ఆన్‌లైన్” స్థితి సూచిక మరియు 00:35 టైమ్‌స్టాంప్‌తో కూడిన గుండ్రని దీర్ఘచతురస్రాకార ఆడియో ప్లేయర్. చిత్రం అంతటా చుక్కలతో తెల్లటి వక్ర రేఖలు ప్రవహిస్తాయి, ఇది ప్రత్యక్ష ఆడియో లేదా సిగ్నల్ కదలికను సూచిస్తుంది. నేపథ్యం గులాబీ మరియు ఊదా రంగుల్లో అస్పష్టమైన పూల ఆకారాలతో స్పష్టమైన నీలం రంగులో ఉంది.
లోడ్ అవుతోంది…

ఈరోజు మనం డెవలపర్లు మరియు సంస్థలు నమ్మకమైన, ఉత్పత్తికి సిద్ధంగా ఉన్న వాయిస్ ఏజెంట్లను నిర్మించడానికి వీలు కల్పించే కొత్త లక్షణాలతో రియల్‌టైమ్ APIని సాధారణంగా అందుబాటులోకి తెస్తున్నాము. API ఇప్పుడు రిమోట్ MCP సర్వర్‌లు, ఇమేజ్ ఇన్‌పుట్‌లు మరియు సెషన్ ఇనిషియేషన్ ప్రోటోకాల్ (SIP) ద్వారా ఫోన్ కాలింగ్‌కు మద్దతు ఇస్తుంది, అదనపు సాధనాలు మరియు సందర్భానికి యాక్సెస్ ద్వారా వాయిస్ ఏజెంట్‌లను మరింత సామర్థ్యం కలిగిస్తుంది.

మేము ఇప్పటివరకు మా అత్యంత అధునాతన స్పీచ్-టు-స్పీచ్ నమూనాను కూడా విడుదల చేస్తున్నాము—gpt-realtime. సంక్లిష్టమైన సూచనలను పాటించడంలో, సాధనాలను ఖచ్చితత్వంతో పిలవడంలో మరియు మరింత సహజంగా మరియు వ్యక్తీకరణగా వినిపించే ప్రసంగాన్ని ఉత్పత్తి చేయడంలో కొత్త నమూనా మెరుగుదలలను చూపుతుంది. సిస్టమ్ సందేశాలను మరియు డెవలపర్ ప్రాంప్ట్‌లను అర్థం చేసుకోవడంలో ఇది మెరుగ్గా ఉంటుంది—అది సపోర్ట్ కాల్‌లో డిస్క్లైమర్ స్క్రిప్ట్‌లను పదం పదం చదవడం, ఆల్ఫాన్యూమరిక్స్‌ను తిరిగి పునరావృతం చేయడం లేదా వాక్యం మధ్యలో భాషల మధ్య సజావుగా మారడం వంటివి కావచ్చు. మేము సెడార్ మరియు మారిన్ అనే రెండు కొత్త వాయిస్‌లను కూడా విడుదల చేస్తున్నాము, ఇవి ఈరోజు నుండి రియల్‌టైమ్ APIలో ప్రత్యేకంగా అందుబాటులో ఉన్నాయి.

గత అక్టోబర్‌లో మేము మొదటిసారిగా రియల్‌టైమ్ APIని పబ్లిక్ బీటాలో ప్రవేశపెట్టినప్పటి నుండి, వేలాది మంది డెవలపర్‌లు APIతో నిర్మించారు మరియు మేము ఈరోజు విడుదల చేస్తున్న మెరుగుదలలను రూపొందించడంలో సహాయపడ్డారు—ఉత్పత్తిలో వాయిస్ ఏజెంట్‌లను విజయవంతంగా అమలు చేయడానికి విశ్వసనీయత, తక్కువ జాప్యం మరియు అధిక నాణ్యత కోసం ఆప్టిమైజ్ చేయబడింది. స్పీచ్-టు-టెక్స్ట్ మరియు టెక్స్ట్-టు-స్పీచ్ అంతటా బహుళ మోడళ్లను కలిపే సాంప్రదాయ పైప్‌లైన్‌ల మాదిరిగా కాకుండా, రియల్‌టైమ్ API ఒకే నమూనా మరియు API ద్వారా నేరుగా ఆడియోను ప్రాసెస్ చేస్తుంది మరియు ఉత్పత్తి చేస్తుంది. ఇది జాప్యాన్ని తగ్గిస్తుంది, ప్రసంగంలో సూక్ష్మభేదాన్ని కాపాడుతుంది మరియు మరింత సహజమైన, వ్యక్తీకరణ ప్రతిస్పందనలను ఉత్పత్తి చేస్తుంది.

“OpenAI యొక్క రియల్‌టైమ్ APIలోని కొత్త స్పీచ్-టు-స్పీచ్ నమూనా బలమైన తార్కికం మరియు మరింత సహజమైన ప్రసంగాన్ని చూపుతుంది—జీవనశైలి అవసరాల ఆధారంగా జాబితాలను తగ్గించడం లేదా మా BuyAbility స్కోర్ వంటి సాధనాలతో స్థోమత చర్చలను మార్గనిర్దేశం చేయడం వంటి సంక్లిష్టమైన, బహుళ-దశల అభ్యర్థనలను నిర్వహించడానికి ఇది అనుమతిస్తుంది. ఇది Zillow లో ఇంటి కోసం వెతకడం లేదా ఫైనాన్సింగ్ ఎంపికలను అన్వేషించడం స్నేహితుడితో సంభాషణ వలె సహజంగా అనిపించవచ్చు, ఇల్లు కొనడం, అమ్మడం మరియు అద్దెకు తీసుకోవడం వంటి నిర్ణయాలను సులభతరం చేయడంలో సహాయపడుతుంది.

- జోష్ వీస్‌బర్గ్, Zillow లో AI అధిపతి

gpt-realtime పరిచయం

కొత్త స్పీచ్-టు-స్పీచ్ నమూనా—gpt-realtime—మా అత్యంత అధునాతనమైన, ఉత్పత్తికి సిద్ధంగా ఉన్న వాయిస్ నమూనా. కస్టమర్ సపోర్ట్, వ్యక్తిగత సహాయం మరియు విద్య వంటి వాస్తవ ప్రపంచ పనులలో రాణించడానికి కస్టమర్లతో సన్నిహిత సహకారంతో మేము నమూనాకు శిక్షణ ఇచ్చాము—డెవలపర్లు వాయిస్ ఏజెంట్లను ఎలా నిర్మిస్తారు మరియు అమలు చేస్తారు అనే దానికి అనుగుణంగా నమూనాను సమలేఖనం చేస్తాము. ఈ నమూనా ఆడియో నాణ్యత, తెలివితేటలు, సూచనలను అనుసరించడం మరియు ఫంక్షన్ కాలింగ్ అంతటా మెరుగుదలలను చూపుతుంది.

ఆడియో నాణ్యత

వాస్తవ ప్రపంచంలో వాయిస్ ఏజెంట్లను అమలు చేయడానికి సహజ ధ్వని సంభాషణ చాలా కీలకం. ఆనందించదగిన అనుభవాన్ని సృష్టించడానికి మరియు వినియోగదారులతో నిరంతర సంభాషణను ప్రోత్సహించడానికి నమూనాలు మానవుని స్వరం, భావోద్వేగం మరియు వేగంతో మాట్లాడాలి. "త్వరగా మరియు వృత్తిపరంగా మాట్లాడండి" లేదా "ఫ్రెంచ్ యాసలో సానుభూతితో మాట్లాడండి" వంటి సూక్ష్మమైన సూచనలను అనుసరించగల మరియు మరింత సహజంగా వినిపించే అధిక-నాణ్యత ప్రసంగాన్ని ఉత్పత్తి చేయడానికి మేము gpt-realtime కి శిక్షణ ఇచ్చాము.

మేము APIలో రెండు కొత్త వాయిస్‌లను విడుదల చేస్తున్నాము, అవి మారిన్ మరియు సెడార్, సహజ ధ్వని ప్రసంగానికి అత్యంత ముఖ్యమైన మెరుగుదలలతో. ఈ మెరుగుదలల నుండి ప్రయోజనం పొందడానికి మేము ఇప్పటికే ఉన్న మా ఎనిమిది స్వరాలను కూడా నవీకరిస్తున్నాము.

వాయిస్ నమూనా - మారిన్
వాయిస్ నమూనా - సెడార్

తెలివితేటలు మరియు అవగాహన

gpt-realtime అధిక తెలివితేటలను చూపుతుంది మరియు స్థానిక ఆడియోను ఎక్కువ ఖచ్చితత్వంతో గ్రహించగలదు. ఈ నమూనా అశాబ్దిక సంకేతాలను (నవ్వులు వంటివి) సంగ్రహించగలదు, వాక్యం మధ్యలో భాషలను మార్చగలదు మరియు స్వరాన్ని సర్దుబాటు చేయగలదు (“చురుగ్గా మరియు ప్రొఫెషనల్” వర్సెస్ “దయగల మరియు సానుభూతిగల”). అంతర్గత మూల్యాంకనాల ప్రకారం, స్పానిష్, చైనీస్, జపనీస్ మరియు ఫ్రెంచ్ వంటి ఇతర భాషలలో ఆల్ఫాన్యూమరిక్ సీక్వెన్స్‌లను (ఫోన్ నంబర్‌లు, VINలు మొదలైనవి) గుర్తించడంలో నమూనా మరింత ఖచ్చితమైన పనితీరును చూపుతుంది. బిగ్ బెంచ్ ఆడియో ఎవాల్‌లో తార్కిక సామర్థ్యాలను కొలిచే విషయంలో, gpt-realtime 82.8% ఖచ్చితత్వాన్ని స్కోర్ చేస్తుంది—డిసెంబర్ 2024 నుండి మా మునుపటి నమూనాను అధిగమించింది, ఇది 65.6% స్కోర్ చేస్తుంది.

బిగ్ బెంచ్ ఆడియో(కొత్త విండోలో తెరుచుకుంటుంది) బెంచ్‌మార్క్ అనేది ఆడియో ఇన్‌పుట్‌కు మద్దతు ఇచ్చే భాషా నమూనాల తార్కిక సామర్థ్యాలను అంచనా వేయడానికి ఒక మూల్యాంకన డేటాసెట్. ఈ డేటాసెట్ బిగ్ బెంచ్ హార్డ్ నుండి ప్రశ్నలను—అధునాతన తార్కికం యొక్క కఠినమైన పరీక్ష కోసం ఎంపిక చేయబడింది—ఆడియో డొమైన్‌లోకి మారుస్తుంది.

సూచనలను అనుసరించడం

స్పీచ్-టు-స్పీచ్ అప్లికేషన్‌ను రూపొందించేటప్పుడు, డెవలపర్లు నమూనాకు ఎలా ప్రవర్తించాలో, ఎలా మాట్లాడాలి, ఒక నిర్దిష్ట పరిస్థితిలో ఏమి చెప్పాలి మరియు ఏమి చేయాలి లేదా చేయకూడదు అనే దానితో సహా సూచనల సమితిని ఇస్తారు. ఈ సూచనలను పాటించడంపై మేము మా మెరుగుదలలను కేంద్రీకరించాము, తద్వారా చిన్న దిశలు కూడా నమూనాకు ఎక్కువ సంకేతాలను కలిగి ఉంటాయి. మల్టీఛాలెంజ్ ఆడియో బెంచ్‌మార్క్ కొలత సూచనలలో ఖచ్చితత్వాన్ని అనుసరించి, gpt-realtime స్కోర్‌లు 30.5%, డిసెంబర్ 2024 నుండి మా మునుపటి నమూనా కంటే గణనీయమైన మెరుగుదల, ఇది 20.6% స్కోర్ చేస్తుంది.

MultiChallenge(కొత్త విండోలో తెరుచుకుంటుంది) అనేది LLMలు మానవులతో బహుళ-మలుపు సంభాషణలను ఎంత బాగా నిర్వహిస్తాయో అంచనా వేస్తుంది. ప్రస్తుత సరిహద్దు నమూనాలు ఎదుర్కొంటున్న నాలుగు రకాల వాస్తవిక సవాళ్లపై ఇది దృష్టి పెడుతుంది. ఈ సవాళ్లకు నమూనాలు బోధన-అనుసరణ, సందర్భ నిర్వహణ మరియు సందర్భోచిత తార్కికతను ఏకకాలంలో కలపడం అవసరం. ఈ మూల్యాంకనం యొక్క ఆడియో వెర్షన్‌ను రూపొందించడానికి మేము పరీక్ష ప్రశ్నల యొక్క ఆడియో-ఫ్రెండ్లీ సబ్‌సెట్‌ను టెక్స్ట్-టు-స్పీచ్‌గా మార్చాము.

ఫంక్షన్ కాలింగ్

స్పీచ్-టు-స్పీచ్ నమూనాతో సమర్థవంతమైన వాయిస్ ఏజెంట్‌ను నిర్మించడానికి, నమూనా ఉత్పత్తిలో ఉపయోగకరంగా ఉండటానికి సరైన సమయంలో సరైన సాధనాలను పిలవగలగాలి. మేము మూడు అక్షాలపై ఫంక్షన్ కాలింగ్‌ను మెరుగుపరిచాము: సంబంధిత ఫంక్షన్‌లను కాల్ చేయడం, తగిన సమయంలో ఫంక్షన్‌లను కాల్ చేయడం మరియు తగిన ఆర్గ్యుమెంట్‌లతో ఫంక్షన్‌లను కాలింగ్ చేయడం (ఫలితంగా అధిక ఖచ్చితత్వం వస్తుంది). ComplexFuncBench ఆడియో eval కొలిచే ఫంక్షన్ కాలింగ్ పనితీరులో, gpt-realtime స్కోర్లు 66.5%, డిసెంబర్ 2024 నుండి మా మునుపటి నమూనా 49.7% స్కోర్లు సాధించింది.

మేము అసమకాలిక ఫంక్షన్ కాలింగ్‌కు(కొత్త విండోలో తెరుచుకుంటుంది) కూడా మెరుగుదలలు చేసాము. దీర్ఘకాలం కొనసాగే ఫంక్షన్ కాల్‌లు ఇకపై సెషన్ ప్రవాహానికి అంతరాయం కలిగించవు—ఫలితాల కోసం వేచి ఉన్నప్పుడు నమూనా మృదువైన సంభాషణను కొనసాగించగలదు. ఈ ఫీచర్ స్థానికంగా gpt-realtime లో అందుబాటులో ఉంది, కాబట్టి డెవలపర్‌లు తమ కోడ్‌ను నవీకరించాల్సిన అవసరం లేదు.

ComplexFuncBench(కొత్త విండోలో తెరుచుకుంటుంది) అనేది నమూనాలు సవాలుతో కూడిన ఫంక్షన్ కాలింగ్ టాస్క్‌లను ఎంత బాగా నిర్వహిస్తాయో కొలుస్తుంది. ఇది బహుళ-దశల కాల్‌లు, పరిమితులు లేదా అవ్యక్త పారామితుల గురించి తార్కికం, చాలా పొడవైన ఇన్‌పుట్‌లను నిర్వహించడం వంటి దృశ్యాలలో పనితీరును అంచనా వేస్తుంది. మా నమూనా కోసం ఈ మూల్యాంకనాన్ని నిర్మించడానికి మేము అసలు టెక్స్ట్ ప్రాంప్ట్‌లను ప్రసంగంగా మార్చాము.

రియల్‌టైమ్ APIలో కొత్తది

రిమోట్ MCP సర్వర్ మద్దతు

రిమోట్ MCP సర్వర్ యొక్క URL ను సెషన్ కాన్ఫిగరేషన్‌లోకి పాస్ చేయడం ద్వారా మీరు రియల్‌టైమ్ API సెషన్‌లో MCP మద్దతును ప్రారంభించవచ్చు. కనెక్ట్ అయిన తర్వాత, API మీ కోసం టూల్ కాల్‌లను స్వయంచాలకంగా నిర్వహిస్తుంది, కాబట్టి ఇంటిగ్రేషన్‌లను మాన్యువల్‌గా వైర్ అప్ చేయవలసిన అవసరం లేదు.

ఈ సెటప్ మీ ఏజెంట్‌ను కొత్త సామర్థ్యాలతో విస్తరించడాన్ని సులభతరం చేస్తుంది—సెషన్‌ను వేరే MCP సర్వర్‌కు పాయింట్ చేయండి, ఆ సాధనాలు వెంటనే అందుబాటులోకి వస్తాయి. రియల్‌టైమ్‌తో MCPని కాన్ఫిగర్ చేయడం గురించి మరింత తెలుసుకోవడానికి, ఈ గైడ్‌ని(కొత్త విండోలో తెరుచుకుంటుంది) చూడండి.

JavaScript

1
// POST /v1/realtime/client_secrets
2
{
3
"session": {
4
"type": "realtime",
5
"tools": [
6
{
7
"type": "mcp",
8
"server_label": "stripe",
9
"server_url": "https://mcp.stripe.com",
10
"authorization": "{access_token}",
11
"require_approval": "never"
12
}
13
]
14
}
15
}
16

చిత్రం ఇన్‌పుట్

ఇప్పుడు gpt-realtime లో ఇమేజ్ ఇన్‌పుట్‌లకు మద్దతు ఇవ్వడంతో, మీరు రియల్‌టైమ్ API సెషన్‌కు ఆడియో లేదా టెక్స్ట్‌తో పాటు ఇమేజ్‌లు, ఫోటోలు మరియు స్క్రీన్‌షాట్‌లను జోడించవచ్చు. ఇప్పుడు నమూనా సంభాషణను వినియోగదారుడు వాస్తవానికి ఏమి చూస్తున్నాడనే దానిపై ఆధారపడి ఉంటుంది, వినియోగదారులు "మీరు ఏమి చూస్తున్నారు?" లేదా "ఈ స్క్రీన్‌షాట్‌లోని వచనాన్ని చదవండి" వంటి ప్రశ్నలను అడగడానికి వీలు కల్పిస్తుంది.

ఒక చిత్రాన్ని ప్రత్యక్ష వీడియో స్ట్రీమ్ లాగా పరిగణించే బదులు, ఈ వ్యవస్థ దానిని సంభాషణలో ఒక చిత్రాన్ని జోడించినట్లుగా భావిస్తుంది. మీ యాప్ నమూనాతో ఏ చిత్రాలను షేర్ చేయాలో మరియు వాటిని ఎప్పుడు షేర్ చేయాలో నిర్ణయించగలదు. ఈ విధంగా, నమూనా ఏమి చూస్తుందో మరియు ఎప్పుడు స్పందిస్తుందో మీరు నియంత్రణలో ఉంటారు.

ఇమేజ్ ఇన్‌పుట్‌తో ప్రారంభించడానికి మా డాక్యుమెంట్‌లను(కొత్త విండోలో తెరుచుకుంటుంది) చూడండి.

JavaScript

1
{
2
"type": "conversation.item.create",
3
"previous_item_id": null,
4
"item": {
5
"type": "message",
6
"role": "user",
7
"content": [
8
{
9
"type": "input_image",
10
"image_url": "data:image/{format(example: png)};base64,{some_base64_image_bytes}"
11
}
12
]
13
}
14
}
15

అదనపు సామర్థ్యాలు

రియల్‌టైమ్ APIని ఇంటిగ్రేట్ చేయడాన్ని సులభతరం చేయడానికి మరియు ప్రొడక్షన్ వినియోగానికి మరింత సరళంగా చేయడానికి మేము అనేక ఇతర లక్షణాలను జోడించాము.

సేఫ్టీ మరియు ప్రైవసీ

దుర్వినియోగాన్ని నిరోధించడంలో సహాయపడటానికి రియల్‌టైమ్ API బహుళ స్థాయిల రక్షణలు మరియు ఉపశమనాలను కలిగి ఉంటుంది. మీరు మా భద్రతా విధానం మరియు సిస్టమ్ కార్డ్ వివరాల గురించి బీటా ప్రకటన బ్లాగ్‌లో మరింత తెలుసుకోవచ్చు. మేము రియల్ టైమ్ API సెషన్లలో యాక్టివ్ క్లాసిఫైయర్‌లను ఉపయోగిస్తాము, అంటే కొన్ని సంభాషణలు మా హానికరమైన కంటెంట్ మార్గదర్శకాలను ఉల్లంఘించినట్లు గుర్తించబడితే వాటిని నిలిపివేయవచ్చు. ఏజెంట్స్ SDKని(కొత్త విండోలో తెరుచుకుంటుంది) ఉపయోగించి డెవలపర్లు తమ సొంత అదనపు భద్రతా గార్డ్‌రైల్‌లను కూడా సులభంగా జోడించవచ్చు.

మా వినియోగ విధానాలు స్పామ్, మోసం లేదా ఇతర హానికరమైన ప్రయోజనాల కోసం మా సేవల నుండి అవుట్‌పుట్‌లను తిరిగి ఉపయోగించడాన్ని లేదా పంపిణీ చేయడాన్ని నిషేధిస్తాయి. డెవలపర్లు AI తో సంభాషించేటప్పుడు తుది వినియోగదారులకు స్పష్టంగా తెలియజేయాలి, అది సందర్భం నుండి ఇప్పటికే స్పష్టంగా ఉంటే తప్ప. హానికరమైన నటులు ఇతరుల వలె నటించకుండా నిరోధించడానికి రియల్‌టైమ్ API ప్రీసెట్ వాయిస్‌లను ఉపయోగిస్తుంది.

రియల్‌టైమ్ API EU-ఆధారిత అప్లికేషన్‌ల కోసం EU డేటా రెసిడెన్సీకి(కొత్త విండోలో తెరుచుకుంటుంది) పూర్తిగా మద్దతు ఇస్తుంది మరియు మా ఎంటర్‌ప్రైజ్ గోప్యతా నిబద్ధతల ద్వారా కవర్ చేయబడుతుంది.

ధర & లభ్యత

సాధారణంగా అందుబాటులో ఉన్న రియల్‌టైమ్ API మరియు కొత్త gpt-realtime నమూనా ఈరోజు నుండి అందరు డెవలపర్‌లకు అందుబాటులో ఉంటాయి. gpt-4o-realtime-preview తో పోలిస్తే gpt-realtime ధరలను 20% తగ్గిస్తున్నాము—$32 / 1M ఆడియో ఇన్‌పుట్ టోకెన్‌లు (కాష్ చేసిన ఇన్‌పుట్ టోకెన్‌లకు $0.40) మరియు $64 / 1M ఆడియో అవుట్‌పుట్ టోకెన్‌లు (వివరణాత్మక ధరల(కొత్త విండోలో తెరుచుకుంటుంది)ను చూడండి). డెవలపర్‌లు తెలివైన టోకెన్ పరిమితులను సెట్ చేయడానికి మరియు ఒకేసారి బహుళ మలుపులను తగ్గించడానికి, దీర్ఘ సెషన్‌ల ఖర్చును గణనీయంగా తగ్గించడానికి సంభాషణ సందర్భం కోసం మేము సూక్ష్మ నియంత్రణను కూడా జోడించాము.

లైవ్‌స్ట్రీమ్ రీప్లే

రచయిత

OpenAI