મુખ્ય વિષય-સામગ્રી પર જાવો
OpenAI

પ્રોડક્શન વૉઇસ એજન્ટ માટે gpt-realtime અને Realtime API અપડેટ્સની રજૂઆત

અમે વધુ અદ્યતન સ્પીચ-ટુ-સ્પીચ મોડલ અને MCP server support, image input અને SIP phone calling support સહિત નવી API ક્ષમતાઓ રજૂ કરી રહ્યા છીએ.

વૉઇસ ઇન્ટરૅક્શન દર્શાવતું સ્ટાઇલાઇઝ્ડ ઇન્ટરફેસ. મધ્યમાં ગોળ ખૂણાવાળો આયતાકાર ઑડિયો પ્લેયર છે, જેમાં વેવફોર્મ વિઝ્યુઅલાઇઝેશન, પ્લે/પોઝ બટન, “Agent online” સ્થિતિ સૂચક અને 00:35 નો ટાઇમસ્ટૅમ્પ છે. બિંદુઓ સાથેની સફેદ વળાંકદાર રેખાઓ ચિત્રમાં વહે છે, જે લાઇવ ઑડિયો અથવા સિગ્નલની ગતિ સૂચવે છે. પૃષ્ઠભૂમિ તેજસ્વી નીળી છે, જેમાં ગુલાબી અને જાંબલી ટોનના ધૂંધળા ફૂલ આકારો છે.
લોડિંગ…

આજે અમે Realtime API ને સામાન્ય ઉપલબ્ધતા સાથે નવી સુવિધાઓ સાથે રજૂ કરી રહ્યા છીએ, જે ડેવલપર્સ અને એન્ટરપ્રાઇઝને વિશ્વસનીય, પ્રોડક્શન-રેડી વૉઇસ એજન્ટ બનાવવા સક્ષમ બનાવે છે. API હવે remote MCP servers, image inputs અને Session Initiation Protocol (SIP) દ્વારા phone calling ને સપોર્ટ કરે છે, જેથી વધારાના ટૂલ્સ અને સંદર્ભની ઍક્સેસ દ્વારા વૉઇસ એજન્ટ વધુ સક્ષમ બને છે.

અમે અમારું અત્યાર સુધીનું સૌથી અદ્યતન સ્પીચ-ટુ-સ્પીચ મોડલ પણ રજૂ કરી રહ્યા છીએ—gpt-realtime. નવું મોડલ જટિલ સૂચનાઓ અનુસરવામાં, ચોકસાઈ સાથે ટૂલ્સ કોલ કરવામાં અને વધુ સ્વાભાવિક તથા અભિવ્યક્તિપૂર્ણ લાગતું ભાષણ ઉત્પન્ન કરવામાં સુધારો દર્શાવે છે. તે system messages અને developer prompts ને સમજવામાં વધુ સારું છે—ચાહે તે support call પર disclaimer scripts શબ્દશઃ વાંચવું હોય, અલ્ફાન્યુમેરિક્સ ફરીથી બોલવા હોય, કે વાક્યના મધ્યમાં ભાષાઓ વચ્ચે અવરોધ વિના બદલાવ કરવો હોય. અમે આજે થી Realtime API માં માત્ર ઉપલબ્ધ એવા બે નવા અવાજો, Cedar અને Marin, પણ રજૂ કરી રહ્યા છીએ.

ગયા ઑક્ટોબરમાં અમે Realtime API ને પ્રથમ વખત public beta માં રજૂ કરી ત્યારથી, હજારો ડેવલપર્સે API સાથે બનાવી કામ કર્યું છે અને આજે અમે જે સુધારાઓ રજૂ કરી રહ્યા છીએ તેને આકાર આપવા મદદ કરી છે—જે વિશ્વસનીયતા, ઓછી વિલંબતા અને ઊંચી ગુણવત્તા માટે ઑપ્ટિમાઇઝ કરાયેલા છે જેથી પ્રોડક્શનમાં વૉઇસ એજન્ટ સફળતાપૂર્વક ડિપ્લોય કરી શકાય. પરંપરાગત પાઇપલાઇન્સથી ભિન્ન, જે speech-to-text અને text-to-speech દરમિયાન અનેક મોડલ્સને જોડે છે, Realtime API એક જ મોડલ અને API દ્વારા સીધું ઑડિયો પ્રોસેસ અને જનરેટ કરે છે. આ વિલંબતા ઘટાડે છે, ભાષણની નજાકત જાળવે છે અને વધુ સ્વાભાવિક, અભિવ્યક્તિપૂર્ણ પ્રતિસાદ આપે છે.

“OpenAI ની Realtime API માંનું નવું સ્પીચ-ટુ-સ્પીચ મોડલ વધુ મજબૂત રિઝનિંગ અને વધુ સ્વાભાવિક ભાષણ બતાવે છે, જેથી તે જીવનશૈલીની જરૂરિયાતો અનુસાર લિસ્ટિંગ્સ સંકુચિત કરવી અથવા અમારા BuyAbility score જેવા ટૂલ્સ સાથે પરવડતાની ચર્ચાને માર્ગદર્શન આપવી જેવી જટિલ, બહુ-પગથિયાવાળી વિનંતીઓને સંભાળી શકે. આ Zillow પર ઘર શોધવાનું અથવા ફાઇનાન્સિંગ વિકલ્પો તપાસવાનું મિત્ર સાથેની વાતચીત જેટલું સ્વાભાવિક બનાવી શકે છે, અને ઘર ખરીદવા, વેચવા અને ભાડે લેવા જેવા નિર્ણયો સરળ બનાવવામાં મદદ કરે છે.”

– Josh Weisberg, Zillow ખાતે AI ના Head

gpt-realtime ની રજૂઆત

નવું સ્પીચ-ટુ-સ્પીચ મોડલ—gpt-realtime—અમારું સૌથી અદ્યતન, પ્રોડક્શન-રેડી વૉઇસ મોડલ છે. અમે ગ્રાહકો સાથે નજીકના સહકારમાં મોડલને તાલીમ આપી છે જેથી તે customer support, personal assistance અને education જેવા વાસ્તવિક કાર્યોમાં ઉત્તમ દેખાવ કરે—અને મોડલને ડેવલપર્સ વૉઇસ એજન્ટ કેવી રીતે બનાવે અને ડિપ્લોય કરે છે તે પ્રમાણે સુસંગત બનાવે. મોડલ ઑડિયો ગુણવત્તા, બુદ્ધિમત્તા, સૂચના-અનુસરણી અને ફંક્શન કોલિંગમાં સુધારો દર્શાવે છે.

ઑડિયો ગુણવત્તા

વાસ્તવિક દુનિયામાં વૉઇસ એજન્ટ ડિપ્લોય કરવા માટે સ્વાભાવિક લાગતી વાતચીત અત્યંત મહત્વપૂર્ણ છે. આનંદદાયક અનુભવ બનાવવા અને વપરાશકર્તાઓ સાથે સતત સંવાદ પ્રોત્સાહિત કરવા માટે મોડલ્સને માનવી જેવી સ્વરછટા, ભાવના અને ગતિ સાથે બોલવાની જરૂર છે. અમે gpt-realtime ને વધુ ઉચ્ચ ગુણવત્તાવાળું, વધુ સ્વાભાવિક લાગતું ભાષણ ઉત્પન્ન કરવા અને “ઝડપથી અને વ્યવસાયિક રીતે બોલો” અથવા “French accent સાથે સહાનુભૂતિપૂર્વક બોલો” જેવી સૂક્ષ્મ સૂચનાઓનું અનુસરણ કરવા માટે તાલીમ આપી છે.

અમે API માં બે નવા અવાજો, Marin અને Cedar, રજૂ કરી રહ્યા છીએ, જેમાં સ્વાભાવિક લાગતા ભાષણમાં સૌથી મહત્ત્વના સુધારા છે. અમે અમારા હાલના આઠ અવાજોને પણ આ સુધારાઓનો લાભ મળે તે માટે અપડેટ કરી રહ્યા છીએ.

વૉઇસ નમૂનો - Marin
વૉઇસ નમૂનો - Cedar

બુદ્ધિમત્તા અને સમજ

gpt-realtime વધુ ઊંચી બુદ્ધિમત્તા દર્શાવે છે અને મૂળ ઑડિયોને વધુ ચોકસાઈથી સમજી શકે છે. મોડલ બિન-મૌખિક સંકેતો (જેમ કે હાસ્ય) પકડી શકે છે, વાક્યના મધ્યમાં ભાષાઓ બદલી શકે છે અને ટોનને અનુરૂપ બનાવી શકે છે (“snappy and professional” સામે “kind and empathetic”). આંતરિક મૂલ્યાંકન મુજબ, મોડલ અન્ય ભાષાઓમાં પણ ફોન નંબર, VINs વગેરે જેવી અલ્ફાન્યુમેરિક શ્રેણીઓ ઓળખવામાં વધુ ચોક્કસ પ્રદર્શન દર્શાવે છે, જેમાં Spanish, Chinese, Japanese અને French નો સમાવેશ થાય છે. રિઝનિંગ ક્ષમતાઓ માપતા Big Bench Audio eval પર, gpt-realtime 82.8% ચોકસાઈ મેળવે છે—જે અમારા December 2024 ના અગાઉના મોડલના 65.6% કરતાં વધારે છે.

Big Bench Audio(નવી વિન્ડોમાં ખૂલે છે) બેન્ચમાર્ક એ ઑડિયો ઇનપુટને સપોર્ટ કરતા ભાષા મોડલ્સની રિઝનિંગ ક્ષમતાઓનું મૂલ્યાંકન કરવા માટેનો ડેટાસેટ છે. આ ડેટાસેટ Big Bench Hard ના પ્રશ્નોને—અદ્યતન રિઝનિંગની કડક ચકાસણી માટે પસંદ કરેલા—ઑડિયો ક્ષેત્ર માટે અનુકૂળ બનાવે છે.

સૂચના-અનુસરણી

સ્પીચ-ટુ-સ્પીચ એપ્લિકેશન બનાવતી વખતે, ડેવલપર્સ મોડલને કેવી રીતે વર્તવું તેની સૂચનાઓ આપે છે, જેમાં કેવી રીતે બોલવું, નિશ્ચિત પરિસ્થિતિમાં શું કહેવું અને શું કરવું કે ન કરવું તેનો સમાવેશ થાય છે. અમે આ સૂચનાઓના પાલન પર અમારા સુધારાઓ કેન્દ્રિત કર્યા છે, જેથી નાની દિશાઓ પણ મોડલ માટે વધુ સ્પષ્ટ સંકેત વહન કરે. સૂચના-અનુસરણીની ચોકસાઈ માપતા MultiChallenge audio benchmark પર, gpt-realtime 30.5% સ્કોર કરે છે, જે અમારા December 2024 ના અગાઉના મોડલના 20.6% કરતાં નોંધપાત્ર સુધારો છે.

MultiChallenge(નવી વિન્ડોમાં ખૂલે છે) મૂલ્યાંકન કરે છે કે LLM બહુ-ટર્ન માનવીય વાતચીતને કેટલા સારી રીતે સંભાળે છે. તે ચાર પ્રકારના વાસ્તવિક પડકારો પર ધ્યાન કેન્દ્રિત કરે છે, જેમા વર્તમાન અત્યાધુનિક મોડલ્સ મુશ્કેલી અનુભવે છે. આ પડકારોમાં મોડલ્સને સૂચના-અનુસરણી, સંદર્ભ વ્યવસ્થાપન અને ઇન-કોન્ટેક્સ્ટ રિઝનિંગને એકસાથે જોડવું પડે છે. અમે આ મૂલ્યાંકનનું ઑડિયો સંસ્કરણ બનાવવા માટે ટેસ્ટ પ્રશ્નોના ઑડિયો-મૈત્રીપૂર્ણ ઉપસેટને text-to-speech થી રૂપાંતરિત કર્યો.

ફંક્શન કોલિંગ

સ્પીચ-ટુ-સ્પીચ મોડલ સાથે સક્ષમ વૉઇસ એજન્ટ બનાવવા માટે, મોડલને પ્રોડક્શનમાં ઉપયોગી બનવા યોગ્ય સમયે યોગ્ય ટૂલ્સ કોલ કરી શકવું જરૂરી છે. અમે ફંક્શન કોલિંગમાં ત્રણ દિશામાં સુધારો કર્યો છે: સંબંધિત ફંક્શન્સ કોલ કરવું, યોગ્ય સમયે ફંક્શન્સ કોલ કરવું અને યોગ્ય arguments સાથે ફંક્શન્સ કોલ કરવું, જેના પરિણામે વધુ ઊંચી ચોકસાઈ મળે છે. ફંક્શન કોલિંગ પ્રદર્શન માપતા ComplexFuncBench audio eval પર, gpt-realtime 66.5% સ્કોર કરે છે, જ્યારે અમારા December 2024 ના અગાઉના મોડલને 49.7% મળે છે.

અમે asynchronous function calling(નવી વિન્ડોમાં ખૂલે છે) માં પણ સુધારા કર્યા છે. લાંબા સમય સુધી ચાલતા function calls હવે session ના પ્રવાહમાં ખલેલ નહીં પહોંચાડે—પરિણામોની રાહ જોતા મોડલ સહજ રીતે પ્રવાહી વાતચીત ચાલુ રાખી શકે છે. આ સુવિધા gpt-realtime માં મૂળરૂપે ઉપલબ્ધ છે, તેથી ડેવલપર્સને પોતાનો code અપડેટ કરવાની જરૂર નથી.

ComplexFuncBench(નવી વિન્ડોમાં ખૂલે છે) માપે છે કે મોડલ્સ પડકારજનક ફંક્શન કોલિંગ કાર્યોને કેટલા સારી રીતે સંભાળે છે. તે મલ્ટી-સ્ટેપ કોલ્સ, મર્યાદાઓ અથવા નિહિત પેરામિટર્સ અંગે રિઝનિંગ, અને બહુ લાંબા ઇનપુટ્સ સંભાળવા જેવા દૃશ્યોમાં કાર્યક્ષમતાનું મૂલ્યાંકન કરે છે. અમે અમારા મોડલ માટે આ મૂલ્યાંકન બનાવવા મૂળ ટેક્સ્ટ પ્રોમ્પ્ટ્સને સ્પીચમાં રૂપાંતરિત કર્યા.

Realtime API માં નવું

Remote MCP server support

તમે session configuration માં remote MCP server નો URL આપી Realtime API session માં MCP support સક્ષમ કરી શકો છો. એકવાર જોડાણ થઈ જાય પછી, API તમારા માટે tool calls આપમેળે સંભાળે છે, તેથી integrations ને હાથથી જોડવાની જરૂર રહેતી નથી.

આ સેટઅપ તમારા એજન્ટમાં નવી ક્ષમતાઓ ઉમેરવાનું સરળ બનાવે છે—ફક્ત session ને અલગ MCP server તરફ નિર્દેશ કરો, અને તે ટૂલ્સ તરત ઉપલબ્ધ થઈ જાય છે. Realtime સાથે MCP configure કરવાની વધુ માહિતી માટે આ માર્ગદર્શિકા(નવી વિન્ડોમાં ખૂલે છે) જુઓ.

JavaScript

1
// POST /v1/realtime/client_secrets
2
{
3
"session": {
4
"type": "realtime",
5
"tools": [
6
{
7
"type": "mcp",
8
"server_label": "stripe",
9
"server_url": "https://mcp.stripe.com",
10
"authorization": "{access_token}",
11
"require_approval": "never"
12
}
13
]
14
}
15
}
16

Image input

હવે gpt-realtime માં image inputs સપોર્ટેડ હોવાથી, તમે Realtime API session માં ઑડિયો અથવા ટેક્સ્ટ સાથે images, photos અને screenshots ઉમેરી શકો છો. હવે મોડલ વાતચીતને વપરાશકર્તા ખરેખર શું જોઈ રહ્યો છે તેના આધાર પર આગળ ધપાવી શકે છે, જેથી વપરાશકર્તાઓ “તમે શું જુઓ છો?” અથવા “આ screenshot માંનું લખાણ વાંચો.” જેવા પ્રશ્નો પૂછી શકે છે.

ઇમેજને live video stream તરીકે ગણવા બદલે, સિસ્ટમ તેને વાતચીતમાં એક તસવીર ઉમેરવા જેવી રીતે માને છે. તમારી app નક્કી કરી શકે છે કે મોડલ સાથે કઈ images શેર કરવી અને ક્યારે કરવી. આ રીતે, મોડલ શું જુએ છે અને ક્યારે પ્રતિસાદ આપે છે તે પર તમારું નિયંત્રણ રહે છે.

image input સાથે શરૂ કરવા માટે અમારી docs(નવી વિન્ડોમાં ખૂલે છે) જુઓ.

JavaScript

1
{
2
"type": "conversation.item.create",
3
"previous_item_id": null,
4
"item": {
5
"type": "message",
6
"role": "user",
7
"content": [
8
{
9
"type": "input_image",
10
"image_url": "data:image/{format(example: png)};base64,{some_base64_image_bytes}"
11
}
12
]
13
}
14
}
15

વધારાની ક્ષમતાઓ

Realtime API ને ઇન્ટિગ્રેટ કરવાનું સરળ બનાવવા અને પ્રોડક્શન ઉપયોગ માટે વધુ લવચીક બનાવવા અમે બીજી ઘણી સુવિધાઓ ઉમેરેલી છે.

સલામતી અને ગોપનીયતા

Realtime API દુરુપયોગ અટકાવવામાં મદદ કરવા માટે સુરક્ષા ઉપાયો અને નરમીકરણના અનેક સ્તરો સમાવે છે. અમારા સલામતી અભિગમ અને સિસ્ટમ કાર્ડની વિગતો વિશે વધુ જાણવા માટે beta announcement blog જુઓ. અમે Realtime API sessions પર સક્રિય classifiers નો ઉપયોગ કરીએ છીએ, એટલે કેટલીક વાતચીતો અમારી હાનિકારક સામગ્રી માર્ગદર્શિકાઓનો ભંગ કરતી હોવાનું જણાય તો અટકાવવામાં આવી શકે છે. ડેવલપર્સ Agents SDK(નવી વિન્ડોમાં ખૂલે છે) નો ઉપયોગ કરીને પોતાની વધારાની safety guardrails પણ સરળતાથી ઉમેરી શકે છે.

અમારી usage policies spam, deception અથવા અન્ય હાનિકારક હેતુઓ માટે અમારી સેવાઓમાંથી મળતા outputs ને ફરી ઉપયોગમાં લેવાનું અથવા વિતરણ કરવાનું પ્રતિબંધિત કરે છે. ડેવલપર્સે અંતિમ વપરાશકર્તાઓને પણ સ્પષ્ટ કરવું જોઈએ કે તેઓ AI સાથે ઇન્ટરૅક્ટ કરી રહ્યા છે, જો સંદર્ભ પરથી તે પહેલેથી જ સ્પષ્ટ ન હોય. Realtime API preset voices નો ઉપયોગ કરે છે જેથી દુર્ભાવનાપૂર્ણ લોકો અન્યનું ભેજું ધારણ ન કરી શકે.

Realtime API EU આધારિત એપ્લિકેશન્સ માટે EU Data Residency(નવી વિન્ડોમાં ખૂલે છે) ને સંપૂર્ણ સપોર્ટ આપે છે અને અમારી enterprise privacy commitments હેઠળ આવરી લેવાય છે.

કિંમત અને ઉપલબ્ધતા

સામાન્ય રીતે ઉપલબ્ધ Realtime API અને નવું gpt-realtime મોડલ આજે થી બધા ડેવલપર્સ માટે ઉપલબ્ધ છે. અમે gpt-realtime ની કિંમતો gpt-4o-realtime-preview ની સરખામણીમાં 20% ઘટાડીએ છીએ—$32 / 1M audio input tokens (cached input tokens માટે $0.40) અને $64 / 1M audio output tokens (જુઓ વિગતવાર કિંમત(નવી વિન્ડોમાં ખૂલે છે)). અમે વાતચીતના સંદર્ભ માટે સૂક્ષ્મ નિયંત્રણ પણ ઉમેર્યું છે જેથી ડેવલપર્સ બુદ્ધિશાળી ટોકન મર્યાદાઓ સેટ કરી શકે અને એક સાથે અનેક ટર્ન્સ truncate કરી શકે, જેથી લાંબી sessions માટે ખર્ચ નોંધપાત્ર રીતે ઘટે છે.

Livestream replay

લેખક

OpenAI