
આજે અમે Realtime API ને સામાન્ય ઉપલબ્ધતા સાથે નવી સુવિધાઓ સાથે રજૂ કરી રહ્યા છીએ, જે ડેવલપર્સ અને એન્ટરપ્રાઇઝને વિશ્વસનીય, પ્રોડક્શન-રેડી વૉઇસ એજન્ટ બનાવવા સક્ષમ બનાવે છે. API હવે remote MCP servers, image inputs અને Session Initiation Protocol (SIP) દ્વારા phone calling ને સપોર્ટ કરે છે, જેથી વધારાના ટૂલ્સ અને સંદર્ભની ઍક્સેસ દ્વારા વૉઇસ એજન્ટ વધુ સક્ષમ બને છે.
અમે અમારું અત્યાર સુધીનું સૌથી અદ્યતન સ્પીચ-ટુ-સ્પીચ મોડલ પણ રજૂ કરી રહ્યા છીએ—gpt-realtime. નવું મોડલ જટિલ સૂચનાઓ અનુસરવામાં, ચોકસાઈ સાથે ટૂલ્સ કોલ કરવામાં અને વધુ સ્વાભાવિક તથા અભિવ્યક્તિપૂર્ણ લાગતું ભાષણ ઉત્પન્ન કરવામાં સુધારો દર્શાવે છે. તે system messages અને developer prompts ને સમજવામાં વધુ સારું છે—ચાહે તે support call પર disclaimer scripts શબ્દશઃ વાંચવું હોય, અલ્ફાન્યુમેરિક્સ ફરીથી બોલવા હોય, કે વાક્યના મધ્યમાં ભાષાઓ વચ્ચે અવરોધ વિના બદલાવ કરવો હોય. અમે આજે થી Realtime API માં માત્ર ઉપલબ્ધ એવા બે નવા અવાજો, Cedar અને Marin, પણ રજૂ કરી રહ્યા છીએ.
ગયા ઑક્ટોબરમાં અમે Realtime API ને પ્રથમ વખત public beta માં રજૂ કરી ત્યારથી, હજારો ડેવલપર્સે API સાથે બનાવી કામ કર્યું છે અને આજે અમે જે સુધારાઓ રજૂ કરી રહ્યા છીએ તેને આકાર આપવા મદદ કરી છે—જે વિશ્વસનીયતા, ઓછી વિલંબતા અને ઊંચી ગુણવત્તા માટે ઑપ્ટિમાઇઝ કરાયેલા છે જેથી પ્રોડક્શનમાં વૉઇસ એજન્ટ સફળતાપૂર્વક ડિપ્લોય કરી શકાય. પરંપરાગત પાઇપલાઇન્સથી ભિન્ન, જે speech-to-text અને text-to-speech દરમિયાન અનેક મોડલ્સને જોડે છે, Realtime API એક જ મોડલ અને API દ્વારા સીધું ઑડિયો પ્રોસેસ અને જનરેટ કરે છે. આ વિલંબતા ઘટાડે છે, ભાષણની નજાકત જાળવે છે અને વધુ સ્વાભાવિક, અભિવ્યક્તિપૂર્ણ પ્રતિસાદ આપે છે.
“OpenAI ની Realtime API માંનું નવું સ્પીચ-ટુ-સ્પીચ મોડલ વધુ મજબૂત રિઝનિંગ અને વધુ સ્વાભાવિક ભાષણ બતાવે છે, જેથી તે જીવનશૈલીની જરૂરિયાતો અનુસાર લિસ્ટિંગ્સ સંકુચિત કરવી અથવા અમારા BuyAbility score જેવા ટૂલ્સ સાથે પરવડતાની ચર્ચાને માર્ગદર્શન આપવી જેવી જટિલ, બહુ-પગથિયાવાળી વિનંતીઓને સંભાળી શકે. આ Zillow પર ઘર શોધવાનું અથવા ફાઇનાન્સિંગ વિકલ્પો તપાસવાનું મિત્ર સાથેની વાતચીત જેટલું સ્વાભાવિક બનાવી શકે છે, અને ઘર ખરીદવા, વેચવા અને ભાડે લેવા જેવા નિર્ણયો સરળ બનાવવામાં મદદ કરે છે.”
– Josh Weisberg, Zillow ખાતે AI ના Head
નવું સ્પીચ-ટુ-સ્પીચ મોડલ—gpt-realtime—અમારું સૌથી અદ્યતન, પ્રોડક્શન-રેડી વૉઇસ મોડલ છે. અમે ગ્રાહકો સાથે નજીકના સહકારમાં મોડલને તાલીમ આપી છે જેથી તે customer support, personal assistance અને education જેવા વાસ્તવિક કાર્યોમાં ઉત્તમ દેખાવ કરે—અને મોડલને ડેવલપર્સ વૉઇસ એજન્ટ કેવી રીતે બનાવે અને ડિપ્લોય કરે છે તે પ્રમાણે સુસંગત બનાવે. મોડલ ઑડિયો ગુણવત્તા, બુદ્ધિમત્તા, સૂચના-અનુસરણી અને ફંક્શન કોલિંગમાં સુધારો દર્શાવે છે.
વાસ્તવિક દુનિયામાં વૉઇસ એજન્ટ ડિપ્લોય કરવા માટે સ્વાભાવિક લાગતી વાતચીત અત્યંત મહત્વપૂર્ણ છે. આનંદદાયક અનુભવ બનાવવા અને વપરાશકર્તાઓ સાથે સતત સંવાદ પ્રોત્સાહિત કરવા માટે મોડલ્સને માનવી જેવી સ્વરછટા, ભાવના અને ગતિ સાથે બોલવાની જરૂર છે. અમે gpt-realtime ને વધુ ઉચ્ચ ગુણવત્તાવાળું, વધુ સ્વાભાવિક લાગતું ભાષણ ઉત્પન્ન કરવા અને “ઝડપથી અને વ્યવસાયિક રીતે બોલો” અથવા “French accent સાથે સહાનુભૂતિપૂર્વક બોલો” જેવી સૂક્ષ્મ સૂચનાઓનું અનુસરણ કરવા માટે તાલીમ આપી છે.
અમે API માં બે નવા અવાજો, Marin અને Cedar, રજૂ કરી રહ્યા છીએ, જેમાં સ્વાભાવિક લાગતા ભાષણમાં સૌથી મહત્ત્વના સુધારા છે. અમે અમારા હાલના આઠ અવાજોને પણ આ સુધારાઓનો લાભ મળે તે માટે અપડેટ કરી રહ્યા છીએ.
gpt-realtime વધુ ઊંચી બુદ્ધિમત્તા દર્શાવે છે અને મૂળ ઑડિયોને વધુ ચોકસાઈથી સમજી શકે છે. મોડલ બિન-મૌખિક સંકેતો (જેમ કે હાસ્ય) પકડી શકે છે, વાક્યના મધ્યમાં ભાષાઓ બદલી શકે છે અને ટોનને અનુરૂપ બનાવી શકે છે (“snappy and professional” સામે “kind and empathetic”). આંતરિક મૂલ્યાંકન મુજબ, મોડલ અન્ય ભાષાઓમાં પણ ફોન નંબર, VINs વગેરે જેવી અલ્ફાન્યુમેરિક શ્રેણીઓ ઓળખવામાં વધુ ચોક્કસ પ્રદર્શન દર્શાવે છે, જેમાં Spanish, Chinese, Japanese અને French નો સમાવેશ થાય છે. રિઝનિંગ ક્ષમતાઓ માપતા Big Bench Audio eval પર, gpt-realtime 82.8% ચોકસાઈ મેળવે છે—જે અમારા December 2024 ના અગાઉના મોડલના 65.6% કરતાં વધારે છે.
Big Bench Audio(નવી વિન્ડોમાં ખૂલે છે) બેન્ચમાર્ક એ ઑડિયો ઇનપુટને સપોર્ટ કરતા ભાષા મોડલ્સની રિઝનિંગ ક્ષમતાઓનું મૂલ્યાંકન કરવા માટેનો ડેટાસેટ છે. આ ડેટાસેટ Big Bench Hard ના પ્રશ્નોને—અદ્યતન રિઝનિંગની કડક ચકાસણી માટે પસંદ કરેલા—ઑડિયો ક્ષેત્ર માટે અનુકૂળ બનાવે છે.
સ્પીચ-ટુ-સ્પીચ એપ્લિકેશન બનાવતી વખતે, ડેવલપર્સ મોડલને કેવી રીતે વર્તવું તેની સૂચનાઓ આપે છે, જેમાં કેવી રીતે બોલવું, નિશ્ચિત પરિસ્થિતિમાં શું કહેવું અને શું કરવું કે ન કરવું તેનો સમાવેશ થાય છે. અમે આ સૂચનાઓના પાલન પર અમારા સુધારાઓ કેન્દ્રિત કર્યા છે, જેથી નાની દિશાઓ પણ મોડલ માટે વધુ સ્પષ્ટ સંકેત વહન કરે. સૂચના-અનુસરણીની ચોકસાઈ માપતા MultiChallenge audio benchmark પર, gpt-realtime 30.5% સ્કોર કરે છે, જે અમારા December 2024 ના અગાઉના મોડલના 20.6% કરતાં નોંધપાત્ર સુધારો છે.
MultiChallenge(નવી વિન્ડોમાં ખૂલે છે) મૂલ્યાંકન કરે છે કે LLM બહુ-ટર્ન માનવીય વાતચીતને કેટલા સારી રીતે સંભાળે છે. તે ચાર પ્રકારના વાસ્તવિક પડકારો પર ધ્યાન કેન્દ્રિત કરે છે, જેમા વર્તમાન અત્યાધુનિક મોડલ્સ મુશ્કેલી અનુભવે છે. આ પડકારોમાં મોડલ્સને સૂચના-અનુસરણી, સંદર્ભ વ્યવસ્થાપન અને ઇન-કોન્ટેક્સ્ટ રિઝનિંગને એકસાથે જોડવું પડે છે. અમે આ મૂલ્યાંકનનું ઑડિયો સંસ્કરણ બનાવવા માટે ટેસ્ટ પ્રશ્નોના ઑડિયો-મૈત્રીપૂર્ણ ઉપસેટને text-to-speech થી રૂપાંતરિત કર્યો.
સ્પીચ-ટુ-સ્પીચ મોડલ સાથે સક્ષમ વૉઇસ એજન્ટ બનાવવા માટે, મોડલને પ્રોડક્શનમાં ઉપયોગી બનવા યોગ્ય સમયે યોગ્ય ટૂલ્સ કોલ કરી શકવું જરૂરી છે. અમે ફંક્શન કોલિંગમાં ત્રણ દિશામાં સુધારો કર્યો છે: સંબંધિત ફંક્શન્સ કોલ કરવું, યોગ્ય સમયે ફંક્શન્સ કોલ કરવું અને યોગ્ય arguments સાથે ફંક્શન્સ કોલ કરવું, જેના પરિણામે વધુ ઊંચી ચોકસાઈ મળે છે. ફંક્શન કોલિંગ પ્રદર્શન માપતા ComplexFuncBench audio eval પર, gpt-realtime 66.5% સ્કોર કરે છે, જ્યારે અમારા December 2024 ના અગાઉના મોડલને 49.7% મળે છે.
અમે asynchronous function calling(નવી વિન્ડોમાં ખૂલે છે) માં પણ સુધારા કર્યા છે. લાંબા સમય સુધી ચાલતા function calls હવે session ના પ્રવાહમાં ખલેલ નહીં પહોંચાડે—પરિણામોની રાહ જોતા મોડલ સહજ રીતે પ્રવાહી વાતચીત ચાલુ રાખી શકે છે. આ સુવિધા gpt-realtime માં મૂળરૂપે ઉપલબ્ધ છે, તેથી ડેવલપર્સને પોતાનો code અપડેટ કરવાની જરૂર નથી.
ComplexFuncBench(નવી વિન્ડોમાં ખૂલે છે) માપે છે કે મોડલ્સ પડકારજનક ફંક્શન કોલિંગ કાર્યોને કેટલા સારી રીતે સંભાળે છે. તે મલ્ટી-સ્ટેપ કોલ્સ, મર્યાદાઓ અથવા નિહિત પેરામિટર્સ અંગે રિઝનિંગ, અને બહુ લાંબા ઇનપુટ્સ સંભાળવા જેવા દૃશ્યોમાં કાર્યક્ષમતાનું મૂલ્યાંકન કરે છે. અમે અમારા મોડલ માટે આ મૂલ્યાંકન બનાવવા મૂળ ટેક્સ્ટ પ્રોમ્પ્ટ્સને સ્પીચમાં રૂપાંતરિત કર્યા.
તમે session configuration માં remote MCP server નો URL આપી Realtime API session માં MCP support સક્ષમ કરી શકો છો. એકવાર જોડાણ થઈ જાય પછી, API તમારા માટે tool calls આપમેળે સંભાળે છે, તેથી integrations ને હાથથી જોડવાની જરૂર રહેતી નથી.
આ સેટઅપ તમારા એજન્ટમાં નવી ક્ષમતાઓ ઉમેરવાનું સરળ બનાવે છે—ફક્ત session ને અલગ MCP server તરફ નિર્દેશ કરો, અને તે ટૂલ્સ તરત ઉપલબ્ધ થઈ જાય છે. Realtime સાથે MCP configure કરવાની વધુ માહિતી માટે આ માર્ગદર્શિકા(નવી વિન્ડોમાં ખૂલે છે) જુઓ.
હવે gpt-realtime માં image inputs સપોર્ટેડ હોવાથી, તમે Realtime API session માં ઑડિયો અથવા ટેક્સ્ટ સાથે images, photos અને screenshots ઉમેરી શકો છો. હવે મોડલ વાતચીતને વપરાશકર્તા ખરેખર શું જોઈ રહ્યો છે તેના આધાર પર આગળ ધપાવી શકે છે, જેથી વપરાશકર્તાઓ “તમે શું જુઓ છો?” અથવા “આ screenshot માંનું લખાણ વાંચો.” જેવા પ્રશ્નો પૂછી શકે છે.
ઇમેજને live video stream તરીકે ગણવા બદલે, સિસ્ટમ તેને વાતચીતમાં એક તસવીર ઉમેરવા જેવી રીતે માને છે. તમારી app નક્કી કરી શકે છે કે મોડલ સાથે કઈ images શેર કરવી અને ક્યારે કરવી. આ રીતે, મોડલ શું જુએ છે અને ક્યારે પ્રતિસાદ આપે છે તે પર તમારું નિયંત્રણ રહે છે.
image input સાથે શરૂ કરવા માટે અમારી docs(નવી વિન્ડોમાં ખૂલે છે) જુઓ.
Realtime API ને ઇન્ટિગ્રેટ કરવાનું સરળ બનાવવા અને પ્રોડક્શન ઉપયોગ માટે વધુ લવચીક બનાવવા અમે બીજી ઘણી સુવિધાઓ ઉમેરેલી છે.
- Session Initiation Protocol (SIP) support: Realtime API માં સીધા સપોર્ટ સાથે તમારી apps ને public phone network, PBX systems, desk phones અને અન્ય SIP endpoints સાથે જોડો. docs માં તેના વિશે વાંચો.(નવી વિન્ડોમાં ખૂલે છે)
- Reusable prompts: હવે તમે developer messages, tools, variables અને example user/assistant messages ધરાવતા prompts ને Responses API જેવી જ રીતે Realtime API sessions દરમિયાન સાચવી અને ફરીથી ઉપયોગ કરી શકો છો. docs માં વધુ જાણો.(નવી વિન્ડોમાં ખૂલે છે)
Realtime API દુરુપયોગ અટકાવવામાં મદદ કરવા માટે સુરક્ષા ઉપાયો અને નરમીકરણના અનેક સ્તરો સમાવે છે. અમારા સલામતી અભિગમ અને સિસ્ટમ કાર્ડની વિગતો વિશે વધુ જાણવા માટે beta announcement blog જુઓ. અમે Realtime API sessions પર સક્રિય classifiers નો ઉપયોગ કરીએ છીએ, એટલે કેટલીક વાતચીતો અમારી હાનિકારક સામગ્રી માર્ગદર્શિકાઓનો ભંગ કરતી હોવાનું જણાય તો અટકાવવામાં આવી શકે છે. ડેવલપર્સ Agents SDK(નવી વિન્ડોમાં ખૂલે છે) નો ઉપયોગ કરીને પોતાની વધારાની safety guardrails પણ સરળતાથી ઉમેરી શકે છે.
અમારી usage policies spam, deception અથવા અન્ય હાનિકારક હેતુઓ માટે અમારી સેવાઓમાંથી મળતા outputs ને ફરી ઉપયોગમાં લેવાનું અથવા વિતરણ કરવાનું પ્રતિબંધિત કરે છે. ડેવલપર્સે અંતિમ વપરાશકર્તાઓને પણ સ્પષ્ટ કરવું જોઈએ કે તેઓ AI સાથે ઇન્ટરૅક્ટ કરી રહ્યા છે, જો સંદર્ભ પરથી તે પહેલેથી જ સ્પષ્ટ ન હોય. Realtime API preset voices નો ઉપયોગ કરે છે જેથી દુર્ભાવનાપૂર્ણ લોકો અન્યનું ભેજું ધારણ ન કરી શકે.
Realtime API EU આધારિત એપ્લિકેશન્સ માટે EU Data Residency(નવી વિન્ડોમાં ખૂલે છે) ને સંપૂર્ણ સપોર્ટ આપે છે અને અમારી enterprise privacy commitments હેઠળ આવરી લેવાય છે.
સામાન્ય રીતે ઉપલબ્ધ Realtime API અને નવું gpt-realtime મોડલ આજે થી બધા ડેવલપર્સ માટે ઉપલબ્ધ છે. અમે gpt-realtime ની કિંમતો gpt-4o-realtime-preview ની સરખામણીમાં 20% ઘટાડીએ છીએ—$32 / 1M audio input tokens (cached input tokens માટે $0.40) અને $64 / 1M audio output tokens (જુઓ વિગતવાર કિંમત(નવી વિન્ડોમાં ખૂલે છે)). અમે વાતચીતના સંદર્ભ માટે સૂક્ષ્મ નિયંત્રણ પણ ઉમેર્યું છે જેથી ડેવલપર્સ બુદ્ધિશાળી ટોકન મર્યાદાઓ સેટ કરી શકે અને એક સાથે અનેક ટર્ન્સ truncate કરી શકે, જેથી લાંબી sessions માટે ખર્ચ નોંધપાત્ર રીતે ઘટે છે.
શરૂઆત કરવા માટે અમારી Realtime API documentation(નવી વિન્ડોમાં ખૂલે છે) જુઓ, Playground(નવી વિન્ડોમાં ખૂલે છે) માં નવું મોડલ અજમાવો અને અમારી Realtime API prompting guide(નવી વિન્ડોમાં ખૂલે છે) જુઓ.


