
ਅੱਜ ਅਸੀਂ Realtime API ਨੂੰ ਨਵੀਆਂ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਨਾਲ ਸਾਰਿਆਂ ਲਈ ਉਪਲਬਧ ਕਰ ਰਹੇ ਹਾਂ, ਜੋ ਡਿਵੈਲਪਰਾਂ ਅਤੇ ਐਂਟਰਪ੍ਰਾਈਜ਼ਾਂ ਨੂੰ ਭਰੋਸੇਯੋਗ, ਪ੍ਰੋਡਕਸ਼ਨ-ਤਿਆਰ ਵੌਇਸ ਏਜੰਟ ਬਣਾਉਣ ਯੋਗ ਬਣਾਉਂਦੀਆਂ ਹਨ. API ਹੁਣ ਰਿਮੋਟ MCP ਸਰਵਰਾਂ, ਇਮੇਜ ਇਨਪੁੱਟਾਂ ਅਤੇ Session Initiation Protocol (SIP) ਰਾਹੀਂ ਫੋਨ ਕਾਲਿੰਗ ਦਾ ਸਮਰਥਨ ਕਰਦੀ ਹੈ, ਜਿਸ ਨਾਲ ਵੌਇਸ ਏਜੰਟ ਵਾਧੂ ਟੂਲਾਂ ਅਤੇ ਸੰਦਰਭ ਤੱਕ ਪਹੁੰਚ ਰਾਹੀਂ ਹੋਰ ਸਮਰੱਥ ਬਣਦੇ ਹਨ.
ਅਸੀਂ ਆਪਣਾ ਅਜੇ ਤੱਕ ਦਾ ਸਭ ਤੋਂ ਅਗਾਂਹਵਧਿਆ ਸਪੀਚ-ਟੂ-ਸਪੀਚ ਮਾਡਲ ਵੀ ਜਾਰੀ ਕਰ ਰਹੇ ਹਾਂ—gpt-realtime. ਨਵਾਂ ਮਾਡਲ ਜਟਿਲ ਹਦਾਇਤਾਂ ਦੀ ਪਾਲਣਾ, ਟੂਲਾਂ ਨੂੰ ਸ਼ੁੱਧਤਾ ਨਾਲ ਕਾਲ ਕਰਨ ਅਤੇ ਹੋਰ ਸੁਭਾਵਿਕ ਤੇ ਅਭਿਵੈਕਤਮਕ ਲੱਗਣ ਵਾਲੀ ਬੋਲਚਾਲ ਬਣਾਉਣ ਵਿੱਚ ਸੁਧਾਰ ਦਿਖਾਉਂਦਾ ਹੈ. ਇਹ ਸਿਸਟਮ ਸੁਨੇਹਿਆਂ ਅਤੇ ਡਿਵੈਲਪਰ ਪ੍ਰੌੰਪਟਾਂ ਨੂੰ ਸਮਝਣ ਵਿੱਚ ਹੋਰ ਵਧੀਆ ਹੈ—ਚਾਹੇ ਉਹ ਸਹਾਇਤਾ ਕਾਲ 'ਤੇ ਡਿਸਕਲੇਮਰ ਸਕ੍ਰਿਪਟ ਸ਼ਬਦ-ਬ-ਸ਼ਬਦ ਪੜ੍ਹਣਾ ਹੋਵੇ, ਅੱਖਰ-ਅੰਕ ਮੁੜ ਦੋਹਰਾਉਣੇ ਹੋਣ, ਜਾਂ ਵਾਕ ਦੇ ਵਿਚਕਾਰ ਭਾਸ਼ਾਵਾਂ ਵਿਚਕਾਰ ਬਿਨਾ ਰੁਕਾਵਟ ਬਦਲਣਾ ਹੋਵੇ. ਅਸੀਂ ਦੋ ਨਵੀਆਂ ਆਵਾਜ਼ਾਂ, Cedar ਅਤੇ Marin, ਵੀ ਜਾਰੀ ਕਰ ਰਹੇ ਹਾਂ, ਜੋ ਅੱਜ ਤੋਂ ਸਿਰਫ਼ Realtime API ਵਿੱਚ ਉਪਲਬਧ ਹਨ.
ਪਿਛਲੇ ਅਕਤੂਬਰ ਵਿੱਚ ਜਦੋਂ ਅਸੀਂ ਪਹਿਲੀ ਵਾਰ Realtime API ਨੂੰ ਪਬਲਿਕ ਬੀਟਾ ਵਿੱਚ ਪੇਸ਼ ਕੀਤਾ ਸੀ, ਤਦੋਂ ਤੋਂ ਹਜ਼ਾਰਾਂ ਡਿਵੈਲਪਰਾਂ ਨੇ API ਨਾਲ ਬਣਾਇਆ ਹੈ ਅਤੇ ਅੱਜ ਜਾਰੀ ਕੀਤੇ ਜਾ ਰਹੇ ਸੁਧਾਰਾਂ ਦੀ ਦਿਸ਼ਾ ਤੈਅ ਕਰਨ ਵਿੱਚ ਮਦਦ ਕੀਤੀ ਹੈ—ਜੋ ਭਰੋਸੇਯੋਗਤਾ, ਘੱਟ ਲੇਟੈਂਸੀ ਅਤੇ ਉੱਚ ਗੁਣਵੱਤਾ ਲਈ ਅਨੁਕੂਲਿਤ ਹਨ ਤਾਂ ਜੋ ਪ੍ਰੋਡਕਸ਼ਨ ਵਿੱਚ ਵੌਇਸ ਏਜੰਟ ਸਫਲਤਾਪੂਰਵਕ ਤੈਨਾਤ ਕੀਤੇ ਜਾ ਸਕਣ. ਰਵਾਇਤੀ ਪਾਈਪਲਾਈਨਾਂ ਤੋਂ ਵੱਖਰੇ, ਜੋ speech-to-text ਅਤੇ text-to-speech ਵਿੱਚ ਕਈ ਮਾਡਲਾਂ ਨੂੰ ਇਕੱਠੇ ਜੋੜਦੀਆਂ ਹਨ, Realtime API ਇੱਕੋ ਮਾਡਲ ਅਤੇ API ਰਾਹੀਂ ਸਿੱਧੇ ਆਡੀਓ ਨੂੰ ਪ੍ਰੋਸੈਸ ਅਤੇ ਜਨਰੇਟ ਕਰਦੀ ਹੈ. ਇਸ ਨਾਲ ਲੇਟੈਂਸੀ ਘਟਦੀ ਹੈ, ਬੋਲਚਾਲ ਦੇ ਸੁਖਮ ਤੱਤ ਸੁਰੱਖਿਅਤ ਰਹਿੰਦੇ ਹਨ, ਅਤੇ ਹੋਰ ਸੁਭਾਵਿਕ, ਅਭਿਵੈਕਤਮਕ ਜਵਾਬ ਬਣਦੇ ਹਨ.
“OpenAI ਦੀ Realtime API ਵਿੱਚ ਨਵਾਂ ਸਪੀਚ-ਟੂ-ਸਪੀਚ ਮਾਡਲ ਹੋਰ ਮਜ਼ਬੂਤ ਰੀਜ਼ਨਿੰਗ ਅਤੇ ਹੋਰ ਸੁਭਾਵਿਕ ਬੋਲਚਾਲ ਦਿਖਾਉਂਦਾ ਹੈ—ਜਿਸ ਨਾਲ ਇਹ ਜੀਵਨਸ਼ੈਲੀ ਦੀਆਂ ਲੋੜਾਂ ਮੁਤਾਬਕ ਲਿਸਟਿੰਗ ਘਟਾਉਣ ਜਾਂ ਸਾਡੇ BuyAbility score ਵਰਗੇ ਟੂਲਾਂ ਨਾਲ ਖਰਚ ਸਮਰੱਥਾ ਬਾਰੇ ਗੱਲਬਾਤ ਵਿੱਚ ਮਦਦ ਕਰਨ ਜਿਹੀਆਂ ਜਟਿਲ, ਬਹੁ-ਪੜਾਅ ਬੇਨਤੀਆਂ ਨੂੰ ਸੰਭਾਲ ਸਕਦਾ ਹੈ. ਇਸ ਨਾਲ Zillow 'ਤੇ ਘਰ ਲੱਭਣਾ ਜਾਂ ਫਾਇਨੈਂਸਿੰਗ ਵਿਕਲਪਾਂ ਦੀ ਜਾਂਚ ਕਰਨਾ ਦੋਸਤ ਨਾਲ ਗੱਲਬਾਤ ਜਿੰਨਾ ਸੁਭਾਵਿਕ ਲੱਗ ਸਕਦਾ ਹੈ, ਅਤੇ ਘਰ ਖਰੀਦਣ, ਵੇਚਣ ਤੇ ਕਿਰਾਏ 'ਤੇ ਲੈਣ ਵਰਗੇ ਫੈਸਲੇ ਆਸਾਨ ਹੋ ਸਕਦੇ ਹਨ.”
– Josh Weisberg, Zillow ਵਿੱਚ AI ਦੇ ਮੁਖੀ
ਨਵਾਂ ਸਪੀਚ-ਟੂ-ਸਪੀਚ ਮਾਡਲ—gpt-realtime—ਸਾਡਾ ਸਭ ਤੋਂ ਅਗਾਂਹਵਧਿਆ, ਪ੍ਰੋਡਕਸ਼ਨ-ਤਿਆਰ ਵੌਇਸ ਮਾਡਲ ਹੈ. ਅਸੀਂ ਇਸ ਮਾਡਲ ਨੂੰ ਗਾਹਕਾਂ ਨਾਲ ਨਜ਼ਦੀਕੀ ਸਹਿਯੋਗ ਵਿੱਚ ਟ੍ਰੇਨ ਕੀਤਾ ਹੈ ਤਾਂ ਜੋ ਇਹ ਗਾਹਕ ਸਹਾਇਤਾ, ਨਿੱਜੀ ਸਹਾਇਤਾ ਅਤੇ ਸਿੱਖਿਆ ਵਰਗੇ ਅਸਲ-ਦੁਨੀਆ ਦੇ ਕੰਮਾਂ ਵਿੱਚ ਉੱਤਮ ਹੋਵੇ—ਅਤੇ ਇਸ ਨੂੰ ਇਸ ਤਰ੍ਹਾਂ ਅਨੁਕੂਲਿਤ ਕੀਤਾ ਹੈ ਜਿਵੇਂ ਡਿਵੈਲਪਰ ਵੌਇਸ ਏਜੰਟ ਬਣਾਉਂਦੇ ਅਤੇ ਤੈਨਾਤ ਕਰਦੇ ਹਨ. ਮਾਡਲ ਆਡੀਓ ਗੁਣਵੱਤਾ, ਬੁੱਧਿਮੱਤਾ, ਹਦਾਇਤ-ਪਾਲਨਾ ਅਤੇ ਫੰਕਸ਼ਨ ਕਾਲਿੰਗ ਵਿੱਚ ਸੁਧਾਰ ਦਿਖਾਉਂਦਾ ਹੈ.
ਅਸਲ ਦੁਨੀਆ ਵਿੱਚ ਵੌਇਸ ਏਜੰਟ ਤੈਨਾਤ ਕਰਨ ਲਈ ਸੁਭਾਵਿਕ ਲੱਗਣ ਵਾਲੀ ਗੱਲਬਾਤ ਬਹੁਤ ਮਹੱਤਵਪੂਰਨ ਹੈ. ਮਾਡਲਾਂ ਨੂੰ ਮਨੁੱਖ ਵਰਗੀ ਲਹਿਰ, ਭਾਵਨਾ ਅਤੇ ਗਤੀ ਨਾਲ ਬੋਲਣਾ ਚਾਹੀਦਾ ਹੈ ਤਾਂ ਜੋ ਅਨੁਭਵ ਆਨੰਦਮਈ ਬਣੇ ਅਤੇ ਉਪਭੋਗਤਾਵਾਂ ਨਾਲ ਲਗਾਤਾਰ ਗੱਲਬਾਤ ਲਈ ਉਤਸ਼ਾਹਿਤ ਕੀਤਾ ਜਾ ਸਕੇ. ਅਸੀਂ gpt-realtime ਨੂੰ ਉੱਚ-ਗੁਣਵੱਤਾ ਵਾਲੀ ਬੋਲਚਾਲ ਪੈਦਾ ਕਰਨ ਲਈ ਟ੍ਰੇਨ ਕੀਤਾ ਹੈ ਜੋ ਹੋਰ ਸੁਭਾਵਿਕ ਲੱਗਦੀ ਹੈ ਅਤੇ ਬਰੀਕ-ਪੱਧਰ ਦੀਆਂ ਹਦਾਇਤਾਂ ਦੀ ਪਾਲਣਾ ਕਰ ਸਕਦੀ ਹੈ, ਜਿਵੇਂ ਕਿ “ਤੇਜ਼ ਅਤੇ ਪੇਸ਼ੇਵਰ ਤਰੀਕੇ ਨਾਲ ਬੋਲੋ” ਜਾਂ “ਫ੍ਰੈਂਚ ਐਕਸੈਂਟ ਵਿੱਚ ਹਮਦਰਦੀ ਨਾਲ ਬੋਲੋ.”
ਅਸੀਂ API ਵਿੱਚ ਦੋ ਨਵੀਆਂ ਆਵਾਜ਼ਾਂ, Marin ਅਤੇ Cedar, ਜਾਰੀ ਕਰ ਰਹੇ ਹਾਂ, ਜਿਨ੍ਹਾਂ ਵਿੱਚ ਸੁਭਾਵਿਕ ਲੱਗਣ ਵਾਲੀ ਬੋਲਚਾਲ ਵਿੱਚ ਸਭ ਤੋਂ ਵੱਡੇ ਸੁਧਾਰ ਹਨ. ਅਸੀਂ ਆਪਣੀਆਂ ਮੌਜੂਦਾ ਅੱਠ ਆਵਾਜ਼ਾਂ ਨੂੰ ਵੀ ਅਪਡੇਟ ਕਰ ਰਹੇ ਹਾਂ ਤਾਂ ਜੋ ਉਹ ਵੀ ਇਹਨਾਂ ਸੁਧਾਰਾਂ ਦਾ ਲਾਭ ਲੈ ਸਕਣ.
gpt-realtime ਉੱਚ ਬੁੱਧਿਮੱਤਾ ਦਿਖਾਉਂਦਾ ਹੈ ਅਤੇ ਮੂਲ ਆਡੀਓ ਨੂੰ ਹੋਰ ਵੱਧ ਸ਼ੁੱਧਤਾ ਨਾਲ ਸਮਝ ਸਕਦਾ ਹੈ. ਮਾਡਲ ਗੈਰ-ਵਰਬਲ ਸੰਕੇਤਾਂ (ਜਿਵੇਂ ਹਾਸਾ) ਨੂੰ ਪਕੜ ਸਕਦਾ ਹੈ, ਵਾਕ ਦੇ ਵਿਚਕਾਰ ਭਾਸ਼ਾਵਾਂ ਬਦਲ ਸਕਦਾ ਹੈ, ਅਤੇ ਟੋਨ ਨੂੰ ਢਾਲ ਸਕਦਾ ਹੈ (“ਚੁਸਤ ਅਤੇ ਪੇਸ਼ੇਵਰ” ਵਿਰੁੱਧ “ਨਰਮ ਅਤੇ ਹਮਦਰਦ”). ਅੰਦਰੂਨੀ ਮੁਲਾਂਕਣਾਂ ਅਨੁਸਾਰ, ਮਾਡਲ ਹੋਰ ਭਾਸ਼ਾਵਾਂ ਵਿੱਚ ਅੱਖਰ-ਅੰਕ ਕ੍ਰਮਾਂ (ਜਿਵੇਂ ਫੋਨ ਨੰਬਰ, VINs, ਆਦਿ) ਨੂੰ ਪਛਾਣਣ ਵਿੱਚ ਵੀ ਹੋਰ ਸਹੀ ਪ੍ਰਦਰਸ਼ਨ ਦਿਖਾਉਂਦਾ ਹੈ, ਜਿਨ੍ਹਾਂ ਵਿੱਚ ਸਪੈਨਿਸ਼, ਚਾਈਨੀਜ਼, ਜਪਾਨੀ ਅਤੇ ਫ੍ਰੈਂਚ ਸ਼ਾਮਲ ਹਨ. ਰੀਜ਼ਨਿੰਗ ਸਮਰੱਥਾਵਾਂ ਨੂੰ ਮਾਪਣ ਵਾਲੇ Big Bench Audio eval 'ਤੇ, gpt-realtime 82.8% ਸ਼ੁੱਧਤਾ ਸਕੋਰ ਕਰਦਾ ਹੈ—ਜੋ ਦਸੰਬਰ 2024 ਦੇ ਸਾਡੇ ਪਿਛਲੇ ਮਾਡਲ ਦੇ 65.6% ਸਕੋਰ ਤੋਂ ਬਿਹਤਰ ਹੈ.
Big Bench Audio(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਬੈਂਚਮਾਰਕ ਇੱਕ ਮੁਲਾਂਕਣ ਡਾਟਾਸੈੱਟ ਹੈ ਜੋ ਉਹਨਾਂ ਭਾਸ਼ਾ ਮਾਡਲਾਂ ਦੀਆਂ ਰੀਜ਼ਨਿੰਗ ਸਮਰੱਥਾਵਾਂ ਨੂੰ ਪਰਖਣ ਲਈ ਬਣਾਇਆ ਗਿਆ ਹੈ ਜੋ ਆਡੀਓ ਇਨਪੁੱਟ ਨੂੰ ਸਮਰਥਨ ਦਿੰਦੇ ਹਨ. ਇਹ ਡਾਟਾਸੈੱਟ Big Bench Hard ਤੋਂ ਪ੍ਰਸ਼ਨਾਂ ਨੂੰ—ਜੋ ਅਗੰਮੀ ਰੀਜ਼ਨਿੰਗ ਦੀ ਸਖ਼ਤ ਜਾਂਚ ਲਈ ਚੁਣੇ ਗਏ ਹਨ—ਆਡੀਓ ਖੇਤਰ ਵਿੱਚ ਢਾਲਦਾ ਹੈ.
ਜਦੋਂ ਸਪੀਚ-ਟੂ-ਸਪੀਚ ਐਪਲੀਕੇਸ਼ਨ ਬਣਾਈ ਜਾਂਦੀ ਹੈ, ਡਿਵੈਲਪਰ ਮਾਡਲ ਨੂੰ ਵਿਹਾਰ ਬਾਰੇ ਹਦਾਇਤਾਂ ਦਾ ਇੱਕ ਸੈੱਟ ਦਿੰਦੇ ਹਨ, ਜਿਸ ਵਿੱਚ ਕਿਵੇਂ ਬੋਲਣਾ ਹੈ, ਕਿਸੇ ਖ਼ਾਸ ਸਥਿਤੀ ਵਿੱਚ ਕੀ ਕਹਿਣਾ ਹੈ, ਅਤੇ ਕੀ ਕਰਨਾ ਜਾਂ ਨਾ ਕਰਨਾ ਹੈ, ਸ਼ਾਮਲ ਹੁੰਦਾ ਹੈ. ਅਸੀਂ ਆਪਣੇ ਸੁਧਾਰਾਂ ਦਾ ਧਿਆਨ ਇਹਨਾਂ ਹਦਾਇਤਾਂ ਦੀ ਪਾਲਣਾ 'ਤੇ ਕੇਂਦ੍ਰਿਤ ਕੀਤਾ ਹੈ, ਤਾਂ ਜੋ ਛੋਟੀਆਂ ਦਿਸ਼ਾ-ਨਿਰਦੇਸ਼ ਵੀ ਮਾਡਲ ਲਈ ਹੋਰ ਵੱਧ ਸੰਕੇਤ ਬਣਣ. ਹਦਾਇਤ-ਪਾਲਨਾ ਸ਼ੁੱਧਤਾ ਨੂੰ ਮਾਪਣ ਵਾਲੇ MultiChallenge audio benchmark 'ਤੇ, gpt-realtime 30.5% ਸਕੋਰ ਕਰਦਾ ਹੈ, ਜੋ ਦਸੰਬਰ 2024 ਦੇ ਸਾਡੇ ਪਿਛਲੇ ਮਾਡਲ ਦੇ 20.6% ਨਾਲੋਂ ਮਹੱਤਵਪੂਰਨ ਸੁਧਾਰ ਹੈ.
MultiChallenge(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਮੁਲਾਂਕਣ ਕਰਦਾ ਹੈ ਕਿ LLM ਮਨੁੱਖਾਂ ਨਾਲ ਬਹੁ-ਵਾਰੀ ਗੱਲਬਾਤਾਂ ਨੂੰ ਕਿੰਨੀ ਚੰਗੀ ਤਰ੍ਹਾਂ ਸੰਭਾਲਦੇ ਹਨ. ਇਹ ਯਥਾਰਥਕ ਚੁਣੌਤੀਆਂ ਦੀਆਂ ਚਾਰ ਸ਼੍ਰੇਣੀਆਂ 'ਤੇ ਧਿਆਨ ਕੇਂਦ੍ਰਿਤ ਕਰਦਾ ਹੈ ਜਿਨ੍ਹਾਂ ਨਾਲ ਮੌਜੂਦਾ ਅਤਿ-ਆਧੁਨਿਕ ਮਾਡਲ ਸੰਘਰਸ਼ ਕਰਦੇ ਹਨ. ਇਹ ਚੁਣੌਤੀਆਂ ਮਾਡਲਾਂ ਤੋਂ ਇੱਕੋ ਵੇਲੇ ਹਦਾਇਤ-ਪਾਲਨਾ, ਸੰਦਰਭ ਪ੍ਰਬੰਧਨ ਅਤੇ ਇਨ-ਕਾਂਟੈਕਸਟ ਰੀਜ਼ਨਿੰਗ ਨੂੰ ਜੋੜਨ ਦੀ ਮੰਗ ਕਰਦੀਆਂ ਹਨ. ਅਸੀਂ ਇਸ ਮੁਲਾਂਕਣ ਦਾ ਆਡੀਓ ਵਰਜਨ ਬਣਾਉਣ ਲਈ ਟੈਸਟ ਪ੍ਰਸ਼ਨਾਂ ਦੇ ਇੱਕ ਆਡੀਓ-ਅਨੁਕੂਲ ਹਿੱਸੇ ਨੂੰ text-to-speech ਤੋਂ ਬਦਲਿਆ.
ਸਪੀਚ-ਟੂ-ਸਪੀਚ ਮਾਡਲ ਨਾਲ ਸਮਰੱਥ ਵੌਇਸ ਏਜੰਟ ਬਣਾਉਣ ਲਈ, ਮਾਡਲ ਨੂੰ ਪ੍ਰੋਡਕਸ਼ਨ ਵਿੱਚ ਲਾਭਕਾਰੀ ਹੋਣ ਵਾਸਤੇ ਸਹੀ ਸਮੇਂ 'ਤੇ ਸਹੀ ਟੂਲ ਕਾਲ ਕਰਨ ਦੇ ਯੋਗ ਹੋਣਾ ਚਾਹੀਦਾ ਹੈ. ਅਸੀਂ ਫੰਕਸ਼ਨ ਕਾਲਿੰਗ ਨੂੰ ਤਿੰਨ ਪੱਖਾਂ 'ਤੇ ਸੁਧਾਰਿਆ ਹੈ: ਸਬੰਧਤ ਫੰਕਸ਼ਨਾਂ ਨੂੰ ਕਾਲ ਕਰਨਾ, ਉਚਿਤ ਸਮੇਂ 'ਤੇ ਕਾਲ ਕਰਨਾ, ਅਤੇ ਉਚਿਤ ਆਰਗਿਊਮੈਂਟਾਂ ਨਾਲ ਕਾਲ ਕਰਨਾ, ਜਿਸ ਨਾਲ ਵੱਧ ਸ਼ੁੱਧਤਾ ਮਿਲਦੀ ਹੈ. ਫੰਕਸ਼ਨ ਕਾਲਿੰਗ ਪ੍ਰਦਰਸ਼ਨ ਨੂੰ ਮਾਪਣ ਵਾਲੇ ComplexFuncBench audio eval 'ਤੇ, gpt-realtime 66.5% ਸਕੋਰ ਕਰਦਾ ਹੈ, ਜਦਕਿ ਦਸੰਬਰ 2024 ਦਾ ਸਾਡਾ ਪਿਛਲਾ ਮਾਡਲ 49.7% ਸਕੋਰ ਕਰਦਾ ਹੈ.
ਅਸੀਂ asynchronous function calling(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਵਿੱਚ ਵੀ ਸੁਧਾਰ ਕੀਤੇ ਹਨ. ਲੰਬੇ ਸਮੇਂ ਤੱਕ ਚੱਲਣ ਵਾਲੀਆਂ ਫੰਕਸ਼ਨ ਕਾਲਾਂ ਹੁਣ ਸੈਸ਼ਨ ਦੇ ਪ੍ਰਵਾਹ ਨੂੰ ਵਿਘਟਿਤ ਨਹੀਂ ਕਰਨਗੀਆਂ—ਮਾਡਲ ਨਤੀਜਿਆਂ ਦੀ ਉਡੀਕ ਕਰਦਿਆਂ ਵੀ ਸੁਗਮ ਗੱਲਬਾਤ ਜਾਰੀ ਰੱਖ ਸਕਦਾ ਹੈ. ਇਹ ਵਿਸ਼ੇਸ਼ਤਾ gpt-realtime ਵਿੱਚ ਮੂਲ ਰੂਪ ਵਿੱਚ ਉਪਲਬਧ ਹੈ, ਇਸ ਲਈ ਡਿਵੈਲਪਰਾਂ ਨੂੰ ਆਪਣਾ ਕੋਡ ਅਪਡੇਟ ਕਰਨ ਦੀ ਲੋੜ ਨਹੀਂ ਹੈ.
ComplexFuncBench(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਮਾਪਦਾ ਹੈ ਕਿ ਮਾਡਲ ਚੁਣੌਤੀਪੂਰਨ ਫੰਕਸ਼ਨ ਕਾਲਿੰਗ ਕੰਮਾਂ ਨੂੰ ਕਿੰਨੀ ਚੰਗੀ ਤਰ੍ਹਾਂ ਸੰਭਾਲਦੇ ਹਨ. ਇਹ ਮਲਟੀ-ਸਟੈਪ ਕਾਲਾਂ, ਪਾਬੰਦੀਆਂ ਜਾਂ ਅਪਰੋਕਸ਼ ਪੈਰਾਮੀਟਰਾਂ ਬਾਰੇ ਰੀਜ਼ਨਿੰਗ, ਅਤੇ ਬਹੁਤ ਲੰਬੀਆਂ ਇਨਪੁੱਟਾਂ ਨੂੰ ਸੰਭਾਲਣ ਵਰਗੇ ਦ੍ਰਿਸ਼ਾਂ ਵਿੱਚ ਪ੍ਰਦਰਸ਼ਨ ਦਾ ਮੁਲਾਂਕਣ ਕਰਦਾ ਹੈ. ਅਸੀਂ ਆਪਣੇ ਮਾਡਲ ਲਈ ਇਹ ਮੁਲਾਂਕਣ ਬਣਾਉਣ ਵਾਸਤੇ ਮੂਲ ਟੈਕਸਟ ਪ੍ਰੌੰਪਟਾਂ ਨੂੰ ਸਪੀਚ ਵਿੱਚ ਬਦਲਿਆ.
ਤੁਸੀਂ ਸੈਸ਼ਨ ਕਨਫਿਗਰੇਸ਼ਨ ਵਿੱਚ ਰਿਮੋਟ MCP ਸਰਵਰ ਦਾ URL ਪਾਸ ਕਰਕੇ Realtime API ਸੈਸ਼ਨ ਵਿੱਚ MCP ਸਹਾਇਤਾ ਯੋਗ ਕਰ ਸਕਦੇ ਹੋ. ਇੱਕ ਵਾਰ ਜੁੜ ਜਾਣ 'ਤੇ, API ਤੁਹਾਡੇ ਲਈ ਟੂਲ ਕਾਲਾਂ ਆਪੇ ਸੰਭਾਲ ਲੈਂਦੀ ਹੈ, ਇਸ ਲਈ ਇੰਟੀਗ੍ਰੇਸ਼ਨਾਂ ਨੂੰ ਹੱਥੋਂ ਜੋੜਣ ਦੀ ਲੋੜ ਨਹੀਂ ਰਹਿੰਦੀ.
ਇਹ ਸੈਟਅਪ ਤੁਹਾਡੇ ਏਜੰਟ ਨੂੰ ਨਵੀਆਂ ਸਮਰੱਥਾਵਾਂ ਨਾਲ ਵਿਸਥਾਰ ਕਰਨਾ ਆਸਾਨ ਬਣਾਉਂਦਾ ਹੈ—ਸਿਰਫ਼ ਸੈਸ਼ਨ ਨੂੰ ਕਿਸੇ ਹੋਰ MCP ਸਰਵਰ ਵੱਲ ਸੰਕੇਤ ਕਰੋ, ਅਤੇ ਉਹ ਟੂਲ ਤੁਰੰਤ ਉਪਲਬਧ ਹੋ ਜਾਣਗੇ. Realtime ਨਾਲ MCP ਕਨਫਿਗਰ ਕਰਨ ਬਾਰੇ ਹੋਰ ਜਾਣਨ ਲਈ ਇਹ ਗਾਈਡ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਵੇਖੋ.
ਹੁਣ ਜਦੋਂ gpt-realtime ਵਿੱਚ ਇਮੇਜ ਇਨਪੁੱਟਾਂ ਦਾ ਸਮਰਥਨ ਹੈ, ਤੁਸੀਂ Realtime API ਸੈਸ਼ਨ ਵਿੱਚ ਆਡੀਓ ਜਾਂ ਟੈਕਸਟ ਦੇ ਨਾਲ ਇਮੇਜਾਂ, ਫੋਟੋਆਂ ਅਤੇ ਸਕ੍ਰੀਨਸ਼ਾਟ ਸ਼ਾਮਲ ਕਰ ਸਕਦੇ ਹੋ. ਹੁਣ ਮਾਡਲ ਗੱਲਬਾਤ ਨੂੰ ਉਸ ਚੀਜ਼ ਨਾਲ ਜੋੜ ਸਕਦਾ ਹੈ ਜੋ ਉਪਭੋਗਤਾ ਅਸਲ ਵਿੱਚ ਦੇਖ ਰਿਹਾ ਹੈ, ਜਿਸ ਨਾਲ ਉਪਭੋਗਤਾ “ਤੁਹਾਨੂੰ ਕੀ ਦਿਖ ਰਿਹਾ ਹੈ?” ਜਾਂ “ਇਸ ਸਕ੍ਰੀਨਸ਼ਾਟ ਵਿੱਚ ਲਿਖਿਆ ਟੈਕਸਟ ਪੜ੍ਹੋ.” ਵਰਗੇ ਸਵਾਲ ਪੁੱਛ ਸਕਦੇ ਹਨ.
ਕਿਸੇ ਇਮੇਜ ਨੂੰ ਲਾਈਵ ਵੀਡੀਓ ਸਟ੍ਰੀਮ ਵਾਂਗ ਮੰਨਣ ਦੀ ਬਜਾਏ, ਸਿਸਟਮ ਇਸ ਨੂੰ ਗੱਲਬਾਤ ਵਿੱਚ ਇੱਕ ਤਸਵੀਰ ਜੋੜਨ ਵਾਂਗ ਮੰਨਦਾ ਹੈ. ਤੁਹਾਡੀ ਐਪ ਇਹ ਫ਼ੈਸਲਾ ਕਰ ਸਕਦੀ ਹੈ ਕਿ ਮਾਡਲ ਨਾਲ ਕਿਹੜੀਆਂ ਇਮੇਜਾਂ ਸਾਂਝੀਆਂ ਕਰਣੀਆਂ ਹਨ ਅਤੇ ਕਦੋਂ ਕਰਣੀਆਂ ਹਨ. ਇਸ ਤਰ੍ਹਾਂ, ਤੁਸੀਂ ਇਸ ਗੱਲ 'ਤੇ ਕਾਬੂ ਰੱਖਦੇ ਹੋ ਕਿ ਮਾਡਲ ਕੀ ਵੇਖਦਾ ਹੈ ਅਤੇ ਕਦੋਂ ਜਵਾਬ ਦਿੰਦਾ ਹੈ.
ਇਮੇਜ ਇਨਪੁੱਟ ਨਾਲ ਸ਼ੁਰੂਆਤ ਕਰਨ ਲਈ ਸਾਡੀ ਦਸਤਾਵੇਜ਼ੀਕਰਨ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਵੇਖੋ.
ਅਸੀਂ Realtime API ਨੂੰ ਇੰਟੀਗ੍ਰੇਟ ਕਰਨਾ ਆਸਾਨ ਅਤੇ ਪ੍ਰੋਡਕਸ਼ਨ ਵਰਤੋਂ ਲਈ ਹੋਰ ਲਚਕੀਲਾ ਬਣਾਉਣ ਵਾਸਤੇ ਕਈ ਹੋਰ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਸ਼ਾਮਲ ਕੀਤੀਆਂ ਹਨ.
- Session Initiation Protocol (SIP) ਸਹਾਇਤਾ: Realtime API ਵਿੱਚ ਸਿੱਧੀ ਸਹਾਇਤਾ ਨਾਲ ਆਪਣੀਆਂ ਐਪਾਂ ਨੂੰ ਪਬਲਿਕ ਫੋਨ ਨੈੱਟਵਰਕ, PBX ਸਿਸਟਮਾਂ, ਡੈਸਕ ਫੋਨਾਂ ਅਤੇ ਹੋਰ SIP ਐਂਡਪੌਇੰਟਾਂ ਨਾਲ ਜੋੜੋ. ਇਸ ਬਾਰੇ ਦਸਤਾਵੇਜ਼ਾਂ ਵਿੱਚ ਪੜ੍ਹੋ.(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ)
- ਮੁੜ ਵਰਤੇ ਜਾ ਸਕਣ ਵਾਲੇ ਪ੍ਰੌੰਪਟ: ਹੁਣ ਤੁਸੀਂ ਡਿਵੈਲਪਰ ਸੁਨੇਹਿਆਂ, ਟੂਲਾਂ, ਵੇਰੀਏਬਲਾਂ ਅਤੇ ਉਦਾਹਰਨ ਉਪਭੋਗਤਾ/ਅਸਿਸਟੈਂਟ ਸੁਨੇਹਿਆਂ ਤੋਂ ਬਣੇ ਪ੍ਰੌੰਪਟਾਂ ਨੂੰ Realtime API ਸੈਸ਼ਨਾਂ ਵਿੱਚ ਸੰਭਾਲ ਅਤੇ ਮੁੜ ਵਰਤ ਸਕਦੇ ਹੋ, ਬਿਲਕੁਲ Responses API ਵਾਂਗ. ਦਸਤਾਵੇਜ਼ਾਂ ਵਿੱਚ ਹੋਰ ਜਾਣੋ.(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ)
Realtime API ਵਿੱਚ ਗਲਤ ਵਰਤੋਂ ਤੋਂ ਬਚਾਅ ਵਿੱਚ ਮਦਦ ਕਰਨ ਲਈ ਕਈ ਪੱਧਰਾਂ ਦੀਆਂ ਸੁਰੱਖਿਆ ਵਿਵਸਥਾਵਾਂ ਅਤੇ ਨਿਬਾਰਕ ਉਪਾਅ ਸ਼ਾਮਲ ਹਨ. ਤੁਸੀਂ ਸਾਡੇ ਸੁਰੱਖਿਆ ਦ੍ਰਿਸ਼ਟਿਕੋਣ ਅਤੇ ਸਿਸਟਮ ਕਾਰਡ ਦੇ ਵੇਰਵਿਆਂ ਬਾਰੇ ਬੀਟਾ ਘੋਸ਼ਣਾ ਬਲੌਗ ਵਿੱਚ ਹੋਰ ਜਾਣ ਸਕਦੇ ਹੋ. ਅਸੀਂ Realtime API ਸੈਸ਼ਨਾਂ 'ਤੇ ਸਰਗਰਮ ਕਲਾਸੀਫਾਇਰ ਵਰਤਦੇ ਹਾਂ, ਜਿਸਦਾ ਮਤਲਬ ਹੈ ਕਿ ਕੁਝ ਗੱਲਬਾਤਾਂ ਨੂੰ ਰੋਕਿਆ ਜਾ ਸਕਦਾ ਹੈ ਜੇ ਉਹ ਸਾਡੇ ਹਾਨਿਕਾਰਕ ਸਮੱਗਰੀ ਦਿਸ਼ਾ-ਨਿਰਦੇਸ਼ਾਂ ਦੀ ਉਲੰਘਣਾ ਕਰਦੀਆਂ ਮਿਲਣ. ਡਿਵੈਲਪਰ Agents SDK(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਆਪਣੀਆਂ ਵਾਧੂ ਸੁਰੱਖਿਆ ਗਾਰਡਰੇਲਾਂ ਵੀ ਆਸਾਨੀ ਨਾਲ ਸ਼ਾਮਲ ਕਰ ਸਕਦੇ ਹਨ.
ਸਾਡੀਆਂ ਵਰਤੋਂ ਨੀਤੀਆਂ ਸਪੈਮ, ਧੋਖਾਧੜੀ ਜਾਂ ਹੋਰ ਨੁਕਸਾਨਦਾਇਕ ਉਦੇਸ਼ਾਂ ਲਈ ਸਾਡੀਆਂ ਸੇਵਾਵਾਂ ਤੋਂ ਨਿਕਲੇ ਆਉਟਪੁੱਟਾਂ ਨੂੰ ਦੁਬਾਰਾ ਵਰਤਣ ਜਾਂ ਵੰਡਣ ਤੋਂ ਮਨ੍ਹਾਂ ਕਰਦੀਆਂ ਹਨ. ਡਿਵੈਲਪਰਾਂ ਨੂੰ ਆਖਰੀ ਉਪਭੋਗਤਾਵਾਂ ਲਈ ਇਹ ਵੀ ਸਪਸ਼ਟ ਕਰਨਾ ਚਾਹੀਦਾ ਹੈ ਕਿ ਉਹ AI ਨਾਲ ਇੰਟਰੈਕਟ ਕਰ ਰਹੇ ਹਨ, ਜਦ ਤੱਕ ਸੰਦਰਭ ਤੋਂ ਇਹ ਪਹਿਲਾਂ ਹੀ ਸਪਸ਼ਟ ਨਾ ਹੋਵੇ. Realtime API ਦੁਰਾਸਤੀ ਤੱਤਾਂ ਨੂੰ ਹੋਰਾਂ ਦੀ ਨਕਲ ਕਰਨ ਤੋਂ ਰੋਕਣ ਵਿੱਚ ਮਦਦ ਲਈ ਪਹਿਲਾਂ ਤੋਂ ਨਿਰਧਾਰਤ ਆਵਾਜ਼ਾਂ ਵਰਤਦੀ ਹੈ.
Realtime API EU-ਆਧਾਰਿਤ ਐਪਲੀਕੇਸ਼ਨਾਂ ਲਈ EU ਡਾਟਾ ਰੈਜ਼ਿਡੈਂਸੀ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਦਾ ਪੂਰਾ ਸਮਰਥਨ ਕਰਦੀ ਹੈ ਅਤੇ ਸਾਡੀਆਂ ਐਂਟਰਪ੍ਰਾਈਜ਼ ਪਰਦੇਦਾਰੀ ਵਚਨਬੱਧਤਾਵਾਂ ਦੇ ਅਧੀਨ ਆਉਂਦੀ ਹੈ.
ਸਾਰਿਆਂ ਲਈ ਉਪਲਬਧ Realtime API ਅਤੇ ਨਵਾਂ gpt-realtime ਮਾਡਲ ਅੱਜ ਤੋਂ ਸਭ ਡਿਵੈਲਪਰਾਂ ਲਈ ਉਪਲਬਧ ਹਨ. ਅਸੀਂ gpt-realtime ਦੀ ਕੀਮਤ ਨੂੰ gpt-4o-realtime-preview ਨਾਲੋਂ 20% ਘਟਾ ਰਹੇ ਹਾਂ—$32 / 1M audio input tokens (cached input tokens ਲਈ $0.40) ਅਤੇ $64 / 1M audio output tokens (ਵੇਰਵੇਦਾਰ ਕੀਮਤਾਂ ਲਈ detailed pricing(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਵੇਖੋ). ਅਸੀਂ ਗੱਲਬਾਤ ਦੇ ਸੰਦਰਭ ਲਈ ਬਰੀਕ-ਪੱਧਰ ਦਾ ਕੰਟਰੋਲ ਵੀ ਸ਼ਾਮਲ ਕੀਤਾ ਹੈ, ਜਿਸ ਨਾਲ ਡਿਵੈਲਪਰ ਸਮਝਦਾਰ ਟੋਕਨ ਸੀਮਾਵਾਂ ਸੈੱਟ ਕਰ ਸਕਦੇ ਹਨ ਅਤੇ ਇੱਕੋ ਵਾਰ ਕਈ ਟਰਨ ਟ੍ਰੰਕੇਟ ਕਰ ਸਕਦੇ ਹਨ, ਜਿਸ ਨਾਲ ਲੰਬੇ ਸੈਸ਼ਨਾਂ ਦੀ ਲਾਗਤ ਕਾਫ਼ੀ ਘੱਟ ਹੁੰਦੀ ਹੈ.
ਸ਼ੁਰੂ ਕਰਨ ਲਈ, ਸਾਡੀ Realtime API documentation(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਵੇਖੋ, ਨਵੇਂ ਮਾਡਲ ਨੂੰ Playground(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਵਿੱਚ ਅਜ਼ਮਾਓ, ਅਤੇ ਸਾਡੀ Realtime API prompting guide(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਵੇਖੋ.


