ਮੁੱਖ ਸਮੱਗਰੀ 'ਤੇ ਜਾਓ
OpenAI

API ਵਿੱਚ ਨਵੇਂ ਮਾਡਲਾਂ ਨਾਲ ਵੌਇਸ ਇੰਟੈਲੀਜੈਂਸ ਨੂੰ ਅੱਗੇ ਵਧਾਉਣਾ

ਰੀਅਲਟਾਈਮ ਵੌਇਸ ਮਾਡਲਾਂ ਦੀ ਨਵੀਂ ਪੀੜ੍ਹੀ, ਜੋ ਲੋਕਾਂ ਦੇ ਬੋਲਦੇ ਸਮੇਂ ਰੀਜ਼ਨਿੰਗ, ਅਨੁਵਾਦ ਅਤੇ ਟ੍ਰਾਂਸਕ੍ਰਿਪਸ਼ਨ ਕਰ ਸਕਦੀ ਹੈ.

ਲੋਡ ਹੋ ਰਿਹਾ ਹੈ…

ਅਸੀਂ API ਵਿੱਚ ਤਿੰਨ audio models ਪੇਸ਼ ਕਰ ਰਹੇ ਹਾਂ ਜੋ ਡਿਵੈਲਪਰਾਂ ਲਈ ਵੌਇਸ ਐਪਸ ਦੀ ਇੱਕ ਨਵੀਂ ਸ਼੍ਰੇਣੀ ਖੋਲ੍ਹਦੇ ਹਨ. ਇਨ੍ਹਾਂ ਮਾਡਲਾਂ ਨਾਲ, ਡਿਵੈਲਪਰ ਅਜਿਹੇ ਵੌਇਸ ਅਨੁਭਵ ਬਣਾ ਸਕਦੇ ਹਨ ਜੋ ਹੋਰ ਕੁਦਰਤੀ ਮਹਿਸੂਸ ਹੁੰਦੇ ਹਨ, ਹੋਰ ਸਮਝਦਾਰੀ ਨਾਲ ਜਵਾਬ ਦਿੰਦੇ ਹਨ, ਅਤੇ ਰੀਅਲ ਟਾਈਮ ਵਿੱਚ ਕਾਰਵਾਈ ਕਰਦੇ ਹਨ:

  • GPT‑Realtime‑2, ਸਾਡਾ ਪਹਿਲਾ ਵੌਇਸ ਮਾਡਲ ਜਿਸ ਵਿੱਚ GPT‑5‑ਪੱਧਰੀ ਰੀਜ਼ਨਿੰਗ ਹੈ, ਜੋ ਹੋਰ ਮੁਸ਼ਕਲ ਬੇਨਤੀਆਂ ਸੰਭਾਲ ਸਕਦਾ ਹੈ ਅਤੇ ਗੱਲਬਾਤ ਨੂੰ ਕੁਦਰਤੀ ਢੰਗ ਨਾਲ ਅੱਗੇ ਵਧਾ ਸਕਦਾ ਹੈ.
  • GPT‑Realtime‑Translate, ਇੱਕ ਨਵਾਂ live translation ਮਾਡਲ ਜੋ 70+ input ਭਾਸ਼ਾਵਾਂ ਦੀ ਬੋਲੀ ਨੂੰ 13 output ਭਾਸ਼ਾਵਾਂ ਵਿੱਚ ਅਨੁਵਾਦ ਕਰਦਾ ਹੈ ਅਤੇ ਬੋਲਣ ਵਾਲੇ ਦੀ ਗਤੀ ਨਾਲ ਕਦਮ ਮਿਲਾ ਕੇ ਚਲਦਾ ਹੈ.
  • GPT‑Realtime‑Whisper, ਇੱਕ ਨਵਾਂ streaming speech-to-text ਮਾਡਲ ਜੋ ਬੋਲਣ ਵਾਲੇ ਦੇ ਬੋਲਦੇ ਸਮੇਂ ਬੋਲੀ ਨੂੰ live ਟ੍ਰਾਂਸਕ੍ਰਾਇਬ ਕਰਦਾ ਹੈ.

GPT-Realtime-2 ਅਜ਼ਮਾਓ

ਸੈਸ਼ਨ ਸ਼ੁਰੂ ਕਰੋ, ਫਿਰ GPT-Realtime-2 ਨਾਲ ਕੁਦਰਤੀ ਢੰਗ ਨਾਲ ਗੱਲ ਕਰੋ।
ਮੈਂ ਕੀ ਪੁੱਛਾਂ?

ਸੈਸ਼ਨ ਸ਼ੁਰੂ ਕਰਨ ਤੋਂ ਬਾਅਦ, ਇਨ੍ਹਾਂ ਵਿੱਚੋਂ ਕੋਈ ਇੱਕ ਕਹਿ ਕੇ ਦੇਖੋ:

  • ਮੈਂ ਅੱਜ ਰਾਤ ਅਚਨਚੇਤ ਰੱਖੇ ਰਾਤ ਦੇ ਖਾਣੇ ਦੀ ਮੇਜ਼ਬਾਨੀ ਕਰ ਰਿਹਾ/ਰਹੀ ਹਾਂ। ਮੇਰੇ ਕੋਲ 30 ਮਿੰਟ ਹਨ, ਦੋ ਸ਼ਾਕਾਹਾਰੀ ਦੋਸਤ ਹਨ, ਇੱਕ ਨੂੰ ਮਸ਼ਰੂਮ ਪਸੰਦ ਨਹੀਂ ਹੈ, ਅਤੇ ਨਿੱਕੀ ਜਿਹੀ ਰਸੋਈ ਹੈ। ਇੱਕ ਸਧਾਰਨ ਮੀਨੂ ਤਿਆਰ ਕਰਨ ਵਿੱਚ ਮੇਰੀ ਮਦਦ ਕਰੋ।
  • ਮੈਂ ਜਪਾਨ ਵਿੱਚ ਇੱਕ ਲਾਈਵ ਇਵੈਂਟ ਵਿੱਚ ਮਹਿਮਾਨਾਂ ਦਾ ਸਵਾਗਤ ਕਰ ਰਿਹਾ/ਰਹੀ ਹਾਂ। ਜਾਪਾਨੀ ਵਿੱਚ ਇੱਕ ਨਿੱਘਾ ਅਤੇ ਸੁਭਾਵਿਕ ਸਵਾਗਤ ਕਹੋ — ਜਿਵੇਂ ਕਿਸੇ ਖਾਸ ਚੀਜ਼ ਦੀ ਸ਼ੁਰੂਆਤ ਕਰਨ ਵੇਲੇ ਕੋਈ ਮੇਜ਼ਬਾਨ ਕਰਦਾ ਹੈ।
  • ਮੇਰਾ ਆਰਡਰ ਨੰਬਰ Orbit-742Q ਹੈ। ਇਸਨੂੰ ਸਪਸ਼ਟ ਤੌਰ 'ਤੇ ਦੁਹਰਾਓ ਤਾਂ ਜੋ ਮੈਂ ਪੁਸ਼ਟੀ ਕਰ ਸਕਾਂ ਕਿ ਇਹ ਸਹੀ ਹੈ।
  • ਮੇਰੀ ਟੀਮ ਨੂੰ ਇਹ ਦੱਸਣ ਦਾ ਅਭਿਆਸ ਕਰਨ ਵਿੱਚ ਮੇਰੀ ਮਦਦ ਕਰੋ ਕਿ ਅਸੀਂ ਆਪਣਾ ਲਾਂਚ ਮੀਲਸਟੋਨ ਹਾਸਲ ਕਰ ਲਿਆ ਹੈ। ਪਹਿਲਾਂ ਸ਼ਾਂਤ ਆਤਮ-ਵਿਸ਼ਵਾਸ ਨਾਲ ਬੋਲੋ, ਫਿਰ ਵਧੇਰੇ ਉਤਸ਼ਾਹ ਨਾਲ।
  • ਮੈਂ ਸੜਕ ਯਾਤਰਾ ਲਈ ਦਿਲਚਸਪ ਜਾਣਕਾਰੀਆਂ ਤਿਆਰ ਕਰ ਰਿਹਾ/ਰਹੀ ਹਾਂ। ਮੈਨੂੰ ਤਿੰਨ ਅਜਿਹੇ ਭਰਮ ਵਾਲੇ ਸਵਾਲ ਦਿਓ ਜੋ ਸੁਣਨ 'ਚ ਬਹੁਤ ਸੌਖੇ ਲੱਗਣ ਪਰ ਹੋਣ ਡੂੰਘੇ, ਅਤੇ ਹਰ ਜਵਾਬ ਇੱਕ ਵਾਕ 'ਚ ਸਮਝਾਓ।

ਇਹ ਡੈਮੋ ਸਮਾਂ-ਸੀਮਤ ਹੈ। ਇਸਦੀ ਵਰਤੋਂ ਕਰਕੇ, ਤੁਸੀਂ OpenAI ਦੀਆਂ ਸ਼ਰਤਾਂ ਨਾਲ ਸਹਿਮਤ ਹੁੰਦੇ ਹੋ ਅਤੇ ਸਾਡੀ ਪ੍ਰਾਈਵੇਸੀ ਪਾਲਿਸੀ ਨੂੰ ਸਵੀਕਾਰ ਕਰਦੇ ਹੋ।

ਵੌਇਸ ਲੋਕਾਂ ਲਈ ਸੌਫਟਵੇਅਰ ਵਰਤਣ ਦੇ ਸਭ ਤੋਂ ਕੁਦਰਤੀ ਤਰੀਕਿਆਂ ਵਿੱਚੋਂ ਇੱਕ ਬਣ ਰਹੀ ਹੈ. ਇਹ ਕਿਸੇ ਨੂੰ ਗੱਡੀ ਚਲਾਉਂਦੇ ਸਮੇਂ ਮਦਦ ਮੰਗਣ, ਹਵਾਈ ਅੱਡੇ ਵਿੱਚ ਤੁਰਦੇ ਹੋਏ ਯਾਤਰਾ ਯੋਜਨਾ ਬਦਲਣ, ਆਪਣੀ ਮਨਪਸੰਦ ਭਾਸ਼ਾ ਵਿੱਚ ਸਹਾਇਤਾ ਲੈਣ, ਜਾਂ ਟਾਈਪ ਕਰਨ ਲਈ ਰੁਕੇ ਬਿਨਾਂ ਕੋਈ ਕੰਮ ਪੂਰਾ ਕਰਨ ਦੀ ਆਜ਼ਾਦੀ ਦਿੰਦੀ ਹੈ.

ਪਰ ਲਾਭਦਾਇਕ ਵੌਇਸ ਉਤਪਾਦ ਬਣਾਉਣ ਲਈ ਸਿਰਫ਼ ਤੇਜ਼ turn-taking ਜਾਂ ਕੁਦਰਤੀ ਸੁਣਾਈ ਦੇਣ ਵਾਲੀ ਆਵਾਜ਼ ਹੀ ਕਾਫ਼ੀ ਨਹੀਂ ਹੈ. ਇੱਕ ਵੌਇਸ ਏਜੰਟ ਨੂੰ ਸਮਝਣਾ ਪੈਂਦਾ ਹੈ ਕਿ ਕੋਈ ਕੀ ਮਤਲਬ ਰੱਖਦਾ ਹੈ, context ਦਾ ਧਿਆਨ ਰੱਖਣਾ ਪੈਂਦਾ ਹੈ, ਬੇਨਤੀ ਬਦਲਣ ਤੇ ਮੁੜ ਸੰਭਲਣਾ ਪੈਂਦਾ ਹੈ, ਗੱਲਬਾਤ ਜਾਰੀ ਰਹਿਣ ਦੌਰਾਨ tools ਵਰਤਣੇ ਪੈਂਦੇ ਹਨ, ਅਤੇ ਅਜਿਹੇ ਢੰਗ ਨਾਲ ਜਵਾਬ ਦੇਣਾ ਪੈਂਦਾ ਹੈ ਜੋ ਉਸ ਪਲ ਦੇ ਮੁਤਾਬਕ ਉਚਿਤ ਲੱਗੇ.

ਇਕੱਠੇ ਮਿਲ ਕੇ, ਜਿਹੜੇ ਮਾਡਲ ਅਸੀਂ ਲਾਂਚ ਕਰ ਰਹੇ ਹਾਂ ਉਹ realtime audio ਨੂੰ ਸਧਾਰਣ call-and-response ਤੋਂ ਅਜਿਹੇ ਵੌਇਸ ਇੰਟਰਫੇਸਾਂ ਵੱਲ ਲੈ ਜਾਂਦੇ ਹਨ ਜੋ ਅਸਲ ਵਿੱਚ ਕੰਮ ਕਰ ਸਕਦੇ ਹਨ: ਸੁਣਨਾ, ਰੀਜ਼ਨਿੰਗ ਕਰਨਾ, ਅਨੁਵਾਦ ਕਰਨਾ, ਟ੍ਰਾਂਸਕ੍ਰਾਇਬ ਕਰਨਾ, ਅਤੇ ਗੱਲਬਾਤ ਦੇ ਖੁਲ੍ਹਦੇ ਜਾਣ ਨਾਲ ਕਾਰਵਾਈ ਕਰਨਾ.

ਲੋਕਾਂ ਅਤੇ ਉਤਪਾਦਾਂ ਵਿਚਕਾਰ ਇੱਕ ਇੰਟਰਫੇਸ ਵਜੋਂ ਵੌਇਸ

ਜਿਵੇਂ ਵੌਇਸ ਸੌਫਟਵੇਅਰ ਵਰਤਣ ਦਾ ਹੋਰ ਕੁਦਰਤੀ ਤਰੀਕਾ ਬਣਦੀ ਜਾ ਰਹੀ ਹੈ, ਅਸੀਂ ਵੇਖ ਰਹੇ ਹਾਂ ਕਿ ਡਿਵੈਲਪਰ ਵੌਇਸ AI ਵਿੱਚ ਤਿੰਨ ਉਭਰਦੇ ਪੈਟਰਨਾਂ ਦੇ ਆਲੇ-ਦੁਆਲੇ ਨਿਰਮਾਣ ਕਰ ਰਹੇ ਹਨ:

  • Voice-to-action, ਜਿੱਥੇ ਲੋਕ ਆਪਣੀ ਲੋੜ ਬਿਆਨ ਕਰ ਸਕਦੇ ਹਨ ਅਤੇ ਸਿਸਟਮ ਬੇਨਤੀ ਬਾਰੇ ਰੀਜ਼ਨਿੰਗ ਕਰਕੇ, tools ਵਰਤ ਕੇ, ਅਤੇ ਕੰਮ ਪੂਰਾ ਕਰ ਸਕਦਾ ਹੈ. ਉਦਾਹਰਨ ਲਈ, Zillow ਇੱਕ ਅਸਿਸਟੈਂਟ ਬਣਾ ਰਿਹਾ ਹੈ ਜੋ ਅਜਿਹੀਆਂ ਬੇਨਤੀਆਂ ਸੁਣ ਸਕੇ, ਰੀਜ਼ਨਿੰਗ ਕਰ ਸਕੇ, ਅਤੇ ਕਾਰਵਾਈ ਕਰ ਸਕੇ: “ਮੇਰੀ BuyAbility ਦੇ ਅੰਦਰ ਘਰ ਲੱਭੋ, ਰੁਸ਼ ਵਾਲੀਆਂ ਸੜਕਾਂ ਤੋਂ ਬਚੋ, ਅਤੇ ਸ਼ਨੀਵਾਰ ਲਈ tour schedule ਕਰੋ.”
  • Systems-to-voice, ਜਿੱਥੇ ਸੌਫਟਵੇਅਰ context ਨੂੰ live ਬੋਲੀ ਗਾਈਡੈਂਸ ਵਿੱਚ ਬਦਲ ਸਕਦਾ ਹੈ. ਉਦਾਹਰਨ ਲਈ, ਇੱਕ travel app ਪਹਿਲ ਕਰਕੇ ਕਿਸੇ ਯਾਤਰੀ ਨੂੰ ਕਹਿ ਸਕਦੀ ਹੈ: “ਤੁਹਾਡੀ inbound flight ਦੇਰੀ ਨਾਲ ਹੈ, ਪਰ ਤੁਸੀਂ ਹਾਲੇ ਵੀ ਆਪਣੀ connection ਫੜ ਸਕਦੇ ਹੋ. ਮੈਂ ਨਵਾਂ gate ਲੱਭ ਲਿਆ ਹੈ, terminal ਵਿੱਚੋਂ ਸਭ ਤੋਂ ਤੇਜ਼ ਰਸਤਾ map ਕਰ ਦਿੱਤਾ ਹੈ, ਅਤੇ ਤੁਹਾਡੇ bag ਦੇ transfer ਹੋਣ ਦੀ ਹਾਲੇ ਵੀ ਉਮੀਦ ਹੈ.”
  • Voice-to-voice, ਜਿੱਥੇ AI ਭਾਸ਼ਾਵਾਂ, ਕੰਮਾਂ ਜਾਂ ਬਦਲਦੇ context ਦੇ ਪਾਰ live ਗੱਲਬਾਤਾਂ ਨੂੰ ਜਾਰੀ ਰੱਖਣ ਵਿੱਚ ਮਦਦ ਕਰ ਸਕਦਾ ਹੈ. ਉਦਾਹਰਨ ਲਈ, Deutsche Telekom ਅਜਿਹੇ ਵੌਇਸ support experiences ਤਿਆਰ ਕਰ ਰਿਹਾ ਹੈ ਜਿੱਥੇ ਗਾਹਕ ਉਸ ਭਾਸ਼ਾ ਵਿੱਚ ਬੋਲ ਸਕਦੇ ਹਨ ਜਿਸ ਵਿੱਚ ਉਹ ਸਭ ਤੋਂ ਆਰਾਮਦਾਇਕ ਹਨ, ਜਦਕਿ ਮਾਡਲ ਗੱਲਬਾਤ ਦਾ ਰੀਅਲ ਟਾਈਮ ਵਿੱਚ ਅਨੁਵਾਦ ਕਰਦਾ ਹੈ.
ਤਿੰਨ ਵੌਇਸ AI ਵਰਕਫਲੋ ਦਿਖਾਉਂਦਾ ਡਾਇਗ੍ਰਾਮ: ਵੌਇਸ-ਟੂ-ਐਕਸ਼ਨ, ਜੋ ਬੋਲੀ ਨੂੰ code ਅਤੇ dev, shopping, in-car, ਅਤੇ scheduling tools ਵਰਗੀਆਂ ਐਪਾਂ ਨਾਲ ਜੋੜਦਾ ਹੈ; systems-to-voice, ਜੋ apps, calendars, CRM, ਅਤੇ support dashboards ਨੂੰ ਬੋਲੀ ਨਾਲ ਜੋੜਦਾ ਹੈ; ਅਤੇ voice-to-voice, ਜੋ ਦੋ ਵੌਇਸ ਏਜੰਟਾਂ ਨੂੰ ਜੋੜਦਾ ਹੈ.

ਇਹ ਪੈਟਰਨ ਇਕੱਠੇ ਵੀ ਕੰਮ ਕਰ ਸਕਦੇ ਹਨ. Priceline ਅਜਿਹੇ ਭਵਿੱਖ ਵੱਲ ਕੰਮ ਕਰ ਰਿਹਾ ਹੈ ਜਿੱਥੇ ਯਾਤਰੀ ਪੂਰੀਆਂ ਯਾਤਰਾਵਾਂ ਵੌਇਸ ਰਾਹੀਂ ਸੰਭਾਲ ਸਕਣ: ਗੱਲਬਾਤੀ ਢੰਗ ਨਾਲ flights ਅਤੇ hotels ਖੋਜਣਾ, flight delay ਤੋਂ ਬਾਅਦ hotel reservation ਠੀਕ ਕਰਨ ਵਰਗੀਆਂ ਤਬਦੀਲੀਆਂ ਸੰਭਾਲਣਾ ਜਾਂ TSA wait times ਬਾਰੇ ਰੀਅਲ-ਟਾਈਮ ਅੱਪਡੇਟ ਲੈਣਾ, ਅਤੇ ਯਾਤਰੀਆਂ ਦੇ ਮੰਜ਼ਿਲ 'ਤੇ ਪਹੁੰਚਣ ਤੋਂ ਬਾਅਦ ਗੱਲਬਾਤਾਂ ਦਾ ਅਨੁਵਾਦ ਕਰਨਾ.

ਰੀਅਲਟਾਈਮ ਵੌਇਸ: ਵੌਇਸ ਮਾਡਲਾਂ ਨੂੰ ਰੀਜ਼ਨਿੰਗ ਕਰਨ ਅਤੇ ਕਾਰਵਾਈ ਕਰਨ ਵਿੱਚ ਮਦਦ

GPT‑Realtime‑2 live ਵੌਇਸ ਅੰਤਰਕ੍ਰਿਆਵਾਂ ਲਈ ਬਣਾਇਆ ਗਿਆ ਹੈ, ਜਿੱਥੇ ਮਾਡਲ ਬੇਨਤੀ ਬਾਰੇ ਰੀਜ਼ਨਿੰਗ ਕਰਦੇ ਹੋਏ, tools ਨੂੰ call ਕਰਦੇ ਹੋਏ, corrections ਜਾਂ interruptions ਸੰਭਾਲਦੇ ਹੋਏ, ਅਤੇ ਪਲ ਦੇ ਮੁਤਾਬਕ ਫਿੱਟ ਬੈਠਦਾ ਜਵਾਬ ਦਿੰਦੇ ਹੋਏ ਗੱਲਬਾਤ ਨੂੰ ਜਾਰੀ ਰੱਖਦਾ ਹੈ.

  • Preambles: ਡਿਵੈਲਪਰ ਮੁੱਖ ਜਵਾਬ ਤੋਂ ਪਹਿਲਾਂ ਛੋਟੇ ਵਾਕਾਂਸ਼ ਚਾਲੂ ਕਰ ਸਕਦੇ ਹਨ, ਜਿਵੇਂ “ਮੈਂ ਇਹ ਜਾਂਚ ਲੈਂਦਾ ਹਾਂ” ਜਾਂ “ਇੱਕ ਪਲ, ਮੈਂ ਇਸ ਨੂੰ ਵੇਖਦਾ ਹਾਂ,” ਤਾਂ ਜੋ ਯੂਜ਼ਰਾਂ ਨੂੰ ਪਤਾ ਰਹੇ ਕਿ ਏਜੰਟ ਬੇਨਤੀ 'ਤੇ ਕੰਮ ਕਰ ਰਿਹਾ ਹੈ.
  • Parallel tool calls and tool transparency: ਮਾਡਲ ਇੱਕੋ ਵੇਲੇ ਕਈ tools ਨੂੰ call ਕਰ ਸਕਦਾ ਹੈ ਅਤੇ ਉਹਨਾਂ ਕਾਰਵਾਈਆਂ ਨੂੰ “ਤੁਹਾਡਾ calendar ਚੈਕ ਕਰ ਰਿਹਾ ਹਾਂ” ਜਾਂ “ਹੁਣੇ ਇਹ ਵੇਖ ਰਿਹਾ ਹਾਂ” ਵਰਗੇ ਵਾਕਾਂਸ਼ਾਂ ਨਾਲ ਸੁਣਨਯੋਗ ਬਣਾ ਸਕਦਾ ਹੈ, ਜਿਸ ਨਾਲ ਏਜੰਟ ਕੰਮ ਪੂਰੇ ਕਰਦੇ ਸਮੇਂ ਵੀ responsive ਰਹਿੰਦੇ ਹਨ.
  • Stronger recovery behavior: ਮਾਡਲ “ਮੈਨੂੰ ਇਸ ਵੇਲੇ ਇਸ ਨਾਲ ਦਿੱਕਤ ਆ ਰਹੀ ਹੈ” ਵਰਗੀਆਂ ਗੱਲਾਂ ਕਹਿ ਕੇ ਹੋਰ ਸੁਚੱਜੇ ਢੰਗ ਨਾਲ ਮੁੜ ਸੰਭਲ ਸਕਦਾ ਹੈ, ਚੁੱਪਚਾਪ ਫੇਲ੍ਹ ਹੋਣ ਜਾਂ ਗੱਲਬਾਤ ਤੋੜਣ ਦੀ ਬਜਾਏ.
  • Longer context for agentic workflows: ਅਸੀਂ context window ਨੂੰ 32K ਤੋਂ 128K ਤੱਕ ਵਧਾ ਰਹੇ ਹਾਂ ਤਾਂ ਜੋ ਹੋਰ ਲੰਬੀਆਂ, ਹੋਰ ਸੁਸੰਗਤ sessions ਅਤੇ ਹੋਰ ਜਟਿਲ task flows ਦਾ ਸਮਰਥਨ ਕੀਤਾ ਜਾ ਸਕੇ.
  • Stronger domain understanding: ਮਾਡਲ specialized terminology, proper nouns, healthcare terms, ਅਤੇ ਹੋਰ ਉਹ ਸ਼ਬਦਾਵਲੀ ਜੋ production settings ਵਿੱਚ ਮਹੱਤਵਪੂਰਨ ਹੁੰਦੀ ਹੈ, ਨੂੰ ਹੋਰ ਚੰਗੀ ਤਰ੍ਹਾਂ ਸੰਭਾਲ ਕੇ ਰੱਖਦਾ ਹੈ.
  • More controllable tone and delivery: ਮਾਡਲ ਆਪਣਾ ਲਹਿਜ਼ਾ ਹੋਰ ਚੰਗੀ ਤਰ੍ਹਾਂ ਢਾਲ ਸਕਦਾ ਹੈ—ਮਸਲਾ ਹੱਲ ਕਰਦੇ ਸਮੇਂ ਸ਼ਾਂਤ ਬੋਲਣਾ, ਯੂਜ਼ਰ ਨਿਰਾਸ਼ ਹੋਣ 'ਤੇ ਸਮਵੇਦਨਸ਼ੀਲ ਹੋਣਾ, ਜਾਂ ਸਫਲ ਕਾਰਵਾਈ ਦੀ ਪੁਸ਼ਟੀ ਕਰਦੇ ਸਮੇਂ ਉਤਸ਼ਾਹਪੂਰਣ ਹੋਣਾ.
  • Adjustable reasoning effort: ਡਿਵੈਲਪਰ ਹੁਣ minimal, low, medium, high, and xhigh ਰੀਜ਼ਨਿੰਗ ਲੈਵਲਾਂ ਵਿੱਚੋਂ ਚੋਣ ਕਰ ਸਕਦੇ ਹਨ, ਜਿਸ ਵਿੱਚ low ਮੂਲ ਚੋਣ ਵਜੋਂ ਹੈ, ਤਾਂ ਜੋ ਸਿੱਧੀਆਂ ਅੰਤਰਕ੍ਰਿਆਵਾਂ ਲਈ ਘੱਟ latency ਅਤੇ ਜਟਿਲ ਬੇਨਤੀਆਂ ਲਈ ਹੋਰ ਸੋਚ-ਵਿਚਾਰ ਵਾਲੀ ਰੀਜ਼ਨਿੰਗ ਵਿਚਕਾਰ ਸੰਤੁਲਨ ਬਣਿਆ ਰਹੇ.

ਇਹ ਸੁਧਾਰ ਉਹਨਾਂ audio evals ਵਿੱਚ ਵੀ ਦਿਖਾਈ ਦਿੰਦੇ ਹਨ ਜੋ production voice agents ਨਾਲ ਨਜ਼ਦੀਕੀ ਮੇਲ ਖਾਂਦੇ ਹਨ: GPT‑Realtime‑2 (high), audio intelligence ਲਈ Big Bench Audio 'ਤੇ GPT‑Realtime‑1.5 ਨਾਲੋਂ 15.2% ਉੱਚਾ ਸਕੋਰ ਕਰਦਾ ਹੈ. GPT‑Realtime‑2 (xhigh), instruction following ਲਈ Audio MultiChallenge 'ਤੇ 13.8% ਉੱਚਾ ਸਕੋਰ ਕਰਦਾ ਹੈ, GPT‑Realtime‑1.5 ਨਾਲੋਂ ਸੁਧਾਰ ਦਿਖਾਉਂਦਾ ਹੈ ਅਤੇ live ਗੱਲਬਾਤਾਂ ਵਿੱਚ ਹੋਰ ਮਜ਼ਬੂਤ ਰੀਜ਼ਨਿੰਗ, context management, ਅਤੇ ਕੰਟਰੋਲ ਦਰਸਾਉਂਦਾ ਹੈ.

Big Bench Audio ਉਹਨਾਂ ਭਾਸ਼ਾ ਮਾਡਲਾਂ ਵਿੱਚ ਚੁਣੌਤੀਪੂਰਨ ਰੀਜ਼ਨਿੰਗ ਸਮਰੱਥਾਵਾਂ ਦਾ ਮੁਲਾਂਕਣ ਕਰਦਾ ਹੈ ਜੋ audio input ਦਾ ਸਮਰਥਨ ਕਰਦੇ ਹਨ. Audio MultiChallenge(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਬੋਲੀ ਸੰਵਾਦ ਸਿਸਟਮਾਂ ਵਿੱਚ multi-turn ਗੱਲਬਾਤੀ ਬੁੱਧੀਮੱਤਾ ਦਾ ਮੁਲਾਂਕਣ ਕਰਦਾ ਹੈ, ਜਿਸ ਵਿੱਚ instruction following, context integration, self-consistency, ਅਤੇ ਕੁਦਰਤੀ ਬੋਲੀ ਸੁਧਾਰਾਂ ਨੂੰ ਸੰਭਾਲਣਾ ਸ਼ਾਮਲ ਹੈ.

GPT‑Realtime‑2 ਦੀ ਖ਼ੂਬੀ ਕਈ ਵੱਖ-ਵੱਖ ਵਰਤੋਂ ਦੇ ਕੇਸਾਂ ਵਿੱਚ ਦਿਖਾਈ ਦਿੰਦੀ ਹੈ:

ਰੀਅਲਟਾਈਮ ਉਦਾਹਰਨ ਲੋਡ ਹੋ ਰਹੀ ਹੈ…

ਸ਼ੁਰੂਆਤੀ ਟੈਸਟਿੰਗ ਦੌਰਾਨ, ਕਾਰੋਬਾਰਾਂ ਨੇ GPT‑Realtime‑2 ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਅਜਿਹੇ ਵੌਇਸ ਏਜੰਟ ਬਣਾਏ ਜੋ ਗਾਹਕਾਂ ਅਤੇ ਕਰਮਚਾਰੀਆਂ ਨੂੰ ਕੁਦਰਤੀ ਗੱਲਬਾਤ ਰਾਹੀਂ ਕੰਮ ਕਰਵਾਉਣ ਵਿੱਚ ਮਦਦ ਕਰਦੇ ਹਨ:

“ਬਿਲਡਰ ਲਗਾਤਾਰ ਤਰੱਕੀ ਚਾਹੁੰਦੇ ਹਨ, ਬੇਅੰਤ ਦੁਹਰਾਈ ਨਹੀਂ। GPT-5.5 ਉਹ ਰੁਕਾਵਟਾਂ ਤੋੜ ਦਿੰਦਾ ਹੈ ਜਿਨ੍ਹਾਂ ਨਾਲ ਲੋਕ ਆਮ ਤੌਰ 'ਤੇ ਹੋਰ ਜਟਿਲ ਕੰਮਾਂ ਵਿੱਚ ਟਕਰਾਉਂਦੇ ਹਨ, ਜਿਵੇਂ authentication flows ਅਤੇ real-time syncing, ਅਤੇ ਉਹ ਵੀ ਕਾਫ਼ੀ ਘੱਟ turns ਵਿੱਚ। ਜਦੋਂ ਕੰਮ ਔਖਾ ਹੋ ਜਾਂਦਾ ਹੈ ਤਾਂ ਮਾਡਲ ਵਾਕਈ ਚਮਕਦਾ ਹੈ, ਅਤੇ ਕਾਫ਼ੀ ਘੱਟ back-and-forth ਨਾਲ ਮੁਸ਼ਕਲ ਕੰਮ ਸੰਭਾਲਦਾ ਹੈ।”
— Fabian Hedin, Lovable ਵਿੱਚ CTO ਅਤੇ Co-founder

ਰੀਅਲਟਾਈਮ ਅਨੁਵਾਦ: live ਬਹੁਭਾਸ਼ੀ ਵੌਇਸ ਅਨੁਭਵ ਬਣਾਓ

GPT‑Realtime‑Translate ਡਿਵੈਲਪਰਾਂ ਨੂੰ ਅਜਿਹੇ live ਬਹੁਭਾਸ਼ੀ ਵੌਇਸ ਅਨੁਭਵ ਬਣਾਉਣ ਵਿੱਚ ਮਦਦ ਕਰਦਾ ਹੈ ਜਿੱਥੇ ਹਰ ਵਿਅਕਤੀ ਆਪਣੀ ਮਨਪਸੰਦ ਭਾਸ਼ਾ ਵਿੱਚ ਬੋਲ ਸਕਦਾ ਹੈ, ਗੱਲਬਾਤ ਦਾ ਰੀਅਲ ਟਾਈਮ ਵਿੱਚ ਅਨੁਵਾਦ ਸੁਣ ਸਕਦਾ ਹੈ ਅਤੇ ਰੀਅਲ ਟਾਈਮ ਟ੍ਰਾਂਸਕ੍ਰਿਪਸ਼ਨ ਪੜ੍ਹ ਸਕਦਾ ਹੈ. ਇਹ 70 ਤੋਂ ਵੱਧ input ਭਾਸ਼ਾਵਾਂ ਅਤੇ 13 output ਭਾਸ਼ਾਵਾਂ ਦਾ ਸਮਰਥਨ ਕਰਦਾ ਹੈ, ਜਿਸ ਨਾਲ ਇਹ customer support, cross-border sales, education, events, media, ਅਤੇ ਵਿਸ਼ਵ ਪੱਧਰੀ ਦਰਸ਼ਕਾਂ ਦੀ ਸੇਵਾ ਕਰਨ ਵਾਲੇ creator platforms ਲਈ ਲਾਭਦਾਇਕ ਬਣਦਾ ਹੈ.

ਡਿਵੈਲਪਰਾਂ ਲਈ, live translation ਨੂੰ ਬੋਲਣ ਵਾਲੇ ਦੀ ਗਤੀ ਨਾਲ ਕਦਮ ਮਿਲਾ ਕੇ ਚਲਦਿਆਂ ਅਰਥ ਬਚਾ ਕੇ ਰੱਖਣਾ ਲੋੜੀਂਦਾ ਹੁੰਦਾ ਹੈ, ਭਾਵੇਂ ਲੋਕ ਕੁਦਰਤੀ ਤਰੀਕੇ ਨਾਲ ਬੋਲਣ, context ਬਦਲਣ, ਜਾਂ ਖੇਤਰੀ ਉਚਾਰਣ ਅਤੇ ਖੇਤਰ-ਵਿਸ਼ੇਸ਼ ਭਾਸ਼ਾ ਵਰਤਣ. ਉਦਾਹਰਨ ਲਈ, Deutsche Telekom ਬਹੁਭਾਸ਼ੀ ਵੌਇਸ ਅੰਤਰਕ੍ਰਿਆਵਾਂ ਲਈ ਇਸ ਮਾਡਲ ਦੀ ਜਾਂਚ ਕਰ ਰਿਹਾ ਹੈ, ਜਿੱਥੇ ਘੱਟ latency ਅਤੇ ਹੋਰ ਮਜ਼ਬੂਤ fluency ਨਾਲ ਵੱਖ-ਵੱਖ ਭਾਸ਼ਾਵਾਂ ਵਿੱਚ ਗੱਲਬਾਤ ਹੋਰ ਕੁਦਰਤੀ ਮਹਿਸੂਸ ਹੋ ਸਕਦੀ ਹੈ.

ਇਸ ਵੀਡੀਓ ਵਿੱਚ, Vimeo ਦਿਖਾਉਂਦਾ ਹੈ ਕਿ GPT‑Realtime‑Translate ਕਿਸ ਤਰ੍ਹਾਂ ਇੱਕ product education video ਨੂੰ ਚੱਲਦੇ-ਚੱਲਦੇ live ਅਨੁਵਾਦ ਕਰ ਸਕਦਾ ਹੈ, ਤਾਂ ਜੋ ਵਿਸ਼ਵ ਪੱਧਰੀ ਗਾਹਕ ਵੱਖਰੇ ਤੌਰ 'ਤੇ ਤਿਆਰ ਕੀਤੇ ਵਰਜਨ ਦੀ ਉਡੀਕ ਕੀਤੇ ਬਿਨਾਂ ਆਪਣੀ ਮਨਪਸੰਦ ਭਾਸ਼ਾ ਵਿੱਚ ਅੱਪਡੇਟ ਸੁਣ ਸਕਣ.

“ਭਾਰਤ ਲਈ ਵੌਇਸ AI ਬਣਾਉਣ ਦਾ ਮਤਲਬ ਹੈ ਵੱਖ-ਵੱਖ ਖੇਤਰੀ ਧੁਨਾਤਮਕ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਨੂੰ ਸੰਭਾਲਣਾ. ਹਿੰਦੀ, ਤਮਿਲ ਅਤੇ ਤੇਲਗੂ ਵਿੱਚ ਸਾਡੇ evals ਦੌਰਾਨ, GPT-Realtime-Translate ਨੇ ਸਾਡੇ ਟੈਸਟ ਕੀਤੇ ਹੋਰ ਕਿਸੇ ਵੀ ਮਾਡਲ ਨਾਲੋਂ 12.5% ਘੱਟ Word Error Rates ਦਿੱਤੀਆਂ, ਨਾਲ ਹੀ ਘੱਟ fallback rates, ਵੱਧ task completion, ਅਤੇ ਅਜਿਹੀ latency ਜੋ ਕੁਦਰਤੀ ਗੱਲਬਾਤ ਨੂੰ ਕਾਇਮ ਰੱਖਦੀ ਸੀ. ਇਹ ਬਹੁਭਾਸ਼ੀ ਵੌਇਸ AI ਲਈ ਇੱਕ ਨਵਾਂ ਮਿਆਰ ਤੈਅ ਕਰਦਾ ਹੈ.”
— Prateek Sachan, BolnaAI ਵਿੱਚ Co-founder & CTO

ਰੀਅਲਟਾਈਮ ਟ੍ਰਾਂਸਕ੍ਰਿਪਸ਼ਨ: ਘੱਟ-ਲੈਟੈਂਸੀ ਟ੍ਰਾਂਸਕ੍ਰਿਪਸ਼ਨ ਅਨੁਭਵ ਬਣਾਓ

GPT‑Realtime‑Whisper ਘੱਟ-ਲੈਟੈਂਸੀ speech-to-text ਲਈ ਬਣਾਇਆ ਗਿਆ ਇੱਕ ਨਵਾਂ streaming transcription ਮਾਡਲ ਹੈ. ਇਹ ਲੋਕਾਂ ਦੇ ਬੋਲਦੇ ਸਮੇਂ audio ਨੂੰ ਟ੍ਰਾਂਸਕ੍ਰਾਇਬ ਕਰਦਾ ਹੈ, ਜਿਸ ਨਾਲ live ਉਤਪਾਦ ਹੋਰ ਤੇਜ਼, ਹੋਰ responsive ਅਤੇ ਹੋਰ ਕੁਦਰਤੀ ਲੱਗ ਸਕਦੇ ਹਨ—ਉਨ੍ਹਾਂ captions ਤੋਂ ਜੋ ਓਸੇ ਵੇਲੇ ਦਿਖਾਈ ਦਿੰਦੇ ਹਨ, ਉਹਨਾਂ meeting notes ਤੱਕ ਜੋ ਗੱਲਬਾਤ ਦੇ ਨਾਲ ਕਦਮ ਮਿਲਾ ਕੇ ਚਲਦੇ ਹਨ.

ਇਹ ਮਾਡਲ live speech ਨੂੰ ਕਾਰੋਬਾਰੀ workflows ਦੇ ਅੰਦਰ ਉਸੇ ਵੇਲੇ ਵਰਤਣਯੋਗ ਬਣਾਉਂਦਾ ਹੈ. ਟੀਮਾਂ meetings, classrooms, broadcasts, ਅਤੇ events ਲਈ captions ਚਲਾ ਸਕਦੀਆਂ ਹਨ; ਗੱਲਬਾਤਾਂ ਹਾਲੇ ਜਾਰੀ ਹੋਣ ਦੌਰਾਨ notes ਅਤੇ summaries ਤਿਆਰ ਕਰ ਸਕਦੀਆਂ ਹਨ; ਅਜਿਹੇ ਵੌਇਸ ਏਜੰਟ ਬਣਾ ਸਕਦੀਆਂ ਹਨ ਜਿਨ੍ਹਾਂ ਨੂੰ ਯੂਜ਼ਰਾਂ ਨੂੰ ਲਗਾਤਾਰ ਸਮਝਣ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ; ਅਤੇ customer support, healthcare, sales, recruiting, ਅਤੇ ਹੋਰ ਵੱਧ ਮਾਤਰਾ ਵਾਲੀਆਂ ਬੋਲੀ ਅੰਤਰਕ੍ਰਿਆਵਾਂ ਲਈ ਹੋਰ ਤੇਜ਼ follow-up workflows ਤਿਆਰ ਕਰ ਸਕਦੀਆਂ ਹਨ.

ਸੁਰੱਖਿਆ

Realtime API ਗਲਤ ਵਰਤੋਂ ਨੂੰ ਰੋਕਣ ਵਿੱਚ ਮਦਦ ਲਈ ਕਈ ਪਰਤਾਂ ਵਾਲੀਆਂ ਸੁਰੱਖਿਆਵਾਂ ਅਤੇ ਰੋਕਥਾਮੀ ਉਪਾਇਆਂ ਨੂੰ ਸ਼ਾਮਲ ਕਰਦੀ ਹੈ. ਅਸੀਂ Realtime API sessions 'ਤੇ active classifiers ਵਰਤਦੇ ਹਾਂ, ਜਿਸਦਾ ਮਤਲਬ ਹੈ ਕਿ ਜੇ ਕੁਝ ਗੱਲਬਾਤਾਂ ਸਾਡੀਆਂ harmful content guidelines ਦੀ ਉਲੰਘਣਾ ਕਰਦੀਆਂ ਪਾਈਆਂ ਜਾਣ, ਤਾਂ ਉਹਨਾਂ ਨੂੰ ਰੋਕਿਆ ਜਾ ਸਕਦਾ ਹੈ. ਡਿਵੈਲਪਰ Agents SDK⁠.(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਆਪਣੇ ਵਾਧੂ safety guardrails ਵੀ ਆਸਾਨੀ ਨਾਲ ਜੋੜ ਸਕਦੇ ਹਨ.

ਸਾਡੀਆਂ usage policies⁠ ਸਾਡੀਆਂ ਸੇਵਾਵਾਂ ਤੋਂ ਮਿਲੇ outputs ਨੂੰ spam, deception, ਜਾਂ ਹੋਰ ਨੁਕਸਾਨਦਾਇਕ ਮਕਸਦਾਂ ਲਈ ਦੁਬਾਰਾ ਵਰਤਣ ਜਾਂ ਵੰਡਣ ਤੋਂ ਮਨਾਂ ਕਰਦੀਆਂ ਹਨ. ਡਿਵੈਲਪਰਾਂ ਨੂੰ ਅੰਤਿਮ ਯੂਜ਼ਰਾਂ ਲਈ ਇਹ ਸਪਸ਼ਟ ਕਰਨਾ ਵੀ ਲਾਜ਼ਮੀ ਹੈ ਕਿ ਉਹ AI ਨਾਲ ਅੰਤਰਕ੍ਰਿਆ ਕਰ ਰਹੇ ਹਨ, ਜਦ ਤੱਕ ਕਿ ਇਹ context ਤੋਂ ਪਹਿਲਾਂ ਹੀ ਸਪਸ਼ਟ ਨਾ ਹੋਵੇ.

Realtime API, EU-ਅਧਾਰਿਤ ਐਪਲੀਕੇਸ਼ਨਾਂ ਲਈ EU Data Residency⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਦਾ ਪੂਰਾ ਸਮਰਥਨ ਕਰਦੀ ਹੈ ਅਤੇ ਇਹ ਸਾਡੀਆਂ enterprise privacy commitments⁠ ਦੇ ਅਧੀਨ ਆਉਂਦੀ ਹੈ.

ਕੀਮਤਾਂ ਅਤੇ ਉਪਲਬਧਤਾ

GPT‑Realtime‑2, GPT‑Realtime‑Translate ਅਤੇ GPT‑Realtime‑Whisper Realtime API ਵਿੱਚ ਉਪਲਬਧ ਹਨ. GPT‑Realtime‑2 ਦੀ ਕੀਮਤ $32 / 1M audio input tokens ($0.40 cached input tokens ਲਈ) ਅਤੇ $64 / 1M audio output tokens ਹੈ. GPT‑Realtime‑Translate ਦੀ ਕੀਮਤ $0.034 ਪ੍ਰਤੀ ਮਿੰਟ ਹੈ. GPT‑Realtime‑Whisper ਦੀ ਕੀਮਤ $0.017 ਪ੍ਰਤੀ ਮਿੰਟ ਹੈ.

ਸ਼ੁਰੂ ਕਰੋ

ਤੁਸੀਂ ਨਵੇਂ realtime voice models ਨੂੰ Playground(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਵਿੱਚ ਟੈਸਟ ਕਰ ਸਕਦੇ ਹੋ.

ਨਿਰਮਾਣ ਸ਼ੁਰੂ ਕਰਨ ਲਈ, ਇਹ ਪ੍ਰੌੰਪਟ Codex ਵਿੱਚ ਖੋਲ੍ਹੋ ਤਾਂ ਜੋ ਮੌਜੂਦਾ ਐਪ ਵਿੱਚ GPT‑Realtime‑2 ਸ਼ਾਮਲ ਕੀਤਾ ਜਾ ਸਕੇ ਜਾਂ ਨਵਾਂ ਸ਼ੁਰੂ ਕੀਤਾ ਜਾ ਸਕੇ. ਜੇ ਤੁਹਾਡੇ ਕੋਲ ਹਾਲੇ Codex ਨਹੀਂ ਹੈ, ਤਾਂ ਪਹਿਲਾਂ Codex app ਡਾਊਨਲੋਡ ਕਰੋ.