2025 ഓഗസ്റ്റ് 28

പ്രൊഡക്ഷൻ വോയ്സ് ഏജൻ്റ്മാർക്കായി gpt-realtime, Realtime API അപ്ഡേറ്റുകൾ അവതരിപ്പിക്കുന്നു

MCP സെർവർ പിന്തുണ, ചിത്രം ഇൻപുട്ട്, SIP ഫോൺ കോളിംഗ് പിന്തുണ എന്നിവയുൾപ്പെടെ കൂടുതൽ വിപുലമായ സ്പീച്ച്-ടു-സ്പീച്ച് മോഡലും പുതിയ API കഴിവുകളും ഞങ്ങൾ പുറത്തിറക്കുന്നു.

ശബ്‌ദ ഇടപെടൽ പ്രദർശിപ്പിക്കുന്ന സ്റ്റൈലൈസ്ഡ് ഇന്റർഫേസ്. സെന്റേഡ് എന്നത് ഒരു വൃത്താകൃതിയിലുള്ള ചതുരാകൃതിയിലുള്ള ഓഡിയോ പ്ലെയറാണ്, അതിൽ തരംഗരൂപ ദൃശ്യവൽക്കരണം, പ്ലേ/പോസ് ബട്ടൺ, “ഏജൻ്റ് ഓൺലൈൻ” നില സൂചിപ്പിക്കുന്ന ഇൻഡിക്കേറ്റർ, 00:35 എന്ന ടൈംസ്റ്റാമ്പ് എന്നിവയുണ്ട്. ചിത്രത്തിൽ കുത്തുകളുള്ള വെളുത്ത വളഞ്ഞ വരകൾ ഒഴുകുന്നു, ഇത് തത്സമയ ഓഡിയോ അല്ലെങ്കിൽ സിഗ്നൽ ചലനത്തെ സൂചിപ്പിക്കുന്നു. പിങ്ക്, പർപ്പിൾ നിറങ്ങളിൽ മങ്ങിയ പൂക്കളുടെ ആകൃതികളുള്ള ഉജ്ജ്വലമായ നീലയാണ് പശ്ചാത്തലം.

ലോഡിംഗ്…

വിശ്വസനീയവും ഉൽപാദനത്തിന് തയ്യാറായതുമായ വോയ്‌സ് ഏജൻ്റുകൾ നിർമ്മിക്കാൻ ഡെവലപ്പർമാരെയും സംരംഭങ്ങളെയും പ്രവർത്തന സജ്ജമാക്കുന്ന പുതിയ സവിശേഷതകളുമായി ഇന്ന് ഞങ്ങൾ റിയൽടൈം API സാധാരണയായി ലഭ്യമാക്കുന്നു. API ഇപ്പോൾ സെഷൻ ഇനീഷ്യേഷൻ പ്രോട്ടോക്കോൾ (SIP) വഴി വിദൂര MCP സെർവറുകൾ, ചിത്ര ഇൻപുട്ടുകൾ, ഫോൺ കോളിംഗ് എന്നിവയെ പിന്തുണയ്ക്കുന്നു, അധിക ഉപകരണങ്ങളിലേക്കും സന്ദർഭത്തിലേക്കും ആക്സസ് ചെയ്യുന്നതിലൂടെ വോയ്സ് ഏജൻ്റുമാരെ കൂടുതൽ പ്രാപ്തമാക്കുന്നു.

ഞങ്ങളുടെ ഇതുവരെയുള്ളതിൽ വച്ച് ഏറ്റവും നൂതനമായ സ്പീച്ച്-ടു-സ്പീച്ച് മോഡലും ഞങ്ങൾ പുറത്തിറക്കുന്നുGPT‑realtime. സങ്കീർണ്ണമായ നിർദ്ദേശങ്ങൾ പാലിക്കുന്നതിലും, കൃത്യതയോടെ ഉപകരണങ്ങൾ വിളിക്കുന്നതിലും, കൂടുതൽ സ്വാഭാവികവും പ്രകടമായി തോന്നുന്നതുമായ സംഭാഷണം സൃഷ്ടിക്കുന്നതിലും പുതിയ മോഡൽ മെച്ചപ്പെടുത്തലുകൾ കാണിക്കുന്നു. സിസ്റ്റം സന്ദേശങ്ങളും ഡെവലപ്പർ പ്രോംപ്റ്റുകളും വ്യാഖ്യാനിക്കുന്നതിൽ ഇത് മികച്ചതാണ് - അത് ഒരു പിന്തുണാ കോളിൽ നിരാകരണ സ്ക്രിപ്റ്റുകൾ വാക്കു വാക്കായി വായിക്കുക, ആൽഫാന്യൂമെറിക്സ് പിന്നിലേക്ക് ആവർത്തിക്കുക, അല്ലെങ്കിൽ വാചകത്തിന്റെ മധ്യത്തിൽ ഭാഷകൾക്കിടയിൽ തടസ്സമില്ലാതെ മാറുക. ഇന്ന് മുതൽ റിയൽടൈം API-യിൽ മാത്രമായി ലഭ്യമായ സീഡാർ, മാരിൻ എന്നീ രണ്ട് പുതിയ ശബ്ദങ്ങൾ ഞങ്ങൾ പുറത്തിറക്കുന്നു.

കഴിഞ്ഞ ഒക്ടോബറിൽ ഞങ്ങൾ ആദ്യമായി റിയൽടൈം API പബ്ലിക് ബീറ്റയിൽ അവതരിപ്പിച്ചതുമുതൽ, ആയിരക്കണക്കിന് ഡെവലപ്പർമാർ API ഉപയോഗിച്ച് നിർമ്മിക്കുകയും ഇന്ന് ഞങ്ങൾ പുറത്തിറക്കുന്ന മെച്ചപ്പെടുത്തലുകൾ രൂപപ്പെടുത്താൻ സഹായിക്കുകയും ചെയ്തു - വിശ്വാസ്യത, കുറഞ്ഞ ലേറ്റൻസി, ഉൽപാദനത്തിൽ വോയ്‌സ് ഏജൻ്റുകൾ വിജയകരമായി വിന്യസിക്കുന്നതിന് ഉയർന്ന നിലവാരത്തിലേക്ക് മെച്ചപ്പെടുത്തുന്നു. സ്പീച്ച്-ടു-ടെക്സ്റ്റ്, ടെക്സ്റ്റ്-ടു-സ്പീച്ച് എന്നിവയിലുടനീളം ഒന്നിലധികം മോഡലുകൾ ചങ്ങലയിടുന്ന പരമ്പരാഗത പൈപ്പ്‌ലൈനുകളിൽ നിന്ന് വ്യത്യസ്തമായി, റിയൽടൈം API ഒരു മോഡലും API-യും ഉപയോഗിച്ച് നേരിട്ട് ഓഡിയോ പ്രോസസ്സ് ചെയ്യുകയും സൃഷ്ടിക്കുകയും ചെയ്യുന്നു. ഇത് ലേറ്റൻസി കുറയ്ക്കുകയും സംസാരത്തിലെ സൂക്ഷ്മത സംരക്ഷിക്കുകയും കൂടുതൽ സ്വാഭാവികവും ആവിഷ്കാരപരവുമായ പ്രതികരണങ്ങൾ ഉണ്ടാക്കുകയും ചെയ്യുന്നു.

“OpenAI-യുടെ റിയൽടൈം API-യിലെ പുതിയ സ്പീച്ച്-ടു-സ്പീച്ച് മോഡൽ ശക്തമായ യുക്തിയും കൂടുതൽ സ്വാഭാവികമായ സംസാരവും കാണിക്കുന്നു—ഇത് ജീവിതശൈലി ആവശ്യങ്ങൾക്കനുസരിച്ച് ലിസ്റ്റിംഗുകൾ ചുരുക്കുന്നതിനും, ഞങ്ങളുടെ BuyAbility സ്കോർ പോലുള്ള ഉപകരണങ്ങൾ ഉപയോഗിച്ച് വിലക്കുറവിന്റെ ചർച്ചകൾ നയിക്കുന്നതിനും പോലുള്ള സങ്കീർണ്ണവും പല ഘട്ടങ്ങളുള്ളതുമായ അഭ്യർത്ഥനകൾ കൈകാര്യം ചെയ്യാൻ അനുവദിക്കുന്നു. ഇത് Zillow-ൽ ഒരു വീട് തിരയുകയോ ധനസഹായ ഓപ്ഷനുകൾ കണ്ടെത്തുകയോ ഒരു സുഹൃത്തുമായുള്ള സംഭാഷണം പോലെ സ്വാഭാവികമായി തോന്നാൻ സഹായിക്കും, ഇത് വീട് വാങ്ങൽ, വിൽക്കൽ, വാടകയ്‌ക്കെടുക്കൽ തുടങ്ങിയ തീരുമാനങ്ങൾ ലളിതമാക്കുന്നു.

– ജോഷ് വീസ്‌ബർഗ്, Zillow-ലെ AI മേധാവി

gpt-റിയൽടൈം അവതരിപ്പിക്കുന്നു

പുതിയ സ്പീച്ച്-ടു-സ്പീച്ച് മോഡൽ—GPT‑realtime—ഞങ്ങളുടെ ഏറ്റവും നൂതനവും പ്രൊഡക്ഷൻ-റെഡിയുമായ വോയ്‌സ് മോഡലാണ്. ഉപഭോക്തൃ പിന്തുണ, വ്യക്തിഗത സഹായം, വിദ്യാഭ്യാസം തുടങ്ങിയ യഥാർത്ഥ ലോക ടാസ്കുകളിൽ മികവ് പുലർത്തുന്നതിന് ഉപഭോക്താക്കളുമായി അടുത്ത സഹകരണത്തോടെ ഞങ്ങൾ മോഡലിനെ പരിശീലിപ്പിച്ചു - മോഡൽ ഡെവലപ്പർമാർ ശബ്ദ ഏജൻ്റുകൾ എങ്ങനെ നിർമ്മിക്കുകയും വിന്യസിക്കുകയും ചെയ്യുന്നു എന്നതിന് അനുയോജ്യമായി. ഈ മോഡൽ ഓഡിയോ നിലവാരം, ബുദ്ധി, നിർദ്ദേശങ്ങൾ പാലിക്കൽ, ഫംഗ്ഷൻ കോളിംഗ് എന്നിവയിൽ മെച്ചപ്പെടുത്തലുകൾ കാണിക്കുന്നു.

ഓഡിയോ ഗുണനിലവാരം

യഥാർത്ഥ ലോകത്ത് വോയ്‌സ് ഏജൻ്റുകൾ വിന്യസിക്കുന്നതിന് സ്വാഭാവികമായ ശബ്‌ദ സംഭാഷണം നിർണായകമാണ്. ആസ്വാദ്യകരമായ അനുഭവം സൃഷ്ടിക്കുകയും ഉപയോക്താക്കളുമായി തുടർച്ചയായ സംഭാഷണം പ്രോത്സാഹിപ്പിക്കുകയും ചെയ്യാൻ മോഡലുകൾ മനുഷ്യന്റെ സ്വരലഹരി, വികാരം, വേഗത എന്നിവ ഉപയോഗിച്ച് സംസാരിക്കണം. "വേഗത്തിലും പ്രൊഫഷണലായും സംസാരിക്കുക" അല്ലെങ്കിൽ "ഫ്രഞ്ച് ഉച്ചാരണത്തിൽ സഹാനുഭൂതിയോടെ സംസാരിക്കുക" പോലുള്ള സൂക്ഷ്മമായ നിർദ്ദേശങ്ങൾ പാലിക്കാൻ കഴിയുന്നതും കൂടുതൽ സ്വാഭാവികമായി തോന്നുന്നതുമായ ഉയർന്ന നിലവാരമുള്ള സംഭാഷണം നിർമ്മിക്കുന്നതിനാണ് ഞങ്ങൾ gpt-realtime പരിശീലിപ്പിച്ചത്.

API-യിൽ രണ്ട് പുതിയ ശബ്ദങ്ങൾ, മാരിൻ, സീഡാർ എന്നിവ, സ്വാഭാവിക ശബ്ദമുള്ള സംഭാഷണത്തിൽ ഏറ്റവും പ്രധാനപ്പെട്ട മെച്ചപ്പെടുത്തലുകളോടെ ഞങ്ങൾ പുറത്തിറക്കുന്നു. ഈ മെച്ചപ്പെടുത്തലുകളിൽ നിന്ന് പ്രയോജനം നേടുന്നതിനായി ഞങ്ങളുടെ നിലവിലുള്ള എട്ട് ശബ്ദങ്ങളെയും ഞങ്ങൾ അപ്‌ഡേറ്റ് ചെയ്യുന്നു.

വോയ്സ് സാമ്പിൾ - Marin

വോയ്സ് സാമ്പിൾ - Cedar

ബുദ്ധിയും ധാരണയും

gpt-realtime ഉയർന്ന ബുദ്ധിശക്തി കാണിക്കുന്നു, കൂടാതെ കൂടുതൽ കൃത്യതയോടെ നാടൻ ഓഡിയോ മനസ്സിലാക്കാൻ കഴിയും. മോഡലിന് വാക്കേതര സൂചനകൾ (ചിരികൾ പോലുള്ളവ) പകർത്താനും, വാക്യത്തിന്റെ മധ്യത്തിൽ ഭാഷ മാറ്റാനും, സ്വരം ക്രമീകരിക്കാനും കഴിയും (“ചടുലവും പ്രൊഫഷണലും” vs. “ദയയും സഹാനുഭൂതിയും”). ആന്തരിക വിലയിരുത്തലുകൾ അനുസരിച്ച്, മോഡൽ സ്പാനിഷ്, ചൈനീസ്, ജാപ്പനീസ്, ഫ്രഞ്ച് എന്നിവയുൾപ്പെടെ മറ്റ് ഭാഷകളിലെ ആൽഫാന്യൂമെറിക് സീക്വൻസുകൾ (ഫോൺ നമ്പറുകൾ, VIN-കൾ മുതലായവ) കണ്ടെത്തുന്നതിൽ കൂടുതൽ കൃത്യമായ പ്രകടനം കാഴ്ചവെക്കുന്നു. ബിഗ് ബെഞ്ച് ഓഡിയോ മൂല്യനിർണ്ണയത്തിൽ യുക്തിപരമായ കഴിവുകൾ അളക്കുന്നതിൽ, GPT‑realtime 82.8% കൃത്യത നേടുന്നു - 2024 ഡിസംബറിലെ 65.6% സ്കോർ നേടിയ ഞങ്ങളുടെ മുൻ മോഡലിനെ മറികടക്കുന്നു.

ബിഗ് ബെഞ്ച് ഓഡിയോ⁠(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) ബെഞ്ച്മാർക്ക് ഓഡിയോ ഇൻപുട്ടിനെ പിന്തുണയ്ക്കുന്ന ഭാഷാ മോഡലുകളുടെ യുക്തിസഹമായ കഴിവുകൾ വിലയിരുത്തുന്നതിനുള്ള ഒരു മൂല്യനിർണ്ണയ ഡാറ്റാസെറ്റാണ്. വിപുലമായ യുക്തിയുടെ കർശനമായ പരിശോധനയ്ക്കായി തിരഞ്ഞെടുത്ത ബിഗ് ബെഞ്ച് ഹാർഡിൽ നിന്നുള്ള ചോദ്യങ്ങളെ ഈ ഡാറ്റാസെറ്റ് ഓഡിയോ ഡൊമെയ്‌നിലേക്ക് പൊരുത്തപ്പെടുത്തുന്നു.

നിർദ്ദേശം പിന്തുടരൽ

ഒരു സ്പീച്ച്-ടു-സ്പീച്ച് ആപ്ലിക്കേഷൻ നിർമ്മിക്കുമ്പോൾ, എങ്ങനെ സംസാരിക്കണം, ഒരു പ്രത്യേക സാഹചര്യത്തിൽ എന്ത് പറയണം, എന്ത് ചെയ്യണം അല്ലെങ്കിൽ ചെയ്യരുത് എന്നിവയുൾപ്പെടെ എങ്ങനെ പെരുമാറണം എന്നതിനെക്കുറിച്ച് ഡെവലപ്പർമാർ മോഡലിന് നിർദ്ദേശങ്ങൾ നൽകുന്നു. ഈ നിർദ്ദേശങ്ങൾ പാലിക്കുന്നതിൽ ഞങ്ങൾ ഞങ്ങളുടെ മെച്ചപ്പെടുത്തലുകളിൽ ശ്രദ്ധ കേന്ദ്രീകരിച്ചു, അതിനാൽ ചെറിയ നിർദ്ദേശങ്ങൾ പോലും മോഡലിന് കൂടുതൽ സിഗ്നൽ നൽകുന്നു. മൾട്ടിചലഞ്ച് ഓഡിയോ ബെഞ്ച്മാർക്കിൽ നിർദ്ദേശങ്ങൾ പാലിക്കുന്നതിന്റെ കൃത്യത അളക്കുമ്പോൾ, GPT‑realtime 30.5% സ്കോർ ചെയ്യുന്നു, 2024 ഡിസംബറിൽ 20.6% സ്കോർ ചെയ്ത ഞങ്ങളുടെ മുൻ മോഡലിനെക്കാൾ ഇത് ഗണ്യമായ പുരോഗതിയാണ്.

മനുഷ്യരുമായുള്ള മൾട്ടി-ടേൺ സംഭാഷണങ്ങൾ എൽഎൽഎമ്മുകൾ എത്രത്തോളം നന്നായി കൈകാര്യം ചെയ്യുന്നുവെന്ന് മൾട്ടിചലഞ്ച്⁠(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) വിലയിരുത്തുന്നു. നിലവിലെ അതിർത്തി മോഡലുകൾ നേരിടുന്ന നാല് തരം യാഥാർത്ഥ്യപരമായ വെല്ലുവിളികളിൽ ഇത് ശ്രദ്ധ കേന്ദ്രീകരിക്കുന്നു. ഈ വെല്ലുവിളികൾക്ക് നിർദ്ദേശങ്ങൾ പിന്തുടരൽ, സന്ദർഭം മാനേജ്മെന്റ്, ഇൻ-സന്ദർഭ reasoning എന്നിവ ഒരേസമയം സംയോജിപ്പിക്കാൻ മോഡലുകൾ ആവശ്യമാണ്. ഈ വിലയിരുത്തലിന്റെ ഒരു ഓഡിയോ പതിപ്പ് സൃഷ്ടിക്കുന്നതിന്, ഞങ്ങൾ ടെസ്റ്റ് ചോദ്യങ്ങളുടെ ഓഡിയോ-സൗഹൃദ ഉപസെറ്റ് ടെക്സ്റ്റ്-ടു-സ്പീച്ചിൽ നിന്ന് പരിവർത്തനം ചെയ്തു.

ഫംഗ്ഷൻ കോളിംഗ്

സ്പീച്ച്-ടു-സ്പീച്ച് മോഡലുള്ള ഒരു കഴിവുള്ള വോയ്‌സ് ഏജൻ്റിനെ നിർമ്മിക്കാൻ, ഉൽ‌പാദനത്തിൽ പ്രയോജനപ്രദമാകാൻ മോഡലിന് ശരിയായ സമയത്ത് ശരിയായ ഉപകരണങ്ങൾ ഉപയോഗിക്കാൻ കഴിയണം. ഞങ്ങൾ മൂന്ന് അക്ഷങ്ങളിൽ ഫംഗ്ഷൻ കോളിംഗ് മെച്ചപ്പെടുത്തി: പ്രസക്തമായ ഫംഗ്ഷനുകൾ വിളിക്കൽ, ഉചിതമായ സമയത്ത് ഫംഗ്ഷനുകൾ വിളിക്കൽ, ഉചിതമായ ആർഗ്യുമെന്റുകൾ ഉപയോഗിച്ച് ഫംഗ്ഷനുകൾ വിളിക്കൽ (ഉയർന്ന കൃത്യത നേടുന്നു). ComplexFuncBench ഓഡിയോ ഇവാലുവേഷൻ ഫംഗ്ഷൻ കോളിംഗ് പ്രകടനം അളക്കുമ്പോൾ, gpt-realtime 66.5% സ്കോർ ചെയ്യുന്നു, അതേസമയം 2024 ഡിസംബറിലെ ഞങ്ങളുടെ മുൻ മോഡൽ 49.7% സ്കോർ ചെയ്യുന്നു.

അസിങ്ക്രോണസ് ഫംഗ്ഷൻ കോളിംഗിലും⁠(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) ഞങ്ങൾ മെച്ചപ്പെടുത്തലുകൾ വരുത്തിയിട്ടുണ്ട്. ദീർഘകാല ഫംഗ്ഷൻ കോളുകൾ ഇനി ഒരു സെഷന്റെ ഒഴുക്കിനെ തടസ്സപ്പെടുത്തില്ല - ഫലങ്ങൾക്കായി കാത്തിരിക്കുമ്പോൾ മോഡൽ ഒരു സുതാര്യമായ സംഭാഷണം തുടരാൻ കഴിയും. ഈ സവിശേഷത GPT‑realtime ൽ സ്വാഭാവികമായി ലഭ്യമാണ്, അതിനാൽ ഡെവലപ്പർമാർ അവരുടെ കോഡ് അപ്ഡേറ്റ് ചെയ്യേണ്ടതില്ല.

വെല്ലുവിളി നിറഞ്ഞ ഫംഗ്ഷൻ കോളിംഗ് ടാസ്കുകൾ മോഡലുകൾ എത്രത്തോളം നന്നായി കൈകാര്യം ചെയ്യുന്നുവെന്ന് ComplexFuncBench⁠(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) അളക്കുന്നു. ഇത് മൾട്ടി-സ്റ്റെപ്പ് കോളുകൾ, പരിമിതികൾ അല്ലെങ്കിൽ പരോക്ഷമായ പാരാമീറ്ററുകൾ സംബന്ധിച്ച ന്യായവാദം, വളരെ നീണ്ട ഇൻപുട്ടുകൾ കൈകാര്യം ചെയ്യൽ പോലുള്ള സാഹചര്യങ്ങളിൽ പ്രകടനം വിലയിരുത്തുന്നു. ഞങ്ങളുടെ മോഡലിനായി ഈ മൂല്യനിർണ്ണയം നിർമ്മിക്കുന്നതിന്, ഞങ്ങൾ യഥാർത്ഥ ടെക്സ്റ്റ് പ്രോംപ്റ്റുകളെ ശബ്ദത്തിലേക്ക് പരിവർത്തനം ചെയ്തു.

റിയൽടൈം API-യിൽ പുതിയത്

വിദൂര MCP സെർവർ പിന്തുണ

സെഷൻ കോൺഫിഗറേഷനിലേക്ക് ഒരു റിമോട്ട് MCP സെർവറിന്റെ URL പാസ് ചെയ്തുകൊണ്ട് ഒരു തത്സമയ API സെഷനിൽ നിങ്ങൾക്ക് MCP പിന്തുണ പ്രവർത്തന സജ്ജമാക്കാൻ കഴിയും. കണക്റ്റ് ചെയ്‌തുകഴിഞ്ഞാൽ, API നിങ്ങള്ക്ക് വേണ്ടി ടൂൾ കോളുകൾ സ്വയമേവ കൈകാര്യം ചെയ്യുന്നു, അതിനാൽ ഇന്റഗ്രേഷനുകൾ കൈമാറേണ്ട ആവശ്യമില്ല.

ഈ സജ്ജീകരണം നിങ്ങളുടെ ഏജൻ്റിനെ പുതിയ കഴിവുകൾ ഉപയോഗിച്ച് വികസിപ്പിക്കുന്നത് എളുപ്പമാക്കുന്നു—സെഷനെ മറ്റൊരു MCP സെർവറിലേക്ക് ചൂണ്ടുക, ആ ഉപകരണങ്ങൾ ഉടൻ ലഭ്യമാകും. റിയൽടൈം ഉപയോഗിച്ച് MCP കോൺഫിഗർ ചെയ്യുന്നതിനെക്കുറിച്ച് കൂടുതലറിയാൻ, ഈ ഗൈഡ്⁠(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) പരിശോധിക്കുക.

JavaScript

1// POST /v1/realtime/client_secrets
2{
3  "session": {
4    "type": "realtime",
5    "tools": [
6      {
7        "type": "mcp",
8        "server_label": "stripe",
9        "server_url": "https://mcp.stripe.com",
10        "authorization": "{access_token}",
11        "require_approval": "never"
12      }
13    ]
14  }
15}
16

ചിത്ര ഇൻപുട്ട്

GPT‑realtime ൽ ഇപ്പോൾ ചിത്ര ഇൻപുട്ടുകൾക്ക് പിന്തുണ ലഭ്യമാണ്, അതിനാൽ നിങ്ങൾക്ക് ഒരു Realtime API സെഷനിലേക്ക് ഓഡിയോ അല്ലെങ്കിൽ ടെക്സ്റ്റിനൊപ്പം ചിത്രങ്ങൾ, ഫോട്ടോകൾ, സ്ക്രീൻഷോട്ടുകൾ എന്നിവ ചേർക്കാൻ കഴിയും. ഇപ്പോൾ മോഡൽ ഉപയോക്താവ് യഥാർത്ഥത്തിൽ എന്താണ് കാണുന്നത് എന്നതിൽ സംഭാഷണം അടിസ്ഥാനമാക്കാൻ കഴിയും, ഇത് ഉപയോക്താക്കളെ "നിങ്ങൾ എന്താണ് കാണുന്നത്?" അല്ലെങ്കിൽ "ഈ സ്ക്രീൻഷോട്ടിലെ വാചകം വായിക്കുക" എന്നതുപോലുള്ള ചോദ്യങ്ങൾ ചോദിക്കാൻ പ്രാപ്തമാക്കുന്നു.

ഒരു ചിത്രത്തെ തത്സമയ വീഡിയോ സ്ട്രീം പോലെ പരിഗണിക്കുന്നതിനുപകരം, സിസ്റ്റം അത് സംഭാഷണത്തിൽ ഒരു ചിത്രം ചേർക്കുന്നതുപോലെ കാണുന്നു. നിങ്ങളുടെ ആപ്പ് ഏത് ചിത്രങ്ങൾ മോഡലുമായി പങ്കിടണമെന്ന്, എപ്പോൾ പങ്കിടണമെന്ന് തീരുമാനിക്കാം. ഈ രീതിയിൽ, മോഡൽ എന്ത് കാണുന്നുവെന്നും എപ്പോൾ പ്രതികരിക്കുന്നുവെന്നും നിങ്ങൾ നിയന്ത്രണത്തിൽ തുടരാൻ കഴിയും.

ചിത്ര ഇൻപുട്ട് ആരംഭിക്കാൻ ഞങ്ങളുടെ ഡോക്സ്⁠(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) പരിശോധിക്കുക.

JavaScript

1{
2    "type": "conversation.item.create",
3    "previous_item_id": null,
4    "item": {
5        "type": "message",
6        "role": "user",
7        "content": [
8            {
9                "type": "input_image",
10                "image_url": "data:image/{format(example: png)};base64,{some_base64_image_bytes}"
11            }
12        ]
13    }
14}
15

അധിക ശേഷികൾ

റിയൽടൈം API സംയോജിപ്പിക്കൽ എളുപ്പമാക്കാനും ഉൽപ്പാദന ഉപയോഗത്തിന് കൂടുതൽ വഴക്കമുള്ളതാക്കാനും ഞങ്ങൾ നിരവധി മറ്റ് സവിശേഷതകൾ ചേർത്തിട്ടുണ്ട്.

സെഷൻ ഇനീഷ്യേഷൻ പ്രോട്ടോക്കോൾ (SIP) പിന്തുണ: റിയൽടൈം API-യിലെ നേരിട്ടുള്ള പിന്തുണയോടെ നിങ്ങളുടെ ആപ്പുകളെ പൊതു ഫോൺ നെറ്റ്‌വർക്ക്, PBX സിസ്റ്റങ്ങൾ, ഡെസ്ക് ഫോണുകൾ, മറ്റ് SIP എൻഡ്പോയിന്റുകൾ എന്നിവയുമായി ബന്ധിപ്പിക്കുക. ഡോക്യുമെന്റേഷനിൽ ഇതിനെക്കുറിച്ച് വായിക്കുക.⁠(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു)
പുനരുപയോഗിക്കാവുന്ന പ്രോംപ്റ്റുകൾ: ഇപ്പോൾ നിങ്ങൾക്ക് ഡെവലപ്പർ സന്ദേശങ്ങൾ, ഉപകരണങ്ങൾ, വേരിയബിളുകൾ, ഉദാഹരണ ഉപയോക്താക്കൾ/അസിസ്റ്റന്റ് സന്ദേശങ്ങൾ എന്നിവ ഉൾക്കൊള്ളുന്ന പ്രോംപ്റ്റുകൾ സംരക്ഷിക്കുകയും, പ്രതികരണങ്ങൾ API പോലെ തത്സമയ API സെഷനുകളിലുടനീളം പുനരുപയോഗിക്കുകയും ചെയ്യാം. ഡോക്യുമെന്റുകളിൽ കൂടുതൽ അറിയുക.⁠(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു)

സുരക്ഷയും സ്വകാര്യതയും

ദുരുപയോഗം തടയാൻ സഹായിക്കുന്നതിന് Realtime API പലതരം സുരക്ഷാ സംവിധാനങ്ങളും ലഘൂകരണങ്ങളും ഉൾക്കൊള്ളുന്നു. നിങ്ങൾക്ക് ഞങ്ങളുടെ സുരക്ഷാ സമീപനത്തെയും സിസ്റ്റം കാർഡ് വിശദാംശങ്ങളെയും കുറിച്ച് ബീറ്റാ അനൗൺസ്‌മെന്റ് ബ്ലോഗിൽ⁠ കൂടുതൽ അറിയാൻ കഴിയും. ഞങ്ങൾ തത്സമയ API സെഷനുകളിൽ സജീവ ക്ലാസിഫയറുകൾ ഉപയോഗിക്കുന്നു, അതായത് ചില സംഭാഷണങ്ങൾ ഞങ്ങളുടെ ദോഷകരമായ ഉള്ളടക്ക മാർഗ്ഗനിർദ്ദേശങ്ങൾ ലംഘിക്കുന്നതായി കണ്ടെത്തിയാൽ അവ നിർത്തപ്പെടും. ഏജൻ്റുകൾ SDK⁠(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) ഉപയോഗിച്ച് ഡെവലപ്പർമാർക്ക് അവരുടെ സ്വന്തം അധിക സുരക്ഷാ ഗാർഡ്‌റെയിലുകൾ എളുപ്പത്തിൽ ചേർക്കാൻ കഴിയും.

ഞങ്ങളുടെ ഉപയോഗ നയങ്ങൾ⁠ സ്പാം, വഞ്ചന, അല്ലെങ്കിൽ മറ്റ് ദോഷകരമായ ആവശ്യങ്ങൾക്കായി ഞങ്ങളുടെ സേവനങ്ങളിൽ നിന്നുള്ള ഔട്ട്പുട്ടുകൾ പുനർനിർമ്മിക്കുകയോ വിതരണം ചെയ്യുകയോ ചെയ്യുന്നത് വിലക്കുന്നു. ഡെവലപ്പർമാർ AI യുമായി സംവദിക്കുമ്പോൾ ഉപയോക്താക്കൾക്ക് ഇത് വ്യക്തമാക്കണം, അത് ഇതിനകം തന്നെ സന്ദർഭത്തിൽ നിന്ന് വ്യക്തമായില്ലെങ്കിൽ. ദുഷ്ട പ്രവർത്തകർ മറ്റുള്ളവരായി നടിക്കുന്നതിൽ നിന്ന് തടയാൻ റിയൽടൈം API പ്രീസെറ്റ് ശബ്ദങ്ങൾ ഉപയോഗിക്കുന്നു.

റിയൽടൈം എപിഐ യൂറോപ്യൻ യൂണിയൻ അധിഷ്ഠിത ആപ്ലിക്കേഷനുകൾക്കായുള്ള യൂറോപ്യൻ യൂണിയൻ ഡാറ്റ റെസിഡ⁠(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) ൻസിയെ പൂർണ്ണമായും പിന്തുണയ്ക്കുന്നു, കൂടാതെ ഞങ്ങളുടെ എന്റ ർപ്രൈസ്⁠ സ്വകാര്യതാ പ്രതിബദ്ധതകൾ കവർ ചെയ്യുന്നു.

വിലയും ലഭ്യതയും

സാധാരണയായി ലഭ്യമായ റിയൽടൈം API യും പുതിയ GPT‑realtime മോഡലും ഇന്ന് മുതൽ എല്ലാ ഡെവലപ്പർമാർക്കും ലഭ്യമാണ്. ഞങ്ങൾ gpt-realtime ന്റെ വില gpt-4o-realtime-preview ന്റെ വിലയുമായി താരതമ്യപ്പെടുത്തുമ്പോൾ 20% കുറയ്ക്കുന്നു—$ 32 / 1M ഓഡിയോ ഇൻപുട്ട് ടോക്കൺ ($ 0.40 കാഷെയിലുള്ള ഇൻപുട്ട് ടോക്കൺ) കൂടാതെ $ 64 / 1M ഓഡിയോ ഔട്ട്പുട്ട് ടോക്കൺ (വിശദമായ വില കാണുക⁠(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു)). ഡെവലപ്പർമാർക്ക് ബുദ്ധിയുള്ള token പരിധികൾ സജ്ജമാക്കാനും ഒരേസമയം ഒന്നിലധികം ടേൺ വെട്ടിക്കുറയ്ക്കാനും അനുവദിക്കുന്നതിന് സംഭാഷണത്തിന്റെ സന്ദർഭത്തിനായി ഞങ്ങൾ സൂക്ഷ്മമായ നിയന്ത്രണം ചേർത്തു, ഇത് നീണ്ട സെഷനുകളുടെ ചെലവ് ഗണ്യമായി കുറയ്ക്കുന്നു.

ആരംഭിക്കുന്നതിന്, ഞങ്ങളുടെ റിയൽടൈം API ഡോക്യുമെന്റേഷൻ⁠(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) സന്ദർശിക്കുക, Playground⁠(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) പുതിയ മോഡൽ പരീക്ഷിക്കുക, കൂടാതെ ഞങ്ങളുടെ റിയൽടൈം API പ്രോംപ്റ്റിംഗ് ഗൈഡ്⁠(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) കാണുക.

ലൈവ്സ്ട്രീം റീപ്ലേ

2025

രചയിതാവ്

OpenAI

വായന തുടരുക

എല്ലാം കാണുക

GPT-5.6 is now the preferred model in Microsoft 365 Copilot > Cover image

Microsoft 365 Copilot-ൽ ഇപ്പോൾ മുൻഗണന നൽകുന്ന മോഡൽ GPT-5.6 ആണ്

Product2026 ജൂലൈ 9

GPT-5.6: നിങ്ങളുടെ അഭിലാഷം അനുസരിച്ച് വളരുന്ന അത്യാധുനിക ഇൻ്റലിജൻസ്

Product2026 ജൂലൈ 9

നിങ്ങളുടെ ഏറ്റവും വലിയ ലക്ഷ്യങ്ങൾ കൈവരിക്കാനുള്ള ജോലികളിൽ ഇനി ChatGPT-യും ഒരു പങ്കാളിയാണ്

Product2026 ജൂലൈ 9