
വിശ്വസനീയവും ഉൽപാദനത്തിന് തയ്യാറായതുമായ വോയ്സ് ഏജൻ്റുകൾ നിർമ്മിക്കാൻ ഡെവലപ്പർമാരെയും സംരംഭങ്ങളെയും പ്രവർത്തന സജ്ജമാക്കുന്ന പുതിയ സവിശേഷതകളുമായി ഇന്ന് ഞങ്ങൾ റിയൽടൈം API സാധാരണയായി ലഭ്യമാക്കുന്നു. API ഇപ്പോൾ സെഷൻ ഇനീഷ്യേഷൻ പ്രോട്ടോക്കോൾ (SIP) വഴി വിദൂര MCP സെർവറുകൾ, ചിത്ര ഇൻപുട്ടുകൾ, ഫോൺ കോളിംഗ് എന്നിവയെ പിന്തുണയ്ക്കുന്നു, അധിക ഉപകരണങ്ങളിലേക്കും സന്ദർഭത്തിലേക്കും ആക്സസ് ചെയ്യുന്നതിലൂടെ വോയ്സ് ഏജൻ്റുമാരെ കൂടുതൽ പ്രാപ്തമാക്കുന്നു.
ഞങ്ങളുടെ ഇതുവരെയുള്ളതിൽ വച്ച് ഏറ്റവും നൂതനമായ സ്പീച്ച്-ടു-സ്പീച്ച് മോഡലും ഞങ്ങൾ പുറത്തിറക്കുന്നുGPT‑realtime. സങ്കീർണ്ണമായ നിർദ്ദേശങ്ങൾ പാലിക്കുന്നതിലും, കൃത്യതയോടെ ഉപകരണങ്ങൾ വിളിക്കുന്നതിലും, കൂടുതൽ സ്വാഭാവികവും പ്രകടമായി തോന്നുന്നതുമായ സംഭാഷണം സൃഷ്ടിക്കുന്നതിലും പുതിയ മോഡൽ മെച്ചപ്പെടുത്തലുകൾ കാണിക്കുന്നു. സിസ്റ്റം സന്ദേശങ്ങളും ഡെവലപ്പർ പ്രോംപ്റ്റുകളും വ്യാഖ്യാനിക്കുന്നതിൽ ഇത് മികച്ചതാണ് - അത് ഒരു പിന്തുണാ കോളിൽ നിരാകരണ സ്ക്രിപ്റ്റുകൾ വാക്കു വാക്കായി വായിക്കുക, ആൽഫാന്യൂമെറിക്സ് പിന്നിലേക്ക് ആവർത്തിക്കുക, അല്ലെങ്കിൽ വാചകത്തിന്റെ മധ്യത്തിൽ ഭാഷകൾക്കിടയിൽ തടസ്സമില്ലാതെ മാറുക. ഇന്ന് മുതൽ റിയൽടൈം API-യിൽ മാത്രമായി ലഭ്യമായ സീഡാർ, മാരിൻ എന്നീ രണ്ട് പുതിയ ശബ്ദങ്ങൾ ഞങ്ങൾ പുറത്തിറക്കുന്നു.
കഴിഞ്ഞ ഒക്ടോബറിൽ ഞങ്ങൾ ആദ്യമായി റിയൽടൈം API പബ്ലിക് ബീറ്റയിൽ അവതരിപ്പിച്ചതുമുതൽ, ആയിരക്കണക്കിന് ഡെവലപ്പർമാർ API ഉപയോഗിച്ച് നിർമ്മിക്കുകയും ഇന്ന് ഞങ്ങൾ പുറത്തിറക്കുന്ന മെച്ചപ്പെടുത്തലുകൾ രൂപപ്പെടുത്താൻ സഹായിക്കുകയും ചെയ്തു - വിശ്വാസ്യത, കുറഞ്ഞ ലേറ്റൻസി, ഉൽപാദനത്തിൽ വോയ്സ് ഏജൻ്റുകൾ വിജയകരമായി വിന്യസിക്കുന്നതിന് ഉയർന്ന നിലവാരത്തിലേക്ക് മെച്ചപ്പെടുത്തുന്നു. സ്പീച്ച്-ടു-ടെക്സ്റ്റ്, ടെക്സ്റ്റ്-ടു-സ്പീച്ച് എന്നിവയിലുടനീളം ഒന്നിലധികം മോഡലുകൾ ചങ്ങലയിടുന്ന പരമ്പരാഗത പൈപ്പ്ലൈനുകളിൽ നിന്ന് വ്യത്യസ്തമായി, റിയൽടൈം API ഒരു മോഡലും API-യും ഉപയോഗിച്ച് നേരിട്ട് ഓഡിയോ പ്രോസസ്സ് ചെയ്യുകയും സൃഷ്ടിക്കുകയും ചെയ്യുന്നു. ഇത് ലേറ്റൻസി കുറയ്ക്കുകയും സംസാരത്തിലെ സൂക്ഷ്മത സംരക്ഷിക്കുകയും കൂടുതൽ സ്വാഭാവികവും ആവിഷ്കാരപരവുമായ പ്രതികരണങ്ങൾ ഉണ്ടാക്കുകയും ചെയ്യുന്നു.
“OpenAI-യുടെ റിയൽടൈം API-യിലെ പുതിയ സ്പീച്ച്-ടു-സ്പീച്ച് മോഡൽ ശക്തമായ യുക്തിയും കൂടുതൽ സ്വാഭാവികമായ സംസാരവും കാണിക്കുന്നു—ഇത് ജീവിതശൈലി ആവശ്യങ്ങൾക്കനുസരിച്ച് ലിസ്റ്റിംഗുകൾ ചുരുക്കുന്നതിനും, ഞങ്ങളുടെ BuyAbility സ്കോർ പോലുള്ള ഉപകരണങ്ങൾ ഉപയോഗിച്ച് വിലക്കുറവിന്റെ ചർച്ചകൾ നയിക്കുന്നതിനും പോലുള്ള സങ്കീർണ്ണവും പല ഘട്ടങ്ങളുള്ളതുമായ അഭ്യർത്ഥനകൾ കൈകാര്യം ചെയ്യാൻ അനുവദിക്കുന്നു. ഇത് Zillow-ൽ ഒരു വീട് തിരയുകയോ ധനസഹായ ഓപ്ഷനുകൾ കണ്ടെത്തുകയോ ഒരു സുഹൃത്തുമായുള്ള സംഭാഷണം പോലെ സ്വാഭാവികമായി തോന്നാൻ സഹായിക്കും, ഇത് വീട് വാങ്ങൽ, വിൽക്കൽ, വാടകയ്ക്കെടുക്കൽ തുടങ്ങിയ തീരുമാനങ്ങൾ ലളിതമാക്കുന്നു.
– ജോഷ് വീസ്ബർഗ്, Zillow-ലെ AI മേധാവി
പുതിയ സ്പീച്ച്-ടു-സ്പീച്ച് മോഡൽ—GPT‑realtime—ഞങ്ങളുടെ ഏറ്റവും നൂതനവും പ്രൊഡക്ഷൻ-റെഡിയുമായ വോയ്സ് മോഡലാണ്. ഉപഭോക്തൃ പിന്തുണ, വ്യക്തിഗത സഹായം, വിദ്യാഭ്യാസം തുടങ്ങിയ യഥാർത്ഥ ലോക ടാസ്കുകളിൽ മികവ് പുലർത്തുന്നതിന് ഉപഭോക്താക്കളുമായി അടുത്ത സഹകരണത്തോടെ ഞങ്ങൾ മോഡലിനെ പരിശീലിപ്പിച്ചു - മോഡൽ ഡെവലപ്പർമാർ ശബ്ദ ഏജൻ്റുകൾ എങ്ങനെ നിർമ്മിക്കുകയും വിന്യസിക്കുകയും ചെയ്യുന്നു എന്നതിന് അനുയോജ്യമായി. ഈ മോഡൽ ഓഡിയോ നിലവാരം, ബുദ്ധി, നിർദ്ദേശങ്ങൾ പാലിക്കൽ, ഫംഗ്ഷൻ കോളിംഗ് എന്നിവയിൽ മെച്ചപ്പെടുത്തലുകൾ കാണിക്കുന്നു.
യഥാർത്ഥ ലോകത്ത് വോയ്സ് ഏജൻ്റുകൾ വിന്യസിക്കുന്നതിന് സ്വാഭാവികമായ ശബ്ദ സംഭാഷണം നിർണായകമാണ്. ആസ്വാദ്യകരമായ അനുഭവം സൃഷ്ടിക്കുകയും ഉപയോക്താക്കളുമായി തുടർച്ചയായ സംഭാഷണം പ്രോത്സാഹിപ്പിക്കുകയും ചെയ്യാൻ മോഡലുകൾ മനുഷ്യന്റെ സ്വരലഹരി, വികാരം, വേഗത എന്നിവ ഉപയോഗിച്ച് സംസാരിക്കണം. "വേഗത്തിലും പ്രൊഫഷണലായും സംസാരിക്കുക" അല്ലെങ്കിൽ "ഫ്രഞ്ച് ഉച്ചാരണത്തിൽ സഹാനുഭൂതിയോടെ സംസാരിക്കുക" പോലുള്ള സൂക്ഷ്മമായ നിർദ്ദേശങ്ങൾ പാലിക്കാൻ കഴിയുന്നതും കൂടുതൽ സ്വാഭാവികമായി തോന്നുന്നതുമായ ഉയർന്ന നിലവാരമുള്ള സംഭാഷണം നിർമ്മിക്കുന്നതിനാണ് ഞങ്ങൾ gpt-realtime പരിശീലിപ്പിച്ചത്.
API-യിൽ രണ്ട് പുതിയ ശബ്ദങ്ങൾ, മാരിൻ, സീഡാർ എന്നിവ, സ്വാഭാവിക ശബ്ദമുള്ള സംഭാഷണത്തിൽ ഏറ്റവും പ്രധാനപ്പെട്ട മെച്ചപ്പെടുത്തലുകളോടെ ഞങ്ങൾ പുറത്തിറക്കുന്നു. ഈ മെച്ചപ്പെടുത്തലുകളിൽ നിന്ന് പ്രയോജനം നേടുന്നതിനായി ഞങ്ങളുടെ നിലവിലുള്ള എട്ട് ശബ്ദങ്ങളെയും ഞങ്ങൾ അപ്ഡേറ്റ് ചെയ്യുന്നു.
gpt-realtime ഉയർന്ന ബുദ്ധിശക്തി കാണിക്കുന്നു, കൂടാതെ കൂടുതൽ കൃത്യതയോടെ നാടൻ ഓഡിയോ മനസ്സിലാക്കാൻ കഴിയും. മോഡലിന് വാക്കേതര സൂചനകൾ (ചിരികൾ പോലുള്ളവ) പകർത്താനും, വാക്യത്തിന്റെ മധ്യത്തിൽ ഭാഷ മാറ്റാനും, സ്വരം ക്രമീകരിക്കാനും കഴിയും (“ചടുലവും പ്രൊഫഷണലും” vs. “ദയയും സഹാനുഭൂതിയും”). ആന്തരിക വിലയിരുത്തലുകൾ അനുസരിച്ച്, മോഡൽ സ്പാനിഷ്, ചൈനീസ്, ജാപ്പനീസ്, ഫ്രഞ്ച് എന്നിവയുൾപ്പെടെ മറ്റ് ഭാഷകളിലെ ആൽഫാന്യൂമെറിക് സീക്വൻസുകൾ (ഫോൺ നമ്പറുകൾ, VIN-കൾ മുതലായവ) കണ്ടെത്തുന്നതിൽ കൂടുതൽ കൃത്യമായ പ്രകടനം കാഴ്ചവെക്കുന്നു. ബിഗ് ബെഞ്ച് ഓഡിയോ മൂല്യനിർണ്ണയത്തിൽ യുക്തിപരമായ കഴിവുകൾ അളക്കുന്നതിൽ, GPT‑realtime 82.8% കൃത്യത നേടുന്നു - 2024 ഡിസംബറിലെ 65.6% സ്കോർ നേടിയ ഞങ്ങളുടെ മുൻ മോഡലിനെ മറികടക്കുന്നു.
ബിഗ് ബെഞ്ച് ഓഡിയോ(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) ബെഞ്ച്മാർക്ക് ഓഡിയോ ഇൻപുട്ടിനെ പിന്തുണയ്ക്കുന്ന ഭാഷാ മോഡലുകളുടെ യുക്തിസഹമായ കഴിവുകൾ വിലയിരുത്തുന്നതിനുള്ള ഒരു മൂല്യനിർണ്ണയ ഡാറ്റാസെറ്റാണ്. വിപുലമായ യുക്തിയുടെ കർശനമായ പരിശോധനയ്ക്കായി തിരഞ്ഞെടുത്ത ബിഗ് ബെഞ്ച് ഹാർഡിൽ നിന്നുള്ള ചോദ്യങ്ങളെ ഈ ഡാറ്റാസെറ്റ് ഓഡിയോ ഡൊമെയ്നിലേക്ക് പൊരുത്തപ്പെടുത്തുന്നു.
ഒരു സ്പീച്ച്-ടു-സ്പീച്ച് ആപ്ലിക്കേഷൻ നിർമ്മിക്കുമ്പോൾ, എങ്ങനെ സംസാരിക്കണം, ഒരു പ്രത്യേക സാഹചര്യത്തിൽ എന്ത് പറയണം, എന്ത് ചെയ്യണം അല്ലെങ്കിൽ ചെയ്യരുത് എന്നിവയുൾപ്പെടെ എങ്ങനെ പെരുമാറണം എന്നതിനെക്കുറിച്ച് ഡെവലപ്പർമാർ മോഡലിന് നിർദ്ദേശങ്ങൾ നൽകുന്നു. ഈ നിർദ്ദേശങ്ങൾ പാലിക്കുന്നതിൽ ഞങ്ങൾ ഞങ്ങളുടെ മെച്ചപ്പെടുത്തലുകളിൽ ശ്രദ്ധ കേന്ദ്രീകരിച്ചു, അതിനാൽ ചെറിയ നിർദ്ദേശങ്ങൾ പോലും മോഡലിന് കൂടുതൽ സിഗ്നൽ നൽകുന്നു. മൾട്ടിചലഞ്ച് ഓഡിയോ ബെഞ്ച്മാർക്കിൽ നിർദ്ദേശങ്ങൾ പാലിക്കുന്നതിന്റെ കൃത്യത അളക്കുമ്പോൾ, GPT‑realtime 30.5% സ്കോർ ചെയ്യുന്നു, 2024 ഡിസംബറിൽ 20.6% സ്കോർ ചെയ്ത ഞങ്ങളുടെ മുൻ മോഡലിനെക്കാൾ ഇത് ഗണ്യമായ പുരോഗതിയാണ്.
മനുഷ്യരുമായുള്ള മൾട്ടി-ടേൺ സംഭാഷണങ്ങൾ എൽഎൽഎമ്മുകൾ എത്രത്തോളം നന്നായി കൈകാര്യം ചെയ്യുന്നുവെന്ന് മൾട്ടിചലഞ്ച്(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) വിലയിരുത്തുന്നു. നിലവിലെ അതിർത്തി മോഡലുകൾ നേരിടുന്ന നാല് തരം യാഥാർത്ഥ്യപരമായ വെല്ലുവിളികളിൽ ഇത് ശ്രദ്ധ കേന്ദ്രീകരിക്കുന്നു. ഈ വെല്ലുവിളികൾക്ക് നിർദ്ദേശങ്ങൾ പിന്തുടരൽ, സന്ദർഭം മാനേജ്മെന്റ്, ഇൻ-സന്ദർഭ reasoning എന്നിവ ഒരേസമയം സംയോജിപ്പിക്കാൻ മോഡലുകൾ ആവശ്യമാണ്. ഈ വിലയിരുത്തലിന്റെ ഒരു ഓഡിയോ പതിപ്പ് സൃഷ്ടിക്കുന്നതിന്, ഞങ്ങൾ ടെസ്റ്റ് ചോദ്യങ്ങളുടെ ഓഡിയോ-സൗഹൃദ ഉപസെറ്റ് ടെക്സ്റ്റ്-ടു-സ്പീച്ചിൽ നിന്ന് പരിവർത്തനം ചെയ്തു.
സ്പീച്ച്-ടു-സ്പീച്ച് മോഡലുള്ള ഒരു കഴിവുള്ള വോയ്സ് ഏജൻ്റിനെ നിർമ്മിക്കാൻ, ഉൽപാദനത്തിൽ പ്രയോജനപ്രദമാകാൻ മോഡലിന് ശരിയായ സമയത്ത് ശരിയായ ഉപകരണങ്ങൾ ഉപയോഗിക്കാൻ കഴിയണം. ഞങ്ങൾ മൂന്ന് അക്ഷങ്ങളിൽ ഫംഗ്ഷൻ കോളിംഗ് മെച്ചപ്പെടുത്തി: പ്രസക്തമായ ഫംഗ്ഷനുകൾ വിളിക്കൽ, ഉചിതമായ സമയത്ത് ഫംഗ്ഷനുകൾ വിളിക്കൽ, ഉചിതമായ ആർഗ്യുമെന്റുകൾ ഉപയോഗിച്ച് ഫംഗ്ഷനുകൾ വിളിക്കൽ (ഉയർന്ന കൃത്യത നേടുന്നു). ComplexFuncBench ഓഡിയോ ഇവാലുവേഷൻ ഫംഗ്ഷൻ കോളിംഗ് പ്രകടനം അളക്കുമ്പോൾ, gpt-realtime 66.5% സ്കോർ ചെയ്യുന്നു, അതേസമയം 2024 ഡിസംബറിലെ ഞങ്ങളുടെ മുൻ മോഡൽ 49.7% സ്കോർ ചെയ്യുന്നു.
അസിങ്ക്രോണസ് ഫംഗ്ഷൻ കോളിംഗിലും(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) ഞങ്ങൾ മെച്ചപ്പെടുത്തലുകൾ വരുത്തിയിട്ടുണ്ട്. ദീർഘകാല ഫംഗ്ഷൻ കോളുകൾ ഇനി ഒരു സെഷന്റെ ഒഴുക്കിനെ തടസ്സപ്പെടുത്തില്ല - ഫലങ്ങൾക്കായി കാത്തിരിക്കുമ്പോൾ മോഡൽ ഒരു സുതാര്യമായ സംഭാഷണം തുടരാൻ കഴിയും. ഈ സവിശേഷത GPT‑realtime ൽ സ്വാഭാവികമായി ലഭ്യമാണ്, അതിനാൽ ഡെവലപ്പർമാർ അവരുടെ കോഡ് അപ്ഡേറ്റ് ചെയ്യേണ്ടതില്ല.
വെല്ലുവിളി നിറഞ്ഞ ഫംഗ്ഷൻ കോളിംഗ് ടാസ്കുകൾ മോഡലുകൾ എത്രത്തോളം നന്നായി കൈകാര്യം ചെയ്യുന്നുവെന്ന് ComplexFuncBench(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) അളക്കുന്നു. ഇത് മൾട്ടി-സ്റ്റെപ്പ് കോളുകൾ, പരിമിതികൾ അല്ലെങ്കിൽ പരോക്ഷമായ പാരാമീറ്ററുകൾ സംബന്ധിച്ച ന്യായവാദം, വളരെ നീണ്ട ഇൻപുട്ടുകൾ കൈകാര്യം ചെയ്യൽ പോലുള്ള സാഹചര്യങ്ങളിൽ പ്രകടനം വിലയിരുത്തുന്നു. ഞങ്ങളുടെ മോഡലിനായി ഈ മൂല്യനിർണ്ണയം നിർമ്മിക്കുന്നതിന്, ഞങ്ങൾ യഥാർത്ഥ ടെക്സ്റ്റ് പ്രോംപ്റ്റുകളെ ശബ്ദത്തിലേക്ക് പരിവർത്തനം ചെയ്തു.
സെഷൻ കോൺഫിഗറേഷനിലേക്ക് ഒരു റിമോട്ട് MCP സെർവറിന്റെ URL പാസ് ചെയ്തുകൊണ്ട് ഒരു തത്സമയ API സെഷനിൽ നിങ്ങൾക്ക് MCP പിന്തുണ പ്രവർത്തന സജ്ജമാക്കാൻ കഴിയും. കണക്റ്റ് ചെയ്തുകഴിഞ്ഞാൽ, API നിങ്ങള്ക്ക് വേണ്ടി ടൂൾ കോളുകൾ സ്വയമേവ കൈകാര്യം ചെയ്യുന്നു, അതിനാൽ ഇന്റഗ്രേഷനുകൾ കൈമാറേണ്ട ആവശ്യമില്ല.
ഈ സജ്ജീകരണം നിങ്ങളുടെ ഏജൻ്റിനെ പുതിയ കഴിവുകൾ ഉപയോഗിച്ച് വികസിപ്പിക്കുന്നത് എളുപ്പമാക്കുന്നു—സെഷനെ മറ്റൊരു MCP സെർവറിലേക്ക് ചൂണ്ടുക, ആ ഉപകരണങ്ങൾ ഉടൻ ലഭ്യമാകും. റിയൽടൈം ഉപയോഗിച്ച് MCP കോൺഫിഗർ ചെയ്യുന്നതിനെക്കുറിച്ച് കൂടുതലറിയാൻ, ഈ ഗൈഡ്(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) പരിശോധിക്കുക.
GPT‑realtime ൽ ഇപ്പോൾ ചിത്ര ഇൻപുട്ടുകൾക്ക് പിന്തുണ ലഭ്യമാണ്, അതിനാൽ നിങ്ങൾക്ക് ഒരു Realtime API സെഷനിലേക്ക് ഓഡിയോ അല്ലെങ്കിൽ ടെക്സ്റ്റിനൊപ്പം ചിത്രങ്ങൾ, ഫോട്ടോകൾ, സ്ക്രീൻഷോട്ടുകൾ എന്നിവ ചേർക്കാൻ കഴിയും. ഇപ്പോൾ മോഡൽ ഉപയോക്താവ് യഥാർത്ഥത്തിൽ എന്താണ് കാണുന്നത് എന്നതിൽ സംഭാഷണം അടിസ്ഥാനമാക്കാൻ കഴിയും, ഇത് ഉപയോക്താക്കളെ "നിങ്ങൾ എന്താണ് കാണുന്നത്?" അല്ലെങ്കിൽ "ഈ സ്ക്രീൻഷോട്ടിലെ വാചകം വായിക്കുക" എന്നതുപോലുള്ള ചോദ്യങ്ങൾ ചോദിക്കാൻ പ്രാപ്തമാക്കുന്നു.
ഒരു ചിത്രത്തെ തത്സമയ വീഡിയോ സ്ട്രീം പോലെ പരിഗണിക്കുന്നതിനുപകരം, സിസ്റ്റം അത് സംഭാഷണത്തിൽ ഒരു ചിത്രം ചേർക്കുന്നതുപോലെ കാണുന്നു. നിങ്ങളുടെ ആപ്പ് ഏത് ചിത്രങ്ങൾ മോഡലുമായി പങ്കിടണമെന്ന്, എപ്പോൾ പങ്കിടണമെന്ന് തീരുമാനിക്കാം. ഈ രീതിയിൽ, മോഡൽ എന്ത് കാണുന്നുവെന്നും എപ്പോൾ പ്രതികരിക്കുന്നുവെന്നും നിങ്ങൾ നിയന്ത്രണത്തിൽ തുടരാൻ കഴിയും.
ചിത്ര ഇൻപുട്ട് ആരംഭിക്കാൻ ഞങ്ങളുടെ ഡോക്സ്(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) പരിശോധിക്കുക.
റിയൽടൈം API സംയോജിപ്പിക്കൽ എളുപ്പമാക്കാനും ഉൽപ്പാദന ഉപയോഗത്തിന് കൂടുതൽ വഴക്കമുള്ളതാക്കാനും ഞങ്ങൾ നിരവധി മറ്റ് സവിശേഷതകൾ ചേർത്തിട്ടുണ്ട്.
- സെഷൻ ഇനീഷ്യേഷൻ പ്രോട്ടോക്കോൾ (SIP) പിന്തുണ: റിയൽടൈം API-യിലെ നേരിട്ടുള്ള പിന്തുണയോടെ നിങ്ങളുടെ ആപ്പുകളെ പൊതു ഫോൺ നെറ്റ്വർക്ക്, PBX സിസ്റ്റങ്ങൾ, ഡെസ്ക് ഫോണുകൾ, മറ്റ് SIP എൻഡ്പോയിന്റുകൾ എന്നിവയുമായി ബന്ധിപ്പിക്കുക. ഡോക്യുമെന്റേഷനിൽ ഇതിനെക്കുറിച്ച് വായിക്കുക.(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു)
- പുനരുപയോഗിക്കാവുന്ന പ്രോംപ്റ്റുകൾ: ഇപ്പോൾ നിങ്ങൾക്ക് ഡെവലപ്പർ സന്ദേശങ്ങൾ, ഉപകരണങ്ങൾ, വേരിയബിളുകൾ, ഉദാഹരണ ഉപയോക്താക്കൾ/അസിസ്റ്റന്റ് സന്ദേശങ്ങൾ എന്നിവ ഉൾക്കൊള്ളുന്ന പ്രോംപ്റ്റുകൾ സംരക്ഷിക്കുകയും, പ്രതികരണങ്ങൾ API പോലെ തത്സമയ API സെഷനുകളിലുടനീളം പുനരുപയോഗിക്കുകയും ചെയ്യാം. ഡോക്യുമെന്റുകളിൽ കൂടുതൽ അറിയുക.(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു)
ദുരുപയോഗം തടയാൻ സഹായിക്കുന്നതിന് Realtime API പലതരം സുരക്ഷാ സംവിധാനങ്ങളും ലഘൂകരണങ്ങളും ഉൾക്കൊള്ളുന്നു. നിങ്ങൾക്ക് ഞങ്ങളുടെ സുരക്ഷാ സമീപനത്തെയും സിസ്റ്റം കാർഡ് വിശദാംശങ്ങളെയും കുറിച്ച് ബീറ്റാ അനൗൺസ്മെന്റ് ബ്ലോഗിൽ കൂടുതൽ അറിയാൻ കഴിയും. ഞങ്ങൾ തത്സമയ API സെഷനുകളിൽ സജീവ ക്ലാസിഫയറുകൾ ഉപയോഗിക്കുന്നു, അതായത് ചില സംഭാഷണങ്ങൾ ഞങ്ങളുടെ ദോഷകരമായ ഉള്ളടക്ക മാർഗ്ഗനിർദ്ദേശങ്ങൾ ലംഘിക്കുന്നതായി കണ്ടെത്തിയാൽ അവ നിർത്തപ്പെടും. ഏജൻ്റുകൾ SDK(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) ഉപയോഗിച്ച് ഡെവലപ്പർമാർക്ക് അവരുടെ സ്വന്തം അധിക സുരക്ഷാ ഗാർഡ്റെയിലുകൾ എളുപ്പത്തിൽ ചേർക്കാൻ കഴിയും.
ഞങ്ങളുടെ ഉപയോഗ നയങ്ങൾ സ്പാം, വഞ്ചന, അല്ലെങ്കിൽ മറ്റ് ദോഷകരമായ ആവശ്യങ്ങൾക്കായി ഞങ്ങളുടെ സേവനങ്ങളിൽ നിന്നുള്ള ഔട്ട്പുട്ടുകൾ പുനർനിർമ്മിക്കുകയോ വിതരണം ചെയ്യുകയോ ചെയ്യുന്നത് വിലക്കുന്നു. ഡെവലപ്പർമാർ AI യുമായി സംവദിക്കുമ്പോൾ ഉപയോക്താക്കൾക്ക് ഇത് വ്യക്തമാക്കണം, അത് ഇതിനകം തന്നെ സന്ദർഭത്തിൽ നിന്ന് വ്യക്തമായില്ലെങ്കിൽ. ദുഷ്ട പ്രവർത്തകർ മറ്റുള്ളവരായി നടിക്കുന്നതിൽ നിന്ന് തടയാൻ റിയൽടൈം API പ്രീസെറ്റ് ശബ്ദങ്ങൾ ഉപയോഗിക്കുന്നു.
റിയൽടൈം എപിഐ യൂറോപ്യൻ യൂണിയൻ അധിഷ്ഠിത ആപ്ലിക്കേഷനുകൾക്കായുള്ള യൂറോപ്യൻ യൂണിയൻ ഡാറ്റ റെസിഡ(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) ൻസിയെ പൂർണ്ണമായും പിന്തുണയ്ക്കുന്നു, കൂടാതെ ഞങ്ങളുടെ എന്റ ർപ്രൈസ് സ്വകാര്യതാ പ്രതിബദ്ധതകൾ കവർ ചെയ്യുന്നു.
സാധാരണയായി ലഭ്യമായ റിയൽടൈം API യും പുതിയ GPT‑realtime മോഡലും ഇന്ന് മുതൽ എല്ലാ ഡെവലപ്പർമാർക്കും ലഭ്യമാണ്. ഞങ്ങൾ gpt-realtime ന്റെ വില gpt-4o-realtime-preview ന്റെ വിലയുമായി താരതമ്യപ്പെടുത്തുമ്പോൾ 20% കുറയ്ക്കുന്നു—$ 32 / 1M ഓഡിയോ ഇൻപുട്ട് ടോക്കൺ ($ 0.40 കാഷെയിലുള്ള ഇൻപുട്ട് ടോക്കൺ) കൂടാതെ $ 64 / 1M ഓഡിയോ ഔട്ട്പുട്ട് ടോക്കൺ (വിശദമായ വില കാണുക(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു)). ഡെവലപ്പർമാർക്ക് ബുദ്ധിയുള്ള token പരിധികൾ സജ്ജമാക്കാനും ഒരേസമയം ഒന്നിലധികം ടേൺ വെട്ടിക്കുറയ്ക്കാനും അനുവദിക്കുന്നതിന് സംഭാഷണത്തിന്റെ സന്ദർഭത്തിനായി ഞങ്ങൾ സൂക്ഷ്മമായ നിയന്ത്രണം ചേർത്തു, ഇത് നീണ്ട സെഷനുകളുടെ ചെലവ് ഗണ്യമായി കുറയ്ക്കുന്നു.
ആരംഭിക്കുന്നതിന്, ഞങ്ങളുടെ റിയൽടൈം API ഡോക്യുമെന്റേഷൻ(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) സന്ദർശിക്കുക, Playground(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) പുതിയ മോഡൽ പരീക്ഷിക്കുക, കൂടാതെ ഞങ്ങളുടെ റിയൽടൈം API പ്രോംപ്റ്റിംഗ് ഗൈഡ്(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) കാണുക.


