ChatGPTക്ക് ഇപ്പോൾ കാണാനും, കേൾക്കാനും, സംസാരിക്കാനും കഴിയും

ഞങ്ങൾ ChatGPT‑ൽ പുതിയ ശബ്ദവും ചിത്രവും കഴിവുകൾ അവതരിപ്പിക്കാൻ തുടങ്ങുന്നു. അവർ ശബ്ദ സംഭാഷണം നടത്തുകയോ നിങ്ങൾ സംസാരിക്കുന്നതെന്താണെന്ന് ChatGPT‑നെ കാണിക്കുകയോ ചെയ്യുന്നതിലൂടെ പുതിയ, കൂടുതൽ സ്വാഭാവികമായ ഇന്റർഫേസ് തരങ്ങൾ നൽകുന്നു.
ശബ്ദവും ചിത്രവും നിങ്ങളുടെ ജീവിതത്തിൽ ChatGPT ഉപയോഗിക്കാൻ കൂടുതൽ മാർഗങ്ങൾ നൽകുന്നു. യാത്ര ചെയ്യുമ്പോൾ ഒരു ലാൻഡ്മാർക്കിന്റെ ചിത്രം പകർത്തി അതിന്റെ ആകർഷകതയെക്കുറിച്ച് തത്സമയ സംഭാഷണം നടത്തുക. നിങ്ങൾ വീട്ടിൽ എത്തിയാൽ, അത്താഴത്തിനായി എന്താണ് ഉണ്ടാക്കേണ്ടതെന്ന് കണ്ടെത്താൻ നിങ്ങളുടെ ഫ്രിഡ്ജിന്റെയും പാന്ട്രിയുടെയും ചിത്രങ്ങൾ എടുക്കുക (കൂടാതെ, ഘട്ടം ഘട്ടമായി പാചകക്കുറിപ്പിനായി തുടർചോദ്യങ്ങൾ ചോദിക്കുക). ഭക്ഷണത്തിന് ശേഷം, ഒരു ഗണിത പ്രശ്നത്തിൽ നിങ്ങളുടെ കുട്ടിയെ സഹായിക്കാൻ ഒരു ഫോട്ടോ എടുക്കുക, പ്രശ്നസമൂഹം ചുറ്റികൊണ്ട് അടയാളപ്പെടുത്തുക, അത് നിങ്ങളുമായി സൂചനകൾ പങ്കിടാൻ അനുവദിക്കുക.
അടുത്ത രണ്ട് ആഴ്ചകളിൽ Plus, Enterprise ഉപയോക്താക്കൾക്കായി ChatGPT‑ൽ വോയ്സ്, ചിത്രങ്ങൾ അവതരിപ്പിക്കുന്നു. iOS-ലും Android-ലും ശബ്ദം വരുന്നു (നിങ്ങളുടെ ക്രമീകരണങ്ങളിൽ ഓപ്റ്റ്-ഇൻ ചെയ്യുക) കൂടാതെ എല്ലാ പ്ലാറ്റ്ഫോമുകളിലും ചിത്രങ്ങൾ ലഭ്യമായിരിക്കും.
ഇപ്പോൾ നിങ്ങൾക്ക് ശബ്ദം ഉപയോഗിച്ച് നിങ്ങളുടെ അസിസ്റ്റന്റുമായി മുന്നും പിന്നിലേക്ക് ഒരു സംഭാഷണം നടത്താൻ കഴിയും. അതുമായി Go-യിൽ സംസാരിക്കുക, നിങ്ങളുടെ കുടുംബത്തിനായി ഒരു ഉറക്കകഥ അഭ്യർത്ഥിക്കുക, അല്ലെങ്കിൽ അത്താഴ മേശയിലെ വാദം തീർക്കുക.
നിങ്ങളുടെ അസിസ്റ്റന്റുമായി ശബ്ദം ഉപയോഗിച്ച് മറുപടി-പിന്നിലേക്ക് സംഭാഷണം നടത്താൻ.
ശബ്ദം ഉപയോഗിച്ച് ആരംഭിക്കാൻ, മൊബൈൽ ആപ്പിലെ സജ്ജീകരണങ്ങൾ → പുതിയ സവിശേഷതകൾ എന്നതിലേക്ക് പോകുക, ശബ്ദ സംഭാഷണങ്ങളിൽ ചേർക്കാൻ തിരഞ്ഞെടുക്കുക. അതിനുശേഷം, ഹോം സ്ക്രീനിന്റെ മുകളിലെ വലത് കോണിൽ സ്ഥിതിചെയ്യുന്ന ഹെഡ്ഫോൺ ബട്ടൺ ടാപ്പ് ചെയ്ത്, അഞ്ച് വ്യത്യസ്ത ശബ്ദങ്ങളിൽ നിന്ന് നിങ്ങളുടെ ഇഷ്ടപ്പെട്ട ശബ്ദം തിരഞ്ഞെടുക്കുക.
പുതിയ വോയ്സ് ശേഷി ഒരു പുതിയ ടെക്സ്റ്റ്-ടു-സ്പീച്ച് മോഡലിന്റെ ശക്തിയിലാണ്, ഇത് വെറും ടെക്സ്റ്റും കുറച്ച് സെക്കൻഡ് സാമ്പിൾ സ്പീച്ചും ഉപയോഗിച്ച് മനുഷ്യനെപ്പോലെ ശബ്ദം സൃഷ്ടിക്കാൻ കഴിവുള്ളതാണ്. ഓരോ ശബ്ദവും സൃഷ്ടിക്കാൻ ഞങ്ങൾ പ്രൊഫഷണൽ വോയ്സ് ആക്ടർമാരുമായി സഹകരിച്ചു. നിങ്ങളുടെ സംസാരിച്ച വാക്കുകൾ ടെക്സ്റ്റിലേക്ക് മാറ്റാൻ ഞങ്ങളുടെ ഓപ്പൺ-സോഴ്സ് സ്പീച്ച് റെക്കഗ്നിഷൻ സിസ്റ്റമായ Whisper-ഉം ഞങ്ങൾ ഉപയോഗിക്കുന്നു.
ഇപ്പോൾ നിങ്ങൾക്ക് ChatGPT‑ൽ ഒരു അല്ലെങ്കിൽ കൂടുതൽ ചിത്രങ്ങൾ കാണിക്കാം. നിങ്ങളുടെ ഗ്രിൽ ആരംഭിക്കാത്തതിന്റെ കാരണങ്ങൾ പരിഹരിക്കുക, ഒരു മീൽ പദ്ധതിയുണ്ടാക്കാൻ നിങ്ങളുടെ ഫ്രിഡ്ജിലെ സാധനങ്ങൾ കണ്ടെത്തുക, അല്ലെങ്കിൽ ജോലിസംബന്ധമായ ഡാറ്റയ്ക്കായി ഒരു സങ്കീർണ്ണ ഗ്രാഫ് വിശകലനം ചെയ്യുക. ചിത്രത്തിന്റെ ഒരു പ്രത്യേക ഭാഗത്ത് ശ്രദ്ധ കേന്ദ്രീകരിക്കാൻ, നിങ്ങൾക്ക് ഞങ്ങളുടെ മൊബൈൽ ആപ്പിലെ ഡ്രോയിംഗ് ഉപകരണം ഉപയോഗിക്കാം.
ChatGPT‑ക്ക് ഒന്ന് അല്ലെങ്കിൽ കൂടുതൽ ചിത്രങ്ങൾ കാണിക്കുക.
ആരംഭിക്കാൻ, ചിത്രം പിടിക്കാൻ അല്ലെങ്കിൽ തിരഞ്ഞെടുക്കാൻ ഫോട്ടോ ബട്ടൺ തൊടുക. നിങ്ങൾ iOS അല്ലെങ്കിൽ Android ഉപയോക്താവാണെങ്കിൽ, ആദ്യം പ്ലസ് ബട്ടൺ തട്ടുക. നിങ്ങൾക്ക് നിരവധി ചിത്രങ്ങൾ ചർച്ച ചെയ്യാനും നിങ്ങളുടെ അസിസ്റ്റന്റിനെ മാർഗ്ഗനിർദ്ദേശിക്കാൻ ഞങ്ങളുടെ വരയ്ക്കൽ ഉപകരണം ഉപയോഗിക്കാനും കഴിയും.
ചിത്രം മനസ്സിലാക്കൽ മൾട്ടിമോഡൽ GPT‑3.5, GPT‑4 എന്നിവ ഉപയോഗിച്ച് ശക്തിപ്പെടുത്തപ്പെട്ടിരിക്കുന്നു. ഈ മോഡലുകൾ അവരുടെ ഭാഷാ റീസണിംഗ് സ്കിൽ ഫോട്ടോഗ്രാഫുകൾ, സ്ക്രീൻഷോട്ടുകൾ, വാചകങ്ങളും ചിത്രങ്ങളും അടങ്ങിയ ഡോക്യുമെന്റുകളിൽ പ്രയോഗിക്കുന്നു.
OpenAIയുടെ ലക്ഷ്യം സുരക്ഷിതവും പ്രയോജനപ്രദവുമായ AGI നിർമ്മിക്കലാണ്. ഞങ്ങളുടെ ഉപകരണങ്ങൾ ക്രമേണ ലഭ്യമാക്കുന്നതിൽ ഞങ്ങൾ വിശ്വസിക്കുന്നു, ഇത് മെച്ചപ്പെടുത്തലുകൾ നടത്താനും അപകടം ലഘൂകരിക്കലുകൾ മെച്ചപ്പെടുത്താനും, കൂടാതെ ഭാവിയിൽ കൂടുതൽ ശക്തമായ സിസ്റ്റങ്ങൾക്കായി എല്ലാവരെയും തയ്യാറാക്കാനും അനുവദിക്കുന്നു. വോയ്സ് ആൻഡ് വിഷൻ ഉൾപ്പെടുന്ന പുരോഗമനാത്മക മോഡലുകൾക്കൊപ്പം ഈ തന്ത്രം കൂടുതൽ പ്രധാനപ്പെട്ടതായി മാറുന്നു.
പുതിയ ശബ്ദ സാങ്കേതികവിദ്യ—വാസ്തവികമായ കൃത്രിമ ശബ്ദങ്ങൾ ഏതാനും സെക്കൻഡ് മാത്രം യഥാർത്ഥ ശബ്ദത്തിൽ നിന്ന് സൃഷ്ടിക്കാൻ കഴിവുള്ളത്—സൃഷ്ടിപരമായതും ആക്സസിബിലിറ്റി കേന്ദ്രീകൃതവുമായ നിരവധി ആപ്ലിക്കേഷനുകൾക്ക് വാതിൽ തുറക്കുന്നു. എന്നിരുന്നാലും, ഈ കഴിവുകൾ പൊതുജനപ്രതിനിധികളെ നടിക്കുന്നതോ തട്ടിപ്പ് നടത്തുന്നതോ പോലുള്ള ദുഷ്ട പ്രവർത്തകരുടെ സാധ്യതയുള്ള പുതിയ അപകടസാധ്യതകൾ അവതരിപ്പിക്കുന്നു.
ഇതാണ് ഞങ്ങൾ ഈ സാങ്കേതികവിദ്യ ഒരു പ്രത്യേക ഉപയോഗ കേസായ വോയ്സ് ചാറ്റ് ശക്തിപ്പെടുത്താൻ ഉപയോഗിക്കുന്നതിന്റെ കാരണം. വോയ്സ് ചാറ്റ് ഞങ്ങൾ നേരിട്ട് പ്രവർത്തിച്ച വോയ്സ് ആക്ടർമാരുമായി ചേർന്ന് സൃഷ്ടിച്ചതാണ്. ഞങ്ങൾ മറ്റുള്ളവരുമായി സമാനമായ രീതിയിൽ സഹകരിക്കുന്നു. ഉദാഹരണത്തിന്, Spotify അവരുടെ വോയ്സ് ട്രാൻസ്ലേഷൻ(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) സവിശേഷതയുടെ പൈലറ്റിനായി ഈ സാങ്കേതികവിദ്യയുടെ ശക്തി ഉപയോഗിക്കുന്നു, ഇത് പോഡ്കാസ്റ്റർമാർക്ക് അവരുടെ കഥ പറയലിന്റെ വ്യാപ്തി വർദ്ധിപ്പിക്കാൻ, പോഡ്കാസ്റ്റുകൾ പോഡ്കാസ്റ്റർമാരുടെ സ്വന്തം ശബ്ദത്തിൽ അധിക ഭാഷകളിലേക്ക് വിവർത്തനം ചെയ്യുന്നതിലൂടെ സഹായിക്കുന്നു.
ദൃശ്യാധിഷ്ഠിത മോഡലുകൾ ആളുകളെക്കുറിച്ചുള്ള ഭ്രമാത്മകത മുതൽ ഉയർന്ന പ്രാധാന്യമുള്ള ഡൊമെയ്നുകളിൽ മോഡലിന്റെ ചിത്ര വ്യാഖ്യാനം ആശ്രയിക്കുന്നതുവരെ പുതിയ വെല്ലുവിളികൾ അവതരിപ്പിക്കുന്നു. വ്യാപകമായ വിന്യാസത്തിന് മുമ്പ്, ഞങ്ങൾ മോഡലിനെ അപകടസാധ്യതകൾക്കായി റെഡ് ടീം അംഗങ്ങളുമായി, അതിക്രമവും ശാസ്ത്രീയ പ്രാവീണ്യവും പോലുള്ള ഡൊമെയ്നുകളിൽ, കൂടാതെ വൈവിധ്യമാർന്ന ആൽഫ ടെസ്റ്റർമാരുടെ ഒരു കൂട്ടത്തോടൊപ്പം പരീക്ഷിച്ചു. ഞങ്ങളുടെ ഗവേഷണം ചില പ്രധാനപ്പെട്ട വിശദാംശങ്ങളിൽ ഏകോപിപ്പിക്കാൻ ഞങ്ങളെ സഹായിച്ചു, ഉത്തരവാദിത്തപരമായ ഉപയോഗത്തിനായി.
മറ്റു ChatGPT സവിശേഷതകളെപ്പോലെ, വിഷൻ നിങ്ങളുടെ ദൈനംദിന ജീവിതത്തിൽ നിങ്ങളെ സഹായിക്കുന്നതിനാണ്. നിങ്ങൾ കാണുന്നതെന്താണെന്ന് കാണാൻ കഴിയുമ്പോൾ അത് ഏറ്റവും മികച്ച രീതിയിൽ ചെയ്യുന്നു.
ഈ സമീപനം, കാഴ്ച ഇല്ലാത്തവരും കാഴ്ചക്കുറവുള്ളവരും ഉപയോഗിക്കുന്ന സൗജന്യ മൊബൈൽ ആപ്പായ Be My Eyes-നൊപ്പം ഞങ്ങളുടെ പ്രവർത്തനത്തിലൂടെ നേരിട്ട് അറിയിക്കപ്പെട്ടതാണ്, ഉപയോഗങ്ങളും പരിമിതികളും മനസിലാക്കുന്നതിനായി. ഉപയോക്താക്കൾ നമ്മളോട് പറഞ്ഞത്, പശ്ചാത്തലത്തിൽ ആളുകൾ ഉള്ള ചിത്രങ്ങളെക്കുറിച്ച് പൊതുവായ സംഭാഷണം നടത്തുന്നത് മൂല്യമുള്ളതായി അവർ കണ്ടെത്തുന്നു, ഉദാഹരണത്തിന്, നിങ്ങൾ റിമോട്ട് കൺട്രോൾ ക്രമീകരണങ്ങൾ കണ്ടെത്താൻ ശ്രമിക്കുമ്പോൾ ആരെങ്കിലും ടിവിയിൽ പ്രത്യക്ഷപ്പെടുന്നുവെങ്കിൽ.
ChatGPT എല്ലായ്പ്പോഴും കൃത്യമായിരിക്കില്ല, കൂടാതെ ഈ സിസ്റ്റങ്ങൾ വ്യക്തികളുടെ സ്വകാര്യതയെ മാനിക്കണം എന്നതിനാൽ, ChatGPT‑യിലൂടെ ആളുകളെ വിശകലനം ചെയ്യാനും നേരിട്ട് പ്രസ്താവനകൾ നടത്താനും ഉള്ള കഴിവിനെ ഗണ്യമായി പരിമിതപ്പെടുത്താൻ സാങ്കേതിക നടപടികളും ഞങ്ങൾ സ്വീകരിച്ചിട്ടുണ്ട്.
യഥാർത്ഥ ലോക ഉപയോഗവും ഫീഡ്ബാക്കും ഈ സുരക്ഷാ മാർഗങ്ങൾ കൂടുതൽ മെച്ചപ്പെടുത്താനും ഉപകരണം പ്രയോജനകരമായി നിലനിർത്താനും ഞങ്ങളെ സഹായിക്കും.
ഉപയോക്താക്കൾക്ക് പ്രത്യേക വിഷയങ്ങളിൽ, ഉദാഹരണത്തിന് ഗവേഷണം പോലുള്ള മേഖലകളിൽ, ChatGPT‑യിൽ ആശ്രയിക്കേണ്ടി വരാം. മോഡലിന്റെ പരിമിതികളെക്കുറിച്ച് ഞങ്ങൾ സുതാര്യമാണ്, സ്ഥിരീകരണം കൂടാതെ ഉയർന്ന അപകടസാധ്യതയുള്ള ഉപയോഗ കേസുകൾ ഞങ്ങൾ നിരുത്സാഹപ്പെടുത്തുന്നു. കൂടാതെ, മോഡൽ ഇംഗ്ലീഷ് വാചകങ്ങൾ ട്രാൻസ്ക്രൈബ് ചെയ്യുന്നതിൽ പ്രാവീണ്യം പുലർത്തുന്നു, പക്ഷേ ചില മറ്റ് ഭാഷകളിൽ, പ്രത്യേകിച്ച് നോൺ-റോമൻ ലിപിയിലുള്ളവയിൽ, മോശമായി പ്രവർത്തിക്കുന്നു. ഞങ്ങൾ ഞങ്ങളുടെ ഇംഗ്ലീഷല്ലാത്ത ഉപയോക്താക്കളോട് ഈ ആവശ്യത്തിനായി ChatGPT ഉപയോഗിക്കുന്നത് ശുപാർശ ചെയ്യുന്നില്ല.
നിങ്ങൾക്ക് സുരക്ഷയോടുള്ള ഞങ്ങളുടെ സമീപനത്തെയും Be My Eyes-ഉം ചേർന്ന് ഞങ്ങൾ ചെയ്യുന്ന പ്രവർത്തനങ്ങളെയും കുറിച്ച് ചിത്രം ഇൻപുട്ടിനായുള്ള സിസ്റ്റം കാർഡിൽ കൂടുതൽ വായിക്കാം.
Plus, Enterprise ഉപയോക്താക്കൾക്ക് അടുത്ത രണ്ട് ആഴ്ചകളിൽ ശബ്ദവും ചിത്രങ്ങളും അനുഭവിക്കാൻ കഴിയും. ഡെവലപ്പർമാർ ഉൾപ്പെടെ മറ്റ് ഉപയോക്താക്കളുടെ ഗ്രൂപ്പുകൾക്ക് ഈ കഴിവുകൾ ഉടൻ പ്രാപ്തമാക്കാൻ ഞങ്ങൾ ആവേശഭരിതരാണ്.
രചയിതാവ്
അംഗീകാരങ്ങൾ
വോയ്സ് മോഡ് മൗലിക ഗവേഷണം
അലക് റാഡ്ഫോർഡ്, ടാവോ സു, ജോങ് വൂക് കിം
ദർശനം വിന്യാസം മുഖ്യ ഗവേഷണം
റൗൽ പുരി, ജാമി കിറോസ്, ഹിയോൺവൂ നോഹ്, ലോംഗ് ഔയാങ്, സന്ധിനി അഗർവാൾ


