ChatGPT હવે જોઈ, સાંભળી અને બોલી શકે છે

અમે ChatGPT માં નવી વૉઇસ અને ઇમેજ ક્ષમતાઓ રજૂ કરવાનું શરૂ કરી રહ્યા છીએ. આ ક્ષમતાઓ તમને અવાજમાં વાતચીત કરવાની અથવા ChatGPT ને તમે શું વિશે વાત કરી રહ્યા છો તે બતાવવાની સગવડ આપી વધુ સહજ પ્રકારનું નવું ઇન્ટરફેસ આપે છે.
વૉઇસ અને ઇમેજ તમને તમારા જીવનમાં ChatGPT નો ઉપયોગ કરવા માટે વધુ રીતો આપે છે. મુસાફરી દરમિયાન કોઈ સ્મારકનો ફોટો લો અને તેમાં શું રસપ્રદ છે તેના વિશે જીવંત વાતચીત કરો. જ્યારે તમે ઘરે હો, ત્યારે તમારા ફ્રિજ અને પેન્ટ્રીના ફોટા લઈ રાત્રિભોજનમાં શું બનાવવું તે નક્કી કરો અને પગલું-દર-પગલું રેસીપી માટે આગળના પ્રશ્નો પૂછો. રાત્રિભોજન પછી, ગણિતના પ્રશ્નનો ફોટો લઈ, પ્રશ્નસમૂહને ગોળ કરો અને તે તમને બંનેને સંકેતો આપે તેવી રીતે તમારા બાળકને મદદ કરો.
આગામી બે અઠવાડિયામાં અમે ChatGPT માં Plus અને Enterprise વપરાશકર્તાઓ માટે વૉઇસ અને ઇમેજ ઉપલબ્ધ કરી રહ્યા છીએ. વૉઇસ iOS અને Android પર આવી રહ્યું છે (તમારી settings માં opt-in) અને ઇમેજ બધા પ્લેટફોર્મ પર ઉપલબ્ધ થશે.
હવે તમે તમારા સહાયક સાથે અવાજ દ્વારા આગળ-પાછળની વાતચીત કરી શકો છો. મુસાફરીમાં તેની સાથે વાત કરો, તમારા પરિવાર માટે સૂતી વખતે વાર્તા માગો, અથવા જમણાની ટેબલ પરની ચર્ચાનો નિર્ણય કરો.
Use voice to engage in a back-and-forth conversation with your assistant.
વૉઇસ સાથે શરૂઆત કરવા માટે, મોબાઇલ એપમાં Settings → New Features પર જાઓ અને voice conversations માટે opt in કરો. પછી, હોમ સ્ક્રીનના ઉપર જમણા ખૂણે આવેલ હેડફોન બટન પર ટેપ કરો અને પાંચ અલગ અવાજોમાંથી તમારો મનપસંદ અવાજ પસંદ કરો.
નવી વૉઇસ ક્ષમતા નવા text-to-speech મોડલ દ્વારા સંચાલિત છે, જે ફક્ત ટેક્સ્ટ અને થોડા સેકન્ડના નમૂના અવાજ પરથી માનવી જેવા ઑડિયો બનાવી શકે છે. દરેક અવાજ બનાવવા માટે અમે વ્યાવસાયિક voice actors સાથે સહકાર કર્યો. અમે Whisper, અમારી open-source speech recognition system, નો પણ ઉપયોગ કરીએ છીએ, જેથી તમારા બોલેલા શબ્દોને ટેક્સ્ટમાં લખી શકાય.
હવે તમે ChatGPT ને એક અથવા વધુ ઇમેજ બતાવી શકો છો. તમારો ગ્રિલ કેમ ચાલુ થતો નથી તે સમજો, ભોજનનું આયોજન કરવા માટે તમારા ફ્રિજની અંદરની વસ્તુઓ જુઓ, અથવા કામ સંબંધિત ડેટા માટે જટિલ ગ્રાફનું વિશ્લેષણ કરો. ઇમેજના કોઈ ખાસ ભાગ પર ધ્યાન કેન્દ્રિત કરવા માટે, તમે અમારી મોબાઇલ એપમાં ડ્રોઇંગ ટૂલનો ઉપયોગ કરી શકો છો.
Show ChatGPT one or more images.
શરૂઆત કરવા માટે, ઇમેજ કૅપ્ચર કરવા અથવા પસંદ કરવા માટે ફોટો બટન પર ટેપ કરો. જો તમે iOS અથવા Android પર હો, તો પહેલા પ્લસ બટન પર ટેપ કરો. તમે ઘણી ઇમેજ વિશે ચર્ચા પણ કરી શકો છો અથવા તમારા સહાયકને માર્ગદર્શન આપવા માટે અમારી ડ્રોઇંગ ટૂલનો ઉપયોગ કરી શકો છો.
ઇમેજ સમજણ multimodal GPT‑3.5 અને GPT‑4 દ્વારા સંચાલિત છે. આ મોડલ્સ તેમના ભાષાકીય રিজનિંગ કૌશલ્યોને વિવિધ પ્રકારની ઇમેજ પર લાગુ કરે છે, જેમ કે ફોટોગ્રાફ્સ, સ્ક્રીનશોટ્સ અને ટેક્સ્ટ તથા ઇમેજ બંને ધરાવતા દસ્તાવેજો.
OpenAI નું લક્ષ્ય સુરક્ષિત અને લાભદાયક AGI બનાવવાનું છે. અમારો વિશ્વાસ છે કે અમારા સાધનો ધીમે ધીમે ઉપલબ્ધ કરવાથી અમે સમય જતાં સુધારાઓ કરી શકીએ, જોખમ ઘટાડવાના ઉપાયો વધુ સારા બનાવી શકીએ અને ભવિષ્યમાં વધુ શક્તિશાળી સિસ્ટમો માટે સૌને તૈયાર કરી શકીએ. વૉઇસ અને વિઝન ધરાવતા અદ્યતન મોડલ્સ સાથે આ વ્યૂહરચના વધુ મહત્વપૂર્ણ બને છે.
નવી વૉઇસ ટેક્નોલોજી—જે ફક્ત થોડા સેકન્ડના વાસ્તવિક અવાજ પરથી વાસ્તવિક લાગતા કૃત્રિમ અવાજો બનાવી શકે છે—ઘણી સર્જનાત્મક અને ઍક્સેસિબિલિટી-કેન્દ્રિત એપ્લિકેશન્સ માટે નવા દરવાજા ખોલે છે. જોકે, આ ક્ષમતાઓ નવા જોખમો પણ લાવે છે, જેમ કે દુર્ભાવનાપૂર્ણ વ્યક્તિઓ જાહેર હસ્તીઓનું સોંગ કરી શકે અથવા ઠગાઈ કરી શકે.
આથી જ અમે આ ટેક્નોલોજીનો ઉપયોગ એક નિશ્ચિત ઉપયોગ માટે કરી રહ્યા છીએ—વૉઇસ ચેટ. વૉઇસ ચેટ એવા voice actors સાથે બનાવવામાં આવી હતી જેમની સાથે અમે સીધું કામ કર્યું છે. અમે અન્ય લોકો સાથે પણ સમાન રીતે સહકાર કરી રહ્યા છીએ. ઉદાહરણ તરીકે, Spotify તેમની Voice Translation(નવી વિન્ડોમાં ખૂલે છે) સુવિધાના પાઇલટ માટે આ ટેક્નોલોજીની શક્તિનો ઉપયોગ કરી રહ્યું છે, જે podcasters ને તેમના પોતાના અવાજમાં podcasts ને વધારાની ભાષાઓમાં અનુવાદ કરીને તેમની વાર્તાઓની પહોંચ વધારવામાં મદદ કરે છે.
વિઝન આધારિત મોડલ્સ નવા પડકારો પણ રજૂ કરે છે, જે લોકો વિશેની hallucinations થી લઈને ઊંચા જોખમવાળા ક્ષેત્રોમાં ઇમેજ અંગે મોડલની વ્યાખ્યા પર આધાર રાખવા સુધી ફેલાયેલા છે. વધુ વ્યાપક ડિપ્લોયમેન્ટ પહેલાં, અમે અતિરેકવાદ અને વૈજ્ઞાનિક પ્રાવિણ્ય જેવા ક્ષેત્રોમાં જોખમ માટે red teamers સાથે તેમજ વિવિધ alpha testers સાથે મોડલનું પરીક્ષણ કર્યું. અમારા સંશોધને અમને જવાબદાર ઉપયોગ માટે કેટલીક મુખ્ય બાબતો પર સંમતિ બનાવવા સક્ષમ બનાવ્યા.
અન્ય ChatGPT સુવિધાઓની જેમ, વિઝનનો હેતુ તમારા દૈનિક જીવનમાં મદદ કરવાનો છે. જ્યારે તે તમે જે જુઓ છો તે જોઈ શકે છે, ત્યારે તે આ કામ સૌથી સારી રીતે કરે છે.
ઉપયોગો અને મર્યાદાઓ સમજવા માટે અંધ અને ઓછી દ્રષ્ટિ ધરાવતા લોકો માટેની મફત મોબાઇલ એપ Be My Eyes સાથેના અમારા કામથી આ અભિગમને સીધી માહિતી મળી છે. વપરાશકર્તાઓએ અમને કહ્યું છે કે તેમને એવી છબીઓ વિશે સામાન્ય વાતચીત કરવી મૂલ્યવાન લાગે છે જેમાં પાછળની બાજુએ લોકો દેખાતા હોય, જેમ કે જ્યારે તમે તમારા રિમોટ કંટ્રોલની સેટિંગ્સ સમજવાનો પ્રયાસ કરી રહ્યા હો અને ટીવી પર કોઈ દેખાય.
અમે ChatGPT ની લોકો વિશે વિશ્લેષણ કરવાની અને સીધી ટિપ્પણીઓ કરવાની ક્ષમતાને નોંધપાત્ર રીતે મર્યાદિત કરવા માટે તકનીકી પગલાં પણ લીધાં છે, કારણ કે ChatGPT હંમેશા સચોટ નથી અને આ સિસ્ટમોએ વ્યક્તિગત ગોપનીયતાનો સન્માન કરવો જોઈએ.
વાસ્તવિક દુનિયાનું ઉપયોગ અને પ્રતિસાદ અમને આ સુરક્ષા ઉપાયો વધુ સારા બનાવવામાં મદદ કરશે, સાથે સાથે સાધનને ઉપયોગી પણ રાખશે.
વપરાશકર્તાઓ વિશેષ વિષયો માટે ChatGPT પર આધાર રાખી શકે છે, ઉદાહરણ તરીકે સંશોધન જેવા ક્ષેત્રોમાં. અમે મોડલની મર્યાદાઓ વિશે પારદર્શક છીએ અને યોગ્ય ચકાસણી વિના વધુ જોખમી ઉપયોગોને નિરોત્સાહિત કરીએ છીએ. વધુમાં, મોડલ અંગ્રેજી ટેક્સ્ટનું લિપ્યંતરણ કરવામાં કુશળ છે પરંતુ કેટલીક અન્ય ભાષાઓમાં, ખાસ કરીને non-roman લિપિ ધરાવતી ભાષાઓમાં, નબળું પ્રદર્શન કરે છે. અમે અમારા બિન-અંગ્રેજી વપરાશકર્તાઓને આ હેતુ માટે ChatGPT નો ઉપયોગ ન કરવાની સલાહ આપીએ છીએ.
સુરક્ષા અંગેના અમારા અભિગમ અને Be My Eyes સાથેના અમારા કામ વિશે વધુ તમે ઇમેજ ઇનપુટ માટેના સિસ્ટમ કાર્ડ માં વાંચી શકો છો.
Plus અને Enterprise વપરાશકર્તાઓ આગામી બે અઠવાડિયામાં વૉઇસ અને ઇમેજનો અનુભવ કરી શકશે. થોડા સમય પછી અમે ડેવલપર્સ સહિત વપરાશકર્તાઓના અન્ય જૂથો સુધી પણ આ ક્ષમતાઓ પહોંચાડવા ઉત્સાહિત છીએ.
લેખક
આભાર નોંધ
વૉઇસ મોડ મુખ્ય સંશોધન
Alec Radford, Tao Xu, Jong Wook Kim
વિઝન ડિપ્લોયમેન્ટ મુખ્ય સંશોધન
Raul Puri, Jamie Kiros, Hyeonwoo Noh, Long Ouyang, Sandhini Agarwal


