25 सितंबर 2023

ChatGPT अब देख, सुन और बोल सकता है

हम ChatGPT में नई वॉइस और इमेज क्षमताओं को पेश करना शुरू कर रहे हैं. वे आपको वॉइस से बातचीत करने या ChatGPT को ये दिखाने की अनुमति देकर एक नया, और ज़्यादा सूचनात्मक इंटरफ़ेस देते हैं कि आप किस बारे में बात कर रहे हैं.

वॉइस और इमेज आपको अपने जीवन में ChatGPT का इस्तेमाल करने के और ज़्यादा तरीके देते हैं. सफ़र करते समय किसी ऐतिहासिक स्थल का पिक्चर लें और उसमें क्या दिलचस्प है, इस बारे में लाइव बातचीत करें. जब आप घर पर हों, तो अपने फ़्रिज और पैंट्री के पिक्चर्स लें ताकि पता चल सके कि डिनर में क्या बनाया जाएगा (और स्टेप दर स्टेप रेसिपी के लिए फ़ॉलो अप सवाल पूछें). डिनर के बाद, अपने बच्चे का गणित का एक प्रॉब्लम हल करने में उसकी मदद करें, उसकी फ़ोटो लें, प्रॉब्लम सेट को सर्कल करें और उसे आप दोनों के साथ हिंट्स शेयर करने के लिए कहें.

हम अगले दो सप्ताह में प्लस और Enterprise यूज़र्स के लिए ChatGPT में वॉइस और इमेज उपलब्ध करा रहे हैं. वॉइस फ़ीचर iOS और Android पर भी उपलब्ध होगा (अपनी सेटिंग्स में जाकर इसे चुनें) और इमेज सभी प्लैटफ़ॉर्म पर उपलब्ध होंगे.

ChatGPT से बात करें और उसे वापस जवाब देने दें

अब आप अपने असिस्टेंट के साथ बातचीत करने के लिए वॉइस का इस्तेमाल कर सकते हैं. चलते-फ़िरते इसके साथ बात करें, अपनी फ़ैमिली के लिए एक बेडटाइम स्टोरी सुनाने का अनुरोध करें, या खाने के टेबल पर छिड़ी बहस को सुलझाएं.

अपने असिस्टेंट के साथ बातचीत करने के लिए वॉइस का इस्तेमाल करें.

वॉइस के साथ शुरू करने के लिए, मोबाइल ऐप पर सेटिंग्स → नए फ़ीचर्स पर जाएं और वॉइस बातचीतों का विकल्प चुनें. फिर, होम स्क्रीन के ऊपरी-दाएं कोने में स्थित हेडफ़ोन बटन पर टैप करें और पांच अलग-अलग वॉइस में से अपनी पसंदीदा वॉइस चुनें.

नई वॉइस क्षमता एक नए टेक्स्ट-टू-स्पीच मॉडल द्वारा संचालित है, जो सिर्फ़ टेक्स्ट और कुछ सेकंड की सैंपल स्पीच से इंसानों-जैसी ऑडियो जनरेट कर सकता है. हमने हर वॉइस को तैयार करने के लिए प्रोफ़ेशनल वॉइस अभिनेताओं के साथ सहयोग किया. हम आपके बोले गए शब्दों को टेक्स्ट में बदलने के लिए हमारी ओपन-सोर्स स्पीच रिकग्निशन सिस्टम, Whisper का भी इस्तेमाल करते हैं.

लोड किया जा रहा है...

इमेज के बारे में बातचीत करें

अब आप ChatGPT को एक या ज़्यादा इमेज दिखा सकते हैं. इनका समाधान करें कि आपकी ग्रिल क्यों चालू नहीं हो रही है, खाने का प्लान करने के लिए अपने फ़्रिज की सामग्रियों का पता लगाएं, या कार्य-संबंधी डेटा के लिए एक बहुत मुश्किल ग्राफ़ को एनालाइज़ करें. इमेज के किसी ख़ास भाग पर फ़ोकस करने के लिए, आप हमारे मोबाइल ऐप में ड्रॉइंग टूल का इस्तेमाल कर सकते हैं.

ChatGPT को एक या ज़्यादा इमेज दिखाएं.

शुरू करने के लिए, कोई इमेज लेने या चुनने के लिए फ़ोटो बटन पर टैप करें. अगर आप iOS या Android पर हैं, तो पहले प्लस बटन पर टैप करें. आप कई इमेज पर चर्चा कर सकते हैं या अपने असिस्टेंट को गाइडेंस देने के लिए हमारे ड्रॉइंग टूल का इस्तेमाल कर सकते हैं.

इमेज की समझ मल्टीमॉडल GPT‑3.5 और GPT‑4 द्वारा संचालित है. ये मॉडल अपनी लैंग्वेज रीज़निंग-स्किल्स का प्रयोग अलग-अलग तरह की इमेज पर करते हैं, जैसे फ़ोटोग्राफ़, स्क्रीनशॉट्स, व टेक्स्ट और इमेज दोनों युक्त डॉक्यूमेंट्स.

हम धीरे-धीरे इमेज और वॉइस की क्षमताओं को डिप्लॉय कर रहे हैं

OpenAI का लक्ष्य ऐसा AGI बनाना है जो सुरक्षित और लाभकारी हो. हम अपने टूल्स को धीरे-धीरे उपलब्ध कराने में विश्वास करते हैं, जिससे हमें समय के साथ सुधार करने और रिस्क मिटिगेशन को बेहतर बनाने में मदद मिलती है, साथ ही भविष्य में और ज़्यादा शक्तिशाली सिस्टम के लिए सभी को तैयार करने में भी मदद मिलती है. वॉइस और विज़न से जुड़े एडवांस्ड मॉडल्स के साथ ये स्ट्रैटेजी और भी ज़रूरी हो जाती है.

वॉइस

नई वॉइस टेक्नोलॉजी—जो कुछ ही सेकंड की असली स्पीच से रीयलिस्टिक सिंथेटिक वॉइसेस तैयार कर सकती है— कई क्रिएटिव और एक्सेसिबिलिटी-केंद्रित ऐप्लिकेशन्स के लिए राह बनाती है. हालांकि, ये कैपेबिलिटी नए जोखिम भी प्रस्तुत करती हैं, जैसे दुर्भावनापूर्ण लोगों द्वारा सार्वजनिक हस्तियों का वेष बदलने या धोखाधड़ी करने की संभावना.

यही कारण है कि हम इस तकनीक का इस्तेमाल एक ख़ास यूज़ केस—वॉइस चैट को सशक्त बनाने के लिए कर रहे हैं. वॉइस चैट उन वॉइस एक्टर्स के साथ बनाई गई है जिनके साथ हमने सीधे काम किया है. हम दूसरे लोगों के साथ भी इसी तरह सहयोग कर रहे हैं. जैसे कि, Spotify इस तकनीक की शक्ति का इस्तेमाल अपने वॉइस ट्रांसलेशन फ़ीचर⁠(एक नई विंडो में खुलेगा) के पायलट के लिए कर रहा है, जो पॉडकास्टर्स को पॉडकास्टर्स की अपनी वॉइस में पॉडकास्ट को अतिरिक्त भाषाओं में अनुवाद करके उनकी कहानी कहने की पहुंच को बढ़ाने में मदद करता है.

इमेज इनपुट

विज़न-बेस्ड मॉडल्स नई चुनौतियां भी प्रस्तुत करते हैं, जिनमें लोगों के बारे में मतिभ्रम से लेकर उच्च-दांव वाले क्षेत्रों में इमेज की मॉडल की व्याख्या पर निर्भर रहना शामिल है. व्यापक डिप्लॉयमेंट से पहले, हमने अतिवाद और वैज्ञानिक दक्षता जैसे क्षेत्रों में जोखिम के लिए रेड टीमर्स और अल्फ़ा टेस्टर्स के एक विविध समूह के साथ मॉडल को टेस्ट किया. हमारी रिसर्च से हमें ज़िम्मेदार इस्तेमाल के लिए कुछ ख़ास जानकारियों पर सहमति बनाने में मदद मिली.

विज़न को उपयोगी और सुरक्षित बनाना

दूसरे ChatGPT फ़ीचर्स की तरह, विज़न का उद्देश्य आपकी रोज़मर्रा की ज़िन्दगी में मदद करना है. ये सबसे बढ़िया तब होता है जब ये वही देख पाए जो आप देख रहे हैं.

ये दृष्टिकोण, दृष्टिहीन और कम-विज़न वाले लोगों के लिए एक मुफ़्त मोबाइल ऐप, Be My Eyes के साथ हमारे काम से सीधे तौर पर प्रभावित हुआ है, ताकि इसके इस्तेमाल और सीमाओं को समझा जा सके. यूज़र्स ने हमें बताया है कि वे उन इमेज के बारे में आम बातचीत करना कीमती समझते हैं जिनमें बैकग्राउंड में लोग मौजूद होते हैं, जैसे कि जब आप अपने रिमोट कंट्रोल की सेटिंग का पता लगाने की कोशिश कर रहे हों और कोई व्यक्ति TV पर दिखाई दे.

हमने लोगों के बारे में सीधे बयान देने और उन्हें एनालाइज़ करने की ChatGPT की क्षमता को सीमित करने के लिए तकनीकी उपाय भी किए हैं, क्योंकि ChatGPT हमेशा सटीक नहीं होता है और इन सिस्टम्स को लोगों की प्राइवेसी का सम्मान करना चाहिए.

असली दुनिया में इस्तेमाल और फ़ीडबैक से हमें इन सुरक्षा उपायों को और बेहतर बनाने में मदद मिलेगी, साथ ही टूल को उपयोगी बनाए रखने में भी मदद मिलेगी.

मॉडल की सीमाओं के बारे में पारदर्शिता

यूज़र्स ख़ास विषयों के लिए ChatGPT पर निर्भर हो सकते हैं, जैसे कि रिसर्च जैसे क्षेत्रों में. हम मॉडल की सीमाओं के बारे में पारदर्शी हैं और उचित वेरिफ़िकेशन के बिना उच्च जोखिम वाले यूज़ केसेस को हतोत्साहित करते हैं. इसके अलावा, ये मॉडल अंग्रेज़ी टेक्स्ट को ट्रांस्क्राइब करने में माहिर है, लेकिन कुछ दूसरी भाषाओं, ख़ास कर नॉन-रोमन स्क्रिप्ट वाली भाषाओं में इसका यह ख़राब परफ़ॉर्म करता है. हम अपने गैर-अंग्रेज़ी यूज़र्स को इस उद्देश्य के लिए ChatGPT का इस्तेमाल न करने की सलाह देते हैं.

आप सुरक्षा के प्रति हमारे दृष्टिकोण और Be My Eyes के साथ हमारे काम के बारे में और ज़्यादा जानकारी सिस्टम कार्ड में इमेज इनपुट⁠ के लिए पढ़ सकते हैं.

हम एक्सेस को और बढ़ाएंगे

Plus और Enterprise यूज़र्स को अगले दो सप्ताह में वॉइस और इमेज का अनुभव मिलेगा. हम जल्द ही डेवलपर्स सहित अन्य यूज़र्स के ग्रुप के लिए इन क्षमताओं को शुरू करने के लिए उत्साहित हैं.

लेखक

OpenAI

स्वीकृतियां

वॉइस मोड कोर रिसर्च

एलेक्स रैडफ़ोर्ड, ताओ ज़ू, जोंग वुक किम

विज़न डिप्लॉयमेंट कोर रिसर्च

राउल पुरी, जेमी किरोस, ह्योनवू नोह, लॉन्ग ओयांग, संधिनी अग्रवाल

GPT-4V(ision) तकनीकी कार्य और लेखक देखें⁠