ChatGPT енді көре, ести және сөйлей алады

Біз ChatGPT‑те жаңа дауыс және кескін мүмкіндіктерін кезең-кезеңімен енгізе бастадық. Олар сізге дауыспен сөйлесуге немесе ChatGPT‑ке не туралы айтып тұрғаныңызды көрсетуге мүмкіндік беріп, интерфейстің жаңа, анағұрлым интуитивті түрін ұсынады.
Дауыс пен кескін ChatGPT‑ті өміріңізде қолданудың көбірек жолын береді. Саяхат кезінде көрікті жердің суретін түсіріп, оның несі қызық екені туралы тікелей әңгіме жүргізіңіз. Үйде тоңазытқышыңыз бен азық-түлік сөреңіздің суреттерін түсіріп, кешкі асқа не дайындауға болатынын анықтаңыз (және қадамдық рецепт үшін қосымша сұрақтар қойыңыз). Кешкі астан кейін балаңызға математика есебіне көмектесу үшін суретке түсіріп, тапсырма бөлігін дөңгелектеп, екеуіңізге де ишаралар беруін сұраңыз.
Келесі екі апта ішінде ChatGPT‑тегі дауыс пен кескіндерді Plus және Enterprise пайдаланушыларына ұсынамыз. Дауыс iOS және Android жүйелерінде келеді (параметрлерде қосылады), ал кескіндер барлық платформаларда қолжетімді болады.
Енді ассистентіңізбен дауыс арқылы екіжақты әңгіме жүргізе аласыз. Жолда келе жатып онымен сөйлесіңіз, отбасыңызға ұйықтар алдындағы ертегі сұраңыз немесе кешкі ас үстіндегі дауды шешіңіз.
Use voice to engage in a back-and-forth conversation with your assistant.
Дауыс мүмкіндігін бастау үшін мобильді қолданбадағы Settings → New Features бөліміне өтіп, дауыс арқылы сөйлесуге қосылыңыз. Содан кейін басты экранның жоғарғы оң жақ бұрышындағы құлаққап түймесін түртіп, бес түрлі дауыстың ішінен өзіңізге ұнағанын таңдаңыз.
Жаңа дауыс мүмкіндігі тек мәтін мен бірнеше секундтық дауыс үлгісінен адамға ұқсас дыбыс жасай алатын жаңа мәтіннен сөйлеуге модельмен жұмыс істейді. Әр дауысты жасау үшін біз кәсіби дауыс актерлерімен жұмыс істедік. Сондай-ақ айтқан сөздеріңізді мәтінге түсіру үшін ашық кодты сөйлеуді тану жүйеміз Whisper-ді қолданамыз.
Енді ChatGPT‑ке бір немесе бірнеше кескін көрсете аласыз. Гриліңіз неге жанбай тұрғанын анықтаңыз, ас дайындауды жоспарлау үшін тоңазытқыш ішін зерттеңіз немесе жұмысқа қатысты деректерге арналған күрделі графикті талдаңыз. Кескіннің нақты бір бөлігіне назар аударту үшін мобильді қолданбамыздағы сызу құралын пайдалана аласыз.
Show ChatGPT one or more images.
Бастау үшін сурет түймесін түртіп, кескін түсіріңіз немесе таңдаңыз. Егер iOS немесе Android жүйесінде болсаңыз, алдымен плюс түймесін түртіңіз. Сондай-ақ бірнеше кескінді бірге талқылай аласыз немесе ассистентіңізге бағыт беру үшін біздің сызу құралын пайдалана аласыз.
Кескінді түсіну multimodal GPT‑3.5 және GPT‑4 арқылы жұмыс істейді. Бұл модельдер фотосуреттер, скриншоттар және мәтін мен кескін қатар болатын құжаттар сияқты түрлі кескіндерге тілдік ой қорыту дағдыларын қолданады.
OpenAI мақсаты — қауіпсіз әрі пайдалы AGI құру. Біз құралдарымызды біртіндеп қолжетімді етуге сенеміз, өйткені бұл бізге уақыт өте келе жақсартулар енгізуге, тәуекелді азайту шараларын жетілдіруге және болашақтағы қуаттырақ жүйелерге барлығын дайындауға мүмкіндік береді. Дауыс пен көруді қамтитын озық модельдер жағдайында бұл стратегия одан да маңызды бола түседі.
Жаңа дауыс технологиясы — шынайы сөйлеудің бірнеше секунды негізінде шынайы синтетикалық дауыстар жасай алатын — шығармашылыққа және қолжетімділікке бағытталған көптеген қолданбаларға жол ашады. Алайда бұл мүмкіндіктер қоғамдық тұлғалардың атын жамылу немесе алаяқтық жасау сияқты жаңа қауіптерді де тудырады.
Сондықтан біз бұл технологияны нақты бір қолдану жағдайын — voice chat-ты — қолдау үшін пайдаланамыз. Voice chat біз тікелей жұмыс істеген дауыс актерлерімен жасалды. Біз басқалармен де ұқсас түрде ынтымақтасып жатырмыз. Мысалы, Spotify бұл технологияның қуатын өздерінің Voice Translation(жаңа терезеде ашылады) функциясының пилотында қолдануда, ол подкастерлерге подкасттарды қосымша тілдерге өз дауыстарымен аудару арқылы әңгімелерінің ауқымын кеңейтуге көмектеседі.
Көруге негізделген модельдер де адамдар туралы галлюцинациялардан бастап, жоғары тәуекелді салаларда кескіндерді модельдің түсіндіруіне сүйенуге дейін жаңа қиындықтар туғызады. Кеңірек енгізудің алдында біз модельді экстремизм және ғылыми құзырет сияқты салалардағы тәуекелдер бойынша red team мамандарымен және әртүрлі alpha тестерлер тобымен сынадық. Зерттеуіміз жауапты пайдалануға қатысты бірнеше маңызды жайт бойынша ұстаным қалыптастыруға мүмкіндік берді.
ChatGPT‑тің басқа мүмкіндіктері сияқты, көру де күнделікті өміріңізде көмектесуге арналған. Ол мұны сіз көргенді көре алғанда жақсырақ орындайды.
Бұл тәсіл қолдану жолдары мен шектеулерін түсіну үшін біз соқыр және нашар көретін адамдарға арналған тегін мобильді қолданба Be My Eyes-пен жүргізген жұмысымызға тікелей негізделді. Пайдаланушылар бізге фонда адамдар бар кескіндер туралы жалпы әңгімелесу пайдалы екенін айтты, мысалы, пульт баптауларын түсінуге тырысып жатқанда теледидардан біреу көрініп қалса.
Сондай-ақ ChatGPT әрдайым дәл бола бермейтіндіктен және мұндай жүйелер адамдардың құпиялылығын құрметтеуі тиіс болғандықтан, ChatGPT‑тің адамдарды талдап, олар туралы тікелей пікір айту қабілетін едәуір шектеу үшін техникалық шаралар қабылдадық.
Нақты әлемдегі қолдану мен кері байланыс құралдың пайдалы болып қалуын сақтай отырып, бұл қорғаныс шараларын одан әрі жақсартуға көмектеседі.
Пайдаланушылар ChatGPT‑ке арнайы тақырыптар бойынша, мысалы зерттеу сияқты салаларда, сүйенуі мүмкін. Біз модельдің шектеулері туралы ашықпыз және тиісті тексерусіз жоғары тәуекелді қолдану жағдайларын құптамаймыз. Бұдан бөлек, модель ағылшын мәтінін транскрипциялауда жақсы, бірақ кейбір басқа тілдерде, әсіресе роман емес жазуы бар тілдерде, нашар жұмыс істейді. Сондықтан ағылшын емес тілдегі пайдаланушыларымызға бұл мақсатта ChatGPT‑ті қолданбауға кеңес береміз.
Қауіпсіздікке көзқарасымыз және Be My Eyes-пен жұмысымыз туралы толығырақ кескін енгізуге арналған жүйе картасынан оқи аласыз.
Plus және Enterprise пайдаланушылары келесі екі аптада дауыс пен кескіндерді қолданып көре алады. Көп ұзамай бұл мүмкіндіктерді басқа пайдаланушы топтарына, соның ішінде әзірлеушілерге де ұсынуға қуаныштымыз.
Автор
Алғыс
Дауыс режимінің негізгі зерттеуі
Alec Radford, Tao Xu, Jong Wook Kim
Көруді енгізудің негізгі зерттеуі
Raul Puri, Jamie Kiros, Hyeonwoo Noh, Long Ouyang, Sandhini Agarwal


