ChatGPT сега може да гледа, слуша и зборува

Почнуваме да воведуваме нови гласовни и сликовни можности во ChatGPT. Тие нудат нов, поинтуитивен тип на интерфејс, овозможувајќи ти да имаш гласовен разговор или да му покажеш на ChatGPT за што зборуваш.
Гласот и сликата ти даваат повеќе начини да го користиш ChatGPT во твојот живот. Сликни фотографија од некоја знаменитост додека патуваш и води разговор во живо за тоа што е интересно за неа. Кога си дома, фотографирај го фрижидерот и оставата за да одлучиш што ќе има за вечера (и поставувај дополнителни прашања за рецепт чекор по чекор). По вечера, помогни му на твоето дете со математички проблем така што ќе направиш фотографија, ќе го заокружиш сетот на проблеми и ќе споделиш совети со двајцата.
Воведуваме глас и слики во ChatGPT за корисниците на Plus и Enterprise во следните две седмици. Гласот ќе биде достапен на iOS и Android (избери да се вклучиш во твоите поставки) и слики ќе бидат достапни на сите платформи.
Сега можеш да користиш глас за да водиш разговор со твојот асистент. Разговарај со него во движење, побарај приказна за добра ноќ за твоето семејство или реши дебата на трпезата за вечера.
Користи глас за да се вклучиш во разговор со твојот асистент.
За да започнеш со глас, оди во „Поставки → Нови функции“ на мобилната апликација и избери да се вклучиш во гласовни разговори. Потоа, допри го копчето за слушалки кое се наоѓа во горниот десен агол на почетниот екран и избери го твојот омилен глас од пет различни гласови.
Новата гласовна можност е поттикната од нов модел за претворање на текст во говор, способен да генерира човечки звук само од текст и неколку секунди примерок на говор. Соработувавме со професионални гласовни актери за да креираме секој од гласовите. Ние исто така го користиме Whisper, нашиот систем за препознавање говор со отворен код, за да ги транскрибираме твоите изговорени зборови во текст.
Сега можеш да му покажеш на ChatGPT една или повеќе слики. Откриј го проблемот зошто твојата скара не се пали, истражи ја содржината на твојот фрижидер за да направиш план за оброк или анализирај сложен графикон за податоци поврзани со работа. За да се фокусираш на одреден дел од сликата, можеш да ја користиш алатката за цртање во нашата мобилна апликација.
Прикажи му на ChatGPT една или повеќе слики.
За да започнеш, допри го копчето за фотографија за да снимиш или избереш слика. Ако си на iOS или Android, прво допри го копчето плус. Можеш исто така да дискутираш за повеќе слики или да ја користиш нашата алатка за цртање за да го насочиш твојот асистент.
Разбирањето на сликите е поттикнато од мултимодалните GPT‑3.5 и GPT‑4. Овие модели ги применуваат своите вештини за јазично расудување на широк спектар на слики, како што се фотографии, слики од екранот и документи што содржат текст и слики.
Целта на OpenAI е да изгради вештачка општа интелигенција (AGI) која е безбедна и корисна. Веруваме во постепено правење достапни на нашите алатки, што ни овозможува да правиме подобрувања и да ги усовршуваме мерките за ублажување на ризиците со текот на времето, додека истовремено ги подготвуваме сите за помоќни системи во иднина. Оваа стратегија станува уште поважна со напредни модели кои вклучуваат глас и видео.
Новата гласовна технологија – способна да создава реалистични синтетички гласови од само неколку секунди реален говор – отвора врати за многу креативни и пристапност-фокусирани апликации. Сепак, овие способности исто така носат нови ризици, како што е можноста злонамерни лица да се претставуваат како јавни личности или да извршат измама.
Затоа ја користиме оваа технологија за да овозможиме специфичен случај на користење – гласовен разговор. Гласовниот разговор беше креиран со гласовни актери со кои директно сме работеле. Ние исто така соработуваме на сличен начин со други. На пример, Spotify ја користи моќта на оваа технологија за пилот проектот на нивната функција за превод на глас(се отвора во нов прозорец) која им помага на поткастерите да го прошират досегот на нивното раскажување со преведување на поткастите на дополнителни јазици во нивните сопствени гласови.
Моделите базирани на визија исто така претставуваат нови предизвици кои се движат од халуцинации за луѓе до потпирање на толкувањето на сликите од страна на моделот во домени со високи влогови. Пред поширока имплементација, го тестиравме моделот со црвени тимови за проценка на ризик во домени како екстремизам и научна компетентност, како и со разновиден сет на алфа тестери. Нашето истражување ни овозможи да се усогласиме околу неколку клучни детали за одговорно користење.
Како и другите функции на ChatGPT, визијата е за да ти помогне во твојот секојдневен живот. Тоа го прави најдобро кога може да види што гледаш.
Овој пристап е директно информиран од нашата работа со Be My Eyes, бесплатна мобилна апликација за слепи и лица со оштетен вид, за да ги разбереме употребите и ограничувањата. Корисниците ни кажаа дека им е корисно да имаат општи разговори за слики кои случајно содржат луѓе во заднина, како на пример кога некој се појавува на телевизија додека се обидуваш да ги подесиш поставките на далечинскиот управувач.
Исто така, презедовме технички мерки за значително ограничување на способноста на ChatGPT да анализира и да дава директни изјави за луѓето, бидејќи ChatGPT не е секогаш точен и овие системи треба да ја почитуваат приватноста на поединците.
Реалната употреба и повратните информации ќе ни помогнат да ги направиме овие заштитни мерки уште подобри додека го задржуваме алатот корисен.
Корисниците можат да се потпрат на ChatGPT за специјализирани теми, на пример во области како истражување. Ние сме транспарентни за ограничувањата на моделот и обесхрабруваме употреба со повисок ризик без соодветна потврда. Понатаму, моделот е вешт во транскрибирање на англиски текст, но слабо се справува со некои други јазици, особено оние со нелатинично писмо. Им советуваме на нашите корисници кои не зборуваат англиски да не го користат ChatGPT за оваа цел.
Можеш да прочиташ повеќе за нашиот пристап кон безбедноста и нашата работа со Be My Eyes во системската картичка за внесување слики.
Plus и Enterprise корисниците ќе можат да ги искусат гласот и сликите во следните две седмици. Возбудени сме да ги воведеме овие можности на други групи корисници, вклучувајќи ги и развивачи на софтвер, наскоро потоа.
Автор
Благодарност
Гласовно истражување на основниот режим
Алек Редфорд, Тао Ксу, Џонг Вук Ким
Визија за имплементација на основно истражување
Раул Пури, Џејми Кирос, Хјеонву Но, Лонг Оујанг, Сандини Агарвал


