ChatGPT вече може да вижда, чува и говори

Започваме да въвеждаме нови възможности за глас и изображения в ChatGPT. Те предлагат нов, по-интуитивен тип интерфейс, като ви позволяват да водите гласов разговор или да покажете на ChatGPT за какво говорите.
Гласът и изображението ви дават повече възможности да използвате ChatGPT в живота си. Снимайте забележителност, докато пътувате, и проведете разговор на живо за това, което е интересно в нея. Когато сте си вкъщи, снимайте хладилника и килера, за да разберете какво ще вечеряте (и задавайте допълнителни въпроси за рецепта стъпка по стъпка). След вечеря помогнете на детето си да реши задача по математика, като го снимате, оградите задачата и го помолите да сподели подсказки с двама ви.
През следващите две седмици въвеждаме глас и изображения в ChatGPT за потребителите на Plus и Enterprise. Гласът ще бъде достъпен за iOS и Android (с включване в настройките), а изображенията ще бъдат достъпни за всички платформи.
Вече можете да използвате глас, за да водите двустранен разговор с асистента си. Говорете с него по време на път, поискайте приказка за лека нощ за семейството си или разрешете спор на масата.
Използвайте глас, за да водите двустранен разговор с асистента си.
За да започнете с глас, отидете в Настройки → Нови функции в мобилното приложение и се включете в гласови разговори. След това докоснете бутона за слушалки, разположен в горния десен ъгъл на началния екран, и изберете предпочитания глас от пет различни гласа.
Новата гласова функция се захранва от нов модел за преобразуване на текст в реч, който може да генерира звук, подобен на човешкия, само от текст и няколко секунди примерна реч. За създаването на всеки от гласовете си сътрудничихме с професионални актьори. Използваме и системата за разпознаване на реч с отворен код Whisper, за да транскрибираме произнесените от вас думи в текст.
Вече можете да покажете на ChatGPT едно или повече изображения. Открийте причината, поради която грилът ви не се стартира, проучете съдържанието на хладилника, за да планирате хранене, или анализирайте сложна графика за данни, свързани с работата. За да се фокусирате върху конкретна част от изображението, можете да използвате инструмента за рисуване в нашето мобилно приложение.
Покажете на ChatGPT едно или повече изображения.
За да започнете, докоснете бутона за снимка, за да заснемете или изберете изображение. Ако сте на iOS или Android, първо докоснете бутона плюс. Можете също така да обсъждате няколко изображения или да използвате нашия инструмент за рисуване, за да насочите асистента си.
Разбирането на изображенията се осъществява с помощта на мултимодални GPT‑3.5 и GPT‑4. Тези модели прилагат уменията си за езиково разсъждаване към широк спектър от изображения, като снимки, екранни снимки и документи, съдържащи едновременно текст и изображения.
Целта на OpenAI е да изгради AGI, който да бъде безопасен и полезен. Вярваме, че предоставяме инструментите си постепенно, което ни позволява да правим подобрения и да усъвършенстваме намаляването на риска с течение на времето, като същевременно подготвяме всички за по-мощни системи в бъдеще. Тази стратегия става още по-важна при усъвършенстваните модели, включващи глас и зрение.
Новата гласова технология – способна да създава реалистични синтетични гласове само от няколко секунди истинска реч – отваря врати за много творчески и насочени към достъпността приложения. Тези възможности обаче крият и нови рискове, като например възможността злонамерени участници да се представят за публични личности или да извършват измами.
Ето защо използваме тази технология за конкретен случай на употреба – гласов чат. Гласовият чат е създаден с гласови актьори, с които сме работили директно. Сътрудничим си по подобен начин и с други. Например Spotify използва възможностите на тази технология за пилотния проект на своята функция за превод на глас(отваря се в нов прозорец), която помага на подкастърите да разширят обхвата на своите разкази, като превеждат подкасти на допълнителни езици със собствените си гласове.
Моделите, базирани на зрението, също представляват нови предизвикателства, вариращи от халюцинации за хора до разчитане на интерпретацията на изображенията от модела в домейни с високи залози. Преди по-широкото внедряване тествахме модела с „червени екипи“ за риск в домейни като екстремизъм и научна компетентност, както и с разнообразен набор от алфа-тестери. Проучванията ни позволиха да съгласуваме няколко ключови детайла за отговорно използване.
Както и другите функции на ChatGPT, визията е насочена към подпомагане на вашето ежедневие. То прави това най-добре, когато може да види това, което виждате вие.
Този подход е пряко повлиян от работата ни с Be My Eyes, безплатно мобилно приложение за слепи и хора с нарушено зрение, за да разберем употребите и ограниченията. Потребителите са ни казвали, че намират за ценно да водят общи разговори за изображения, в които има хора на заден план, например ако някой се появи по телевизията, докато се опитвате да разберете настройките на дистанционното управление.
Също така сме предприели технически мерки, за да ограничим значително способността на ChatGPT да анализира и да прави директни изявления за хората, тъй като ChatGPT не винаги е точен, а тези системи трябва да зачитат неприкосновеността на личния живот на хората.
Използването в реалния свят и обратната връзка ще ни помогнат да подобрим тези предпазни мерки, като същевременно запазим полезността на инструмента.
Потребителите могат да разчитат на ChatGPT за специализирани теми, например в области като научните изследвания. Ние сме прозрачни по отношение на ограниченията на модела и не насърчаваме случаите на употреба с по-висок риск без подходяща проверка. Освен това моделът умее да транскрибира английски текст, но се справя слабо с някои други езици, особено с тези, които не са написани на латиница. Съветваме нашите потребители, които не говорят английски, да не използват ChatGPT за тази цел.
Можете да прочетете повече за нашия подход към безопасността и работата ни с Be My Eyes в картата на системата за въвеждане на изображения.
Потребителите на Plus и Enterprise ще могат да използват глас и изображения през следващите две седмици. С нетърпение очакваме скоро след това да предоставим тези възможности и на други групи потребители, включително разработчици.
Автор
Благодарности
Основно изследване на гласовия режим
Алек Радфорд, Тао Сю, Джонг Ук Ким
Основни изследвания за внедряване на визията
Раул Пури, Джейми Кирос, Хьонву Нох, Лонг Оуянг, Сандхини Агарвал


