Теперь ChatGPT может видеть, слышать и говорить

Мы начинаем внедрять новые голосовые и визуальные возможности в ChatGPT. Это новый, более интуитивно понятный тип интерфейса, который позволит вести голосовую беседу или показывать ChatGPT то, о чем вы говорите.
Голос и изображение дают вам еще больше возможностей для использования ChatGPT в повседневной жизни. Сделайте снимок достопримечательности во время путешествия и проведите живое обсуждение с помощником. Сфотографируйте содержимое холодильника и кладовой, чтобы решить, что приготовить на ужин (задав еще несколько вопросов, получите пошаговый рецепт). После ужина помогите вашему ребенку с домашним заданием: сделайте фото математической задачки, обведите ее и получите советы, которые помогут вам обоим с ее решением.
Возможности голосового общения и анализа изображений будут добавлены в ChatGPT для пользователей планов Plus и Enterprise в течение следующих двух недель. Функция голосового общения станет доступна на iOS и Android (по выбору в настройках), а функция анализа изображений — на всех платформах.
Теперь можно использовать голос, чтобы вести диалог с помощником. Общайтесь с ним на ходу, попросите рассказать интересную историю на ночь или разрешить спор, возникший за ужином.
Теперь можно использовать голос, чтобы вести диалог с помощником.
Чтобы начать работу с голосовым режимом, зайдите в «Настройки» → «Новые возможности» в мобильном приложении и выберите голосовой чат. Затем нажмите кнопку наушников, расположенную в правом верхнем углу главного экрана, и выберите предпочитаемый голос из пяти различных вариантов.
Новая голосовая функция основана на новой модели преобразования текста в речь, которая способна формировать аудио, похожее на человеческую речь, всего лишь из текста и нескольких секунд образца речи. Для создания каждого из голосов мы сотрудничали с профессиональными актёрами озвучивания. Также мы используем Whisper, нашу систему распознавания речи с открытым исходным кодом, для транскрипции вашей речи в текст.
Теперь ChatGPT можно показать одно или несколько изображений. Попросите его разобраться, почему электрогриль перестал работать, изучите содержимое своего холодильника, чтобы спланировать обеды и ужины, или проанализируйте сложную схему из данных по работе. Чтобы модель обратила внимание на конкретную часть изображения, используйте инструмент рисования в нашем мобильном приложении.
Покажите ChatGPT одно или несколько изображений.
Чтобы начать, нажмите кнопку «Фото» и сделайте снимок или выберите изображение. Если вы используете iOS или Android, сначала нажмите кнопку «плюс». Вы также можете обсудить сразу несколько изображений или использовать инструмент для рисования, чтобы дать конкретные указания своему ассистенту.
Анализ изображений осуществляется с использованием мультимодальных моделей GPT‑3.5 и GPT‑4. Эти модели применяют свои навыки языкового рассуждения к широкому спектру изображений, таких как фотографии, скриншоты и документы, содержащие как текст, так и изображения.
Цель OpenAI — создать безопасный и полезный универсальный ИИ. Мы склоняемся к тому, что наши инструменты должны предоставляться постепенно: это позволяет нам со временем вносить улучшения и совершенствовать меры по снижению рисков, а также готовить всех пользователей к более мощным системам в будущем. Эта стратегия становится еще более важной в случае с продвинутыми моделями, включающими голосовой режим и визуальные технологии.
Новая голосовая технология, способная создавать реалистичные голоса всего из нескольких секунд реальной речи, открывает потенциал для множества сценариев использования — как связанных с творчеством, так и ориентированных на специальные возможности. Однако этот потенциал также представляет новые риски: например, возможность злоумышленников выдавать себя за публичных личностей или совершать мошенничество.
Вот почему мы используем эту технологию для одного конкретного сценария использования: голосового чат. Голосовой чат был создан с участием актёров озвучивания. Аналогичным образом мы сотрудничаем и с другими специалистами. Например, Spotify использует возможности этой технологии для пилотного проекта своей функции «Голосовой перевод»(открывается в новом окне), которая помогает ведущим подкастов расширять охват за счет перевода подкастов на другие языки с сохранением собственного голоса ведущего.
С моделями, способными к обработке визуальной информации, связаны и новые риски, начиная от искажения информации об окружении и заканчивая эффективностью использования модели для интерпретации изображений в критически серьезных сферах. Перед более широким развертыванием мы протестировали модель с задействованием «красных команд» для оценки рисков в таких аспектах, как крайности и научная компетентность, а также с задействованием разнообразной группы альфа-тестеров. Наши исследования позволили нам согласовать несколько ключевых деталей для ответственного использования.
Как и другие функции ChatGPT, функция обработки визуальной информации направлена на помощь в вашей повседневной жизни. Помощник работает лучше всего, когда может видеть то же самое, что видите вы.
Этот подход был непосредственно сформирован нашей работой с Be My Eyes — бесплатным мобильным приложением для незрячих и слабовидящих людей, что позволило нам понять его возможности и ограничения. Пользователи сообщали нам, что считают полезной возможность обсуждать изображения, на заднем плане которых видны люди — например, если кто-то появляется на экране телевизора, пока вы пытаетесь разобраться с настройками пульта дистанционного управления.
Мы также приняли технические меры, чтобы значительно ограничить способность ChatGPT анализировать и делать прямые заявления о людях, так как ChatGPT не всегда точен, и эти системы должны уважать частную жизнь людей.
Реальное использование и отзывы помогут нам сделать эти меры безопасности еще лучше, сохраняя полезность инструмента.
Пользователи могут использовать ChatGPT для поиска информации по специализированным темам — например, в таких областях, как исследования. Мы открыто говорим об ограничениях модели и не рекомендуем использовать ее в критически серьезных ситуациях без надлежащей проверки. Кроме того, модель хорошо справляется с транскрипцией английского текста, но плохо работает с некоторыми другими языками, особенно с теми, которые используют не латинский скрипт. В связи с этим мы не можем рекомендовать нашим неанглоязычным пользователям использовать ChatGPT для описанных целей.
Вы можете узнать больше о нашем подходе к безопасности и сотрудничестве с Be My Eyes в системной карте для ввода изображений.
Пользователи тарифов Plus и Enterprise смогут начать использовать голос и анализ изображений в ближайшие две недели. Мы с нетерпением ждем возможности вскоре предоставить эти функции другим группам пользователей, включая разработчиков.
Автор
Благодарности
Исследования голосового режима
Алек Рэдфорд, Тао Сюй, Чон Ук Ким
Исследования возможностей обработки визуальной информации
Рауль Пури, Джейми Кирос, Хёнву Но, Лонг Оуян, Сандини Агарвал


