25 вересня 2023 р.

Тепер ChatGPT може бачити, чути та говорити

Ми починаємо поетапно впроваджувати нові голосові та візуальні можливості в ChatGPT. Вони пропонують новий, більш інтуїтивний спосіб взаємодії, дозволяючи вам вести голосову розмову або показати ChatGPT, про що йдеться.

Голос і зображення дають вам більше способів використовувати ChatGPT у повсякденному житті. Зробіть фото пам’ятки під час подорожі й поговоріть у режимі реального часу про те, що в ній цікавого. Вдома сфотографуйте вміст холодильника та кухонної шафи, щоб визначити, що приготувати на вечерю (і поставте додаткові запитання, щоб отримати покроковий рецепт). Після вечері допоможіть дитині з математичною задачею: зробіть фото, обведіть потрібний приклад і попросіть модель поділитися підказками з вами обома.

Можливості голосового спілкування та аналізу зображень будуть додані до ChatGPT для користувачів планів Plus та Enterprise протягом наступних двох тижнів. Функція голосового спілкування буде доступна на iOS та Android (на вибір у налаштуваннях), а функція аналізу зображень — на всіх платформах.

Спілкуйтеся з ChatGPT і отримуйте відповідь

Тепер можна використовувати голос, щоб вести діалог із помічником. Спілкуйтеся з ним на ходу, попросіть розповісти цікаву історію на ніч або вирішити суперечку, яка виникла за вечерею.

Use voice to engage in a back-and-forth conversation with your assistant.

Щоб почати роботу з функцією голосового спілкування, перейдіть до розділу Налаштування → Нові функції в мобільному застосунку та увімкніть голосові розмови. Далі натисніть на кнопку із зображенням навушників, розташовану у верхньому правому куті головного екрана, і виберіть бажаний голос із п'яти запропонованих.

Нова голосова функція заснована на новій моделі перетворення тексту на мову, яка здатна генерувати аудіо, схоже на людську мову, лише з тексту та кількох секунд зразка розмови. Для створення кожного голосу ми співпрацювали з професійними акторами озвучування. Також ми використовуємо Whisper, нашу систему розпізнавання мови з відкритим вихідним кодом для транскрипції ваших слів у текст.

Завантаження...

Обговорюйте зображення в чаті

Тепер можна показати ChatGPT одне або кілька зображень. З'ясуйте, чому ваш гриль не запускається, оцініть, що можна приготувати на обід із вмістом вашого холодильника, або проаналізуйте складний графік із робочими даними. Щоб зосередитися на певній частині зображення, ви можете скористатися інструментом малювання в нашому мобільному застосунку.

Show ChatGPT one or more images.

Щоб почати, торкніться кнопки фото, щоб зробити знімок або вибрати зображення. Якщо ви користуєтесь iOS чи Android, спочатку натисніть кнопку «плюс». Ви також можете обговорювати кілька зображень або скористатися нашим інструментом для малювання, щоб скеровувати роботу асистента.

Розуміння зображень працює на основі багатомодальних GPT‑3.5 та GPT‑4. Ці моделі застосовують свої навички аргументації до широкого спектра зображень — фотографій, знімків екрана та документів, що містять і текст, і зображення.

Ми поступово впроваджуємо можливості роботи з зображеннями та голосовими функціями

Мета OpenAI — створити безпечний та корисний універсальний ШІ. Ми схиляємося до того, що наші інструменти повинні надаватися поступово: це дозволяє нам поступово вносити покращення та вдосконалювати заходи для зниження ризиків, а також готувати всіх користувачів до більш потужних систем у майбутньому. Ця стратегія стає ще більш важливою у випадку просунутих моделей, що включають голосовий режим і візуальні технології.

Голосовий режим

Нова голосова технологія, здатна створювати реалістичні голоси всього з кількох секунд реальної мови, відкриває потенціал для безлічі сценаріїв використання — як пов'язаних із творчістю, так і орієнтованих на спеціальні можливості. Однак цей потенціал також становить нові ризики: наприклад, можливість зловмисників видавати себе за громадських осіб або здійснювати шахрайство.

Саме тому ми використовуємо цю технологію для одного конкретного сценарію використання: голосовий чат. Голосовий чат було створено за участю акторів озвучування. Аналогічним чином ми співпрацюємо й з іншими фахівцями. Наприклад, Spotify використовує можливості цієї технології для пілотного проєкту своєї функції «Голосовий переклад»⁠(відкривається у новому вікні), яка допомагає ведучим подкастів розширювати охоплення за рахунок перекладу подкастів іншими мовами зі збереженням власного голосу ведучого.

Введення зображень

Із моделями, здатними до обробки візуальної інформації, пов'язані й нові ризики, починаючи від спотворення інформації про оточення і до ефективності використання моделі для інтерпретації зображень у критично серйозних сферах. Перед ширшим розгортанням ми протестували модель із залученням «червоних команд» для оцінки ризиків у таких аспектах, як крайнощі та наукова компетентність, а також із залученням різноманітної групи альфа-тестерів. Наші дослідження дозволили нам узгодити кілька ключових деталей відповідального використання.

Користь та безпека обробки візуальної інформації

Як і інші функції ChatGPT, функція обробки візуальної інформації спрямована на допомогу людині в повсякденному житті. Помічник працює найкраще, коли може бачити те саме, що бачите ви.

Цей підхід був безпосередньо сформований нашою роботою з Be My Eyes — безкоштовним мобільним додатком для незрячих і людей із вадами зору, що дозволило нам зрозуміти його можливості та обмеження. Користувачі повідомляли нам, що вважають корисною можливість обговорювати зображення, на задньому плані яких видно люди — наприклад, якщо хтось з'являється на екрані телевізора, поки ви намагаєтеся розібратися з налаштуваннями пульта дистанційного керування.

Ми також прийняли технічних заходів, аби суттєво обмежити здатність ChatGPT аналізувати та робити прямі заяви про людей, оскільки ChatGPT не завжди точний, і ці системи мають поважати приватне життя людей.

Реальне використання та відгуки допоможуть нам зробити ці заходи безпеки ще кращими, зберігаючи корисність інструменту.

Відкритість щодо обмежень моделі

Користувачі можуть використовувати ChatGPT для пошуку інформації за спеціалізованими темами, наприклад, у таких областях, як дослідження. Ми відкрито говоримо про обмеження моделі та не рекомендуємо використовувати її у критично серйозних ситуаціях без належної перевірки. Крім того, модель добре справляється з транскрипцією англійського тексту, але погано працює з іншими мовами, особливо з тими, які використовують не латинський скрипт. У зв'язку з цим ми не можемо рекомендувати нашим неангломовним користувачам використовувати ChatGPT для описаних цілей.

Ви можете дізнатися більше про наш підхід до безпеки та співпраці з Be My Eyes у системній карті щодо введення зображень⁠.

Планується розширення доступу

Користувачі тарифів Plus та Enterprise зможуть почати використовувати голос та аналіз зображень у найближчі два тижні. Ми з нетерпінням чекаємо на можливість незабаром надати ці функції іншим групам користувачів, включаючи розробників.