Это новый шаг OpenAI на пути масштабирования технологий глубокого обучения. GPT‑4 — мощная мультимодальная модель, способная воспринимать как текст, так и изображения и создавать текстовые ответы. Хотя в ряде жизненных ситуаций она уступает человеку, ее результаты на профессиональных и академических тестах соответствуют человеческому уровню. Например, в симуляции экзамена на адвокатскую лицензию модель GPT‑4 показала результат, соответствующий лучшим 10 % результатов участников, тогда как GPT‑3.5 находилась в худших 10 %. В течение 6 месяцев мы пошагово совершенствовали GPT‑4 , используя опыт, накопленный в рамках программы стресс-тестирования и работы с ChatGPT. Это позволило достичь лучших на данный момент показателей по точности, управляемости и способности модели следовать установленным ограничениям, хотя до идеала все еще далеко.
За последние два года мы полностью перестроили нашу инфраструктуру глубокого обучения и совместно с Azure спроектировали суперкомпьютер, созданный с нуля специально под наши задачи. Год назад мы обучили GPT‑3.5 как первый «пробный вариант» для новой системы. В ходе работы мы обнаружили и устранили ряд ошибок, а также улучшили теоретические основы. В результате обучение GPT‑4 прошло беспрецедентно стабильно (по нашим меркам), став первым крупным проектом, в котором мы смогли точно предсказать производительность еще до запуска. Продолжая развивать направление масштабируемости, мы стремимся оттачивать методологию, чтобы уметь заранее прогнозировать и готовиться к будущим возможностям моделей, что считаем критически важным для обеспечения безопасности.
Мы запускаем текстовые возможности GPT‑4 через ChatGPT и API (со списком ожидания). Чтобы подготовить функцию обработки изображений к более широкому внедрению, мы на первом этапе сотрудничаем с одним партнером(открывается в новом окне). Кроме того, мы открываем исходный код OpenAI Evals(открывается в новом окне) (нашей платформы для автоматической оценки производительности моделей ИИ). Это позволит всем желающим сообщать о недостатках моделей и тем самым помогать в их дальнейшем совершенствовании.
В повседневном диалоге разница между GPT‑3.5 и GPT‑4 может показаться незначительной. Однако она становится очевидной, когда задача достигает определенного уровня сложности. GPT‑4 демонстрирует большую надежность, креативность и способность понимать более тонкие и многослойные инструкции, чем GPT‑3.5.
Чтобы понять различия между двумя моделями, мы провели серию тестов, включая симуляцию экзаменов, изначально предназначенных для людей. Мы использовали самые последние общедоступные версии тестов (например, задания Олимпиад и открытые вопросы AP) или приобретали практические экзамены за 2022–2023 годы. Специального обучения для прохождения этих тестов не проводилось. Небольшая часть заданий могла встретиться модели во время обучения, однако мы считаем, что полученные результаты отражают реальные способности модели (подробности приведены в нашем техническом отчете(открывается в новом окне)).
внутреннее примечание A
Мы также провели оценку GPT‑4 с использованием традиционных тестов, применяемых для моделей машинного обучения. По результатам этих тестов GPT‑4 значительно превосходит как существующие крупные языковые модели, так и большинство передовых (SOTA) систем, включая те, что специально адаптированы под конкретные тесты или обучены по усовершенствованным протоколам:
Большинство существующих тестов машинного обучения написаны на английском языке. Чтобы предварительно оценить возможности GPT‑4 на других языках, мы перевели тест MMLU (набор из 14 000 вопросов с множественным выбором по 57 дисциплинам) на различные языки с помощью Azure Translate (см. Приложение). В 24 из 26 протестированных языков GPT‑4 превзошла показатели GPT‑3.5 и других крупных языковых моделей (Chinchilla, PaLM), включая языки с ограниченными ресурсами, такие как латышский, валлийский и суахили:
Мы также используем GPT‑4 внутри компании, и это уже дало значительный эффект в таких направлениях, как поддержка пользователей, продажи, модерация контента и программирование. Кроме того, модель помогает специалистам оценивать результаты работы других систем ИИ, что знаменует собой начало второго этапа нашей стратегии соответствия.
GPT‑4 может принимать запросы, содержащие текст и изображения, что, аналогично текстовому режиму, позволяет пользователю задавать любые задачи, связанные с обработкой языка или визуальной информации. Модель генерирует текстовые ответы (например, на естественном языке, в виде кода и т. д.) на основе входящих данных, где текст и изображения могут чередоваться. В различных областях, от документов с текстом и фотографиями до схем или скриншотов, GPT‑4 демонстрирует возможности, схожие с теми, что проявляются при работе только с текстом. Кроме того, модель может быть дополнена методами, применяемыми при работе с исключительно текстовыми моделями, включая обучение few-shot (с несколькими примерами) и цепочки рассуждений(открывается в новом окне). Возможность ввода изображений пока находится на стадии исследовательского тестирования и недоступна для широкой аудитории.
Мы предварительно оцениваем производительность модели GPT‑4, проверяя ее на ограниченном наборе стандартных академических визуальных тестов. Однако эти результаты не отражают весь спектр возможностей модели, поскольку мы постоянно открываем новые, удивительные задачи, с которыми она успешно справляется. В ближайшее время мы планируем опубликовать дополнительные аналитические данные и результаты оценок, а также подробно исследовать влияние различных методов, применяемых во время тестирования.
внутреннее примечание A
Мы продолжаем работу по всем направлениям, обозначенным в нашем плане по определению поведения систем искусственного интеллекта, включая возможность управления их стилем. В отличие от классической версии ChatGPT с фиксированной манерой общения, длиной ответов и тоном написания текста, разработчики (а вскоре и пользователи ChatGPT) теперь могут задавать стиль и задачу модели, описывая инструкции в «системном» сообщении. Такие сообщения позволяют пользователям API значительно настраивать взаимодействие с моделью в установленных рамках(открывается в новом окне). Мы продолжаем совершенствовать эту область (особенно учитывая, что системные сообщения это самый простой способ «взломать» текущую модель, то есть соблюдение ограничений пока не идеально), но приглашаем вас попробовать эту функцию и поделиться отзывами.
Несмотря на достигнутые успехи, GPT‑4 сохраняет те же ограничения, что и предыдущие версии моделей GPT. Прежде всего, модель все еще не полностью надежна, так как может искажать факты и допускать логические ошибки. Поэтому результаты работы модели следует использовать с осторожностью, особенно в сферах, где ошибки недопустимы. В таких случаях рекомендуется применять дополнительные меры контроля: ручную проверку, использование дополнительных источников или вовсе избегать использования модели.
Хотя эта проблема все еще актуальна, модель GPT‑4 значительно сократила количество искажений и ошибок по сравнению с предыдущими моделями, которые также постоянно совершенствуются. По нашим внутренним тестам на устойчивость к ложным фактам GPT‑4 показала результат на 40 % выше, чем последняя версия GPT‑3.5:
Мы добились прогресса в таких внешних тестах, как TruthfulQA, который оценивает способность модели отличать факты от специально подобранных ложных утверждений. В этих заданиях ложные ответы формулируются так, чтобы звучать убедительно.
Базовая версия GPT‑4 лишь немного превосходит GPT‑3.5 по этому параметру, но после обучения RLHF, использованного также для GPT‑3.5, разрыв становится значительным. Как видно из примеров, GPT‑4 умеет избегать банальных высказываний (например, «старого пса новым трюкам не научишь»), но все еще может упускать тонкие детали, например, ошибочно утверждать, что Элвис Пресли был сыном актера.
Несмотря на достигнутые успехи, модель все еще может проявлять определенные формы предвзятости в ответах. Как мы отмечали в последней публикации в блоге, наша цель — создавать системы ИИ с разумным поведением по умолчанию, отражающим ценности широкого круга пользователей, обеспечивать возможность настройки таких систем в заданных рамках и получать отзывы пользователей о том, какими эти рамки должны быть.
Модель GPT‑4 в целом не обладает знаниями о событиях, произошедших после сентября 2021 года, когда завершилось обучение основной части ее данных, и не способна учиться на собственном опыте. Иногда она допускает простые логические ошибки, не соответствующие ее общей компетентности в самых разных областях, или проявляет чрезмерную доверчивость, соглашаясь с очевидно ложными утверждениями пользователя. Кроме того, как и человек, модель GPT‑4 может ошибаться в сложных задачах, например, допуская уязвимости безопасности в создаваемом ею коде.
GPT‑4 также может с полной уверенностью ошибаться в своих ответах, не проявляя должной осторожности и не перепроверяя информацию, даже когда существует высокая вероятность ошибки. Любопытно, что базовая предварительно обученная модель обладает хорошей калибровкой (ее уровень уверенности в ответе обычно соответствует реальной вероятности того, что ответ верен). Однако после этапа дополнительного обучения эта калибровка снижается.
Мы непрерывно совершенствуем GPT‑4, стремясь сделать модель более безопасной и соответствующей целям с самого начала обучения. Наши усилия включают отбор и фильтрацию обучающих данных, проведение оценок и взаимодействие с экспертами, улучшение механизмов безопасности и постоянный мониторинг работы модели.
Модель GPT‑4, как и ее предшественники, способна представлять угрозу. Она может генерировать вредные советы, выдавать ошибочный код или давать недостоверную информацию. В то же время ее новые возможности создают дополнительные области риска. Чтобы оценить их масштаб и проверить модель в сложных сценариях, мы привлекли более 50 экспертов из разных сфер: от безопасности и киберзащиты до биологических рисков и международной политики. Полученные результаты помогли протестировать поведение GPT‑4 в ситуациях повышенной опасности, где необходима глубокая экспертная оценка. Отзывы и данные экспертов были использованы для совершенствования системы защиты: в частности, мы добавили новые данные, чтобы улучшить способность GPT‑4 отказывать в запросах, связанных с созданием опасных химических веществ.
В процессе обучения GPT‑4 методом RLHF (обучение с подкреплением от обратной связи человека) используется дополнительный сигнальный механизм безопасности, направленный на снижение количества вредного контента (в соответствии с нашими правилами использования(открывается в новом окне)). Модель обучается отказывать в выполнении запросов, связанных с подобным содержанием. Вознаграждение при этом задается с помощью классификатора GPT‑4, работающего в режиме zero-shot (без предварительного обучения на аналогичных примерах), который оценивает границы безопасности и стиль ответов на запросы, касающиеся тем, связанных с безопасностью. Чтобы предотвратить отказы в корректных запросах, мы формируем разнообразный набор данных из разных источников (например, размеченные производственные данные, тестирование специалистами, запросы, сгенерированные самой моделью) и применяем сигналы безопасности (как положительные, так и отрицательные) к разрешенным и запрещенным категориям контента.
Наши меры позволили значительно повысить уровень безопасности GPT‑4 по сравнению с GPT‑3.5. Мы снизили склонность модели отвечать на запросы, связанные с запрещенным контентом, на 82 % по сравнению с GPT‑3.5, а также улучшили соответствие ответов на темы, связанные с безопасностью (например, медицинские советы и самоповреждение), нашим политикам на 29 %.
В целом наши вмешательства на уровне модели усложняют провоцирование нежелательного поведения, хотя полностью исключить такую возможность пока невозможно. Кроме того, все еще существуют способы обхода ограничений, позволяющие создавать контент, нарушающий наши правила использования. По мере того как «риск на токен» в системах искусственного интеллекта растет, становится критически важно обеспечить максимально высокий уровень надежности таких защитных мер. Пока же эти ограничения необходимо дополнять механизмами безопасности на этапе внедрения, например мониторингом возможных злоупотреблений.
Модели GPT‑4 и их последующие версии обладают потенциалом существенно влиять на общество, как в положительном, так и в отрицательном направлении. Мы сотрудничаем с внешними исследователями, чтобы глубже понимать и оценивать возможные последствия, а также разрабатывать методы оценки потенциально опасных возможностей, которые могут проявиться в будущих системах. В ближайшее время мы поделимся своими взглядами на возможное социальное и экономическое влияние GPT‑4 и других систем искусственного интеллекта.
Как и предыдущие модели серии GPT, базовая версия GPT‑4 обучалась предсказывать следующее слово в тексте, используя как общедоступные данные (например, из интернета), так и лицензированные источники. Этот корпус охватывает данные в масштабах всего интернета: от правильных и ошибочных решений математических задач до примеров «слабого» и «сильного» рассуждения, противоречивых и логически последовательных утверждений, а также отражает широкий спектр идеологий и идей.
Поэтому, отвечая на вопрос, базовая модель может выдавать множество различных вариантов, которые не всегда соответствуют намерению пользователя. Чтобы скорректировать поведение модели и приблизить его к пользовательскому запросу в заданных рамках, мы используем обучение с подкреплением на основе обратной связи от людей (RLHF).
Стоит отметить, что основные возможности модели формируются именно на этапе предварительного обучения. не улучшает показатели на тестах (а без дополнительной настройки даже может их ухудшить). Однако управление поведением модели происходит на этапе после бучения: базовой модели требуется специально сформулированный запрос, чтобы она распознала, что требуется дать ответ на вопросы.
Одним из ключевых направлений проекта GPT‑4 стало создание архитектуры глубокого обучения, которая масштабируется предсказуемо. Основная причина в том, что при обучении таких крупных моделей, как GPT‑4, невозможно проводить детальную настройку под каждую из них. Мы разработали инфраструктуру и методы оптимизации с устойчивым и предсказуемым поведением на разных масштабах. Чтобы проверить эту масштабируемость, мы заранее точно предсказали итоговое значение потерь GPT‑4 на нашей внутренней кодовой базе (не входящей в обучающий набор), экстраполировав результаты с моделей, обученных по той же методике, но с вычислительными затратами, меньшими в 10 000 раз:
Теперь, когда мы можем точно прогнозировать метрику, оптимизируемую во время обучения, мы начали разрабатывать методологию для прогнозирования более наглядных метрик. Например, нам удалось предсказать процент успешных решений на части набора данных HumanEval(открывается в новом окне), экстраполировав результаты с моделей, использующих вычислительные ресурсы в 1 000 раз меньше:
Тем не менее некоторые возможности ИИ остаются непредсказуемыми. Например, конкурс Inverse Scaling Prize ставил цель выявить метрику, показатели которой ухудшаются при увеличении вычислительных ресурсов модели, одной из которых стала метрика «игнорирование ретроспективы(открывается в новом окне)». Однако GPT‑4, как показали новые данные(открывается в новом окне), полностью меняет эту закономерность:
Мы убеждены, что способность точно предсказывать развитие технологий машинного обучения играет ключевую роль в обеспечении безопасности, но которой уделяется недостаточно внимания, несмотря на огромный возможный эффект (при этом нас радуют инициативы, возникающие в разных научных центрах). Мы активно развиваем направления, которые позволят обществу лучше понимать перспективы и ограничения будущих систем, и надеемся, что это станет общей задачей для всей отрасли.
Мы открываем исходный код OpenAI Evals(открывается в новом окне) — программного фреймворка для создания и запуска тестов, предназначенных для оценки моделей вроде GPT‑4 с возможностью детального анализа их работы по отдельным примерам. Мы используем Evals, чтобы направлять развитие наших моделей (выявлять слабые стороны и предотвращать ухудшения). Пользователи также могут применять этот инструмент для отслеживания производительности у разных версий моделей (которые теперь будут выходить регулярно) и совершенствования интеграций в продуктах. Например, компания Stripe использовала Evals, чтобы дополнить собственные оценки экспертов и измерить точность работы своего инструмента для документации на базе GPT.
Поскольку код полностью открыт, Evals позволяет создавать собственные новые классы для реализации индивидуальной логики оценки(открывается в новом окне). Однако, по нашему опыту, многие тесты строятся по нескольким типовым «шаблонам», поэтому мы включили те шаблоны(открывается в новом окне), что оказались наиболее полезными внутри компании (в том числе шаблон для «оценок, выставляемых моделью». Мы обнаружили, что GPT‑4 удивительно хорошо справляется с проверкой собственных ответов). Как правило, самый эффективный способ создать новую оценку(открывается в новом окне) — использовать один из этих шаблонов и добавить собственные данные. Мы с нетерпением ожидаем решения, которые создаст сообщество с помощью этих шаблонов и с Evals в целом.
Мы надеемся, что Evals станет платформой для совместного создания и обмена тестами, охватывающими максимально широкий спектр ошибок и сложных задач. В качестве примера мы разработали набор тестов с логическими головоломками(открывается в новом окне), включающий десять заданий, в которых GPT‑4 ошибается. Evals также поддерживает интеграцию существующих оценочных тестов: мы добавили несколько интерактивных примеров(открывается в новом окне) с академическими тестами и примеры использования отдельных фрагментов CoQA(открывается в новом окне) в качестве демонстрации.
Мы приглашаем всех использовать Evals для тестирования наших моделей и делиться самыми интересными примерами. Мы убеждены, что Evals станет неотъемлемой частью процесса применения и развития наших моделей. Мы приветствуем любые предложения, вопросы и отзывы(открывается в новом окне).
Подписчики ChatGPT Plus получат доступ к GPT‑4 на сайте chatgpt.com(открывается в новом окне) с установленным ограничением использования. Мы будем регулировать ограничение использования в зависимости от спроса и производительности системы, однако ожидаем значительные ограничения по мощности (в последующие месяцы мы планируем расширять и оптимизировать инфраструктуру).
В зависимости от паттернов трафика мы можем ввести новый уровень подписки для пользователей с повышенным объемом запросов к GPT‑4. Мы также надеемся со временем предоставить ограниченное количество бесплатных запросов, чтобы те, у кого нет подписки, тоже могли попробовать GPT‑4.
Чтобы получить доступ к API GPT‑4 (он использует тот же ChatCompletions API(открывается в новом окне), что и gpt-3.5-turbo), зарегистрируйтесь в списке ожидания. Мы начинаем приглашать первых разработчиков уже сегодня и будем постепенно расширять доступ, чтобы сбалансировать нагрузку и спрос. Если вы исследуете социальное влияние искусственного интеллекта или вопросы его согласования с этическими принципами, вы можете подать заявку на льготный доступ через нашу Программу доступа для исследователей.
После получения доступа вы сможете отправлять только текстовые запросы к модели gpt-4 (ввод изображений пока доступен лишь в ограниченной альфа-версии). Мы будем автоматически обновлять модель до рекомендованной стабильной версии по мере выхода новых релизов (текущую версию можно зафиксировать, указав gpt-4-0314, поддержка которой продлится до 14 июня). Стоимость составляет 0,03 долларов США за 1 000 токенов запроса и 0,06 долларов США за 1 000 токенов ответа. Ограничения по умолчанию: 40 000 токенов в минуту и 200 запросов в минуту.
GPT‑4 имеет контекстную длину 8 192 токена. Мы также предоставляем ограниченный доступ к версии с контекстной длиной 32 768 токенов (примерно 50 страниц текста) — gpt-4-32k, которая со временем будет автоматически обновляться (текущая версия: gpt-4-32k-0314, поддерживается до 14 июня). Стоимость составляет 0,06 долларов США за 1 000 токенов запроса и 0,12 долларов США за 1 000 токенов ответа. Мы продолжаем улучшать качество модели для работы с длинным контекстом и будем признательны за ваши отзывы о ее работе в ваших сценариях. Обработка заявок на доступ к версиям 8K и 32K осуществляется с разной скоростью в зависимости от доступных ресурсов, поэтому доступ к ним может быть предоставлен в разное время.
Мы верим, что GPT‑4 станет ценным инструментом, который поможет улучшить жизнь людей, став основой множества приложений. Впереди еще много работы, и мы намерены совершенствовать эту модель совместно с сообществом, которое создает решения на ее основе, исследует ее и вносит свой вклад.
Подробнее: Прочитайте документ(открывается в новом окне) / Ознакомьтесь с системной карточкой(открывается в новом окне) / Попробуйте ChatGPT Plus(открывается в новом окне) / Протестируйте в Playground(открывается в новом окне) / Просмотрите демонстрацию(открывается в новом окне) / Внесите вклад в OpenAI Evals(открывается в новом окне)
Пример вопросов MMLU, переведенных на другие языки. Обратите внимание: мы используем согласованные варианты токенов (A–D):
Сноски
- A
Мы проводили оценку данного теста, используя метод запросов с цепочкой рассуждений с четырьмя примерами из обучающего набора в контексте. Конкретный запрос был настроен на валидационном наборе.
Примечания
- 1
П. Арредондо (Casetext/Stanford CodeX), Д. Кац (Stanford CodeX), М. Боммарито (Stanford CodeX), С. Гао (Casetext). Дополнительный анализ приведен в в статье(открывается в новом окне).


