Представляем GPT‑4.5
Предварительная версия нашей самой мощной модели GPT. Доступно для пользователей Pro и разработчиков по всему миру.
Мы выпускаем предварительную версию GPT‑4.5 — нашей самой крупной и лучшей модели для чата на данный момент. GPT‑4.5 — это шаг вперед в увеличении масштабов предобучения и постобучения. Расширяя масштабы неконтролируемого обучения, GPT‑4.5 улучшает свою способность распознавать паттерны, устанавливать связи и формировать творческие идеи без необходимости в рассуждениях.
Ранние тесты показывают, что взаимодействие с GPT‑4.5 кажется более естественным. Его более обширная база знаний, улучшенная способность следовать намерениям пользователя и более высокий EQ делают его полезным для таких задач, как улучшение письма, программирования и решение практических проблем. Мы также ожидаем, что он будет меньше склонен к галлюцинациям.
Мы выпускаем GPT‑4.5 в качестве предварительной версии, чтобы лучше понять его сильные и слабые стороны. Мы всё ещё изучаем, на что он способен, и с нетерпением ожидаем увидеть, как люди будут использовать его в своих, иногда вовсе непредсказуемых, сценариях.
Мы развиваем возможности искусственного интеллекта, масштабируя две взаимодополняющие парадигмы: неконтролируемое обучение и рассуждение. Они представляют собой две оси интеллекта.
- Неконтролируемое обучение повышает точность модели мира и интуицию. Такие модели, как GPT‑3.5, GPT‑4 и GPT‑4.5, продвигают эту парадигму.
- С другой стороны, масштабирование рассуждений учит модели думать и выстраивать цепочку мыслей перед тем, как они ответят, что позволяет им решать сложные задачи в области STEM или логики. Такие модели, как OpenAI o1 и OpenAI o3‑mini, продвигают эту парадигму.
GPT‑4.5 — это пример масштабирования неконтролируемого обучения за счёт увеличения вычислительных мощностей и объёма данных, а также инноваций в архитектуре и оптимизации. GPT‑4.5 был обучен на суперкомпьютерах Microsoft Azure AI. В результате была создана модель, обладающая более обширными знаниями и более глубоким пониманием мира, что приводит к уменьшению галлюцинаций и повышению надежности в широком спектре тем.
Масштабирование парадигмы GPT
Более глубокие знания о мире
Точность SimpleQA (чем выше, тем лучше)
Частота галлюцинаций SimpleQA (чем ниже, тем лучше)
SimpleQA измеряет фактологичность LLM (большой языковой модели) на прямых, но сложных вопросах знаний.
По мере того, как мы масштабируем наши модели и они решают более сложные задачи, становится всё важнее обучать их более глубокому пониманию человеческих потребностей и намерений. Для GPT‑4.5 мы разработали новые масштабируемые методы, которые включают обучение более крупных и мощных моделей с использованием данных, полученных из меньших моделей. Эти методы улучшают возможности GPT‑4.5 в плане управляемости, понимания нюансов и естественности обсуждения.
Сравнительные оценки с человеческими тестами
Человеческие предпочтения измеряют процент запросов, в которых тестировщики предпочли GPT‑4.5 по сравнению с GPT‑4o.
Сочетание глубокого понимания мира с улучшенным сотрудничеством приводит к модели, которая естественным образом интегрирует идеи в тёплые и интуитивные обсуждения, более настроенные на человеческое взаимодействие. GPT‑4.5 лучше понимает, что имеют в виду люди, и интерпретирует тонкие сигналы или неявные ожидания с большей тонкостью и «эмоциональным интеллектом». GPT‑4.5 также демонстрирует более развитую эстетическую интуицию и креативность. Она превосходно помогает в написании текстов и дизайне.
Примеры использования
GPT-4.5.
GPT‑4.5 демонстрирует более высокий EQ и понимает, когда следует пригласить к дальнейшему обсуждению, а когда предоставить пользователю исчерпывающую информацию.
GPT‑4.5 не думает, прежде чем отвечать, что делает его сильные стороны особенно отличающимися от моделей рассуждения, таких как OpenAI o1. По сравнению с OpenAI o1 и OpenAI o3‑mini, GPT‑4.5 является более универсальной и изначально более умной моделью. Мы полагаем, что рассуждение станет ключевой возможностью будущих моделей, и что два подхода к масштабированию — предварительное обучение и рассуждение — будут взаимодополнять друг друга. По мере того как модели, такие как GPT‑4.5, становятся умнее и более осведомленными благодаря предварительному обучению, они будут служить еще более прочной основой для агентов, занимающихся рассуждениями и использованием инструментов.
Каждое увеличение возможностей модели — это также возможность сделать модели более безопасными. GPT‑4.5 был обучен новым методам надзора, которые сочетаются с традиционными методами дообучения с учителем (SFT) и обучения с подкреплением на основе отзывов человека (RLHF), аналогичными тем, что использовались для GPT‑4o. Мы надеемся, что эта работа станет основой для согласования еще более мощных будущих моделей.
Чтобы провести стресс-тестирование наших улучшений, мы провели серию тестов безопасности перед внедрением, в соответствии с нашей программой готовности(открывается в новом окне). Мы обнаружили, что масштабирование парадигмы GPT привело к улучшению возможностей в наших оценках. Мы публикуем подробные результаты этих оценок в прилагаемой системной карте.
Начиная с сегодняшнего дня, пользователи ChatGPT Pro смогут выбирать GPT‑4.5 в меню выбора моделей на веб-сайтах, мобильных устройствах и настольных ПК. На следующей неделе мы начнем развертывание для пользователей планов Plus и Team, а затем на следующей неделе — для пользователей планов Enterprise и Edu.
GPT‑4.5 имеет доступ к самой актуальной информации через поиск, поддерживает поддержку выложить файлов и изображений, а также может использовать полотно для работы над текстами и кодом. Однако GPT‑4.5 в настоящее время не обеспечивает поддержку мультимодальных функций, таких как голосовой режим, видео и демонстрация экрана в ChatGPT. В будущем мы будем работать над упрощением пользовательского опыта, чтобы искусственный интеллект «просто работал» для вас.
Мы также предварительно просматриваем GPT‑4.5 в чат Completions API, Assistants API и Batch API для разработчиков на всех платных уровнях использования(открывается в новом окне). Модель поддерживает ключевые функции, такие как вызов функций, структурированные результаты, потоковая передача и системные сообщения. Она также поддерживает возможности обработки изображений через ввод изображений.
Судя по результатам раннего тестирования, разработчики могут считать GPT‑4.5 особенно полезным для приложений, которые выигрывают от его более высокого эмоционального интеллекта и креативности, таких как помощь в написании, коммуникация, обучение, коучинг и мозговой штурм. Он также демонстрирует сильные возможности в агентном планировании и выполнении, включая многоэтапные рабочие процессы кодирования и сложную автоматизацию задач.
GPT‑4.5 — очень большая и ресурсоемкая модель, что делает её более дорогой, чем GPT‑4o, и она не может служить его заменой. По этой причине мы оцениваем, стоит ли продолжить предоставлять его в API в долгосрочной перспективе, балансируя между поддержкой текущих возможностей и разработкой будущих моделей. Мы с нетерпением ждем возможности узнать больше о его сильных сторонах, возможностях и потенциальных приложениях в реальных условиях. Если GPT‑4.5 представляет уникальную ценность для вашего варианта использования, ваш отзыв(открывается в новом окне) будет играть важную роль в принятии нашего решения.
С каждым новым порядком величины вычислительной мощности появляются новые возможности. GPT‑4.5 — это модель, находящаяся на передовой возможностей неконтролируемого обучения. Мы продолжаем удивляться креативности сообщества в раскрытии новых возможностей и неожиданных вариантов их использования. С GPT‑4.5 мы приглашаем вас исследовать границы неконтролируемого обучения и открывать новые возможности вместе с нами.
Ниже представлены результаты GPT‑4.5 в стандартных академических тестах, которые иллюстрируют текущую производительность модели в задачах, традиционно связанных с рассуждением. Даже при простом увеличении масштаба неконтролируемого обучения GPT‑4.5 демонстрирует значительные улучшения по сравнению с предыдущими моделями, такими как GPT‑4o. Тем не менее, мы с нетерпением ждем возможности получить более полное представление о GPT‑4.5 после релиза, поскольку мы понимаем, что академические показатели не всегда отражают практическую полезность.
Оценка показателей модели
GPT‑4.5. | GPT‑4o | OpenAI o3‑mini (high) | |
GPQA (наука) | 71,4% | 53,6% | 79,7% |
AIME ‘24 (математика) | 36,7% | 9,3% | 87,3% |
MMMLU (многоязычный) | 85,1% | 81,5% | 81,1 % |
MMMU (мультимодальный) | 74,4% | 69,1% | - |
SWE-Lancer Diamond (кодинг)* | 32,6% $186 125 | 23,3% $138 750 | 10,8% $89 625 |
SWE-Bench Verified (кодинг)* | 38,0% | 30,7% | 61,0% |
*Указанные числа представляют собой лучшие внутренние показатели.
Авторы
Основные участники
Adam Goucher, Alex Paino, Ali Kamali, Amin Tootoonchian, Andrew Tulloch, Ben Sokolowsky, Clemens Winter, Colin Wei, Daniel Kappler, Daniel Levy, Felipe Petroski Such, Geoff Salmon, Ian O’Connell, Jason Teplitz, Kai Chen, Nik Tezak, Prafulla Dhariwal, Rapha Gontijo Lopes, Sam Schoenholz, Youlong Cheng, Yujia Jin, Yunxing Dai
Исследования
Основные участники
Айден Лоу, Алек Рэдфорд, Алекс Карни, Алекс Никол, Алексис Конно, Ананья Кумар, Бен Ванг, Шарлотта Коул, Элизабет Янг, Габриэль Го, Хади Салман, Хайтан Ху, Хиу Джун, Иэн Сол, Ишаан Гулраджани, Джейкоб Коксон, Джеймс Беткер, Джейми Кирос, Джессика Лэндон, Кайл Лютер, Лиа Гай, Лукас Кондрачук, Лирик Доши, Михаил Павлов, Цимин Юань, Реймар Лейке, Роуэн Зеллерс, Шон Метцгер, Шэнцзя Чжао, Спенсер Папай, Тао Ван
Участники
Адам Лерер, Адриен Экоффе, Эйдан Маклафлин, Александр Прокофьев, Александра Барр, Аллан Джабри, Эндрю Гибиански, Эндрю Шмидт, Кейси Чу, Чак Ли, Челси Восс, Крис Халласи, Крис Кох, Кристин Макливи, Дэвид Мели, Димитрис Ципрас, Эрик Сиглер, Эрин Кавано, Фарзад Хорасани, Хуэйвэнь Чанг, Илья Костриков, Ишан Сингал, Цзи Линь, Цзяхуэй Ю, Цзин Юй Чжан, Джон Риццо, Чон Вук Ким, Джойс Ли, Джунтан Чжуан, Лео Лю, Ли Цзин, Лонг Оуян, Луис Феврие, Мо Баварский, Ник Статхас, Нитиш Кескар, Олег Мурк, Престон Боуман, Скотти Ян, С.К. Ма, Тао Сю, Тейлор Гордон, Валери Ци, Венда Чжоу, Ю Чжан
Масштабирование
Основные участники
Алекс Чоу, Алекс Рензин, Александра Спайра, Ави Наяк, Бен Леймбергер, Кристофер Хессе, Дук Фонг Нгуен, Дингхуа Ли, Эрик Петерсон, Фрэнсис Чжан, Джин Оден, Кай Фрике, Кай Хаяши, Ларри Лв, Леки Зоу, Лин Янг, Мадлен Томпсон, Майкл Петров, Мигель Кастро, Наталия Гимельшейн, Фил Тиллет, Реза Замани, Райан Чеу Стэнли Сие, Стив Ли, Стюарт Холл, Томас Рау, Тяньхао Чжэн, Вишал Куо, Юнцзик Ким, Ючен Чжан, Чжуоран Лю
Участники
Элвин Ван, Эндрю Канн, Эндрю Кодиспоти, Антуан Пелиссе, Анудж Калия, Аарон Херст, Авитал Оливер, Брэд Барнс, Брайан Хсу, Чен Динг, Чен Шен, Ченг Чанг, Кристиан Гибсон, Кристофер Бернер, Дункан Финдли, Фань Ван, Фаньюань Ли, Джанлука Борелло, Хизер Шмидт, Энрике Понде де Оливейра Пинто, Икай Лан, Цзяи Вэн, Джеймс Крукс, Джос Краайевельд, Джунру Шао, Кенни Хсу, Кенни Нгуен, Кевин Кинг, Лия Буркхардт, Лео Чен, Линден Ли, Лу Чжан, Махмуд Эриби, Марат Духан, Матеуш Литвин, Мики Хабрин, Натан Лафонтен, Павел Белов, Пенг Су, Прасад Чакка, Рэйчел Лим, Раджкумар Самуэль, Рено Жобер, Рори Кармайкл, Сара Донг, Шантану Джайн, Шуайци Ся, Стивен Логсдон, Тодд Андервуд, Тони Чжао, Вейксинг Чжан, Уилл Шеу, Вейи Чжэн, Инхай Лу, Юнцяо Чжан
Системы безопасности
Andrea Vallone, Andy Applebaum, Cameron Raymond, Chong Zhang, Dan Mossing, Elizabeth Proehl, Eric Wallace, Evan Mays, Grace Zhao, Ian Kivlichan, Irina Kofman, Joel Parish, Kevin Liu, Keren Gu-Lemberg, Kristen Ying, Lama Ahmad, Lilian Weng, Leon Maksin, Leyton Ho, Meghan Shah, Michael Lampe, Michele Wang, Miles Wang, Olivia Watkins, Phillip Guo, Samuel Miserendino, Sam Toizer, Sandhini Agarwal, Tejal Patwardhan, Tom Dupré la Tour, Tong Mu, Tyna Eloundou, Yunyun Wang
Внедрение
Adam Brandon, Adam Perelman, Adele Li, Akshay Nathan, Alan Hayes, Alfred Xue, Alison Ben, Alec Gorge, Alex Guziel, Alex Iftimie, Ally Bennett, Andrew Chen, Andy Wang, Andy Wood, Angad Singh, Anoop Kotha, Antonia Woodford, Anuj Saharan, Ashley Tyra, Atty Eleti, Ben Schneider, Bessie Ji, Beth Hoover, Bill Chen, Blake Samic, Britney Smith, Brian Yu, Caleb Wang, Cary Bassin, Cary Hudson, Charlie Jatt, Chengdu Huang, Chris Beaumont, Christina Huang, Cristina Scheau, Dana Palmie, Daniel Levine, Daryl Neubieser, Dave Cummings, David Sasaki, Dibya Bhattacharjee, Dylan Hunn, Edwin Arbus, Elaine Ya Le, Enis Sert, Eric Kramer, Fred von Lohmann, Freddie Sulit, Gaby Janatpour, Garrett McGrath, Garrett Ollinger, Gary Yang, Hao Sheng, Harold Hotelling, Janardhanan Vembunarayanan, Jeff Harris, Jeffrey Sabin Matsumoto, Jennifer Robinson, Jessica Liang, Jessica Shieh, Jiacheng Yang, Joel Morris, Joseph Florencio, Josh Kaplan, Kan Wu, Karan Sharma, Karen Li, Katie Pypes, Kendal Simon, Kendra Rimbach, Kevin Park, Kevin Rao, Laurance Fauconnet, Lauren Workman, Leher Pathak, Liang Wu, Liang Xiong, Lien Mamitsuka, Lindsay McCallum, Lukas Gross, Manoli Liodakis, Matt Nichols, Michelle Fradin, Minal Khan, Mingxuan Wang, Nacho Soto, Natalie Staudacher, Nikunj Handa, Niko Felix, Ning Liu, Olivier Godement, Oona Gleeson, Philip Pronin, Raymond Li, Reah Miyara, Robert Xiong, Rohan Nuttall, R.J. Marsan, Sara Culver, Scott Ethersmith, Sean Fitzgerald, Shamez Hemani, Sherwin Wu, Shiao Lee, Shuyang Cheng, Siyuan Fu, Spug Golden, Steve Coffey, Steven Heidel, Sundeep Tirumalareddy, Tabarak Khan, Thomas Degry, Thomas Dimson, Tom Stasi, Tomo Hiratsuka, Trevor Creech, Uzair Navid Iftikhar, Victoria Chernova, Victoria Spiegel, Wanning Jiang, Wenlei Xie, Yaming Lin, Yara Khakbaz, Yilei Qian, Yilong Qin, Yo Shavit, Zhi Bie
Руководство высшего звена
Aidan Clark, Bob McGrew, David Farhi, Greg Brockman, Hannah Wong, Jakub Pachocki, Johannes Heidecke, Joanne Jang, Kate Rouch, Kevin Weil, Lauren Itow, Liam Fedus, Mark Chen, Mia Glaese, Mira Murati, Nick Ryder, Sam Altman, Srinivas Narayanan, Tal Broda