27 февраля 2025 г.

Представляем GPT‑4.5

Предварительная версия нашей самой мощной модели GPT. Доступно для пользователей Pro и разработчиков по всему миру.

Загрузка…

Мы выпускаем предварительную версию GPT‑4.5 — нашей самой крупной и лучшей модели для чата на данный момент. GPT‑4.5 — это шаг вперед в увеличении масштабов предобучения и постобучения. Расширяя масштабы неконтролируемого обучения, GPT‑4.5 улучшает свою способность распознавать паттерны, устанавливать связи и формировать творческие идеи без необходимости в рассуждениях.

Ранние тесты показывают, что взаимодействие с GPT‑4.5 кажется более естественным. Его более обширная база знаний, улучшенная способность следовать намерениям пользователя и более высокий EQ делают его полезным для таких задач, как улучшение письма, программирования и решение практических проблем. Мы также ожидаем, что он будет меньше склонен к галлюцинациям.

Мы выпускаем GPT‑4.5 в качестве предварительной версии, чтобы лучше понять его сильные и слабые стороны. Мы всё ещё изучаем, на что он способен, и с нетерпением ожидаем увидеть, как люди будут использовать его в своих, иногда вовсе непредсказуемых, сценариях.

Масштабирование неконтролируемого обучения

Мы развиваем возможности искусственного интеллекта, масштабируя две взаимодополняющие парадигмы: неконтролируемое обучение и рассуждение. Они представляют собой две оси интеллекта.

Неконтролируемое обучение повышает точность модели мира и интуицию. Такие модели, как GPT‑3.5, GPT‑4 и GPT‑4.5, продвигают эту парадигму.
С другой стороны, масштабирование рассуждений⁠ учит модели думать и выстраивать цепочку мыслей перед тем, как они ответят, что позволяет им решать сложные задачи в области STEM или логики. Такие модели, как OpenAI o1 и OpenAI o3‑mini, продвигают эту парадигму.

GPT‑4.5 — это пример масштабирования неконтролируемого обучения за счёт увеличения вычислительных мощностей и объёма данных, а также инноваций в архитектуре и оптимизации. GPT‑4.5 был обучен на суперкомпьютерах Microsoft Azure AI. В результате была создана модель, обладающая более обширными знаниями и более глубоким пониманием мира, что приводит к уменьшению галлюцинаций и повышению надежности в широком спектре тем.

Масштабирование парадигмы GPT

What was the first language?

We don’t know exactly what the first language was, and scientists believe we’ll probably never know for sure because spoken languages appeared long before written records existed.

Here’s what we do know:

No single "first language": Languages likely developed gradually in different groups of humans around the same time, tens or even hundreds of thousands of years ago.
Origin in Africa: Most scientists agree that spoken language probably first emerged among humans in Africa, perhaps over 100,000 years ago.
Proto-languages: Rather than a single language, humans likely started with simple communication that evolved into more complex languages. The earliest forms of language probably included gestures, sounds, and signals to express basic ideas and emotions.
Lost to history: Because speech leaves no direct fossil record, and writing emerged relatively recently (around 5,000 years ago), we have no way to know exactly how the earliest languages sounded.

Today, linguists study existing languages to understand how they evolved over thousands of years, but the exact identity of humanity’s very first language remains—and will likely always remain—a mystery.

Более глубокие знания о мире

Точность SimpleQA (чем выше, тем лучше)

Частота галлюцинаций SimpleQA (чем ниже, тем лучше)

SimpleQA измеряет фактологичность LLM (большой языковой модели) на прямых, но сложных вопросах знаний.

Обучение человеческому сотрудничеству

По мере того, как мы масштабируем наши модели и они решают более сложные задачи, становится всё важнее обучать их более глубокому пониманию человеческих потребностей и намерений. Для GPT‑4.5 мы разработали новые масштабируемые методы, которые включают обучение более крупных и мощных моделей с использованием данных, полученных из меньших моделей. Эти методы улучшают возможности GPT‑4.5 в плане управляемости, понимания нюансов и естественности обсуждения.

Сравнительные оценки с человеческими тестами

Человеческие предпочтения измеряют процент запросов, в которых тестировщики предпочли GPT‑4.5 по сравнению с GPT‑4o.

Сочетание глубокого понимания мира с улучшенным сотрудничеством приводит к модели, которая естественным образом интегрирует идеи в тёплые и интуитивные обсуждения, более настроенные на человеческое взаимодействие. GPT‑4.5 лучше понимает, что имеют в виду люди, и интерпретирует тонкие сигналы или неявные ожидания с большей тонкостью и «эмоциональным интеллектом». GPT‑4.5 также демонстрирует более развитую эстетическую интуицию и креативность. Она превосходно помогает в написании текстов и дизайне.

Примеры использования

GPT-4.5.

I’m going through a tough time after failing a test

Aw, I’m really sorry to hear that. Failing a test can feel pretty tough and discouraging, but remember, it’s just one moment—not a reflection of who you are or your capabilities. Want to talk about what happened, or do you just need a distraction? I’m here either way.

I’m going through a tough time after failing a test

I’m really sorry to hear that you’re going through a tough time. Here are a few things you might consider:

1. Reflect and Understand: Try to analyze what might have gone wrong. Was it a lack of preparation, time management during the test, or perhaps misunderstanding the material? Understanding the root cause can help you address it in the future.

2. Seek Support: Talk to someone you trust—friends, family, or a school counselor. They can offer a different perspective and sometimes just talking about your feelings can be alleviating.

3. Speak with Your Teacher or Professor: They can provide insights into where you might have gone wrong and offer advice on how to improve. They might also offer opportunities for make-up work or extra credit.

4. Develop a Study Plan: Based on your reflections, create a plan to improve your study habits. This might include setting regular study times, breaking down material into manageable portions, or finding new study methods that work better for you.

5. Stay Positive and Forgive Yourself: Mistakes and setbacks are a part of life. It’s important to be kind to yourself and recognize that failure is a stepping stone to success.

6. Focus on the Bigger Picture: Remember that one test is just one part of your educational journey. There will be many more opportunities to do well.

If you need further support or resources, consider reaching out to educational support services at your institution, or mental health resources if you’re feeling particularly overwhelmed. You’re not alone in this, and things can get better with time and effort.

GPT‑4.5 демонстрирует более высокий EQ и понимает, когда следует пригласить к дальнейшему обсуждению, а когда предоставить пользователю исчерпывающую информацию.

Нас ждут улучшенные рассуждения

GPT‑4.5 не думает, прежде чем отвечать, что делает его сильные стороны особенно отличающимися от моделей рассуждения, таких как OpenAI o1. По сравнению с OpenAI o1 и OpenAI o3‑mini, GPT‑4.5 является более универсальной и изначально более умной моделью. Мы полагаем, что рассуждение станет ключевой возможностью будущих моделей, и что два подхода к масштабированию — предварительное обучение и рассуждение — будут взаимодополнять друг друга. По мере того как модели, такие как GPT‑4.5, становятся умнее и более осведомленными благодаря предварительному обучению, они будут служить еще более прочной основой для агентов, занимающихся рассуждениями и использованием инструментов.

Безопасность

Каждое увеличение возможностей модели — это также возможность сделать модели более безопасными. GPT‑4.5 был обучен новым методам надзора, которые сочетаются с традиционными методами дообучения с учителем (SFT) и обучения с подкреплением на основе отзывов человека (RLHF), аналогичными тем, что использовались для GPT‑4o. Мы надеемся, что эта работа станет основой для согласования еще более мощных будущих моделей.

Чтобы провести стресс-тестирование наших улучшений, мы провели серию тестов безопасности перед внедрением, в соответствии с нашей программой готовности⁠(открывается в новом окне)⁠. Мы обнаружили, что масштабирование парадигмы GPT привело к улучшению возможностей в наших оценках. Мы публикуем подробные результаты этих оценок в прилагаемой системной карте⁠.

Как использовать GPT-4.5 в ChatGPT

Начиная с сегодняшнего дня, пользователи ChatGPT Pro смогут выбирать GPT‑4.5 в меню выбора моделей на веб-сайтах, мобильных устройствах и настольных ПК. На следующей неделе мы начнем развертывание для пользователей планов Plus и Team, а затем на следующей неделе — для пользователей планов Enterprise и Edu.

GPT‑4.5 имеет доступ к самой актуальной информации через поиск, поддерживает поддержку выложить файлов и изображений, а также может использовать полотно для работы над текстами и кодом. Однако GPT‑4.5 в настоящее время не обеспечивает поддержку мультимодальных функций, таких как голосовой режим, видео и демонстрация экрана в ChatGPT. В будущем мы будем работать над упрощением пользовательского опыта, чтобы искусственный интеллект «просто работал» для вас.

Как использовать GPT-4.5 в API

Мы также предварительно просматриваем GPT‑4.5 в чат Completions API, Assistants API и Batch API для разработчиков на всех платных уровнях использования⁠(открывается в новом окне). Модель поддерживает ключевые функции, такие как вызов функций, структурированные результаты, потоковая передача и системные сообщения. Она также поддерживает возможности обработки изображений через ввод изображений.

Судя по результатам раннего тестирования, разработчики могут считать GPT‑4.5 особенно полезным для приложений, которые выигрывают от его более высокого эмоционального интеллекта и креативности, таких как помощь в написании, коммуникация, обучение, коучинг и мозговой штурм. Он также демонстрирует сильные возможности в агентном планировании и выполнении, включая многоэтапные рабочие процессы кодирования и сложную автоматизацию задач.

GPT‑4.5 — очень большая и ресурсоемкая модель, что делает её более дорогой⁠, чем GPT‑4o, и она не может служить его заменой. По этой причине мы оцениваем, стоит ли продолжить предоставлять его в API в долгосрочной перспективе, балансируя между поддержкой текущих возможностей и разработкой будущих моделей. Мы с нетерпением ждем возможности узнать больше о его сильных сторонах, возможностях и потенциальных приложениях в реальных условиях. Если GPT‑4.5 представляет уникальную ценность для вашего варианта использования, ваш отзыв⁠(открывается в новом окне) будет играть важную роль в принятии нашего решения.

Заключение

С каждым новым порядком величины вычислительной мощности появляются новые возможности. GPT‑4.5 — это модель, находящаяся на передовой возможностей неконтролируемого обучения. Мы продолжаем удивляться креативности сообщества в раскрытии новых возможностей и неожиданных вариантов их использования. С GPT‑4.5 мы приглашаем вас исследовать границы неконтролируемого обучения и открывать новые возможности вместе с нами.

Приложение

Ниже представлены результаты GPT‑4.5 в стандартных академических тестах, которые иллюстрируют текущую производительность модели в задачах, традиционно связанных с рассуждением. Даже при простом увеличении масштаба неконтролируемого обучения GPT‑4.5 демонстрирует значительные улучшения по сравнению с предыдущими моделями, такими как GPT‑4o. Тем не менее, мы с нетерпением ждем возможности получить более полное представление о GPT‑4.5 после релиза, поскольку мы понимаем, что академические показатели не всегда отражают практическую полезность.

Оценка показателей модели

	GPT‑4.5.	GPT‑4o	OpenAI o3‑mini (high)
GPQA (наука)	71,4%	53,6%	79,7%
AIME ‘24 (математика)	36,7%	9,3%	87,3%
MMMLU (многоязычный)	85,1%	81,5%	81,1 %
MMMU (мультимодальный)	74,4%	69,1%	-
SWE-Lancer Diamond (кодинг)*	32,6% $186 125	23,3% $138 750	10,8% $89 625
SWE-Bench Verified (кодинг)*	38,0%	30,7%	61,0%

*Указанные числа представляют собой лучшие внутренние показатели.

Авторы

OpenAI

Основные участники

Adam Goucher, Alex Paino, Ali Kamali, Amin Tootoonchian, Andrew Tulloch, Ben Sokolowsky, Clemens Winter, Colin Wei, Daniel Kappler, Daniel Levy, Felipe Petroski Such, Geoff Salmon, Ian O’Connell, Jason Teplitz, Kai Chen, Nik Tezak, Prafulla Dhariwal, Rapha Gontijo Lopes, Sam Schoenholz, Youlong Cheng, Yujia Jin, Yunxing Dai

Исследования

Основные участники

Айден Лоу, Алек Рэдфорд, Алекс Карни, Алекс Никол, Алексис Конно, Ананья Кумар, Бен Ванг, Шарлотта Коул, Элизабет Янг, Габриэль Го, Хади Салман, Хайтан Ху, Хиу Джун, Иэн Сол, Ишаан Гулраджани, Джейкоб Коксон, Джеймс Беткер, Джейми Кирос, Джессика Лэндон, Кайл Лютер, Лиа Гай, Лукас Кондрачук, Лирик Доши, Михаил Павлов, Цимин Юань, Реймар Лейке, Роуэн Зеллерс, Шон Метцгер, Шэнцзя Чжао, Спенсер Папай, Тао Ван

Участники

Адам Лерер, Адриен Экоффе, Эйдан Маклафлин, Александр Прокофьев, Александра Барр, Аллан Джабри, Эндрю Гибиански, Эндрю Шмидт, Кейси Чу, Чак Ли, Челси Восс, Крис Халласи, Крис Кох, Кристин Макливи, Дэвид Мели, Димитрис Ципрас, Эрик Сиглер, Эрин Кавано, Фарзад Хорасани, Хуэйвэнь Чанг, Илья Костриков, Ишан Сингал, Цзи Линь, Цзяхуэй Ю, Цзин Юй Чжан, Джон Риццо, Чон Вук Ким, Джойс Ли, Джунтан Чжуан, Лео Лю, Ли Цзин, Лонг Оуян, Луис Феврие, Мо Баварский, Ник Статхас, Нитиш Кескар, Олег Мурк, Престон Боуман, Скотти Ян, С.К. Ма, Тао Сю, Тейлор Гордон, Валери Ци, Венда Чжоу, Ю Чжан

Масштабирование

Основные участники

Алекс Чоу, Алекс Рензин, Александра Спайра, Ави Наяк, Бен Леймбергер, Кристофер Хессе, Дук Фонг Нгуен, Дингхуа Ли, Эрик Петерсон, Фрэнсис Чжан, Джин Оден, Кай Фрике, Кай Хаяши, Ларри Лв, Леки Зоу, Лин Янг, Мадлен Томпсон, Майкл Петров, Мигель Кастро, Наталия Гимельшейн, Фил Тиллет, Реза Замани, Райан Чеу Стэнли Сие, Стив Ли, Стюарт Холл, Томас Рау, Тяньхао Чжэн, Вишал Куо, Юнцзик Ким, Ючен Чжан, Чжуоран Лю

Участники

Элвин Ван, Эндрю Канн, Эндрю Кодиспоти, Антуан Пелиссе, Анудж Калия, Аарон Херст, Авитал Оливер, Брэд Барнс, Брайан Хсу, Чен Динг, Чен Шен, Ченг Чанг, Кристиан Гибсон, Кристофер Бернер, Дункан Финдли, Фань Ван, Фаньюань Ли, Джанлука Борелло, Хизер Шмидт, Энрике Понде де Оливейра Пинто, Икай Лан, Цзяи Вэн, Джеймс Крукс, Джос Краайевельд, Джунру Шао, Кенни Хсу, Кенни Нгуен, Кевин Кинг, Лия Буркхардт, Лео Чен, Линден Ли, Лу Чжан, Махмуд Эриби, Марат Духан, Матеуш Литвин, Мики Хабрин, Натан Лафонтен, Павел Белов, Пенг Су, Прасад Чакка, Рэйчел Лим, Раджкумар Самуэль, Рено Жобер, Рори Кармайкл, Сара Донг, Шантану Джайн, Шуайци Ся, Стивен Логсдон, Тодд Андервуд, Тони Чжао, Вейксинг Чжан, Уилл Шеу, Вейи Чжэн, Инхай Лу, Юнцяо Чжан

Системы безопасности

Andrea Vallone, Andy Applebaum, Cameron Raymond, Chong Zhang, Dan Mossing, Elizabeth Proehl, Eric Wallace, Evan Mays, Grace Zhao, Ian Kivlichan, Irina Kofman, Joel Parish, Kevin Liu, Keren Gu-Lemberg, Kristen Ying, Lama Ahmad, Lilian Weng, Leon Maksin, Leyton Ho, Meghan Shah, Michael Lampe, Michele Wang, Miles Wang, Olivia Watkins, Phillip Guo, Samuel Miserendino, Sam Toizer, Sandhini Agarwal, Tejal Patwardhan, Tom Dupré la Tour, Tong Mu, Tyna Eloundou, Yunyun Wang

Внедрение

Adam Brandon, Adam Perelman, Adele Li, Akshay Nathan, Alan Hayes, Alfred Xue, Alison Ben, Alec Gorge, Alex Guziel, Alex Iftimie, Ally Bennett, Andrew Chen, Andy Wang, Andy Wood, Angad Singh, Anoop Kotha, Antonia Woodford, Anuj Saharan, Ashley Tyra, Atty Eleti, Ben Schneider, Bessie Ji, Beth Hoover, Bill Chen, Blake Samic, Britney Smith, Brian Yu, Caleb Wang, Cary Bassin, Cary Hudson, Charlie Jatt, Chengdu Huang, Chris Beaumont, Christina Huang, Cristina Scheau, Dana Palmie, Daniel Levine, Daryl Neubieser, Dave Cummings, David Sasaki, Dibya Bhattacharjee, Dylan Hunn, Edwin Arbus, Elaine Ya Le, Enis Sert, Eric Kramer, Fred von Lohmann, Freddie Sulit, Gaby Janatpour, Garrett McGrath, Garrett Ollinger, Gary Yang, Hao Sheng, Harold Hotelling, Janardhanan Vembunarayanan, Jeff Harris, Jeffrey Sabin Matsumoto, Jennifer Robinson, Jessica Liang, Jessica Shieh, Jiacheng Yang, Joel Morris, Joseph Florencio, Josh Kaplan, Kan Wu, Karan Sharma, Karen Li, Katie Pypes, Kendal Simon, Kendra Rimbach, Kevin Park, Kevin Rao, Laurance Fauconnet, Lauren Workman, Leher Pathak, Liang Wu, Liang Xiong, Lien Mamitsuka, Lindsay McCallum, Lukas Gross, Manoli Liodakis, Matt Nichols, Michelle Fradin, Minal Khan, Mingxuan Wang, Nacho Soto, Natalie Staudacher, Nikunj Handa, Niko Felix, Ning Liu, Olivier Godement, Oona Gleeson, Philip Pronin, Raymond Li, Reah Miyara, Robert Xiong, Rohan Nuttall, R.J. Marsan, Sara Culver, Scott Ethersmith, Sean Fitzgerald, Shamez Hemani, Sherwin Wu, Shiao Lee, Shuyang Cheng, Siyuan Fu, Spug Golden, Steve Coffey, Steven Heidel, Sundeep Tirumalareddy, Tabarak Khan, Thomas Degry, Thomas Dimson, Tom Stasi, Tomo Hiratsuka, Trevor Creech, Uzair Navid Iftikhar, Victoria Chernova, Victoria Spiegel, Wanning Jiang, Wenlei Xie, Yaming Lin, Yara Khakbaz, Yilei Qian, Yilong Qin, Yo Shavit, Zhi Bie

Руководство высшего звена

Aidan Clark, Bob McGrew, David Farhi, Greg Brockman, Hannah Wong, Jakub Pachocki, Johannes Heidecke, Joanne Jang, Kate Rouch, Kevin Weil, Lauren Itow, Liam Fedus, Mark Chen, Mia Glaese, Mira Murati, Nick Ryder, Sam Altman, Srinivas Narayanan, Tal Broda

Представляем GPT‑4.5

Масштабирование неконтролируемого обучения

Масштабирование парадигмы GPT

GPT-4.5 (2025)

Более глубокие знания о мире

Точность SimpleQA (чем выше, тем лучше)

Частота галлюцинаций SimpleQA (чем ниже, тем лучше)

Обучение человеческому сотрудничеству

Сравнительные оценки с человеческими тестами

Примеры использования

GPT-4.5.

GPT-4o

Нас ждут улучшенные рассуждения

Безопасность

Как использовать GPT-4.5 в ChatGPT

Как использовать GPT-4.5 в API

Заключение

Приложение

Оценка показателей модели

Авторы

Основные участники

Исследования

Масштабирование

Системы безопасности

Внедрение

Руководство высшего звена