Представяне на GPT‑4.5
Изследователски предварителен преглед на нашия най-силен GPT модел. На разположение на потребителите на Pro и разработчиците в цял свят.
Пускаме изследователски предварителен преглед на GPT‑4.5–нашият най-голям и най-добър модел за чат досега. GPT‑4.5 е стъпка напред в разширяването на предварителното и последващото обучение. Чрез мащабиране на обучението без наблюдение, GPT‑4.5 подобрява способността си да разпознава модели, да установява връзки и да генерира творчески прозрения без разсъждаване.
Ранните тестове показват, че взаимодействието с GPT‑4.5 се усеща по-естествено. По-широката база от знания, подобрената способност да следва потребителските намерения и по-високият „EQ“ го правят полезен за задачи като подобряване на писането, програмирането и решаването на практически проблеми. Също така очакваме да халюцинира по-малко.
Споделяме GPT‑4.5 като изследователски предварителен преглед, за да разберем по-добре неговите силни страни и ограничения. Все още изследваме на какво е способен и сме нетърпеливи да видим как хората го използват по начини, които може би не сме очаквали.
Ние развиваме възможностите на ИИ, като мащабираме две допълващи се парадигми: обучение без наблюдение и разсъждаване. Те представляват две оси на интелигентност.
- Обучението без наблюдение повишава точността на модела на света и интуицията. Модели като GPT‑3.5, GPT‑4 и GPT‑4.5 развиват тази парадигма.
- Мащабиращото разсъждаване, от друга страна, учи моделите да помислят и да създават верига от мисли преди да отговорят, което им позволява да се справят със сложни STEM или логически проблеми. Модели като OpenAI o1 и OpenAI o3‑mini развиват тази парадигма.
GPT‑4.5 е пример за мащабиране на обучението без наблюдение чрез увеличаване на изчислителните мощности и данните, заедно с иновации в архитектурата и оптимизацията. GPT‑4.5 беше обучен на суперкомпютри за ИИ на Microsoft Azure. Резултатът е модел, който има по-широки знания и по-дълбоко разбиране на света, което води до намаляване на халюцинациите и по-голяма надеждност в широк спектър от теми.
Мащабиране на парадигмата GPT
По-дълбоки световни знания
Точност на SimpleQA (колкото по-високо, толкова по-добре)
Честота на халюцинациите на SimpleQA (по-ниско е по-добре)
SimpleQA измерва фактологията на LLM (голям езиков модел) върху прости, но предизвикателни въпроси за знания.
С увеличаването на мащаба на нашите модели и решаването на по-сложни проблеми става все по-важно да ги научим да разбират по-добре човешките нужди и намерения. За GPT‑4.5 разработихме нови, мащабируеми техники, които активират обучение на по-големи и по-мощни модели с данни, получени от по-малки модели. Тези техники подобряват управляемостта, разбирането на нюансите и естествения разговор на GPT‑4.5.
Сравнителни оценки с тестващи хора
Човешкото предпочитание измерва процента на заявките, при които тестващите са предпочели GPT‑4.5 пред GPT‑4o.
Съчетаването на задълбоченото разбиране на света с подобреното сътрудничество води до модел, който интегрира идеите по естествен начин в топли и интуитивни разговори, които са по-приспособени към човешкото сътрудничество. GPT‑4.5 разбира по-добре какво имат предвид хората и тълкува фините сигнали или скритите очаквания с по-голям нюанс и EQ. GPT‑4.5 също така демонстрира по-силна естетическа интуиция и креативност. Той се отличава в помощта при писане и дизайн.
Случаи на употреба
GPT-4.5
GPT‑4.5 показва по-висок „EQ“ и знае кога да покани за по-нататъшен разговор и кога да предостави на потребителя обширна информация.
GPT‑4.5 не мисли, преди да отговори, което прави силните му страни особено различни от моделите за разсъждение като OpenAI o1. В сравнение с OpenAI o1 и OpenAI o3‑mini, GPT‑4.5 е по-общ и по-интелигентен модел. Смятаме, че разсъждаването ще бъде основна способност на бъдещите модели и че двата подхода за мащабиране – предварителното обучение и разсъжденията – ще се допълват взаимно. Тъй като модели като GPT‑4.5 стават по-умни и по-знаещи чрез предварително обучение, те ще служат като още по-силна основа за разсъждаване и използване на инструменти от агенти.
Всяко увеличаване на възможностите на модела е също така възможност за повишаване на безопасността на моделите. GPT‑4.5 е обучен с нови техники за наблюдение, които са комбинирани с традиционното контролирано прецизиране (SFT) и подсилващо обучение от човешка обратна връзка (RLHF), като тези, използвани за GPT‑4o. Надяваме се, че тази работа ще послужи като основа за съгласуване на още по-способни бъдещи модели.
За да направим стрес-тест на нашите подобрения, проведохме набор от тестове за безопасност преди внедряване, в съответствие с нашата рамка за готовност(отваря се в нов прозорец). Установихме, че мащабирането на парадигмата GPT допринесе за подобряване на възможностите при всички наши оценки. Публикуваме подробните резултати от тези оценки в придружаващата карта на системата.
От днес потребителите на ChatGPT Pro ще могат да избират GPT‑4.5 в менюто за избор на модел в уеб, мобилни и настолни компютри. Ще започнем да го внедряваме за потребителите на Plus и Team следващата седмица, а след това за потребителите на Enterprise и Edu през по-следващата седмица.
GPT‑4.5 има достъп до най-новата актуална информация с търсене, поддържа качване на файлове и изображения и може да използва платно за работа по писане и код. В момента обаче GPT‑4.5 не поддържа мултимодални функции като гласов режим, видео и споделяне на екрани в ChatGPT. В бъдеще ще работим за опростяване на потребителското изживяване, така че ИИ „просто да работи“ за вас.
Също така правим предварителен преглед на GPT‑4.5 в API за завършване на чат, API за асистенти и API за партиди за разработчици на всички платени нива на използване(отваря се в нов прозорец). Моделът поддържа ключови функции като извикване на функции, структурирани изходи, поточно предаване и системни съобщения. Той също така поддържа възможности за виждане чрез въвеждане на изображения.
Въз основа на първоначалните тестове разработчиците могат да намерят GPT‑4.5 за особено полезен за приложения, които се възползват от неговата по-висока емоционална интелигентност и креативност – например помощ при писане, комуникация, обучение, наставничество и мозъчна атака. Също така демонстрира силни възможности в агентното планиране и изпълнение, включително многоетапни работни процеси за кодиране и автоматизация на сложни задачи.
GPT‑4.5 е много голям и изчислително интензивен модел, което го прави по-скъп от GPT‑4o и не е негов заместител. Поради тази причина преценяваме дали да продължим да го използваме в API в дългосрочен план, тъй като балансираме между поддържането на настоящите възможности и изграждането на бъдещи модели. Очакваме с нетърпение да научим повече за неговите силни страни, възможности и потенциални приложения в реални условия. Ако GPT‑4.5 предлага уникална стойност за вашия случай на употреба, вашата обратна връзка(отваря се в нов прозорец) ще играе важна роля в насочването на нашето решение.
С всеки нов порядък на изчислителната мощ се появяват нови възможности. GPT‑4.5 е модел, който е на границата на възможностите на обучението без наблюдение. Продължаваме да се изненадваме от креативността на общността при откриването на нови възможности и неочаквани случаи на употреба. С GPT‑4.5 ви каним да изследвате границите на обучението без наблюдение и да откриете нови възможности заедно с нас.
По-долу предоставяме резултатите на GPT–4.5 за стандартни академични еталони, за да илюстрират текущото му представяне при задачи, традиционно свързани с разсъждаване. Дори чрез чисто мащабиране на обучението без наблюдение, GPT‑4.5 показва значителни подобрения спрямо предишни модели като GPT‑4o. Все пак очакваме с нетърпение да получим по-пълна представа за възможностите на GPT‑4.5 чрез това издание, защото осъзнаваме, че академичните показатели не винаги отразяват полезността в реалния свят.
Оценки от оценяването на модела
GPT‑4.5 | GPT‑4o | OpenAI o3‑mini (високо) | |
GPQA (наука) | 71,4% | 53,6% | 79,7% |
AIME ‘24 (математика) | 36,7% | 9,3% | 87,3% |
MMMLU (многоезично) | 85,1% | 81,5% | 81.1% |
MMMU (мултимодално) | 74,4% | 69,1% | - |
SWE-Lancer Diamond (кодиране)* | 32,6% 186 125 USD | 23,3% 138 750 USD | 10,8% 89 625 USD |
SWE-Bench Verified (кодиране)* | 38,0% | 30,7% | 61,0% |
*Показаните цифри представляват най-добрата вътрешна производителност.
Автори
Основополагащи сътрудници
Adam Goucher, Alex Paino, Ali Kamali, Amin Tootoonchian, Andrew Tulloch, Ben Sokolowsky, Clemens Winter, Colin Wei, Daniel Kappler, Daniel Levy, Felipe Petroski Such, Geoff Salmon, Ian O’Connell, Jason Teplitz, Kai Chen, Nik Tezak, Prafulla Dhariwal, Rapha Gontijo Lopes, Sam Schoenholz, Youlong Cheng, Yujia Jin и Yunxing Dai
Проучване
Основни сътрудници
Ейдън Лоу, Алек Радфорд, Алекс Карни, Алекс Никол, Алексис Коньо, Ананя Кумар, Бен Уанг, Шарлот Коул, Елизабет Янг, Габриел Гох, Хади Салман, Хайтанг Ху, Хиу Джун, Иън Сол, Ишаан Гулраджани, Джейкъб Коксън, Джеймс Беткър, Джейми Кирос, Джесика Ландън, Кайл Лутър, Лиа Гай, Лукас Кондрачук, Лирик Доши, Михаил Павлов, Чиминг Юан, Реймар Лейке, Роуан Зелърс, Шон Мецгер, Шенджиа Жао, Спенсър Папай, Тао Ванг
Сътрудници
Адам Лерер, Адриен Екофет, Айдън Маклафлин, Александър Прокофиев, Александра Бар, Алън Джабри, Андрю Гибиански, Андрю Шмидт, Кейси Чу, Чак Ли, Челси Вос, Крис Халаси, Крис Кох, Кристин МакЛийви, Дейвид Мели, Димитрис Ципрас, Ерик Сиглър, Ерин Кавано, Фарзад Хорасани, Хуивен Чанг, Иля Костриков, Ишаан Сингал, Джи Лин, Джиахуей Ю, Джинг Ю Чжан, Джон Рицо, Джонг Уок Ким, Джойс Лий, Джунтанг Джуанг, Лео Лю, Ли Джинг, Лонг Оуян, Луис Фьуврие, Мо Бавариян, Ник Статас, Нитиш Кескар, Олег Мърк, Престън Боуман, Скотти Ян, Шао-Цян (SQ) Мах, Тао Сю, Тейлър Гордън, Валери Ци, Уенда Джоу, Ю Чжан
Мащабиране
Основни сътрудници
Алекс Чоу, Алекс Рензин, Александра Спайра, Ави Найак, Бен Лаймбергер, Кристофър Хесе, Дук Фонг Нгуен, Дингхуа Ли, Ерик Питърсън, Франсис Чжан, Джийн Оден, Кай Фрике, Кай Хаяши, Лари Лв, Леки Зоу, Лин Янг, Мадлен Томпсън, Майкъл Петров, Мигел Кастро, Наталия Гимелшайн, Фил Тилет, Реза Замани, Райън Чю Стенли Сие, Стив Лий, Стюарт Хол, Томас Раукс, Тианхао Джън, Вишал Куо, Йонджик Ким, Ючен Чжан, Джуоран Лю
Сътрудници
Алвин Уан, Андрю Кан, Андрю Кодиспоти, Антуан Пелис, Ануж Калия, Аарон Хърст, Авитал Оливър, Брад Барнс, Брайън Хсу, Чен Дин, Чен Шен, Ченг Чанг, Кристиан Гибсън, Кристофър Бернер, Дънкан Финдли, Фан Уан, Фанюан Ли, Джанлука Борело, Хедър Шмид, Енрике Понде де Оливейра Пинто, Икай Лан, Джиайи Уенг, Джеймс Крукс, Джос Краайевелд, Джунру Шао, Кени Хсу, Кени Нгуен, Кевин Кинг, Лия Буркхард, Лео Чен, Линден Ли, Лу Жанг, Махмуд Еариби, Марат Духан, Матеуш Литвин, Мики Хабрин, Натан Лафонтен, Павел Белов, Пенг Су, Прасад Чака, Рейчъл Лим, Раджкумар Самуел, Рено Гаубер, Рори Кармайкъл, Сара Донг, Шантану Джайн, Шуайци Ся, Стивън Логсдон, Тод Андервуд, Тони Джао, Вейксинг Джан, Уил Шеу, Вейи Женг, Инхай Лу, Юнцяо Джан
Системи за безопасност
Andrea Vallone, Andy Applebaum, Cameron Raymond, Chong Zhang, Dan Mossing, Elizabeth Proehl, Eric Wallace, Evan Mays, Grace Zhao, Ian Kivlichan, Irina Kofman, Joel Parish, Kevin Liu, Keren Gu-Lemberg, Kristen Ying, Lama Ahmad, Lilian Weng, Leon Maksin, Leyton Ho, Meghan Shah, Michael Lampe, Michele Wang, Miles Wang, Olivia Watkins, Phillip Guo, Samuel Miserendino, Sam Toizer, Sandhini Agarwal, Tejal Patwardhan, Tom Dupré la Tour, Tong Mu, Tyna Eloundou и Yunyun Wang
Внедряване
Adam Brandon, Adam Perelman, Adele Li, Akshay Nathan, Alan Hayes, Alfred Xue, Alison Ben, Alec Gorge, Alex Guziel, Alex Iftimie, Ally Bennett, Andrew Chen, Andy Wang, Andy Wood, Angad Singh, Anoop Kotha, Antonia Woodford, Anuj Saharan, Ashley Tyra, Atty Eleti, Ben Schneider, Bessie Ji, Beth Hoover, Bill Chen, Blake Samic, Britney Smith, Brian Yu, Caleb Wang, Cary Bassin, Cary Hudson, Charlie Jatt, Chengdu Huang, Chris Beaumont, Christina Huang, Cristina Scheau, Dana Palmie, Daniel Levine, Daryl Neubieser, Dave Cummings, David Sasaki, Dibya Bhattacharjee, Dylan Hunn, Edwin Arbus, Elaine Ya Le, Enis Sert, Eric Kramer, Fred von Lohmann, Freddie Sulit, Gaby Janatpour, Garrett McGrath, Garrett Ollinger, Gary Yang, Hao Sheng, Harold Hotelling, Janardhanan Vembunarayanan, Jeff Harris, Jeffrey Sabin Matsumoto, Jennifer Robinson, Jessica Liang, Jessica Shieh, Jiacheng Yang, Joel Morris, Joseph Florencio, Josh Kaplan, Kan Wu, Karan Sharma, Karen Li, Katie Pypes, Kendal Simon, Kendra Rimbach, Kevin Park, Kevin Rao, Laurance Fauconnet, Lauren Workman, Leher Pathak, Liang Wu, Liang Xiong, Lien Mamitsuka, Lindsay McCallum, Lukas Gross, Manoli Liodakis, Matt Nichols, Michelle Fradin, Minal Khan, Mingxuan Wang, Nacho Soto, Natalie Staudacher, Nikunj Handa, Niko Felix, Ning Liu, Olivier Godement, Oona Gleeson, Philip Pronin, Raymond Li, Reah Miyara, Robert Xiong, Rohan Nuttall, R.J. Marsan, Sara Culver, Scott Ethersmith, Sean Fitzgerald, Shamez Hemani, Sherwin Wu, Shiao Lee, Shuyang Cheng, Siyuan Fu, Spug Golden, Steve Coffey, Steven Heidel, Sundeep Tirumalareddy, Tabarak Khan, Thomas Degry, Thomas Dimson, Tom Stasi, Tomo Hiratsuka, Trevor Creech, Uzair Navid Iftikhar, Victoria Chernova, Victoria Spiegel, Wanning Jiang, Wenlei Xie, Yaming Lin, Yara Khakbaz, Yilei Qian, Yilong Qin, Yo Shavit и Zhi Bie
Изпълнително ръководство
Aidan Clark, Bob McGrew, David Farhi, Greg Brockman, Hannah Wong, Jakub Pachocki, Johannes Heidecke, Joanne Jang, Kate Rouch, Kevin Weil, Lauren Itow, Liam Fedus, Mark Chen, Mia Glaese, Mira Murati, Nick Ryder, Sam Altman, Srinivas Narayanan и Tal Broda