Introducing GPT‑4.5
A research preview of our strongest GPT model. Available to Pro users and developers worldwide.
Qed noħorġu preview ta’ riċerka ta’ GPT‑4.5—l-akbar u l-aqwa mudell tagħna għaċ-chat s’issa. GPT‑4.5 huwa pass ’il quddiem fl-iskalar ta’ qabel it-taħriġ u ta’ wara t-taħriġ. Billi niskalaw l-apprendiment mhux issorveljat, GPT‑4.5 itejjeb il-kapaċità tiegħu li jagħraf mudelli, jagħmel konnessjonijiet, u jiġġenera għarfien kreattiv mingħajr raġunament.
It-testijiet bikrin juru li l-interazzjoni ma’ GPT‑4.5 tħossha aktar naturali. Il-bażi usa’ ta’ għarfien tiegħu, il-kapaċità mtejba li jsegwi l-intenzjoni tal-utent, u “EQ” akbar jagħmluh utli għal kompiti bħat-titjib tal-kitba, l-ipprogrammar, u s-soluzzjoni ta’ problemi prattiċi. Nistennew ukoll li jalluzjona inqas.
Qed naqsmu GPT‑4.5 bħala preview ta’ riċerka biex nifhmu aħjar is-saħħiet u l-limitazzjonijiet tiegħu. Għadna qed nesploraw x’inhu kapaċi jagħmel u ħerqana naraw kif in-nies jużawh b’modi li forsi ma konniex nistennew.
Inwasslu ’l quddiem il-kapaċitajiet tal-IA billi niskalaw żewġ paradigmi komplementari: apprendiment mhux issorveljat u raġunament. Dawn jirrappreżentaw żewġ assi tal-intelliġenza.
- L-apprendiment mhux issorveljat iżid l-eżattezza tal-mudell tad-dinja u l-intwizzjoni. Mudelli bħal GPT‑3.5, GPT‑4, u GPT‑4.5 javvanzaw din il-paradigma.
- L-iskalar tar-raġunament, min-naħa l-oħra, jgħallem lill-mudelli jaħsbu u jipproduċu katina ta’ ħsieb qabel ma jirrispondu, u b’hekk jippermettilhom jindirizzaw problemi kumplessi ta’ STEM jew loġika. Mudelli bħal OpenAI o1 u OpenAI o3‑mini javvanzaw din il-paradigma.
GPT‑4.5 huwa eżempju ta’ skalar tal-apprendiment mhux issorveljat billi jiżdiedu l-komputazzjoni u d-data, flimkien ma’ innovazzjonijiet fl-arkitettura u fl-ottimizzazzjoni. GPT‑4.5 tħarreġ fuq superkompjuters Microsoft Azure AI. Ir-riżultat huwa mudell b’għarfien usa’ u fehim aktar profond tad-dinja, li jwassal għal alluċinazzjonijiet imnaqqsa u aktar affidabbiltà fuq firxa wiesgħa ta’ suġġetti.
L-iskalar tal-paradigma GPT
Għarfien aktar profond tad-dinja
Eżattezza ta’ SimpleQA (aktar huwa aħjar)
Rata ta’ Alluċinazzjoni ta’ SimpleQA (inqas huwa aħjar)
SimpleQA tkejjel il-fattwalità tal-LLM (mudell lingwistiku kbir) fuq mistoqsijiet ta’ għarfien sempliċi iżda ta’ sfida.
Hekk kif niskalaw il-mudelli tagħna u dawn isolvu problemi aktar kumplessi, isir dejjem aktar importanti li ngħallmuhom fehim akbar tal-ħtiġijiet u l-intenzjoni tal-bniedem. Għal GPT‑4.5, żviluppajna tekniki ġodda u skalabbli li jippermettu t-taħriġ ta’ mudelli akbar u aktar qawwija b’dejta derivata minn mudelli iżgħar. Dawn it-tekniki jtejbu l-isteerability ta’ GPT‑4.5, il-fehim tiegħu tal-isfumatura, u l-konversazzjoni naturali.
Evalwazzjonijiet komparattivi ma’ testers umani
Il-preferenza umana tkejjel il-perċentwal ta’ mistoqsijiet fejn it-testers ippreferrew GPT‑4.5 fuq GPT‑4o.
Il-kombinazzjoni ta’ fehim profond tad-dinja ma’ kollaborazzjoni mtejba twassal għal mudell li jintegra l-ideat b’mod naturali f’konversazzjonijiet sħan u intuwittivi li huma aktar allinjati mal-kollaborazzjoni umana. GPT‑4.5 għandu fehim aħjar ta’ xi jfissru l-bnedmin u jinterpreta sinjali sottili jew aspettattivi impliċiti b’aktar sfumatura u “EQ”. GPT‑4.5 juri wkoll intwizzjoni estetika u kreattività aktar b’saħħithom. Jeċċella biex jgħin fil-kitba u d-disinn.
Każijiet ta’ użu
GPT-4.5
GPT‑4.5 juri “EQ” akbar u jaf meta jistieden għal aktar konversazzjoni meta mqabbel ma’ meta jipprovdi lill-utent informazzjoni estensiva.
GPT‑4.5 ma jaħsibx qabel ma jirrispondi, u dan jagħmel is-saħħiet tiegħu partikolarment differenti minn mudelli tar-raġunament bħal OpenAI o1. Meta mqabbel ma’ OpenAI o1 u OpenAI o3‑mini, GPT‑4.5 huwa mudell aktar ġenerali u intrinsikament aktar intelliġenti. Nemmnu li r-raġunament se jkun kapaċità ewlenija tal-mudelli futuri, u li ż-żewġ approċċi għall-iskalar—qabel it-taħriġ u r-raġunament—se jikkumplimentaw lil xulxin. Hekk kif mudelli bħal GPT‑4.5 jsiru aktar intelliġenti u aktar għarfien permezz ta’ qabel it-taħriġ, se jservu bħala bażi saħansitra aktar b’saħħitha għal aġenti li jużaw ir-raġunament u l-għodod.
Kull żieda fil-kapaċitajiet tal-mudell hija wkoll opportunità biex il-mudelli jsiru aktar siguri. GPT‑4.5 tħarreġ b’tekniki ġodda ta’ superviżjoni li huma kkombinati ma’ irfinar issorveljat tradizzjonali (SFT) u apprendiment ta' tisħiħ minn feedback minn bniedem (RLHF) bħal dawk użati għal GPT‑4o. Nittamaw li dan ix-xogħol iservi bħala bażi biex jiġu allinjati mudelli futuri saħansitra aktar kapaċi.
Biex nittestjaw bir-reqqa t-titjib tagħna, wettaqna sensiela ta’ testijiet tas-sikurezza qabel id-deploy, skont il-Qafas tat-Tħejjija(jinfetaħ f’tieqa ġdida) tagħna. Sibna li l-iskalar tal-paradigma GPT ikkontribwixxa għal titjib fil-kapaċitajiet fl-evalwazzjonijiet tagħna. Qed nippubblikaw ir-riżultati dettaljati ta’ dawn l-evalwazzjonijiet fil-kard tas-sistema li takkumpanjahom.
Mill-lum, l-utenti ta’ ChatGPT Pro se jkunu jistgħu jagħżlu GPT‑4.5 fil-model picker fuq il-web, il-mobile u d-desktop. Se nibdew inxerrduh lill-utenti ta’ Plus u Team il-ġimgħa d-dieħla, imbagħad lill-utenti ta’ Enterprise u Edu il-ġimgħa ta’ wara.
GPT‑4.5 għandu aċċess għall-aħħar informazzjoni aġġornata bit-tfittxija, jappoġġa uploads ta’ fajls u immaġnijiet, u jista’ juża canvas biex jaħdem fuq il-kitba u l-kodiċi. Madankollu, GPT‑4.5 bħalissa ma jappoġġax karatteristiċi multimodali bħal modalità tal-vuċi, vidjo, u screen sharing f’ChatGPT. Fil-futur, se naħdmu biex nissimplifikaw l-esperjenza tal-utent sabiex l-IA “sempliċement taħdem” għalik.
Qed nagħtu wkoll preview ta’ GPT‑4.5 fl-API tat-tlestija taċ-chats, fl-Assistants API, u fil-Batch API lill-iżviluppaturi fil-livelli kollha ta’ użu mħallas(jinfetaħ f’tieqa ġdida). Il-mudell jappoġġa karatteristiċi ewlenin bħas-sejħa għall-funzjoni, outputs strutturati, streaming, u messaġġi tas-sistema. Jappoġġa wkoll kapaċitajiet ta’ viżjoni permezz ta’ inputs ta’ immaġni.
Abbażi ta’ testijiet bikrin, l-iżviluppaturi jistgħu jsibu lil GPT‑4.5 partikolarment utli għal applikazzjonijiet li jibbenefikaw mill-intelliġenza emozzjonali ogħla u l-kreattività tiegħu—bħal għajnuna fil-kitba, komunikazzjoni, tagħlim, coaching, u brainstorming. Juri wkoll kapaċitajiet qawwija fl-ippjanar u l-eżekuzzjoni aġentika, inklużi flussi tax-xogħol ta’ kodifikazzjoni f’diversi passi u awtomazzjoni ta’ kompiti kumplessi.
GPT‑4.5 huwa mudell kbir ħafna u intensiv fil-komputazzjoni, u dan jagħmlu aktar għali minn GPT‑4o u mhux sostitut għalih. Minħabba dan, qed nevalwaw jekk inkomplux noffruh fl-API fit-tul waqt li nibbilanċjaw l-appoġġ għall-kapaċitajiet attwali mal-bini ta’ mudelli futuri. Nistennew bil-ħerqa li nitgħallmu aktar dwar is-saħħiet, il-kapaċitajiet, u l-applikazzjonijiet potenzjali tiegħu f’ambjenti tad-dinja reali. Jekk GPT‑4.5 jagħti valur uniku għall-każ ta’ użu tiegħek, il-feedback(jinfetaħ f’tieqa ġdida) tiegħek se jkollu rwol importanti biex jiggwida d-deċiżjoni tagħna.
Ma’ kull ordni ġdid ta’ kobor fil-komputazzjoni jiġu kapaċitajiet ġodda. GPT‑4.5 huwa mudell fil-fruntiera ta’ dak li hu possibbli fl-apprendiment mhux issorveljat. Inkomplu nkunu sorpriżi bil-kreattività tal-komunità biex tiskopri abbiltajiet ġodda u każijiet ta’ użu mhux mistennija. Bi GPT‑4.5, nistednuk tesplora l-fruntiera tal-apprendiment mhux issorveljat u tiskopri kapaċitajiet ġodda magħna.
Hawn taħt, nipprovdu r-riżultati ta’ GPT‑4.5 fuq benchmarks akkademiċi standard biex nillustraw il-prestazzjoni attwali tiegħu fuq kompiti tradizzjonalment assoċjati mar-raġunament. Anke billi niskalaw biss l-apprendiment mhux issorveljat, GPT‑4.5 juri titjib sinifikanti fuq mudelli preċedenti bħal GPT‑4o. Xorta waħda, nistennew bil-ħerqa li niksbu stampa aktar sħiħa tal-kapaċitajiet ta’ GPT‑4.5 permezz ta’ din ir-rilaxx, għax nirrikonoxxu li l-benchmarks akkademiċi mhux dejjem jirriflettu l-utilità fid-dinja reali.
Punteġġi tal-evalwazzjoni tal-mudell
GPT‑4.5 | GPT‑4o | OpenAI o3‑mini (għoli) | |
GPQA (xjenza) | 71.4% | 53.6% | 79.7% |
AIME ‘24 (matematika) | 36.7% | 9.3% | 87.3% |
MMMLU (multilingwi) | 85.1% | 81.5% | 81.1% |
MMMU (multimodali) | 74.4% | 69.1% | - |
SWE-Lancer Diamond (kodifikazzjoni)* | 32.6% $186,125 | 23.3% $138,750 | 10.8% $89,625 |
SWE-Bench Verified (kodifikazzjoni)* | 38.0% | 30.7% | 61.0% |
*In-numri murija jirrappreżentaw l-aħjar prestazzjoni interna.
Awturi
Kontributuri fundamentali
Adam Goucher, Alex Paino, Ali Kamali, Amin Tootoonchian, Andrew Tulloch, Ben Sokolowsky, Clemens Winter, Colin Wei, Daniel Kappler, Daniel Levy, Felipe Petroski Such, Geoff Salmon, Ian O’Connell, Jason Teplitz, Kai Chen, Nik Tezak, Prafulla Dhariwal, Rapha Gontijo Lopes, Sam Schoenholz, Youlong Cheng, Yujia Jin, u Yunxing Dai
Riċerka
Kontributuri ewlenin
Aiden Low, Alec Radford, Alex Carney, Alex Nichol, Alexis Conneau, Ananya Kumar, Ben Wang, Charlotte Cole , Elizabeth Yang, Gabriel Goh, Hadi Salman, Haitang Hu, Heewoo Jun, Ian Sohl, Ishaan Gulrajani, Jacob Coxon, James Betker, Jamie Kiros, Jessica Landon, Kyle Luther, Lia Guy, Lukas Kondraciuk, Lyric Doshi, Mikhail Pavlov, Qiming Yuan, Reimar Leike, Rowan Zellers, Sean Metzger, Shengjia Zhao, Spencer Papay, Tao Wang
Kontributuri
Adam Lerer, Adrien Ecoffet, Aidan McLaughlin, Alexander Prokofiev, Alexandra Barr, Allan Jabri, Andrew Gibiansky, Andrew Schmidt, Casey Chu, Chak Li, Chelsea Voss, Chris Hallacy, Chris Koch, Christine McLeavey, David Mely, Dimitris Tsipras, Eric Sigler, Erin Kavanaugh, Farzad Khorasani, Huiwen Chang, Ilya Kostrikov, Ishaan Singal, Ji Lin, Jiahui Yu, Jing Yu Zhang, John Rizzo, Jong Wook Kim, Joyce Lee, Juntang Zhuang, Leo Liu, Li Jing, Long Ouyang, Louis Feuvrier, Mo Bavarian, Nick Stathas, Nitish Keskar, Oleg Murk, Preston Bowman, Scottie Yan, SQ Mah, Tao Xu, Taylor Gordon, Valerie Qi, Wenda Zhou, Yu Zhang
Skalar
Kontributuri ewlenin
Alex Chow, Alex Renzin, Aleksandra Spyra, Avi Nayak, Ben Leimberger, Christopher Hesse, Duc Phong Nguyen, Dinghua Li, Eric Peterson, Francis Zhang, Gene Oden, Kai Fricke, Kai Hayashi, Larry Lv, Leqi Zou, Lin Yang, Madeleine Thompson, Michael Petrov, Miguel Castro, Natalia Gimelshein, Phil Tillet, Reza Zamani, Ryan Cheu Stanley Hsieh, Steve Lee, Stewart Hall, Thomas Raoux, Tianhao Zheng, Vishal Kuo, Yongjik Kim, Yuchen Zhang, Zhuoran Liu
Kontributuri
Alvin Wan, Andrew Cann, Andrew Codispoti, Antoine Pelisse, Anuj Kalia, Aaron Hurst, Avital Oliver, Brad Barnes, Brian Hsu, Chen Ding, Chen Shen, Cheng Chang, Christian Gibson, Christopher Berner, Duncan Findlay, Fan Wang, Fangyuan Li, Gianluca Borello, Heather Schmidt, Henrique Ponde de Oliveira Pinto, Ikai Lan, Jiayi Weng, James Crooks, Jos Kraaijeveld, Junru Shao, Kenny Hsu, Kenny Nguyen, Kevin King, Leah Burkhardt, Leo Chen, Linden Li, Lu Zhang, Mahmoud Eariby, Marat Dukhan, Mateusz Litwin, Miki Habryn, Natan LaFontaine, Pavel Belov, Peng Su, Prasad Chakka, Rachel Lim, Rajkumar Samuel, Renaud Gaubert, Rory Carmichael, Sarah Dong, Shantanu Jain, Shuaiqi Xia, Stephen Logsdon, Todd Underwood, Tony Zhao, Weixing Zhang, Will Sheu, Weiyi Zheng, Yinghai Lu, Yunqiao Zhang
Sistemi tas-Sikurezza
Andrea Vallone, Andy Applebaum, Cameron Raymond, Chong Zhang, Dan Mossing, Elizabeth Proehl, Eric Wallace, Evan Mays, Grace Zhao, Ian Kivlichan, Irina Kofman, Joel Parish, Kevin Liu, Keren Gu-Lemberg, Kristen Ying, Lama Ahmad, Lilian Weng, Leon Maksin, Leyton Ho, Meghan Shah, Michael Lampe, Michele Wang, Miles Wang, Olivia Watkins, Phillip Guo, Samuel Miserendino, Sam Toizer, Sandhini Agarwal, Tejal Patwardhan, Tom Dupré la Tour, Tong Mu, Tyna Eloundou, u Yunyun Wang
Deploy
Adam Brandon, Adam Perelman, Adele Li, Akshay Nathan, Alan Hayes, Alfred Xue, Alison Ben, Alec Gorge, Alex Guziel, Alex Iftimie, Ally Bennett, Andrew Chen, Andy Wang, Andy Wood, Angad Singh, Anoop Kotha, Antonia Woodford, Anuj Saharan, Ashley Tyra, Atty Eleti, Ben Schneider, Bessie Ji, Beth Hoover, Bill Chen, Blake Samic, Britney Smith, Brian Yu, Caleb Wang, Cary Bassin, Cary Hudson, Charlie Jatt, Chengdu Huang, Chris Beaumont, Christina Huang, Cristina Scheau, Dana Palmie, Daniel Levine, Daryl Neubieser, Dave Cummings, David Sasaki, Dibya Bhattacharjee, Dylan Hunn, Edwin Arbus, Elaine Ya Le, Enis Sert, Eric Kramer, Fred von Lohmann, Freddie Sulit, Gaby Janatpour, Garrett McGrath, Garrett Ollinger, Gary Yang, Hao Sheng, Harold Hotelling, Janardhanan Vembunarayanan, Jeff Harris, Jeffrey Sabin Matsumoto, Jennifer Robinson, Jessica Liang, Jessica Shieh, Jiacheng Yang, Joel Morris, Joseph Florencio, Josh Kaplan, Kan Wu, Karan Sharma, Karen Li, Katie Pypes, Kendal Simon, Kendra Rimbach, Kevin Park, Kevin Rao, Laurance Fauconnet, Lauren Workman, Leher Pathak, Liang Wu, Liang Xiong, Lien Mamitsuka, Lindsay McCallum, Lukas Gross, Manoli Liodakis, Matt Nichols, Michelle Fradin, Minal Khan, Mingxuan Wang, Nacho Soto, Natalie Staudacher, Nikunj Handa, Niko Felix, Ning Liu, Olivier Godement, Oona Gleeson, Philip Pronin, Raymond Li, Reah Miyara, Robert Xiong, Rohan Nuttall, R.J. Marsan, Sara Culver, Scott Ethersmith, Sean Fitzgerald, Shamez Hemani, Sherwin Wu, Shiao Lee, Shuyang Cheng, Siyuan Fu, Spug Golden, Steve Coffey, Steven Heidel, Sundeep Tirumalareddy, Tabarak Khan, Thomas Degry, Thomas Dimson, Tom Stasi, Tomo Hiratsuka, Trevor Creech, Uzair Navid Iftikhar, Victoria Chernova, Victoria Spiegel, Wanning Jiang, Wenlei Xie, Yaming Lin, Yara Khakbaz, Yilei Qian, Yilong Qin, Yo Shavit, u Zhi Bie
Tmexxija Eżekuttiva
Aidan Clark, Bob McGrew, David Farhi, Greg Brockman, Hannah Wong, Jakub Pachocki, Johannes Heidecke, Joanne Jang, Kate Rouch, Kevin Weil, Lauren Itow, Liam Fedus, Mark Chen, Mia Glaese, Mira Murati, Nick Ryder, Sam Altman, Srinivas Narayanan, u Tal Broda