Tunawaletea GPT‑4.5
Onyesha awali ya utafiti ya muundo wetu wenye nguvu zaidi wa GPT. Inapatikana kwa watumiaji wa Pro na wasanidi programu kote duniani.
Tunatoa onyesha awali la utafiti wa GPT‑4.5—yetu kubwa na bora muundo kwa ajili ya chati bado. GPT‑4.5 ni hatua mbele katika kupanua mafunzo ya awali na baada ya mafunzo. Kwa kupanua ujifunzaji usiosimamiwa, GPT‑4.5 inaboresha uwezo wake wa kutambua mifumo, kuunda miunganisho na zalisha maarifa ya ubunifu bila kutumia mantiki.
Majaribio ya awali yanaonyesha kwamba kuingiliana na GPT‑4.5 kunahisi kuwa kwa kawaida zaidi. Msingi wake mpana wa maarifa, uwezo ulioboreshwa wa kufuata dhamira ya mtumiaji, na "EQ" kubwa zaidi huifanya iwe muhimu kwa shughuli kama kuboresha uandishi, kupanga programu, na kutatua matatizo ya vitendo. Tunatarajia pia kuwa itabuni ukweli kidogo.
Tunashiriki GPT‑4.5 kama onyesha awali la utafiti ili kuelewa vyema nguvu na mapungufu yake. Bado tunaendelea kugundua kile inachoweza kufanya na tuna hamu ya kuona jinsi watu wanavyokitumia kwa njia ambazo hatukutarajia.
Tunaendeleza uwezo wa AI kwa kupanua dhana mbili zinazokamilishana: kujifunza bila kusimamiwa na uwazaji. Hizi zinawakilisha mhimili miwili ya akili.
- Kujifunza bila kusimamiwa huongeza usahihi wa miundo ya ulimwengu na hisia za ndani. Miundo kama GPT‑3.5, GPT‑4, na GPT‑4.5 inasonga mbele dhana hii.
- Kusawazisha hoja, kwa upande mwingine, hufundisha miundo kuwaza na kutoa mnyororo wa mawazo kabla ya kujibu, na kuwawezesha kukabiliana na matatizo changamano ya STEM au mantiki. Miundo kama OpenAI o1 na OpenAI o3‑mini inasongesha dhana hii mbele.
GPT‑4.5 ni mfano wa kupanua ujifunzaji usiosimamiwa kwa kuongeza rasilimali za kompyuta na data, pamoja na ubunifu katika usanifu na uboreshaji. GPT‑4.5 ilifundishwa kwenye superkompyuta za Microsoft Azure AI. Matokeo yake ni muundo wenye maarifa mapana na uelewa wa kina zaidi wa dunia, unaosababisha kupungua kwa udanganyifu na kuaminika zaidi katika mada mbalimbali.
Kupima dhana ya GPT
Maarifa ya kina ya dunia
Usahihi wa SimpleQA (juu ni bora zaidi)
Kiwango cha Halucination SimpleQA (chini ni bora)
SimpleQA hupima ukweli wa LLM (muundo mkubwa wa lugha) kuhusu maswali ya maarifa ambayo ni rahisi lakini yenye changamoto.
Tunapopanua miundo yetu na yanapoweza kutatua matatizo changamano zaidi, inakuwa muhimu zaidi kuwafundisha uelewa mkubwa wa mahitaji na nia za wanadamu. Kwa GPT‑4.5, tulitengeneza mbinu mpya na zinazoweza kupanuka ambazo zinawasha mafunzo ya miundo mikubwa na yenye nguvu zaidi kwa kutumia data inayotokana na miundo midogo. Mbinu hizi huboresha GPT‑4.5 uwezo wa kuelekeza, uelewa wa nuance, na mazungumzo ya kawaida.
Tathmini za kulinganisha na wapimaji wa kibinadamu
Mapendeleo ya binadamu hupima asilimia ya maswali ambapo watafiti walipendelea GPT‑4.5 kuliko GPT‑4o.
Kuchanganya uelewa wa kina wa dunia na ushirikiano ulioboreshwa kunaleta muundo unaounganisha mawazo kwa urahisi katika mazungumzo ya joto na ya angavu ambayo yanalingana zaidi na ushirikiano wa kibinadamu. GPT‑4.5 ina uelewa bora wa kile wanadamu wanachomaanisha na inatafsiri viashiria vya hila au matarajio fiche kwa umakini mkubwa na 'EQ'. GPT‑4.5 pia inaonyesha angavu na ubunifu wa hali ya juu zaidi katika urembo. Inang'ara katika kusaidia kuandika na kubuni.
Matumizi
GPT-4.5
GPT‑4.5 inaonyesha 'EQ' kubwa zaidi na inajua wakati wa kualika mazungumzo zaidi dhidi ya wakati wa kumpa mtumiaji maelezo ya kina.
GPT‑4.5 hawazi kabla ya kujibu, jambo ambalo linafanya nguvu zake kuwa tofauti sana na miundo ya hoja kama OpenAI o1. Ikilinganishwa na OpenAI o1 na OpenAI o3‑mini, GPT‑4.5 ni muundo wa madhumuni ya jumla zaidi, wenye akili ya asili zaidi. Tunaamini kwamba uwezo wa kufikiri utakuwa kipengele muhimu cha miundo ya baadaye, na kwamba njia mbili za kupanua - mafunzo ya awali na kufikiri - zitakamilishana. Kadiri miundo kama vile GPT‑4.5 inavyozidi kuwa nadhifu na yenye ujuzi zaidi kupitia mafunzo ya awali, itatumika kama msingi thabiti zaidi kwa mawakala wa hoja na wa kutumia zana.
Kila ongezeko la uwezo wa miundo ni pia fursa ya kufanya miundo kuwa salama zaidi. GPT‑4.5 ilifundishwa kwa mbinu mpya za usimamizi ambazo zimeunganishwa na marekebisho ya kuboresha yanayosimamiwa (SFT) na mafunzo ya uimarishaji kutoka kwa majibu ya binadamu (RLHF) kama zile zinazotumiwa kwa GPT‑4o. Tunatumaini kuwa kazi hii itatumika kama msingi wa kuoanisha miundo yenye uwezo zaidi ya siku zijazo.
Ili kujaribu uboreshaji wetu, tulifanya safu ya majaribio ya usalama kabla ya kusambaza, kwa mujibu wa Muundo wetu wa Maandalizi(fungua katika dirisha jipya). Tuligundua kuwa kupanua dhana ya GPT kulichangia kuboresha uwezo katika tathmini zetu. Tunachapisha matokeo ya kina kutoka kwa tathmini hizi katika kadi ya mfumo inayofuatana.
Kuanzia leo, watumiaji wa ChatGPT Pro wataweza kuchagua GPT‑4.5 katika kiteua muundo kwenye wavuti, simu ya mkononi, na eneo-kazi. Tutaanza kusambaza kwa watumiaji wa Plus na Team wiki inayofuata, kisha kwa watumiaji wa Enterprise na Education wiki inayofuata.
GPT‑4.5 inaweza kufikia taarifa za hivi karibuni kupitia utafutaji, inatoa usaidizi wa pakia faili na picha, na inaweza kutumia canvas kufanya kazi ya uandishi na programu. Hata hivyo, GPT‑4.5 kwa sasa hahutoa usaidizi kwa vipengele vya aina nyingi kama vile Hali ya Sauti, video, na kushiriki skrini katika ChatGPT. Katika siku zijazo, tutafanya kazi ili kurahisisha matumizi ya mtumiaji ili AI "ifanye kazi" kwako.
Pia tunaonyesha awali GPT‑4.5 katika API ya Kukamilisha Chati, API ya Wasaidizi, na API ya Batch kwa wasanidi programu katika viwango vyote vya matumizi vinavyolipishwa(fungua katika dirisha jipya). Muundo huu unaunga mkono vipengele muhimu kama vile kuitwa kwa kazi, utoaji uliopangwa, utiririshaji, na ujumbe wa mfumo. Pia inatoa usaidizi wa kuona kupitia Ingizo za picha.
Kulingana na majaribio ya mapema, wasanidi programu wanaweza kupata GPT‑4.5 kuwa muhimu sana kwa programu zinazonufaika na akili ya juu ya kihisia na ubunifu wake—kama vile usaidizi wa kuandika, mawasiliano, kujifunza, kufundisha, na kutafakari. Inaonyesha pia uwezo dhabiti katika upangaji na utekelezaji wa kiwakala, ikijumuisha utiririshaji wa kazi wa usimbaji wa hatua nyingi na otomatiki ya shughuli ngumu.
GPT‑4.5 ni muundo mkubwa sana na unaohitaji rasilimali nyingi za kompyuta, na kuifanya kuwa ghali zaidi kuliko na sio mbadala wa GPT‑4o. Kwa sababu hii, tunatathmini iwapo tutaendelea kuitoa katika API kwa muda mrefu tunaposawazisha kusaidia uwezo wa sasa na kujenga miundo ya siku zijazo. Tunatarajia kujifunza zaidi kuhusu nguvu zake, uwezo, na programu zinazowezekana katika mazingira halisi ya ulimwengu. Iwapo GPT‑4.5 italeta thamani ya kipekee kwa kesi yako ya utumiaji, majibu(fungua katika dirisha jipya) yako yatakuwa na wajibu muhimu katika kuongoza uamuzi wetu.
Kwa kila agizo jipya la ukubwa wa hesabu huja uwezo mpya. GPT‑4.5 ni muundo ulioko kwenye mstari wa mbele wa kile kinachowezekana katika kujifunza bila usimamizi. Tunaendelea kushangazwa na ubunifu wa jamii katika kugundua uwezo mpya na matumizi yasiyotarajiwa. Kwa GPT‑4.5, tunakualika gundua mipaka ya ujifunzaji bila kusimamiwa na gundua uwezo mpya pamoja nasi.
Hapa chini, tunatoa ya GPT‑4.5 matokeo kwenye viwango vya kawaida vya kitaaluma ili kuonyesha utendaji wake wa sasa katika shughuli zinazohusishwa jadi na ufikiri. Hata kwa kuongeza tu ujifunzaji usiosimamiwa, GPT‑4.5 inaonyesha maboresho makubwa juu ya miundo ya awali kama vile GPT‑4o. Hata hivyo, tunatarajia kupata picha kamili zaidi ya GPT‑4.5 uwezo kupitia toleo hili, kwa sababu tunatambua kwamba vigezo vya kitaaluma havionyeshi kila mara manufaa ya ulimwengu halisi.
Alama za tathmini ya miundo
GPT‑4.5 | GPT‑4o | OpenAI o3‑mini (high) | |
GPQA (sayansi) | 71.4% | 53.6% | 79.7% |
AIME ‘24 (hisabati) | 36.7% | 9.3% | 87.3% |
MMMLU (lugha nyingi) | 85.1% | 81.5% | 81.1% |
MMMU (multimodal) | 74.4% | 69.1% | - |
Almasi ya SWE-Lancer (uandishi wa msimbo)* | 32.6% $186,125 | 23.3% $138,750 | 10.8% $89,625 |
SWE-Bench Imethibitishwa (kuweka misimbo)* | 38.0% | 30.7% | 61.0% |
*Nambari zilizoonyeshwa zinawakilisha utendaji bora wa ndani.
Waandishi
Wachangiaji wa msingi
Adam Goucher, Alex Paino, Ali Kamali, Amin Tootoonchian, Andrew Tulloch, Ben Sokolowsky, Clemens Winter, Colin Wei, Daniel Kappler, Daniel Levy, Felipe Petroski Such, Geoff Salmon, Ian O’Connell, Jason Teplitz, Kai Chen, Nik Tezak, Prafulla Dhariwal, Rapha Gontijo Lopes, Sam Schoenholz, Youlong Cheng, Yujia Jin na Yunxing Dai
Utafiti
Wachangiaji wa Msingi
Aiden Low, Alec Radford, Alex Carney, Alex Nichol, Alexis Conneau, Ananya Kumar, Ben Wang, Charlotte Cole, Elizabeth Yang, Gabriel Goh, Hadi Salman, Haitang Hu, Heewoo Jun, Ian Sohl, Ishaan Gulrajani, Jacob Coxon, James Betker, Jamie Kiros, Jessica Landon, Kyle Luther, Lia Guy, Lukas Kondraciuk, Lyric Doshi, Mikhail Pavlov, Qiming Yuan, Reimar Leike, Rowan Zellers, Sean Metzger, Shengjia Zhao, Spencer Papay, Tao Wang
Wachangiaji
Adam Lerer, Adrien Ecoffet, Aidan McLaughlin, Alexander Prokofiev, Alexandra Barr, Allan Jabri, Andrew Gibiansky, Andrew Schmidt, Casey Chu, Chak Li, Chelsea Voss, Chris Hallacy, Chris Koch, Christine McLeavey, David Mely, Dimitris Tsipras, Eric Sigler, Erin Kavanaugh, Farzad Khorasani, Huiwen Chang, Ilya Kostrikov, Ishaan Singal, Ji Lin, Jiahui Yu, Jing Yu Zhang, John Rizzo, Jong Wook Kim, Joyce Lee, Juntang Zhuang, Leo Liu, Li Jing, Long Ouyang, Louis Feuvrier, Mo Bavarian, Nick Stathas, Nitish Keskar, Oleg Murk, Preston Bowman, Scottie Yan, SQ Mah, Tao Xu, Taylor Gordon, Valerie Qi, Wenda Zhou, Yu Zhang
Usaidizi
Wachangiaji wa Msingi
Alex Chow, Alex Renzin, Aleksandra Spyra, Avi Nayak, Ben Leimberger, Christopher Hesse, Duc Phong Nguyen, Dinghua Li, Eric Peterson, Francis Zhang, Gene Oden, Kai Fricke, Kai Hayashi, Larry Lv, Leqi Zou, Lin Yang, Madeleine Thompson, Michael Petrov, Miguel Castro, Natalia Gimelshein, Phil Tillet, Reza Zamani, Ryan Cheu Stanley Hsieh, Steve Lee, Stewart Hall, Thomas Raoux, Tianhao Zheng, Vishal Kuo, Yongjik Kim, Yuchen Zhang, Zhuoran Liu
Wachangiaji
Alvin Wan, Andrew Cann, Andrew Codispoti, Antoine Pelisse, Anuj Kalia, Aaron Hurst, Avital Oliver, Brad Barnes, Brian Hsu, Chen Ding, Chen Shen, Cheng Chang, Christian Gibson, Christopher Berner, Duncan Findlay, Fan Wang, Fangyuan Li, Gianluca Borello, Heather Schmidt, Henrique Ponde de Oliveira Pinto, Ikai Lan, Jiayi Weng, James Crooks, Jos Kraaijeveld, Junru Shao, Kenny Hsu, Kenny Nguyen, Kevin King, Leah Burkhardt, Leo Chen, Linden Li, Lu Zhang, Mahmoud Eariby, Marat Dukhan, Mateusz Litwin, Miki Habryn, Natan LaFontaine, Pavel Belov, Peng Su, Prasad Chakka, Rachel Lim, Rajkumar Samuel, Renaud Gaubert, Rory Carmichael, Sarah Dong, Shantanu Jain, Shuaiqi Xia, Stephen Logsdon, Todd Underwood, Tony Zhao, Weixing Zhang, Will Sheu, Weiyi Zheng, Yinghai Lu, Yunqiao Zhang
Mifumo ya Usalama
Andrea Vallone, Andy Applebaum, Cameron Raymond, Chong Zhang, Dan Mossing, Elizabeth Proehl, Eric Wallace, Evan Mays, Grace Zhao, Ian Kivlichan, Irina Kofman, Joel Parish, Kevin Liu, Keren Gu-Lemberg, Kristen Ying, Lama Ahmad, Lilian Weng, Leon Maksin, Leyton Ho, Meghan Shah, Michael Lampe, Michele Wang, Miles Wang, Olivia Watkins, Phillip Guo, Samuel Miserendino, Sam Toizer, Sandhini Agarwal, Tejal Patwardhan, Tom Dupré la Tour, Tong Mu, Tyna Eloundou na Yunyun Wang
Utekelezaji
Adam Brandon, Adam Perelman, Adele Li, Akshay Nathan, Alan Hayes, Alfred Xue, Alison Ben, Alec Gorge, Alex Guziel, Alex Iftimie, Ally Bennett, Andrew Chen, Andy Wang, Andy Wood, Angad Singh, Anoop Kotha, Antonia Woodford, Anuj Saharan, Ashley Tyra, Atty Eleti, Ben Schneider, Bessie Ji, Beth Hoover, Bill Chen, Blake Samic, Britney Smith, Brian Yu, Caleb Wang, Cary Bassin, Cary Hudson, Charlie Jatt, Chengdu Huang, Chris Beaumont, Christina Huang, Cristina Scheau, Dana Palmie, Daniel Levine, Daryl Neubieser, Dave Cummings, David Sasaki, Dibya Bhattacharjee, Dylan Hunn, Edwin Arbus, Elaine Ya Le, Enis Sert, Eric Kramer, Fred von Lohmann, Freddie Sulit, Gaby Janatpour, Garrett McGrath, Garrett Ollinger, Gary Yang, Hao Sheng, Harold Hotelling, Janardhanan Vembunarayanan, Jeff Harris, Jeffrey Sabin Matsumoto, Jennifer Robinson, Jessica Liang, Jessica Shieh, Jiacheng Yang, Joel Morris, Joseph Florencio, Josh Kaplan, Kan Wu, Karan Sharma, Karen Li, Katie Pypes, Kendal Simon, Kendra Rimbach, Kevin Park, Kevin Rao, Laurance Fauconnet, Lauren Workman, Leher Pathak, Liang Wu, Liang Xiong, Lien Mamitsuka, Lindsay McCallum, Lukas Gross, Manoli Liodakis, Matt Nichols, Michelle Fradin, Minal Khan, Mingxuan Wang, Nacho Soto, Natalie Staudacher, Nikunj Handa, Niko Felix, Ning Liu, Olivier Godement, Oona Gleeson, Philip Pronin, Raymond Li, Reah Miyara, Robert Xiong, Rohan Nuttall, R.J. Marsan, Sara Culver, Scott Ethersmith, Sean Fitzgerald, Shamez Hemani, Sherwin Wu, Shiao Lee, Shuyang Cheng, Siyuan Fu, Spug Golden, Steve Coffey, Steven Heidel, Sundeep Tirumalareddy, Tabarak Khan, Thomas Degry, Thomas Dimson, Tom Stasi, Tomo Hiratsuka, Trevor Creech, Uzair Navid Iftikhar, Victoria Chernova, Victoria Spiegel, Wanning Jiang, Wenlei Xie, Yaming Lin, Yara Khakbaz, Yilei Qian, Yilong Qin, Yo Shavit na Zhi Bie
Uongozi wa Juu
Aidan Clark, Bob McGrew, David Farhi, Greg Brockman, Hannah Wong, Jakub Pachocki, Johannes Heidecke, Joanne Jang, Kate Rouch, Kevin Weil, Lauren Itow, Liam Fedus, Mark Chen, Mia Glaese, Mira Murati, Nick Ryder, Sam Altman, Srinivas Narayanan na Tal Broda