Introducing GPT‑4.5
A research preview of our strongest GPT model. Available to Pro users and developers worldwide.
ვუშვებთ GPT‑4.5-ის კვლევით წინასწარ ვერსიას — ჩვენს დღემდე ყველაზე დიდ და საუკეთესო ჩატ-მოდელს. GPT‑4.5 წინგადადგმული ნაბიჯია წინასწარი სწავლებისა და შემდგომი სწავლების მასშტაბირებაში. უმეთვალყურეო სწავლების მასშტაბირებით GPT‑4.5 აუმჯობესებს შაბლონების ამოცნობის, კავშირების დანახვისა და მსჯელობის გარეშე კრეატიული შეხედულებების გენერირების უნარს.
ადრეული ტესტირება აჩვენებს, რომ GPT‑4.5‑თან ურთიერთობა უფრო ბუნებრივია. მისი უფრო ფართო ცოდნის ბაზა, მომხმარებლის განზრახვის მიყოლის გაუმჯობესებული უნარი და მეტი „EQ“ მას სასარგებლოს ხდის ისეთი ამოცანებისთვის, როგორიცაა ტექსტის გაუმჯობესება, პროგრამირება და პრაქტიკული პრობლემების გადაჭრა. ასევე მოველით, რომ ის ნაკლებად ჰალუცინირებს.
GPT‑4.5‑ს ვაზიარებთ როგორც კვლევით წინასწარ ვერსიას, რათა უკეთ გავიგოთ მისი ძლიერი და სუსტი მხარეები. ჯერ კიდევ ვიკვლევთ, რა შეუძლია მას, და დიდი ინტერესით ველით, როგორ გამოიყენებენ მას ადამიანები ისეთ გზებით, რომლებიც შესაძლოა არ გვქონდა ნავარაუდები.
ჩვენ ვავითარებთ AI შესაძლებლობებს ორი ურთიერთშემავსებელი პარადიგმის მასშტაბირებით: უმეთვალყურეო სწავლება და მსჯელობა. ისინი ინტელექტის ორ ღერძს წარმოადგენენ.
- უმეთვალყურეო სწავლება ზრდის სამყაროს მოდელის სიზუსტესა და ინტუიციას. ამ პარადიგმას ავითარებენ ისეთი მოდელები, როგორიცაა GPT‑3.5, GPT‑4 და GPT‑4.5.
- მსჯელობის მასშტაბირება, მეორე მხრივ, მოდელებს ასწავლის იფიქრონ და აზრთა ჯაჭვი შექმნან პასუხამდე, რაც მათ საშუალებას აძლევს გაუმკლავდნენ რთულ STEM-ის ან ლოგიკის ამოცანებს. ამ პარადიგმას ავითარებენ ისეთი მოდელები, როგორიცაა OpenAI o1 და OpenAI o3‑mini.
GPT‑4.5 არის უმეთვალყურეო სწავლების მასშტაბირების მაგალითი, გამოთვლითი რესურსებისა და მონაცემების ზრდასთან ერთად, ასევე არქიტექტურისა და ოპტიმიზაციის ინოვაციებით. GPT‑4.5 გაწვრთნილი იყო Microsoft Azure AI სუპერკომპიუტერებზე. შედეგი არის მოდელი, რომელსაც აქვს უფრო ფართო ცოდნა და სამყაროს უფრო ღრმა გაგება, რაც იწვევს ჰალუცინაციების შემცირებას და მეტ სანდოობას თემების ფართო სპექტრში.
GPT პარადიგმის მასშტაბირება
სამყაროს უფრო ღრმა ცოდნა
SimpleQA სიზუსტე (რაც მაღალია, მით უკეთესი)
SimpleQA ჰალუცინაციის მაჩვენებელი (რაც ნაკლებია, მით უკეთესი)
SimpleQA ზომავს LLM-ის (დიდი ენობრივი მოდელი) ფაქტობრივ სიზუსტეს პირდაპირ, მაგრამ რთულ ცოდნის კითხვებზე.
როდესაც ჩვენს მოდელებს ვზრდით და ისინი უფრო რთულ პრობლემებს წყვეტენ, სულ უფრო მნიშვნელოვანია, მათ ადამიანური საჭიროებებისა და განზრახვის უკეთესი გაგება ვასწავლოთ. GPT‑4.5‑ისთვის შევიმუშავეთ ახალი, მასშტაბირებადი ტექნიკები, რომლებიც უფრო დიდი და ძლიერი მოდელების გაწვრთნას შესაძლებელს ხდის მცირე მოდელებიდან მიღებული მონაცემებით. ეს ტექნიკები აუმჯობესებს GPT‑4.5‑ის მართვადობას, ნიუანსების გაგებასა და ბუნებრივ საუბარს.
შედარებითი შეფასებები ადამიან ტესტერებთან
ადამიანის უპირატესობა ზომავს მოთხოვნების იმ პროცენტს, სადაც ტესტერებმა GPT‑4.5 GPT‑4o‑ზე ამჯობინეს.
სამყაროს ღრმა გაგებისა და გაუმჯობესებული თანამშრომლობის შერწყმა გვაძლევს მოდელს, რომელიც იდეებს ბუნებრივად აერთიანებს თბილ და ინტუიციურ საუბრებში, რომლებიც უკეთ არის მორგებული ადამიანურ თანამშრომლობაზე. GPT‑4.5 უკეთ იგებს, რას გულისხმობენ ადამიანები, და უფრო დახვეწილად და მეტი „EQ“-ით განმარტავს ნატიფ მინიშნებებსა თუ ნაგულისხმევ მოლოდინებს. GPT‑4.5 ასევე ავლენს უფრო ძლიერ ესთეტიკურ ინტუიციასა და კრეატიულობას. ის განსაკუთრებით ეფექტურია წერასა და დიზაინში დახმარებისთვის.
გამოყენების შემთხვევები
GPT-4.5
GPT‑4.5 აჩვენებს უფრო მაღალ „EQ“-ს და იცის, როდის უნდა მიიწვიოს შემდგომი საუბარი და როდის უნდა მიაწოდოს მომხმარებელს ამომწურავი ინფორმაცია.
GPT‑4.5 პასუხამდე არ ფიქრობს, რაც მის ძლიერ მხარეებს განსაკუთრებით განასხვავებს ისეთი მსჯელობის მოდელებისგან, როგორიცაა OpenAI o1. OpenAI o1‑თან და OpenAI o3‑mini‑სთან შედარებით, GPT‑4.5 უფრო ზოგადი დანიშნულების და თანდაყოლილად უფრო ჭკვიანი მოდელია. გვჯერა, რომ მსჯელობა მომავალი მოდელების ძირითადი შესაძლებლობა იქნება და რომ მასშტაბირების ეს ორი მიდგომა — წინასწარი სწავლება და მსჯელობა — ერთმანეთს შეავსებს. რადგან GPT‑4.5‑ის მსგავსი მოდელები წინასწარი სწავლების გზით უფრო ჭკვიანები და მეტად ცოდნიანები ხდებიან, ისინი მსჯელობისა და ხელსაწყოების მომხმარებელი აგენტებისთვის კიდევ უფრო ძლიერ საფუძვლად იქცევიან.
მოდელის შესაძლებლობების ყოველი ზრდა ასევე შესაძლებლობაა, მოდელები უფრო უსაფრთხო გავხადოთ. GPT‑4.5 გაწვრთნილი იყო ზედამხედველობის ახალი ტექნიკებით, რომლებიც შერწყმულია ტრადიციულ ზედამხედველობის ქვეშ დახვეწის (SFT) და ადამიანის უკუკავშირის საფუძველზე (RLHF) მეთოდებთან, როგორიც GPT‑4o‑სთვის გამოიყენებოდა. ვიმედოვნებთ, ეს ნამუშევარი საფუძვლად დაედება მომავალში კიდევ უფრო ქმედუნარიანი მოდელების სწორად მორგებას.
ჩვენი გაუმჯობესებების გამძლეობის შესამოწმებლად, განთავსებამდე ჩავატარეთ უსაფრთხოების ტესტების კომპლექსი ჩვენი მზაობის ჩარჩოს(იხსნება ახალ ფანჯარაში) შესაბამისად. დავადგინეთ, რომ GPT პარადიგმის მასშტაბირებამ შესაძლებლობების გაუმჯობესებას შეუწყო ხელი ჩვენს შეფასებებში. ამ შეფასებების დეტალურ შედეგებს ვაქვეყნებთ თანდართულ სისტემურ ბარათში.
დღეიდან ChatGPT Pro მომხმარებლებს შეეძლებათ აირჩიონ GPT‑4.5 მოდელების სიიდან ვებზე, მობილურსა და დესკტოპზე. Plus და Team მომხმარებლებისთვის გავრცელებას მომავალ კვირას დავიწყებთ, ხოლო შემდეგ კვირას — Enterprise და Edu მომხმარებლებისთვის.
GPT‑4.5‑ს აქვს წვდომა უახლეს განახლებად ინფორმაციაზე ძიების მეშვეობით, მხარს უჭერს ფაილებისა და სურათების ატვირთვას და შეუძლია canvas-ის გამოყენება წერასა და კოდზე სამუშაოდ. თუმცა, GPT‑4.5 ამჟამად არ უჭერს მხარს ChatGPT‑ში მულტიმოდალურ ფუნქციებს, როგორიცაა ხმოვანი რეჟიმი, ვიდეო და ეკრანის გაზიარება. მომავალში ვიმუშავებთ იმაზე, რომ მომხმარებლის გამოცდილება გავამარტივოთ, რათა AI თქვენთვის „უბრალოდ მუშაობდეს“.
ასევე ვუშვებთ GPT‑4.5‑ის წინასწარ ვერსიას ჩატის დასრულების API-ში, Assistants API-სა და Batch API-ში ყველა ფასიანი გამოყენების დონის(იხსნება ახალ ფანჯარაში) დეველოპერებისთვის. მოდელს აქვს ისეთი ძირითადი შესაძლებლობები, როგორიცაა ფუნქციის გამოძახება, სტრუქტურირებული შედეგები, სტრიმინგი და სისტემური შეტყობინებები. ასევე მხარს უჭერს ხედვის შესაძლებლობებს სურათის შეყვანის საშუალებით.
ადრეული ტესტირების მიხედვით, დეველოპერებმა შეიძლება GPT‑4.5 განსაკუთრებით გამოსადეგად მიიჩნიონ აპლიკაციებისთვის, რომლებიც სარგებლობენ მისი უფრო მაღალი ემოციური ინტელექტითა და კრეატიულობით — მაგალითად, წერაში დახმარება, კომუნიკაცია, სწავლა, ქოუჩინგი და იდეების გენერირება. ის ასევე აჩვენებს ძლიერ შესაძლებლობებს აგენტურ დაგეგმვასა და შესრულებაში, მათ შორის მრავალსაფეხურიან კოდირების სამუშაო პროცესებსა და რთული ამოცანების ავტომატიზაციაში.
GPT‑4.5 ძალიან დიდი და გამოთვლით რესურსზე მომთხოვნი მოდელია, რის გამოც ის უფრო ძვირია და GPT‑4o‑ს ჩანაცვლებას არ წარმოადგენს. ამის გამო ვაფასებთ, უნდა გავაგრძელოთ თუ არა მისი API-ში გრძელვადიანად მიწოდება, მაშინ როცა ვაბალანსებთ მიმდინარე შესაძლებლობების მხარდაჭერასა და მომავალი მოდელების შექმნას. მოუთმენლად ველით, მეტს გავიგებთ მის ძლიერ მხარეებზე, შესაძლებლობებსა და პოტენციურ გამოყენებებზე რეალურ გარემოებებში. თუ GPT‑4.5 თქვენს გამოყენების შემთხვევისთვის უნიკალურ ღირებულებას ქმნის, თქვენი უკუკავშირი(იხსნება ახალ ფანჯარაში) მნიშვნელოვან როლს შეასრულებს ჩვენი გადაწყვეტილების მიმართულების განსაზღვრაში.
გამოთვლითი რესურსის ყოველი ახალი მასშტაბი ახალ შესაძლებლობებს აჩენს. GPT‑4.5 არის მოდელი უმეთვალყურეო სწავლების შესაძლებლობების მოწინავე ზღვარზე. კვლავაც გვაოცებს საზოგადოების კრეატიულობა ახალი უნარებისა და მოულოდნელი გამოყენების შემთხვევების აღმოჩენაში. GPT‑4.5‑ით გიწვევთ, ჩვენთან ერთად გამოიკვლიოთ უმეთვალყურეო სწავლების მოწინავე ზღვარი და აღმოაჩინოთ ახალი შესაძლებლობები.
ქვემოთ წარმოგიდგენთ GPT‑4.5-ის შედეგებს სტანდარტულ აკადემიურ ბენჩმარკებზე, რათა ვაჩვენოთ მისი ამჟამინდელი წარმადობა ამოცანებში, რომლებიც ტრადიციულად მსჯელობას უკავშირდება. მხოლოდ უმეთვალყურეო სწავლების მასშტაბირებითაც კი GPT‑4.5 წინა მოდელებთან, მაგალითად GPT‑4o-სთან შედარებით, მნიშვნელოვან გაუმჯობესებას აჩვენებს. მიუხედავად ამისა, ამ გამოშვებით GPT‑4.5‑ის შესაძლებლობებზე უფრო სრულ სურათს ველით, რადგან გვესმის, რომ აკადემიური ბენჩმარკები ყოველთვის არ ასახავს რეალურ პრაქტიკულ სარგებლიანობას.
მოდელის შეფასების ქულები
GPT‑4.5 | GPT‑4o | OpenAI o3‑mini (high) | |
GPQA (მეცნიერება) | 71.4% | 53.6% | 79.7% |
AIME ‘24 (მათემატიკა) | 36.7% | 9.3% | 87.3% |
MMMLU (მრავალენოვანი) | 85.1% | 81.5% | 81.1% |
MMMU (მულტიმოდალური) | 74.4% | 69.1% | - |
SWE-Lancer Diamond (კოდირება)* | 32.6% $186,125 | 23.3% $138,750 | 10.8% $89,625 |
SWE-Bench Verified (კოდირება)* | 38.0% | 30.7% | 61.0% |
*ნაჩვენები რიცხვები წარმოადგენს საუკეთესო შიდა შედეგს.
ავტორები
ძირითადი მონაწილეები
Adam Goucher, Alex Paino, Ali Kamali, Amin Tootoonchian, Andrew Tulloch, Ben Sokolowsky, Clemens Winter, Colin Wei, Daniel Kappler, Daniel Levy, Felipe Petroski Such, Geoff Salmon, Ian O’Connell, Jason Teplitz, Kai Chen, Nik Tezak, Prafulla Dhariwal, Rapha Gontijo Lopes, Sam Schoenholz, Youlong Cheng, Yujia Jin და Yunxing Dai
კვლევა
ძირითადი მონაწილეები
Aiden Low, Alec Radford, Alex Carney, Alex Nichol, Alexis Conneau, Ananya Kumar, Ben Wang, Charlotte Cole , Elizabeth Yang, Gabriel Goh, Hadi Salman, Haitang Hu, Heewoo Jun, Ian Sohl, Ishaan Gulrajani, Jacob Coxon, James Betker, Jamie Kiros, Jessica Landon, Kyle Luther, Lia Guy, Lukas Kondraciuk, Lyric Doshi, Mikhail Pavlov, Qiming Yuan, Reimar Leike, Rowan Zellers, Sean Metzger, Shengjia Zhao, Spencer Papay, Tao Wang
მონაწილეები
Adam Lerer, Adrien Ecoffet, Aidan McLaughlin, Alexander Prokofiev, Alexandra Barr, Allan Jabri, Andrew Gibiansky, Andrew Schmidt, Casey Chu, Chak Li, Chelsea Voss, Chris Hallacy, Chris Koch, Christine McLeavey, David Mely, Dimitris Tsipras, Eric Sigler, Erin Kavanaugh, Farzad Khorasani, Huiwen Chang, Ilya Kostrikov, Ishaan Singal, Ji Lin, Jiahui Yu, Jing Yu Zhang, John Rizzo, Jong Wook Kim, Joyce Lee, Juntang Zhuang, Leo Liu, Li Jing, Long Ouyang, Louis Feuvrier, Mo Bavarian, Nick Stathas, Nitish Keskar, Oleg Murk, Preston Bowman, Scottie Yan, SQ Mah, Tao Xu, Taylor Gordon, Valerie Qi, Wenda Zhou, Yu Zhang
მასშტაბირება
ძირითადი მონაწილეები
Alex Chow, Alex Renzin, Aleksandra Spyra, Avi Nayak, Ben Leimberger, Christopher Hesse, Duc Phong Nguyen, Dinghua Li, Eric Peterson, Francis Zhang, Gene Oden, Kai Fricke, Kai Hayashi, Larry Lv, Leqi Zou, Lin Yang, Madeleine Thompson, Michael Petrov, Miguel Castro, Natalia Gimelshein, Phil Tillet, Reza Zamani, Ryan Cheu Stanley Hsieh, Steve Lee, Stewart Hall, Thomas Raoux, Tianhao Zheng, Vishal Kuo, Yongjik Kim, Yuchen Zhang, Zhuoran Liu
მონაწილეები
Alvin Wan, Andrew Cann, Andrew Codispoti, Antoine Pelisse, Anuj Kalia, Aaron Hurst, Avital Oliver, Brad Barnes, Brian Hsu, Chen Ding, Chen Shen, Cheng Chang, Christian Gibson, Christopher Berner, Duncan Findlay, Fan Wang, Fangyuan Li, Gianluca Borello, Heather Schmidt, Henrique Ponde de Oliveira Pinto, Ikai Lan, Jiayi Weng, James Crooks, Jos Kraaijeveld, Junru Shao, Kenny Hsu, Kenny Nguyen, Kevin King, Leah Burkhardt, Leo Chen, Linden Li, Lu Zhang, Mahmoud Eariby, Marat Dukhan, Mateusz Litwin, Miki Habryn, Natan LaFontaine, Pavel Belov, Peng Su, Prasad Chakka, Rachel Lim, Rajkumar Samuel, Renaud Gaubert, Rory Carmichael, Sarah Dong, Shantanu Jain, Shuaiqi Xia, Stephen Logsdon, Todd Underwood, Tony Zhao, Weixing Zhang, Will Sheu, Weiyi Zheng, Yinghai Lu, Yunqiao Zhang
უსაფრთხოების სისტემები
Andrea Vallone, Andy Applebaum, Cameron Raymond, Chong Zhang, Dan Mossing, Elizabeth Proehl, Eric Wallace, Evan Mays, Grace Zhao, Ian Kivlichan, Irina Kofman, Joel Parish, Kevin Liu, Keren Gu-Lemberg, Kristen Ying, Lama Ahmad, Lilian Weng, Leon Maksin, Leyton Ho, Meghan Shah, Michael Lampe, Michele Wang, Miles Wang, Olivia Watkins, Phillip Guo, Samuel Miserendino, Sam Toizer, Sandhini Agarwal, Tejal Patwardhan, Tom Dupré la Tour, Tong Mu, Tyna Eloundou და Yunyun Wang
განთავსება
Adam Brandon, Adam Perelman, Adele Li, Akshay Nathan, Alan Hayes, Alfred Xue, Alison Ben, Alec Gorge, Alex Guziel, Alex Iftimie, Ally Bennett, Andrew Chen, Andy Wang, Andy Wood, Angad Singh, Anoop Kotha, Antonia Woodford, Anuj Saharan, Ashley Tyra, Atty Eleti, Ben Schneider, Bessie Ji, Beth Hoover, Bill Chen, Blake Samic, Britney Smith, Brian Yu, Caleb Wang, Cary Bassin, Cary Hudson, Charlie Jatt, Chengdu Huang, Chris Beaumont, Christina Huang, Cristina Scheau, Dana Palmie, Daniel Levine, Daryl Neubieser, Dave Cummings, David Sasaki, Dibya Bhattacharjee, Dylan Hunn, Edwin Arbus, Elaine Ya Le, Enis Sert, Eric Kramer, Fred von Lohmann, Freddie Sulit, Gaby Janatpour, Garrett McGrath, Garrett Ollinger, Gary Yang, Hao Sheng, Harold Hotelling, Janardhanan Vembunarayanan, Jeff Harris, Jeffrey Sabin Matsumoto, Jennifer Robinson, Jessica Liang, Jessica Shieh, Jiacheng Yang, Joel Morris, Joseph Florencio, Josh Kaplan, Kan Wu, Karan Sharma, Karen Li, Katie Pypes, Kendal Simon, Kendra Rimbach, Kevin Park, Kevin Rao, Laurance Fauconnet, Lauren Workman, Leher Pathak, Liang Wu, Liang Xiong, Lien Mamitsuka, Lindsay McCallum, Lukas Gross, Manoli Liodakis, Matt Nichols, Michelle Fradin, Minal Khan, Mingxuan Wang, Nacho Soto, Natalie Staudacher, Nikunj Handa, Niko Felix, Ning Liu, Olivier Godement, Oona Gleeson, Philip Pronin, Raymond Li, Reah Miyara, Robert Xiong, Rohan Nuttall, R.J. Marsan, Sara Culver, Scott Ethersmith, Sean Fitzgerald, Shamez Hemani, Sherwin Wu, Shiao Lee, Shuyang Cheng, Siyuan Fu, Spug Golden, Steve Coffey, Steven Heidel, Sundeep Tirumalareddy, Tabarak Khan, Thomas Degry, Thomas Dimson, Tom Stasi, Tomo Hiratsuka, Trevor Creech, Uzair Navid Iftikhar, Victoria Chernova, Victoria Spiegel, Wanning Jiang, Wenlei Xie, Yaming Lin, Yara Khakbaz, Yilei Qian, Yilong Qin, Yo Shavit და Zhi Bie
აღმასრულებელი ხელმძღვანელობა
Aidan Clark, Bob McGrew, David Farhi, Greg Brockman, Hannah Wong, Jakub Pachocki, Johannes Heidecke, Joanne Jang, Kate Rouch, Kevin Weil, Lauren Itow, Liam Fedus, Mark Chen, Mia Glaese, Mira Murati, Nick Ryder, Sam Altman, Srinivas Narayanan და Tal Broda