Παρουσίαση του GPT‑4.5
Μια προεπισκόπηση της έρευνάς μας για το ισχυρότερο μοντέλο GPT. Διαθέσιμο για χρήστες Pro και προγραμματιστές σε όλο τον κόσμο.
Δημοσιεύουμε μια ερευνητική προεπισκόπηση του GPT‑4.5— το μεγαλύτερο και καλύτερο μοντέλο μας για συνομιλία μέχρι τώρα. Το GPT‑4.5 αποτελεί βήμα προόδου στην κλιμάκωση της προεκπαίδευσης και της μετεκπαίδευσης. Με την κλιμάκωση της μη επιβλεπόμενης μάθησης, το GPT‑4.5 βελτιώνει την ικανότητά του να αναγνωρίζει μοτίβα, να δημιουργεί συνδέσεις και να παράγει δημιουργικές ιδέες χωρίς συλλογισμό.
Οι πρώτες δοκιμές δείχνουν ότι η αλληλεπίδραση με το GPT‑4.5 είναι πιο φυσική. Η ευρύτερη βάση γνώσεων, η βελτιωμένη ικανότητά του να ακολουθεί την πρόθεση του χρήστη και η μεγαλύτερη «συναισθηματική νοημοσύνη» του το καθιστούν χρήσιμο για εργασίες όπως η βελτίωση της γραφής, ο προγραμματισμός και η επίλυση πρακτικών προβλημάτων. Περιμένουμε επίσης να έχει λιγότερες παραισθήσεις.
Μοιραζόμαστε το GPT‑4.5 ως ερευνητική προεπισκόπηση για να κατανοήσουμε καλύτερα τα πλεονεκτήματα και τους περιορισμούς του. Εξακολουθούμε να εξερευνούμε τις δυνατότητές του και ανυπομονούμε να δούμε πώς οι άνθρωποι το χρησιμοποιούν με τρόπους που ίσως δεν περιμέναμε.
Αναπτύσσουμε τις δυνατότητες της τεχνητής νοημοσύνης κλιμακώνοντας δύο συμπληρωματικά παραδείγματα: τη μη επιβλεπόμενη μάθηση και τον συλλογισμό. Αυτά αντιπροσωπεύουν δύο άξονες ευφυΐας.
- Η μη επιβλεπόμενη μάθηση αυξάνει την ακρίβεια και τη διαίσθηση του παγκόσμιου μοντέλου. Μοντέλα όπως τα GPT‑3.5, GPT‑4 και GPT‑4.5 προάγουν αυτό το παράδειγμα.
- Ο κλιμακωτός συλλογισμός, από την άλλη πλευρά, διδάσκει στα μοντέλα να σκέφτονται και να δημιουργούν μια αλυσίδα σκέψης προτού απαντήσουν, επιτρέποντάς τους να επιλύουν σύνθετα προβλήματα STEM ή λογικής. Μοντέλα όπως το OpenAI o1 και το OpenAI o3‑mini προάγουν αυτό το παράδειγμα.
Το GPT‑4.5 αποτελεί παράδειγμα κλιμάκωσης της μη επιβλεπόμενης μάθησης μέσω αύξησης των υπολογιστικών δυνατοτήτων και των δεδομένων, μαζί με καινοτομίες στην αρχιτεκτονική και στη βελτιστοποίηση. Το GPT‑4.5 εκπαιδεύτηκε σε υπερυπολογιστές τεχνητής νοημοσύνης Microsoft Azure. Το αποτέλεσμα είναι ένα μοντέλο που διαθέτει ευρύτερη γνώση και βαθύτερη κατανόηση του κόσμου, μειώνοντας τις παραισθήσεις και αυξάνοντας την αξιοπιστία σε ένα ευρύ φάσμα θεμάτων.
Κλιμάκωση του παραδείγματος GPT
Βαθύτερη παγκόσμια γνώση
Ακρίβεια SimpleQA (όσο υψηλότερη, τόσο καλύτερη)
Ποσοστό παραισθήσεων SimpleQA (όσο χαμηλότερο, τόσο καλύτερο)
Το SimpleQA μετρά την πραγματολογική ακρίβεια των LLM (μεγάλων γλωσσικών μοντέλων) σε απλές ωστόσο απαιτητικές ερωτήσεις γνώσης.
Καθώς κλιμακώνουμε τα μοντέλα μας και επιλύουν πιο σύνθετα προβλήματα, γίνεται όλο και πιο σημαντικό να τους διδάξουμε μεγαλύτερη κατανόηση των ανθρώπινων αναγκών και προθέσεων. Για το GPT‑4.5, αναπτύξαμε νέες, κλιμακούμενες τεχνικές που επιτρέπουν την εκπαίδευση μεγαλύτερων και ισχυρότερων μοντέλων με δεδομένα που προέρχονται από μικρότερα μοντέλα. Οι τεχνικές αυτές βελτιώνουν τη δυνατότητα καθοδήγησης του GPT‑4.5, κατανοώντας τις διαφοροποιήσεις και τη φυσική συνομιλία.
Συγκριτικές αξιολογήσεις με δοκιμαστές ανθρώπους
Η ανθρώπινη προτίμηση μετρά το ποσοστό των ερωτημάτων όπου οι δοκιμαστές προτίμησαν το GPT‑4.5 έναντι του GPT‑4o.
Ο συνδυασμός της βαθιάς κατανόησης του κόσμου με τη βελτιωμένη συνεργασία οδηγεί σε ένα μοντέλο που ενσωματώνει ιδέες με φυσικό τρόπο σε ζεστές και διαισθητικές συζητήσεις, οι οποίες είναι πιο προσαρμοσμένες στην ανθρώπινη συνεργασία. Το GPT‑4.5 κατανοεί καλύτερα τι εννοούν οι άνθρωποι και ερμηνεύει ανεπαίσθητα σημάδια ή έμμεσες προσδοκίες με μεγαλύτερη απόχρωση και «Συναισθηματική νοημοσύνη». Το GPT‑4.5 δείχνει επίσης ισχυρότερη αισθητική διαίσθηση και δημιουργικότητα. Είναι εξαιρετικό στο να βοηθάει στη γραφή και στον σχεδιασμό.
Περιπτώσεις χρήσης
GPT-4.5
Το GPT‑4.5 δείχνει μεγαλύτερη συναισθηματική νοημοσύνη και γνωρίζει πότε να προσκαλέσει περαιτέρω συζήτηση και πότε να παρέχει στον χρήστη εκτενείς πληροφορίες.
Το GPT‑4.5 δεν σκέφτεται πριν απαντήσει, γεγονός που καθιστά τα πλεονεκτήματά του ιδιαίτερα διαφορετικά από μοντέλα συλλογισμού όπως το OpenAI o1. Σε σύγκριση με το OpenAI o1 και το OpenAI o3‑mini, το GPT‑4.5 αποτελεί ένα πιο γενικής χρήσης, εγγενώς πιο έξυπνο μοντέλο. Πιστεύουμε ότι ο συλλογισμός θα αποτελεί μια βασική ικανότητα των μελλοντικών μοντέλων και πως οι δύο προσεγγίσεις για την κλιμάκωση - προεκπαίδευση και συλλογισμός - θα αλληλοσυμπληρώνονται. Καθώς τα μοντέλα όπως το GPT‑4.5 γίνονται πιο έξυπνα και πιο ενημερωμένα μέσω της προεκπαίδευσης, θα αποτελέσουν ακόμη ισχυρότερη βάση για τον συλλογισμό και τους πράκτορες που χρησιμοποιούν εργαλεία.
Κάθε αύξηση των δυνατοτήτων των μοντέλων αποτελεί επίσης μια ευκαιρία να γίνουν τα μοντέλα πιο ασφαλή. Το GPT‑4.5 εκπαιδεύτηκε με νέες τεχνικές εποπτείας που συνδυάζονται με παραδοσιακές μεθόδους προσαρμογής με επίβλεψη (supervised fine-tuning) και ενισχυτική μάθηση από ανθρώπινα σχόλια (RLHF) όπως αυτές που χρησιμοποιούνται για το GPT‑4o. Ελπίζουμε ότι αυτή η εργασία θα αποτελέσει τη βάση για την ευθυγράμμιση ακόμη πιο ικανών μελλοντικών μοντέλων.
Για να δοκιμάσουμε τις βελτιώσεις μας, πραγματοποιήσαμε μια σειρά δοκιμών ασφαλείας πριν από την ανάπτυξη, σύμφωνα με τις Πλαίσιο ετοιμότητας(ανοίγει σε νέο παράθυρο). Διαπιστώσαμε ότι η κλιμάκωση του παραδείγματος GPT συνέβαλε στη βελτίωση των ικανοτήτων σε όλες τις αξιολογήσεις μας. Δημοσιεύουμε τα λεπτομερή αποτελέσματα αυτών των αξιολογήσεων στη συνοδευτική κάρτα συστήματος.
Από σήμερα, οι χρήστες του ChatGPT Pro θα μπορούν να επιλέξουν το GPT‑4.5 στο εργαλείο επιλογής μοντέλων στον ιστό, σε κινητά και σε υπολογιστές. Θα αρχίσουμε να το διαθέτουμε στους χρήστες Plus και Team την επόμενη βδομάδα και μετά στους χρήστες Enterprise και Edu την μεθεπόμενη εβδομάδα.
Το GPT‑4.5 έχει πρόσβαση στις πιο πρόσφατες ενημερωμένες πληροφορίες μέσω αναζήτησης, παρέχει υποστήριξη για αποστολή αρχείων και εικόνων και μπορεί να χρησιμοποιήσει το canvas για να εργαστεί στη συγγραφή και στον προγραμματισμό. Ωστόσο, το GPT‑4.5 δεν παρέχει αυτήν τη στιγμή υποστήριξη για πολυτροπικές λειτουργίες όπως η φωνητική λειτουργία, το βίντεο και η κοινή χρήση οθόνης στο ChatGPT. Στο μέλλον, θα εργαστούμε για να απλοποιήσουμε την εμπειρία χρήστη, ώστε η τεχνητή νοημοσύνη να «λειτουργεί απλά» για σένα.
Επίσης, παρουσιάζουμε την προεπισκόπηση του GPT‑4.5 στο Chat Completions API, στο Assistants API και στο Batch API σε προγραμματιστές σε όλα τα επί πληρωμή επίπεδα χρήσης(ανοίγει σε νέο παράθυρο). Το μοντέλο υποστηρίζει βασικά χαρακτηριστικά όπως κλήση συναρτήσεων, Δομημένα αποτελέσματα, ροή και μηνύματα συστήματος. Υποστηρίζει επίσης οπτικές δυνατότητες μέσω εισαγωγών εικόνας.
Με βάση τις πρώτες δοκιμές, οι προγραμματιστές μπορεί να βρουν το GPT‑4.5 ιδιαίτερα χρήσιμο για εφαρμογές που επωφελούνται από την αυξημένη συναισθηματική νοημοσύνη και τη δημιουργικότητά του—όπως η βοήθεια στη συγγραφή, η επικοινωνία, η μάθηση, η καθοδήγηση και ο καταιγισμός ιδεών. Δείχνει επίσης ισχυρές δυνατότητες στον προγραμματισμό και στην εκτέλεση, συμπεριλαμβανομένων των ροών εργασιών κωδικοποίησης πολλαπλών βημάτων και της αυτοματοποίησης σύνθετων εργασιών.
Το GPT‑4.5 αποτελεί ένα πολύ μεγάλο και απαιτητικό σε υπολογιστική ισχύ μοντέλο, γεγονός που το καθιστά πιο ακριβό από το GPT‑4o και όχι υποκατάστατο του. Γι' αυτό, αξιολογούμε αν θα συνεχίσουμε να το παρέχουμε στο API μακροπρόθεσμα, καθώς εξισορροπούμε την υποστήριξη των τρεχουσών δυνατοτήτων με την ανάπτυξη μελλοντικών μοντέλων. Ανυπομονούμε να μάθουμε περισσότερα για τα δυνατά σημεία, τις δυνατότητες και τις πιθανές εφαρμογές του σε πραγματικές συνθήκες. Εάν το GPT‑4.5 προσφέρει μοναδική αξία για την περίπτωσή σας, τα σχόλια(ανοίγει σε νέο παράθυρο) θα διαδραματίσουν σημαντικό ρόλο στην καθοδήγηση της απόφασής μας.
Με κάθε νέα τάξη μεγέθους στην υπολογιστική ισχύ έρχονται και νέες δυνατότητες. Το GPT‑4.5 αποτελεί μοντέλο που βρίσκεται στην αιχμή των δυνατοτήτων στη μη επιβλεπόμενη μάθηση. Συνεχίζουμε να εκπλησσόμαστε από τη δημιουργικότητα της κοινότητας στην ανακάλυψη νέων ικανοτήτων και απροσδόκητων περιπτώσεων χρήσης. Με το GPT‑4.5, σε προσκαλούμε να εξερευνήσειςε τα σύνορα της μη επιβλεπόμενης μάθησης και να ανακαλύψεις μαζί μας νέες δυνατότητες.
Παρακάτω, παρέχουμε τα αποτελέσματα του GPT‑4.5 σε τυπικά ακαδημαϊκά σημεία αναφοράς, για να δείξουμε την τρέχουσα απόδοσή του σε εργασίες που συνδέονται παραδοσιακά με τη λογική. Ακόμα και με την απλή κλιμάκωση της μη επιβλεπόμενης μάθησης, το GPT‑4.5 παρουσιάζει ουσιαστικές βελτιώσεις σε σχέση με προηγούμενα μοντέλα όπως το GPT‑4o. Παρ' όλα αυτά, ανυπομονούμε να αποκτήσουμε μια πιο ολοκληρωμένη εικόνα των δυνατοτήτων του GPT‑4.5 μέσω αυτής της έκδοσης, επειδή αναγνωρίζουμε ότι τα ακαδημαϊκά κριτήρια αναφοράς δεν αντικατοπτρίζουν πάντα τη χρησιμότητα στον πραγματικό κόσμο.
Βαθμολογίες αξιολόγησης μοντέλου
GPT‑4.5 | GPT‑4 | OpenAI o3‑mini (υψηλό) | |
GPQA (επιστήμη) | 71,4% | 53,6% | 79,7% |
AIME ‘24 (μαθηματικά) | 36,7% | 9,3% | 87,3% |
MMMLU (πολύγλωσσο) | 85,1% | 81,5% | 81,1% |
MMMU (πολυτροπικό) | 74,4% | 69,1% | - |
SWE-Lancer Diamond (κωδικοποίηση)* | 32,6% 186.125 $ | 23,3% 138.750 $ | 10,8% 89.625 $ |
Επαληθευμένο από το SWE-Bench (κωδικοποίηση)* | 38,0% | 30,7% | 61,0% |
*Οι αριθμοί που παρουσιάζονται αντιπροσωπεύουν την καλύτερη εσωτερική απόδοση.
Συντάκτες
Θεμελιώδεις συντελεστές
Adam Goucher, Alex Paino, Ali Kamali, Amin Tootoonchian, Andrew Tulloch, Ben Sokolowsky, Clemens Winter, Colin Wei, Daniel Kappler, Daniel Levy, Felipe Petroski Such, Geoff Salmon, Ian O’Connell, Jason Teplitz, Kai Chen, Nik Tezak, Prafulla Dhariwal, Rapha Gontijo Lopes, Sam Schoenholz, Youlong Cheng, Yujia Jin, Yunxing Dai
Έρευνα
Κύριοι συντελεστές
Aiden Low, Alec Radford, Alex Carney, Alex Nichol, Alexis Conneau, Ananya Kumar, Ben Wang, Charlotte Cole, Elizabeth Yang, Gabriel Goh, Hadi Salman, Haitang Hu, Heewoo Jun, Ian Sohl, Ishaan Gulrajani, Jacob Coxon, James Betker, Jamie Kiros, Jessica Landon, Kyle Luther, Lia Guy, Lukas Kondraciuk, Lyric Doshi, Mikhail Pavlov, Qiming Yuan, Reimar Leike, Rowan Zellers, Sean Metzger, Shengjia Zhao, Spencer Papay, Tao Wang
Συνεισφέροντες
Adam Lerer, Adrien Ecoffet, Aidan McLaughlin, Alexander Prokofiev, Alexandra Barr, Allan Jabri, Andrew Gibiansky, Andrew Schmidt, Casey Chu, Chak Li, Chelsea Voss, Chris Hallacy, Chris Koch, Christine McLeavey, David Mely, Dimitris Tsipras, Eric Sigler, Erin Kavanaugh, Farzad Khorasani, Huiwen Chang, Ilya Kostrikov, Ishaan Singal, Ji Lin, Jiahui Yu, Jing Yu Zhang, John Rizzo, Jong Wook Kim, Joyce Lee, Juntang Zhuang, Leo Liu, Li Jing, Long Ouyang, Louis Feuvrier, Mo Bavarian, Nick Stathas, Nitish Keskar, Oleg Murk, Preston Bowman, Scottie Yan, SQ Mah, Tao Xu, Taylor Gordon, Valerie Qi, Wenda Zhou, Yu Zhang
Κλιμάκωση
Κύριοι συντελεστές
Alex Chow, Alex Renzin, Aleksandra Spyra, Avi Nayak, Ben Leimberger, Christopher Hesse, Duc Phong Nguyen, Dinghua Li, Eric Peterson, Francis Zhang, Gene Oden, Kai Fricke, Kai Hayashi, Larry Lv, Leqi Zou, Lin Yang, Madeleine Thompson, Michael Petrov, Miguel Castro, Natalia Gimelshein, Phil Tillet, Reza Zamani, Ryan Cheu Stanley Hsieh, Steve Lee, Stewart Hall, Thomas Raoux, Tianhao Zheng, Vishal Kuo, Yongjik Kim, Yuchen Zhang, Zhuoran Liu
Συνεισφέροντες
Alvin Wan, Andrew Cann, Andrew Codispoti, Antoine Pelisse, Anuj Kalia, Aaron Hurst, Avital Oliver, Brad Barnes, Brian Hsu, Chen Ding, Chen Shen, Cheng Chang, Christian Gibson, Christopher Berner, Duncan Findlay, Fan Wang, Fangyuan Li, Gianluca Borello, Heather Schmidt, Henrique Ponde de Oliveira Pinto, Ikai Lan, Jiayi Weng, James Crooks, Jos Kraaijeveld, Junru Shao, Kenny Hsu, Kenny Nguyen, Kevin King, Leah Burkhardt, Leo Chen, Linden Li, Lu Zhang, Mahmoud Eariby, Marat Dukhan, Mateusz Litwin, Miki Habryn, Natan LaFontaine, Pavel Belov, Peng Su, Prasad Chakka, Rachel Lim, Rajkumar Samuel, Renaud Gaubert, Rory Carmichael, Sarah Dong, Shantanu Jain, Shuaiqi Xia, Stephen Logsdon, Todd Underwood, Tony Zhao, Weixing Zhang, Will Sheu, Weiyi Zheng, Yinghai Lu, Yunqiao Zhang
Συστήματα ασφάλειας
Andrea Vallone, Andy Applebaum, Cameron Raymond, Chong Zhang, Dan Mossing, Elizabeth Proehl, Eric Wallace, Evan Mays, Grace Zhao, Ian Kivlichan, Irina Kofman, Joel Parish, Kevin Liu, Keren Gu-Lemberg, Kristen Ying, Lama Ahmad, Lilian Weng, Leon Maksin, Leyton Ho, Meghan Shah, Michael Lampe, Michele Wang, Miles Wang, Olivia Watkins, Phillip Guo, Samuel Miserendino, Sam Toizer, Sandhini Agarwal, Tejal Patwardhan, Tom Dupré la Tour, Tong Mu, Tyna Eloundou, Yunyun Wang
Ανάπτυξη
Adam Brandon, Adam Perelman, Adele Li, Akshay Nathan, Alan Hayes, Alfred Xue, Alison Ben, Alec Gorge, Alex Guziel, Alex Iftimie, Ally Bennett, Andrew Chen, Andy Wang, Andy Wood, Angad Singh, Anoop Kotha, Antonia Woodford, Anuj Saharan, Ashley Tyra, Atty Eleti, Ben Schneider, Bessie Ji, Beth Hoover, Bill Chen, Blake Samic, Britney Smith, Brian Yu, Caleb Wang, Cary Bassin, Cary Hudson, Charlie Jatt, Chengdu Huang, Chris Beaumont, Christina Huang, Cristina Scheau, Dana Palmie, Daniel Levine, Daryl Neubieser, Dave Cummings, David Sasaki, Dibya Bhattacharjee, Dylan Hunn, Edwin Arbus, Elaine Ya Le, Enis Sert, Eric Kramer, Fred von Lohmann, Freddie Sulit, Gaby Janatpour, Garrett McGrath, Garrett Ollinger, Gary Yang, Hao Sheng, Harold Hotelling, Janardhanan Vembunarayanan, Jeff Harris, Jeffrey Sabin Matsumoto, Jennifer Robinson, Jessica Liang, Jessica Shieh, Jiacheng Yang, Joel Morris, Joseph Florencio, Josh Kaplan, Kan Wu, Karan Sharma, Karen Li, Katie Pypes, Kendal Simon, Kendra Rimbach, Kevin Park, Kevin Rao, Laurance Fauconnet, Lauren Workman, Leher Pathak, Liang Wu, Liang Xiong, Lien Mamitsuka, Lindsay McCallum, Lukas Gross, Manoli Liodakis, Matt Nichols, Michelle Fradin, Minal Khan, Mingxuan Wang, Nacho Soto, Natalie Staudacher, Nikunj Handa, Niko Felix, Ning Liu, Olivier Godement, Oona Gleeson, Philip Pronin, Raymond Li, Reah Miyara, Robert Xiong, Rohan Nuttall, R.J. Marsan, Sara Culver, Scott Ethersmith, Sean Fitzgerald, Shamez Hemani, Sherwin Wu, Shiao Lee, Shuyang Cheng, Siyuan Fu, Spug Golden, Steve Coffey, Steven Heidel, Sundeep Tirumalareddy, Tabarak Khan, Thomas Degry, Thomas Dimson, Tom Stasi, Tomo Hiratsuka, Trevor Creech, Uzair Navid Iftikhar, Victoria Chernova, Victoria Spiegel, Wanning Jiang, Wenlei Xie, Yaming Lin, Yara Khakbaz, Yilei Qian, Yilong Qin, Yo Shavit, Zhi Bie
Εκτελεστική ηγεσία
Aidan Clark, Bob McGrew, David Farhi, Greg Brockman, Hannah Wong, Jakub Pachocki, Johannes Heidecke, Joanne Jang, Kate Rouch, Kevin Weil, Lauren Itow, Liam Fedus, Mark Chen, Mia Glaese, Mira Murati, Nick Ryder, Sam Altman, Srinivas Narayanan, Tal Broda