Langsung ke konten utama
OpenAI

27 Februari 2025

RilisProduk

Memperkenalkan GPT‑4.5

Pratinjau riset untuk model GPT terkuat kami. Tersedia bagi pengembang dan pengguna Pro di seluruh dunia.

Memuat…

Kami merilis pratinjau riset GPT‑4.5—model terbesar dan terbaik yang pernah ada untuk obrolan. GPT‑4.5 adalah sebuah langkah maju dalam menskalakan prapelatihan dan pascapelatihan. Dengan menskalakan pembelajaran tanpa pengawasan, GPT‑4.5 meningkatkan kemampuannya untuk mengenali pola, mengenali koneksi, dan menghasilkan wawasan kreatif tanpa penalaran.

Pengujian awal menunjukkan bahwa interaksi dengan GPT‑4.5 terasa lebih alami. Basis pengetahuannya menjadi lebih luas, peningkatan kemampuan untuk mengikuti niat pengguna, dan "EQ" yang lebih tinggi membuatnya bermanfaat untuk tugas seperti memperbaiki tulisan, pemrograman, dan mengatasi masalah praktis. Kami juga berharap versi ini mengalami lebih sedikit halusinasi.

Kami membagikan GPT‑4.5 sebagai pratinjau riset untuk mendapatkan pemahaman yang lebih baik mengenai kelebihan dan batasannya. Kami masih menjelajahi berbagai hal yang bisa dilakukannya dan ingin melihat bagaimana orang menggunakannya dalam suatu cara yang tidak pernah kami bayangkan.

Menskalakan pembelajaran tanpa pengawasan

Kami memajukan kemampuan AI dengan menskalakan dua paradigma tambahan: pembelajaran dan penalaran tanpa pengawasan. Dua paradigma ini mewakili dua sumbu kecerdasan.

  1. Pembelajaran tanpa pengawasan meningkatkan akurasi dan intuisi model dunia. Model seperti GPT‑3.5, GPT‑4, dan GPT‑4.5 memajukan paradigma ini.
  2. Menskalakan penalaran, di sisi lain, mengajarkan model untuk berpikir dan memproduksi rantai pikiran sebelum mereka merespons, memungkinkan mereka untuk menanggulangi masalah STEM atau logika yang rumit. Model seperti OpenAI o1 dan OpenAI o3‑mini memajukan paradigma ini.

GPT‑4.5 adalah sebuah contoh menskalakan pembelajaran tanpa pengawasan dengan meningkatkan skala komputasi dan data yang disertai dengan inovasi arsitektur dan pengoptimalan. GPT‑4.5 telah dilatih di superkomputer Microsoft Azure AI. Hasilnya adalah sebuah model yang memiliki pengetahuan yang lebih luas dan pemahaman lebih mendalam mengenai dunia, menyebabkan penurunan halusinasi dan meningkatnya keandalan di berbagai topik.

Menskalakan paradigma GPT

What was the first language?

We don't know exactly what the first language was, and scientists believe we'll probably never know for sure because spoken languages appeared long before written records existed.

Here's what we do know:

  • No single "first language": Languages likely developed gradually in different groups of humans around the same time, tens or even hundreds of thousands of years ago.
  • Origin in Africa: Most scientists agree that spoken language probably first emerged among humans in Africa, perhaps over 100,000 years ago.
  • Proto-languages: Rather than a single language, humans likely started with simple communication that evolved into more complex languages. The earliest forms of language probably included gestures, sounds, and signals to express basic ideas and emotions.
  • Lost to history: Because speech leaves no direct fossil record, and writing emerged relatively recently (around 5,000 years ago), we have no way to know exactly how the earliest languages sounded.

Today, linguists study existing languages to understand how they evolved over thousands of years, but the exact identity of humanity’s very first language remains—and will likely always remain—a mystery.

Pengetahuan dunia yang lebih dalam

Keakuratan SimpleQA (lebih besar lebih baik)
62.5%38.2%47%15%Keakuratan
Tingkat Halusinasi SimpleQA (lebih rendah lebih baik)
37.1%61.8%44%80.3%Tingkat halusinasi

SimpleQA mengukur faktualitas LLM (model bahasa besar) melalui pertanyaan pengetahuan sederhana tetapi menantang.

Pelatihan untuk kolaborasi manusia

Seiring kami meningkatkan skala model kami dan model kami menangani lebih banyak masalah rumit, menjadi makin penting untuk mengajarkan model kami pemahaman akan kebutuhan dan niat manusia. untuk GPT‑4.5, kami telah mengembangkan teknik baru yang dapat ditingkatkan skalanya yang memungkinkan pelatihan yang lebih besar dan model yang lebih kuat dengan data yang berasal dari model yang lebih kecil. Teknik ini meningkatkan kemampuan untuk diarahkan, memahami nuansa, dan percakapan alami dari GPT‑4.5.

Evaluasi komparatif dengan penguji manusia
56.8%63.2%57.0%Tingkat kemenangan GPT-4.5 vs GPT-4o

Preferensi manusia mengukur persentase kueri sementara penguji lebih memilih GPT‑4.5 daripada GPT‑4o.

Menggabungkan pemahaman mendalam akan dunia dengan peningkatan hasil kolaborasi di model yang mengintegrasikan ide alami dalam percakapan yang hangat dan intuitif, yang lebih selaras dengan kolaborasi manusia. GPT‑4.5 memiliki pemahaman yang lebih baik akan maksud manusia dan menginterpretasikan isyarat halus atau harapan implisit dengan nuansa dan “EQ” yang lebih besar. GPT‑4.5 juga menampilkan intuisi dan kreativitas estetik yang lebih kuat. Model ini unggul dalam membantu penulisan dan desain.

Contoh penggunaan

GPT-4.5

I’m going through a tough time after failing a test

Aw, I'm really sorry to hear that. Failing a test can feel pretty tough and discouraging, but remember, it's just one moment—not a reflection of who you are or your capabilities. Want to talk about what happened, or do you just need a distraction? I'm here either way.

I’m going through a tough time after failing a test

I'm really sorry to hear that you're going through a tough time. Here are a few things you might consider:

1. Reflect and Understand: Try to analyze what might have gone wrong. Was it a lack of preparation, time management during the test, or perhaps misunderstanding the material? Understanding the root cause can help you address it in the future.

2. Seek Support: Talk to someone you trust—friends, family, or a school counselor. They can offer a different perspective and sometimes just talking about your feelings can be alleviating.

3. Speak with Your Teacher or Professor: They can provide insights into where you might have gone wrong and offer advice on how to improve. They might also offer opportunities for make-up work or extra credit.

4. Develop a Study Plan: Based on your reflections, create a plan to improve your study habits. This might include setting regular study times, breaking down material into manageable portions, or finding new study methods that work better for you.

5. Stay Positive and Forgive Yourself: Mistakes and setbacks are a part of life. It’s important to be kind to yourself and recognize that failure is a stepping stone to success.

6. Focus on the Bigger Picture: Remember that one test is just one part of your educational journey. There will be many more opportunities to do well.

If you need further support or resources, consider reaching out to educational support services at your institution, or mental health resources if you’re feeling particularly overwhelmed. You’re not alone in this, and things can get better with time and effort.

GPT‑4.5 menunjukkan “EQ” yang lebih tinggi dan mengetahui kapan harus mengajak pengguna bercakap-cakap lebih jauh atau kapan harus memberikan informasi yang ekstensif kepada pengguna.

Penalaran yang lebih kuat di cakrawala

GPT‑4.5 tidak berpikir sebelum merespons, yang membuat keunggulan khususnya berbeda dari model penalaran seperti OpenAI o1. Dibandingkan dengan OpenAI o1 dan OpenAI o3‑mini, GPT‑4.5 itu memiliki tujuan yang jauh lebih umum, model yang lebih pintar secara alami. Kami meyakini penalaran akan menjadi kemampuan inti untuk model di masa mendatang, dan kedua pendekatan untuk penskalaan—prapelatihan dan penalaran—akan saling melengkapi satu sama lainnya. Karena model seperti GPT‑4.5 menjadi makin pintar dan makin memiliki pengetahuan melalui prapelatihan, model-model tersebut akan melayani dengan dasar yang lebih kuat untuk penalaran dan agen yang menggunakan alat.

Keselamatan

Setiap peningkatan kemampuan model juga merupakan peluang untuk membuat model tersebut menjadi lebih aman. GPT‑4.5 telah dilatih dengan teknik baru untuk pengawasan yang menggabungkan metode setelan lanjut bersupervisi tradisional (SFT) dan pembelajaran penguatan dari masukan manusia (RLHF) seperti yang digunakan pada GPT‑4o. Kami berharap kerja ini akan berfungsi sebagai dasar untuk menyelaraskan kemampuan yang makin meningkat dari model masa depan.

Untuk meningkatkan pengujian perbaikan kami, kami melakukan serangkaian uji keselamatan sebelum penerapan, sesuai dengan Kerangka Kerja Kesiapan(terbuka di jendela baru)⁠ kami. Kami menemukan bahwa menskalakan paradigma GPT berkontribusi pada peningkatan kemampuan di seluruh evaluasi kami. Kami mempublikasikan hasil yang mendetail dari berbagai evaluasi ini di kartu sistem yang menyertainya.

Cara menggunakan GPT-4.5 di ChatGPT

Mulai dari hari ini, pengguna ChatGPT Pro akan mampu untuk memilih GPT‑4.5 di pemilih model di web, seluler, dan desktop. Kami akan mulai meluncurkannya pada pengguna Plus dan Team di minggu selanjutnya, lalu pada pengguna Enterprise dan Edu dalam beberapa minggu mendatang.

GPT‑4.5 memiliki akses ke informasi paling mutakhir dengan pencarian, dukungan file dan unggahan gambar, dan dapat menggunakan kanvas untuk mengerjakan tulisan dan kode. Namun, GPT‑4.5 saat ini tidak mendukung fitur multimodal seperti Mode Suara, video, dan berbagi layar di ChatGPT. Ke depannya, kami akan berupaya untuk menyederhanakan pengalaman pengguna sehingga AI "langsung bekerja" untuk Anda.

Cara menggunakan GPT-4.5 di API

Kami juga sedang melakukan pratinjau GPT‑4.5 di API Penyelesaian Obrolan, API Asisten, dan API Batch bagi pengembang di semua jenjang penggunaan berbayar(terbuka di jendela baru). Model ini mendukung berbagai fitur utama seperti pemanggilan fungsi, Keluaran Terstruktur, streaming, dan pesan sistem. Model juga mendukung kemampuan visual melalui masukan gambar.

Berdasarkan pengujian awal, pengembang mungkin merasa kalau GPT‑4.5 sangat berguna untuk aplikasi yang memanfaatkan kecerdasan dan kreativitas yang lebih tinggi—seperti bantuan menulis, komunikasi, pembelajaran, pembinaan, dan brainstorming. Model ini juga menunjukkan kemampuan yang kuat dalam perencanaan dan eksekusi agentik termasuk alur kerja koding multilangkah dan otomatisasi tugas yang rumit.

GPT‑4.5 adalah model yang sangat besar dan menghitung dengan intensif, menjadikannya makin berharga dibandingkan sebelumnya dan bukanlah pengganti dari GPT‑4o. Dengan demikian, kami sedang melakukan evaluasi apakah akan terus menyajikannya dalam API untuk jangka waktu yang panjang seiring kami menyeimbangkan dukungan kemampuan saat ini dengan membangun model masa depan. Kami menantikan untuk mempelajari lebih lanjut mengenai kekuatannya, kemampuannya, dan potensi aplikasi dalam pengaturan di dunia sebenarnya. Jika GPT‑4.5 memberikan nilai unik untuk penggunaan kasus Anda, masukan(terbuka di jendela baru) dari Anda akan memainkan peranan penting dalam memandu keputusan kami.

Kesimpulan

Dengan setiap peningkatan pesat dalam kapasitas komputasi, muncul kemampuan-kemampuan baru. GPT‑4.5 adalah sebuah model yang berada di garis depan akan adanya kemungkinan pembelajaran tanpa pengawasan. Kami tidak henti-hentinya takjub dengan kreativitas komunitas dalam menemukan kemampuan baru dan kasus penggunaan yang tidak terduga. Dengan GPT‑4.5, kami mengajak Anda untuk menjelajahi garis depan pembelajaran tanpa pengawasan dan membuka berbagai kemampuan baru bersama kami.

Lampiran

Di bawah ini, kami menyediakan hasil dari GPT‑4.5 pada tolok ukur akademik standar untuk menggambarkan kinerjanya saat ini pada berbagai tugas tradisional yang berkaitan dengan penalaran. Bahkan hanya dengan meningkatkan skala pembelajaran tanpa pengawasan, GPT‑4.5 menunjukkan peningkatan yang berarti melebihi berbagai model sebelumnya seperti GPT‑4o. Namun, kami masih berharap untuk mendapatkan gambaran yang lebih sempurna dari kemampuan GPT‑4.5 melalui rilis ini, karena kami memahami kalau tolok ukur pendidikan tidak selalu mencerminkan kebermanfaatannya di dunia nyata.

Skor evaluasi model

GPT‑4.5

GPT‑4o

OpenAI o3‑mini (tinggi)

GPQA (ilmu pengetahuan)

71,4%

53,6%

79,7%

AIME 24 (matematika)

36,7%

9,3%

87,3%

MMMLU (multilingual)

85,1%

81,5%

81,1%

MMMU (multimodal)

74,4%

69,1%

-

SWE-Lancer Diamond (koding)*

32,6%

$186.125

23,3%

$138.750

10,8%

$89.625

SWE-bench Verified (koding)*

38,0%

30,7%

61,0%

*Angka yang ditampilkan mewakili kinerja internal terbaik.

Penulis

OpenAI

Kontributor dasar

Adam Goucher, Alex Paino, Ali Kamali, Amin Tootoonchian, Andrew Tulloch, Ben Sokolowsky, Clemens Winter, Colin Wei, Daniel Kappler, Daniel Levy, Felipe Petroski Such, Geoff Salmon, Ian O’Connell, Jason Teplitz, Kai Chen, Nik Tezak, Prafulla Dhariwal, Rapha Gontijo Lopes, Sam Schoenholz, Youlong Cheng, Yujia Jin, Yunxing Dai

Riset

Kontributor inti

Aiden Low, Alec Radford, Alex Carney, Alex Nichol, Alexis Conneau, Ananya Kumar, Ben Wang, Charlotte Cole , Elizabeth Yang, Gabriel Goh, Hadi Salman, Haitang Hu, Heewoo Jun, Ian Sohl, Ishaan Gulrajani, Jacob Coxon, James Betker, Jamie Kiros, Jessica Landon, Kyle Luther, Lia Guy, Lukas Kondraciuk, Lyric Doshi, Mikhail Pavlov, Qiming Yuan, Reimar Leike, Rowan Zellers, Sean Metzger, Shengjia Zhao, Spencer Papay, Tao Wang

Kontributor

Adam Lerer, Adrien Ecoffet, Aidan McLaughlin, Alexander Prokofiev, Alexandra Barr, Allan Jabri, Andrew Gibiansky, Andrew Schmidt, Casey Chu, Chak Li, Chelsea Voss, Chris Hallacy, Chris Koch, Christine McLeavey, David Mely, Dimitris Tsipras, Eric Sigler, Erin Kavanaugh, Farzad Khorasani, Huiwen Chang, Ilya Kostrikov, Ishaan Singal, Ji Lin, Jiahui Yu, Jing Yu Zhang, John Rizzo, Jong Wook Kim, Joyce Lee, Juntang Zhuang, Leo Liu, Li Jing, Long Ouyang, Louis Feuvrier, Mo Bavarian, Nick Stathas, Nitish Keskar, Oleg Murk, Preston Bowman, Scottie Yan, SQ Mah, Tao Xu, Taylor Gordon, Valerie Qi, Wenda Zhou, Yu Zhang

Penskalaan

Kontributor inti

Alex Chow, Alex Renzin, Aleksandra Spyra, Avi Nayak, Ben Leimberger, Christopher Hesse, Duc Phong Nguyen, Dinghua Li, Eric Peterson, Francis Zhang, Gene Oden, Kai Fricke, Kai Hayashi, Larry Lv, Leqi Zou, Lin Yang, Madeleine Thompson, Michael Petrov, Miguel Castro, Natalia Gimelshein, Phil Tillet, Reza Zamani, Ryan Cheu Stanley Hsieh, Steve Lee, Stewart Hall, Thomas Raoux, Tianhao Zheng, Vishal Kuo, Yongjik Kim, Yuchen Zhang, Zhuoran Liu

Kontributor

Alvin Wan, Andrew Cann, Andrew Codispoti, Antoine Pelisse, Anuj Kalia, Aaron Hurst, Avital Oliver, Brad Barnes, Brian Hsu, Chen Ding, Chen Shen, Cheng Chang, Christian Gibson, Christopher Berner, Duncan Findlay, Fan Wang, Fangyuan Li, Gianluca Borello, Heather Schmidt, Henrique Ponde de Oliveira Pinto, Ikai Lan, Jiayi Weng, James Crooks, Jos Kraaijeveld, Junru Shao, Kenny Hsu, Kenny Nguyen, Kevin King, Leah Burkhardt, Leo Chen, Linden Li, Lu Zhang, Mahmoud Eariby, Marat Dukhan, Mateusz Litwin, Miki Habryn, Natan LaFontaine, Pavel Belov, Peng Su, Prasad Chakka, Rachel Lim, Rajkumar Samuel, Renaud Gaubert, Rory Carmichael, Sarah Dong, Shantanu Jain, Shuaiqi Xia, Stephen Logsdon, Todd Underwood, Tony Zhao, Weixing Zhang, Will Sheu, Weiyi Zheng, Yinghai Lu, Yunqiao Zhang

Sistem Keselamatan

Andrea Vallone, Andy Applebaum, Cameron Raymond, Chong Zhang, Dan Mossing, Elizabeth Proehl, Eric Wallace, Evan Mays, Grace Zhao, Ian Kivlichan, Irina Kofman, Joel Parish, Kevin Liu, Keren Gu-Lemberg, Kristen Ying, Lama Ahmad, Lilian Weng, Leon Maksin, Leyton Ho, Meghan Shah, Michael Lampe, Michele Wang, Miles Wang, Olivia Watkins, Phillip Guo, Samuel Miserendino, Sam Toizer, Sandhini Agarwal, Tejal Patwardhan, Tom Dupré la Tour, Tong Mu, Tyna Eloundou, Yunyun Wang

Penerapan

Adam Brandon, Adam Perelman, Adele Li, Akshay Nathan, Alan Hayes, Alfred Xue, Alison Ben, Alec Gorge, Alex Guziel, Alex Iftimie, Ally Bennett, Andrew Chen, Andy Wang, Andy Wood, Angad Singh, Anoop Kotha, Antonia Woodford, Anuj Saharan, Ashley Tyra, Atty Eleti, Ben Schneider, Bessie Ji, Beth Hoover, Bill Chen, Blake Samic, Britney Smith, Brian Yu, Caleb Wang, Cary Bassin, Cary Hudson, Charlie Jatt, Chengdu Huang, Chris Beaumont, Christina Huang, Cristina Scheau, Dana Palmie, Daniel Levine, Daryl Neubieser, Dave Cummings, David Sasaki, Dibya Bhattacharjee, Dylan Hunn, Edwin Arbus, Elaine Ya Le, Enis Sert, Eric Kramer, Fred von Lohmann, Freddie Sulit, Gaby Janatpour, Garrett McGrath, Garrett Ollinger, Gary Yang, Hao Sheng, Harold Hotelling, Janardhanan Vembunarayanan, Jeff Harris, Jeffrey Sabin Matsumoto, Jennifer Robinson, Jessica Liang, Jessica Shieh, Jiacheng Yang, Joel Morris, Joseph Florencio, Josh Kaplan, Kan Wu, Karan Sharma, Karen Li, Katie Pypes, Kendal Simon, Kendra Rimbach, Kevin Park, Kevin Rao, Laurance Fauconnet, Lauren Workman, Leher Pathak, Liang Wu, Liang Xiong, Lien Mamitsuka, Lindsay McCallum, Lukas Gross, Manoli Liodakis, Matt Nichols, Michelle Fradin, Minal Khan, Mingxuan Wang, Nacho Soto, Natalie Staudacher, Nikunj Handa, Niko Felix, Ning Liu, Olivier Godement, Oona Gleeson, Philip Pronin, Raymond Li, Reah Miyara, Robert Xiong, Rohan Nuttall, R.J. Marsan, Sara Culver, Scott Ethersmith, Sean Fitzgerald, Shamez Hemani, Sherwin Wu, Shiao Lee, Shuyang Cheng, Siyuan Fu, Spug Golden, Steve Coffey, Steven Heidel, Sundeep Tirumalareddy, Tabarak Khan, Thomas Degry, Thomas Dimson, Tom Stasi, Tomo Hiratsuka, Trevor Creech, Uzair Navid Iftikhar, Victoria Chernova, Victoria Spiegel, Wanning Jiang, Wenlei Xie, Yaming Lin, Yara Khakbaz, Yilei Qian, Yilong Qin, Yo Shavit, Zhi Bie

Pimpinan Eksekutif

Aidan Clark, Bob McGrew, David Farhi, Greg Brockman, Hannah Wong, Jakub Pachocki, Johannes Heidecke, Joanne Jang, Kate Rouch, Kevin Weil, Lauren Itow, Liam Fedus, Mark Chen, Mia Glaese, Mira Murati, Nick Ryder, Sam Altman, Srinivas Narayanan, Tal Broda