Pembaruan pada 24 April 2026: GPT‑5.5 dan GPT‑5.5 Pro kini tersedia di API. Kartu sistem juga telah diperbarui untuk menjelaskan perlindungan tambahan yang berlaku.
Kami meluncurkan GPT‑5.5, model kami yang paling cerdas dan paling intuitif untuk digunakan sejauh ini, serta langkah berikutnya menuju cara baru untuk menyelesaikan pekerjaan di komputer.
GPT‑5.5 memahami apa yang ingin Anda lakukan lebih cepat dan dapat menangani lebih banyak pekerjaan itu sendiri. Model ini unggul dalam menulis dan melakukan debug kode, melakukan riset online, menganalisis data, membuat dokumen dan spreadsheet, mengoperasikan perangkat lunak, dan berpindah antar alat hingga tugas selesai. Alih-alih mengelola setiap langkah dengan cermat, Anda dapat memberi tugas yang berantakan dan terdiri dari beberapa bagian kepada GPT‑5.5, lalu memercayainya untuk merencanakan, menggunakan alat, memeriksa pekerjaannya, menavigasi ambiguitas, dan terus melanjutkan.
Peningkatannya sangat signifikan terutama dalam pemrograman agentik, penggunaan komputer, pekerjaan pengetahuan, dan riset ilmiah tahap awal—bidang-bidang yang kemajuannya bergantung pada penalaran lintas konteks dan pengambilan tindakan seiring waktu. GPT‑5.5 menghadirkan peningkatan kecerdasan ini tanpa mengorbankan kecepatan: model yang lebih besar dan lebih mampu sering kali lebih lambat saat menyajikan informasi, tetapi GPT‑5.5 menyamai latensi per token GPT‑5.4 dalam penyajian di dunia nyata, sekaligus menghadirkan tingkat kecerdasan yang jauh lebih tinggi. Model ini juga menggunakan token yang jauh lebih sedikit untuk menyelesaikan tugas Codex yang sama, sehingga menjadikannya lebih efisien sekaligus lebih mumpuni.
Kami merilis GPT‑5.5 dengan serangkaian langkah pengamanan terkuat hingga saat ini, yang dirancang untuk mengurangi penyalahgunaan sambil tetap mempertahankan akses untuk penggunaan yang bermanfaat. Kami mengevaluasi model ini di seluruh rangkaian lengkap kerangka kerja keamanan dan kesiapan kami, bekerja sama dengan red teamer internal dan eksternal, menambahkan pengujian yang ditargetkan untuk kapabilitas keamanan siber dan biologi tingkat lanjut, serta mengumpulkan umpan balik tentang kasus penggunaan nyata dari hampir 200 mitra tepercaya dengan akses awal sebelum peluncuran.
Hari ini, GPT‑5.5 mulai diluncurkan untuk pengguna Plus, Pro, Business, dan Enterprise di ChatGPT dan Codex, dan GPT‑5.5 Pro mulai diluncurkan untuk pengguna Pro, Business, dan Enterprise di ChatGPT. Penerapan API memerlukan langkah-langkah pengamanan yang berbeda, dan kami bekerja sama secara erat dengan mitra dan pelanggan terkait persyaratan keamanan model dan keamanan sistem untuk menyediakannya dalam skala besar. Kami akan segera menghadirkan GPT‑5.5 dan GPT‑5.5 Pro di API.
GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro | |
Terminal-Bench 2.0 | 82,7% | 75,1% | - | - | 69,4% | 68,5% |
Expert-SWE (Internal) | 73,1% | 68,5% | - | - | - | - |
GDPval (menang atau seri) | 84,9% | 83,0% | 82,3% | 82,0% | 80,3% | 67,3% |
OSWorld-Verified | 78,7% | 75,0% | - | - | 78,0% | - |
Toolathlon | 55,6% | 54,6% | - | - | - | 48,8% |
BrowseComp | 84,4% | 82,7% | 90,1% | 89,3% | 79,3% | 85,9% |
FrontierMath Jenjang 1–3 | 51,7% | 47,6% | 52,4% | 50,0% | 43,8% | 36,9% |
FrontierMath Jenjang 4 | 35,4% | 27,1% | 39,6% | 38,0% | 22,9% | 16,7% |
CyberGym | 81,8% | 79,0% | - | - | 73,1% | - |
OpenAI sedang membangun infrastruktur global untuk AI agentik, yang memungkinkan orang dan bisnis di seluruh dunia menyelesaikan pekerjaan dengan AI. Selama setahun terakhir, kami telah melihat AI secara dramatis mempercepat teknik rekayasa perangkat lunak. Dengan GPT‑5.5 di Codex dan ChatGPT, transformasi yang sama mulai meluas ke riset ilmiah dan pekerjaan yang lebih luas yang dilakukan orang di komputer.
Di seluruh domain ini, GPT‑5.5 tidak hanya lebih cerdas; model ini juga lebih efisien dalam cara menyelesaikan masalah, sering kali menghasilkan output berkualitas lebih tinggi dengan lebih sedikit token dan lebih sedikit percobaan ulang. Di Coding Index milik Artificial Analysis, GPT‑5.5 menghadirkan kecerdasan tercanggih dengan biaya setengah dari model pengodean terdepan pesaing.
Indeks Kecerdasan Analisis Buatan(terbuka di jendela baru) adalah rata-rata tertimbang dari 10 evaluasi yang dijalankan oleh pihak eksternal: AA-LCR, AA-Omniscience, CritPt, GDPval-AA, GPQA Diamond, Humanity’s Last Exam, IFBench, SciCode, Terminal-Bench Hard, τ²-Bench Telecom.
GPT‑5.5 adalah model pengodean agentik terkuat kami hingga saat ini. Pada Terminal-Bench 2.0, yang menguji alur kerja command line yang kompleks yang memerlukan perencanaan, iterasi, dan koordinasi alat, model ini mencapai akurasi mutakhir sebesar 82,7%. Pada SWE-Bench Pro, yang mengevaluasi penyelesaian isu GitHub di dunia nyata, model ini mencapai angka 58,6%, menyelesaikan lebih banyak tugas secara menyeluruh dalam satu kali proses dibandingkan model sebelumnya. Pada Expert-SWE, evaluasi terdepan internal kami untuk tugas pengodean jangka panjang dengan estimasi median waktu penyelesaian manusia selama 20 jam, GPT‑5.5 juga mengungguli GPT‑5.4.
Di ketiga evaluasi, GPT‑5.5 meningkatkan skor GPT‑5.4 sekaligus menggunakan lebih sedikit token.
Kekuatan pengodean model terlihat sangat jelas terutama di Codex, tempat model ini dapat menangani pekerjaan rekayasa mulai dari implementasi dan refaktor hingga debugging, pengujian, dan validasi. Pengujian awal menunjukkan bahwa GPT‑5.5 lebih baik dalam perilaku yang menjadi andalan pekerjaan rekayasa nyata, seperti mempertahankan konteks di seluruh sistem yang besar, penalaran penyebab kegagalan yang ambigu, memeriksa asumsi dengan alat, dan menerapkan perubahan ke seluruh basis kode di sekitarnya.
Trajektori yang dirender menggunakan data vektor NASA/JPL Horizons untuk Orion, Bulan, dan Matahari, dengan peningkatan skala tampilan diterapkan demi keterbacaan.
Prompt: [attached image] Implement this as a new app using webgl and vite using real data from the artemis II mission. Make sure to test the app thoroughly until it is fully functional and looks like the app in the picture. Pay close attention to the rendering of the planets and fly paths. I want to be able to interact with the 3D rendering. Ensure it has realistic orbital mechanics.
Di luar tolok ukur, para penguji awal mengatakan bahwa GPT‑5.5 menunjukkan kemampuan yang lebih kuat untuk memahami struktur suatu sistem: mengapa sesuatu gagal, di mana perbaikan perlu diterapkan, dan hal apa lagi dalam basis kode yang akan terpengaruh.

“Model pengodean pertama yang pernah saya gunakan yang memiliki kejelasan konseptual yang tinggi.”
Dan Shipper, Pendiri dan Direktur Utama Every, menggambarkan GPT‑5.5 sebagai “model pengodean pertama yang pernah saya gunakan yang memiliki kejelasan konseptual yang tinggi.”
Setelah meluncurkan aplikasi, dia menghabiskan waktu berhari-hari untuk melakukan debug masalah pasca-peluncuran sebelum akhirnya melibatkan salah satu insinyur terbaiknya untuk menulis ulang sebagian sistem. Untuk menguji GPT‑5.5, dia secara efektif memutar kembali waktu: apakah model dapat melihat keadaan yang rusak dan menghasilkan jenis penulisan ulang yang sama yang pada akhirnya diputuskan oleh insinyur? GPT‑5.4 tidak bisa. GPT‑5.5 bisa.

“Ini benar-benar terasa seperti saya sedang bekerja dengan kecerdasan yang lebih tinggi, dan hampir ada rasa hormat.”
Pietro Schirano, Direktur Utama MagicPath, melihat perubahan langkah yang serupa ketika GPT‑5.5 menggabungkan sebuah branch dengan ratusan perubahan frontend dan refactor ke dalam branch utama yang juga telah banyak berubah, menyelesaikan pekerjaan tersebut secara sekali saja dalam sekitar 20 menit.
Insinyur senior yang menguji model tersebut mengatakan bahwa GPT‑5.5 jauh lebih unggul daripada GPT‑5.4 dan Claude Opus 4.7 dalam hal penalaran dan otonomi, mampu mengidentifikasi masalah lebih awal serta memprediksi kebutuhan pengujian dan peninjauan tanpa prompt yang eksplisit. Dalam satu kasus, seorang insinyur memintanya untuk merancang ulang arsitektur sistem komentar di editor markdown kolaboratif dan kembali mendapati tumpukan 12 diff yang hampir selesai. Yang lain mengatakan bahwa mereka ternyata hanya memerlukan sangat sedikit koreksi implementasi dan merasa lebih yakin terhadap rencana GPT‑5.5 dibandingkan dengan GPT‑5.4.
Seorang insinyur di NVIDIA yang memiliki akses awal ke model tersebut bahkan sampai mengatakan: "Kehilangan akses ke GPT‑5.5 terasa seperti saya kehilangan anggota tubuh akibat amputasi."
“GPT-5.5 jelas lebih cerdas dan lebih gigih daripada GPT-5.4, dengan performa pengodean yang lebih kuat dan penggunaan alat yang lebih andal. Model ini tetap mengerjakan tugas jauh lebih lama tanpa berhenti di tengah jalan, hal yang paling penting untuk pekerjaan kompleks yang berdurasi panjang yang didelegasikan pengguna kami ke Cursor.”
Kekuatan yang sama yang membuat GPT‑5.5 sangat baik untuk pengodean juga menjadikannya andal untuk pekerjaan sehari-hari di komputer. Karena model lebih baik dalam memahami maksud, model dapat bergerak dengan lebih alami melalui seluruh siklus pekerjaan berbasis pengetahuan: menemukan informasi, memahami apa yang penting, menggunakan alat, memeriksa output, dan mengubah bahan mentah menjadi sesuatu yang berguna.
Di Codex, GPT‑5.5 lebih unggul daripada GPT‑5.4 dalam menghasilkan dokumen, spreadsheet, dan presentasi slide. Penguji alpha mengatakan bahwa model ini mengungguli model-model sebelumnya dalam pekerjaan seperti riset operasional, pemodelan spreadsheet, dan mengubah input bisnis yang berantakan menjadi rencana. Saat dikombinasikan dengan kemampuan penggunaan komputer Codex, GPT‑5.5 membawa kita semakin dekat pada kesan bahwa model benar-benar dapat menggunakan komputer bersama Anda: melihat apa yang ada di layar, mengeklik, mengetik, menavigasi antarmuka, dan berpindah antaralat dengan presisi.
Tim di OpenAI telah menggunakan kekuatan ini dalam alur kerja nyata. Saat ini, lebih dari 85% karyawan di perusahaan ini menggunakan Codex setiap minggu di berbagai fungsi, termasuk rekayasa perangkat lunak, keuangan, komunikasi, pemasaran, ilmu data, dan manajemen produk. Di bagian Komunikasi, tim menggunakan GPT‑5.5 di Codex untuk menganalisis data permintaan berbicara selama enam bulan, membangun kerangka penilaian dan risiko, serta memvalidasi agen Slack otomatis agar permintaan berisiko rendah dapat ditangani secara otomatis, sementara permintaan berisiko lebih tinggi tetap diteruskan untuk peninjauan manusia. Di bagian Keuangan, tim menggunakan Codex untuk meninjau 24.771 formulir pajak K-1 dengan total 71.637 halaman. Alur kerja yang digunakan mengecualikan informasi pribadi dan membantu tim menyelesaikan tugas ini dua minggu lebih cepat dibandingkan tahun sebelumnya. Di tim Go-to-Market, seorang karyawan mengotomatisasi pembuatan laporan bisnis mingguan, sehingga menghemat 5-10 jam per minggu.
Di ChatGPT, GPT‑5.5 Thinking menghadirkan bantuan yang lebih cepat untuk masalah yang lebih sulit, dengan jawaban yang lebih cerdas dan lebih ringkas untuk membantu Anda menyelesaikan pekerjaan yang kompleks dengan lebih efisien. Model ini unggul dalam pekerjaan profesional seperti pengodean, riset, sintesis dan analisis informasi, serta tugas yang sarat dokumen, terutama saat menggunakan plugin.
Di GPT‑5.5 Pro, para penguji awal melihat peningkatan yang signifikan baik dalam tingkat kesulitan maupun kualitas pekerjaan yang dapat ditangani ChatGPT, dengan peningkatan latensi yang membuatnya jauh lebih praktis untuk tugas-tugas yang menuntut. Dibandingkan dengan GPT‑5.4 Pro, para penguji menemukan bahwa respons GPT‑5.5 Pro jauh lebih komprehensif, terstruktur dengan baik, akurat, relevan, dan bermanfaat, dengan performa yang sangat kuat terutama dalam bisnis, hukum, pendidikan, dan ilmu data.
GPT‑5.5 mencapai kinerja tercanggihnya di berbagai tolok ukur yang mencerminkan jenis pekerjaan ini. Pada GDPval, yang menguji kemampuan agen untuk menghasilkan pekerjaan berbasis pengetahuan yang terdefinisi dengan baik di 44 jenis pekerjaan, GPT‑5.5 meraih skor 84,9%. Pada OSWorld-Verified, yang mengukur apakah model dapat mengoperasikan lingkungan komputer nyata secara mandiri, model ini mencapai angka 78,7%. Dan pada Tau2-bench Telecom, yang menguji alur kerja layanan pelanggan yang kompleks, benchmark ini meraih skor 98,0% tanpa penyesuaian prompt. GPT‑5.5 juga menunjukkan performa yang kuat di berbagai tolok ukur pekerjaan pengetahuan lainnya: 60,0% pada FinanceAgent, 88,5% pada tugas pemodelan perbankan investasi internal, dan 54,1% pada OfficeQA Pro.
Tau2-bench Telecom dijalankan tanpa penyesuaian prompt (dan GPT‑4.1 sebagai model pengguna). GPT‑5.5 lebih memahami maksud tugas dan lebih efisien dalam penggunaan token dibandingkan pendahulunya.
“GPT-5.5 memberikan kinerja berkelanjutan yang diperlukan untuk pekerjaan yang berat dalam eksekusi. Dibangun dan dijalankan pada sistem NVIDIA GB200 NVL72, model ini memungkinkan tim kami mengirimkan fitur menyeluruh dari prompt bahasa alami, memangkas waktu debugging dari hitungan hari menjadi hitungan jam, dan mengubah eksperimen berminggu-minggu menjadi kemajuan dalam semalam pada basis kode yang kompleks. Ini lebih dari sekadar membuat kode lebih cepat—ini adalah cara baru bekerja yang membantu orang bekerja pada kecepatan yang secara mendasar berbeda.”
GPT‑5.5 juga menunjukkan peningkatan pada alur kerja riset ilmiah dan teknis, yang memerlukan lebih dari sekadar menjawab satu pertanyaan sulit. Para peneliti perlu menjelajahi ide, mengumpulkan bukti, menguji asumsi, menafsirkan hasil, dan memutuskan langkah berikutnya yang akan dicoba. GPT‑5.5 lebih baik dalam bertahan melalui siklus tersebut dibandingkan model lain.
Secara khusus, GPT‑5.5 menunjukkan peningkatan yang jelas dibandingkan GPT‑5.4 pada GeneBench(terbuka di jendela baru), sebuah evaluasi baru yang berfokus pada analisis data ilmiah multi-tahap dalam genetika dan biologi kuantitatif. Masalah-masalah ini mengharuskan model untuk menalar data yang berpotensi ambigu atau mengandung kesalahan dengan panduan pengawasan yang minimal, menangani hambatan realistis seperti faktor perancu tersembunyi atau kegagalan QC, serta menerapkan dan menafsirkan metode statistik modern dengan benar. Performa model tersebut sungguh mencengangkan, mengingat fakta bahwa tugas-tugas di sini sering kali setara dengan proyek yang memakan waktu berhari-hari bagi para pakar ilmiah.
Demikian pula, pada BixBench(terbuka di jendela baru), tolok ukur yang dirancang berdasarkan bioinformatika dan analisis data dunia nyata, GPT‑5.5 mencapai kinerja terdepan di antara model dengan skor yang dipublikasikan. Kemampuan ilmiah model ini kini sudah cukup kuat untuk secara signifikan mempercepat kemajuan di bidang terdepan penelitian biomedis sebagai mitra peneliti sejati.
Dalam contoh lain, versi internal GPT‑5.5 dengan harness kustom membantu menemukan bukti baru(terbuka di jendela baru) tentang bilangan Ramsey, salah satu objek utama dalam kombinatorik. Kombinatorik mempelajari bagaimana objek-objek diskret saling berhubungan: graf, jaringan, himpunan, dan pola. Bilangan Ramsey secara garis besar membahas seberapa besar suatu jaringan harus ada sebelum suatu keteraturan dijamin akan muncul. Hasil di bidang ini jarang ditemukan dan sering kali sulit secara teknis. Di sini, GPT‑5.5 menemukan bukti atas fakta asimtotik yang telah lama dikenal tentang bilangan Ramsey off-diagonal, yang kemudian diverifikasi dalam Lean. Hasil ini adalah contoh konkret kontribusi GPT‑5.5, bukan hanya dalam bentuk kode atau penjelasan, tetapi juga argumen matematis yang mengejutkan dan bermanfaat dalam bidang riset inti.
Para penguji awal menggunakan GPT‑5.5 Pro di ChatGPT bukan hanya seperti mesin jawaban sekali coba, tetapi lebih seperti mitra riset: mengkritisi manuskrip melalui beberapa kali peninjauan, menguji ketahanan argumen teknis, mengusulkan analisis, serta bekerja dengan kode, catatan, dan konteks PDF. Benang merahnya adalah bahwa GPT‑5.5 lebih unggul dalam membantu peneliti beralih dari pertanyaan ke eksperimen lalu ke hasil.
Derya Unutmaz, profesor imunologi dan peneliti di Jackson Laboratory for Genomic Medicine, menggunakan GPT‑5.5 Pro untuk menganalisis dataset ekspresi gen dengan 62 sampel dan hampir 28.000 gen, menghasilkan laporan riset terperinci yang tidak hanya merangkum temuan, tetapi juga memunculkan pertanyaan dan wawasan utama—pekerjaan yang menurutnya akan memakan waktu berbulan-bulan bagi timnya.
Bartosz Naskręcki, asisten profesor matematika di Adam Mickiewicz University di Poznań, Polandia, menggunakan GPT‑5.5 di Codex untuk membangun aplikasi geometri aljabar dari satu prompt dalam 11 menit, memvisualisasikan perpotongan permukaan kuadratik dan mengonversi kurva yang dihasilkan menjadi model Weierstrass.
Ia kemudian mengembangkan aplikasi tersebut lebih lanjut dengan visualisasi singularitas yang lebih stabil dan koefisien pasti yang dapat digunakan kembali dalam pekerjaan selanjutnya. Baginya, perubahan yang lebih besar adalah bahwa Codex kini dapat membantu menerapkan alur kerja visualisasi matematika kustom dan aljabar komputer yang sebelumnya memerlukan alat khusus. Secara keseluruhan, contoh-contoh ini menunjukkan GPT‑5.5 mengubah maksud para ahli menjadi alat dan analisis riset yang berfungsi.

Kredit: Bartosz Naskręcki(terbuka di jendela baru)
Prompt: # Algebraic geometry surface intersection
Make an app which draws two quadratic surfaces and colors in red the intersection curve. Use computational Riemann-Roch theorem to convert this into Weierstrass curve.
## Main window
Two tinted surfaces with a slightly transparent shading, high quality rendering intersect along a red colored algebraic curve
Rotation with mouses in both directions, full pinch mechanism for zoom, haptic press to show the little menu with sliders for changing the coefficients of each surface; detection via Z-buffor level
## Side right window
Short Weierstrass equation (over Q or quadratic field extension) computed on the go via effective Riemann-Roch theorem formulas
## Ambient mode where all the controls are hidden and the user can admire the beauty of the shapes
## Specs
App is running in the browser, light-weight implementation with full stack newest libraries, portable, deployable
## Docs
Repo Git, jurnal, rencana (file Markdown)
“Sungguh sangat membangkitkan semangat untuk menggunakan model GPT-5.5 terbaru dari OpenAI dalam sistem kami, memanfaatkannya untuk melakukan penalaran atas kumpulan data biokimia yang masif guna memprediksi hasil obat pada manusia, dan kemudian menyaksikan model tersebut memberikan peningkatan akurasi yang signifikan pada evaluasi penemuan obat kami yang paling sulit. Jika OpenAI terus melaju seperti ini, dasar-dasar penemuan obat akan berubah pada akhir tahun ini.”
Menyajikan GPT‑5.5 pada latensi GPT‑5.4 mengharuskan kami memikirkan ulang inferensi sebagai sistem yang terintegrasi, bukan sekumpulan optimasi yang terisolasi. GPT‑5.5 dirancang bersama, dilatih dengan, dan dijalankan pada sistem NVIDIA GB200 dan GB300 NVL72. Codex dan GPT‑5.5 berperan penting dalam bagaimana kami mencapai target kinerja kami. Codex membantu tim bergerak lebih cepat dari ide ke implementasi yang dapat dijadikan tolok ukur, dengan merancang pendekatan, menyiapkan eksperimen, dan membantu mengidentifikasi optimasi mana yang layak mendapatkan perhatian lebih lanjut. GPT‑5.5 membantu menemukan dan menerapkan peningkatan penting dalam stack itu sendiri. Sederhananya, model membantu meningkatkan infrastruktur yang menyajikannya.
Salah satu peningkatan tersebut adalah penyeimbangan beban dan heuristik partisi. Sebelum adanya GPT‑5.5, kami membagi permintaan pada sebuah akselerator menjadi sejumlah potongan tetap untuk menyeimbangkan beban kerja di seluruh inti komputasi, sehingga memastikan permintaan besar maupun kecil dapat berjalan pada GPU yang sama. Namun, jumlah potongan statis yang telah ditentukan sebelumnya tidak optimal untuk semua pola trafik. Untuk memanfaatkan GPU dengan lebih baik, Codex menganalisis pola trafik produksi selama berminggu-minggu dan menulis algoritme heuristik khusus untuk mempartisi dan menyeimbangkan pekerjaan secara optimal. Upaya tersebut memiliki dampak yang sangat signifikan, meningkatkan kecepatan pembuatan token lebih dari 20%.
Mempersiapkan dunia untuk model yang sangat baik dalam menemukan dan menambal kerentanan keamanan adalah upaya bersama dan akan mengharuskan seluruh ekosistem bekerja keras untuk membangun ketahanan, dengan akses model yang merata dan penerapan iteratif untuk era berikutnya dalam pertahanan siber.
Model terdepan menjadi semakin canggih dalam bidang keamanan siber. Kapabilitas tersebut akan tersedia secara luas, dan kami percaya bahwa langkah terbaik ke depannya adalah memastikan kapabilitas tersebut dapat dimanfaatkan untuk mempercepat pertahanan siber dan memperkuat ekosistem.
GPT‑5.5 merupakan langkah bertahap namun penting menuju AI yang dapat membantu menyelesaikan beberapa tantangan terberat di dunia, seperti keamanan siber. Dengan GPT‑5.2 pada bulan Desember, kami secara proaktif menerapkan langkah pengamanan siber yang diperlukan untuk membatasi potensi penyalahgunaan siber pada model kami; kini dengan GPT‑5.5, kami menerapkan pengklasifikasi yang lebih ketat untuk potensi risiko siber, yang mungkin awalnya dirasa mengganggu oleh sebagian pengguna, seiring kami menyesuaikannya dari waktu ke waktu.
Selama bertahun-tahun, kami telah mengidentifikasi keamanan siber sebagai sebuah kategori dalam Kerangka Kerja Kesiapan(terbuka di jendela baru) kami seiring dengan meningkatnya model-model kami secara bertahap, sembari kami mengembangkan dan mengalibrasi mitigasi secara iteratif, agar dapat merilis model dengan kapabilitas keamanan siber yang signifikan secara bertanggung jawab.
- Kami menerapkan langkah-langkah perlindungan terdepan di industri untuk tingkat kapabilitas siber ini. Kami pertama kali memperkenalkan langkah pengamanan khusus siber dengan GPT‑5.2(terbuka di jendela baru) tahun lalu, yang terus kami uji, sempurnakan, dan kembangkan dalam penerapan berikutnya. Untuk GPT‑5.5, kami merancang kontrol yang lebih ketat untuk aktivitas berisiko lebih tinggi, permintaan siber sensitif, dan menambahkan perlindungan terhadap penyalahgunaan berulang. Akses luas dimungkinkan melalui investasi kami dalam keamanan model, penggunaan yang diautentikasi, dan pemantauan terhadap penggunaan yang tidak diizinkan. Kami telah bekerja dengan para pakar eksternal selama berbulan-bulan untuk mengembangkan, menguji, dan menyempurnakan ketahanan langkah-langkah pengamanan ini. Dengan GPT‑5.5, kami memastikan pengembang dapat mengamankan kode mereka dengan mudah, sambil menerapkan kontrol yang lebih kuat pada alur kerja siber yang paling mungkin disalahgunakan oleh aktor jahat untuk menimbulkan kerugian.
- Kami sedang memperluas akses untuk mempercepat pertahanan siber di semua tingkat. Kami menyediakan model siber yang lebih permisif melalui Trusted Access for Cyber, dimulai dengan Codex, yang mencakup akses yang diperluas ke kapabilitas keamanan siber tingkat lanjut GPT‑5.5 dengan lebih sedikit pembatasan bagi pengguna terverifikasi yang memenuhi sinyal kepercayaan(terbuka di jendela baru) tertentu saat peluncuran. Organisasi yang bertanggung jawab untuk melindungi infrastruktur kritis dapat mengajukan permohonan untuk mengakses model yang permisif terhadap keamanan siber seperti GPT‑5.4‑Cyber, sambil memenuhi persyaratan keamanan yang ketat untuk menggunakan model ini guna mengamankan sistem internal mereka. Hal ini memberikan para pelindung terverifikasi berbagai alat yang lebih mumpuni untuk pekerjaan keamanan yang sah, dengan lebih sedikit hambatan yang tidak perlu, guna memastikan bahwa kami meratakan akses ke kapabilitas defensif yang penting. Pengguna dapat mengajukan akses tepercaya di chatgpt.com/cyber(terbuka di jendela baru) untuk mengurangi penolakan yang tidak perlu saat menggunakan GPT‑5.5 untuk pekerjaan defensif yang terverifikasi.
- Kami bekerja sama dengan mitra pemerintah untuk membantu melindungi infrastruktur yang krusial bagi masyarakat. Bersama-sama, kami menjajaki bagaimana AI canggih dapat mendukung upaya pertahanan para pejabat tepercaya yang bertanggung jawab atas sistem yang diandalkan masyarakat, mulai dari sistem digital yang mengamankan data penting wajib pajak hingga jaringan listrik dan pasokan air di masyarakat setempat.
Kami mengklasifikasikan kapabilitas biologis/kimia dan keamanan siber GPT‑5.5 sebagai Tinggi di bawah Kerangka Kerja Kesiapan(terbuka di jendela baru). Meskipun GPT‑5.5 belum mencapai tingkat kapabilitas keamanan siber 'Kritis', evaluasi dan pengujian kami menunjukkan bahwa kapabilitas keamanan sibernya selangkah lebih maju dibandingkan GPT‑5.4.
Selain itu, GPT‑5.5 menjalani proses keamanan dan tata kelola penuh sebelum dirilis, termasuk evaluasi kesiapan, pengujian khusus domain, evaluasi terarah baru untuk kemampuan biologi tingkat lanjut dan keamanan siber, serta pengujian menyeluruh bersama pakar eksternal. Kami membagikan detail lebih lanjut dalam kartu sistem(terbuka di jendela baru) GPT‑5.5.
Pekerjaan ini mencerminkan pendekatan kami yang lebih luas terhadap ketahanan AI, yang menurut kami diperlukan seiring dengan kemajuan kapabilitas model. Kami ingin AI yang canggih tersedia bagi orang-orang yang menggunakannya untuk melindungi sistem, institusi, dan masyarakat. Jalan yang layak adalah akses tepercaya, perlindungan yang kuat yang meningkat sesuai dengan kapabilitas, serta kapasitas operasional untuk mendeteksi dan merespons penyalahgunaan serius.
Hari ini, GPT‑5.5 mulai diluncurkan untuk pengguna Plus, Pro, Business, dan Enterprise di ChatGPT dan Codex, dan GPT‑5.5 Pro mulai diluncurkan untuk pengguna Pro, Business, dan Enterprise di ChatGPT. Kami akan segera menghadirkan GPT‑5.5 dan GPT‑5.5 Pro di API.
Di ChatGPT, GPT‑5.5 Thinking tersedia bagi pengguna Plus, Pro, Business, dan Enterprise. GPT‑5.5 Pro, dirancang untuk pertanyaan yang lebih sulit dan pekerjaan dengan akurasi lebih tinggi, tersedia bagi pengguna Pro, Business, dan Enterprise.
Di Codex, GPT‑5.5 tersedia untuk paket Plus, Pro, Business, Enterprise, Edu, dan Go dengan jendela konteks 400K. GPT‑5.5 juga tersedia dalam mode Fast, menghasilkan token 1.5x lebih cepat dengan biaya 2.5x lipat.
Untuk pengembang API, gpt-5.5 akan segera tersedia di API Respons dan API Penyelesaian Obrolan dengan harga $5 per 1 juta token masukan dan $30 per 1 juta token keluaran, dengan jendela konteks 1 juta. Harga Batch dan Flex tersedia dengan setengah tarif API standar, sementara pemrosesan Prioritas tersedia dengan 2,5 kali tarif standar. Kami juga akan merilis gpt-5.5-pro di API untuk akurasi yang lebih tinggi lagi, dengan harga $30 per 1 juta token masukan dan $180 per 1 juta token keluaran. Lihat halaman harga untuk detail lengkap.
Meskipun GPT‑5.5 dikenakan harga lebih tinggi dibandingkan GPT‑5.4, model ini lebih cerdas dan jauh lebih efisien dalam penggunaan token. Di Codex, kami telah menyempurnakan pengalaman penggunaan ini dengan cermat sehingga GPT‑5.5 memberikan hasil yang lebih baik dengan lebih sedikit token dibandingkan GPT‑5.4 bagi sebagian besar pengguna, sembari tetap menawarkan penggunaan yang melimpah di berbagai tingkat langganan.
Pengodean
Eval | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
SWE-Bench Pro (Public) * | 58,6% | 57,7% | - | - | 64,3% | 54,2% |
Terminal-Bench 2.0 | 82,7% | 75,1% | - | - | 69,4% | 68,5% |
Expert-SWE (Internal) | 73,1% | 68,5% | - | - | - | - |
*Laboratorium telah mencatat adanya bukti hafalan(terbuka di jendela baru) pada evaluasi ini
Profesional
Eval | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
GDPval (menang atau seri) | 84,9% | 83,0% | 82,3% | 82,0% | 80,3% | 67,3% |
FinanceAgent v1.1 | 60,0% | 56,0% | - | 61,5% | 64,4% | 59,7% |
Tugas Pemodelan Perbankan Investasi (Internal) | 88,5% | 87,3% | 88,6% | 83,6% | - | - |
OfficeQA Pro | 54,1% | 53,2% | - | - | 43,6% | 18,1% |
Penggunaan dan penglihatan komputer
Eval | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
OSWorld-Verified | 78,7% | 75,0% | - | - | 78,0% | - |
MMMU Pro (tanpa alat) | 81,2% | 81,2% | - | - | - | 80,5% |
MMMU Pro (dengan alat) | 83,2% | 82,1% | - | - | - | - |
Penggunaan alat
Eval | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
BrowseComp | 84,4% | 82,7% | 90,1% | 89,3% | 79,3% | 85,9% |
MCP Atlas** | 75,3% | 70,6% | - | - | 79,1% | 78,2% |
Toolathlon | 55,6% | 54,6% | - | - | - | 48,8% |
Tau2-bench Telecom*** | 98,0% | 92,8% | - | - | - | - |
** MCP Atlas: hasil dari Scale AI setelah pembaruan terbaru April 2026.
*** Tau2-bench Telecom: hasil untuk 5.5 dan 5.4 dengan prompt asli, yaitu tanpa penyesuaian prompt. Ini tidak mencakup hasil dari lab lain yang dievaluasi dengan penyesuaian prompt.
Akademik
Eval | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
GeneBench | 25,0% | 19,0% | 33,2% | 25,6% | - | - |
FrontierMath Jenjang 1–3 | 51,7% | 47,6% | 52,4% | 50,0% | 43,8% | 36,9% |
FrontierMath Jenjang 4 | 35,4% | 27,1% | 39,6% | 38,0% | 22,9% | 16,7% |
BixBench | 80,5% | 74,0% | - | - | - | - |
GPQA Diamond | 93,6% | 92,8% | - | 94,4% | 94,2% | 94,3% |
Humanity's Last Exam (tanpa alat) | 41,4% | 39,8% | 43,1% | 42,7% | 46,9% | 44,4% |
Humanity's Last Exam (dengan alat) | 52,2% | 52,1% | 57,2% | 58,7% | 54,7% | 51,4% |
Keamanan siber
Eval | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
Tugas Tantangan Capture-the-Flags (Internal)**** | 88,1% | 83,7% | - | - | - | - |
CyberGym | 81,8% | 79,0% | - | - | 73,1% | - |
**** Perluasan dari CTF paling sulit yang digunakan dalam kartu sistem dengan tantangan sulit tambahan.
Konteks panjang
Eval | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
Graphwalks BFS 256k f1 | 73,7% | 62,5% | - | - | 76,9% | - |
Graphwalks BFS 1jt f1 | 45,4% | 9,4% | - | - | 41,2% (Opus 4.6) | - |
Graphwalks parents 256k f1 | 90,1% | 82,8% | - | - | 93,6% | - |
Graphwalks parents 1jt f1 | 58,5% | 44,4% | - | - | 72,0% (Opus 4.6) | - |
OpenAI MRCR v2 8-needle 4K-8K | 98,1% | 97,3% | - | - | - | - |
OpenAI MRCR v2 8-needle 8K-16K | 93,0% | 91,4% | - | - | - | - |
OpenAI MRCR v2 8-needle 16K-32K | 96,5% | 97,2% | - | - | - | - |
OpenAI MRCR v2 8-needle 32K-64K | 90,0% | 90,5% | - | - | - | - |
OpenAI MRCR v2 8-needle 64K-128K | 83,1% | 86,0% | - | - | - | - |
OpenAI MRCR v2 8-needle 128K-256K | 87,5% | 79,3% | - | - | 59,2% | - |
OpenAI MRCR v2 8-needle 256K-512K | 81,5% | 57,5% | - | - | - | - |
OpenAI MRCR v2 8-needle 512K-1M | 74,0% | 36,6% | - | - | 32,2% | - |
Penalaran abstrak
Eval | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
ARC-AGI-1 (Verified) | 95,0% | 93,7% | - | 94,5% | 93,5% | 98,0% |
ARC-AGI-2 (Verified) | 85,0% | 73,3% | - | 83,3% | 75,8% | 77,1% |
Evaluasi GPT dilakukan dengan upaya penalaran yang disetel ke xhigh dan dilakukan dalam lingkungan penelitian, yang mungkin memberikan output yang sedikit berbeda dari ChatGPT produksi dalam beberapa kasus.








