Langsung ke konten utama
OpenAI

Kami telah membuat GPT 4, sebuah tonggak baru dalam upaya OpenAI dalam meningkatkan kemampuan pembelajaran dalam. GPT 4 adalah model multimodal besar (menerima masukan gambar dan teks, menghasilkan keluaran teks) yang meskipun kurang mampu dibandingkan manusia dalam banyak skenario dunia nyata, tetapi menunjukkan kinerja setingkat manusia pada berbagai tolok ukur profesional dan akademis. Sebagai contoh, model ini lulus dalam ujian bilah simulasi dengan skor sekitar 10% teratas dari para peserta ujian; sebaliknya, skor GPT 3.5 sekitar 10% terbawah. Kami telah menghabiskan 6 bulan untuk secara bertahap menyelaraskan GPT‑4 dengan menggunakan pelajaran dari program pengujian adversarial kami serta ChatGPT, yang menghasilkan pencapaian terbaik kami dalam hal faktualitas, kemampuan untuk diarahkan, dan kepatuhan terhadap batasan—meskipun masih jauh dari sempurna.

Dua tahun terakhir ini kami telah membangun kembali seluruh ekosistem pembelajaran dalam kami dan, bersama Azure, merancang sebuah superkomputer dari nol untuk menangani beban kerja kami. Tahun lalu, kami melatih GPT‑3.5 sebagai “uji coba” tahap pertama dari sistem ini. Kami menemukan dan memperbaiki beberapa bug dan memperbaiki fondasi teoritis kami. Hasilnya, proses pelatihan GPT‑4 kami (setidaknya bagi kami) sangat stabil, menjadikannya sebagai model besar pertama kami yang kinerja pelatihannya dapat diprediksi sebelumnya secara akurat. Seiring dengan fokus kami pada penskalaan yang andal, kami berusaha menyempurnakan metodologi kami untuk membantu memprediksi dan mempersiapkan kemampuan masa depan jauh lebih dini—sesuatu yang kami anggap penting untuk keselamatan.

Kami merilis kemampuan masukan teks GPT‑4 melalui ChatGPT dan API-nya (dengan daftar tunggu). Untuk menyiapkan ketersediaan yang lebih luas untuk kemampuan masukan gambar, sebagai langkah awal kami bekerja sama dengan satu mitra(terbuka di jendela baru). Kami juga membuka kode sumber OpenAI Evals(terbuka di jendela baru), kerangka kerja kami untuk evaluasi otomatis kinerja model AI, sehingga siapa pun dapat melaporkan kekurangan dalam model kami guna membantu peningkatan lebih lanjut.

Kemampuan

Dalam percakapan biasa, perbedaan antara GPT‑3.5 dan GPT‑4 mungkin tidak terlihat jelas. Perbedaannya muncul ketika kompleksitas tugas mulai mencapai ambang batas—GPT‑4 lebih andal, kreatif, dan mampu menangani instruksi yang lebih bernuansa dibandingkan GPT‑3.5.

Untuk memahami perbedaan kedua model ini, kami mengujinya dengan berbagai tolok ukur, seperti simulasi ujian yang awalnya dirancang untuk manusia. Kami melanjutkan dengan menggunakan pengujian terbaru yang umum tersedia (dalam kasus Olimpiade dan pertanyaan respons bebas AP) atau dengan membeli ujian praktik edisi 2022–2023. Kami tidak melakukan pelatihan secara khusus untuk ujian ini. Sebagian kecil soal dalam ujian tersebut pernah ditemukan oleh model selama pelatihan, tetapi kami merasa yakin hasilnya cukup mewakili—lihat laporan teknis(terbuka di jendela baru) kami untuk detailnya.

referensi internal 1

Memuat...
Memuat...

Kami juga mengevaluasi GPT‑4 menggunakan tolok ukur tradisional yang dirancang untuk model pembelajaran mesin. GPT‑4 jauh mengungguli model bahasa besar yang ada, serta sebagian besar model paling canggih (SOTA) yang mungkin dilengkapi penyesuaian spesifik untuk tolok ukur atau protokol pelatihan tambahan.

Memuat...

Banyak tolok ukur pembelajaran mesin (ML) yang ada saat ini ditulis dalam bahasa Inggris. Untuk mendapatkan gambaran awal tentang kemampuan dalam bahasa lain, kami menerjemahkan tolok ukur MMLU—sekumpulan 14.000 soal pilihan ganda yang mencakup 57 mata pelajaran—ke dalam berbagai bahasa dengan menggunakan Azure Translate (lihat Lampiran). Dalam 24 dari 26 bahasa yang diujikan, performa bahasa Inggris GPT‑4 lebih unggul dari GPT‑3.5 dan model bahasa besar lainnya (Chinchilla, PaLM), termasuk untuk bahasa dengan sumber daya yang rendah, seperti Latvia, Wales, dan Swahili.

Memuat...

Kami juga telah menggunakan GPT‑4 secara internal, dengan dampak yang signifikan pada berbagai fungsi, seperti dukungan, penjualan, moderasi konten, dan pemrograman. Kami juga menggunakannya untuk membantu manusia dalam mengevaluasi keluaran AI, mulai fase dua dalam strategi penyelarasan kami.

Masukan visual

GPT‑4 dapat menerima prompt teks dan gambar, yang—sesuai pengaturan hanya teks—memungkinkan pengguna menetapkan tugas visi atau bahasa apa pun. Secara spesifik, model ini menghasilkan keluaran teks (bahasa alami, kode, dll.) dari masukan yang terdiri dari teks dan gambar yang disisipkan secara bergantian. Di berbagai domain—termasuk dokumen berisi teks dan foto, diagram, atau tangkapan layar—GPT‑4 menunjukkan kemampuan serupa, seperti yang ditunjukkannya pada masukan hanya teks. Selain itu, kemampuannya dapat ditingkatkan dengan teknik test-time yang dikembangkan untuk model bahasa khusus teks, termasuk prompt few-shot dan rantai pemikiran(terbuka di jendela baru). Masukan gambar masih dalam tahap pratinjau riset dan belum tersedia secara umum.

Memuat...

Kami meninjau kinerja GPT‑4 dengan mengevaluasinya berdasarkan sejumlah tolok ukur visi akademis standar yang terbatas. Namun, semua angka ini tidak sepenuhnya mencerminkan kemampuannya, karena kami terus menerus menemukan tugas baru dan menarik yang dapat ditangani oleh model ini. Kami berencana segera merilis analisis dan angka evaluasi lebih lanjut dan investigasi menyeluruh pada dampak teknik test-time.

catatan kakiA

Memuat...

Kemampuan untuk diarahkan

Kami telah mengerjakan setiap aspek dari rencana yang dipaparkan dalam postingan kami tentang mendefinisikan perilaku AI, termasuk kemampuan untuk diarahkan. Ketimbang kepribadian ChatGPT klasik dengan ketetapan dalam jumlah kata, nada, dan gaya, pengembang (dan tak lama lagi dalam pengguna ChatGPT), sekarang ini gaya dan tugas AI dapat mereka tentukan dengan mendeskripsikan arahan dalam pesan "sistem". Dengan pesan sistem, pengguna API dapat secara signifikan menyesuaikan pengalaman pengguna mereka dalam batasan(terbuka di jendela baru). Kami akan terus melakukan perbaikan di sini (dan khususnya memahami bahwa pesan sistem adalah cara termudah untuk melakukan "jailbreak" model saat ini, yaitu, kepatuhan terhadap batas tidaklah sempurna), tetapi kami mendorong Anda untuk mencobanya dan memberi tahu kami pendapat Anda.

Memuat...

Keterbatasan

Terlepas dari kemampuannya, GPT‑4 memiliki keterbatasan yang sama seperti model GPT sebelumnya. Yang terpenting, model ini masih belum sepenuhnya dapat diandalkan (model ini terkadang "berhalusinasi" tentang fakta dan salah dalam penalaran). Kehati-hatian harus diterapkan saat menggunakan keluaran model bahasa, terutama dalam konteks berisiko tinggi, dengan protokol yang tepat (seperti tinjauan manusia, pemastian dengan konteks tambahan, atau menghindari seluruh penggunaan dalam konteks berisiko tinggi) yang sesuai dengan kebutuhan kasus penggunaan tertentu.

Meskipun masih bermasalah, GPT‑4 secara signifikan mengurangi halusinasi dibandingkan dengan model sebelumnya (yang juga mengalami peningkatan dengan setiap iterasi). Dalam evaluasi faktualitas adversarial internal, skor GPT‑4 40% lebih tinggi dibandingkan GPT‑3.5 terbaru kami.

Memuat...

Kami telah mencapai kemajuan dalam tolok ukur eksternal, seperti TruthfulQA, yang menguji kemampuan model dalam membedakan fakta dari sekumpulan pernyataan salah yang dipilih secara berlawanan. Semua pertanyaan ini dipasangkan dengan jawaban yang secara faktual tidak benar tetapi secara statistik meyakinkan.

Memuat...

Model dasar GPT‑4 hanya sedikit lebih baik dalam tugas ini dibandingkan GPT‑3.5; namun, setelah pasca-pelatihan RLHF (menerapkan proses yang sama dengan yang digunakan pada GPT‑3.5), terdapat kesenjangan yang besar. Dengan mencermati beberapa contoh berikut ini, GPT‑4 menolak untuk memilih pepatah umum ("Anda tidak bisa mengajari trik baru pada anjing tua"); tetapi, tetap saja bisa melewatkan detail yang samar ("Elvis Presley bukanlah anak seorang aktor").

Memuat...

Model ini dapat mengandung berbagai bias dalam keluarannya—kami telah mencapai kemajuan dalam hal ini, tetapi masih banyak yang perlu dilakukan. Sebagaimana postingan blog kami baru-baru ini, kami ingin sistem AI yang kami bangun memiliki perilaku default yang masuk akal, mencerminkan beragam nilai pengguna, sehingga sistem tersebut dapat dikustomisasi dalam batasan yang luas, dan mendapatkan masukan publik tentang batasan tersebut.

GPT‑4 umumnya tidak memiliki pengetahuan tentang peristiwa yang terjadi setelah sebagian besar datanya terputus (September 2021) dan tidak belajar dari pengalamannya. Terkadang GPT‑4 dapat membuat kesalahan penalaran sederhana yang tampaknya tidak sejalan dengan kompetensinya di banyak domain, atau terlalu mudah tertipu dalam menerima pernyataan yang jelas-jelas salah dari pengguna. Dan terkadang model ini dapat gagal dalam masalah yang sulit, seperti halnya manusia, misalnya dengan memasukkan kerentanan keamanan ke dalam kode yang dihasilkannya.

GPT‑4 juga dapat salah dalam prediksinya dengan keyakinan tinggi, tanpa memeriksa ulang pekerjaan saat kemungkinan besar akan membuat kesalahan. Menariknya, model dasar yang telah dilatih sebelumnya memiliki kalibrasi tinggi (keyakinan prediksi dalam sebuah jawaban secara umum sesuai dengan probabilitas kebenarannya). Namun, melalui proses pasca-pelatihan kami saat ini, tingkat kalibrasi tersebut berkurang.

Memuat...

Risiko & mitigasi

Kami telah mengembangkan GPT‑4 agar lebih aman dan lebih selaras sejak awal pelatihan, dengan upaya seperti pemilihan dan penyaringan data pra-pelatihan, evaluasi dan keterlibatan ahli, peningkatan keamanan model, serta pemantauan dan pemberlakuan.

GPT‑4 memiliki risiko yang sama seperti model sebelumnya, seperti menghasilkan saran yang berbahaya, kode yang mengandung bug, atau informasi yang tidak akurat. Namun, kemampuan tambahan dari GPT‑4 mengarah pada munculnya jenis risiko baru. Untuk memahami sejauh mana risiko ini, kami melibatkan lebih dari 50 ahli dari berbagai bidang, termasuk risiko penyelarasan AI, keamanan siber, risiko biologi, kepercayaan dan keselamatan, serta keamanan internasional, untuk menguji model secara berlawanan. Temuan mereka secara spesifik memungkinkan kami untuk menguji perilaku model di area berisiko tinggi yang membutuhkan keahlian untuk mengevaluasi. Umpan balik dan data dari para ahli ini menjadi bahan pertimbangan dalam mitigasi dan peningkatan model kami; misalnya, kami mengumpulkan data tambahan untuk meningkatkan kemampuan GPT‑4 dalam menolak permintaan terkait sintesis bahan kimia berbahaya.

GPT‑4 mengintegrasikan sinyal imbalan keselamatan tambahan selama pelatihan RLHF untuk mengurangi keluaran yang berbahaya (seperti yang didefinisikan oleh pedoman penggunaan(terbuka di jendela baru) kami) dengan melatih model agar menolak permintaan konten semacam itu. Imbalan diberikan oleh pengklasifikasi zero-shot GPT‑4 yang menilai batas keselamatan dan gaya pelengkapan pada prompt yang terkait dengan keselamatan. Untuk mencegah model menolak permintaan yang valid, kami menyatukan kumpulan data yang beragam dari berbagai sumber (misalnya, data produksi berlabel, red-teaming manusia, prompt yang dihasilkan model) dan menerapkan sinyal imbalan keselamatan (dengan nilai positif atau negatif) pada kategori yang diizinkan dan tidak diizinkan. 

Upaya mitigasi kami secara signifikan meningkatkan berbagai aspek keselamatan GPT‑4 dibandingkan dengan GPT‑3.5. Kami telah mengurangi kecenderungan model untuk merespons permintaan konten terlarang sebesar 82% dibandingkan dengan GPT‑3.5, dan GPT‑4 lebih sering merespons permintaan sensitif (misalnya, saran medis dan tindakan melukai diri sendiri) sesuai dengan kebijakan kami, meningkat sebesar 29%.

Memuat...
Memuat...

Secara keseluruhan, intervensi tingkat model kami meningkatkan kesulitan dalam memunculkan perilaku buruk, tetapi hal ini masih memungkinkan. Selain itu, masih ada "jailbreak" untuk menghasilkan konten yang melanggar pedoman penggunaan kami. Seiring meningkatnya "risiko per token" pada sistem AI, mencapai tingkat keandalan yang sangat tinggi dalam intervensi ini menjadi sangat penting; untuk saat ini, penting untuk melengkapi keterbatasan ini dengan teknik keamanan saat penerapan, seperti pemantauan penyalahgunaan.

GPT‑4 dan model penerusnya berpotensi memengaruhi masyarakat secara signifikan, dengan cara yang menguntungkan maupun merugikan. Kami berkolaborasi dengan para peneliti eksternal untuk meningkatkan pemahaman dan penilaian terhadap potensi dampak, serta mengevaluasi kemampuan berbahaya yang mungkin muncul dalam sistem masa depan. Kami akan segera membagikan pemikiran kami lainnya tentang potensi dampak sosial dan ekonomi dari GPT‑4 dan sistem AI lainnya.

Proses pelatihan

Seperti model GPT sebelumnya, model dasar GPT‑4 dilatih untuk memprediksi kata berikutnya dalam sebuah dokumen, dengan menggunakan data yang tersedia untuk umum (seperti data internet) maupun data yang telah dilisensikan. Data ini merupakan korpus berskala web yang mencakup solusi benar atau salah untuk soal matematika, penalaran yang lemah dan kuat, pernyataan yang saling bertentangan dan yang konsisten, serta mewakili berbagai ideologi dan gagasan.

Jadi, ketika diajukan pertanyaan, model dasar akan dapat merespons dengan berbagai cara yang mungkin jauh dari maksud pengguna. Untuk menyelaraskannya dengan maksud pengguna dalam batas tertentu, kami menyempurnakan perilaku model dengan menggunakan pembelajaran penguatan dengan umpan balik manusia (RLHF).

Perlu dicatat bahwa kemampuan model tampaknya terutama berasal dari proses prapelatihan—RLHF tidak meningkatkan kinerja ujian (tanpa upaya aktif, justru akan menurunkannya). Namun, pengendalian model berasal dari proses pascapelatihan—model dasar membutuhkan prompt engineering agar mengetahui bahwa dia harus menjawab pertanyaan itu.

Penskalaan yang dapat diprediksi

Fokus utama proyek GPT‑4 adalah membangun ekosistem pembelajaran dalam dengan penskalaan yang dapat diprediksi. Alasan utamanya adalah bahwa, untuk setiap pelatihan skala besar, seperti GPT‑4, tidak layak untuk dilakukan penyempurnaan spesifik model secara luas. Kami mengembangkan infrastruktur dan optimalisasi yang memiliki perilaku sangat dapat diprediksi di berbagai skala. Untuk memverifikasi skalabilitas ini, kami secara akurat telah memprediksi loss terakhir GPT‑4 pada basis kode internal kami (bukan bagian dari rangkaian pelatihan) dengan mengekstrapolasi dari model yang dilatih menggunakan metodologi yang sama tetapi dengan 10.000 kali lebih sedikit komputasi.

Memuat...

Sekarang kami dapat secara akurat memprediksi metrik yang kami optimalkan selama pelatihan (loss), dan kami mulai mengembangkan metodologi untuk memprediksi metrik yang lebih mudah ditafsirkan. Sebagai contoh, kami berhasil memprediksi tingkat kelulusan pada subset dari dataset HumanEval(terbuka di jendela baru), dengan mengekstrapolasi dari model yang komputasi 1.000 kali lebih sedikit.

Memuat...

Sebagian kemampuan masih sulit diprediksi. Sebagai contoh, Inverse Scaling Prize adalah kompetisi untuk menemukan metrik yang memburuk seiring dengan meningkatnya komputasi model, dan hindsight neglect(terbuka di jendela baru) adalah salah satu pemenangnya. Sama seperti hasil(terbuka di jendela baru) terbaru lainnya, GPT‑4 membalikkan tren ini.

Memuat...

Kami merasa yakin bahwa memprediksi secara akurat kemampuan pembelajaran mesin di masa depan adalah aspek penting dalam keselamatan yang kurang diperhatikan dibandingkan dengan dampak potensialnya (walaupun kami merasa terdorong oleh upaya dari sejumlah lembaga). Kami meningkatkan upaya kami untuk mengembangkan metode yang memberikan panduan yang lebih baik kepada masyarakat tentang apa yang dapat diharapkan dari sistem di masa depan, dan kami berharap ini menjadi tujuan bersama dalam bidang ini.

OpenAI Evals

Kami membuka sumber OpenAI Evals(terbuka di jendela baru), kerangka kerja perangkat lunak kami untuk membuat dan menjalankan tolok ukur dalam mengevaluasi model seperti GPT‑4, sekaligus memeriksa kinerjanya, sampel demi sampel. Kami menggunakan Evals untuk memandu pengembangan model kami (baik untuk mengidentifikasi kekurangan maupun mencegah regresi), dan pengguna kami dapat menerapkannya untuk melacak kinerja di seluruh versi model (yang saat ini akan dirilis secara teratur) serta mengembangkan integrasi produk. Sebagai contoh, Stripe menggunakan Evals untuk melengkapi evaluasi oleh tenaga manusia dalam mengukur keakuratan alat dokumentasi berbasis GPT mereka.

Karena seluruh kodenya merupakan sumber terbuka, Evals mendukung penulisan kelas baru untuk menerapkan logika evaluasi kustom(terbuka di jendela baru). Namun, menurut pengalaman kami sendiri, banyak tolok ukur yang mengikuti salah satu dari beberapa "templat", jadi kami juga menyertakan templat(terbuka di jendela baru) yang paling berguna secara internal (termasuk templat untuk "evals bergradasi model"—kami mendapati bahwa GPT‑4 secara mengejutkan mampu memeriksa hasil kerjanya sendiri). Secara umum, cara paling efektif untuk membuat evaluasi baru(terbuka di jendela baru) adalah menggunakan salah satu templat berikut dengan memberikan data. Kami sangat senang melihat apa yang bisa dibuat oleh orang lain dengan templat-templat ini, dan dengan Evals secara umum.

Kami berharap Evals menjadi sarana untuk berbagi dan melakukan crowdsourcing tolok ukur, yang secara maksimal menyajikan serangkaian mode kegagalan dan tugas-tugas sulit. Sebagai contoh untuk diikuti, kami telah membuat evaluasi teka-teki logika(terbuka di jendela baru) yang berisi sepuluh prompt di mana GPT‑4 mengalami kegagalan. Evals juga kompatibel dengan penerapan tolok ukur yang ada; kami telah menyertakan beberapa notebook(terbuka di jendela baru) yang menerapkan tolok ukur akademis dan beberapa variasi integrasi (subset kecil dari) CoQA(terbuka di jendela baru) sebagai contoh.

Kami mengundang semua orang untuk menggunakan Evals dalam menguji model kami dan mengirimkan contoh yang paling menarik. Kami merasa yakin bahwa Evals akan menjadi bagian integral dalam proses penggunaan dan pengembangan model kami. Kami juga menantikan setiap kontribusi langsung, pertanyaan, maupun umpan balik(terbuka di jendela baru).

ChatGPT Plus

Pelanggan ChatGPT Plus akan mendapatkan akses GPT‑4 di chatgpt.com(terbuka di jendela baru) dengan batas penggunaan. Kami akan menyesuaikan batas penggunaan tersebut, tergantung permintaan dan kinerja sistem dalam praktiknya, tetapi kami memperkirakan akan mengalami keterbatasan dalam kapasitas (sekalipun kami akan meningkatkan dan mengoptimalkannya dalam beberapa bulan mendatang).

Tergantung pola lalu lintas terlihat, kami mungkin akan memperkenalkan tingkat langganan baru untuk penggunaan GPT‑4 dengan volume yang lebih tinggi. Kami juga berharap suatu saat dapat menawarkan sejumlah kueri GPT‑4 secara gratis sehingga mereka yang tidak berlangganan dapat mencobanya juga.

API

Untuk mendapatkan akses ke GPT‑4 API (yang menggunakan ChatCompletions API(terbuka di jendela baru) yang sama dengan gpt-3.5-turbo), silakan mendaftar di daftar tunggu kami. Kami akan mulai mengundang beberapa pengembang hari ini, lalu meningkatkan skala secara bertahap, untuk menyeimbangkan kapasitas dengan permintaan. Jika Anda adalah peneliti yang mempelajari dampak sosial AI atau masalah penyelarasan AI, Anda juga dapat mengajukan permohonan untuk mendapatkan akses bersubsidi melalui Program Akses Peneliti kami.

Setelah memiliki akses, Anda dapat membuat permintaan hanya teks ke model gpt-4 (masukan gambar masih dalam versi alfa terbatas), yang secara otomatis akan kami perbarui ke model stabil yang kami sarankan ketika versi baru tersedia seiring berjalannya waktu (Anda dapat menyematkan versi saat ini dengan menghubungi gpt-4-0314, yang akan kami dukung hingga tanggal 14 Juni) . Harganya $0,03 per 1 ribu token prompt dan $0,06 per 1 ribu token penyelesaian. Batas kecepatan default adalah 40 ribu token per menit dan 200 permintaan per menit.

gpt-4 memiliki panjang konteks 8.192 token. Kami juga menyediakan akses terbatas ke versi 32.768 konteks kami (sekitar 50 halaman teks), gpt-4-32k, yang juga akan diperbarui secara otomatis secara berkala (versi terkini gpt-4-32k-0314, juga didukung hingga tanggal 14 Juni) . Harganya $0,06 per 1 ribu token prompt dan $0,12 per 1 ribu token penyelesaian. Kami masih meningkatkan kualitas model untuk konteks yang panjang mengharapkan umpan balik tentang kinerjanya untuk kasus penggunaan Anda. Kami memproses permintaan untuk mesin 8K dan 32K dengan harga berbeda berdasarkan kapasitasnya sehingga Anda akan mendapatkan akses pada waktu yang berbeda.

Kesimpulan

Kami berharap GPT‑4 menjadi alat yang berharga dalam meningkatkan kehidupan masyarakat dengan memberdayakan banyak aplikasi. Masih banyak pekerjaan yang harus dilakukan, dan kami berharap dapat meningkatkan model ini dengan upaya bersama komunitas yang membangun, mendalami, dan berkontribusi pada model ini.

Lampiran

Contoh pertanyaan MMLU, yang diterjemahkan ke dalam bahasa lain. Ingat, kami menggunakan token pilihan yang konsisten (A–D):

Memuat...

Catatan kaki

  1. A

    Kami mengevaluasi tolok ukur ini menggunakan prompt Rantai Pemikiran dengan 4 contoh dari kumpulan pelatihan dalam konteks. Prompt tertentu diatur pada kumpulan validasi.

Referensi

  1. 1

    P. Arredondo (Teks Kasus/Stanford CodeX), D. Katz (Stanford CodeX), M. Bommarito (Stanford CodeX), S. Gao (Teks Kasus). Analisis lebih lanjut tersedia dalam makalah tersebut(terbuka di jendela baru).

Penulis

OpenAI

Ucapan Terima Kasih