18 Juli 2024

GPT‑4o mini: meningkatkan kecerdasan yang hemat biaya

Memperkenalkan model kecil kami yang paling hemat biaya

Memuat…

OpenAI berkomitmen untuk membuat kecerdasan lebih mudah diakses oleh sebanyak mungkin orang. Hari ini, kami mengumumkan GPT‑4o mini, model kecil kami yang paling hemat biaya. Kami berharap GPT‑4o mini akan secara signifikan memperluas cakupan aplikasi yang dibangun dengan AI, sebab akses terhadap kecerdasan akan menjadi jauh lebih ekonomis. GPT‑4o mini mencetak skor 82% dalam MMLU dan saat ini mengungguli GPT‑4¹ dalam preferensi obrolan di papan peringkat LMSYS⁠(terbuka di jendela baru). Harga model ini ditetapkan 15 sen untuk setiap juta token masukan dan 60 sen untuk setiap juta token keluaran. Ini sepuluh kali lipat lebih terjangkau dibanding model-model perintis sebelumnya, dan lebih hemat 60% dari GPT‑3.5 Turbo.

GPT‑4o mini memungkinkan berbagai tugas dengan biaya rendah dan latensi minimal, seperti aplikasi yang menghubungkan atau menjalankan beberapa pemanggilan model secara paralel (misalnya, memanggil beberapa API), meneruskan konteks dalam jumlah besar ke model (misalnya, basis kode lengkap atau riwayat percakapan), atau berinteraksi dengan pelanggan melalui respons teks cepat dan real-time (misalnya, chatbot dukungan pelanggan).

Saat ini, GPT‑4o mini mendukung teks dan visual di API. Ke depannya, dukungan untuk masukan dan keluaran berupa teks, gambar, video, dan audio akan segera tersedia. Model ini memiliki jendela konteks sebesar 128 ribu token, mendukung hingga 16 ribu token keluaran per permintaan, dan memiliki pengetahuan hingga Oktober 2023. Berkat peningkatan tokenizer yang dibagikan dengan GPT‑4o, pemrosesan teks non-Inggris kini menjadi lebih hemat biaya.

Model kecil yang unggul dalam kecerdasan tekstual dan penalaran multimodal

GPT‑4o mini melampaui GPT‑3.5 Turbo dan model kecil lainnya dalam tolok ukur akademik, baik dalam kecerdasan tekstual maupun penalaran multimodal, serta mendukung rentang bahasa yang sama dengan GPT‑4o. Model ini juga menunjukkan kinerja yang andal dalam pemanggilan fungsi, yang memungkinkan pengembang membangun aplikasi untuk mengambil data atau melakukan tindakan dengan sistem eksternal, serta peningkatan performa konteks panjang dibandingkan dengan GPT‑3.5 Turbo.

GPT‑4o mini telah dievaluasi menggunakan beberapa tolok ukur utama².

Tugas Penalaran: GPT‑4o mini lebih unggul dibandingkan model kecil lainnya dalam tugas penalaran yang melibatkan teks dan visual, dengan skor 82,0% pada MMLU, tolok ukur kecerdasan tekstual dan penalaran, dibandingkan 77,9% untuk Gemini Flash dan 73,8% untuk Claude Haiku.

Kemampuan matematika dan pemrograman: GPT‑4o mini unggul dalam tugas penalaran matematika dan pemrograman, melampaui model kecil sebelumnya di pasaran. Dalam MGSM, yang mengukur penalaran matematika, GPT‑4o mini mencetak skor 87,0%, dibandingkan 75,5% untuk Gemini Flash dan 71,7% untuk Claude Haiku. GPT‑4o mini mencetak skor 87,2% pada HumanEval, yang mengukur kinerja pemrograman, dibandingkan 71,5% untuk Gemini Flash dan 75,9% untuk Claude Haiku.

Penalaran multimodal: GPT‑4o mini juga menunjukkan kinerja yang kuat dalam MMMU, evaluasi penalaran multimodal, dengan skor 59,4% dibandingkan 56,1% untuk Gemini Flash dan 50,2% untuk Claude Haiku.

Skor Evaluasi Model

Sebagai bagian dari proses pengembangan model, kami bekerja sama dengan beberapa mitra tepercaya untuk memahami lebih baik contoh penggunaan dan keterbatasan GPT‑4o mini. Kami bermitra dengan perusahaan seperti Ramp⁠(terbuka di jendela baru) dan Superhuman⁠(terbuka di jendela baru), yang menemukan bahwa kinerja GPT‑4o mini jauh lebih baik daripada GPT‑3.5 Turbo untuk tugas-tugas seperti mengekstrak data terstruktur dari file kuitansi atau menghasilkan respons email berkualitas tinggi saat diberikan riwayat utas.

Langkah keselamatan bawaan

Keselamatan telah tertanam sejak awal dalam model kami dan diperkuat dalam setiap langkah proses pengembangannya. Selama pra-pelatihan, kami menyingkirkan⁠(terbuka di jendela baru) informasi yang tidak ingin dipelajari atau dihasilkan oleh model kami, seperti ujaran kebencian, konten dewasa, situs yang terutama mengumpulkan informasi personal, dan spam. Dalam pasca-pelatihan, kami menyelaraskan perilaku model dengan kebijakan kami menggunakan teknik seperti pembelajaran penguatan dengan umpan balik manusia⁠ (RLHF) untuk meningkatkan akurasi dan keandalan respons model.

GPT‑4o mini memiliki perlindungan keselamatan yang sama, seperti GPT‑4o⁠, yang kami evaluasi secara cermat menggunakan penilaian otomatis dan manusia sesuai dengan Kerangka Kerja Kesiapan⁠ kami serta sejalan dengan komitmen sukarela⁠ kami. Lebih dari 70 ahli dari pihak eksternal dalam bidang-bidang seperti psikologi sosial dan misinformasi telah menguji GPT‑4o untuk mengidentifikasi potensi risiko, yang telah kami tangani dan rencanakan untuk dibagikan detailnya dalam kartu sistem GPT‑4o dan skor kesiapan yang akan datang. Wawasan dari evaluasi pakar ini telah membantu meningkatkan keselamatan GPT‑4o dan GPT‑4o mini.

Berlandaskan pembelajaran ini, tim kami juga bekerja untuk meningkatkan keamanan GPT‑4o mini dengan menggunakan teknik baru yang didasarkan pada riset kami. GPT‑4o mini dalam API adalah model pertama yang menerapkan metode hierarki instruksi⁠(terbuka di jendela baru) kami, yang membantu meningkatkan kemampuan model dalam menolak pembobolan, injeksi prompt, dan ekstraksi prompt sistem. Hal ini membuat respons model lebih dapat diandalkan dan membantu menjadikannya lebih aman untuk digunakan dalam aplikasi berskala besar.

Kami akan terus memantau bagaimana GPT‑4o mini digunakan dan meningkatkan keselamatan saat kami mengidentifikasi risiko baru.

Ketersediaan dan harga

GPT‑4o mini sekarang tersedia sebagai model teks dan visi di API Asisten, API Penyelesaian Obrolan, dan API Batch. Pengembang membayar 15 sen per 1 juta token masukan dan 60 sen per 1 juta token keluaran (setara dengan sekitar 2500 halaman buku standar). Beberapa hari mendatang kami berencana meluncurkan penyempurnaan untuk GPT‑4o mini dalam.

Di ChatGPT, pengguna paket Free, Plus, dan Team akan dapat mengakses GPT‑4o mini mulai hari ini, menggantikan GPT‑3.5. Pengguna Enterprise juga akan mendapatkan akses mulai minggu depan, sesuai dengan misi kami untuk membuat manfaat AI dapat diakses oleh semua orang.

Selanjutnya

Dalam beberapa tahun terakhir, kita menyaksikan kemajuan luar biasa dalam kecerdasan AI yang disandingkan dengan pengurangan biaya yang signifikan. Misalnya, biaya per token GPT‑4o mini telah turun 99% sejak text-davinci-003, model yang kurang canggih yang diperkenalkan pada tahun 2022. Kami berkomitmen untuk terus menurunkan biaya sambil terus meningkatkan kemampuan model.

Kami membayangkan masa depan di mana model AI terintegrasi secara mulus dalam setiap aplikasi dan situs web. GPT‑4o mini membuka jalan bagi pengembang untuk membangun dan meningkatkan aplikasi AI yang kuat dengan lebih efisien dan terjangkau. Masa depan AI menjadi lebih mudah diakses, lebih andal, dan semakin menyatu dengan pengalaman digital harian kita, dan kami bersemangat untuk terus memimpin perkembangannya.

Penulis

OpenAI

Ucapan Terima Kasih

Para Pemimpin: Jacob Menick, Kevin Lu, Shengjia Zhao, Eric Wallace, Hongyu Ren, Haitang Hu, Nick Stathas, Felipe Petroski Such

Pemimpin Program: Mianna Chen

Kontribusi tercatat di https://openai.com/gpt-4o-contributions/⁠

Catatan kaki

1
Per tanggal 18 Juli 2024, versi awal GPT-4o mini mengungguli GPT-4T 01-25.
2
Angka evaluasi untuk GPT-4o mini dihitung menggunakan repo evaluasi sederhana⁠(terbuka di jendela baru) kami dengan prompt pesan sistem asisten API. Untuk model pesaing, kami mengambil jumlah maksimum di atas jumlah yang dilaporkan (jika tersedia), papan peringkat HELM⁠(terbuka di jendela baru), dan reproduksi kami sendiri melalui evaluasi sederhana.