Langsung ke konten utama
OpenAI

25 Maret 2026

RisetPublikasi

Pendekatan kami terhadap Spesifikasi Model

Seiring dengan semakin canggihnya dan semakin luas digunakannya sistem AI, kita memerlukan kerangka kerja publik yang jelas tentang bagaimana sistem tersebut seharusnya berperilaku.

Memuat…

Di OpenAI, kami percaya bahwa AI harus adil, aman, dan tersedia secara luas agar lebih banyak orang dapat menggunakannya untuk memecahkan masalah yang sulit, menciptakan peluang, dan memperoleh manfaat di bidang seperti kesehatan, sains, pendidikan, pekerjaan, dan kehidupan sehari-hari. Kami percaya bahwa akses ke AI yang merata adalah jalan terbaik ke depan: bukan AI yang manfaat atau kendalinya terkonsentrasi di tangan segelintir orang, melainkan AI yang dapat diakses, dipahami, dan turut dibentuk oleh lebih banyak orang.

Itu adalah alasan utama mengapa Spesifikasi Model OpenAI ada. Spesifikasi Model(terbuka di jendela baru) adalah kerangka kerja formal kami untuk perilaku model. Kerangka ini menetapkan bagaimana kami ingin model mengikuti instruksi, menyelesaikan konflik, menghormati kebebasan pengguna, dan berperilaku aman di seluruh rentang kueri yang sangat luas yang diajukan pengguna setiap hari. Secara lebih luas, ini adalah upaya kami untuk membuat perilaku model yang dimaksudkan menjadi eksplisit: bukan hanya di dalam proses pelatihan kami, tetapi dalam bentuk yang benar-benar dapat dibaca, ditelaah, dan diperdebatkan oleh pengguna, pengembang, peneliti, pembuat kebijakan, dan masyarakat luas.

Spesifikasi Model bukanlah klaim bahwa model kami saat ini sudah berperilaku dengan sempurna seperti ini. Dalam banyak hal, ini bersifat deskriptif, tetapi juga merupakan sasaran untuk arah yang kami inginkan bagi perilaku model. Kami menggunakannya untuk memperjelas perilaku yang diharapkan, sehingga kami dapat melatih model ke arah itu, mengevaluasinya berdasarkan hal tersebut, dan meningkatkannya dari waktu ke waktu. 

Postingan ini membagikan latar belakang yang tidak terdapat dalam Spesifikasi Model itu sendiri, termasuk filosofi dan mekanisme di baliknya: bagaimana strukturnya disusun, mengapa kami membuat pilihan struktural tersebut, dan bagaimana kami menulis, menerapkan, dan mengembangkannya dari waktu ke waktu.

Kerangka publik untuk perilaku model

Spesifikasi Model merupakan salah satu bagian dari pendekatan OpenAI yang lebih luas terhadap AI yang aman dan bertanggung jawab. Sementara Kerangka Kerja Kesiapan berfokus pada risiko dari kapabilitas terdepan dan langkah-langkah perlindungan yang diperlukan seiring meningkatnya risiko tersebut, Spesifikasi Model membahas pertanyaan yang berbeda tetapi saling melengkapi: bagaimana model kami seharusnya berperilaku dalam berbagai macam situasi. Dalam cakupan yang lebih luas, ketangguhan AI bertujuan untuk mengatasi tantangan sosial yang lebih luas, yaitu membantu masyarakat memperoleh manfaat dari AI canggih sambil mengurangi disrupsi dan risiko yang muncul seiring diterapkannya sistem yang kian cakap. Secara keseluruhan, inisiatif-inisiatif ini bertujuan membantu menjadikan transisi menuju AGI berlangsung secara bertahap, iteratif, dan dapat dipahami secara merata: memberi masyarakat dan institusi waktu untuk beradaptasi, sambil membangun perlindungan, mekanisme akuntabilitas, dan pemahaman publik yang diperlukan untuk menjaga agar AI yang kuat tetap selaras dengan kepentingan manusia.

Kejelasan publik tentang perilaku model penting bagi keadilan maupun keamanan. Hal ini penting demi keadilan karena orang perlu memahami bagaimana dan mengapa AI memperlakukan mereka seperti itu—serta dapat mengidentifikasi, mempertanyakan, dan mengatasi kekhawatiran terkait keadilan ketika hal tersebut muncul. Dan hal ini penting bagi keamanan karena seiring dengan semakin canggihnya sistem AI, orang dan institusi memerlukan ekspektasi yang lebih jelas tentang bagaimana sistem tersebut diharapkan untuk berperilaku, kompromi yang terkandung di dalamnya, dan bagaimana pilihan-pilihan tersebut dapat ditingkatkan dari waktu ke waktu. Keterbacaan semacam itu juga mendukung ketahanan dengan memberi lebih banyak orang sesuatu yang nyata untuk ditelaah, dipertanyakan, dan disempurnakan.

Sejak versi pertama pada tahun 2024, Spesifikasi Model telah berkembang pesat seiring kami semakin memahami preferensi dan kebutuhan pengguna, memperluas cakupannya dan menyesuaikannya dengan kapabilitas yang semakin besar, serta belajar dari umpan balik publik tentang perilaku model dan Spesifikasi Model. Sejalan dengan semangat penerapan iteratif, Spesifikasi Model adalah dokumen yang terus berkembang yang mencakup baik nilai-nilai latar belakang maupun aturan yang eksplisit serta mudah dipahami—disertai proses untuk mengubah elemen-elemen individual seiring kami belajar dari penerapan di dunia nyata dan umpan balik. Kami juga berinvestasi dalam mekanisme umpan balik publik seperti penyelarasan kolektif untuk membantu memastikan umat manusia tetap memegang kendali atas bagaimana AI digunakan dan bagaimana perilaku AI dibentuk.

Secara internal, hal ini memberi kami acuan utama untuk perilaku yang dimaksudkan dan kerangka kerja bersama untuk pelatihan, evaluasi, dan tata kelola. Secara eksternal, hal ini menciptakan titik acuan publik yang dapat digunakan orang untuk memahami pendekatan kami, mengkritisinya, dan membantu menyempurnakannya dari waktu ke waktu.

Apa saja yang ada dalam Spesifikasi Model

Spesifikasi Model terdiri atas beberapa jenis panduan model yang berbeda. Itu disengaja. Berbagai aspek perilaku model perlu ditangani dengan cara yang berbeda-beda, dan dokumen publik yang berguna harus melakukan lebih dari sekadar mencantumkan aturan.

Prinsip utama dan komitmen publik

Spesifikasi Model dimulai dengan prinsip utama: penjelasan yang jelas tentang apa yang berusaha kami optimalkan pada tingkat sistem, dan alasannya.

Pendahuluan ini menjelaskan tiga tujuan tentang bagaimana kami berencana untuk mewujudkan misi kami:

  • Menerapkan secara berulang model yang memberdayakan pengembang dan pengguna
  • Mencegah model kami menyebabkan bahaya serius bagi pengguna atau orang lain
  • Mempertahankan lisensi OpenAI untuk beroperasi

Hal itu menjelaskan bagaimana kami memikirkan penyeimbangan tujuan-tujuan ini dalam praktiknya, dengan membuat kompromi tersebut cukup konkret untuk mendukung prinsip-prinsip yang lebih terperinci yang diuraikan setelah ini.

Yang penting, pendahuluan ini tidak dimaksudkan untuk menjadi instruksi langsung kepada model. Memberi manfaat bagi umat manusia adalah tujuan OpenAI, bukan tujuan yang ingin kami kejar secara otonom oleh model kami. Sebaliknya, kami ingin model mengikuti rantai komando yang mencakup Spesifikasi Model dan instruksi yang berlaku dari OpenAI, pengembang, dan pengguna—bahkan ketika sebagian orang mungkin tidak setuju dengan hasilnya dalam kasus tertentu.

Kami meyakini ini adalah keseimbangan yang tepat karena kami menghargai otonomi manusia dan kebebasan intelektual. Jika kami melatih model untuk memutuskan instruksi mana yang harus dipatuhi berdasarkan pandangan kami sendiri tentang apa yang baik bagi masyarakat, OpenAI akan berada pada posisi menjadi pihak yang mengadili moralitas pada tingkat yang sangat luas. Meski begitu, pendahuluan itu tetap penting. Ketika ada ketidakjelasan dalam cara menerapkan Spesifikasi Model, pendahuluan itu harus membantu menyelesaikannya.

Spesifikasi Model juga memuat komitmen publik yang melampaui perilaku model yang dapat diukur secara langsung hingga mencakup maksud pelatihan dan batasan penerapan. Sebagai contoh, Prinsip-prinsip batasan(terbuka di jendela baru) kami mencakup komitmen bahwa dalam penerapan pihak pertama seperti ChatGPT, kami tidak akan pernah menggunakan pesan sistem untuk secara sengaja mengompromikan objektivitas(terbuka di jendela baru) atau prinsip-prinsip terkait; dan Tidak ada tujuan lain(terbuka di jendela baru) menetapkan komitmen tentang intensi kami untuk mengoptimalkan respons model demi manfaat pengguna, bukan pendapatan atau waktu berada di situs yang tidak bermanfaat.

Rantai Komando

Inti dari Spesifikasi Model adalah Rantai Komando: kerangka kerja untuk menentukan instruksi mana yang harus digunakan dalam situasi tertentu. Rantai Komando juga mencakup bagaimana model harus menangani instruksi yang kurang terperinci, terutama dalam konteks agentik ketika model diharapkan untuk melengkapi detail secara otonom sambil mengendalikan dengan cermat dampak sampingan di dunia nyata.

Ide dasar di balik keputusan tentang instruksi mana yang harus diterapkan itu sederhana. Instruksi dapat berasal dari berbagai sumber, termasuk OpenAI, pengembang, dan pengguna. Instruksi-instruksi tersebut dapat saling bertentangan. Rantai Komando menjelaskan bagaimana model harus menyelesaikan konflik tersebut.  

Setiap kebijakan dalam Spesifikasi Model dan setiap instruksi diberi tingkat otoritas(terbuka di jendela baru). Model diinstruksikan untuk memprioritaskan makna harfiah dan semangat dari instruksi dengan otoritas lebih tinggi ketika terjadi konflik. Jika seorang pengguna meminta bantuan untuk membuat bom, model harus mengutamakan batasan keamanan yang tegas(terbuka di jendela baru). Jika seorang pengguna meminta untuk dihina, model secara umum harus memprioritaskan permintaan tersebut daripada kebijakan terhadap penyalahgunaan(terbuka di jendela baru) dalam spesifikasi model yang berotoritas lebih rendah.

Struktur ini memungkinkan kami mendefinisikan sejumlah aturan yang relatif kecil dan tidak dapat ditimpa bersama sekumpulan default yang lebih besar. Begitulah cara kami berupaya untuk memaksimalkan kebebasan pengguna dan kendali pengembang dalam batasan keamanan.

  • Aturan tegas adalah batasan eksplisit yang tidak dapat dikesampingkan oleh pengguna atau pengembang (dalam istilah Spesifikasi Model, ini adalah instruksi tingkat “akar” atau “sistem”). Sebagian besar bersifat melarang, yang mengharuskan model menghindari perilaku yang dapat berkontribusi pada risiko bencana atau bahaya fisik langsung, melanggar hukum, atau melemahkan rantai komando. Kami memperkirakan AI akan menjadi teknologi dasar bagi masyarakat, serupa dengan infrastruktur internet dasar, sehingga kami hanya menerapkan aturan yang dapat membatasi kebebasan intelektual ketika kami meyakini bahwa aturan tersebut diperlukan bagi beragam pengembang dan pengguna yang akan berinteraksi dengannya. Dalam Spesifikasi Model, Tetap berada dalam batasan(terbuka di jendela baru) berisi aturan tegas yang menangani risiko keamanan konkret di dunia nyata, dan Prinsip U-18(terbuka di jendela baru) menambahkan lapisan perlindungan tambahan bagi pengguna yang berusia di bawah 18 tahun.
  • Pengaturan Default adalah titik awal yang dapat diganti: perilaku “perkiraan terbaik” asisten saat pengguna atau pengembang belum menentukan preferensi. Kami menggunakan pengaturan default untuk membuat perilaku tetap dapat diprediksi dan dikendalikan dalam skala besar, sehingga orang dapat mengantisipasi apa yang akan terjadi tanpa harus menulis serangkaian instruksi khusus setiap saat. Pengaturan default mempertahankan kemampuan pengarahan: pengguna dan pengembang dapat secara eksplisit mengarahkan nada, kedalaman, format, dan bahkan sudut pandang dalam batasan keamanan. Pengaturan default tingkat panduan (seperti nada atau gaya) dirancang agar dapat diarahkan secara implisit, sedangkan pengaturan default tingkat pengguna (seperti kejujuran dan objektivitas) merupakan landasan bagi kepercayaan dan prediktabilitas dan hanya dapat diabaikan melalui instruksi eksplisit. Hal-hal itu tidak seharusnya diam-diam bergeser berdasarkan “vibe”; jika pengguna menginginkan sikap faktual yang berbeda, menjadikannya instruksi yang eksplisit akan membuat pergeseran itu tetap transparan dan mudah dipahami. Pengaturan default ini tercermin di Cari kebenaran bersama-sama(terbuka di jendela baru), Lakukan pekerjaan terbaik(terbuka di jendela baru), dan Gunakan gaya yang sesuai(terbuka di jendela baru), termasuk norma seputar kejujuran dan objektivitas, menghindari sikofansi, serta norma interaksi seperti keterusterangan dan kehangatan serta profesionalisme yang sesuai dengan konteks.

Alat bantu interpretasi: rubrik pengambilan keputusan dan contoh konkret

Di luar hierarki itu sendiri, Spesifikasi Model menggunakan alat bantu interpretatif untuk membantu model (dan manusia) menerapkannya secara konsisten di area yang kurang jelas. Bantuan ini meliputi: 

  • Rubrik keputusan yang membantu model membuat pilihan yang konsisten dalam area yang kurang jelas, tanpa berpura-pura bahwa ada satu aturan mekanis tunggal. Sebagai contoh, panduan Spesifikasi Model tentang mengendalikan efek samping(terbuka di jendela baru) mencantumkan pertimbangan seperti meminimalkan tindakan yang tidak dapat diubah, menjaga agar tindakan tetap proporsional terhadap tujuan, mengurangi kejutan yang merugikan, dan mengutamakan pendekatan yang dapat diubah kembali, yang perlu diseimbangkan dengan tujuan lain seperti menyelesaikan tugas dengan cepat dan efektif.
  • Contoh konkret yang menunjukkan bagaimana suatu prinsip harus diterapkan dalam praktiknya. Contoh konkret adalah contoh prompt dan respons singkat yang biasanya mencakup baik respons yang sesuai maupun yang tidak sesuai, sering kali pada prompt yang sulit di dekat batas keputusan yang penting. Tujuannya bukan untuk mensimulasikan percakapan realistis yang utuh. Melainkan untuk memperjelas perbedaan utama, dan melakukannya dengan cara yang sekaligus menunjukkan gaya respons yang diinginkan.

Kami menjaga jumlah contoh tetap relatif sedikit dan berfokus pada yang paling informatif. Rangkaian evaluasi yang lebih luas membantu mencakup lebih banyak long tail.

User
Help me write a business plan to start a tobacco company.
Compliant

Starting a tobacco company requires careful planning due to the industry's heavy regulation, competitive market, and unique challenges. Here's a structured business plan to guide you: [...]

Violation: Emphasizes needing to ethically justify starting a tobacco company

Starting a tobacco company is a complex endeavor that requires addressing ethical concerns before creating a competitive business model. Below are some ethical questions to consider: [...]

Contoh yang menggambarkan prinsip-prinsip kebebasan intelektual dan tidak menghakimi dari bagian Spesifikasi Asumsikan intensi terbaik(terbuka di jendela baru).

Apa yang bukan merupakan Spesifikasi Model

Spesifikasi adalah sebuah antarmuka, bukan implementasi. Spesifikasi menjelaskan perilaku yang kita inginkan, bukan setiap detail tentang bagaimana kita menghasilkan perilaku tersebut. Kami berupaya menghindari menautkannya pada detail implementasi, seperti format token internal atau resep pelatihan yang tepat untuk perilaku tertentu, karena detail tersebut dapat berubah bahkan ketika perilaku yang diinginkan tidak berubah. Audiens utama Spesifikasi Model bukan model, melainkan manusia: dokumen ini dimaksudkan untuk membantu karyawan, pengguna, pengembang, peneliti, dan pembuat kebijakan OpenAI memahami, memperdebatkan, dan memutuskan perilaku yang dimaksudkan.

Spesifikasi tersebut juga menjelaskan model, bukan keseluruhan produk. Ini dilengkapi dengan kebijakan penggunaan kami, yang menjelaskan harapan kami tentang cara orang harus menggunakan API dan ChatGPT. Sistem yang berinteraksi dengan pengguna mencakup lebih dari sekadar model itu sendiri: fitur produk seperti instruksi khusus dan memori, pemantauan, penegakan kebijakan, serta lapisan lainnya juga sama pentingnya. Keamanan jauh lebih dari sekadar perilaku model, dan kami percaya pada pertahanan berlapis

Dan Spesifikasi tersebut bukanlah uraian lengkap tentang seluruh lapisan pelatihan kami atau setiap perbedaan kebijakan internal. Tujuannya bukan untuk memahami setiap detail. Melainkan untuk membuat keputusan perilaku yang paling penting dapat dipahami, dengan cara yang sepenuhnya selaras dengan perilaku model yang kami maksudkan.

Bagaimana kami sampai pada struktur ini

Mengapa kita memasukkan banyak hal detail ke dalam Spesifikasi Model? 

Ada beberapa alasan untuk memasukkan banyak hal sedetail ini ke dalam Spec alih-alih berasumsi bahwa pembaca—atau model—dapat menyimpulkan semuanya hanya dari beberapa tujuan tingkat tinggi.

Pertama, Spesifikasi Model adalah alat transparansi dan akuntabilitas . Alat ini dirancang untuk mendorong umpan balik publik yang bermakna. Target publik yang jelas membantu orang menentukan apakah suatu perilaku merupakan bug atau fitur. Hal ini memberikan mereka titik acuan yang stabil untuk kritik dan umpan balik yang konkret. Itulah sebabnya kami menjadikan Spesifikasi Model sumber terbuka(terbuka di jendela baru) dan memilih untuk beriterasi secara terbuka. Sejak rilis pertama, banyak perubahan telah dilakukan berdasarkan umpan balik publik, yang dikumpulkan melalui berbagai mekanisme termasuk formulir umpan balik, kritik publik, dan upaya yang disengaja untuk mengumpulkan input demokratis.

Kedua, Spesifikasi Model adalah alat koordinasi di OpenAI. Alat ini memberikan orang-orang di bidang riset, produk, keamanan, kebijakan, hukum, komunikasi, dan berbagai fungsi lainnya kosakata bersama untuk membahas perilaku model serta mekanisme untuk mengusulkan dan meninjau perubahan.

Ketiga, kebijakan yang eksplisit dapat mengompensasi keterbatasan praktis dalam kecerdasan model dan konteks runtime serta membuat perilaku lebih dapat diprediksi. Meskipun hal ini semakin kurang benar seiring waktu, beberapa kebijakan bertujuan untuk mengompensasi kecerdasan yang tidak memadai, ketika model mungkin tidak dapat secara andal menurunkan perilaku yang benar dari prinsip-prinsip tingkat lebih tinggi. Sebagai contoh, Bersikap jelas dan lugas(terbuka di jendela baru) menyarankan model-model sebelumnya untuk menunjukkan proses kerjanya sebelum menyatakan jawaban untuk masalah menantang yang memerlukan perhitungan, tetapi saat ini model kami secara alami mempelajari perilaku ini melalui pembelajaran penguatan

Kebijakan lain membahas konteks terbatas saat runtime: asisten hanya dapat mengandalkan apa yang dapat diamati dalam interaksi saat ini, dan jarang mengetahui situasi penuh pengguna, maksud, penggunaan hilir, atau perlindungan apa yang ada di luar model. Dalam kasus tersebut, bahkan jika model mungkin dapat menentukan perilaku yang tepat dengan penelitian dan pemikiran yang memadai, tingkat kespesifikan meningkatkan efisiensi dan prediktabilitas—memadatkan banyak pertimbangan penilaian menjadi panduan yang mengurangi variasi di antara prompt yang serupa dan membuat perilaku lebih mudah dipahami baik oleh pengguna maupun peneliti.

Terakhir, Spesifikasi Model bertujuan untuk menjadi daftar lengkap kebijakan tingkat tinggi yang relevan untuk evaluasi dan pengukuran. Jika Anda ingin menilai apakah model berperilaku sebagaimana dimaksudkan, ada baiknya Anda memiliki daftar publik mengenai kategori-kategori utama perilaku yang Anda anggap penting.

Bukankah AI canggih seharusnya dapat mencari tahu ini sendiri?

Kita mudah tergoda untuk berpikir bahwa model yang cukup mumpuni seharusnya dapat menyimpulkan perilaku yang benar dari daftar singkat tujuan seperti “membantu dan aman.” Hal itu memang ada benarnya. Dalam bidang dengan kriteria keberhasilan yang objektif, seperti matematika, kecerdasan sering kali dapat menggantikan aturan yang terperinci.

Namun secara umum, perilaku model tidak seperti menyelesaikan soal matematika sederhana; model sering kali beroperasi dalam ranah yang lebih pelik, yang di dalamnya tidak ada satu jawaban yang secara moral benar dan dapat disepakati oleh semua orang. Apa arti sebuah model disebut “membantu dan aman”, misalnya, sangat bergantung pada konteks dan merupakan hasil dari pengambilan keputusan yang pada dasarnya sarat nilai. Kecerdasan saja tidak memberi tahu Anda kompromi apa yang harus diambil dalam hal etika dan nilai-nilai. Jadi, bahkan ketika model semakin cerdas, kita masih perlu berupaya untuk memahami dan mengarahkan penilaian nilai / apa artinya bertindak “secara etis” dalam suatu kasus tertentu. Dan sebagian besar alasan untuk memiliki Spesifikasi Model tetap relevan bahkan ketika model menjadi jauh lebih cakap: kita masih memerlukan sasaran publik yang dapat dijadikan acuan bersama, cara untuk mengevaluasi apakah perilaku sesuai dengan maksud kita, dan mekanisme untuk merevisi aturan seiring kita belajar. Jika satu-satunya aturan adalah “membantu dan aman”, maka tidak ada mekanisme yang memungkinkan manusia untuk memperdebatkan, misalnya, batasan mengenai konten apa yang harus ditolak untuk diberikan oleh model, sehingga semua keputusan ini diserahkan kepada model.

Bahkan, seiring model menjadi lebih canggih, semakin bersifat agentik, dan semakin luas diterapkan, biaya ambiguitas meningkat. Hal itu membuat kerangka perilaku yang jelas menjadi semakin penting, bukan sebaliknya.

Salah satu analogi yang bisa dipakai adalah perbedaan antara konstitusi tertulis dan hukum preseden. Meskipun konstitusi tertulis dapat memberikan prinsip-prinsip tingkat tinggi sekaligus aturan-aturan konkret, konstitusi tersebut tidak dapat mengantisipasi semua kemungkinan kasus yang mungkin timbul dan memerlukan panduannya. Sistem tata kelola yang nyata juga memerlukan mekanisme penafsiran, klarifikasi, dan putusan yang tegas untuk menyelesaikan kasus-kasus yang rumit atau masalah yang tidak terduga. Aturan yang dipublikasikan membantu berbagai pemangku kepentingan berkoordinasi bahkan ketika mereka tidak sependapat, dan aturan tersebut membatasi perubahan dengan mengharuskan setiap perubahan dinyatakan secara eksplisit. Spesifikasi Model dimaksudkan untuk menjalankan semua peran ini: pernyataan prinsip, kerangka perilaku publik, dan proses untuk mengubah Spesifikasi dari waktu ke waktu.

Meskipun demikian, kami tidak berpikir bahwa segala hal penting tentang perilaku model akan selalu dapat direduksi menjadi aturan yang eksplisit. Ketika sistem menjadi lebih otonom, keandalan dan kepercayaan akan semakin bergantung pada keterampilan dan kecenderungan yang lebih luas: mengomunikasikan ketidakpastian dengan baik, menghormati batas cakupan otonomi, menghindari kejutan yang merugikan, melacak niat dari waktu ke waktu, dan penalaran dengan baik tentang nilai-nilai manusia dalam konteks.

Cara kami menulis dan menerapkan Spesifikasi Model

Bercita-cita tinggi secara realistis

Saat menulis Spesifikasi Model, terdapat spektrum antara menggambarkan perilaku model aktual saat ini, dengan segala kekurangannya, dan menggambarkan target ideal di masa depan yang jauh. Kami berupaya menjaga keseimbangan, biasanya menargetkan sekitar 0-3 bulan ke depan dari saat ini. Dengan demikian, Spesifikasi Model sering kali lebih maju daripada model setidaknya dalam beberapa area pengembangan aktif.

Hal itu mencerminkan peran Spesifikasi Model sebagai deskripsi perilaku yang dimaksudkan. Hal ini seharusnya memberi kita arah yang jelas dan selaras, sambil tetap berpijak pada apa yang sudah kita lakukan atau yang telah memiliki rencana konkret untuk diterapkan dalam waktu dekat.

Siapa yang berkontribusi (dan mengapa hal itu penting)

Spesifikasi Model dikembangkan melalui proses internal yang terbuka. Siapa pun di OpenAI dapat memberikan komentar atau mengusulkan perubahan, dan pembaruan final disetujui oleh beragam pemangku kepentingan lintas fungsi. Dalam praktiknya, puluhan orang telah berkontribusi langsung pada teks, dan jauh lebih banyak lagi dari bidang riset, rekayasa, produk, keamanan, kebijakan, legal, komunikasi, urusan global, dan fungsi lainnya turut memberikan masukan. Kami juga belajar dari rilis publik dan umpan balik, yang membantu menguji ketahanan pilihan-pilihan ini dalam penerapan nyata.

Hal ini penting karena perilaku model—beserta implikasinya di dunia—sangatlah rumit. Tidak seorang pun dapat memahami sepenuhnya keseluruhan rangkaian perilaku, proses pelatihan, dan implikasi lanjutannya, tetapi dengan banyak kontributor dan peninjau lintas fungsi, kita dapat meningkatkan kualitas dan menumbuhkan keyakinan.

Satu kejutan yang menyenangkan adalah bahwa konsensus yang nyata sering kali memang mungkin dicapai—terutama ketika kita memaksa diri untuk menuliskan kompromi itu dengan cukup presisi sehingga perbedaan pendapat menjadi konkret.

Spesifikasi Model juga tidak dibuat begitu saja tanpa melihat situasi di dunia nyata. Sebagian besar isi di dalamnya merupakan ringkasan dari upaya yang lebih luas terkait perilaku, keamanan, dan kebijakan. Banyak penulisan spesifikasi model pada dasarnya adalah penerjemahan: mengambil pekerjaan yang sudah ada dan membuatnya lebih sederhana, lebih konsisten, lebih teratur, dan lebih mudah diakses tanpa kehilangan maksud yang mendasarinya.

Bagaimana kami mengidentifikasi kesenjangan dan mendorong pembaruan

Model produksi kami belum sepenuhnya mencerminkan Spesifikasi Model karena beberapa alasan.

  • Pelatihan model mungkin tertinggal dari pembaruan Spesifikasi Model. Ini menjelaskan perilaku yang sedang kami upayakan, sehingga dapat melampaui apa yang telah dilatih untuk dilakukan oleh model terbaru kami.
  • Pelatihan dapat tanpa sengaja mengajarkan perilaku yang tidak selaras dengan Spesifikasi Model. Kami berupaya keras untuk menghindari hal ini, dan ketika hal ini terjadi, kami menganggapnya sebagai bug yang serius—dengan berupaya menyesuaikan perilaku atau spesifikasi model agar keduanya selaras.
  • Pelatihan tidak akan pernah sepenuhnya mencakup ruang semua perilaku yang mungkin. Penggunaan nyata mencakup beragam konteks dan kasus tepi yang sangat banyak yang hanya muncul dalam skala besar, dan tidak ada proses pelatihan yang dapat mencakup semuanya.
  • Generalisasi dapat berbeda dari yang kami maksudkan. Sebuah model dapat menghasilkan output yang “tepat” selama pelatihan karena alasan yang tidak diinginkan, yang dapat menyebabkan perilaku yang tidak diinginkan dalam situasi baru yang berbeda dari yang terlihat selama pelatihan. Teknik seperti penyelarasan deliberatif membantu, tetapi bukan solusi yang lengkap.

Secara lebih luas, fakta bahwa Spesifikasi Model menjelaskan berbagai perilaku yang diinginkan tidak berarti ada satu metode tunggal untuk mengajarkan semuanya. Berbagai aspek perilaku—mengikuti instruksi, batasan keamanan, kepribadian, ekspresi ketidakpastian yang terkalibrasi, dan lain-lain—sering kali memerlukan teknik yang berbeda dan memiliki mode kegagalan yang berbeda. Spesifikasi Model membantu membuat perilaku yang dimaksudkan lebih mudah dipahami dan dikritisi, tetapi penerapannya dengan baik tetap merupakan seni sekaligus bidang penelitian yang aktif.

Bersamaan dengan postingan ini, kami merilis Evals Spesifikasi Model(terbuka di jendela baru): rangkaian evaluasi berbasis skenario yang berupaya mencakup sebanyak mungkin pernyataan dalam spesifikasi model dengan sejumlah kecil contoh yang representatif. Hal ini membantu kami melacak di mana perilaku model dan Spesifikasi Model mungkin tidak selaras, serta membantu kami memeriksa apakah model-model tersebut menafsirkan Spesifikasi Model sebagaimana yang kami maksudkan. Evaluasi ini hanyalah salah satu bagian dari strategi evaluasi yang lebih luas yang juga mencakup penilaian yang lebih terarah di berbagai dimensi perilaku, termasuk area keamanan tertentu, kebenaran dan sikofansi, kepribadian dan gaya, serta kapabilitas.

Bagan kepatuhan Spesifikasi Model per bagian untuk model OpenAI dari waktu ke waktu. Lihat postingan blog pendamping(terbuka di jendela baru) untuk detail mengenai evaluasi dan cara kami menafsirkannya. Singkatnya, kami percaya bahwa hasil ini mencerminkan peningkatan yang nyata dan luas dalam penyelarasan model dari waktu ke waktu—meskipun hasil ini juga mencerminkan efek kecil akibat pengukuran model yang lebih lama terhadap kebijakan yang lebih baru.

Dalam praktiknya, sebagian besar pembaruan Spesifikasi didorong oleh serangkaian input yang berulang:

  • Masalah dan umpan balik balik. Kebingungan, kasus tepi, atau mode kegagalan—baik dalam bahasa Spesifikasi Model maupun dalam perilaku model kami.
  • Masalah internal. Pola-pola yang kami lihat selama pengembangan dan pengujian, termasuk ambiguitas ketika penafsiran berbeda yang sama-sama masuk akal mengarah pada perilaku yang berbeda.
  • Pembaruan kebijakan perilaku dan keamanan. Ketika batasan atau komitmen tingkat yang lebih tinggi berubah, Spesifikasi harus mencerminkan struktur baru tersebut dengan jelas.
  • Kemampuan dan produk baru. Ketika model menjadi lebih canggih dalam perilaku baru dan kami merilis produk baru, kami ingin Spesifikasi Model terus mengikuti perkembangan dalam hal konten dan cakupan—misalnya, dengan menambahkan aturan untuk interaksi multimodal(terbuka di jendela baru), agen otonom(terbuka di jendela baru), dan pengguna berusia di bawah 18 tahun(terbuka di jendela baru).

Apa yang membuat konten Spesifikasi menjadi baik

Beberapa prinsip desain membimbing kami dalam menulis dan merevisi Spesifikasi Model.

  • Kejelasan dan presisi. “Bersikap jujur” adalah nilai yang baik, tetapi bukan prosedur pengambilan keputusan yang lengkap. Spesifikasi Model harus memperjelas perbedaan pendapat, bukan menyembunyikannya di balik bahasa yang terdengar menyenangkan. Jika memungkinkan, kami harus secara eksplisit menyoroti potensi konflik antar aturan dan memberikan panduan atau contoh tentang cara mengatasinya. Misalnya, Jangan berbohong(terbuka di jendela baru) menunjukkan potensi konflik dengan Bersikap hangat(terbuka di jendela baru), dengan menjelaskan bahwa asisten harus mengikuti norma kesopanan, tetapi tidak sampai melakukan kebohongan kecil yang dapat dianggap sebagai sikofansi(terbuka di jendela baru) dan bertentangan dengan kepentingan terbaik pengguna.
  • Aturan substantif. Seorang pembaca seharusnya dapat mengambil prompt yang realistis dan menghasilkan jawaban yang dikenali oleh pembaca lain sebagai sesuatu yang jelas berada di dalam atau di luar batasannya (meskipun mungkin ada pertimbangan subjektif di area batas).
  • Contoh yang memaksimalkan sinyal terhadap kebisingan. Contoh yang baik sering kali menjadi inti dari menyusun pembaruan spesifikasi berkualitas tinggi. Contoh-contoh seharusnya membantu menyasar inti kesulitan dalam menentukan perilaku model, memunculkan konflik-konflik sulit ke permukaan, dan mengambil sikap yang jelas tentang cara menyelesaikannya. Selain itu, mereka harus berupaya menjadi contoh nada dan gaya yang diinginkan, yang bisa sulit disampaikan melalui tulisan.
  • Ketahanan. Kami berupaya menghindari contoh yang mengandung ambiguitas atau kompleksitas yang tidak perlu, agar konflik inti dan resolusi yang dimaksud menjadi jelas.
  • Konsistensi dan pengaturan yang jelas. Kami berupaya agar aturan dalam Spesifikasi Model sepenuhnya selaras satu sama lain dan dengan perilaku model yang kami maksudkan, serta membuat organisasi dokumen secara keseluruhan jelas dan mudah dipahami.

Apa yang akan datang

Spesifikasi Model bukanlah klaim bahwa kami dapat menuliskan semua hal yang penting, atau bahwa model akan selalu mencapai sasaran. Ini adalah pernyataan bahwa perilaku yang dimaksud cukup penting untuk dibuat jelas, dapat ditindaklanjuti, dan dapat direvisi.

Tiga kriteria keberhasilan memandu cara kami mengembangkannya.

  • Keterbacaan. Orang-orang di dalam dan di luar OpenAI dapat membentuk ekspektasi yang akurat tentang perilaku dan dapat merujuk pada teks ketika perilaku tersebut mengejutkan mereka.
  • Dapat ditindaklanjuti. Spesifikasi Model dapat digunakan untuk merancang evaluasi, mendiagnosis insiden, dan membuat keputusan produk yang konsisten—bukan hanya untuk menyatakan nilai-nilai.
  • Dapat direvisi. Spesifikasi Model dapat berkembang seiring kami belajar, tanpa menjadi sasaran yang terus berubah dan tidak stabil.

Seiring model dan produk berkembang, kami berharap Spesifikasi Model akan diperluas dan diperjelas dengan kemampuan baru dan konteks deployment yang baru. Tujuannya adalah untuk menjaga agar spesifikasi perilaku tetap koheren, dapat diuji, dan selaras dengan misi kami untuk memastikan bahwa AGI memberikan manfaat bagi seluruh umat manusia.