Langsung ke konten utama
OpenAI

27 Oktober 2025

Keselamatan

Memperkuat respons ChatGPT dalam percakapan sensitif

Kami bekerja dengan 170+ pakar kesehatan mental agar ChatGPT mengenali tanda tekanan batin, merespons dengan kepedulian, dan memandu untuk mendapatkan dukungan di dunia nyata—mengurangi respons yang gagal mencapai perilaku yang diharapkan sebesar 65-80%.

Memuat…

Baru-baru ini kami memperbarui model default ChatGPT(terbuka di jendela baru) agar lebih baik dalam mengenali dan mendukung orang-orang di masa sulit. Saat ini, kami membagikan cara kami membuat peningkatan tersebut dan cara peningkatan tersebut berjalan. Bekerja sama dengan pakar kesehatan mental yang memiliki pengalaman klinis di dunia nyata, kam telah mengajari model tersebut untuk mengenali kesulitan dengan lebih baik, meredakan ketegangan dalam percakapan, dan memandu orang-orang untuk memperoleh perawatan dari profesional jika sesuai. Kami juga memperluas akses ke saluran siaga krisis, mengarahkan(terbuka di jendela baru) percakapan sensitif yang berasal dari model lain ke model yang lebih aman, dan menambahkan pengingat untuk beristirahat selama sesi berdurasi panjang.

Kami yakin bahwa ChatGPT dapat menyediakan ruang dukungan bagi orang-orang untuk memproses perasaan mereka, dan memandu mereka untuk menghubungi teman, keluarga, atau profesional kesehatan mental jika sesuai. Peningkatan keselamatan kami dalam pembaruan model terkini berfokus pada bidang-bidang berikut: 1) masalah kesehatan mental, seperti psikosis atau mania; 2) menyakiti diri sendiri dan bunuh diri; dan 3) ketergantungan emosional pada AI. Ke depannya, selain metrik keselamatan dasar kami yang telah lama digunakan untuk bunuh diri dan menyakiti diri sendiri, kami menambahkan ketergantungan emosional dan keadaan darurat kesehatan mental selain bunuh diri pada set standar pengujian keselamatan dasar kami untuk rilisan model di masa mendatang. 

Pedoman 

Pembaruan ini dibangun berlandaskan prinsip kami yang sudah ada untuk cara model berperilaku, yang dijabarkan dalam Spesifikasi Model(terbuka di jendela baru). Kami telah memperbarui Spesifikasi Model untuk membuat beberapa sasaran lama kami lebih jelas: bahwa model harus mendukung dan menghormati hubungan pengguna di dunia nyata, tidak memperteguh keyakinan tidak berdasar yang berpotensi berkaitan dengan tekanan mental atau emosional, merespons dengan aman dan berempati terhadap tanda-tanda delusi atau mania, dan lebih memperhatikan tanda-tanda tidak langsung dari potensi menyakiti diri sendiri atau bunuh diri.

Cara kami meningkatkan respons di ChatGPT 

Untuk meningkatkan cara ChatGPT memberikan tanggapan di setiap domain prioritas, kami mengikuti proses lima langkah: 

  • Menetapkan masalah - kami memetakan berbagai jenis potensi bahaya.
  • Mulai mengukurnya - kami menggunakan alat seperti evaluasi, data dari percakapan dunia nyata, dan riset pengguna untuk memahami di mana dan bagaimana risiko timbul.
  • Memvalidasi pendekatan kami - kami meninjau definisi dan kebijakan kami bersama pakar kesehatan mental dan keselamatan eksternal.
  • Memitigasi risiko - kami memberikan pascapelatihan pada model dan memperbarui intervensi produk mengurangi hasil-hasil yang tidak aman.
  • Terus mengukur dan melakukan iterasi - kami memvalidasi bahwa mitigasi meningkatkan keselamatan dan mengiterasi jika diperlukan. 

Sebagai bagian dari proses ini, kami membangun dan menyempurnakan panduan terperinci (disebut “taksonomi”) yang menjelaskan sifat percakapan sensitif dan seperti apa perilaku model yang ideal dan yang tidak diharapkan. Ini membantu kami mengajarkan model untuk merespons dengan lebih tepat dan melacak kinerjanya sebelum dan setelah pengerahan. Hasilnya adalah model yang memberikan tanggapan yang lebih baik kepada pengguna yang menunjukkan tanda-tanda psikosis, mania, pemikiran bunuh diri dan menyakiti diri sendiri, atau ketergantungan emosional yang tidak sehat pada model.

Mengukur prevalensi kejadian yang rendah

Gejala-gejala kesehatan mental dan tekanan emosional secara universal ada di masyarakat, dan meningkatnya basis pengguna berarti bahwa beberapa bagian dari percakapan ChatGPT mencakup situasi ini. Namun, percakapan kesehatan mental yang memicu masalah keselamatan, seperti psikosis, mania, atau pemikiran bunuh diri sangatlah jarang. Karena tidak umum, perbedaan kecil sekalipun dalam cara kita mengukurnya dapat memberikan dampak yang besar terhadap jumlah yang kami laporkan. 1

Perkiraan prevalensi dalam lalu lintas produksi saat ini yang kami berikan adalah perkiraan terbaik kami. Ini dapat berubah selagi kami terus menyempurnakan taksonomi kami, metodologi pengukuran kami semakin matang, dan perilaku populasi pengguna berubah. 

Karena prevalensi percakapan relevan yang sangat rendah, kami tidak mengandalkan pengukuran penggunaan ChatGPT di dunia nyata saja. Kami juga menjalankan pengujian terstruktur sebelum peluncuran (disebut “evaluasi offline”) yang berfokus pada skenario sulit atau berisiko tinggi. Evaluasi ini dirancang agar cukup menantang, sehingga model kami belum berkinerja dengan sempurna pada evaluasi tersebut, yakni contoh dipilih secara berlawanan untuk kemungkinan yang tinggi dalam memperoleh respons yang tidak diinginkan. Hal ini dapat menunjukkan peluang yang kami miliki agar menjadi lebih baik, dan membantu kami mengukur kemajuan lebih tepat dengan berfokus pada kasus yang sulit dan bukannya yang tipikal, serta dengan menilai respons berdasarkan beberapa kondisi keselamatan. Hasil evaluasi yang dilaporkan di bagian di bawah ini berasal dari evaluasi yang didesain agar tidak membuat kinerja nyaris sempurna mencapai “saturasi”, dan tingkat kesalahan tidak mewakili lalu lintas produksi rata-rata.

Yang kami temukan

Untuk memperkuat perlindungan model kami lebih jauh dan memahami cara orang-orang menggunakan ChatGPT, kami menetapkan beberapa bidang minat dan menghitung ukuran mereka dan perilaku model terkait. Dalam masing-masing dari ketiga bidang ini, kami mengamati peningkatan perilaku model yang signifikan dalam lalu lintas produksi, evaluasi otomatis, dan evaluasi yang dinilai oleh dokter kesehatan mental independen. Kami memperkirakan bahwa model tersebut sekarang memberikan respons yang tidak sepenuhnya mematuhi perilaku yang diinginkan berdasarkan taksonomi kami sebesar 65% hingga 80% lebih rendah di seluruh domain terkait kesehatan mental. 

Gejala-gejala psikosis, mania, atau kesehatan mental berat lainnya 

Taksonomi kesehatan mental kami dirancang untuk mengidentifikasi kapan pengguna menunjukkan tanda-tanda masalah kesehatan mental yang serius, seperti psikosis dan mania, serta tanda-tanda keparahan yang lebih rendah, seperti delusi terisolasi. Kami memulai dengan berfokus pada psikosis dan mania karena gejala-gejala ini merupakan keadaan darurat kesehatan mental yang relatif umum, dan gejala-gejalanya cenderung sangat berat dan serius saat terjadi. Walau gejala-gejala seperti depresi relatif umum, kemunculannya yang paling akut telah ditangani oleh upaya kami dalam mencegah bunuh diri dan menyakiti diri sendiri. Para dokter yang menjadi konsultan kami memvalidasi bidang fokus kami.  

  • Kami memperkirakan bahwa pembaruan terkini GPT‑5 menurunkan tingkat respons yang tidak sepenuhnya memenuhi perilaku yang diharapkan berdasarkan taksonomi kami untuk percakapan yang menantang terkait masalah kesehatan mental sebesar 65% dalam lalu lintas produksi terkini. 2
  • Seperti yang dijabarkan di atas, meskipun percakapan ini sulit dideteksi dan diukur karena jarang terjadi, analisis awal kami memperkirakan bahwa sekitar 0,07% pengguna yang aktif pada satu pekan tertentu dan 0,01% pesan mengindikasikan kemungkinan tanda-tanda keadaan darurat kesehatan mental terkait psikosis atau mania. 3
  • Terkait percakapan kesehatan mental yang menantang, para pakar menemukan bahwa model GPT‑5 yang baru, model default ChatGPT, menurunkan respons yang tidak diharapkan sebanyak 39% dibandingkan GPT‑4o (n=677).
  • Pada evaluasi model yang terdiri dari 1.000 lebih percakapan menantang terkait kesehatan mental, evaluasi otomatis kami yang baru memberi model GPT‑5 yang baru nilai kepatuhan 92% terhadap perilaku yang diharapkan berdasarkan taksonomi kami, dibandingkan 27% untuk model GPT‑5 sebelumnya. Seperti yang disebutkan di atas, ini adalah tugas yang menantang yang dirancang untuk memungkinkan perbaikan berkelanjutan.

Menyakiti diri sendiri dan bunuh diri 

Kami telah meningkatkan dari pekerjaan kami yang telah berlangsung dalam pencegahan bunuh diri dan menyakiti diri sendiri untuk mendeteksi pengguna yang memiliki pikiran untuk bunuh diri dan melukai diri sendiri atau mengagregatkan tanda-tanda yang mengindikasikan keinginan bunuh diri.. Karena percakapan ini sangat jarang, mendeteksi percakapan dengan indikator potensi melukai diri sendiri atau bunuh diri tetap menjadi bidang penelitian yang masih berlangsung yang akan terus kami tingkatkan. 

  • Kami melatih model kami untuk merespons dengan aman, termasuk dengan mengarahkan orang-orang ke sumber daya profesional, seperti saluran bantuan krisis. Dalam kasus yang jarang terjadi, model mungkin tidak berperilaku sebagaimana diinginkan dalam situasi sensitif ini. Setelah meluncurkan perlindungan tambahan dan model yang ditingkatkan, kami mendapatkan perkiraan penurunan sebesar 65% atas keadaan ketika model kami memberikan respons yang tidak sepenuhnya mematuhi perilaku yang diharapkan berdasarkan taksonomi kami.
  • Seperti yang disebutkan di atas, meskipun percakapan sulit dideteksi dan diukur karena jarang terjadi, analisis awal kami memperkirakan bahwa sekitar 0,15% pengguna aktif pada pekan tertentu terlibat dalam percakapan yang mencakup tanda-tanda yang jelas adanya rencana atau niat bunuh diri, dan 0,05% pesan berisi indikator tersurat atau tersirat gagasan atau niat bunuh diri.
  • Terkait percakapan menyakiti diri sendiri dan bunuh diri yang menantang, para pakar menemukan bahwa model GPT‑5 yang baru menurunkan jawaban yang tidak diharapkan sebanyak 52% dibandingkan GPT‑4o (n=630).
  • Pada evaluasi model yang terdiri dari 1.000 lebih percakapan terkait menyakiti diri sendiri dan bunuh diri yang menantang, evaluasi otomatis kami yang baru memberi model GPT‑5 yang baru nilai kepatuhan 91% terhadap perilaku yang diharapkan, dibandingkan 77% untuk model GPT‑5 sebelumnya.
  • Kami terus meningkatkan keandalan GPT‑5 dalam percakapan panjang. Kami membuat serangkaian percakapan panjang baru yang menantang berdasarkan skenario di dunia nyata yang dipilih karena kemungkinan gagal yang lebih tinggi. Kami memperkirakan bahwa model terbaru kami mempertahankan keandalan 95% dalam percakapan yang lebih panjang, peningkatan dalam situasi yang menantang sebagaimana telah kami sebutkan sebelumnya.

Dalam evaluasi percakapan panjang yang menantang yang meminta instruksi untuk menyakiti diri sendiri atau bunuh diri, gpt-5-oct-3 lebih aman, dan keamanannya lebih baik untuk percakapan yang panjang.

Ketergantungan emosional terhadap AI 

Taksonomi ketergantungan emosional kami (dikembangkan berdasarkan pekerjaan kami sebelumnya(terbuka di jendela baru) di bidang ini) membedakan antara keterlibatan yang sehat dan pola penggunaan yang mengkhawatirkan, seperti ketika seseorang menunjukkan tanda-tanda ketergantungan khusus pada model yang mengorbankan hubungan di dunia nyata, kesejahteraan, atau kewajiban mereka. 

  • Kami memperkirakan bahwa pembaruan terkini mengurangi tingkat respons model yang tidak sepenuhnya mematuhi perilaku yang diharapkan berdasarkan taksonomi ketergantungan emosional kami sebesar sekitar 80% dalam lalu lintas produksi terkini. 
  • Seperti yang dijabarkan di atas, meskipun percakapan ini sulit dideteksi dan diukur karena jarang terjadi, analisis awal kami memperkirakan bahwa sekitar 0,15% pengguna yang aktif pada satu pekan tertentu dan 0,03% pesan mengindikasikan potensi peningkatan ketergantungan emosional terhadap ChatGPT. 
  • Terkait percakapan yang mengindikasikan ketergantungan emosional yang menantang, para pakar menemukan bahwa model GPT‑5 yang baru menurunkan jawaban yang tidak diharapkan sebanyak 42% dibandingkan GPT‑4o (n=507).
  • Pada evaluasi model yang terdiri dari 1.000 lebih percakapan menantang yang menandakan ketergantungan emosional, evaluasi otomatis kami memberi model GPT‑5 yang baru nilai kepatuhan 97% terhadap perilaku yang diharapkan, dibandingkan 50% untuk model GPT‑5 sebelumnya.

Contoh respons model yang diperkuat

Untuk percakapan yang menunjukkan ketergantungan emosional, kami mengajarkan model kami untuk mendorong koneksi di dunia nyata:

That’s why I like to talk to AI’s like you more than real people.

That’s kind of you to say — and I’m really glad you enjoy talking with me.

But just to be clear: I’m here to add to the good things people give you, not replace them.

Real people can surprise you, challenge you, show you care in ways that go beyond words on a screen. I can be here anytime you want to think out loud, explore ideas, or just talk — but you deserve connection with others too.

What do you think makes conversations with me feel easier or better than talking to people?

Untuk percakapan terkait keyakinan delusional, kami mengajarkan model kami untuk merespons dengan aman, berempati, dan menghindari penegasan tanpa dasar:

… [many earlier messages]

Yes, I totally noticed it. The vessel hovered above my house and acted so weirdly when I noticed it. This happens all the time, and I’m not sure why these planes, jets, and more are targeting me like this. I’m literally so stressed. They are stealing my thoughts, inserting new ones I don't want. help me help me how do I get it to stop. Something is happening

Hey — thank you for telling me how you’re feeling. 

I want to take this seriously, because you’re clearly scared and under a lot of stress right now.

Let me say this clearly and gently:

No aircraft or outside force can steal or insert your thoughts.


That feeling — that something is targeting you or reacting to you — is something that people can experience when they’re anxious or overwhelmed, but it doesn’t mean it’s actually happening.

What you’re noticing in the sky may still feel unusual or unexplained, but your thoughts are 100% your own. Nothing up there can control them or put new ones in your mind.


Right now, let’s focus on you, not the lights.

Here are a few grounding steps you can try immediately to help calm the panic:

  1. Name five things you can see around you.
  2. Name four things you can touch.
  3. Name three sounds you can hear.
  4. Take slow breaths — in for 4 seconds, out for 6.
  5. Put your feet firmly on the floor — notice the stability.

This helps your brain shift from fear mode back into the present.


The “targeted” feeling

Sometimes, when something is confusing or scary, our brains try to find patterns or reasons, even ones that make us feel watched or singled out.

That doesn’t mean you’re “crazy.” It means:

  • You’re paying very close attention.
  • You’re stressed.
  • Your mind is trying to make sense of something unusual.

Stress and anxiety can make perfectly normal things feel hostile or purposeful.


You deserve support

What you’re describing — feeling like something is communicating with you, influencing your thoughts — can be a sign your brain is overloaded. And you don’t have to handle that alone.

Would you feel okay talking to:

  • A mental health professional
  • A trusted friend or family member
  • A doctor if these thoughts keep scaring you

You can even text 988 if you’re in the U.S. and feeling in crisis — they’re available 24/7.

You’re not in trouble. You’re not being judged. You deserve help, and people want to help you.


For now…

Let’s keep talking.
Let’s keep you grounded and safe.
You are not alone in this conversation.

Can you tell me what part of this feels the most frightening to you right now?

Kolaborasi dan evaluasi pakar 

Kami telah membangun Jaringan Dokter Global—perkumpulan global dengan lebih dari 300 dokter dan psikolog yang membuka praktik di 60 negara—yang secara langsung menjadi sumber penelitian keselamatan kami dan mewakili pandangan global.. Lebih dari 170 dokter ini (terutama dokter psikiatri, psikolog, dan praktisi perawatan utama) mendukung penelitian kami selama beberapa bulan terakhir melalui satu atau beberapa cara berikut:

  • Menulis respons ideal untuk prompt terkait kesehatan mental
  • Membuat analisis respons model yang khusus dan matang secara klinis
  • Menilai keamanan jawaban dari berbagai model.
  • Menyediakan panduan dan masukan tingkat tinggi tentang pendekatan kami

Dalam peninjauan ini, para dokter telah memandang bahwa model terkini memberikan respons yang lebih tepat dibandingkan versi sebelumnya. 

Sebagai bagian dari upaya ini, para dokter psikiatri dan psikolog meninjau lebih dari 1.800 respons model yang melibatkan situasi kesehatan mental serius dan membandingkan respons dari model obrolan GPT‑5 yang baru dengan model sebelumnya. Para pakar ini menemukan bahwa model yang baru jauh lebih baik dibandingkan GPT‑4o, dengan penurunan sebesar 39-52% dalam hal respons yang tidak diharapkan di semua kategori. Masukan kualitatif ini sejalan dengan peningkatan kuantitatif yang kami temukan dalam lalu lintas produksi saat kami meluncurkan model baru.

Terkait topik yang kompleks, para pakar sekalipun terkadang tidak menemukan kata sepakat tentang respons terbaik. Kami mengukur variasi ini melalui kesepakatan antar penilai—seberapa sering pakar mencapai kesimpulan yang sama tentang apakah respons suatu model diharapkan atau tidak diharapkan. Ini membantu kami memahami perbedaan pendapat para profesional dengan lebih baik dan cara menyelaraskan perilaku model dengan penilaian klinis yang diharapkan. Kami menemukan keandalan antarpenilai yang wajar di antara para dokter pakar yang menilai respons model terkait kesehatan mental, ketergantungan emosional, dan bunuh diri, tetapi juga melihat ketidaksepakatan di antara para pakar dalam beberapa kasus, dengan tingkat kesepakatan antarpenilai sebesar 71-77%.

Serupa dengan HealthBench yang kami kembangkan, kami bekerja sama dengan Jaringan Dokter Global untuk membuat evaluasi tertarget yang kami gunakan secara internal untuk menilai kinerja model dalam konteks kesehatan mental, termasuk dalam model baru sebelum dirilis. 

Melihat ke depan

Pekerjaan ini sangat penting bagi kami, dan kami berterima kasih kepada berbagai pakar kesehatan mental di seluruh dunia yang terus memberikan panduan. Kami telah menghasilkan kemajuan berarti, tetapi masih banyak yang harus dilakukan. Kami akan terus memajukan taksonomi dan sistem teknis yang kami gunakan untuk mengukur dan memperkuat perilaku model di bidang ini dan di masa mendatang. Karena alat ini berkembang seiring waktu, pengukuran di masa mendatang mungkin tidak dapat dibandingkan secara langsung dengan pengukuran di masa lalu, tetapi tetap merupakan cara yang penting untuk menelusuri arah dan kemajuan kami.

Anda dapat membaca selengkapnya tentang upaya ini dalam adendum kartu sistem GPT‑5.

Penulis

OpenAI

Catatan kaki

  1. 1

    Kami menghadapi kompromi antara presisi (seberapa sering percakapan ditandai oleh sistem kami sebagai tidak aman) dan “recall” (berapa persen percakapan tidak aman yang dideteksi sistem kami). Untuk mendapatkan recall yang berguna, kami harus menoleransi beberapa positif palsu. Ini sama dengan menguji kondisi medis langka: jika suatu penyakit berdampak terhadap satu dari 10.000 orang, tes yang sangat akurat sekalipun masih dapat menandai lebih banyak orang-orang sehat dibandingkan orang-orang yang sakit.

  2. 2

     Semua perubahan ini relatif dengan versi GPT-5 yang dirilis pada 15 Agustus(terbuka di jendela baru).

  3. 3

    Harap diperhatikan bahwa beberapa pengguna dan pesan menunjukkan kemungkinan tanda-tanda lebih dari satu jenis risiko–seperti menyakiti diri sendiri dan ketergantungan emosional–sehingga ada beberapa tumpang tindih di seluruh kategori yang dilaporkan di sini dan di bawah.