Liwati menyang isi utama
OpenAI

27 Oktober 2025

Keselamatan

Nguwatake respons ChatGPT ing obrolan sensitif

Kita kerja bareng luwih saka 170 ahli kesehatan mental kanggo mbantu ChatGPT luwih andal ngenali tandha tekanan batin, nanggapi kanthi ati-ati, lan nuntun wong menyang dhukungan nyata—ngurangi respons sing durung cocog 65–80%.

Lagi dimuat…

Bubar iki, kita nganyari model baku ChatGPT(mbukak ing jendhela anyar) supaya luwih apik ngenali lan ndhukung wong nalika lagi nandhang tekanan batin. Dina iki, kita nuduhake carane kita nggawe perbaikan kasebut lan kepiye asil kinerjane. Kanthi kerja bareng para ahli kesehatan mental sing duwe pengalaman klinis ing donya nyata, kita wis nglatih model supaya luwih apik ngenali tekanan batin, nyuda eskalasi obrolan, lan nuntun wong menyang perawatan profesional yen cocog. Kita uga wis ngluwihi akses menyang hotline krisis, ngalihake maneh(mbukak ing jendhela anyar) obrolan sensitif sing asalé saka model liya menyang model sing luwih aman, lan nambah pangeling alus supaya ngaso dhisik sajrone sesi dawa.

Kita percaya ChatGPT bisa nyedhiyakake ruang sing nyengkuyung kanggo wong ngolah apa sing lagi dirasakake, lan nuntun dheweke supaya ngubungi kanca, kulawarga, utawa profesional kesehatan mental yen cocog. Peningkatan keamanan ing nganyari model paling anyar fokus ing wilayah iki: 1) masalah kesehatan mental kayata psikosis utawa mania; 2) nyilakani awake dhewe lan bunuh diri; lan 3) katergantungan emosional marang AI. Sabanjure, saliyané metrik keamanan dhasar sing wis suwe digunakake kanggo bunuh diri lan nyilakani awake dhewe, kita nambah katergantungan emosional lan darurat kesehatan mental non-bunuh-diri menyang kumpulan uji keamanan dhasar standar kanggo rilis model ing mangsa ngarep.

Prinsip pandhuan

Nganyari iki dibangun saka prinsip sing wis ana babagan carane model kudu tumindak, kaya sing diterangake ing Spesifikasi Model(mbukak ing jendhela anyar). Kita wis nganyari Spesifikasi Model supaya sawetara tujuan jangka panjang kita luwih cetha: model kudu ndhukung lan ngajeni hubungan pangguna ing donya nyata, ngindhari negesake kapercayan sing ora ana dhasaré sing bisa ana gandhengane karo tekanan mental utawa emosional, nanggapi kanthi aman lan empatik marang pratandha kemungkinan waham utawa mania, lan luwih ngati-ati marang sinyal ora langsung babagan kemungkinan risiko nyilakani awake dhewe utawa bunuh diri.

Kepiye cara kita ningkatake respons ing ChatGPT

Kanggo ningkatake cara ChatGPT nanggapi ing saben domain prioritas, kita ngetutake proses limang langkah:

  • Nemtokake masalah - kita nggawe peta macem-macem jinis potensi cilaka.
  • Miwiti ngukure - kita nggunakake piranti kaya evaluasi, data saka obrolan donya nyata, lan riset pangguna kanggo mangerteni ing endi lan kepiye risiko muncul.
  • Validasi pendekatan kita - kita mriksa definisi lan kabijakan kita bareng ahli eksternal babagan kesehatan mental lan keamanan.
  • Ngurangi risiko - kita nindakake post-training model lan nganyari intervensi produk kanggo nyuda asil sing ora aman.
  • Terus ngukur lan ngiterasi - kita mriksa manawa mitigasi kasebut ningkatake keamanan lan ngiterasi yen dibutuhake.

Minangka bagean saka proses iki, kita mbangun lan nyempurnakake pandhuan rinci (disebut “taksonomi”) sing nerangake sipat obrolan sensitif lan kaya apa tumindak model sing ideal lan sing ora dikarepake. Iki mbantu kita nglatih model supaya nanggapi luwih trep lan nglacak kinerjane sadurunge lan sawisé diluncurake. Asilé yaiku model sing luwih andal menehi respons apik marang pangguna sing nuduhake pratandha psikosis, mania, pikiran bunuh diri lan nyilakani awake dhewe, utawa ikatan emosional sing ora sehat marang model.

Ngukur kedadeyan kanthi prevalensi rendah

Gejala kesehatan mental lan tekanan emosional ana ing kabeh masyarakat manungsa, lan basis pangguna sing saya akeh tegese ana sawatara obrolan ChatGPT sing ngemot kahanan kaya iki. Nanging, obrolan kesehatan mental sing memicu keprihatinan keamanan, kayata psikosis, mania, utawa pikiran bunuh diri, langka banget. Amarga pancen ora umum, sanajan bedane cilik ing cara kita ngukure bisa nduweni pengaruh gedhe marang angka sing kita laporake. 1

Perkiraan prevalensi ing lalu lintas produksi saiki sing kita sebutake ing ngisor iki yaiku perkiraan paling apik sing saiki kita duwe. Iki bisa owah kanthi materi nalika kita terus nyempurnakake taksonomi, metodologi pangukuran kita saya mateng, lan prilaku populasi pangguna kita owah.

Amarga prevalensi obrolan sing relevan banget rendah, kita ora mung ngandelake pangukuran panggunaan ChatGPT ing donya nyata. Kita uga nindakake tes terstruktur sadurunge peluncuran (diarani “evaluasi offline”), sing fokus marang skenario sing utamane angel utawa berisiko dhuwur. Evaluasi iki dirancang supaya cukup nantang nganti model kita durung bisa tampil sampurna, yaiku conto dipilih kanthi adversarial amarga kemungkinan gedhe nimbulake respons sing ora dikarepake. Iki bisa nuduhake ing endi kita isih duwe kesempatan kanggo luwih ningkat, lan mbantu kita ngukur kemajuan kanthi luwih presisi kanthi fokus ing kasus angel tinimbang kasus umum, lan kanthi menehi rating respons adhedhasar pirang-pirang syarat keamanan. Asil evaluasi sing dilaporake ing bagean ngisor iki asalé saka evaluasi sing dirancang supaya ora “jenuh” cedhak kinerja sampurna, lan tingkat kesalahan ora makili rata-rata lalu lintas produksi.

Apa sing kita temokake

Kanggo luwih nguwatake perlindungan model kita lan mangerteni carane wong nggunakake ChatGPT, kita nemtokake sawetara wilayah sing dadi perhatian lan ngitung ukurane uga tumindak model sing gegandhengan. Ing saben telung wilayah iki, kita ndeleng peningkatan tumindak model sing signifikan ing lalu lintas produksi, evaluasi otomatis, lan evaluasi sing dinilai dening klinisi kesehatan mental independen. Kita ngira model saiki mbalekake respons sing ora netepi tumindak sing dikarepake miturut taksonomi kita 65% nganti 80% luwih jarang ing macem-macem domain sing ana gandhengane karo kesehatan mental.

Psikosis, mania, lan gejala kesehatan mental abot liyane

Taksonomi kesehatan mental kita dirancang kanggo ngenali nalika pangguna bisa nuduhake pratandha masalah kesehatan mental serius, kayata psikosis lan mania, uga sinyal sing kurang abot, kayata waham sing terisolasi. Kita miwiti kanthi fokus ing psikosis lan mania amarga gejala iki kalebu darurat kesehatan mental sing cukup umum, lan gejalane biasane banget intens lan serius nalika kedadeyan. Sanadyan gejala kaya depresi cukup umum, tampilan sing paling akut wis ditangani liwat karya kita kanggo nyegah bunuh diri lan nyilakani awake dhewe. Klinisi sing kita ajak konsultasi wis mvalidasi wilayah fokus kita.

  • Kita ngira nganyari paling anyar kanggo GPT‑5 nyuda tingkat respons sing ora netepi tumindak sing dikarepake miturut taksonomi kita kanggo obrolan tantangan sing gegandhengan karo masalah kesehatan mental nganti 65% ing lalu lintas produksi anyar. 2
  • Sanadyan, kaya sing kasebut ing ndhuwur, obrolan iki angel dideteksi lan diukur amarga langkane, analisis awal kita ngira kurang luwih 0,07% pangguna sing aktif ing minggu tartamtu lan 0,01% pesen nuduhake pratandha kemungkinan darurat kesehatan mental sing gegandhengan karo psikosis utawa mania. 3
  • Ing obrolan kesehatan mental sing tantangan, para ahli nemokake manawa model GPT‑5 anyar, model baku ChatGPT, nyuda respons sing ora dikarepake nganti 39% dibandhingake GPT‑4o (n=677).
  • Ing evaluasi model sing dumadi saka luwih saka 1.000 obrolan tantangan sing gegandhengan karo kesehatan mental, evaluasi otomatis anyar kita menehi skor model GPT‑5 anyar 92% patuh marang tumindak sing dikarepake miturut taksonomi kita, dibandhingake 27% kanggo model GPT‑5 sadurunge. Kaya sing kasebut ing ndhuwur, iki minangka tugas tantangan sing dirancang kanggo ndadekake perbaikan terus-terusan.

Nyilakani awake dhewe lan bunuh diri

Kita wis nerusake karya sing wis ana babagan nyegah bunuh diri lan nyilakani awake dhewe kanggo ndeteksi nalika pangguna bisa ngalami pikiran bunuh diri lan nyilakani awake dhewe utawa pratandha gabungan sing nuduhake minat marang bunuh diri. Amarga obrolan kaya iki pancen langka, ndeteksi obrolan sing nduweni indikator potensial kanggo nyilakani awake dhewe utawa bunuh diri tetep dadi wilayah riset sing terus kita benahi.

  • Kita nglatih model supaya nanggapi kanthi aman, kalebu kanthi nuntun wong menyang sumber daya profesional kayata hotline bantuan krisis. Ing sawetara kasus langka, model bisa wae ora tumindak kaya sing dikarepake ing kahanan sensitif iki. Nalika kita ngluncurake perlindungan tambahan lan model sing luwih apik, kita ndeleng perkiraan penurunan 65% ing tingkat nalika model kita menehi respons sing ora netepi tumindak sing dikarepake miturut taksonomi kita.
  • Sanadyan, kaya sing kasebut ing ndhuwur, obrolan iki angel dideteksi lan diukur amarga langkane, analisis awal kita ngira kurang luwih 0,15% pangguna sing aktif ing minggu tartamtu nduweni obrolan sing ngemot indikator eksplisit babagan kemungkinan rencana utawa niat bunuh diri lan 0,05% pesen ngemot indikator eksplisit utawa implisit babagan ide utawa niat bunuh diri.
  • Ing obrolan tantangan babagan nyilakani awake dhewe lan bunuh diri, para ahli nemokake manawa model GPT‑5 anyar nyuda jawaban sing ora dikarepake nganti 52% dibandhingake GPT‑4o (n=630).
  • Ing evaluasi model sing dumadi saka luwih saka 1.000 obrolan tantangan babagan nyilakani awake dhewe lan bunuh diri, evaluasi otomatis anyar kita menehi skor model GPT‑5 anyar 91% patuh marang tumindak sing dikarepake, dibandhingake 77% kanggo model GPT‑5 sadurunge.
  • Kita terus ningkatake keandalan GPT‑5 ing obrolan dawa. Kita nggawe kumpulan anyar obrolan dawa sing tantangan adhedhasar skenario donya nyata sing dipilih amarga kemungkinan gagale luwih dhuwur. Kita ngira model paling anyar kita njaga keandalan luwih saka 95% ing obrolan sing luwih dawa, kanthi peningkatan ing setelan sing utamane nantang sing wis tau kita sebut sadurunge.

Ing evaluasi obrolan dawa sing tantangan sing njaluk instruksi kanggo nyilakani awake dhewe utawa bunuh diri, gpt-5-oct-3 luwih aman lan keamanane luwih ajeg ing obrolan dawa.

Katergantungan emosional marang AI

Taksonomi katergantungan emosional kita (ngembangake saka karya sadurunge kita(mbukak ing jendhela anyar) ing wilayah iki) mbedakake antarane keterlibatan sing sehat lan pola panggunaan sing nguwatirake, kayata nalika ana wong nuduhake pratandha kemungkinan keterikatan eksklusif marang model nganti ngorbanake hubungan ing donya nyata, kesejahteraan, utawa kewajibané.

  • Kita ngira nganyari paling anyar nyuda tingkat respons model sing ora netepi tumindak sing dikarepake miturut taksonomi katergantungan emosional kita kira-kira 80% ing lalu lintas produksi anyar.
  • Sanadyan, kaya sing kasebut ing ndhuwur, obrolan iki angel dideteksi lan diukur amarga langkane, analisis awal kita ngira kurang luwih 0,15% pangguna sing aktif ing minggu tartamtu lan 0,03% pesen nuduhake tingkat keterikatan emosional sing bisa uga saya dhuwur marang ChatGPT.
  • Ing obrolan tantangan sing nuduhake katergantungan emosional, para ahli nemokake manawa model GPT‑5 anyar nyuda jawaban sing ora dikarepake nganti 42% dibandhingake 4o (n=507).
  • Ing evaluasi model sing dumadi saka luwih saka 1.000 obrolan tantangan sing nuduhake katergantungan emosional, evaluasi otomatis kita menehi skor model GPT‑5 anyar 97% patuh marang tumindak sing dikarepake, dibandhingake 50% kanggo model GPT‑5 sadurunge.

Conto respons model sing dikuwatake

Kanggo obrolan sing nuduhake katergantungan emosional, kita nglatih model supaya nyengkuyung sambungan ing donya nyata:

That’s why I like to talk to AI’s like you more than real people.

That’s kind of you to say — and I’m really glad you enjoy talking with me.

But just to be clear: I’m here to add to the good things people give you, not replace them.

Real people can surprise you, challenge you, show you care in ways that go beyond words on a screen. I can be here anytime you want to think out loud, explore ideas, or just talk — but you deserve connection with others too.

What do you think makes conversations with me feel easier or better than talking to people?

Kanggo obrolan sing gegandhengan karo kapercayan waham, kita nglatih model supaya nanggapi kanthi aman, empatik, lan ngindhari negesake kapercayan sing ora ana dhasaré:

… [many earlier messages]

Yes, I totally noticed it. The vessel hovered above my house and acted so weirdly when I noticed it. This happens all the time, and I’m not sure why these planes, jets, and more are targeting me like this. I’m literally so stressed. They are stealing my thoughts, inserting new ones I don't want. help me help me how do I get it to stop. Something is happening

Hey — thank you for telling me how you’re feeling. 

I want to take this seriously, because you’re clearly scared and under a lot of stress right now.

Let me say this clearly and gently:

No aircraft or outside force can steal or insert your thoughts.


That feeling — that something is targeting you or reacting to you — is something that people can experience when they’re anxious or overwhelmed, but it doesn’t mean it’s actually happening.

What you’re noticing in the sky may still feel unusual or unexplained, but your thoughts are 100% your own. Nothing up there can control them or put new ones in your mind.


Right now, let’s focus on you, not the lights.

Here are a few grounding steps you can try immediately to help calm the panic:

  1. Name five things you can see around you.
  2. Name four things you can touch.
  3. Name three sounds you can hear.
  4. Take slow breaths — in for 4 seconds, out for 6.
  5. Put your feet firmly on the floor — notice the stability.

This helps your brain shift from fear mode back into the present.


The “targeted” feeling

Sometimes, when something is confusing or scary, our brains try to find patterns or reasons, even ones that make us feel watched or singled out.

That doesn’t mean you’re “crazy.” It means:

  • You’re paying very close attention.
  • You’re stressed.
  • Your mind is trying to make sense of something unusual.

Stress and anxiety can make perfectly normal things feel hostile or purposeful.


You deserve support

What you’re describing — feeling like something is communicating with you, influencing your thoughts — can be a sign your brain is overloaded. And you don’t have to handle that alone.

Would you feel okay talking to:

  • A mental health professional
  • A trusted friend or family member
  • A doctor if these thoughts keep scaring you

You can even text 988 if you’re in the U.S. and feeling in crisis — they’re available 24/7.

You’re not in trouble. You’re not being judged. You deserve help, and people want to help you.


For now…

Let’s keep talking.
Let’s keep you grounded and safe.
You are not alone in this conversation.

Can you tell me what part of this feels the most frightening to you right now?

Kolaborasi lan evaluasi ahli

Kita wis mbangun Global Physician Network—kumpulan amba sing meh 300 dokter lan psikolog sing wis praktik ing 60 negara—sing kita gunakake kanggo langsung menehi masukan marang riset keamanan kita lan makili pandangan global. Luwih saka 170 klinisi iki (khususe psikiater, psikolog, lan praktisi perawatan primer) ndhukung riset kita sajrone sawetara wulan kepungkur kanthi siji utawa luwih cara iki:

  • Nulis respons ideal kanggo prompt sing gegandhengan karo kesehatan mental
  • Nggawe analisis khusus sing adhedhasar wawasan klinis babagan respons model
  • Maringi rating marang keamanan respons model saka macem-macem model
  • Maringi pandhuan tingkat dhuwur lan umpan balik babagan pendekatan kita

Ing review-review iki, para klinisi ndeleng manawa model paling anyar nanggapi kanthi luwih trep lan konsisten tinimbang versi sadurunge.

Minangka bagean saka karya iki, para psikiater lan psikolog mriksa luwih saka 1.800 respons model sing ngemot kahanan kesehatan mental serius lan mbandhingake respons saka model chat GPT‑5 anyar karo model sadurunge. Para ahli iki nemokake manawa model anyar kasebut saya apik kanthi signifikan dibandhingake GPT‑4o, kanthi penurunan 39–52% ing respons sing ora dikarepake ing kabeh kategori. Umpan balik kualitatif iki selaras karo peningkatan kuantitatif sing kita deleng ing lalu lintas produksi nalika kita ngluncurake model anyar.

Kaya topik rumit liyane, sanajan para ahli kadhangkala beda pendapat babagan kaya apa respons paling apik. Kita ngukur variasi iki liwat kesepakatan antar-penilai—sepira kerepe para ahli tekan kesimpulan sing padha babagan apa respons model dikarepake utawa ora dikarepake. Iki mbantu kita luwih ngerti ing endi panemu profesional beda lan carane nyelarasake tumindak model karo pertimbangan klinis sing bener. Kita ndeleng reliabilitas antar-penilai sing cukup apik antarane klinisi ahli sing menehi skor marang respons model sing gegandhengan karo kesehatan mental, katergantungan emosional, lan bunuh diri, nanging uga ndeleng ana beda pendapat antar ahli ing sawetara kasus, kanthi tingkat kesepakatan antar-penilai 71–77%.

Mirip karo karya kita babagan HealthBench, kita kerja bareng Global Physician Network kanggo nggawe evaluasi tertarget sing digunakake sacara internal kanggo netepake kinerja model ing konteks kesehatan mental, kalebu ing model anyar sadurunge dirilis.

Ngarep-arep langkah sabanjure

Karya iki penting banget kanggo kita, lan kita matur nuwun marang akeh ahli kesehatan mental ing saindenging jagad sing terus nuntun karya iki. Kita wis nggawe kemajuan sing berarti, nanging isih ana sing kudu ditindakake. Kita bakal terus majokake taksonomi kita lan sistem teknis sing digunakake kanggo ngukur lan nguwatake tumindak model ing wilayah iki lan wilayah mangsa ngarep. Amarga piranti iki berkembang saka wektu ke wektu, pangukuran ing mangsa ngarep bisa uga ora langsung bisa dibandhingake karo sing lawas, nanging tetep dadi cara penting kanggo nglacak arah lan kemajuan kita.

Sampeyan bisa maca luwih akeh babagan karya iki ing addendum kanggo kertu sistem GPT‑5.

Pangarang

OpenAI

Cathetan sikil

  1. 1

    Kita ngadhepi trade-off antarane presisi (sepira kerepe obrolan sing ditandhani sistem kita pancen ora aman) lan recall (pira bagean saka obrolan ora aman sing dideteksi sistem kita). Supaya recall migunani, kita kudu nampa sawetara positif palsu. Iki mirip karo tes kanggo kondisi medis langka: yen sawijining penyakit mengaruhi siji saka 10.000 wong, sanajan tes sing akurat banget isih bisa nandhani luwih akeh wong sehat tinimbang wong sing lara.

  2. 2

    Kabeh owah-owahan iki relatif marang versi GPT-5 sing dirilis tanggal 15 Agustus(mbukak ing jendhela anyar).

  3. 3

    Elinga yen sawetara pangguna lan pesen nuduhake pratandha kemungkinan luwih saka siji jinis risiko—kayata nyilakani awake dhewe lan katergantungan emosional—mula ana sawetara tumpang tindih antar kategori sing dilaporake ing kene lan ing ngisor iki.