Insaħħu r-risposti ta’ ChatGPT f’konversazzjonijiet sensittivi
Ħdimna ma’ aktar minn 170 espert tas-saħħa mentali biex ngħinu lil ChatGPT jagħraf aħjar sinjali ta’ tbatija, jirrispondi b’kura, u jiggwida lin-nies lejn appoġġ fid-dinja reali—u nnaqqsu r-risposti li ma jilħqux l-imġiba mixtieqa b’65-80%.
Dan l-aħħar aġġornajna l-mudell awtomatiku ta’ ChatGPT(jinfetaħ f’tieqa ġdida) biex jagħraf aħjar u jappoġġa lin-nies f’mumenti ta’ tbatija. Illum qed naqsmu kif għamilna dawn it-titjibiet u kif qed jaħdmu. Billi ħdimna ma’ esperti tas-saħħa mentali b’esperjenza klinika fid-dinja reali, għallimna lill-mudell jagħraf aħjar it-tbatija, inaqqas l-eskalazzjoni tal-konversazzjonijiet, u jiggwida lin-nies lejn kura professjonali meta jkun xieraq. Estendejna wkoll l-aċċess għal hotlines tal-kriżi, ridirezzjonajna(jinfetaħ f’tieqa ġdida) konversazzjonijiet sensittivi li ġejjin minn mudelli oħra lejn mudelli aktar sikuri, u żidna tfakkiriet ġentili biex tieħu pawżi waqt sessjonijiet twal.
Aħna nemmnu li ChatGPT jista’ jipprovdi spazju ta’ appoġġ biex in-nies jipproċessaw dak li qed iħossu, u jiggwidahom biex jikkuntattjaw ħbieb, familja, jew professjonist tas-saħħa mentali meta jkun xieraq. It-titjibiet reċenti tagħna fis-sikurezza fil-mudell jiffokaw fuq dawn l-oqsma: 1) tħassib dwar is-saħħa mentali bħall-psikożi jew il-manija; 2) l-awtoleżjoni u s-suwiċidju; u 3) dipendenza emozzjonali fuq l-AI. Minn issa ’l quddiem, minbarra l-metriċi bażiċi tas-sikurezza tagħna li ilhom jeżistu għas-suwiċidju u l-awtoleżjoni, qed inżidu d-dipendenza emozzjonali u emerġenzi tas-saħħa mentali mhux suwiċidali mas-sett standard tagħna ta’ testijiet bażiċi tas-sikurezza għal rilaxxi futuri tal-mudell.
Dawn l-aġġornamenti jibnu fuq il-prinċipji eżistenti tagħna dwar kif għandhom iġibu ruħhom il-mudelli, kif deskritt fl-Ispeċifikazzjoni tal-Mudell(jinfetaħ f’tieqa ġdida) tagħna. Aġġornajna l-Ispeċifikazzjoni tal-Mudell biex nagħmlu xi għanijiet li ilhom magħna aktar espliċiti: li l-mudell għandu jappoġġa u jirrispetta r-relazzjonijiet tal-utenti fid-dinja reali, jevita li jikkonferma twemmin bla bażi li jista’ jkun relatat ma’ tbatija mentali jew emozzjonali, jirrispondi b’mod sikur u empatiku għal sinjali possibbli ta’ delużjoni jew manija, u jagħti aktar attenzjoni lil sinjali indiretti ta’ riskju potenzjali ta’ awtoleżjoni jew suwiċidju.
Sabiex intejbu kif ChatGPT jirrispondi f’kull qasam prijoritarju, insegwu proċess ta’ ħames passi:
- Niddefinixxu l-problema - nimmappjaw tipi differenti ta’ ħsara potenzjali.
- Nibdew nkejluh - nużaw għodod bħal evalwazzjonijiet, data minn konversazzjonijiet fid-dinja reali, u riċerka mal-utenti biex nifhmu fejn u kif joħorġu r-riskji.
- Nivvalidaw l-approċċ tagħna - nirrevedu d-definizzjonijiet u l-politiki tagħna ma’ esperti esterni fis-saħħa mentali u s-sikurezza.
- Innaqqsu r-riskji - nagħmlu post-training tal-mudell u naġġornaw l-interventi tal-prodott biex innaqqsu riżultati mhux sikuri.
- Inkomplu nkejlu u ntejbu - nivvalidaw li l-miżuri ta’ mitigazzjoni tejbu s-sikurezza u nkomplu ntejbu fejn hemm bżonn.
Bħala parti minn dan il-proċess, nibnu u nirfinaw gwidi dettaljati (imsejħa “tassonomiji”) li jispjegaw il-proprjetajiet ta’ konversazzjonijiet sensittivi u kif tidher imġiba ideali u mhux mixtieqa tal-mudell. Dawn jgħinuna ngħallmu lill-mudell jirrispondi b’mod aktar xieraq u nsegwu l-prestazzjoni tiegħu qabel u wara d-distribuzzjoni. Ir-riżultat huwa mudell li jirrispondi b’mod aktar affidabbli lill-utenti li juru sinjali ta’ psikożi, manija, ħsibijiet ta’ suwiċidju u awtoleżjoni, jew rabta emozzjonali mhux b’saħħitha mal-mudell.
Is-sintomi tas-saħħa mentali u t-tbatija emozzjonali huma preżenti b’mod universali fis-soċjetajiet umani, u bażi ta’ utenti dejjem tikber tfisser li xi porzjon tal-konversazzjonijiet ta’ ChatGPT jinkludu dawn is-sitwazzjonijiet. Madankollu, il-konversazzjonijiet dwar is-saħħa mentali li jqajmu tħassib dwar is-sikurezza, bħall-psikożi, il-manija, jew il-ħsieb suwiċidali, huma estremament rari. Minħabba li huma tant mhux komuni, anke differenzi żgħar fil-mod kif nkejluhom jistgħu jkollhom impatt sinifikanti fuq iċ-ċifri li nirrapportaw. 1
L-istimi tal-prevalenza fit-traffiku tal-produzzjoni attwali li nagħtu hawn taħt huma l-aħjar stimi tagħna bħalissa. Dawn jistgħu jinbidlu b’mod sostanzjali hekk kif inkomplu nirfinaw it-tassonomiji tagħna, il-metodoloġiji tal-kejl tagħna jimmaturaw, u tinbidel l-imġiba tal-popolazzjoni tal-utenti tagħna.
Minħabba l-prevalenza baxxa ħafna tal-konversazzjonijiet rilevanti, ma niddependux biss fuq kejl tal-użu ta’ ChatGPT fid-dinja reali. Nagħmlu wkoll testijiet strutturati qabel id-distribuzzjoni (imsejħa “evalwazzjonijiet offline”), li jiffokaw fuq xenarji partikolarment diffiċli jew ta’ riskju għoli. Dawn l-evalwazzjonijiet huma mfassla biex ikunu diffiċli biżżejjed sabiex il-mudelli tagħna għadhom ma jaħdmux perfettament fihom, jiġifieri l-eżempji jintgħażlu b’mod avversarju għal probabbiltà għolja li jqanqlu risposti mhux mixtieqa. Jistgħu juruna fejn għandna opportunitajiet biex intejbu aktar, u jgħinuna nkejlu l-progress b’mod aktar preċiż billi niffukaw fuq każijiet diffiċli aktar milli tipiċi, u billi nikklassifikaw ir-risposti skont diversi kundizzjonijiet tas-sikurezza. Ir-riżultati tal-evalwazzjoni rrappurtati fit-taqsimiet hawn taħt ġejjin minn evalwazzjonijiet li huma mfassla biex ma “jissaturawx” qrib prestazzjoni perfetta, u r-rati ta’ żball mhumiex rappreżentattivi tat-traffiku medju tal-produzzjoni.
Sabiex inkomplu nsaħħu s-salvagwardji tal-mudelli tagħna u nifhmu kif in-nies qed jużaw ChatGPT, iddefinixxejna diversi oqsma ta’ interess u kkwantifikajna d-daqs tagħhom u l-imġibiet assoċjati tal-mudell. F’kull wieħed minn dawn it-tliet oqsma, nosservaw titjib sinifikanti fl-imġiba tal-mudell fit-traffiku tal-produzzjoni, f’evals awtomatizzati, u f’evals ikklassifikati minn kliniċisti indipendenti tas-saħħa mentali. Nistmaw li l-mudell issa jirritorna risposti li ma jikkonformawx għal kollox mal-imġiba mixtieqa taħt it-tassonomiji tagħna 65% sa 80% inqas spiss fuq firxa ta’ oqsma relatati mas-saħħa mentali.
It-tassonomija tagħna tas-saħħa mentali hija mfassla biex tidentifika meta l-utenti jistgħu jkunu qed juru sinjali ta’ tħassib serju dwar is-saħħa mentali, bħall-psikożi u l-manija, kif ukoll sinjali inqas severi, bħal delużjonijiet iżolati. Bdejna billi ffukajna fuq il-psikożi u l-manija għax dawn is-sintomi huma emerġenzi tas-saħħa mentali relattivament komuni, u s-sintomi tagħhom għandhom tendenza li jkunu intensi ħafna u serji meta jseħħu. Filwaqt li sintomi bħad-dipressjoni huma relattivament komuni, l-aktar manifestazzjoni akuta tagħha kienet diġà qed tiġi indirizzata mix-xogħol tagħna fuq il-prevenzjoni tas-suwiċidju u l-awtoleżjoni. Il-kliniċisti li kkonsultajna vvalidaw l-oqsma ta’ fokus tagħna.
- Nistmaw li l-aħħar aġġornament għal GPT‑5 naqqas ir-rata ta’ risposti li ma jikkonformawx għal kollox mal-imġiba mixtieqa taħt it-tassonomiji tagħna għal konversazzjonijiet diffiċli relatati ma’ kwistjonijiet ta’ saħħa mentali b’65% fit-traffiku reċenti tal-produzzjoni. 2
- Filwaqt li, kif innutat hawn fuq, dawn il-konversazzjonijiet huma diffiċli biex jiġu skoperti u mkejla minħabba kemm huma rari, l-analiżi inizjali tagħna tistma li madwar 0.07% tal-utenti attivi f’ġimgħa partikolari u 0.01% tal-messaġġi jindikaw sinjali possibbli ta’ emerġenzi tas-saħħa mentali relatati mal-psikożi jew il-manija. 3
- Fuq konversazzjonijiet diffiċli dwar is-saħħa mentali, l-esperti sabu li l-mudell il-ġdid GPT‑5, il-mudell awtomatiku ta’ ChatGPT, naqqas ir-risposti mhux mixtieqa b’39% meta mqabbel ma’ GPT‑4o (n=677).
- Fuq evalwazzjoni tal-mudell li tikkonsisti f’aktar minn 1,000 konversazzjoni diffiċli relatata mas-saħħa mentali, l-evalwazzjonijiet awtomatizzati l-ġodda tagħna jagħtu lill-mudell il-ġdid GPT‑5 punteġġ ta’ 92% konformi mal-imġibiet mixtieqa tagħna taħt it-tassonomiji tagħna, meta mqabbel ma’ 27% għall-mudell GPT‑5 preċedenti. Kif innutat hawn fuq, dan huwa kompitu diffiċli mfassal biex jippermetti titjib kontinwu.
Bnejna fuq il-ħidma eżistenti tagħna fuq il-prevenzjoni tas-suwiċidju u l-awtoleżjoni biex nidentifikaw meta utent jista’ jkun qed jesperjenza ħsibijiet ta’ suwiċidju u awtoleżjoni jew sinjali aggregati li jindikaw interess fis-suwiċidju. Minħabba li dawn il-konversazzjonijiet huma tant rari, l-identifikazzjoni ta’ konversazzjonijiet b’indikaturi potenzjali għal awtoleżjoni jew suwiċidju tibqa’ qasam ta’ riċerka kontinwu fejn qegħdin naħdmu bla waqfien biex intejbu.
- Inħarrġu l-mudelli tagħna biex jirrispondu b’mod sikur, inkluż billi nidderieġu lin-nies lejn riżorsi professjonali bħal helplines tal-kriżi. F’xi każijiet rari, il-mudell jista’ ma jġibx ruħu kif maħsub f’dawn is-sitwazzjonijiet sensittivi. Hekk kif implimentajna salvagwardji addizzjonali u l-mudell imtejjeb, osservajna tnaqqis stmat ta’ 65% fir-rata li biha l-mudelli tagħna jipprovdu risposti li ma jikkonformawx għal kollox mal-imġiba mixtieqa taħt it-tassonomiji tagħna.
- Filwaqt li, kif innutat hawn fuq, dawn il-konversazzjonijiet huma diffiċli biex jiġu skoperti u mkejla minħabba kemm huma rari, l-analiżi inizjali tagħna tistma li madwar 0.15% tal-utenti attivi f’ġimgħa partikolari għandhom konversazzjonijiet li jinkludu indikaturi espliċiti ta’ ppjanar jew intenzjoni suwiċidali potenzjali u 0.05% tal-messaġġi fihom indikaturi espliċiti jew impliċiti ta’ ideazzjoni jew intenzjoni suwiċidali.
- Fuq konversazzjonijiet diffiċli dwar awtoleżjoni u suwiċidju, l-esperti sabu li l-mudell il-ġdid GPT‑5 naqqas it-tweġibiet mhux mixtieqa b’52% meta mqabbel ma’ GPT‑4o (n=630).
- Fuq evalwazzjoni tal-mudell li tikkonsisti f’aktar minn 1,000 konversazzjoni diffiċli dwar awtoleżjoni u suwiċidju, l-evalwazzjonijiet awtomatizzati l-ġodda tagħna jagħtu lill-mudell il-ġdid GPT‑5 punteġġ ta’ 91% konformi mal-imġibiet mixtieqa tagħna, meta mqabbel ma’ 77% għall-mudell GPT‑5 preċedenti.
- Komplejna ntejbu l-affidabbiltà ta’ GPT‑5 f’konversazzjonijiet twal. Ħloqna sett ġdid ta’ konversazzjonijiet twal diffiċli bbażati fuq xenarji tad-dinja reali li ntgħażlu minħabba l-probabbiltà ogħla tagħhom ta’ falliment. Nistmaw li l-aħħar mudelli tagħna żammew affidabbiltà ta’ aktar minn 95% f’konversazzjonijiet itwal, b’titjib f’ambjent partikolarment diffiċli li semmiejna qabel.
F’evalwazzjoni ta’ konversazzjonijiet twal u diffiċli li jitolbu istruzzjonijiet għal awtoleżjoni jew suwiċidju, gpt-5-oct-3 huwa aktar sigur u s-sikurezza tiegħu żżomm aħjar f’konversazzjonijiet twal.
It-tassonomija tagħna tad-dipendenza emozzjonali (ibbażata fuq il-ħidma preċedenti tagħna(jinfetaħ f’tieqa ġdida) f’dan il-qasam) tiddistingwi bejn involviment b’saħħtu u mudelli ta’ użu li jqajmu tħassib, bħal meta xi ħadd juri sinjali possibbli ta’ rabta esklussiva mal-mudell għad-detriment tar-relazzjonijiet fid-dinja reali, tal-benesseri tiegħu, jew tal-obbligi tiegħu.
- Nistmaw li l-aħħar aġġornament naqqas ir-rata ta’ risposti tal-mudell li ma jikkonformawx għal kollox mal-imġiba mixtieqa taħt it-tassonomiji tagħna tad-dipendenza emozzjonali b’madwar 80% fit-traffiku reċenti tal-produzzjoni.
- Filwaqt li, kif innutat hawn fuq, dawn il-konversazzjonijiet huma diffiċli biex jiġu skoperti u mkejla minħabba kemm huma rari, l-analiżi inizjali tagħna tistma li madwar 0.15% tal-utenti attivi f’ġimgħa partikolari u 0.03% tal-messaġġi jindikaw livelli potenzjalment ogħla ta’ rabta emozzjonali ma’ ChatGPT.
- Fuq konversazzjonijiet diffiċli li jindikaw dipendenza emozzjonali, l-esperti sabu li l-mudell il-ġdid GPT‑5 naqqas it-tweġibiet mhux mixtieqa b’42% meta mqabbel ma’ 4o (n=507).
- Fuq evalwazzjoni tal-mudell li tikkonsisti f’aktar minn 1,000 konversazzjoni diffiċli li jindikaw dipendenza emozzjonali, l-evalwazzjonijiet awtomatizzati tagħna jagħtu lill-mudell il-ġdid GPT‑5 punteġġ ta’ 97% konformi mal-imġiba mixtieqa tagħna, meta mqabbel ma’ 50% għall-mudell GPT‑5 preċedenti.
Għal konversazzjonijiet li jindikaw dipendenza emozzjonali, ngħallmu lill-mudelli tagħna jħeġġu konnessjoni fid-dinja reali:
Għal konversazzjonijiet relatati ma’ twemmin delużjonali, ngħallmu lill-mudelli tagħna jirrispondu b’mod sikur, empatiku, u jevitaw li jikkonfermaw twemmin bla bażi:
Bnejna Network Globali ta’ Tobba—grupp wiesa’ ta’ kważi 300 tabib u psikologu li pprattikaw f’60 pajjiż—li nużaw biex ninfurmaw direttament ir-riċerka tagħna dwar is-sikurezza u nirrappreżentaw perspettivi globali. Aktar minn 170 minn dawn il-kliniċisti (speċifikament psikjatri, psikologi, u prattikanti tal-kura primarja) appoġġaw ir-riċerka tagħna matul l-aħħar ftit xhur permezz ta’ waħda jew aktar minn dawn li ġejjin:
- Kitba ta’ risposti ideali għal prompts relatati mas-saħħa mentali
- Ħolqien ta’ analiżijiet personalizzati, infurmati klinikament, tar-risposti tal-mudell
- Klassifikazzjoni tas-sikurezza tar-risposti tal-mudell minn mudelli differenti
- Provvista ta’ gwida u feedback ta’ livell għoli dwar l-approċċ tagħna
F’dawn ir-reviżjonijiet, il-kliniċisti osservaw li l-aħħar mudell jirrispondi b’mod aktar xieraq u konsistenti minn verżjonijiet preċedenti.
Bħala parti minn dan ix-xogħol, psikjatri u psikologi rrevedew aktar minn 1,800 rispons tal-mudell li jinvolvu sitwazzjonijiet serji tas-saħħa mentali u qabblu risposti mill-mudell ġdid taċ-chat GPT‑5 ma’ mudelli preċedenti. Dawn l-esperti sabu li l-mudell il-ġdid tjieb sostanzjalment meta mqabbel ma’ GPT‑4o, bi tnaqqis ta’ 39-52% fir-risposti mhux mixtieqa fil-kategoriji kollha. Dan il-feedback kwalitattiv jirrifletti t-titjib kwantitattiv li osservajna fit-traffiku tal-produzzjoni hekk kif niedejna l-mudell il-ġdid.
Bħal kull suġġett kumpless, anke l-esperti kultant ma jaqblux dwar kif għandha tidher l-aħjar risposta. Nkejlu din il-varjazzjoni permezz tal-qbil bejn il-valutaturi—kemm-il darba l-esperti jaslu għall-istess konklużjoni dwar jekk rispons tal-mudell huwiex mixtieq jew mhux mixtieq. Dan jgħinna nifhmu aħjar fejn il-fehmiet professjonali jvarjaw u kif nallinjaw l-imġiba tal-mudell ma’ ġudizzju kliniku sod. Nosservaw affidabbiltà ġusta bejn il-valutaturi fost kliniċisti esperti li jivvalutaw risposti tal-mudell relatati mas-saħħa mentali, id-dipendenza emozzjonali, u s-suwiċidju, iżda naraw ukoll nuqqas ta’ qbil bejn l-esperti f’xi każijiet, b’qbil bejn il-valutaturi li jvarja minn 71-77%.
B’mod simili għax-xogħol tagħna fuq HealthBench, ikkollaborajna man-Network Globali ta’ Tobba biex nipproduċu evalwazzjonijiet immirati li nużaw internament biex nivvalutaw il-prestazzjoni tal-mudell f’kuntesti ta’ saħħa mentali, inkluż f’mudelli ġodda qabel ir-rilaxx.
Dan ix-xogħol huwa importanti ħafna għalina, u aħna grati lejn il-ħafna esperti tas-saħħa mentali madwar id-dinja li jkomplu jiggwidawh. Għamilna progress sinifikanti, iżda għad hemm aktar xi jsir. Se nkomplu navvanzaw kemm it-tassonomiji tagħna kif ukoll is-sistemi tekniċi li nużaw biex nkejlu u nsaħħu l-imġiba tal-mudell f’dawn u f’oqsma futuri. Minħabba li dawn l-għodod jevolvu maż-żmien, il-kejl futur jista’ ma jkunx direttament komparabbli ma’ dak tal-passat, iżda xorta jibqa’ mod importanti kif insegwu d-direzzjoni u l-progress tagħna.
Tista’ taqra aktar dwar dan ix-xogħol f’addendum għall-kard tas-sistema ta’ GPT‑5.
Awtur
Noti f’qiegħ il-paġna
- 1
Qegħdin niffaċċjaw kompromess bejn il-preċiżjoni (kemm-il darba l-konversazzjonijiet immarkati mis-sistema tagħna tassew ikunu mhux sikuri) u r-recall (liema frazzjoni tal-konversazzjonijiet mhux sikuri tiskopri s-sistema tagħna). Biex niksbu recall utli, irridu nittolleraw xi false positives. Dan huwa simili għall-ittestjar għal kundizzjonijiet mediċi rari: jekk marda taffettwa persuna waħda minn kull 10,000, anke test preċiż ħafna xorta jista’ jimmarka aktar nies b’saħħithom milli morda.
- 2
Dawn il-bidliet kollha huma relattivi għall-verżjoni ta’ GPT-5 rilaxxata fil-15 ta’ Awwissu(jinfetaħ f’tieqa ġdida).
- 3
Innota li xi utenti u messaġġi juru sinjali possibbli ta’ aktar minn tip wieħed ta’ riskju — bħal kemm awtoleżjoni kif ukoll dipendenza emozzjonali — għalhekk hemm xi koinċidenza bejn il-kategoriji rrappurtati hawn u hawn taħt.


