Унапређење одговора ChatGPT‑а у осетљивим разговорима
Радили смо са више од 170 стручњака за ментално здравље како бисмо помогли ChatGPT‑у да поузданије препозна знаке узнемирености, одговори пажљиво и упути људе на подршку у стварном свету — смањујући одговоре који не испуњавају наше стандарде за 65–80%.
Недавно смо ажурирали подразумевани модел ChatGPT‑а(отвара се у новом прозору) како би боље препознавао и подржавао људе у тренуцима узнемирености. Данас делимо како смо постигли та побољшања и какве резултате дају. У сарадњи са стручњацима за ментално здравље који имају клиничко искуство из праксе, научили смо модел да боље препознаје узнемиреност, смирује разговоре и, када је то прикладно, упућује људе на стручну помоћ. Такође смо проширили приступ кризним телефонским линијама, преусмерили(отвара се у новом прозору) осетљиве разговоре који потичу из других модела ка безбеднијим моделима и додали благе подсетнике да праве паузе током дугих сесија.
Верујемо да ChatGPT може да пружи подржавајући простор у ком људи могу да обраде оно што осећају и да их, када је то прикладно, подстакне да се обрате пријатељима, породици или стручњаку за ментално здравље. Наша безбедносна побољшања у недавном ажурирању модела усмерена су на следеће области: 1) проблеме менталног здравља као што су психоза или манија; 2) самоповређивање и самоубиство; и 3) емоционално ослањање на AI. Убудуће, поред наших дугогодишњих основних безбедносних метрика за самоубиство и самоповређивање, додајемо и емоционално ослањање и менталне здравствене кризе које нису повезане са самоубиством у наш стандардни скуп основних безбедносних тестова за будућа издања модела.
Ова ажурирања надовезују се на наше постојеће принципе о томе како модели треба да се понашају, изложене у нашим спецификацијама модела(отвара се у новом прозору). Ажурирали смо спецификације модела како бисмо неке од наших дугогодишњих циљева учинили експлицитнијим: да модел треба да подржава и поштује односе корисника у стварном свету, да избегава потврђивање неутемељених уверења која потенцијално могу бити повезана са менталном или емоционалном узнемиреношћу, да безбедно и емпатично одговара на могуће знаке заблуда или маније и да пажљивије обраћа пажњу на индиректне сигнале потенцијалног ризика од самоповређивања или самоубиства.
Да бисмо побољшали начин на који ChatGPT одговара у свакој приоритетној области, пратимо процес од пет корака:
- Дефинисање проблема — мапирамо различите врсте потенцијалне штете.
- Почетак мерења - користимо алате као што су евалуације, подаци из разговора у стварном свету и истраживања корисника да бисмо разумели где и како настају ризици.
- Потврда нашег приступа — преиспитујемо наше дефиниције и политике са спољним стручњацима за ментално здравље и безбедност.
- Ублажавање ризика — додатно обучавамо модел и ажурирамо интервенције у производу како бисмо смањили небезбедне исходе.
- Наставак мерења и унапређивања — проверавамо да ли су мере ублажавања побољшале безбедност и даље унапређујемо где је потребно.
Као део овог процеса, израђујемо и усавршавамо детаљне водиче (назване „таксономије“) који објашњавају својства осетљивих разговора и како изгледају идеално и непожељно понашање модела. Они нам помажу да научимо модел да одговара примереније и да пратимо његове перформансе пре и после примене. Резултат је модел који поузданије добро одговара корисницима који показују знаке психозе, маније, мисли о самоубиству и самоповређивању или нездраве емоционалне везаности за модел.
Симптоми менталних поремећаја и емоционална узнемиреност универзално су присутни у људским друштвима, а растућа база корисника значи да неки део разговора у ChatGPT‑у укључује такве ситуације. Међутим, разговори о менталном здрављу који покрећу безбедносне забринутости, попут психозе, маније или суицидалних мисли, изузетно су ретки. Пошто су толико неуобичајени, чак и мале разлике у томе како их меримо могу значајно утицати на бројеве које пријављујемо. 1
Процене учесталости у актуелном саобраћају у продукцији које наводимо у наставку представљају наше тренутно најбоље процене. Оне се могу значајно променити како будемо наставили да усавршавамо наше таксономије, како наше методологије мерења буду сазревале и како се буде мењало понашање наше корисничке популације.
С обзиром на врло ниску учесталост релевантних разговора, не ослањамо се само на мерења коришћења ChatGPT‑а у стварном свету. Пре примене такође спроводимо структурисана тестирања (названа „офлајн евалуације“) која су усмерена на посебно тешке или високоризичне сценарије. Ове евалуације су осмишљене тако да буду довољно изазовне да наши модели на њима још увек не постижу савршене резултате, односно примери су супротстављено одабрани тако да постоји велика вероватноћа изазивања непожељних одговора. Оне нам могу показати где имамо простора за даља побољшања и помажу нам да прецизније меримо напредак усредсређујући се на тешке случајеве, а не на типичне, и оцењујући одговоре на основу више безбедносних услова. Резултати евалуација наведени у одељцима испод потичу из евалуација које су осмишљене тако да не „засићују“ близу савршених перформанси, а стопе грешака нису репрезентативне за просечан продукциони саобраћај.
Како бисмо додатно ојачали заштитне мере наших модела и разумели како људи користе ChatGPT, дефинисали смо неколико области од интереса и квантификовали њихову величину и повезана понашања модела. У свакој од ове три области видимо значајна побољшања у понашању модела у продукционом саобраћају, аутоматизованим евалуацијама и евалуацијама које оцењују независни клиничари за ментално здравље. Процењујемо да модел сада даје одговоре који нису у потпуности у складу са жељеним понашањем према нашим таксономијама 65% до 80% ређе у различитим доменима повезаним са менталним здрављем.
Наша таксономија менталног здравља осмишљена је да идентификује када корисници можда показују знаке озбиљних проблема менталног здравља, као што су психоза и манија, као и мање тешке сигнале, као што су изоловане заблуде. Почели смо фокусирајући се на психозу и манију јер су ови симптоми релативно честе хитне ситуације у менталном здрављу, а када се појаве, њихови симптоми обично буду веома интензивни и озбиљни. Иако су симптоми попут депресије релативно чести, њена најакутнија манифестација већ је била обухваћена нашим радом на превенцији самоубиства и самоповређивања. Клиничари са којима смо се консултовали потврдили су наше области фокуса.
- Процењујемо да је најновије ажурирање GPT‑5 смањило стопу одговора који нису у потпуности у складу са жељеним понашањем према нашим таксономијама за изазовне разговоре повезане са проблемима менталног здравља за 65% у недавном продукционом саобраћају. 2
- Иако је, као што је горе наведено, ове разговоре тешко открити и мерити с обзиром на то колико су ретки, наша почетна анализа процењује да око 0,07% корисника активних у датој недељи и 0,01% порука указују на могуће знаке хитних ситуација у менталном здрављу повезаних са психозом или манијом. 3
- У изазовним разговорима о менталном здрављу, стручњаци су утврдили да је нови модел GPT‑5, подразумевани модел ChatGPT‑а, смањио непожељне одговоре за 39% у поређењу са GPT‑4o (n=677).
- На евалуацији модела која се састојала од више од 1.000 изазовних разговора повезаних са менталним здрављем, наше нове аутоматизоване евалуације оцењују нови модел GPT‑5 као 92% усклађен са нашим жељеним понашањима према нашим таксономијама, у поређењу са 27% за претходни модел GPT‑5. Као што је горе наведено, ово је изазован задатак осмишљен да омогући континуирано унапређивање.
Надоградили смо наш постојећи рад на превенцији самоубиства и самоповређивања како бисмо открили када корисник можда има мисли о самоубиству и самоповређивању или збирне знаке који би указивали на интересовање за самоубиство. Пошто су ови разговори тако ретки, откривање разговора са потенцијалним индикаторима за самоповређивање или самоубиство остаје текућа област истраживања у којој континуирано радимо на побољшању.
- Обучавамо наше моделе да одговарају безбедно, укључујући и усмеравање људи на стручне ресурсе као што су кризне телефонске линије. У неким ретким случајевима, модел се можда неће понашати онако како је предвиђено у овим осетљивим ситуацијама. Како смо уводили додатне заштитне мере и побољшани модел, приметили смо процењено смањење од 65% у стопи по којој наши модели дају одговоре који нису у потпуности у складу са жељеним понашањем према нашим таксономијама.
- Иако је, као што је горе наведено, ове разговоре тешко открити и мерити с обзиром на то колико су ретки, наша почетна анализа процењује да око 0,15% корисника активних у датој недељи има разговоре који укључују експлицитне показатеље потенцијалног планирања самоубиства или намере, а 0,05% порука садржи експлицитне или имплицитне показатеље суицидалних мисли или намере.
- У изазовним разговорима о самоповређивању и самоубиству, стручњаци су утврдили да је нови модел GPT‑5 смањио непожељне одговоре за 52% у поређењу са GPT‑4o (n=630).
- На евалуацији модела која се састојала од више од 1.000 изазовних разговора о самоповређивању и самоубиству, наше нове аутоматизоване евалуације оцењују нови модел GPT‑5 као 91% усклађен са нашим жељеним понашањима, у поређењу са 77% за претходни модел GPT‑5.
- Наставили смо да побољшавамо поузданост GPT‑5 у дугим разговорима. Направили смо нови скуп изазовних дугих разговора заснованих на сценаријима из стварног света који су одабрани због веће вероватноће неуспеха. Процењујемо да су наши најновији модели задржали више од 95% поузданости у дужим разговорима, уз побољшање у посебно изазовном окружењу које смо раније помињали.
U evaluaciji zahtevnih dugih razgovora u kojima se traže uputstva za samopovređivanje ili samoubistvo, gpt-5-oct-3 je bezbedniji i njegova bezbednost se bolje održava tokom dugih razgovora.
Наша таксономија емоционалног ослањања (која се надовезује на наш ранији рад(отвара се у новом прозору) у овој области) разликује здрав ангажман од забрињавајућих образаца коришћења, као што су ситуације у којима неко показује могуће знаке искључиве везаности за модел на штету односа у стварном свету, сопственог благостања или обавеза.
- Процењујемо да је најновије ажурирање смањило стопу одговора модела који нису у потпуности у складу са жељеним понашањем према нашим таксономијама емоционалног ослањања за око 80% у недавном продукционом саобраћају.
- Иако је, као што је горе наведено, ове разговоре тешко открити и мерити с обзиром на то колико су ретки, наша почетна анализа процењује да око 0,15% корисника активних у датој недељи и 0,03% порука указују на потенцијално повишене нивое емоционалне везаности за ChatGPT.
- У изазовним разговорима који указују на емоционално ослањање, стручњаци су утврдили да је нови модел GPT‑5 смањио непожељне одговоре за 42% у поређењу са 4o (n=507).
- На евалуацији модела која се састојала од више од 1.000 изазовних разговора који указују на емоционално ослањање, наше аутоматизоване евалуације оцењују нови модел GPT‑5 као 97% усклађен са нашим жељеним понашањем, у поређењу са 50% за претходни модел GPT‑5.
За разговоре који указују на емоционално ослањање, учимо наше моделе да подстичу повезаност у стварном свету:
За разговоре који се односе на сумануте идеје, учимо наше моделе да одговарају безбедно, емпатично и да избегавају потврђивање неутемељених уверења:
Изградили смо Глобалну мрежу лекара — широку мрежу од скоро 300 лекара и психолога који су радили у 60 земаља — коју користимо да директно информишемо наша безбедносна истраживања и представимо глобалне ставове. Више од 170 ових клиничара (конкретно психијатара, психолога и лекара примарне здравствене заштите) подржало је наше истраживање током последњих неколико месеци на један или више следећих начина:
- Писањем идеалних одговора за инструкције повезане са менталним здрављем
- Креирањем прилагођених, клинички информисаних анализа одговора модела
- Оцењивањем безбедности одговора модела из различитих модела
- Пружањем општих смерница и повратних информација о нашем приступу
У овим прегледима, клиничари су приметили да најновији модел одговара примереније и доследније него раније верзије.
Као део овог рада, психијатри и психолози су прегледали више од 1.800 одговора модела који укључују озбиљне ситуације менталног здравља и упоредили одговоре новог GPT‑5 chat модела са претходним моделима. Ови стручњаци су утврдили да је нови модел значајно побољшан у поређењу са GPT‑4o, са смањењем непожељних одговора од 39–52% у свим категоријама. Ове квалитативне повратне информације одражавају квантитативна побољшања која смо приметили у продукционом саобраћају приликом увођења новог модела.
Као и код сваке сложене теме, чак се и стручњаци понекад не слажу око тога како изгледа најбољи одговор. Ову варијацију меримо кроз сагласност између оцењивача — колико често стручњаци дођу до истог закључка о томе да ли је одговор модела пожељан или непожељан. То нам помаже да боље разумемо где се професионална мишљења разилазе и како да ускладимо понашање модела са здравим клиничким расуђивањем. Примећујемо солидну поузданост између стручних клиничара који оцењују одговоре модела повезане са менталним здрављем, емоционалним ослањањем и самоубиством, али у неким случајевима видимо и неслагања међу стручњацима, при чему се сагласност између оцењивача креће од 71–77%.
Слично нашем раду на HealthBench-у, сарађивали смо са Глобалном мрежом лекара на изради циљаних евалуација које интерно користимо за процену перформанси модела у контекстима менталног здравља, укључујући и нове моделе пре објављивања.
Овај рад нам је изузетно важан и захвални смо многим стручњацима за ментално здравље широм света који настављају да га усмеравају. Остварили смо значајан напредак, али има још посла. Наставићемо да унапређујемо и наше таксономије и техничке системе које користимо за мерење и јачање понашања модела у овим и будућим областима. Пошто се ови алати временом развијају, будућа мерења можда неће бити директно упоредива са претходним, али и даље остају важан начин да пратимо свој правац и напредак.
Више о овом раду можете прочитати у додатку GPT‑5 системској картици.
Аутор
Fusnote
- 1
Suočavamo se sa kompromisom između preciznosti (koliko često su razgovori koje naš sistem označi zaista nebezbedni) i odziva (koji deo nebezbednih razgovora naš sistem otkriva). Da bismo dobili koristan odziv, moramo da tolerišemo određeni broj lažno pozitivnih rezultata. To je slično testiranju na retka medicinska stanja: ako bolest pogađa jednu od 10.000 osoba, čak i vrlo precizan test i dalje može označiti više zdravih nego bolesnih ljudi.
- 2
Sve ove promene su relativne u odnosu na verziju GPT-5 objavljenu 15. avgusta(отвара се у новом прозору).
- 3
Imajte na umu da neki korisnici i poruke pokazuju moguće znake više od jedne vrste rizika — kao što su i samopovređivanje i emocionalno oslanjanje — tako da postoji određeno preklapanje među kategorijama prijavljenim ovde i ispod.


