Hekk kif l-użu ta’ ChatGPT kiber madwar id-dinja, rajna nies iduru lejh mhux biss għat-tfittxija, il-kodifikazzjoni u l-kitba—iżda wkoll għal deċiżjonijiet profondament personali li jinkludu pariri dwar il-ħajja(jinfetaħ f’tieqa ġdida), coaching(jinfetaħ f’tieqa ġdida), u appoġġ(jinfetaħ f’tieqa ġdida).
F’din l-iskala, kultant niltaqgħu ma’ nies f’tbatija mentali u emozzjonali serja. Ktibna dwar dan ftit ġimgħat ilu u konna ppjanajna naqsmu aktar wara l-aġġornament ewlieni li jmiss tagħna. Madankollu, każijiet reċenti ta’ qsim il-qalb ta’ nies li jużaw ChatGPT f’nofs kriżijiet akuti qed itaqqluna ħafna, u nemmnu li huwa importanti li naqsmu aktar issa.
L-għan tagħna hu li l-għodod tagħna jkunu kemm jista’ jkun ta’ għajnuna għan-nies—u bħala parti minn dan, qed inkomplu ntejbu kif il-mudelli tagħna jagħrfu u jirrispondu għal sinjali ta’ tbatija mentali u emozzjonali u jgħaqqdu lin-nies mal-kura, immexxija mill-kontribut ta’ esperti.
Hekk kif id-dinja tadatta għal din it-teknoloġija ġdida, inħossu responsabbiltà kbira biex ngħinu lil dawk li għandhom l-aktar bżonn. Irridu nispjegaw għal xiex hu mfassal ChatGPT, fejn is-sistemi tagħna jistgħu jitjiebu, u x-xogħol futur li qed nippjanaw.
L-għan tagħna mhuwiex li nżommu l-attenzjoni tan-nies. Minflok ma nkejlu s-suċċess skont il-ħin imqatta’ jew il-klikks, jinteressana aktar li nkunu tassew ta’ għajnuna. Meta konversazzjoni tissuġġerixxi li xi ħadd hu vulnerabbli u jista’ jkun f’riskju, bnejna saff ta’ salvagwardji f’saffi fi ChatGPT.
Jagħraf u jirrispondi b’empatija.
Minn kmieni fl-2023, il-mudelli tagħna ġew imħarrġa biex ma jipprovdux istruzzjonijiet dwar awtokorriment u biex jaqilbu għal lingwa ta’ appoġġ u empatika. Pereżempju, jekk xi ħadd jikteb li jrid iweġġa’ lilu nnifsu, ChatGPT hu mħarreġ biex ma jikkonformax u minflok jagħraf is-sentimenti tiegħu u jiggwidah lejn għajnuna.
Barra minn hekk, f’konformità mal-approċċ tagħna ta’ defense in depth, tweġibiet li jmorru kontra t-taħriġ tas-sikurezza tal-mudelli tagħna—kif identifikati mill-klassifikaturi tagħna—jiġu mblukkati awtomatikament, b’protezzjonijiet aktar b’saħħithom għall-minorenni u għall-użu minn min mhuwiex illoggjat. Riżultati ta’ immaġni b’awtokorriment huma wkoll imblukkati għal kulħadd, bi protezzjonijiet aktar b’saħħithom għall-minorenni.
Matul sessjonijiet twal ħafna, ChatGPT iħeġġeġ lin-nies jieħdu pawża.
Jirreferi lin-nies għal riżorsi tad-dinja reali.
Jekk xi ħadd jesprimi intenzjoni suwiċidali, ChatGPT hu mħarreġ biex jidderieġi lin-nies ifittxu għajnuna professjonali. Fl-Istati Uniti, ChatGPT jirreferi lin-nies għal 988 (hotline tas-suwiċidju u l-kriżi), fir-Renju Unit għas-Samaritans, u x’imkien ieħor għal findahelpline.com(jinfetaħ f’tieqa ġdida). Din il-loġika hija mibnija fl-imġiba tal-mudell.
Qed naħdmu mill-qrib ma’ aktar minn 90 tabib f’aktar minn 30 pajjiż—psikjatri, pedjatri u tobba ġenerali—u qed nlaqqgħu grupp konsultattiv ta’ esperti fis-saħħa mentali, l-iżvilupp taż-żgħażagħ, u l-interazzjoni bejn il-bniedem u l-kompjuter biex niżguraw li l-approċċ tagħna jirrifletti l-aħħar riċerka u l-aħjar prattiki.
Neskalaw riskju ta’ ħsara fiżika lil oħrajn għal reviżjoni umana.
Meta niskopru utenti li qed jippjanaw jagħmlu ħsara lil oħrajn, nidderieġu l-konversazzjonijiet tagħhom lejn pipelines speċjalizzati fejn jiġu riveduti minn tim żgħir imħarreġ fuq il-politiki tal-użu tagħna u li hu awtorizzat jieħu azzjoni, inkluż il-projbizzjoni tal-kontijiet. Jekk ir-reviżuri umani jiddeterminaw li każ jinvolvi theddida imminenti ta’ ħsara fiżika serja lil oħrajn, nistgħu nirreferuh lill-infurzar tal-liġi. Bħalissa m’aħniex nirreferu każijiet ta’ awtokorriment lill-infurzar tal-liġi biex nirrispettaw il-privatezza tan-nies minħabba n-natura partikolarment privata tal-interazzjonijiet ma’ ChatGPT.
Qed intejbu kontinwament kif il-mudelli tagħna jirrispondu f’interazzjonijiet sensittivi, u bħalissa qed naħdmu fuq titjib tas-sikurezza mmirat f’diversi oqsma, inklużi dipendenza emozzjonali, emerġenzi tas-saħħa mentali, u sycophancy.
F’Awwissu, nedejna GPT‑5 bħala l-mudell awtomatiku li jħaddem ChatGPT. B’mod ġenerali, GPT‑5 wera titjib sinifikanti f’oqsma bħall-evitar ta’ livelli mhux tajbin ta’ dipendenza emozzjonali, it-tnaqqis ta’ sycophancy, u t-tnaqqis tal-prevalenza ta’ tweġibiet mhux ideali tal-mudell f’emerġenzi tas-saħħa mentali b’aktar minn 25% meta mqabbel ma’ 4o. GPT‑5 jibni wkoll fuq metodu ġdid ta’ taħriġ tas-sikurezza msejjaħ safe completions, li jgħallem lill-mudell ikun ta’ għajnuna kemm jista’ jkun waqt li jibqa’ fil-limiti tas-sikurezza. Dan jista’ jfisser li jagħti tweġiba parzjali jew ta’ livell għoli minflok dettall li jista’ ma jkunx sigur.
Anke b’dawn is-salvagwardji, kien hemm mumenti meta s-sistemi tagħna ma ġabux ruħhom kif maħsub f’sitwazzjonijiet sensittivi. Hawn huma xi wħud mill-affarijiet li qed naħdmu biex intejbu.
Insawru salvagwardji aktar b’saħħithom f’konversazzjonijiet twal.
Is-salvagwardji tagħna jaħdmu b’mod aktar affidabbli fi skambji komuni u qosra. Maż-żmien tgħallimna li dawn is-salvagwardji kultant jistgħu jkunu inqas affidabbli f’interazzjonijiet twal: hekk kif il-botta u risposta tikber, partijiet mit-taħriġ tas-sikurezza tal-mudell jistgħu jiddgħajfu. Pereżempju, ChatGPT jista’ jindika b’mod korrett hotline tas-suwiċidju meta xi ħadd isemmi l-intenzjoni għall-ewwel darba, iżda wara ħafna messaġġi fuq perjodu twil ta’ żmien, jista’ eventwalment joffri tweġiba li tmur kontra s-salvagwardji tagħna. Dan huwa eżattament it-tip ta’ falliment li qed naħdmu biex nipprevjenu. Qed insaħħu dawn il-mitigazzjonijiet biex jibqgħu affidabbli f’konversazzjonijiet twal, u qed nirriċerkaw modi biex niżguraw imġiba robusta tul diversi konversazzjonijiet. B’dan il-mod, jekk xi ħadd jesprimi intenzjoni suwiċidali f’chat waħda u aktar tard jibda oħra, il-mudell xorta jista’ jirrispondi b’mod xieraq.
Nirfinaw kif nibblukkaw il-kontenut.
Rajna xi każijiet fejn kontenut li kellu jiġi mblukkat ma ġiex. Dawn id-diskrepanzi normalment iseħħu għax il-klassifikatur jissottovaluta s-serjetà ta’ dak li qed jara. Qed nirranġaw dawk il-limiti biex il-protezzjonijiet jattivaw meta għandhom.
L-ogħla prijorità tagħna hija li niżguraw li ChatGPT ma jaggravax mument diffiċli.
Ix-xogħol ma jieqafx biss billi nirranġaw dak ta’ hawn fuq. Qed nippjanaw ukoll li:
Nespandu l-interventi għal aktar nies fi kriżi.
Filwaqt li l-mitigazzjonijiet inizjali tagħna taw prijorità lill-awtokorriment akut, xi nies jesperjenzaw forom oħra ta’ tbatija mentali. Pereżempju, xi ħadd jista’ b’entużjażmu jgħid lill-mudell li jemmen li jista’ jsuq 24/7 għax induna li hu invinċibbli wara li ma raqadx għal żewġt iljieli. Illum, ChatGPT jista’ ma jagħrafx dan bħala perikoluż jew ma jiddeduċix il-logħob u—billi jesplorah b’kurżità—jista’ b’mod sottili jsaħħu.
Qed naħdmu fuq aġġornament għal GPT‑5 li se jwassal biex ChatGPT jnaqqas l-eskalazzjoni billi jiggrawwndja lill-persuna fir-realtà. F’dan l-eżempju, jispjega li n-nuqqas ta’ rqad huwa perikoluż u jirrakkomanda mistrieħ qabel kwalunkwe azzjoni.
Nagħmluha aktar faċli biex jintlaħqu s-servizzi ta’ emerġenza u tinkiseb għajnuna minn esperti.
Illum, meta n-nies jesprimu intenzjoni li jagħmlu ħsara lilhom infushom, inħeġġuhom ifittxu għajnuna u nirreferuhom għal riżorsi fid-dinja reali. Bdejna nillokalizzaw ir-riżorsi fl-Istati Uniti u fl-Ewropa, u qed nippjanaw li nespandu għal swieq globali oħra. Se nżidu wkoll l-aċċessibbiltà b’aċċess b’klikk waħda għas-servizzi ta’ emerġenza.
Qed nesploraw kif nintervjenu aktar kmieni u ngħaqqdu lin-nies ma’ terapisti ċċertifikati qabel ma jkunu fi kriżi akuta. Dan ifisser li mmorru lil hinn mill-hotlines tal-kriżi u nikkunsidraw kif nistgħu nibnu netwerk ta’ professjonisti liċenzjati li n-nies jistgħu jilħqu direttament permezz ta’ ChatGPT. Dan se jieħu ż-żmien u xogħol bir-reqqa biex isir sew.
Nippermettu konnessjonijiet ma’ kuntatti fdati.
Minbarra s-servizzi ta’ emerġenza, qed nesploraw modi biex nagħmluha aktar faċli għan-nies biex jikkuntattjaw lil dawk l-aktar qrib tagħhom. Dan jista’ jinkludi messaġġi jew telefonati b’klikk waħda lil kuntatti ta’ emerġenza ssejvjati, ħbieb, jew membri tal-familja b’lingwa suġġerita biex il-bidu tal-konversazzjoni jkun inqas ta’ qtigħ il-qalb.
Qed nikkunsidraw ukoll karatteristiċi li jippermettu lin-nies jagħżlu minn qabel biex ChatGPT jikkuntattja kuntatt magħżul f’isimhom f’każijiet serji.
Insawru protezzjonijiet aktar b’saħħithom għaż-żgħażagħ.
Storikament, speċifikajna imġiba ideali waħda tal-mudell għall-utenti kollha tagħna; hekk kif ChatGPT kiber, bdejna nżidu protezzjonijiet addizzjonali meta nafu li l-utent għandu inqas minn 18-il sena. Qed inkomplu niżviluppaw u noħorġu salvagwardji li jagħrfu l-ħtiġijiet uniċi tal-iżvilupp taż-żgħażagħ, b’guardrails aktar b’saħħithom madwar kontenut sensittiv u mġibiet riskjużi.
Dalwaqt se nintroduċu wkoll kontrolli tal-ġenituri li jagħtu lill-ġenituri għażliet biex jiksbu aktar għarfien dwar, u jsawru, kif iż-żgħażagħ tagħhom jużaw ChatGPT. Qed nesploraw ukoll li nagħmluha possibbli għaż-żgħażagħ (b’sorveljanza tal-ġenituri) li jagħżlu kuntatt ta’ emerġenza fdat. B’dan il-mod, f’mumenti ta’ tbatija akuta, ChatGPT jista’ jagħmel aktar milli jindika riżorsi: jista’ jgħin jgħaqqad liż-żgħażagħ direttament ma’ xi ħadd li jista’ jintervjeni.
Aħna konxji ħafna li s-salvagwardji huma l-aktar b’saħħithom meta kull element jaħdem kif maħsub. Se nibqgħu ntejbu, immexxija minn esperti u iggrawndjar fir-responsabbiltà lejn in-nies li jużaw l-għodod tagħna—u nittamaw li oħrajn jingħaqdu magħna biex jgħinu jiżguraw li din it-teknoloġija tipproteġi lin-nies fl-aktar mumenti vulnerabbli tagħhom.


