A mesura que l’adopció de ChatGPT ha crescut arreu del món, hem vist persones recórrer-hi no només per fer cerques, programar i escriure, sinó també per a decisions profundament personals que inclouen consells de vida(s'obre en una finestra nova), acompanyament(s'obre en una finestra nova) i suport(s'obre en una finestra nova).
A aquesta escala, de vegades ens trobem amb persones en un greu patiment mental i emocional. En vam escriure fa unes setmanes i teníem previst compartir-ne més després de la nostra propera gran actualització. Tanmateix, casos recents i devastadors de persones que han fet servir ChatGPT enmig de crisis agudes ens pesen molt, i creiem que és important compartir-ne més ara.
El nostre objectiu és que les nostres eines siguin tan útils com sigui possible per a les persones i, com a part d’això, continuem millorant la manera com els nostres models reconeixen i responen als senyals de patiment mental i emocional i connecten les persones amb l’atenció adequada, guiats per l’aportació d’experts.
A mesura que el món s’adapta a aquesta nova tecnologia, sentim una profunda responsabilitat d’ajudar aquells que més ho necessiten. Volem explicar què està dissenyat per fer ChatGPT, on poden millorar els nostres sistemes i quina feina futura estem planificant.
El nostre objectiu no és retenir l’atenció de la gent. En lloc de mesurar l’èxit pel temps d’ús o pels clics, ens importa més ser realment útils. Quan una conversa suggereix que algú és vulnerable i pot estar en risc, hem incorporat a ChatGPT un conjunt de salvaguardes en capes.
Reconèixer i respondre amb empatia.
Des de principis del 2023, els nostres models s’han entrenat per no donar instruccions d’autolesió i per passar a un llenguatge de suport i empàtic. Per exemple, si algú escriu que es vol fer mal, ChatGPT està entrenat per no complir-ho i, en canvi, reconèixer els seus sentiments i orientar-lo cap a ajuda.
A més, d’acord amb el nostre enfocament de defensa en profunditat, les respostes que van en contra de l’entrenament de seguretat dels nostres models —tal com identifiquen els nostres classificadors— es bloquegen automàticament, amb proteccions més fortes per als menors i per a l’ús sense iniciar sessió. Les imatges amb autolesions també es bloquegen per a tothom, amb proteccions més fortes per als menors.
Durant sessions molt llargues, ChatGPT anima les persones a fer una pausa.
Derivar les persones a recursos del món real.
Si algú expressa intenció suïcida, ChatGPT està entrenat per indicar a les persones que busquin ajuda professional. Als EUA, ChatGPT deriva les persones al 988 (línia d’ajuda per al suïcidi i les crisis), al Regne Unit als Samaritans, i en altres llocs a findahelpline.com(s'obre en una finestra nova). Aquesta lògica està integrada en el comportament del model.
Treballem estretament amb més de 90 metges de més de 30 països —psiquiatres, pediatres i metges de família— i estem reunint un grup assessor d’experts en salut mental, desenvolupament juvenil i interacció persona-ordinador per assegurar que el nostre enfocament reflecteixi la recerca més recent i les millors pràctiques.
Escalar el risc de dany físic a altres persones per a revisió humana.
Quan detectem usuaris que estan planejant fer mal a altres persones, encaminem les seves converses cap a circuits especialitzats on són revisades per un petit equip format en les nostres polítiques d’ús i autoritzat a actuar, inclosa la suspensió de comptes. Si els revisors humans determinen que un cas implica una amenaça imminent de dany físic greu a altres persones, podem remetre’l a les forces de l’ordre. Actualment no remetem els casos d’autolesió a les forces de l’ordre per respectar la privacitat de les persones, atesa la naturalesa singularment privada de les interaccions amb ChatGPT.
Millorem contínuament la manera com els nostres models responen en interaccions sensibles, i actualment treballem en millores de seguretat específiques en diverses àrees, com ara la dependència emocional, les emergències de salut mental i la complaença.
A l’agost, vam llançar GPT‑5 com a model predeterminat que impulsa ChatGPT. En conjunt, GPT‑5 ha mostrat millores significatives en àrees com evitar nivells poc saludables de dependència emocional, reduir la complaença i reduir en més d’un 25% la prevalença de respostes no ideals del model en emergències de salut mental en comparació amb 4o. GPT‑5 també es basa en un nou mètode d’entrenament de seguretat anomenat safe completions, que ensenya el model a ser tan útil com sigui possible mantenint-se dins dels límits de seguretat. Això pot significar donar una resposta parcial o d’alt nivell en lloc de detalls que podrien ser insegurs.
Fins i tot amb aquestes salvaguardes, hi ha hagut moments en què els nostres sistemes no s’han comportat com es pretenia en situacions sensibles. Aquestes són algunes de les coses que estem treballant per millorar.
Reforçar les salvaguardes en converses llargues.
Les nostres salvaguardes funcionen de manera més fiable en intercanvis habituals i curts. Amb el temps hem après que aquestes salvaguardes de vegades poden ser menys fiables en interaccions llargues: a mesura que el diàleg s’allarga, algunes parts de l’entrenament de seguretat del model poden degradar-se. Per exemple, ChatGPT pot indicar correctament una línia d’ajuda per al suïcidi quan algú esmenta per primer cop la intenció, però després de molts missatges durant un període llarg, podria acabar oferint una resposta que vagi en contra de les nostres salvaguardes. Aquest és exactament el tipus de fallada que treballem per evitar. Estem reforçant aquestes mitigacions perquè continuïn sent fiables en converses llargues, i investiguem maneres d’assegurar un comportament robust al llarg de diverses converses. D’aquesta manera, si algú expressa intenció suïcida en un xat i més tard n’inicia un altre, el model encara podrà respondre adequadament.
Perfeccionar com bloquegem contingut.
Hem vist alguns casos en què contingut que s’hauria d’haver bloquejat no ho va ser. Aquestes llacunes solen produir-se perquè el classificador infravalora la gravetat del que està veient. Estem ajustant aquests llindars perquè les proteccions s’activin quan toca.
La nostra màxima prioritat és assegurar-nos que ChatGPT no empitjori un moment difícil.
La feina no s’acaba corregint l’anterior. També tenim previst:
Ampliar les intervencions a més persones en crisi.
Tot i que les nostres mitigacions inicials van prioritzar l’autolesió aguda, algunes persones experimenten altres formes de patiment mental. Per exemple, algú podria dir amb entusiasme al model que creu que pot conduir les 24 hores del dia, els 7 dies de la setmana, perquè s’ha adonat que és invencible després de no dormir durant dues nits. Avui, ChatGPT pot no reconèixer-ho com a perillós ni inferir-hi joc i, explorant-ho amb curiositat, podria reforçar-ho subtilment.
Estem treballant en una actualització de GPT‑5 que farà que ChatGPT redueixi l’escalada ancorant la persona a la realitat. En aquest exemple, explicaria que la privació del son és perillosa i recomanaria descansar abans de fer cap acció.
Facilitar encara més l’accés als serveis d’emergència i l’ajuda d’experts.
Avui, quan les persones expressen intenció de fer-se mal, les animem a buscar ajuda i les derivem a recursos del món real. Hem començat a localitzar recursos als Estats Units i a Europa, i tenim previst expandir-nos a altres mercats globals. També augmentarem l’accessibilitat amb accés amb un sol clic als serveis d’emergència.
Estem explorant com intervenir abans i connectar les persones amb terapeutes certificats abans que es trobin en una crisi aguda. Això significa anar més enllà de les línies d’ajuda en crisi i considerar com podríem crear una xarxa de professionals acreditats amb qui les persones poguessin contactar directament a través de ChatGPT. Això requerirà temps i una feina acurada per fer-ho bé.
Permetre connexions amb contactes de confiança.
A més dels serveis d’emergència, estem explorant maneres de facilitar que les persones es posin en contacte amb els qui tenen més a prop. Això podria incloure missatges o trucades amb un sol clic a contactes d’emergència desats, amistats o familiars, amb text suggerit perquè començar la conversa faci menys respecte.
També estem considerant funcions que permetrien a les persones activar voluntàriament que ChatGPT contacti, en nom seu, amb un contacte designat en casos greus.
Reforçar les proteccions per als adolescents.
Històricament, especificàvem un únic comportament ideal del model per a tots els nostres usuaris; a mesura que ChatGPT va créixer, vam començar a afegir proteccions addicionals quan sabem que l’usuari té menys de 18 anys. Continuem desenvolupant i desplegant salvaguardes que reconeixen les necessitats úniques de desenvolupament dels adolescents, amb barreres més estrictes al voltant del contingut sensible i dels comportaments de risc.
Aviat també introduirem control parental que donarà als pares opcions per obtenir més informació i influir en com els seus adolescents fan servir ChatGPT. També estem explorant fer possible que els adolescents (amb supervisió parental) designin un contacte d’emergència de confiança. D’aquesta manera, en moments de patiment agut, ChatGPT podrà fer més que indicar recursos: podrà ajudar a connectar directament els adolescents amb algú que pugui intervenir.
Som plenament conscients que les salvaguardes són més sòlides quan cada element funciona com s’espera. Continuarem millorant, guiats per experts i ancorats en la responsabilitat envers les persones que fan servir les nostres eines, i esperem que altres se sumin a nosaltres per ajudar a garantir que aquesta tecnologia protegeixi les persones en els moments de màxima vulnerabilitat.


