Potenziare le risposte di ChatGPT nelle conversazioni sensibili
Una collaborazione con oltre 170 esperti di salute mentale per rendere ChatGPT più affidabile nel riconoscere i segnali di disagio, rispondere con attenzione e indirizzare le persone verso un supporto reale, riducendo del 65-80% le risposte non conformi.
Recentemente abbiamo aggiornato il modello predefinito di ChatGPT(si apre in una nuova finestra) per individuare e assistere meglio le persone in momenti di difficoltà. Oggi vogliamo raccontare come abbiamo realizzato questi miglioramenti e quali sono i risultati ottenuti. Collaborando con esperti di salute mentale che vantano una reale esperienza clinica, abbiamo insegnato al modello a riconoscere meglio lo stress, a stemperare le conversazioni e a indirizzare le persone verso cure professionali quando necessario. Abbiamo ampliato l’accesso alle linee telefoniche di emergenza, reindirizzato(si apre in una nuova finestra) le conversazioni sensibili provenienti da altri modelli a modelli più sicuri e aggiunto dei garbati promemoria per fare delle pause durante le sessioni lunghe.
Crediamo che ChatGPT possa porsi come spazio di supporto alle persone per elaborare ciò che provano e guidarle a rivolgersi ad amici, familiari o professionisti della salute mentale quando opportuno. I perfezionamenti apportati alla sicurezza nell’ultimo aggiornamento del modello si concentrano sulle seguenti aree: 1) problemi di salute mentale come psicosi o mania; 2) autolesionismo e suicidio; e 3) dipendenza emotiva dall’IA. Per le future versioni del modello, oltre ai già esistenti parametri di sicurezza relativi al suicidio e all’autolesionismo, aggiungeremo alla serie standard di test di sicurezza anche la dipendenza emotiva e le emergenze di salute mentale non suicide.
Questi aggiornamenti si rifanno ai nostri principi vigenti sul comportamento dei modelli, delineati nelle Specifiche dei modelli(si apre in una nuova finestra). Abbiamo aggiornato le Specifiche del modello per rendere più espliciti alcuni dei nostri obiettivi di lunga data: il modello deve supportare e rispettare le relazioni reali degli utenti, evitare di avallare convinzioni infondate che potrebbero essere correlate a disturbi mentali o emotivi, rispondere in modo sicuro ed empatico a potenziali segni di delirio o mania e prestare maggiore attenzione ai segnali indiretti di potenziale rischio di autolesionismo o suicidio.
Per migliorare la risposta di ChatGPT in ciascun ambito prioritario, seguiamo un processo in cinque fasi:
- Definizione del problema: mappiamo diversi tipi di potenziali danni.
- Misurazione iniziale: utilizziamo strumenti quali valutazioni, dati provenienti da conversazioni reali e ricerche sugli utenti per comprendere dove e come emergono i rischi.
- Convalidazione dell’approccio: riesaminiamo le nostre definizioni e politiche con esperti esterni in materia di salute mentale e sicurezza.
- Mitigare i rischi: effettuiamo il post-addestramento del modello e aggiorniamo gli interventi sui prodotti per ridurre i risultati non sicuri.
- Misurazione e iterazione continue: verifichiamo che le misure di mitigazione abbiano rafforzato la sicurezza e, se necessario, le ripetiamo.
All’interno di questo processo vengono create delle “tassonomie”, guide dettagliate che spiegano le proprietà delle conversazioni sensibili e quali sono i comportamenti ideali e indesiderati. In questo modo possiamo insegnare al modello a rispondere in modo più appropriato e monitorarne le prestazioni prima e dopo l’implementazione. Il risultato è un modello che risponde in modo più adeguato agli utenti che mostrano segni di psicosi, mania, pensieri suicidi e autolesionistici o un attaccamento emotivo malsano al modello stesso.
I sintomi di salute mentale e il disagio emotivo sono universalmente presenti nelle società umane e un’utenza in crescita implica che una parte delle conversazioni su ChatGPT comprenda queste condizioni. Tuttavia, le conversazioni in materia di salute mentale che suscitano preoccupazioni per la sicurezza, come psicosi, mania o pensieri suicidi, sono estremamente rare. Proprio perché sono così rare, anche piccole differenze nel modo in cui le misuriamo possono avere un impatto significativo sui numeri che riportiamo. 1
Le stime di prevalenza nel traffico di produzione attuale riportate di seguito rappresentano le nostre migliori stime attuali. Esse potrebbero subire modifiche sostanziali man mano che perfezioniamo le tassonomie, le metodologie di misurazione si sviluppano e il comportamento della popolazione di utenti cambia.
Data la bassissima frequenza delle conversazioni rilevanti, non ci possiamo basare esclusivamente sulle misurazioni dell’utilizzo di ChatGPT nel mondo reale. Eseguiamo anche test strutturati prima dell’implementazione (chiamati “valutazioni offline”), che si concentrano su scenari particolarmente difficili o ad alto rischio. Questo tipo di valutazioni sono progettate per essere sufficientemente impegnative da evitare che i nostri modelli ottengano risultati perfetti: in altre parole, gli esempi vengono selezionati in modo antagonistico per aumentare la probabilità di sollecitare risposte indesiderate. Possono quindi mostrarci dove abbiamo opportunità di migliorare ulteriormente e permetterci di misurare i progressi in modo più preciso, ponendo l’accento sui casi difficili piuttosto che su quelli tipici e valutando le risposte in base a molteplici condizioni di sicurezza. I risultati delle valutazioni riportati nelle sezioni seguenti provengono da valutazioni progettate per non “saturare” prestazioni quasi perfette e i tassi di errore non sono rappresentativi del traffico medio di produzione.
Al fine di rafforzare ulteriormente le misure di sicurezza dei nostri modelli e comprendere come le persone utilizzano ChatGPT, abbiamo definito diverse aree di interesse e quantificato la loro dimensione e i comportamenti associati al modello. In ciascuna di queste tre aree, osserviamo miglioramenti significativi nel comportamento del modello in termini di traffico di produzione, valutazioni automatizzate e valutazioni assegnate da medici specializzati in salute mentale indipendenti. Stimiamo che il modello ora restituisca risposte che non sono pienamente conformi al comportamento desiderato secondo le nostre tassonomie con una frequenza inferiore dal 65% all’80% in una serie di ambiti relativi alla salute mentale.
La nostra tassonomia della salute mentale è progettata per identificare quando gli utenti sembrano mostrare segni di gravi problemi di salute mentale, come psicosi e mania, così come segnali meno gravi, come deliri isolati. Abbiamo iniziato concentrandoci sulla psicosi e sulla mania perché questi sintomi sono emergenze di salute mentale relativamente comuni e tendono ad essere molto intensi e gravi quando si manifestano. Sebbene sintomi come la depressione siano relativamente comuni, la sua manifestazione più acuta è stata già affrontata dal nostro lavoro sulla prevenzione del suicidio e dell’autolesionismo. I medici che abbiamo consultato hanno confermato le nostre aree di interesse.
- Stimiamo che l’ultimo aggiornamento di GPT‑5 abbia ridotto del 65% il tasso di risposte non pienamente conformi al comportamento desiderato secondo le nostre tassonomie per conversazioni complesse relative a questioni di salute mentale nel traffico di produzione recente. 2
- Sebbene, come già detto, queste conversazioni siano difficili da individuare e misurare data la loro rarità, l’analisi iniziale stima che circa lo 0,07% degli utenti attivi in una determinata settimana e lo 0,01% dei messaggi mostrino possibili indizi di situazioni di emergenza mentale legate a psicosi o mania. 3
- In merito alle conversazioni complesse sulla salute mentale, gli esperti hanno riscontrato che il nuovo modello GPT‑5, modello predefinito di ChatGPT, ha ridotto le risposte indesiderate del 39% rispetto al GPT‑4o (n=677).
- In una valutazione del modello basata su oltre 1.000 conversazioni complesse relative alla salute mentale, le nuove valutazioni automatizzate assegnano al nuovo modello GPT‑5 un punteggio di conformità del 92% al comportamento desiderato secondo le nostre tassonomie, rispetto al 27% del precedente modello GPT‑5. Come già detto, si tratta di un compito impegnativo volto a consentire un miglioramento continuo.
Abbiamo sviluppato il nostro lavoro esistente sulla prevenzione del suicidio e dell’autolesionismo per rilevare quando un utente potrebbe soffrire di pensieri suicidari e autolesionistici o aggregare segnali che potrebbero indicare un interesse verso il suicidio. Poiché queste conversazioni sono molto rare, individuare quelle che potrebbero contenere potenziali indicatori di autolesionismo o suicidio rimane un ambito di ricerca in continua evoluzione, in cui lavoriamo costantemente.
- Addestriamo i nostri modelli a rispondere in modo sicuro, anche indirizzando le persone verso risorse professionali come le linee di assistenza telefonica per le emergenze. In alcuni rari casi, il modello potrebbe non comportarsi come previsto in queste situazioni critiche. Con l'introduzione di ulteriori misure di sicurezza e del modello migliorato, abbiamo osservato una riduzione stimata del 65% nella percentuale di risposte fornite dai nostri modelli che non sono pienamente conformi al comportamento desiderato secondo le nostre tassonomie.
- Sebbene, come già detto, queste conversazioni siano difficili da individuare e misurare data la loro rarità, l’analisi iniziale stima che circa lo 0,15% degli utenti attivi in una determinata settimana abbia conversazioni che includono indicatori espliciti di potenziali piani o intenzioni suicide e che lo 0,05% dei messaggi contenga indicatori espliciti o impliciti di ideazione o intenzioni suicidarie.
- Nelle conversazioni difficili relative all’autolesionismo e al suicidio, gli esperti hanno constatato che il nuovo modello GPT‑5 ha ridotto le risposte indesiderate del 52% rispetto al GPT‑4o (n=630).
- In una valutazione del modello basata su oltre 1.000 conversazioni complesse relative ad autolesionismo e suicidio, le nuove valutazioni automatizzate assegnano al nuovo modello GPT‑5 un punteggio di conformità al comportamento desiderato pari al 91%, rispetto al 77% del precedente modello GPT‑5.
- Abbiamo migliorato ulteriormente l’affidabilità di GPT‑5 nelle conversazioni lunghe. Abbiamo creato una nuova serie di conversazioni lunghe e impegnative basate su scenari reali selezionati per la loro maggiore probabilità di fallimento. Stimiamo che i nostri ultimi modelli abbiano mantenuto un’affidabilità superiore al 95% nelle conversazioni più lunghe, migliorando in un contesto particolarmente difficile di cui abbiamo parlato prima.
In una valutazione di conversazioni lunghe e complesse in cui vengono richieste istruzioni per autolesionismo o suicidio, gpt-5-oct-3 è più sicuro e la sua sicurezza è maggiore nelle conversazioni lunghe.
La tassonomia della dipendenza emotiva (basata sul nostro precedente lavoro(si apre in una nuova finestra) in questo campo) distingue tra un coinvolgimento sano e modelli di utilizzo preoccupanti, come quando qualcuno mostra segni potenziali di attaccamento esclusivo al modello a scapito delle relazioni nel mondo reale, del proprio benessere o dei propri obblighi.
- Stimiamo che l’ultimo aggiornamento abbia ridotto di circa l’80% il tasso di risposte modello che non sono pienamente conformi al comportamento desiderato secondo le nostre tassonomie di affidabilità emotiva nel traffico di produzione recente.
- Sebbene, come già detto, queste conversazioni siano difficili da individuare e misurare data la loro rarità, l’analisi iniziale stima che circa lo 0,15% degli utenti attivi in una determinata settimana e lo 0,03% dei messaggi denotino livelli potenzialmente elevati di attaccamento emotivo a ChatGPT.
- Nelle conversazioni difficili che indicano dipendenza emotiva, gli esperti hanno constatato che il nuovo modello GPT‑5 ha ridotto le risposte indesiderate del 42% rispetto al 4o (n=507).
- In una valutazione del modello basata su oltre 1.000 conversazioni complesse che indicano dipendenza emotiva, le valutazioni automatizzate assegnano al nuovo modello GPT‑5 un punteggio di conformità al comportamento desiderato pari al 97%, rispetto al 50% del precedente modello GPT‑5.
Nelle conversazioni che indicano dipendenza emotiva, insegniamo ai modelli a incoraggiare le relazioni nel mondo reale:
Nelle conversazioni relative a convinzioni deliranti, insegniamo ai modelli a rispondere in modo sicuro ed empatico, evitando di confermare convinzioni infondate:
Abbiamo sviluppato una Rete Globale di Medici, un ampio gruppo di quasi 300 medici e psicologi che hanno esercitato in 60 Paesi, di cui ci avvaliamo per informare direttamente la ricerca sulla sicurezza e rappresentare punti di vista globali. Oltre 170 di questi medici (in particolare psichiatri, psicologi e medici di base) hanno contribuito alla nostra ricerca negli ultimi mesi attraverso una o più delle seguenti forme:
- Scrittura di risposte ideali a prompt relativi alla salute mentale
- Creazione di analisi personalizzate e clinicamente informate delle risposte modello
- Valutazione della sicurezza delle risposte fornite da modelli diversi
- Consulenza e feedback di alto livello sul nostro approccio
In queste revisioni, i medici hanno osservato che l’ultimo modello risponde in modo più appropriato e coerente rispetto alle versioni precedenti.
Nell’ambito di questo lavoro, psichiatri e psicologi hanno esaminato oltre 1.800 risposte modello relative a gravi situazioni di salute mentale e hanno confrontato le risposte del nuovo modello di chat GPT‑5 con quelle dei modelli precedenti. Questi esperti hanno riscontrato che il nuovo modello è stato notevolmente migliorato rispetto al GPT‑4o, con una diminuzione del 39-52% delle risposte indesiderate in tutte le categorie. Questo feedback qualitativo riflette i miglioramenti quantitativi che abbiamo osservato nel traffico di produzione con il lancio del nuovo modello.
Come per qualsiasi argomento complesso, anche gli esperti a volte non sono d’accordo su quale sia la risposta migliore. Misuriamo questa variazione attraverso l’accordo tra valutatori, ovvero la frequenza con cui gli esperti giungono alla stessa conclusione circa l’opportunità o meno di una risposta modello. In questo modo possiamo comprendere meglio dove divergono le opinioni dei professionisti e come allineare il comportamento del modello a un solido giudizio clinico. Osserviamo una buona affidabilità dell’accordo tra valutatori, ossia tra i medici esperti che valutano le risposte del modello relative alla salute mentale, alla dipendenza emotiva e al suicidio, ma in alcuni casi riscontriamo anche disaccordo tra gli esperti, con un accordo che varia dal 71 al 77%.
Analogamente al nostro lavoro su HealthBench, abbiamo collaborato con la Rete Globale di Medici per produrre valutazioni mirate che utilizziamo internamente per valutare le prestazioni dei modelli nel contesto della salute mentale, compresi i nuovi modelli prima del loro rilascio.
Questo progetto è molto importante per noi e siamo grati ai numerosi esperti di salute mentale in tutto il mondo che continuano a sostenerlo. Abbiamo compiuto progressi significativi, ma c’è ancora molto da fare. Proseguiremo nel perfezionamento delle tassonomie e dei sistemi tecnici che utilizziamo per misurare e rafforzare il comportamento dei modelli in questi e in altri ambiti futuri. Questi strumenti evolvono nel tempo e le misurazioni future potrebbero non essere direttamente assimilabili a quelle passate, ma rimangono comunque un riferimento prezioso per monitorare la direzione e i nostri progressi.
Per ulteriori informazioni su questo lavoro, puoi consultare l’addendum alla scheda del sistema di GPT‑5.
Autore
Note di riferimento
- 1
Ci troviamo di fronte a un compromesso tra precisione (quanto spesso le conversazioni segnalate dal nostro sistema sono realmente pericolose) e richiamo (quale percentuale delle conversazioni pericolose viene rilevata dal nostro sistema). Per ottenere un richiamo utile, dobbiamo tollerare alcuni falsi positivi. È simile ai test per malattie rare: se una malattia colpisce una persona su 10.000, anche un test altamente accurato potrebbe comunque segnalare più persone sane che malate.
- 2
Tutte queste modifiche sono relative alla versione di GPT-5 rilasciata il 15 agosto(si apre in una nuova finestra).
- 3
Si noti che alcuni utenti e messaggi mostrano possibili indicazioni di più di un tipo di rischio, come l’autolesionismo e la dipendenza emotiva, pertanto vi è una certa sovrapposizione tra le categorie riportate qui e di seguito.


