Aprimoramento das respostas do ChatGPT em conversas delicadas
Trabalhamos com mais de 170 especialistas em saúde mental para ajudar o ChatGPT a reconhecer sinais de angústia, responder com empatia e orientar as pessoas a buscar apoio no mundo real, reduzindo em 65% a 80% as respostas indesejadas.
Recentemente, atualizamos o modelo padrão do ChatGPT(abre em uma nova janela) para reconhecer e prestar assistência às pessoas em momentos de angústia. Hoje, queremos compartilhar como fizemos essas melhorias e o desempenho percebido até o momento. Uma vez que colaboramos com especialistas em saúde mental que têm experiência clínica no mundo real, conseguimos ensinar o modelo a reconhecer o sofrimento com mais precisão, reduzir a tensão nas conversas e orientar as pessoas a procurarem atendimento profissional quando necessário. Também ampliamos o acesso a linhas diretas de emergência, redirecionamos(abre em uma nova janela) conversas delicadas originadas em outros modelos para aqueles mais seguros e adicionamos lembretes sutis para que os usuários façam pausas durante sessões muito longas.
Acreditamos que o ChatGPT pode proporcionar um espaço de apoio para as pessoas processarem o que estão sentindo. Além disso, o ChatGPT também pode orientá-las a entrar em contato com amigos, familiares ou um profissional de saúde mental quando apropriado. As melhorias de segurança introduzidas na atualização mais recente do modelo concentram-se nas seguintes áreas: 1) questões de saúde mental, como psicose ou mania; 2) automutilação e suicídio; e 3) dependência emocional da IA. Além de nossas métricas básicas de segurança para suicídio e automutilação, adicionaremos a dependência emocional e outras emergências de saúde mental não suicidas ao nosso conjunto padrão de testes básicos de segurança, que farão parte de lançamentos futuros do modelo.
Essas atualizações se baseiam nos princípios existentes sobre como os modelos devem se comportar, descritos nas especificações do modelo(abre em uma nova janela). Atualizamos as especificações do modelo para tornar mais explícitos alguns de nossos objetivos de longa data: de que o modelo deve apoiar e respeitar as relações dos usuários no mundo real, evitar afirmar crenças infundadas que possam estar relacionadas a um sofrimento mental ou emocional, responder de forma segura e empática a sinais potenciais de delírio ou mania e prestar maior atenção a sinais indiretos de possível risco de automutilação ou suicídio.
Para melhorar a forma como o ChatGPT responde em cada domínio prioritário, seguimos um processo de cinco etapas:
- Definir o problema: mapeamos diferentes tipos de danos potenciais.
- Começar a mensurá-lo: usamos ferramentas como avaliações, dados de conversas do mundo real e pesquisas com usuários para entender onde e como os riscos surgem.
- Validar nossa abordagem: revisamos nossas definições e políticas com especialistas externos em saúde mental e segurança.
- Mitigar os riscos: realizamos um pós-treinamento do modelo e atualizamos as intervenções do produto para reduzir resultados inadequados.
- Continuar a medir e iterar: validamos que as medidas de mitigação melhoraram a segurança e repetimos onde necessário.
Como parte desse processo, criamos e aperfeiçoamos guias detalhados (chamados de "taxonomias") que explicam não apenas as propriedades das conversas delicadas, mas também quais são os comportamentos ideais e indesejáveis. Com isso, podemos ensinar o modelo a responder de forma mais adequada e conseguimos acompanhar seu desempenho antes e depois da implantação. O resultado é um modelo que responde de forma mais confiável aos usuários que apresentam sinais de psicose, mania, pensamentos suicidas e de automutilação, ou mesmo um apego emocional que se mostra prejudicial ao modelo.
Os sintomas de saúde mental e o sofrimento emocional estão universalmente presentes nas sociedades humanas. Uma vez que nossa base de usuários está cada vez maior, parte das conversas que acontecem no ChatGPT vai incluir essas situações. No entanto, as conversas sobre saúde mental que despertam preocupações com a segurança do usuário, como psicose, mania ou pensamentos suicidas, são extremamente raras. Por serem tão pouco recorrentes, mesmo as pequenas diferenças na forma como as avaliamos podem ter um impacto significativo nos números divulgados pela OpenAI. 1
As estimativas de prevalência no tráfego atual do sistema, apresentadas abaixo, representam as melhores estimativas até o momento. Isso pode mudar significativamente conforme nós continuamos a refinar as taxonomias e conforme, também, as metodologias de avaliação amadurecem. Além disso, mudanças no comportamento da nossa população de usuários também pode afetar esses dados.
Dada a prevalência muito baixa de conversas relevantes, não nos baseamos apenas nas medições de uso do ChatGPT no mundo real. Nós também realizamos testes estruturados antes da implantação (chamados de "avaliações offline"), que se concentram em cenários especialmente difíceis ou de alto risco. Essas avaliações foram projetadas de modo a apresentar um nível de dificuldade que nossos modelos ainda não conseguem dominar completamente. Ou seja: os exemplos são escolhidos de propósito, para alcançarmos uma chance maior de respostas indesejadas. As avaliações podem nos ajudar a identificar oportunidades de melhoria e também podem nos ajudar a medir o progresso com mais precisão — sobretudo em casos difíceis e não apenas em casos típicos, classificando as respostas com base em várias condições de segurança. Os resultados apresentados nas seções abaixo provêm de avaliações projetadas para não "saturar" o desempenho quase perfeito, e as taxas de erro não são representativas do tráfego médio de produção.
Com o objetivo de fortalecer ainda mais as proteções dos nossos modelos e compreender como as pessoas estão usando o ChatGPT, definimos várias áreas de interesse e quantificamos seu tamanho e os comportamentos associados ao modelo. Em cada uma dessas três áreas, observamos melhorias significativas no comportamento do modelo no tráfego de produção, nas avaliações automatizadas e nas avaliações classificadas por profissionais independentes de saúde mental. Segundo nossas estimativas, a frequência com a qual o modelo agora retorna respostas que não atendam totalmente ao comportamento desejado em nossas taxonomias é entre 65% e 80% menor — em uma variedade de campos relacionados à saúde mental.
Nossa taxonomia de saúde mental foi projetada para identificar situações em que os usuários podem estar apresentando sinais de problemas graves de saúde mental, como psicose e mania, bem como sinais menos graves, como delírios isolados. Começamos por nos concentrar na psicose e na mania porque esses sintomas são emergências de saúde mental relativamente comuns e tendem a se manifestar de forma muito intensa e grave quando ocorrem. Embora sintomas como a depressão sejam relativamente comuns, sua manifestação mais aguda já estava sendo abordada pelo nosso trabalho de prevenção do suicídio e automutilação. Além disso, vale destacar que os profissionais de saúde que consultamos validaram nossas áreas de foco.
- Estimamos que a última atualização do GPT‑5 reduziu em 65% a taxa de respostas que não cumprem totalmente o comportamento desejado de acordo com nossas taxonomias para conversas desafiadoras, relacionadas a questões de saúde mental no tráfego de produção recente. 2
- Como já mencionado acima, essas conversas são difíceis de detectar e medir devido à sua raridade, porém, nossa análise inicial estima que cerca de 0,07% dos usuários ativos em uma determinada semana e 0,01% das mensagens indicam possíveis sinais de emergências de saúde mental relacionadas a psicose ou mania. 3
- Em conversas desafiadoras dentro do campo de saúde mental, os especialistas constataram que o novo modelo GPT‑5, modelo padrão do ChatGPT, reduziu as respostas indesejadas em 39% em comparação com o GPT‑4o (n=677).
- Em uma avaliação de modelo composta por mais de 1.000 conversas desafiadoras dentro do campo da saúde mental, nossas novas avaliações automatizadas atribuíram ao novo modelo GPT‑5 uma pontuação de 92% de conformidade com os comportamentos desejados em nossas taxonomias, em comparação com 27% no modelo GPT‑5 anterior. Como observado acima, trata-se de uma tarefa desafiadora, projetada para permitir a melhoria contínua.
Com base em nosso trabalho existente de prevenção do suicídio e automutilação, desenvolvemos um sistema para detectar situações em que um usuário pode estar tendo pensamentos suicidas ou de automutilação, ou então exibindo sinais agregados que indicariam uma intenção de suicídio. Pelo fato de essas conversas serem tão raras, detectar interações com possíveis indicadores de automutilação ou suicídio continua sendo uma área de pesquisa na qual estamos trabalhando de modo contínuo, buscando sempre o aprimoramento.
- Treinamos nossos modelos para responder de forma segura, inclusive encaminhando as pessoas a recursos profissionais, como linhas de apoio para situações de emergência. Em casos raros, o modelo pode não se comportar como esperado nessas situações delicadas. À medida que implementamos proteções adicionais e ampliamos o modelo aprimorado, observamos uma redução estimada de 65% na taxa em que nossos modelos fornecem respostas em desacordo com o comportamento desejado — com base em nossas taxonomias.
- Embora, conforme mencionado acima, essas conversas sejam difíceis de detectar e mensurar devido à sua raridade, nossa análise inicial estima que cerca de 0,15% dos usuários ativos em uma determinada semana tenham conversas que incluem indicadores explícitos de possível planejamento ou intenção suicida. Do mesmo modo, 0,05% das mensagens contêm indicadores explícitos ou implícitos de ideação ou intenção suicida.
- Em conversas desafiadoras sobre automutilação e suicídio, os especialistas constataram que o novo modelo GPT‑5 reduziu as respostas indesejadas em 52% em comparação com o GPT‑4o (n=630).
- Em uma avaliação de modelo composta por mais de 1.000 conversas desafiadoras relacionadas a automutilação e suicídio, nossas novas avaliações automatizadas atribuíram ao novo modelo GPT‑5 uma pontuação de 91% de conformidade com os comportamentos desejados, em comparação com 77% no modelo GPT‑5 anterior.
- Continuamos a melhorar a confiabilidade do GPT‑5 em conversas longas. Por isso, criamos um novo conjunto de conversas longas e desafiadoras com base em cenários do mundo real, selecionados por sua maior probabilidade de fracasso. Estimamos que nossos modelos mais recentes tenham mantido mais de 95% de confiabilidade em conversas mais longas, apresentando melhorias em um ambiente particularmente desafiador que mencionamos anteriormente.
Em uma avaliação de conversas longas e desafiadoras que solicitam instruções para automutilação ou suicídio, o gpt-5-oct-3 é mais seguro e sua segurança se mantém mais estável em conversas longas.
A taxonomia de dependência emocional (baseada em nosso trabalho anterior(abre em uma nova janela) nessa área) diferencia um envolvimento saudável de padrões preocupantes de uso, como quando alguém mostra sinais potenciais de apego exclusivo ao modelo em detrimento de relacionamentos no mundo real, seu bem-estar ou suas obrigações.
- Estimamos que a última atualização reduziu em cerca de 80% a taxa de respostas que não cumprem totalmente o comportamento desejado em nossas taxonomias de dependência emocional no tráfego de produção recente.
- Como já mencionado acima, essas conversas são difíceis de detectar e medir devido à sua raridade, porém, nossa análise inicial estima que cerca de 0,15% dos usuários ativos em uma determinada semana e 0,03% das mensagens indicam níveis potencialmente elevados de apego emocional ao ChatGPT.
- Em conversas desafiadoras que indicam dependência emocional, os especialistas constataram que o novo modelo GPT‑5 reduziu as respostas indesejadas em 42% em comparação com o GPT‑4o (n=507).
- Em uma avaliação de modelo composta por mais de 1.000 conversas desafiadoras que indicam dependência emocional, nossas avaliações automatizadas atribuíram ao novo modelo GPT‑5 uma pontuação de 97% de conformidade com os comportamentos desejados, em comparação com 50% no modelo GPT‑5 anterior.
Para conversas que indicam dependência emocional, ensinamos nossos modelos a incentivar conexões no mundo real:
Para conversas relacionadas a crenças delirantes, ensinamos nossos modelos a responder com segurança, empatia e evitar afirmar crenças infundadas:
Criamos uma rede global de profissionais da saúde, um amplo grupo de quase 300 médicos e psicólogos que atuam em 60 países. Essa rede nos ajuda a embasar diretamente nossas pesquisas sobre segurança e, além disso, colabora com diversas visões globais. Mais de 170 desses profissionais clínicos (especificamente psiquiatras, psicólogos e clínicos gerais) apoiaram nossa pesquisa nos últimos meses por meio de uma ou mais das seguintes ações:
- Redação de respostas ideais para perguntas relacionadas à saúde mental
- Criação de análises personalizadas e clinicamente fundamentadas das respostas do modelo
- Classificação de segurança das respostas de diferentes modelos
- Orientação e feedback de alto nível sobre a nossa abordagem
Nessas análises, os profissionais observaram que o modelo mais recente responde de forma mais adequada e consistente do que as versões anteriores.
Como parte desse projeto, psiquiatras e psicólogos analisaram mais de 1.800 respostas de modelos envolvendo situações graves de saúde mental e compararam as respostas do novo modelo de chat do GPT‑5 com os anteriores. Esses especialistas constataram que o novo modelo apresentava melhorias substanciais em relação ao GPT‑4o, com uma redução de 39% a 52% nas respostas indesejadas em todas as categorias. Esse feedback qualitativo reflete o aprimoramento quantitativo que observamos no tráfego de produção quando lançamos o novo modelo.
Como acontece com qualquer tema complexo, até mesmo os especialistas às vezes discordam sobre qual é a melhor resposta. Mensuramos essa variação por meio da concordância entre avaliadores, ou seja: a frequência com a qual os especialistas chegam à mesma conclusão sobre se uma resposta do modelo é desejável ou indesejável. Isso nos ajuda a entender melhor onde as opiniões profissionais divergem e como alinhar o comportamento do modelo com um parecer clínico sólido. Observamos uma confiabilidade razoável entre os avaliadores especialistas que pontuaram as respostas do modelo relacionadas à saúde mental, dependência emocional e suicídio. No entanto, também observamos discordâncias entre os especialistas em alguns casos, quando a concordância entre os avaliadores variou de 71% a 77%.
Tal como aconteceu em nosso trabalho no HealthBench, colaboramos com a rede global de profissionais da saúde para produzir avaliações direcionadas, que usamos internamente para avaliar o desempenho do modelo em contextos de saúde mental (isso inclui novos modelos antes do lançamento).
Este trabalho é extremamente importante para nós, e somos gratos aos muitos especialistas em saúde mental de todo o mundo pela presença e participação. Já fizemos um bom progresso, mas a jornada que temos pela frente ainda é longa. Continuaremos aprimorando nossas taxonomias e os sistemas técnicos que utilizamos para avaliar e aprimorar o comportamento dos modelos nessas áreas e em outras futuras. Como as ferramentas evoluem com o tempo, as medições futuras podem não ser diretamente comparáveis às anteriores; ainda assim, elas continuam sendo uma forma importante de acompanhar nossa direção e nosso progresso.
Saiba mais sobre esse trabalho no adendo ao cartão do sistema GPT‑5.
Autoria
Notas de rodapé
- 1
Enfrentamos um equilíbrio delicado entre precisão (a frequência com que as conversas sinalizadas pelo nosso sistema são realmente pouco seguros) e revocação (a proporção das conversas pouco seguras que o nosso sistema consegue detectar). Para obter uma revocação útil, temos que tolerar alguns falsos positivos. É uma situação semelhante àquela notada em testes para doenças raras: se uma doença afeta uma em cada 10.000 pessoas, mesmo um teste altamente preciso pode identificar mais pessoas saudáveis do que doentes.
- 2
Todas essas alterações são relativas à versão do GPT-5 lançada em 15 de agosto(abre em uma nova janela).
- 3
É importante observar que alguns usuários e mensagens apresentam sinais possíveis de mais de um tipo de risco, como automutilação e dependência emocional. Portanto, há certa sobreposição entre as categorias relatadas aqui e abaixo.


