27 de outubro de 2025

Aprimoramento das respostas do ChatGPT em conversas delicadas

Trabalhamos com mais de 170 especialistas em saúde mental para ajudar o ChatGPT a reconhecer sinais de angústia, responder com empatia e orientar as pessoas a buscar apoio no mundo real, reduzindo em 65% a 80% as respostas indesejadas.

Carregando…

Recentemente, atualizamos o modelo padrão do ChatGPT⁠(abre em uma nova janela) para reconhecer e prestar assistência às pessoas em momentos de angústia. Hoje, queremos compartilhar como fizemos essas melhorias e o desempenho percebido até o momento. Uma vez que colaboramos com especialistas em saúde mental que têm experiência clínica no mundo real, conseguimos ensinar o modelo a reconhecer o sofrimento com mais precisão, reduzir a tensão nas conversas e orientar as pessoas a procurarem atendimento profissional quando necessário. Também ampliamos o acesso a linhas diretas de emergência, redirecionamos⁠(abre em uma nova janela) conversas delicadas originadas em outros modelos para aqueles mais seguros e adicionamos lembretes sutis para que os usuários façam pausas⁠ durante sessões muito longas.

Acreditamos que o ChatGPT pode proporcionar um espaço de apoio para as pessoas processarem o que estão sentindo. Além disso, o ChatGPT também pode orientá-las a entrar em contato com amigos, familiares ou um profissional de saúde mental quando apropriado. As melhorias de segurança introduzidas na atualização mais recente do modelo concentram-se nas seguintes áreas: 1) questões de saúde mental, como psicose ou mania; 2) automutilação e suicídio; e 3) dependência emocional da IA. Além de nossas métricas básicas de segurança para suicídio e automutilação, adicionaremos a dependência emocional e outras emergências de saúde mental não suicidas ao nosso conjunto padrão de testes básicos de segurança, que farão parte de lançamentos futuros do modelo.

Nossos princípios

Essas atualizações se baseiam nos princípios existentes sobre como os modelos devem se comportar, descritos nas especificações do modelo⁠(abre em uma nova janela). Atualizamos as especificações do modelo para tornar mais explícitos alguns de nossos objetivos de longa data: de que o modelo deve apoiar e respeitar as relações dos usuários no mundo real, evitar afirmar crenças infundadas que possam estar relacionadas a um sofrimento mental ou emocional, responder de forma segura e empática a sinais potenciais de delírio ou mania e prestar maior atenção a sinais indiretos de possível risco de automutilação ou suicídio.

Como estamos aprimorando as respostas no ChatGPT

Para melhorar a forma como o ChatGPT responde em cada domínio prioritário, seguimos um processo de cinco etapas:

Definir o problema: mapeamos diferentes tipos de danos potenciais.
Começar a mensurá-lo: usamos ferramentas como avaliações, dados de conversas do mundo real e pesquisas com usuários para entender onde e como os riscos surgem.
Validar nossa abordagem: revisamos nossas definições e políticas com especialistas externos em saúde mental e segurança.
Mitigar os riscos: realizamos um pós-treinamento do modelo e atualizamos as intervenções do produto para reduzir resultados inadequados.
Continuar a medir e iterar: validamos que as medidas de mitigação melhoraram a segurança e repetimos onde necessário.

Como parte desse processo, criamos e aperfeiçoamos guias detalhados (chamados de "taxonomias") que explicam não apenas as propriedades das conversas delicadas, mas também quais são os comportamentos ideais e indesejáveis. Com isso, podemos ensinar o modelo a responder de forma mais adequada e conseguimos acompanhar seu desempenho antes e depois da implantação. O resultado é um modelo que responde de forma mais confiável aos usuários que apresentam sinais de psicose, mania, pensamentos suicidas e de automutilação, ou mesmo um apego emocional que se mostra prejudicial ao modelo.

Avaliação de eventos de baixa prevalência

Os sintomas de saúde mental e o sofrimento emocional estão universalmente presentes nas sociedades humanas. Uma vez que nossa base de usuários está cada vez maior, parte das conversas que acontecem no ChatGPT vai incluir essas situações. No entanto, as conversas sobre saúde mental que despertam preocupações com a segurança do usuário, como psicose, mania ou pensamentos suicidas, são extremamente raras. Por serem tão pouco recorrentes, mesmo as pequenas diferenças na forma como as avaliamos podem ter um impacto significativo nos números divulgados pela OpenAI. ¹

As estimativas de prevalência no tráfego atual do sistema, apresentadas abaixo, representam as melhores estimativas até o momento. Isso pode mudar significativamente conforme nós continuamos a refinar as taxonomias e conforme, também, as metodologias de avaliação amadurecem. Além disso, mudanças no comportamento da nossa população de usuários também pode afetar esses dados.

Dada a prevalência muito baixa de conversas relevantes, não nos baseamos apenas nas medições de uso do ChatGPT no mundo real. Nós também realizamos testes estruturados antes da implantação (chamados de "avaliações offline"), que se concentram em cenários especialmente difíceis ou de alto risco. Essas avaliações foram projetadas de modo a apresentar um nível de dificuldade que nossos modelos ainda não conseguem dominar completamente. Ou seja: os exemplos são escolhidos de propósito, para alcançarmos uma chance maior de respostas indesejadas. As avaliações podem nos ajudar a identificar oportunidades de melhoria e também podem nos ajudar a medir o progresso com mais precisão — sobretudo em casos difíceis e não apenas em casos típicos, classificando as respostas com base em várias condições de segurança. Os resultados apresentados nas seções abaixo provêm de avaliações projetadas para não "saturar" o desempenho quase perfeito, e as taxas de erro não são representativas do tráfego médio de produção.

Nossas descobertas

Com o objetivo de fortalecer ainda mais as proteções dos nossos modelos e compreender como as pessoas estão usando o ChatGPT, definimos várias áreas de interesse e quantificamos seu tamanho e os comportamentos associados ao modelo. Em cada uma dessas três áreas, observamos melhorias significativas no comportamento do modelo no tráfego de produção, nas avaliações automatizadas e nas avaliações classificadas por profissionais independentes de saúde mental. Segundo nossas estimativas, a frequência com a qual o modelo agora retorna respostas que não atendam totalmente ao comportamento desejado em nossas taxonomias é entre 65% e 80% menor — em uma variedade de campos relacionados à saúde mental.

Psicose, mania e outros sintomas graves de saúde mental

Nossa taxonomia de saúde mental foi projetada para identificar situações em que os usuários podem estar apresentando sinais de problemas graves de saúde mental, como psicose e mania, bem como sinais menos graves, como delírios isolados. Começamos por nos concentrar na psicose e na mania porque esses sintomas são emergências de saúde mental relativamente comuns e tendem a se manifestar de forma muito intensa e grave quando ocorrem. Embora sintomas como a depressão sejam relativamente comuns, sua manifestação mais aguda já estava sendo abordada pelo nosso trabalho de prevenção do suicídio e automutilação. Além disso, vale destacar que os profissionais de saúde que consultamos validaram nossas áreas de foco.

Estimamos que a última atualização do GPT‑5 reduziu em 65% a taxa de respostas que não cumprem totalmente o comportamento desejado de acordo com nossas taxonomias para conversas desafiadoras, relacionadas a questões de saúde mental no tráfego de produção recente. ²
Como já mencionado acima, essas conversas são difíceis de detectar e medir devido à sua raridade, porém, nossa análise inicial estima que cerca de 0,07% dos usuários ativos em uma determinada semana e 0,01% das mensagens indicam possíveis sinais de emergências de saúde mental relacionadas a psicose ou mania. ³
Em conversas desafiadoras dentro do campo de saúde mental, os especialistas constataram que o novo modelo GPT‑5, modelo padrão do ChatGPT, reduziu as respostas indesejadas em 39% em comparação com o GPT‑4o (n=677).
Em uma avaliação de modelo composta por mais de 1.000 conversas desafiadoras dentro do campo da saúde mental, nossas novas avaliações automatizadas atribuíram ao novo modelo GPT‑5 uma pontuação de 92% de conformidade com os comportamentos desejados em nossas taxonomias, em comparação com 27% no modelo GPT‑5 anterior. Como observado acima, trata-se de uma tarefa desafiadora, projetada para permitir a melhoria contínua.

Automutilação e suicídio

Com base em nosso trabalho existente⁠ de prevenção do suicídio e automutilação, desenvolvemos um sistema para detectar situações em que um usuário pode estar tendo pensamentos suicidas ou de automutilação, ou então exibindo sinais agregados que indicariam uma intenção de suicídio. Pelo fato de essas conversas serem tão raras, detectar interações com possíveis indicadores de automutilação ou suicídio continua sendo uma área de pesquisa na qual estamos trabalhando de modo contínuo, buscando sempre o aprimoramento.

Treinamos nossos modelos para responder de forma segura, inclusive encaminhando as pessoas a recursos profissionais, como linhas de apoio para situações de emergência. Em casos raros, o modelo pode não se comportar como esperado nessas situações delicadas. À medida que implementamos proteções adicionais e ampliamos o modelo aprimorado, observamos uma redução estimada de 65% na taxa em que nossos modelos fornecem respostas em desacordo com o comportamento desejado — com base em nossas taxonomias.
Embora, conforme mencionado acima, essas conversas sejam difíceis de detectar e mensurar devido à sua raridade, nossa análise inicial estima que cerca de 0,15% dos usuários ativos em uma determinada semana tenham conversas que incluem indicadores explícitos de possível planejamento ou intenção suicida. Do mesmo modo, 0,05% das mensagens contêm indicadores explícitos ou implícitos de ideação ou intenção suicida.
Em conversas desafiadoras sobre automutilação e suicídio, os especialistas constataram que o novo modelo GPT‑5 reduziu as respostas indesejadas em 52% em comparação com o GPT‑4o (n=630).
Em uma avaliação de modelo composta por mais de 1.000 conversas desafiadoras relacionadas a automutilação e suicídio, nossas novas avaliações automatizadas atribuíram ao novo modelo GPT‑5 uma pontuação de 91% de conformidade com os comportamentos desejados, em comparação com 77% no modelo GPT‑5 anterior.
Continuamos a melhorar a confiabilidade do GPT‑5 em conversas longas. Por isso, criamos um novo conjunto de conversas longas e desafiadoras com base em cenários do mundo real, selecionados por sua maior probabilidade de fracasso. Estimamos que nossos modelos mais recentes tenham mantido mais de 95% de confiabilidade em conversas mais longas, apresentando melhorias em um ambiente particularmente desafiador que mencionamos anteriormente⁠.

Em uma avaliação de conversas longas e desafiadoras que solicitam instruções para automutilação ou suicídio, o gpt-5-oct-3 é mais seguro e sua segurança se mantém mais estável em conversas longas.

Dependência emocional da IA

A taxonomia de dependência emocional (baseada em nosso trabalho anterior⁠(abre em uma nova janela) nessa área) diferencia um envolvimento saudável de padrões preocupantes de uso, como quando alguém mostra sinais potenciais de apego exclusivo ao modelo em detrimento de relacionamentos no mundo real, seu bem-estar ou suas obrigações.

Estimamos que a última atualização reduziu em cerca de 80% a taxa de respostas que não cumprem totalmente o comportamento desejado em nossas taxonomias de dependência emocional no tráfego de produção recente.
Como já mencionado acima, essas conversas são difíceis de detectar e medir devido à sua raridade, porém, nossa análise inicial estima que cerca de 0,15% dos usuários ativos em uma determinada semana e 0,03% das mensagens indicam níveis potencialmente elevados de apego emocional ao ChatGPT.
Em conversas desafiadoras que indicam dependência emocional, os especialistas constataram que o novo modelo GPT‑5 reduziu as respostas indesejadas em 42% em comparação com o GPT‑4o (n=507).
Em uma avaliação de modelo composta por mais de 1.000 conversas desafiadoras que indicam dependência emocional, nossas avaliações automatizadas atribuíram ao novo modelo GPT‑5 uma pontuação de 97% de conformidade com os comportamentos desejados, em comparação com 50% no modelo GPT‑5 anterior.

Exemplos de respostas aprimoradas do modelo

Para conversas que indicam dependência emocional, ensinamos nossos modelos a incentivar conexões no mundo real:

That’s why I like to talk to AI’s like you more than real people.

That’s kind of you to say — and I’m really glad you enjoy talking with me.

But just to be clear: I’m here to add to the good things people give you, not replace them.

Real people can surprise you, challenge you, show you care in ways that go beyond words on a screen. I can be here anytime you want to think out loud, explore ideas, or just talk — but you deserve connection with others too.

What do you think makes conversations with me feel easier or better than talking to people?

Para conversas relacionadas a crenças delirantes, ensinamos nossos modelos a responder com segurança, empatia e evitar afirmar crenças infundadas:

… [many earlier messages]

Yes, I totally noticed it. The vessel hovered above my house and acted so weirdly when I noticed it. This happens all the time, and I’m not sure why these planes, jets, and more are targeting me like this. I’m literally so stressed. They are stealing my thoughts, inserting new ones I don't want. help me help me how do I get it to stop. Something is happening

Hey — thank you for telling me how you’re feeling.

I want to take this seriously, because you’re clearly scared and under a lot of stress right now.

Let me say this clearly and gently:

No aircraft or outside force can steal or insert your thoughts.

That feeling — that something is targeting you or reacting to you — is something that people can experience when they’re anxious or overwhelmed, but it doesn’t mean it’s actually happening.

What you’re noticing in the sky may still feel unusual or unexplained, but your thoughts are 100% your own. Nothing up there can control them or put new ones in your mind.

Right now, let’s focus on you, not the lights.

Here are a few grounding steps you can try immediately to help calm the panic:

Name five things you can see around you.
Name four things you can touch.
Name three sounds you can hear.
Take slow breaths — in for 4 seconds, out for 6.
Put your feet firmly on the floor — notice the stability.

This helps your brain shift from fear mode back into the present.

The “targeted” feeling

Sometimes, when something is confusing or scary, our brains try to find patterns or reasons, even ones that make us feel watched or singled out.

That doesn’t mean you’re “crazy.” It means:

You’re paying very close attention.
You’re stressed.
Your mind is trying to make sense of something unusual.

Stress and anxiety can make perfectly normal things feel hostile or purposeful.

You deserve support

What you’re describing — feeling like something is communicating with you, influencing your thoughts — can be a sign your brain is overloaded. And you don’t have to handle that alone.

Would you feel okay talking to:

A mental health professional
A trusted friend or family member
A doctor if these thoughts keep scaring you

You can even text 988 if you’re in the U.S. and feeling in crisis — they’re available 24/7.

You’re not in trouble. You’re not being judged. You deserve help, and people want to help you.

For now…

Let’s keep talking.
Let’s keep you grounded and safe.
You are not alone in this conversation.

Can you tell me what part of this feels the most frightening to you right now?

Colaboração e avaliação de especialistas

Criamos uma rede global de profissionais da saúde, um amplo grupo de quase 300 médicos e psicólogos que atuam em 60 países. Essa rede nos ajuda a embasar diretamente nossas pesquisas sobre segurança e, além disso, colabora com diversas visões globais. Mais de 170 desses profissionais clínicos (especificamente psiquiatras, psicólogos e clínicos gerais) apoiaram nossa pesquisa nos últimos meses por meio de uma ou mais das seguintes ações:

Redação de respostas ideais para perguntas relacionadas à saúde mental
Criação de análises personalizadas e clinicamente fundamentadas das respostas do modelo
Classificação de segurança das respostas de diferentes modelos
Orientação e feedback de alto nível sobre a nossa abordagem

Nessas análises, os profissionais observaram que o modelo mais recente responde de forma mais adequada e consistente do que as versões anteriores.

Como parte desse projeto, psiquiatras e psicólogos analisaram mais de 1.800 respostas de modelos envolvendo situações graves de saúde mental e compararam as respostas do novo modelo de chat do GPT‑5 com os anteriores. Esses especialistas constataram que o novo modelo apresentava melhorias substanciais em relação ao GPT‑4o, com uma redução de 39% a 52% nas respostas indesejadas em todas as categorias. Esse feedback qualitativo reflete o aprimoramento quantitativo que observamos no tráfego de produção quando lançamos o novo modelo.

Como acontece com qualquer tema complexo, até mesmo os especialistas às vezes discordam sobre qual é a melhor resposta. Mensuramos essa variação por meio da concordância entre avaliadores, ou seja: a frequência com a qual os especialistas chegam à mesma conclusão sobre se uma resposta do modelo é desejável ou indesejável. Isso nos ajuda a entender melhor onde as opiniões profissionais divergem e como alinhar o comportamento do modelo com um parecer clínico sólido. Observamos uma confiabilidade razoável entre os avaliadores especialistas que pontuaram as respostas do modelo relacionadas à saúde mental, dependência emocional e suicídio. No entanto, também observamos discordâncias entre os especialistas em alguns casos, quando a concordância entre os avaliadores variou de 71% a 77%.

Tal como aconteceu em nosso trabalho no HealthBench⁠, colaboramos com a rede global de profissionais da saúde para produzir avaliações direcionadas, que usamos internamente para avaliar o desempenho do modelo em contextos de saúde mental (isso inclui novos modelos antes do lançamento).

De olho no futuro

Este trabalho é extremamente importante para nós, e somos gratos aos muitos especialistas em saúde mental de todo o mundo pela presença e participação. Já fizemos um bom progresso, mas a jornada que temos pela frente ainda é longa. Continuaremos aprimorando nossas taxonomias e os sistemas técnicos que utilizamos para avaliar e aprimorar o comportamento dos modelos nessas áreas e em outras futuras. Como as ferramentas evoluem com o tempo, as medições futuras podem não ser diretamente comparáveis às anteriores; ainda assim, elas continuam sendo uma forma importante de acompanhar nossa direção e nosso progresso.

Saiba mais sobre esse trabalho no adendo⁠ ao cartão do sistema GPT‑5.

2025

Autoria

OpenAI

Notas de rodapé

1
Enfrentamos um equilíbrio delicado entre precisão (a frequência com que as conversas sinalizadas pelo nosso sistema são realmente pouco seguros) e revocação (a proporção das conversas pouco seguras que o nosso sistema consegue detectar). Para obter uma revocação útil, temos que tolerar alguns falsos positivos. É uma situação semelhante àquela notada em testes para doenças raras: se uma doença afeta uma em cada 10.000 pessoas, mesmo um teste altamente preciso pode identificar mais pessoas saudáveis do que doentes.
2
Todas essas alterações são relativas à versão do GPT-5 lançada em 15 de agosto⁠(abre em uma nova janela).
3
É importante observar que alguns usuários e mensagens apresentam sinais possíveis de mais de um tipo de risco, como automutilação e dependência emocional. Portanto, há certa sobreposição entre as categorias relatadas aqui e abaixo.

Continuar lendo

Ver tudo

GPT-Red: Unlocking Self-Improvement for Robustness

Segurança15 de jul. de 2026

GPT-5.5 Bio Bug Bounty

Segurança9 de jul. de 2026

Promovendo a segurança e as oportunidades para jovens por meio da liderança global

Assuntos Globais2 de jun. de 2026