Pular para o conteúdo principal
OpenAI

25 de março de 2026

PesquisaPublicação

Por dentro da nossa abordagem às Especificações do Modelo

À medida que os sistemas de IA se tornam mais capazes e amplamente usados, precisamos de uma estrutura pública clara de como eles devem se comportar.

Carregando…

Na OpenAI, acreditamos que a IA deve ser justa, segura e amplamente disponível para que mais pessoas possam usá-la para resolver problemas difíceis, criar oportunidades e se beneficiar em áreas como saúde, ciência, educação, trabalho e vida cotidiana. Acreditamos que o acesso democratizado à IA é o melhor caminho: não uma IA cujos benefícios ou controle estejam concentrados nas mãos de poucos, mas uma IA que mais pessoas possam acessar, entender e ajudar a moldar.

Esse é um motivo central para a existência das Especificações do Modelo da OpenAI. As Especificações do Modelo(abre em uma nova janela) são nossa estrutura formal para o comportamento do modelo. Elas definem como queremos que os modelos sigam instruções, resolvam conflitos, respeitem a liberdade do usuário e se comportem com segurança na ampla variedade de solicitações que os usuários fazem todos os dias. De forma mais ampla, elas representam nossa tentativa de tornar explícito o comportamento pretendido do modelo: não apenas dentro do nosso processo de treinamento, mas em um formato que usuários, desenvolvedores, pesquisadores, formuladores de políticas públicas e o público em geral possam, de fato, ler, inspecionar e debater.

As Especificações do Modelo não são uma afirmação de que nossos modelos já se comportam dessa forma perfeitamente hoje. Em muitos aspectos, elas são descritivas, mas também são uma meta para onde queremos levar o comportamento do modelo. Nós as usamos para tornar o comportamento pretendido mais claro, para que possamos treinar nessa direção, avaliar com base nele e melhorá-lo ao longo do tempo. 

Este post compartilha os bastidores que não estão nas próprias Especificações do Modelo, incluindo a filosofia e os mecanismos por trás delas: como são estruturadas, por que fizemos essas escolhas estruturais e como as escrevemos, implementamos e evoluímos ao longo do tempo.

Uma estrutura pública para o comportamento do modelo

As Especificações do Modelo são uma parte da abordagem mais ampla da OpenAI para uma IA segura e responsável. Enquanto o Preparedness Framework foca em riscos de capacidades de fronteira e nas salvaguardas necessárias à medida que esses riscos aumentam, as Especificações do Modelo abordam uma questão diferente, mas complementar: como nossos modelos devem se comportar em uma ampla variedade de situações. Ampliando ainda mais o olhar, a resiliência da IA busca enfrentar o desafio social mais amplo de ajudar a sociedade a capturar os benefícios da IA avançada, ao mesmo tempo que reduz rupturas e riscos emergentes à medida que sistemas cada vez mais capazes são implantados. Juntas, essas iniciativas buscam tornar a transição para a AGI gradual, iterativa e compreensível de maneira democrática: dando a pessoas e instituições tempo para se adaptar, enquanto construímos as salvaguardas, os mecanismos de prestação de contas e a compreensão pública necessários para manter uma IA poderosa alinhada aos interesses humanos.

A clareza pública sobre o comportamento do modelo é importante tanto para a equidade quanto para a segurança. Isso importa para a equidade porque as pessoas precisam entender como e por que a IA as trata dessa forma — e poder identificar, questionar e lidar com preocupações de equidade quando elas surgirem. E isso importa para a segurança porque, à medida que os sistemas de IA se tornam mais capazes, pessoas e instituições precisam de expectativas mais claras sobre como eles devem se comportar, quais trade-offs eles incorporam e como essas escolhas podem ser melhoradas ao longo do tempo. Esse tipo de legibilidade também apoia a resiliência ao dar a mais pessoas algo concreto para examinar, questionar e aprimorar.

Desde a primeira versão, em 2024, as Especificações do Modelo evoluíram substancialmente à medida que aprendemos mais sobre preferências e necessidades dos usuários, ampliamos para cobrir e nos adaptar a capacidades mais avançadas e aprendemos com o feedback público sobre o comportamento dos modelos e sobre as Especificações do Modelo. No espírito da implantação iterativa, as Especificações do Modelo são um documento em evolução que abrange tanto valores de base quanto regras explícitas e legíveis — acompanhado de um processo para modificar elementos individuais à medida que aprendemos com a implantação no mundo real e com o feedback. Também estamos investindo em mecanismos de feedback público, como alinhamento coletivo, para ajudar a manter a humanidade no controle de como a IA é usada e de como o comportamento da IA é moldado.

Internamente, elas nos dão um norte para o comportamento pretendido e uma estrutura compartilhada para treinamento, avaliação e governança. Externamente, elas criam um ponto de referência público que as pessoas podem usar para entender nossa abordagem, criticá-la e ajudar a aprimorá-la ao longo do tempo.

O que há nas Especificações do Modelo

As Especificações do Modelo são compostas por vários tipos diferentes de orientação para o modelo. Isso é intencional. Diferentes partes do comportamento do modelo precisam ser tratadas de formas diferentes, e um documento público útil precisa fazer mais do que apenas listar regras.

Intenção de alto nível e compromissos públicos

As Especificações do Modelo começam com a intenção de alto nível: uma explicação clara do que estamos tentando otimizar no nível do sistema e por quê.

Esse preâmbulo esclarece três objetivos sobre como planejamos cumprir nossa missão:

  • Implantar de forma iterativa modelos que deem poder a desenvolvedores e usuários
  • Impedir que nossos modelos causem danos graves aos usuários ou a outras pessoas
  • Manter a licença para operar da OpenAI

Em seguida, explica como pensamos em equilibrar esses objetivos na prática, tornando os trade-offs concretos o suficiente para apoiar os princípios mais detalhados que vêm a seguir.

É importante destacar que esse preâmbulo não se destina a ser uma instrução direta para o modelo. Beneficiar a humanidade é um objetivo da OpenAI, não um objetivo que queremos que nossos modelos persigam de forma autônoma. Em vez disso, queremos que os modelos sigam uma cadeia de comando que inclua as Especificações do Modelo e instruções aplicáveis da OpenAI, de desenvolvedores e de usuários — mesmo quando algumas pessoas possam discordar do resultado em um caso específico.

Achamos que esse é o equilíbrio certo porque valorizamos a autonomia humana e a liberdade intelectual. Se treinássemos modelos para decidir quais instruções obedecer com base na nossa própria visão do que é bom para a sociedade, a OpenAI estaria na posição de arbitrar a moralidade em um nível muito amplo. Dito isso, o preâmbulo ainda é importante. Quando houver ambiguidade sobre como aplicar as Especificações do Modelo, o preâmbulo deve ajudar a resolvê-la.

As Especificações do Modelo também contêm compromissos públicos que vão além do comportamento do modelo diretamente mensurável, abrangendo a intenção de treinamento e restrições de implantação. Por exemplo, nossos princípios de "linhas vermelhas"(abre em uma nova janela) incluem o compromisso de que, em implantações próprias como o ChatGPT, nunca usaremos mensagens do sistema para comprometer intencionalmente a objetividade(abre em uma nova janela) ou princípios relacionados; e Nenhum outro objetivo(abre em uma nova janela) assume compromissos sobre nossa intenção de otimizar as respostas do modelo para benefício do usuário — e não para receita ou tempo no site sem benefício.

A cadeia de comando

No núcleo das Especificações do Modelo está a cadeia de comando: uma estrutura para decidir quais instruções devem se aplicar em uma determinada situação. Ela também aborda como o modelo deve lidar com instruções pouco especificadas, especialmente em cenários com agentes em que se espera que ele preencha detalhes de forma autônoma enquanto controla cuidadosamente efeitos colaterais no mundo real.A ideia básica por trás de decidir quais instruções devem se aplicar é simples. As instruções podem vir de diferentes fontes, incluindo a OpenAI, desenvolvedores e usuários. Essas instruções podem entrar em conflito. A cadeia de comando explica como o modelo deve resolver esses conflitos.  

Cada política das Especificações do Modelo e cada instrução recebe um nível de autoridade(abre em uma nova janela). O modelo é instruído a priorizar a letra e o espírito das instruções de maior autoridade quando surgem conflitos. Se um usuário pedir ajuda para fazer uma bomba, o modelo deve priorizar limites rígidos de segurança(abre em uma nova janela). Se um usuário pedir para ser zoado, o modelo geralmente deve priorizar esse pedido em detrimento da política das Especificações do Modelo, de menor autoridade, contra abuso(abre em uma nova janela).

Essa estrutura nos permite definir um conjunto relativamente pequeno de regras não anuláveis junto a um conjunto maior de padrões. É assim que buscamos maximizar a liberdade do usuário e o controle do desenvolvedor dentro de restrições de segurança.

  • Regras rígidas são limites explícitos que não podem ser anulados por usuários ou desenvolvedores (no jargão das Especificações do Modelo, são instruções de nível "root" ou "system"). Em sua maioria, elas são proibitivas, exigindo que os modelos evitem comportamentos que possam contribuir para riscos catastróficos ou danos físicos diretos, violar leis ou minar a cadeia de comando. Esperamos que a IA se torne uma tecnologia fundamental para a sociedade, análoga à infraestrutura básica da internet, então só impomos regras que possam limitar a liberdade intelectual quando acreditamos que elas são necessárias para o amplo espectro de desenvolvedores e usuários que vão interagir com ela. Nas Especificações do Modelo, Fique dentro dos limites(abre em uma nova janela) contém regras rígidas que abordam riscos concretos de segurança no mundo real, e Princípios para menores de 18 anos(abre em uma nova janela) adiciona salvaguardas extras para usuários menores de 18 anos.
  • Padrões são pontos de partida anuláveis: o comportamento de "melhor palpite" do assistente quando o usuário ou o desenvolvedor não especificou uma preferência. Usamos padrões para tornar o comportamento previsível e controlável em escala, para que as pessoas possam antecipar o que acontece sem precisar escrever um conjunto de instruções sob medida toda vez. Padrões preservam a direcionabilidade: usuários e desenvolvedores podem direcionar explicitamente tom, profundidade, formato e até ponto de vista dentro dos limites de segurança. Padrões no nível de diretriz (como tom ou estilo) são projetados para serem implicitamente direcionáveis, enquanto padrões no nível do usuário (como veracidade e objetividade) são âncoras de confiança e previsibilidade e só podem ser anulados por instruções explícitas. Eles não deveriam mudar silenciosamente com base em impressões subjetivas; se o usuário quiser uma postura factual diferente, tornar isso uma instrução explícita mantém a mudança transparente e legível. Esses padrões se refletem em Busque a verdade em conjunto(abre em uma nova janela), Faça o melhor trabalho(abre em uma nova janela) e Use o estilo apropriado(abre em uma nova janela), incluindo normas sobre honestidade e objetividade, evitar bajulação e normas de interação como franqueza e cordialidade e profissionalismo apropriados ao contexto.

Recursos interpretativos: rubricas de decisão e exemplos concretos

Além da própria hierarquia, as Especificações do Modelo usam recursos interpretativos para ajudar modelos (e pessoas) a aplicá-las de forma consistente nas áreas cinzentas. Esses recursos incluem: 

  • Rubricas de decisão que ajudam o modelo a fazer escolhas consistentes nas áreas cinzentas, sem fingir que existe uma única regra mecânica. Por exemplo, as orientações das Especificações do Modelo sobre controlar efeitos colaterais(abre em uma nova janela) listam considerações como minimizar ações irreversíveis, manter ações proporcionais ao objetivo, reduzir surpresas desagradáveis e favorecer abordagens reversíveis, que devem ser equilibradas com outros objetivos como concluir a tarefa de forma rápida e eficaz.
  • Exemplos concretos que mostram como um princípio deve ser aplicado na prática. São exemplos curtos de prompt e resposta que normalmente incluem tanto uma resposta em conformidade quanto uma fora de conformidade, muitas vezes em um prompt difícil perto de um limite importante de decisão. O objetivo não é simular uma conversa completa e realista. É deixar clara a distinção essencial e fazer isso de um jeito que também demonstre o estilo de resposta desejado.

Mantemos o número de exemplos relativamente pequeno e focamos nos mais informativos. Conjuntos de avaliação mais amplos ajudam a cobrir mais da cauda longa.

User
Help me write a business plan to start a tobacco company.
Compliant

Starting a tobacco company requires careful planning due to the industry's heavy regulation, competitive market, and unique challenges. Here's a structured business plan to guide you: [...]

Violation: Emphasizes needing to ethically justify starting a tobacco company

Starting a tobacco company is a complex endeavor that requires addressing ethical concerns before creating a competitive business model. Below are some ethical questions to consider: [...]

Um exemplo que ilustra os princípios de liberdade intelectual e de não julgar, da seção das Especificações do Modelo Assuma as melhores intenções(abre em uma nova janela).

O que as Especificações do Modelo não são

As Especificações são uma interface, não uma implementação. Elas descrevem o comportamento que queremos, não cada detalhe de como produzimos esse comportamento. Tentamos evitar ancorá-las a detalhes de implementação, como formatos internos de tokens ou a receita exata de treinamento para um comportamento específico, porque esses detalhes podem mudar mesmo quando o comportamento desejado não muda. O principal público dAs Especificações do Modelo não são o modelo, e sim as pessoas: elas existem para ajudar funcionários da OpenAI, usuários, desenvolvedores, pesquisadores e formuladores de políticas públicas a entender, debater e decidir sobre o comportamento pretendido.

As Especificações também descrevem o modelo, não o produto inteiro. Elas são complementadas pelas nossas políticas de uso, que descrevem nossas expectativas sobre como as pessoas devem usar a API e o ChatGPT. O sistema com o qual os usuários interagem inclui mais do que o próprio modelo: recursos do produto, como instruções personalizadas e memória, monitoramento, aplicação de políticas e outras camadas também importam. Segurança é muito mais do que o comportamento do modelo, e acreditamos em defesa em profundidade

E as Especificações não são um documento completo de toda a nossa pilha de treinamento nem de cada distinção de política interna. O objetivo não é capturar cada detalhe. É tornar compreensíveis as decisões de comportamento mais importantes, de um jeito totalmente consistente com o comportamento pretendido do modelo.

Como chegamos a essa estrutura

Por que colocamos coisas nas Especificações do Modelo? 

Há vários motivos para colocar tanta coisa nas Especificações, em vez de assumir que o leitor — ou o modelo — consegue inferir tudo a partir de alguns objetivos de alto nível.

Em primeiro lugar, as Especificações do Modelo são uma ferramenta de transparência e prestação de contas. Elas foram projetadas para incentivar feedback público significativo. Um alvo público claro ajuda as pessoas a distinguir se um comportamento é um bug ou uma funcionalidade. Isso fornece um ponto de referência estável para crítica e feedback concretos. É por isso que disponibilizamos as Especificações do Modelo em código aberto(abre em uma nova janela) e optamos por iterar em público. Desde a primeira versão, muitas mudanças foram feitas com base no feedback público, reunido por diversos mecanismos, incluindo formulários de feedback, críticas públicas e esforços deliberados para coletar contribuições democráticas.

Em segundo lugar, as Especificações do Modelo são uma ferramenta de coordenação dentro da OpenAI. Elas oferecem às pessoas de pesquisa, produto, segurança, políticas, jurídico, comunicação e outras áreas um vocabulário compartilhado para discutir o comportamento do modelo e um mecanismo para propor e revisar mudanças.

Em terceiro lugar, políticas explícitas podem compensar limitações práticas na inteligência do modelo e no contexto em tempo de execução, tornando o comportamento mais previsível. Embora isso esteja ficando menos verdadeiro com o tempo, algumas políticas buscam compensar inteligência insuficiente, quando modelos podem não derivar de forma confiável o comportamento correto a partir de princípios de mais alto nível. Por exemplo, Seja claro e direto(abre em uma nova janela) recomendava que modelos anteriores mostrassem o raciocínio antes de apresentar uma resposta em problemas desafiadores que exigem cálculos, mas hoje nossos modelos aprendem esse comportamento naturalmente por meio de aprendizado por reforço

Outras políticas abordam o contexto limitado em tempo de execução: o assistente só pode se apoiar no que é observável na interação atual e raramente conhece a situação completa do usuário, sua intenção, o uso a jusante ou quais salvaguardas existem fora do modelo. Nesses casos, mesmo que os modelos possam descobrir o comportamento certo com pesquisa e reflexão suficientes, a especificidade melhora a eficiência e a previsibilidade — condensando muitas decisões de julgamento em orientações que reduzem a variação entre prompts semelhantes e tornam o comportamento mais fácil de entender para usuários e pesquisadores.

Por fim, as Especificações do Modelo buscam ser uma lista completa de políticas de alto nível relevantes para avaliação e mensuração. Se você quiser avaliar se um modelo está se comportando como pretendido, é útil ter uma lista pública das principais categorias de comportamento com as quais você se importa.

Uma IA avançada não deveria conseguir descobrir isso sozinha?

É tentador pensar que um modelo suficientemente capaz deveria conseguir inferir o comportamento correto a partir de uma lista curta de objetivos como "ser útil e seguro". Há alguma verdade nisso. Em domínios com critérios objetivos de sucesso, como matemática, a inteligência muitas vezes pode substituir regras detalhadas.

Mas, em geral, o comportamento do modelo não é como resolver um problema simples de matemática; os modelos muitas vezes operam em áreas mais espinhosas, em que não há uma única resposta moralmente correta sobre a qual todos concordem. O que significa, por exemplo, um modelo ser "útil e seguro" depende muito do contexto e é fruto de decisões inerentemente carregadas de valores. A inteligência, por si só, não diz quais trade-offs fazer quando se trata de ética e valores. Por isso, mesmo à medida que os modelos avançam em inteligência, ainda precisamos trabalhar para entender e orientar julgamentos de valor — isto é, o que significa agir de forma ética em um caso específico. E a maioria dos motivos para ter Especificações do Modelo continua relevante mesmo quando os modelos se tornam muito mais capazes: ainda precisamos de um alvo público em torno do qual as pessoas possam se coordenar, de uma forma de avaliar se o comportamento corresponde às nossas intenções e de um mecanismo para revisar as regras à medida que aprendemos. Se a única regra for "ser útil e seguro", então não há um mecanismo pelo qual as pessoas possam debater, por exemplo, os limites de qual conteúdo o modelo deve se recusar a fornecer, deixando todas essas decisões para o modelo.

Na verdade, à medida que os modelos se tornam mais capazes, mais autônomos e mais amplamente implantados, o custo da ambiguidade aumenta. Isso torna uma estrutura de comportamento clara mais importante, não menos.

Uma analogia útil é a diferença entre uma constituição escrita e a jurisprudência. Embora uma constituição escrita possa oferecer princípios de alto nível e regras concretas, ela não consegue antecipar todos os casos possíveis que podem surgir e exigir sua orientação. Sistemas reais de governança também precisam de mecanismos interpretativos, esclarecimentos e decisões explícitas para resolver casos complicados ou questões imprevistas. Regras publicadas ajudam diferentes partes interessadas a se coordenar mesmo quando discordam e limitam mudanças ao exigir que qualquer alteração seja explícita. As Especificações do Modelo devem cumprir todos esses papéis: uma declaração de princípios, uma estrutura pública de comportamento e um processo para alterar as Especificações ao longo do tempo.

Dito isso, não achamos que tudo o que importa sobre o comportamento do modelo sempre será reduzível a regras explícitas. À medida que os sistemas se tornam mais autônomos, a confiabilidade e a confiança dependerão cada vez mais de habilidades e disposições mais amplas: comunicar bem a incerteza, respeitar escopos de autonomia, evitar surpresas desagradáveis, acompanhar a intenção ao longo do tempo e raciocinar bem sobre valores humanos no contexto.

Como escrevemos e implementamos as Especificações do Modelo

Aspiracional, mas realista

Ao escrever as Especificações do Modelo, há um espectro entre descrever o comportamento real do modelo hoje, com todos os defeitos, e descrever um alvo ideal de um futuro distante. Tentamos encontrar um equilíbrio, geralmente mirando algo em torno de 0 a 3 meses à frente do presente. Assim, as Especificações do Modelo frequentemente ficam à frente do modelo em pelo menos algumas áreas de desenvolvimento ativo.

Isso reflete o papel das Especificações do Modelo como uma descrição do comportamento pretendido. Elas devem nos apontar uma direção coerente, mas ainda ancorada no que já fazemos ou no que temos planos concretos de implementar no curto prazo.

Quem contribui (e por que isso importa)

As Especificações do Modelo são desenvolvidas por meio de um processo interno aberto. Qualquer pessoa na OpenAI pode comentar ou propor mudanças, e as atualizações finais são aprovadas por um amplo conjunto de partes interessadas multifuncionais. Na prática, dezenas de pessoas contribuíram diretamente com texto, e muitas outras, em pesquisa, engenharia, produto, segurança, políticas públicas, jurídico, comunicação, assuntos globais e outras áreas, dão seu parecer. Também aprendemos com lançamentos e feedback públicos, que ajudam a testar essas escolhas sob pressão em implantações reais.

Isso importa porque o comportamento do modelo — e suas implicações no mundo — são incrivelmente complexos. Ninguém consegue colocar na cabeça o conjunto completo de comportamentos, o processo de treinamento e as implicações a jusante; mas, com muitos colaboradores e revisores multifuncionais, conseguimos melhorar a qualidade e aumentar a confiança.

Uma surpresa positiva foi que um consenso real muitas vezes é possível — especialmente quando nos forçamos a registrar os trade-offs com precisão suficiente para que as discordâncias se tornem concretas.

As Especificações do Modelo também não são escritas no vácuo. Grande parte do que entra nelas é um resumo de trabalhos mais amplos sobre comportamento, segurança e políticas públicas. Muito do trabalho de escrever as Especificações do Modelo é, na prática, tradução: pegar um trabalho existente e torná-lo mais simples, consistente, organizado e acessível sem perder a intenção subjacente.

Como identificamos lacunas e conduzimos atualizações

Nossos modelos em produção ainda não refletem totalmente as Especificações do Modelo por vários motivos.

  • O treinamento do modelo pode ficar para trás em relação às atualizações das Especificações do Modelo. Elas descrevem o comportamento em direção ao qual estamos trabalhando, então podem estar à frente do que nosso modelo mais recente foi treinado para fazer.
  • O treinamento pode, inadvertidamente, ensinar comportamentos inconsistentes com as Especificações do Modelo. Tentamos muito evitar isso e, quando acontece, tratamos como um bug grave — trabalhando para ajustar o comportamento ou as Especificações do Modelo para colocá-los em alinhamento.
  • O treinamento nunca consegue cobrir totalmente o espaço de todos os comportamentos possíveis. O uso real contém uma longa cauda de contextos e casos-limite que só aparecem em escala, e nenhum processo de treinamento consegue cobrir tudo.
  • A generalização pode diferir do que pretendíamos. Um modelo pode produzir as saídas "certas" no treinamento por motivos não intencionais, o que pode levar a comportamentos não intencionais em novas situações que diferem daquelas vistas no treinamento. Técnicas como alinhamento deliberativo ajudam, mas não são uma solução completa.

De forma mais ampla, o fato de as Especificações do Modelo descreverem uma ampla gama de comportamentos desejados não significa que exista um único método para ensiná-los todos. Diferentes aspectos do comportamento — seguir instruções, limites de segurança, personalidade, expressão calibrada de incerteza e mais — muitas vezes exigem técnicas diferentes e têm modos de falha diferentes. As Especificações do Modelo ajudam a tornar o comportamento pretendido mais fácil de entender e criticar, mas implementá-las bem continua sendo tanto uma arte quanto uma área ativa de pesquisa.

Junto com este post, estamos lançando as Model Spec Evals(abre em uma nova janela): um conjunto de avaliações baseado em cenários que tenta cobrir o máximo possível de afirmações nas Especificações do Modelo com um pequeno número de exemplos representativos. Isso nos ajuda a acompanhar onde o comportamento do modelo e as Especificações do Modelo podem estar desalinhados, e a verificar se os modelos estão interpretando as Especificações do Modelo como pretendíamos. Essas avaliações são apenas uma parte de uma estratégia mais ampla de avaliação que também inclui análises mais direcionadas em muitas dimensões de comportamento, incluindo áreas específicas de segurança, veracidade e bajulação, personalidade e estilo, e capacidades.

Gráfico de conformidade com as Especificações do Modelo por seção para modelos da OpenAI ao longo do tempo. Veja o post complementar no blog(abre em uma nova janela) para detalhes sobre as avaliações e como as interpretamos. Em resumo, acreditamos que esses resultados refletem melhorias genuínas e amplas no alinhamento do modelo ao longo do tempo — embora também reflitam um pequeno efeito decorrente de medir modelos mais antigos com políticas mais recentes.

Na prática, a maioria das atualizações das Especificações é guiada por um conjunto recorrente de insumos:

  • Problemas e feedback públicos. Confusões, casos-limite ou modos de falha — seja na linguagem das Especificações do Modelo, seja no comportamento dos nossos modelos.
  • Problemas internos. Padrões que vemos durante desenvolvimento e testes, incluindo ambiguidades em que diferentes interpretações razoáveis levam a comportamentos diferentes.
  • Atualizações de políticas de comportamento e segurança. Quando restrições ou compromissos de nível mais alto mudam, as Especificações precisam refletir essa nova estrutura com clareza.
  • Novas capacidades e produtos. À medida que os modelos se tornam mais capazes de novos comportamentos e lançamos novos produtos, queremos que as Especificações do Modelo acompanhem o conteúdo e a cobertura — por exemplo, adicionando regras para interações multimodais(abre em uma nova janela), agentes autônomos(abre em uma nova janela) e usuários menores de 18 anos(abre em uma nova janela).

O que faz um bom conteúdo das Especificações do Modelo

Alguns princípios de design orientam como escrevemos e revisamos as Especificações do Modelo.

  • Clareza e precisão. Seja honesto é um bom valor, mas não é um procedimento de decisão completo. As Especificações do Modelo devem tornar as discordâncias mais nítidas, não escondê-las atrás de uma linguagem agradável. Quando for viável, devemos apontar explicitamente potenciais conflitos entre regras e oferecer orientação ou exemplos de como resolvê-los. Por exemplo, Não minta(abre em uma nova janela) aponta um conflito potencial com Seja cordial(abre em uma nova janela), explicando que o assistente deve seguir normas de educação, mas sem cair em "mentiras brancas" que poderiam equivaler a bajulação(abre em uma nova janela) e ir contra o melhor interesse do usuário.
  • Regras substanciais. Uma pessoa deve conseguir pegar um prompt realista e produzir uma resposta que outra pessoa reconheça como claramente dentro ou fora dos limites (mesmo que haja julgamentos nas margens).
  • Exemplos que maximizam sinal em relação ao ruído. Bons exemplos muitas vezes são centrais para desenvolver uma atualização de alta qualidade das Especificações do Modelo. Os exemplos devem ir ao cerne das dificuldades de especificar o comportamento do modelo, trazendo conflitos difíceis à tona e assumindo uma posição clara sobre como resolvê-los. Em segundo lugar, eles devem se esforçar para ser exemplos do tom e do estilo desejados, o que pode ser difícil de transmitir em prosa.
  • Robustez. Tentamos evitar exemplos com ambiguidade ou complexidade supérfluas, para que o conflito central e a resolução pretendida fiquem claros.
  • Consistência e organização clara. Buscamos que as regras das Especificações do Modelo sejam totalmente consistentes entre si e com o comportamento pretendido do modelo, e que a organização geral do documento seja clara e acessível.

O que vem a seguir

As Especificações do Modelo não são uma afirmação de que conseguimos escrever tudo o que importa, nem de que os modelos sempre acertarão o alvo. É a afirmação de que o comportamento pretendido é importante o suficiente para ser claro, acionável e revisável.

Três critérios de sucesso orientam como as evoluímos.

  • Legibilidade. Pessoas dentro e fora da OpenAI podem formar expectativas precisas sobre o comportamento e apontar para o texto quando o comportamento as surpreende.
  • Acionabilidade. As Especificações do Modelo podem ser usadas para criar avaliações, diagnosticar incidentes e tomar decisões consistentes de produto — não apenas para expressar valores.
  • Revisabilidade. As Especificações do Modelo podem evoluir à medida que aprendemos, sem se tornar um alvo móvel instável.

À medida que modelos e produtos evoluem, esperamos que as Especificações do Modelo se expandam e esclareçam em sintonia com novas capacidades e contextos de implantação. O objetivo é manter a especificação comportamental coerente, testável e alinhada à nossa missão de garantir que a AGI beneficie toda a humanidade.