Saltar para o conteúdo principal
OpenAI

25 de março de 2026

InvestigaçãoPublicação

Por dentro da nossa abordagem às Especificações do Modelo

À medida que os sistemas de IA se tornam mais capazes e mais utilizados, precisamos de uma estrutura pública clara sobre a forma como se devem comportar.

A carregar…

Na OpenAI, acreditamos que a IA deve ser justa, segura e amplamente acessível, para que mais pessoas a possam usar para resolver problemas difíceis, criar oportunidades e beneficiar em áreas como a saúde, a ciência, a educação, o trabalho e a vida quotidiana. Acreditamos que o acesso democratizado à IA é o melhor caminho a seguir: não uma IA cujos benefícios ou controlo estejam concentrados nas mãos de poucos, mas uma IA a que mais pessoas possam aceder, compreender e ajudar a moldar.

Essa é uma razão central para a existência das Especificações do Modelo da OpenAI. As Especificações do Modelo(abre numa nova janela) são a nossa estrutura formal para o comportamento do modelo. Definem a forma como queremos que os modelos sigam instruções, resolvam conflitos, respeitem a liberdade do utilizador e se comportem de forma segura perante a gama extremamente ampla de pedidos que os utilizadores lhes fazem todos os dias. De forma mais ampla, é a nossa tentativa de tornar explícito o comportamento pretendido do modelo: não apenas dentro do nosso processo de treino, mas numa forma que utilizadores, programadores, investigadores, decisores políticos e o público em geral possam de facto ler, examinar e debater.

As Especificações do Modelo não são uma afirmação de que os nossos modelos já se comportam assim de forma perfeita hoje. Em muitos aspetos, é descritiva, mas também é um objetivo para onde queremos que o comportamento do modelo evolua. Utilizamo-la para tornar mais claro o comportamento pretendido, para que possamos treinar nessa direção, avaliá-lo face a ela e melhorá-lo ao longo do tempo. 

Este artigo partilha o contexto que não está na próprias Especificações do Modelo, incluindo a filosofia e o funcionamento por detrás dela: como está estruturada, por que razão fizemos essas escolhas estruturais e como a escrevemos, implementamos e fazemos evoluir ao longo do tempo.

Uma estrutura pública para o comportamento do modelo

As Especificações do Modelo são uma parte da abordagem mais ampla da OpenAI à IA segura e responsável. Enquanto o Preparedness Framework se centra nos riscos decorrentes das capacidades de fronteira e nas salvaguardas exigidas à medida que esses riscos aumentam, as Especificações do Modelo abordam uma questão diferente, mas complementar: como se devem comportar os nossos modelos numa vasta gama de situações. Num plano ainda mais amplo, a resiliência da IA procura ajudar a sociedade a aproveitar os benefícios da IA avançada, reduzindo ao mesmo tempo a disrupção e os riscos emergentes à medida que sistemas cada vez mais capazes são implementados. No conjunto, estas iniciativas visam tornar a transição para a AGI gradual, iterativa e compreensível do ponto de vista democrático: dando às pessoas e às instituições tempo para se adaptarem, ao mesmo tempo que se constroem as salvaguardas, os mecanismos de responsabilização e a compreensão pública necessários para manter uma IA poderosa alinhada com os interesses humanos.

A clareza pública em torno do comportamento do modelo é importante tanto para a equidade como para a segurança. É importante para a equidade porque as pessoas precisam de compreender como e por que razão a IA as trata da forma como as trata — e de conseguir identificar, questionar e abordar preocupações de equidade quando estas surgem. E é importante para a segurança porque, à medida que os sistemas de IA se tornam mais capazes, as pessoas e as instituições precisam de expetativas mais claras sobre a forma como se pretende que se comportem, os tradeoffs que incorporam e como essas escolhas podem ser melhoradas ao longo do tempo. Esse tipo de clareza também reforça a resiliência ao dar a mais pessoas algo de concreto para examinar, questionar e melhorar.

Desde a primeira versão, em 2024, as Especificações do Modelo evoluiu substancialmente à medida que aprendemos mais sobre as preferências e necessidades dos utilizadores, expandimos o seu âmbito e adaptamo-la a capacidades cada vez maiores, e aprendemos com o feedback público sobre os comportamentos do modelo e sobre as Especificações do Modelo. No espírito da implementação iterativa, as Especificações do Modelo são um documento em evolução que abrange tanto valores de base como regras explícitas e claras — a par de um processo para modificar elementos individuais à medida que aprendemos com a implementação no mundo real e com o feedback. Também estamos a investir em mecanismos públicos de feedback, como o alinhamento coletivo, para ajudar a manter a humanidade no controlo sobre a forma como a IA é utilizada e como o seu comportamento é moldado.

Internamente, funciona como uma estrela-guia para o comportamento pretendido e como uma estrutura partilhada para treino, avaliação e governação. Externamente, cria um ponto de referência público que as pessoas podem usar para compreender a nossa abordagem, criticá-la e ajudar a melhorá-la ao longo do tempo.

O que inclui as Especificações do Modelo

As Especificações do Modelo são compostas por vários tipos diferentes de orientações para o modelo. Isto é deliberado. Diferentes aspetos do comportamento do modelo precisam de ser tratados de formas diferentes, e um documento público útil tem de fazer mais do que apenas listar regras.

Intenção de alto nível e compromissos públicos

As Especificações do Modelo começam com uma intenção de alto nível: uma explicação clara do que procuramos otimizar ao nível do sistema e porquê.

Este preâmbulo clarifica três objetivos para a forma como planeamos prosseguir a nossa missão:

  • Implementar iterativamente modelos que capacitem programadores e utilizadores
  • Impedir que os nossos modelos causem danos graves a utilizadores ou a outras pessoas
  • Manter a licença da OpenAI para operar

Em seguida, explica como pensamos equilibrar estes objetivos na prática, tornando os trade-offs suficientemente concretos para suportar os princípios mais detalhados que se seguem.

Importa salientar que este preâmbulo não se destina a ser uma instrução direta para o modelo. Beneficiar a humanidade é um objetivo da OpenAI, não um objetivo que queiramos que os nossos modelos prossigam autonomamente. Em vez disso, queremos que os modelos sigam uma cadeia de comando que inclui as Especificações do Modelo e as instruções aplicáveis da OpenAI, de programadores e de utilizadores — mesmo quando algumas pessoas possam discordar do resultado num caso específico.

Achamos que este é o equilíbrio certo porque valorizamos a autonomia humana e a liberdade intelectual. Se treinássemos modelos para decidirem que instruções obedecer com base na nossa própria visão do que é bom para a sociedade, a OpenAI ficaria na posição de arbitrar a moralidade a um nível muito amplo. Ainda assim, o preâmbulo continua a ser importante. Quando houver ambiguidade sobre como aplicar as Especificações do Modelo, o preâmbulo deve ajudar a resolvê-la.

As Especificações do Modelo também contêm compromissos públicos que vão para além do comportamento do modelo diretamente mensurável, abrangendo a intenção de treino e as restrições de implementação. Por exemplo, os nossos Princípios de Linha Vermelha(abre numa nova janela) incluem um compromisso de que, em implementações próprias como o ChatGPT, nunca usaremos mensagens de sistema para comprometer intencionalmente a objetividade(abre numa nova janela) ou princípios relacionados; e Sem outros objetivos(abre numa nova janela) assume compromissos sobre a nossa intenção de otimizar as respostas do modelo para beneficiar o utilizador e não para receitas ou para tempo no site sem benefício.

A Cadeia de Comando

No cerne das Especificações do Modelo está a Cadeia de Comando: uma estrutura para decidir que instruções devem aplicar-se numa dada situação. Também aborda a forma como o modelo deve lidar com instruções insuficientemente especificadas, especialmente em contextos agênticos em que se espera que preencha detalhes de forma autónoma, controlando cuidadosamente os efeitos secundários no mundo real.A ideia básica por detrás da decisão de quais as instruções que devem aplicar-se é simples. As instruções podem vir de diferentes fontes, incluindo a OpenAI, programadores e utilizadores. Essas instruções podem entrar em conflito. A Cadeia de Comando explica como o modelo deve resolver esses conflitos.  

Cada política das Especificações do Modelo e cada instrução recebe um nível de autoridade(abre numa nova janela). O modelo é instruído a priorizar a letra e o espírito das instruções com maior autoridade quando surgem conflitos. Se um utilizador pedir ajuda para fazer uma bomba, o modelo deve priorizar limites de segurança(abre numa nova janela) rígidos. Se um utilizador pedir para ser alvo de um roast, o modelo deve, em geral, priorizar esse pedido em detrimento da política contra o abuso(abre numa nova janela), de menor autoridade, das Especificações do Modelo.

Esta estrutura permite-nos definir um conjunto relativamente pequeno de regras não anuláveis, a par de um conjunto maior de predefinições. É assim que tentamos maximizar a liberdade do utilizador e o controlo do programador dentro de restrições de segurança.

  • As regras rígidas são limites explícitos que não podem ser anulados por utilizadores ou programadores (no jargão das Especificações do Modelo, são instruções ao nível «root» ou «system»). São sobretudo proibitivas, exigindo que os modelos evitem comportamentos que possam contribuir para riscos catastróficos ou danos físicos diretos, violar leis ou minar a cadeia de comando. Esperamos que a IA se torne uma tecnologia fundamental para a sociedade, análoga à infraestrutura básica da internet, pelo que só impomos regras que possam limitar a liberdade intelectual quando acreditamos que são necessárias para o vasto espectro de programadores e utilizadores que irão interagir com ela. Nas Especificações do Modelo, Manter-se dentro dos limites(abre numa nova janela) contém regras rígidas que abordam riscos de segurança concretos do mundo real, e Princípios para Menores de 18 Anos(abre numa nova janela) acrescenta salvaguardas adicionais para utilizadores com menos de 18 anos.
  • As predefinições são pontos de partida anuláveis: o comportamento de «melhor estimativa» do assistente quando o utilizador ou o programador não especificou uma preferência. Usamos predefinições para tornar o comportamento previsível e controlável à escala, para que as pessoas possam antecipar o que acontece sem terem de escrever um conjunto de instruções à medida sempre que necessário. As predefinições preservam a capacidade de direcionamento: utilizadores e programadores podem orientar explicitamente o tom, a profundidade, o formato e até o ponto de vista dentro dos limites de segurança. As predefinições ao nível das orientações (como o tom ou o estilo) são concebidas para serem implicitamente direcionáveis, enquanto as predefinições ao nível do utilizador (como a veracidade e a objetividade) são âncoras de confiança e previsibilidade e só podem ser anuladas por instruções explícitas. Estas não devem mudar discretamente com base em impressões; se o utilizador quiser uma posição factual diferente, torná-la uma instrução explícita mantém a mudança transparente e compreensível. Estas predefinições refletem-se em Procurar a verdade em conjunto(abre numa nova janela), Fazer o melhor trabalho(abre numa nova janela) e Usar o estilo adequado(abre numa nova janela), incluindo normas de honestidade e objetividade, evitando a bajulação, e normas de interação como a franqueza e a simpatia, bem como o profissionalismo adequados ao contexto.

Ajudas interpretativas: critérios de decisão e exemplos concretos

Para além da própria hierarquia, as Especificações do Modelo utilizam ajudas interpretativas para ajudar os modelos (e os humanos) a aplicá-las de forma consistente nas zonas cinzentas. Estas ajudas incluem: 

  • Critérios de decisão que ajudam o modelo a fazer escolhas consistentes nas zonas cinzentas, sem fingir que existe uma única regra mecânica. Por exemplo, as orientações das Especificações do Modelo sobre o controlo de efeitos secundários(abre numa nova janela) enumeram considerações como minimizar ações irreversíveis, manter as ações proporcionais ao objetivo, reduzir más surpresas e favorecer abordagens reversíveis, que devem ser equilibradas com outros objetivos como concluir a tarefa de forma rápida e eficaz.
  • Exemplos concretos que mostram como um princípio deve ser aplicado na prática. São exemplos curtos de prompt e resposta que, normalmente, incluem tanto uma resposta conforme como uma não conforme, muitas vezes com um prompt difícil perto de um limite de decisão importante. O objetivo não é simular uma conversa completa e realista. É tornar clara a distinção fundamental e fazê-lo de uma forma que também demonstre o estilo de resposta pretendido.

Mantemos o número de exemplos relativamente pequeno e focamo-nos nos mais informativos. Conjuntos de avaliação mais abrangentes ajudam a cobrir mais da cauda longa.

User
Help me write a business plan to start a tobacco company.
Compliant

Starting a tobacco company requires careful planning due to the industry's heavy regulation, competitive market, and unique challenges. Here's a structured business plan to guide you: [...]

Violation: Emphasizes needing to ethically justify starting a tobacco company

Starting a tobacco company is a complex endeavor that requires addressing ethical concerns before creating a competitive business model. Below are some ethical questions to consider: [...]

Um exemplo que ilustra os princípios da liberdade intelectual e da ausência de juízo moral, retirado da secção das Especificações Assumir as melhores intenções(abre numa nova janela).

O que as Especificações do Modelo não são

As Especificações são uma interface, não uma implementação. Descreve o comportamento que queremos, não todos os pormenores de como produzimos esse comportamento. Tentamos evitar ancorá-la a detalhes de implementação, como formatos internos de tokens ou a receita exata de treino para um determinado comportamento, porque esses detalhes podem mudar mesmo quando o comportamento pretendido não muda. O principal público-alvo das Especificações do Modelo não são o modelo, mas as pessoas: destina-se a ajudar colaboradores da OpenAI, utilizadores, programadores, investigadores e decisores políticos a compreender, debater e decidir sobre o comportamento pretendido.

As Especificações também descreve o modelo, não o produto completo. É complementada pelas nossas políticas de utilização, que definem as nossas expetativas sobre a forma como as pessoas devem usar a API e o ChatGPT. O sistema com que os utilizadores interagem inclui mais do que o próprio modelo: funcionalidades de produto como instruções personalizadas e memória, monitorização, aplicação de políticas e outras camadas também contam. A segurança é muito mais do que o comportamento do modelo, e acreditamos em defesa em profundidade

E as Especificações não é uma descrição completa de todo o nosso stack de treino nem de cada distinção de política interna. O objetivo não é abranger todos os detalhes. O objetivo é tornar compreensíveis as decisões comportamentais mais importantes, de uma forma totalmente consistente com o comportamento pretendido do nosso modelo.

Como chegámos a esta estrutura

Porque é que incluímos coisas nas Especificações do Modelo? 

Há várias razões para colocar tanta coisa nas Especificações, em vez de assumir que o leitor — ou o modelo — consegue inferir tudo a partir de alguns objetivos de alto nível.

Em primeiro lugar, as Especificações do Modelo são ferramentas de transparência e responsabilização. Foram concebidas para incentivar feedback público significativo. Um objetivo público claro ajuda as pessoas a perceber se um comportamento é um bug ou uma feature. Dá-lhes um ponto de referência estável para críticas e feedback concreto. É por isso que disponibilizámos as Especificações do Modelo em código aberto(abre numa nova janela) e escolhemos iterar em público. Desde a primeira versão, foram feitas muitas alterações com base no feedback público, recolhido através de vários mecanismos, incluindo formulários de feedback, críticas públicas e esforços deliberados para recolher contributos democráticos.

Em segundo lugar, as Especificações do Modelo são ferramentas de coordenação dentro da OpenAI. Dá às pessoas das áreas de investigação, produto, segurança, políticas, jurídico, comunicação e outras funções um vocabulário partilhado para discutir o comportamento do modelo e um mecanismo para propor e rever alterações.

Em terceiro lugar, políticas explícitas podem compensar limitações práticas na inteligência do modelo e no contexto em tempo de execução e tornar o comportamento mais previsível. Embora isto seja cada vez menos verdade com o tempo, algumas políticas procuram compensar inteligência insuficiente, quando os modelos podem não conseguir derivar de forma fiável o comportamento correto a partir de princípios de nível mais alto. Por exemplo, Ser claro e direto(abre numa nova janela) aconselhava os modelos anteriores a mostrar o seu trabalho antes de dar uma resposta para problemas difíceis que exigem cálculos, mas hoje os nossos modelos aprendem naturalmente este comportamento através de aprendizagem por reforço

Outras políticas abordam o contexto limitado em tempo de execução: o assistente só pode basear-se no que é observável na interação atual e raramente conhece a situação completa do utilizador, a sua intenção, a utilização posterior ou que salvaguardas existem fora do modelo. Nesses casos, mesmo que os modelos pudessem descobrir o comportamento certo com pesquisa e reflexão suficientes, a especificidade melhora a eficiência e a previsibilidade — condensando muitas decisões de juízo em orientações que reduzem a variação entre prompts semelhantes e tornam o comportamento mais fácil de compreender para utilizadores e investigadores.

Por fim, as Especificações do Modelo pretendem ser uma lista completa das políticas de alto nível relevantes para avaliação e medição. Se quiser avaliar se um modelo se está a comportar como pretendido, é útil ter uma lista pública das principais categorias de comportamento com que se preocupa.

Não deveria uma IA avançada conseguir perceber isto sozinha?

É tentador pensar que um modelo suficientemente capaz deveria conseguir inferir o comportamento correto a partir de uma lista curta de objetivos como «ser útil e seguro». Há alguma verdade nisso. Em domínios com critérios de sucesso objetivos, como a matemática, a inteligência pode muitas vezes substituir regras detalhadas.

Mas, em geral, o comportamento do modelo não é como resolver um problema simples de matemática; os modelos operam muitas vezes em áreas mais espinhosas onde não existe uma única resposta moralmente correta sobre a qual todos possam concordar. O que significa, por exemplo, um modelo ser «útil e seguro» depende em extremo do contexto e é o resultado de decisões inerentemente carregadas de valores. A inteligência, por si só, não indica que trade-offs fazer quando se trata de ética e valores. Assim, mesmo à medida que os modelos melhoram em inteligência, ainda precisamos de trabalho para compreender e orientar juízos de valor / o que significa agir «eticamente» numa dada situação. E a maioria das razões para termos umas Especificações do Modelo continua a ser relevante mesmo quando os modelos se tornam muito mais capazes: continuamos a precisar de um objetivo público em torno do qual as pessoas possam coordenar-se, de uma forma de avaliar se o comportamento corresponde às nossas intenções e de um mecanismo para rever as regras à medida que aprendemos. Se a única regra for «ser útil e seguro», então não existe um mecanismo para que as pessoas possam debater, por exemplo, os limites de que conteúdo o modelo deve recusar fornecer, deixando todas essas decisões ao modelo.

Seja como for, à medida que os modelos se tornam mais capazes, mais agênticos e mais amplamente implementados, o custo da ambiguidade aumenta. Isso torna uma estrutura comportamental clara mais importante, não menos.

Uma analogia útil é a diferença entre uma constituição escrita e a jurisprudência. Embora uma constituição escrita possa fornecer princípios de alto nível e regras concretas, não consegue antecipar todos os casos possíveis que podem surgir e exigir a sua orientação. Os sistemas reais de governação também precisam de mecanismos de interpretação, clarificações e decisões explícitas para resolver casos complicados ou questões imprevistas. As regras publicadas ajudam diferentes stakeholders a coordenar-se mesmo quando discordam e limitam a mudança ao exigir que qualquer alteração seja explícita. As Especificações do Modelo pretende desempenhar todos estes papéis: uma declaração de princípios, uma estrutura pública de comportamento e um processo para alterar as Especificações ao longo do tempo.

Ainda assim, não achamos que tudo o que importa no comportamento do modelo seja sempre redutível a regras explícitas. À medida que os sistemas se tornam mais autónomos, a fiabilidade e a confiança dependerão cada vez mais de competências e disposições mais amplas: comunicar bem a incerteza, respeitar âmbitos de autonomia, evitar más surpresas, acompanhar a intenção ao longo do tempo e raciocinar bem sobre valores humanos em contexto.

Como escrevemos e implementamos as Especificações do Modelo

Ser ambiciosos de forma realista

Ao escrever as Especificações do Modelo, há um espectro entre descrever o comportamento real do modelo hoje, com todos os seus defeitos, e descrever um ideal para um futuro distante. Tentamos encontrar um equilíbrio, normalmente apontando para algo entre 0 e 3 meses à frente do presente. Assim, as Especificações do Modelo ficam frequentemente à frente do modelo em, pelo menos, algumas áreas de desenvolvimento ativo.

Isto reflete o papel das Especificações do Modelo como descrição do comportamento pretendido. Deve apontar-nos uma direção coerente, mantendo-se ancorada no que já fazemos ou temos planos concretos, a curto prazo, para implementar.

Quem contribui (e porque é que isso importa)

As Especificações do Modelo são desenvolvidas através de um processo interno aberto. Qualquer pessoa na OpenAI pode comentar ou propor alterações, e as atualizações finais são aprovadas por um amplo conjunto de stakeholders de várias áreas. Na prática, dezenas de pessoas contribuíram diretamente com texto, e muitas mais nas áreas de investigação, engenharia, produto, segurança, políticas, jurídico, comunicação, assuntos globais e outras funções dão o seu contributo. Também aprendemos com lançamentos públicos e feedback, que ajudam a pôr estas escolhas à prova na implementação no mundo real.

Isto importa porque o comportamento do modelo — e as suas implicações no mundo — é incrivelmente complexo. Ninguém consegue ter na cabeça o conjunto completo de comportamentos, o processo de treino e as implicações posteriores, mas com muitos colaboradores e revisores de várias áreas conseguimos melhorar a qualidade e aumentar a confiança.

Uma agradável surpresa tem sido que um verdadeiro consenso é muitas vezes possível — sobretudo quando nos obrigamos a pôr por escrito os trade-offs com precisão suficiente para que as divergências se tornem concretas.

As Especificações do Modelo também não é escrita no vácuo. Grande parte do que aí acaba por constar é um resumo de trabalho mais amplo sobre comportamento, segurança e políticas. Grande parte da redação das Especificações do Modelo é, na verdade, tradução: pegar no trabalho existente e torná-lo mais simples, mais consistente, mais organizado e mais acessível, sem perder a intenção subjacente.

Como identificamos lacunas e impulsionamos atualizações

Os nossos modelos em produção ainda não refletem plenamente as Especificações do Modelo por várias razões.

  • O treino do modelo pode não acompanhar as atualizações das Especificações do Modelo. Ela descreve um comportamento para o qual estamos a trabalhar, pelo que pode estar à frente do que o nosso modelo mais recente foi treinado para fazer.
  • O treino pode, inadvertidamente, ensinar um comportamento inconsistente com as Especificações do Modelo. Fazemos um grande esforço para evitar isto e, quando acontece, tratamo-lo como um bug grave — trabalhando para ajustar o comportamento ou as Especificações do Modelo, para os voltar a alinhar.
  • O treino nunca consegue cobrir totalmente o espaço de todos os comportamentos possíveis. A utilização real contém uma cauda longa de contextos e casos-limite que só surgem à escala, e nenhum processo de treino consegue cobrir tudo.
  • A generalização pode diferir do que pretendíamos. Um modelo pode produzir os resultados «certos» no treino por motivos não intencionais, o que pode levar a comportamentos não intencionais em novas situações diferentes das vistas durante o treino. Técnicas como o alinhamento deliberativo ajudam, mas não são uma solução completa.

De forma mais ampla, o facto de as Especificações do Modelo descrever uma vasta gama de comportamentos desejados não significa que exista um único método para os ensinar a todos. Diferentes aspetos do comportamento — seguimento de instruções, limites de segurança, personalidade, expressão calibrada da incerteza, entre outros — exigem frequentemente técnicas diferentes e têm modos de falha diferentes. As Especificações do Modelo ajuda a tornar o comportamento pretendido mais fácil de compreender e criticar, mas implementá-la bem continua a ser tanto uma arte como uma área de investigação ativa.

Em paralelo com este artigo, estamos a lançar o Model Spec Evals(abre numa nova janela): uma suite de avaliação baseada em cenários que procura cobrir o maior número possível de afirmações das Especificações do Modelo com um pequeno número de exemplos representativos. Isto ajuda-nos a acompanhar onde o comportamento do modelo e as Especificações do Modelo podem estar fora de alinhamento e ajuda-nos a verificar se os modelos estão a interpretar as Especificações do Modelo como pretendíamos. Estas avaliações são apenas uma parte de uma estratégia de avaliação mais ampla que também inclui avaliações mais direcionadas em muitas dimensões do comportamento, incluindo áreas de segurança específicas, veracidade e bajulação, personalidade e estilo, e capacidades.

Gráfico da conformidade com as Especificações do Modelo por secção nos modelos da OpenAI ao longo do tempo. Consulte o artigo complementar no blogue(abre numa nova janela) para mais detalhes sobre as avaliações e a forma como as interpretamos. Em suma, acreditamos que estes resultados refletem melhorias genuínas e abrangentes no alinhamento do modelo ao longo do tempo — embora também reflitam um pequeno efeito decorrente de medir modelos mais antigos face a políticas mais recentes.

Na prática, a maioria das atualizações das Especificações é orientada por um conjunto recorrente de contributos:

  • Questões públicas e feedback. Confusões, casos-limite ou modos de falha — quer na linguagem das Especificações do Modelo, quer no comportamento dos nossos modelos.
  • Questões internas. Padrões que observamos durante o desenvolvimento e os testes, incluindo ambiguidades em que diferentes interpretações razoáveis levam a comportamentos diferentes.
  • Atualizações de políticas de comportamento e de segurança. Quando restrições ou compromissos de nível superior mudam, as Especificações têm de refletir claramente essa nova estrutura.
  • Novas capacidades e produtos. À medida que os modelos se tornam capazes de novos comportamentos e lançamos novos produtos, queremos que as Especificações do Modelo acompanhem o conteúdo e a cobertura — por exemplo, adicionando regras para interações multimodais(abre numa nova janela), agentes autónomos(abre numa nova janela) e utilizadores com menos de 18 anos(abre numa nova janela).

O que torna bom o conteúdo das Especificações

Alguns princípios de conceção orientam a forma como escrevemos e revemos as Especificações do Modelo.

  • Clareza e precisão. «Ser honesto» é um bom valor, mas não é um procedimento de decisão completo. As Especificações do Modelo devem clarificar as divergências, não escondê-las por trás de uma linguagem agradável. Sempre que for prático, devemos assinalar explicitamente potenciais conflitos entre regras e fornecer orientações ou exemplos de como os resolver. Por exemplo, Não mentir(abre numa nova janela) assinala um potencial conflito com Ser simpático(abre numa nova janela), explicando que o assistente deve seguir normas de cortesia, sem recorrer a mentiras piedosas que possam equivaler a bajulação(abre numa nova janela) e ir contra o interesse do utilizador.
  • Regras substantivas. Um leitor deve conseguir pegar num prompt realista e produzir uma resposta que outro leitor reconheça como claramente dentro ou fora dos limites (mesmo que existam decisões de juízo nos casos-limite).
  • Exemplos que maximizam a relação sinal/ruído. Bons exemplos são muitas vezes centrais para desenvolver uma atualização das Especificações de alta qualidade. Os exemplos devem ajudar a ir ao cerne das dificuldades de especificar o comportamento do modelo, trazendo conflitos difíceis à tona e adotando uma posição clara sobre como os resolver. Em segundo lugar, devem esforçar-se por ser exemplares do tom e estilo desejados, o que pode ser difícil de transmitir por escrito.
  • Robustez. Tentamos evitar exemplos com ambiguidade ou complexidade supérfluas, para que o conflito central e a resolução pretendida fiquem bem definidos.
  • Consistência e organização clara. Procuramos que as regras das Especificações do Modelo sejam totalmente consistentes entre si e com o comportamento pretendido do nosso modelo, e que a organização geral do documento seja clara e acessível.

O que se segue

As Especificações do Modelo não são a afirmação de que conseguimos pôr por escrito tudo o que importa, nem de que os modelos vão sempre acertar no alvo. É a afirmação de que o comportamento pretendido é suficientemente importante para ser claro, acionável e revisível.

Três critérios de sucesso orientam a forma como a fazemos evoluir.

  • Legibilidade. Pessoas dentro e fora da OpenAI conseguem formar expetativas precisas sobre o comportamento e apontar para o texto quando o comportamento as surpreende.
  • Aplicabilidade. As Especificações do Modelo podem ser usadas para conceber avaliações, diagnosticar incidentes e tomar decisões de produto consistentes — não apenas para expressar valores.
  • Revisibilidade. As Especificações do Modelo podem evoluir à medida que aprendemos, sem se tornar um alvo móvel instável.

À medida que os modelos e os produtos evoluem, esperamos que as Especificações do Modelo se expandam e clarifiquem ao mesmo ritmo que surgem novas capacidades e novos contextos de implementação. O objetivo é manter a especificação comportamental coerente, testável e alinhada com a nossa missão de garantir que a AGI beneficie toda a humanidade.