Pular para o conteúdo principal
OpenAI

12 de fevereiro de 2025

SegurançaLançamentoMarco

Compartilhando as especificações de modelos mais recentes

Fizemos atualizações nas especificações de modelos com base no feedback externo e em nossa pesquisa contínua para definir o comportamento desejado do modelo.

Carregando…

Estamos compartilhando uma grande atualização nas especificações de modelos, um documento que define como queremos que nossos modelos de IA se comportem. Essa atualização reforça nossos compromissos com a personalização, a transparência e a liberdade intelectual para explorar, debater e criar com IA sem restrições arbitrárias, garantindo que as proteções permaneçam em vigor para reduzir o risco de danos reais. Ela se baseia nos fundamentos que apresentamos em maio passado, com base em nossa experiência na aplicação em diversos contextos, desde pesquisas de alinhamento até atendimento a usuários em todo o mundo. 

Também estamos compartilhando alguns resultados preliminares sobre a adesão ao modelo com os princípios de especificações de modelos em uma ampla gama de cenários. Essas conclusões destacam o progresso ao longo do tempo, bem como áreas em que ainda podemos melhorar. As especificações de modelos, assim como nossos modelos, continuarão a evoluir à medida que as aplicamos e compartilhamos e ouvimos o feedback das partes interessadas. Para apoiar o uso amplo e a colaboração, estamos lançando esta versão das especificações de modelos em domínio público sob uma licença Creative Commons CC0. Isso significa que desenvolvedores e pesquisadores podem usar, adaptar e desenvolver livremente em seus próprios trabalhos.

Objetivos e princípios

O objetivo da OpenAI é criar modelos que sejam úteis, seguros e alinhados às necessidades de usuários e desenvolvedores, ao mesmo tempo em que avançamos nossa missão de garantir que a inteligência artificial geral traga benefícios para toda a humanidade. Para atingir esse objetivo, precisamos implantar iterativamente modelos que capacitem desenvolvedores e usuários, evitando que nossos modelos causem danos graves aos nossos usuários ou a outras pessoas e mantendo a licença da OpenAI para operar.

Esses objetivos podem, às vezes, entrar em conflito, e as especificações de modelos equilibram as compensações entre eles, instruindo o modelo a seguir uma cadeia de comando claramente definida, juntamente com princípios adicionais que estabelecem limites e comportamentos padrão para vários cenários. Essa estrutura prioriza o controle do usuário e do desenvolvedor, mantendo-se dentro de limites claros e bem definidos:

  • Cadeia de comando: define como o modelo prioriza as instruções da plataforma (OpenAI), do desenvolvedor e do usuário em ordem. A maior parte das especificações de modelos consiste em diretrizes que acreditamos ser úteis em muitos casos, mas que podem ser substituídas pelos usuários e desenvolvedores. Isso permite que usuários e desenvolvedores personalizem totalmente o comportamento do modelo dentro dos limites estabelecidos por regras das plataformas. 
  • Procurar juntos a verdade: como um assistente humano de alta integridade, nossos modelos devem capacitar os usuários a tomar as próprias decisões. Isso envolve um equilíbrio cuidadoso entre (1) evitar direcionar os usuários com uma pauta, mantendo a objetividade e estando disposto a explorar qualquer tópico sob qualquer perspectiva, e (2) trabalhar para entender os objetivos do usuário, esclarecer suposições e detalhes incertos e dar feedback crítico quando apropriado: solicitações que ouvimos e melhoramos.
  • Fazer o melhor trabalho possível: estabelece padrões básicos de competência, incluindo precisão factual, criatividade e uso programático.
  • Ficar dentro dos limites: explica como o modelo equilibra a autonomia do usuário com precauções para evitar danos ou abusos. Essa nova versão pretende ser abrangente, cobrindo todas as razões pelas quais nossos modelos podem recusar solicitações de usuários ou desenvolvedores.
  • Ser acessível: descreve o estilo de conversação padrão do modelo (caloroso, empático e prestativo) e como esse estilo pode ser adaptado.
  • Usar o estilo adequado: fornece orientações padrão sobre formatação e entrega. Seja com pontos-chave bem organizados, trechos de código concisos ou uma conversa em voz, nosso objetivo é garantir clareza e usabilidade.

Defesa da liberdade intelectual

As especificações de modelos atualizadas incorporam explicitamente a liberdade intelectual — a ideia de que a IA deve capacitar as pessoas a explorar, debater e criar sem restrições arbitrárias — independentemente do quão desafiador ou controverso seja um tópico. Em um mundo onde as ferramentas de IA estão cada vez mais moldando o discurso, a livre troca de informações e perspectivas é uma necessidade para o progresso e a inovação.

Essa filosofia está incorporada nas seções “Ficar dentro dos limites” e “Procurar juntos a verdade”. Por exemplo, embora o modelo nunca deva fornecer instruções detalhadas para construir uma bomba ou violar a privacidade pessoal, incentiva-se que ele forneça respostas ponderadas a perguntas politicamente ou culturalmente sensíveis, sem promover nenhuma pauta específica. Em essência, reforçamos o princípio de que nenhuma ideia é inerentemente proibida para discussão, desde que o modelo não cause danos significativos ao usuário ou a outras pessoas (por exemplo, cometer atos de terrorismo).

Avaliação do progresso

Para entender melhor o desempenho no mundo real, começamos a reunir um conjunto desafiador de prompts projetados para testar o grau de adesão dos modelos a cada princípio das especificações de modelos. Esses prompts foram criados combinando geração de modelos e revisão por especialistas, para garantir a cobertura de cenários típicos e mais complexos.

Um gráfico com barras brancas e amarelas alternadas sobre um fundo preto, representando comparações de dados. As barras amarelas têm um padrão pontilhado, adicionando textura à apresentação visual.

Os resultados preliminares mostram melhorias significativas na aderência do modelo às especificações de modelos em comparação com o nosso melhor sistema em maio passado. Embora parte dessa diferença possa ser atribuída a atualizações nas políticas, acreditamos que a maior parte decorra de um maior alinhamento. Embora o progresso seja encorajador, reconhecemos que ainda há muito espaço para crescimento.

Consideramos isso o início de um processo contínuo. Planejamos continuar ampliando nosso conjunto de desafios com novos exemplos (especialmente casos descobertos com o uso no mundo real) que nossos modelos e as especificações de modelos ainda não abordam totalmente. 

Ao elaborar esta versão das especificações de modelos, incorporamos o feedback da primeira versão, bem como os aprendizados da pesquisa de alinhamento e da implementação no mundo real. No futuro, queremos considerar uma participação pública muito mais ampla. Para desenvolver processos com esse objetivo, temos realizado estudos-piloto com cerca de 1.000 pessoas, cada uma delas analisando o comportamento do modelo e as regras propostas e compartilhando suas opiniões. Embora esses estudos ainda não reflitam perspectivas amplas, as primeiras conclusões levaram diretamente a algumas modificações. Reconhecemos que se trata de um processo contínuo e iterativo e continuamos comprometidos em aprender e aprimorar nossa abordagem.

Abertura do código de especificações de modelos

Estamos dedicando esta nova versão das especificações de modelos ao domínio público sob uma licença Creative Commons CC0. Isso significa que desenvolvedores e pesquisadores podem usar, adaptar ou desenvolver livremente as especificações de modelos em seus próprios trabalhos. Também estamos disponibilizando em código aberto os prompts de avaliação usados acima e pretendemos lançar mais códigos, artefatos e ferramentas para avaliação e alinhamento de especificações no futuro.

Você pode encontrar esses prompts e a fonte das especificações de modelos em um novo repositório do Github(abre em uma nova janela), onde planejamos publicar regularmente novas versões das especificações de modelos daqui para frente.

O que vem a seguir?

À medida que nossos sistemas de IA avançam, continuaremos a iterar esses princípios, solicitar feedback da comunidade e compartilhar abertamente nosso progresso. Daqui em diante, não publicaremos postagens no blog para cada atualização das especificações de modelos. Em vez disso, você sempre pode encontrar e acompanhar as últimas atualizações em model-spec.openai.com(abre em uma nova janela).

Nosso objetivo é possibilitar continuamente novos casos de uso com segurança, evoluindo nossa abordagem orientada por pesquisas e inovações contínuas. O papel cada vez maior da IA em nossas vidas diárias torna essencial continuar aprendendo, aprimorando e nos envolvendo abertamente. Essa abordagem reflete não apenas o que aprendemos até agora, mas também nossa convicção de que alinhar a IA é uma jornada contínua — uma jornada na qual esperamos que você se junte a nós. Se você tiver algum feedback sobre estas especificações, compartilhe-o aqui.