Como é que o ChatGPT e os nossos modelos de base são desenvolvidos
Saiba mais sobre como desenvolvemos os nossos modelos e os aplicamos em produtos como o ChatGPT
Os modelos de base da OpenAI, incluindo os modelos que alimentam o ChatGPT, são desenvolvidos através de três fontes principais de informação: 1) informação que está publicamente disponível na Internet, 2) informação à qual temos acesso através de parcerias com terceiros e 3) informação que os nossos utilizadores ou formadores e investigadores humanos fornecem ou geram.
Este artigo proporciona uma visão geral sobre as informações acessíveis ao público que usamos para ajudar a desenvolver estes modelos. Nele explicamos também como recolhemos e usamos essas informações em conformidade com as leis de privacidade. Para compreender como recolhemos e utilizamos as informações dos utilizadores dos nossos serviços, incluindo como não permitir que as conversas do ChatGPT possam ser utilizadas para ajudar a ensinar os nossos modelos, consulte a nossa Política de Privacidade e este artigo.
O ChatGPT é um serviço baseado em inteligência artificial ao qual pode aceder através da Internet. Pode utilizar o ChatGPT para uma variedade de tarefas, tais como organizar ou resumir informações, ajudar com traduções, analisar ou gerar uma imagem, inspirar a criatividade e despertar ideias, e ajudar nas tarefas diárias. O ChatGPT foi desenvolvido de uma forma que lhe permite compreender e responder às perguntas e instruções dos utilizadores. Para tal, analisa uma grande quantidade de informação disponível, como texto, imagens, áudio ou vídeo, e aprende com as relações existentes nessa informação. Por exemplo, o modelo aprende a forma como as palavras tendem a aparecer no contexto de outras palavras e, em seguida, utiliza o que aprendeu para prever a próxima palavra mais provável que pode aparecer, em resposta a um pedido do utilizador, e cada palavra subsequente. Estes modelos também podem aprender a gerar outras formas de informação, como imagens, aprendendo a forma como os píxeis que compõem as imagens nos dados de treino se relacionam entre si e com as legendas que as descrevem.
Por exemplo, durante o processo de aprendizagem do modelo (designado por "treino"), poderemos ter o modelo a tentar completar a seguinte frase: "Em vez de virar à esquerda, ela virou ___". Antes do treino, o modelo responderá com palavras aleatórias, mas à medida que lê e aprende com muitas linhas de texto, compreende melhor este tipo de frase e consegue prever a palavra seguinte com maior precisão. Depois, repete este processo num número muito elevado de frases.
Como há muitas palavras que podem vir a seguir nesta frase (por exemplo, em vez de virar à esquerda, ela virou "à direita", “à volta” ou "para trás"), há um elemento de aleatoriedade na forma como um modelo pode responder e, em muitos casos, os nossos modelos responderão à mesma pergunta de formas diferentes.
Os modelos de aprendizagem automática são compostos por grandes sequências de números, denominados "ponderações" ou "parâmetros" e por código que interpreta e executa esses números. Os modelos não contêm nem armazenam cópias da informação a partir da qual aprendem. Em vez disso, à medida que um modelo aprende, alguns dos números que o compõem mudam ligeiramente para refletir o que aprendeu. No exemplo acima, o modelo analisou informações, o que permitiu que deixasse de prever palavras incorretas aleatórias e começasse a prever palavras mais precisas. Contudo, tudo o que realmente aconteceu no próprio modelo foi uma ligeira mudança nos números. O modelo não armazenou nem copiou as frases, imagens ou áudio que analisou.
Como referido acima, o ChatGPT e os nossos outros serviços são desenvolvidos utilizando 1) informação que está publicamente disponível na Internet, 2) informação à qual temos acesso através de parcerias com terceiros e 3) informação que os nossos utilizadores ou formadores e investigadores humanos fornecem ou geram. Este artigo centra-se no primeiro conjunto: informação que está publicamente disponível na Internet.
Para este conjunto de informações, utilizamos apenas informações acessíveis ao público que estão livre e abertamente disponíveis na Internet — por exemplo, não procuramos informações que sabemos que estão por detrás de paywalls ou da "dark web". Aplicamos filtros e removemos informações que não pretendemos que os nossos modelos produzam ou com as quais aprendam, tais como discurso de ódio, conteúdo para adultos, sites que agregam principalmente dados pessoais e spam. De seguida, utilizamos as informações para ensinar os nossos modelos.
Uma grande quantidade de dados na Internet está relacionada com pessoas, pelo que as nossas informações de treino incluem, incidentalmente, dados pessoais. Não procuramos ativamente dados pessoais para treinar os nossos modelos.
Utilizamos as informações de treino apenas para desenvolver a inteligência dos nossos modelos, como a capacidade de prever, raciocinar e resolver problemas. Não utilizamos nem utilizaremos quaisquer dados pessoais contidos nas informações de treino para criar perfis sobre pessoas, nem para as contactar ou lhes apresentar publicidade, nem ainda para tentar vender-lhes algo ou vender as informações propriamente ditas.
Os nossos modelos podem aprender a partir de dados pessoais para compreender como é que coisas como nomes e moradas se encaixam na linguagem e nas frases, ou para aprender sobre pessoas famosas e figuras públicas. Isto torna os nossos modelos mais aptos a fornecer respostas relevantes.
Também tomamos medidas para reduzir o tratamento de dados pessoais quando treinamos os nossos modelos. Por exemplo, removemos sites que agregam grandes volumes de dados pessoais e treinamos os nossos modelos para rejeitarem pedidos de informações privadas ou sensíveis sobre pessoas.
Utilizamos as informações de treino de forma legal. Os modelos de base têm muitas aplicações que proporcionam benefícios significativos e já estão a ajudar as pessoas a criar conteúdos, a melhorar serviços de apoio ao cliente, a desenvolver software, a personalizar a educação, a apoiar a investigação científica e muito mais. Estes benefícios não podem ser obtidos sem uma grande quantidade de informação para ensinar os modelos. Além disso, a nossa utilização de informações de treino não tem como objetivo afetar negativamente os indivíduos, e as principais fontes destas informações de treino já estão acessíveis ao público. Por estas razões, a recolha e o uso dos dados pessoais incluídos nas informações de treino é feita com base em interesses legítimos ao abrigo de leis de proteção de dados pessoais como o RGPD, tal como explicado mais pormenorizadamente na nossa Política de Privacidade. Também efetuámos uma avaliação de impacto sobre a proteção de dados para ajudar a garantir que estamos a recolher e a utilizar estas informações de forma legal e responsável.
Respondemos a pedidos de oposição ao tratamento de dados e direitos semelhantes. Como resultado da aprendizagem da linguagem, as respostas do ChatGPT podem, por vezes, incluir dados pessoais de pessoas cujos dados pessoais aparecem várias vezes na Internet pública (por exemplo, figuras públicas). Os indivíduos de determinadas jurisdições podem opor-se ao tratamento dos seus dados pessoais pelos nossos modelos, ou exercer outros direitos reconhecidos aos titulares dos dados, através do nosso Portal de Privacidade(abre numa nova janela). Também pode exercer estes direitos através do e-mail dsar@openai.com.
Tenha em atenção que, de acordo com a legislação de proteção de dados pessoais, alguns direitos podem não ser absolutos. Podemos recusar um pedido se tivermos um motivo legal para o fazer. No entanto, esforçamo-nos por dar prioridade à proteção dos dados pessoais e cumprimos todas as leis de proteção de dados pessoais aplicáveis. Se o utilizador considerar que não resolvemos adequadamente uma questão, tem o direito de apresentar uma reclamação à autoridade de controlo local.
Para mais informações sobre as práticas da OpenAI relativamente aos dados pessoais que recolhemos de ou sobre o utilizador quando este utiliza o nosso site, aplicações e serviços, consulte a nossa Política de Privacidade.