Apresentamos o ChatGPT
Treinámos um modelo chamado ChatGPT que interage de forma conversacional. O formato de diálogo permite que o ChatGPT responda a perguntas de seguimento, admita os seus erros, conteste premissas incorretas e rejeite pedidos impróprios.
O ChatGPT é um modelo irmão do InstructGPT, treinado para seguir uma instrução num prompt e fornecer uma resposta detalhada.
Temos o prazer de apresentar o ChatGPT para receber feedback dos utilizadores e aprender sobre os seus pontos fortes e fracos. Durante o período de pré-visualização de investigação, a utilização do ChatGPT é gratuita. Experimenta já em chatgpt.com(abre numa nova janela).
Amostras
resultWorkerErr := make(chan error)
defer close(resultWorkerErr)
go func() {
defer cancel()
resultWorkerErr <- b.resultWorker(ctx)
}()
err := b.worker(ctx)
cancel()
if err == nil {
return <-resultWorkerErr
}
return multierror.Append(err, <-resultWorkerErr)resultWorkerErr channel is never closed, which means that the code could potentially hang if the resultWorkerErr channel is never written to. This could happen if b.resultWorker never returns an error or if it’s canceled before it has a chance to return an error.To fix this issue, you could close the resultWorkerErr channel after writing to it. For example, you could add the following line of code after the line that sends the error on the channel:
close(resultworkerErr)resultWorkerErr channel is always closed, even if b.resultWorker never returns an error. Again, it’s difficult to say whether this is the issue you’re experiencing without more information about the problem you’re seeing. Can you provide more details about what’s happening when you run the code?Treinámos este modelo usando Aprendizagem por Reforço a partir de Feedback Humano (RLHF), utilizando os mesmos métodos que o InstructGPT, mas com pequenas diferenças na configuração da recolha de dados. Treinámos um modelo inicial utilizando o ajuste fino supervisionado: os treinadores humanos de IA proporcionaram conversas nas quais desempenhavam ambos os papéis — o de utilizador e o de assistente de IA. Demos aos formadores acesso a sugestões geradas por modelos para os ajudar a compor as suas respostas. Misturámos este novo conjunto de dados de diálogo com o conjunto de dados do InstructGPT, que transformámos num formato de diálogo.
Para criar um modelo de recompensa para a aprendizagem por reforço, tivemos de recolher dados de comparação, que consistem em duas ou mais respostas do modelo classificadas por qualidade. Para recolher estes dados, recolhemos as conversas que os formadores de IA tiveram com o chatbot. Selecionámos aleatoriamente uma mensagem escrita por um modelo, recolhemos várias conclusões alternativas e pedimos a formadores de IA que as classificassem. Utilizando estes modelos de recompensa, podemos ajustar o modelo utilizando otimização da política proximal (PPO). Realizámos várias iterações deste processo.

O ChatGPT é afinado a partir de um modelo da série GPT‑3.5, que concluiu a formação no início de 2022. Podes saber mais sobre a série 3.5 aqui(abre numa nova janela). O ChatGPT e o GPT‑3.5 foram treinados numa infraestrutura de supercomputação da Azure AI.
- O ChatGPT por vezes escreve respostas que parecem plausíveis, mas que são incorretas ou não fazem sentido. Corrigir este problema é um desafio, pois: (1) durante o treino de RL, atualmente não existe uma fonte de verdade; (2) treinar o modelo para ser mais cauteloso faz com que este rejeite questões a que consiga responder corretamente; e (3) o treino supervisionado engana o modelo porque a resposta ideal depende do que o modelo sabe(abre numa nova janela), em vez do que o demonstrador humano sabe.
- O ChatGPT é sensível a ajustes na formulação da entrada ou à tentativa de inserir o mesmo prompt várias vezes. Por exemplo, com uma formulação de uma pergunta, o modelo pode alegar não saber a resposta, mas com uma ligeira reformulação, pode responder corretamente.
- O modelo, normalmente, é excessivamente verboso e faz um uso excessivo de determinadas frases, como por exemplo reiterar que se trata de um modelo de linguagem treinado pela OpenAI. Estes problemas surgem de preconceitos nos dados de treino (os treinadores preferem respostas mais longas que parecem mais abrangentes) e de problemas bem conhecidos de excesso de otimização.1, 2
- Idealmente, o modelo faria perguntas para esclarecer dúvidas quando o utilizador fornecesse uma pergunta ambígua. Em vez disso, os nossos modelos atuais tentam frequentemente adivinhar o que o utilizador pretende.
- Embora tenhamos feito esforços para que o modelo recuse pedidos inadequados, por vezes responde a instruções prejudiciais ou exibe um comportamento tendencioso. Estamos a utilizar a API Moderation para alertar ou bloquear certos tipos de conteúdo inseguro, mas esperamos que, por enquanto, apresente alguns falsos negativos e positivos. Estamos ansiosos por recolher feedback dos usuários para ajudar o nosso trabalho contínuo de melhorar este sistema.
O lançamento de investigação de hoje do ChatGPT é o mais recente passo na implementação iterativa da OpenAI de sistemas de IA cada vez mais seguros e úteis. Muitas lições aprendidas com a implementação de modelos anteriores, como o GPT‑3 e o Codex, contribuíram para as medidas de segurança adotadas nesta versão, incluindo reduções substanciais nos resultados prejudiciais e falsos, obtidas através da aprendizagem por reforço a partir do feedback humano (RLHF).
Sabemos que ainda existem muitas limitações, como discutido acima, e planeamos fazer atualizações regulares no modelo para melhorar nestes aspetos. Mas também esperamos que, ao disponibilizar uma interface acessível para o ChatGPT, possamos obter um feedback valioso dos utilizadores sobre problemas que ainda não conhecemos.
Os utilizadores são incentivados a fornecer feedback sobre resultados problemáticos do modelo através da interface do utilizador, bem como sobre falsos positivos/negativos do filtro de conteúdo externo, que também faz parte da interface. Estamos particularmente interessados em receber feedback sobre resultados prejudiciais que possam ocorrer em condições reais e não antagónicas, bem como feedback que nos ajude a descobrir e compreender novos riscos e possíveis medidas de mitigação. Podes escolher participar no Concurso de Feedback do ChatGPT(abre numa nova janela)3 para ter a oportunidade de ganhar até 500 $ em créditos da API.A As candidaturas podem ser submetidas através do formulário de feedback que está disponível na interface do ChatGPT.
Estamos entusiasmados por aproveitar as lições aprendidas com esta versão para implementar sistemas mais robustos, tal como as implementações anteriores contribuíram para esta.
Notas de rodapé
- A
Não é necessária qualquer compra. Oferta inválida onde for proibida por lei. Tens de ter, pelo menos, 18 anos para participar- Para ver detalhes do concurso, consulta o Regulamento Oficial(abre numa nova janela).
Referências
- 1
Stiennon, Nisan, et al. "Learning to summarize with human feedback(abre numa nova janela)." Advances in Neural Information Processing Systems 33 (2020): 3008-3021.
- 2
Gao, Leo, John Schulman e Jacob Hilton. "Scaling Laws for Reward Model Overoptimization(abre numa nova janela)." arXiv preprint arXiv:2210.10760 (2022).
- 3
A inspiração para este concurso vem em parte do trabalho de Kenway, Josh, Camille François, Sasha Costanza-Chock, Inioluwa Deborah Raji e Joy Buolamwini. Bug Bounties For Algorithmic Harms? Lessons from Cybersecurity Vulnerability Disclosure for Algorithmic Harms Discovery, Disclosure, and Redress. Washington, DC: Algorithmic Justice League. janeiro de 2022. Disponível em https://ajl.org/bugs(abre numa nova janela). Veê também o trabalho de Brundage, Miles, Avin, Shahar, Wang, Jasmine, Belfield, Haydn e Gretchen Krueger et al. "Toward Trustworthy AI Development: Mechanisms for Supporting Verifiable Claims", abril de 2020. Disponível em https://arxiv.org/abs/2004.07213(abre numa nova janela). Vê um exemplo anterior de um concurso semelhante no HackerOne. 2021b. "Twitter Algorithmic Bias. HackerOne. https://hackerone.com/twitter-algorithmic-bias?type=team(abre numa nova janela). Por fim, consulta o trabalho publicado anteriormente sobre este tópico por Rubinovitz, JB, "Bias Bounty Programs as a Method of Combatting Bias in AI", agosto de 2018. Disponível em https://rubinovitz.com/2018/08/01/bias-bounty-programs-as-a-method-of-combatting(abre numa nova janela).
Autor
Reconhecimentos
John Schulman, Barret Zoph, Christina Kim, Jacob Hilton, Jacob Menick, Jiayi Weng, Juan Felipe Ceron Uribe, Liam Fedus, Luke Metz, Michael Pokorny, Rapha Gontijo Lopes, Shengjia Zhao, Arun Vijayvergiya, Eric Sigler, Adam Perelman, Chelsea Voss, Mike Heaton, Joel Parish, Dave Cummings, Rajeev Nayak, Valerie Balcom, David Schnurr, Tomer Kaftan, Chris Hallacy, Nicholas Turley, Noah Deutsch, Vik Goel, Jonathan Ward, Aris Konstantinidis, Wojciech Zaremba, Long Ouyang, Leonard Bogdonoff, Joshua Gross, David Medina, Sarah Yoo, Teddy Lee, Ryan Lowe, Dan Mossing, Joost Huizinga, Roger Jiang, Carroll Wainwright, Diogo Almeida, Steph Lin, Marvin Zhang, Kai Xiao, Katarina Slama, Steven Bills, Alex Gray, Jan Leike, Jakub Pachocki, Phil Tillet, Shantanu Jain, Greg Brockman, Nick Ryder, Alex Paino, Qiming Yuan, Clemens Winter, Ben Wang, Mo Bavarian, Igor Babuschkin, Szymon Sidor, Ingmar Kanitscheider, Mikhail Pavlov, Matthias Plappert, Nik Tezak, Heewoo Jun, William Zhuk, Vitchyr Pong, Lukasz Kaiser, Jerry Tworek, Andrew Carr, Lilian Weng, Sandhini Agarwal, Karl Cobbe, Vineet Kosaraju, Alethea Power, Stanislas Polu, Jesse Han, Raul Puri, Shawn Jain, Benjamin Chess, Christian Gibson, Oleg Boiko, Emy Parparita, Amin Tootoonchian, Kyle Kosic, Christopher Hesse


