Gå til hovedindhold
OpenAI
Indlæser ...

Vi har trænet en model kaldet ChatGPT, som interagerer på en samtalebaseret måde. Dialogformatet gør det muligt for ChatGPT at besvare opfølgende spørgsmål, indrømme sine fejl, udfordre forkerte præmisser og afvise upassende anmodninger.

ChatGPT er en søskendemodel til InstructGPT, som er trænet til at følge en instruktion i en forespørgsel og give en detaljeret respons.

Vi glæder os til at introducere ChatGPT og få brugernes feedback, så vi kan blive klogere på dens styrker og svagheder. Under forhåndsvisningen af research er brugen af ChatGPT gratis. Prøv nu på chatgpt.com(åbner i et nyt vindue).

Eksempler

User
this code is not working like i expect — how do i fix it?
resultWorkerErr := make(chan error) defer close(resultWorkerErr) go func() { defer cancel() resultWorkerErr <- b.resultWorker(ctx) }() err := b.worker(ctx) cancel() if err == nil { return <-resultWorkerErr } return multierror.Append(err, <-resultWorkerErr)
ChatGPT
It’s difficult to say what’s wrong with the code without more context. Can you provide more information about what the code is supposed to do and what isn’t working as expected? Also, is this the entire code or just a part of it?
User
just part of it — the error never surfaces. I think there is something wrong with the channel
ChatGPT
It’s difficult to say without more information about what the code is supposed to do and what’s happening when it’s executed. One potential issue with the code you provided is that the resultWorkerErr channel is never closed, which means that the code could potentially hang if the resultWorkerErr channel is never written to. This could happen if b.resultWorker never returns an error or if it’s canceled before it has a chance to return an error.
To fix this issue, you could close the resultWorkerErr channel after writing to it. For example, you could add the following line of code after the line that sends the error on the channel:
close(resultworkerErr)
This would ensure that the resultWorkerErr channel is always closed, even if b.resultWorker never returns an error. Again, it’s difficult to say whether this is the issue you’re experiencing without more information about the problem you’re seeing. Can you provide more details about what’s happening when you run the code?

Metoder

Vi har trænet denne model ved hjælp af forstærkende læring fra menneskelig feedback (RLHF) ved hjælp af de samme metoder som InstructGPT, men med små forskelle i opsætningen af dataindsamlingen. Vi trænede en indledende model ved hjælp af overvåget finjustering: Menneskelige AI-trænere leverede samtaler, hvor de spillede begge roller – brugeren og AI-assistenten. Vi gav trænerne adgang til modelskrevne forslag for at hjælpe dem med at skrive deres responser. Dette nye datasæt med dialog blandede vi med InstructGPT‑datasættet, som vi omdannede til et dialogformat.

For at skabe en belønningsmodel til forstærkende læring var vi nødt til at indsamle sammenligningsdata, som bestod af to eller flere modelsvar rangeret efter kvalitet. For at indsamle disse data tog vi samtaler, som AI-trænerne havde med chatbotten. Derefter valgte vi tilfældigt en modelskrevet besked, udvalgte flere alternative færdiggørelser og fik AI-underviserne til at rangordne dem. Ved hjælp af disse belønningsmodeller kan vi finjustere modellen ved hjælp af Proximal Policy Optimization. Vi udførte flere gentagelser af processen.

Diagram showing the three-step methodology behind the training of ChatGPT.

ChatGPT er finjusteret ud fra en model i GPT‑3.5‑serien, som blev færdig i begyndelsen af 2022. Du kan lære mere om 3.5-serien her(åbner i et nyt vindue). ChatGPT og GPT‑3.5 blev trænet på en Azure AI-supercomputinginfrastruktur.

Begrænsninger

  • ChatGPT skriver nogle gange svar der lyder troværdige, men som er forkerte eller ikke giver mening. Det problem er af disse grunde vanskeligt at løse: (1) under RL-træning er der i øjeblikket ingen sandhedskilder; (2) træning af modellen til at være mere forsigtig får den til at afvise spørgsmål, som den godt kan besvare korrekt; og (3) overvåget træning vildleder modellen, fordi det ideelle svar afhænger af, hvad modellen ved(åbner i et nyt vindue), i stedet for hvad den menneskelige demonstrator ved.
  • ChatGPT er følsom over for små ændringer i formuleringen af input eller ved gentagne forsøg med den samme forespørgsel. For eksempel kan modellen hævde, at den ikke kender svaret på en formulering af et spørgsmål, men med en lille omformulering kan den svare korrekt.
  • Modellen er ofte overdrevent ordrig og overbruger visse sætninger, som f.eks. at gentage, at den er en sprogmodel, der er trænet af OpenAI. Disse problemer opstår på grund af bias i træningsdataene (trænerne foretrækker længere svar, der ser mere omfattende ud) og velkendte problemer med overoptimering.1 og 2
  • Ideelt set ville modellen stille opklarende spørgsmål, når brugeren kommer med en tvetydig forespørgsel. I stedet gætter vores nuværende modeller som regel på, hvad brugeren mente.
  • Selvom vi har arbejdet på at få modellen til at afvise upassende anmodninger, vil den nogle gange reagere på skadelige instruktioner eller udvise forudindtaget adfærd. Vi bruger Moderation API til at advare eller blokere visse typer skadeligt indhold, men vi forventer, at den indtil videre fortsat vil have nogle falske negativer og positiver. Vi er meget opsatte på at indsamle brugerfeedback til det løbende arbejde med at forbedre systemet.

Iterativ implementering

Dagens research-lancering af ChatGPT er det seneste skridt i OpenAI's iterative implementering af stadig mere sikre og nyttige AI-systemer. Mange erfaringer fra implementeringen af tidligere modeller, som GPT‑3 og Codex, har dannet grundlag for sikkerhedsforanstaltningerne i denne udgave, herunder betydelige reduktioner i skadelige og usande output, der er opnået ved brug af forstærkende læring fra menneskelig feedback (RLHF).

User
Tell me about when Christopher Columbus came to the US in 2015
ChatGPT
This question is a bit tricky because Christopher Columbus died in 1506, so he could not have come to the US in 2015. But let’s pretend for a moment that he did!
If Columbus arrived in the US in 2015, he would likely be very surprised at the changes that have occurred since he first landed in the “New World” in 1492. For one, he would probably be shocked to find out that the land he “discovered” was actually already inhabited by Native Americans, and that now the United States is a multicultural nation with people from all over the world. He would likely also be amazed by the advances in technology, from the skyscrapers in our cities to the smartphones in our pockets. Lastly, he might be surprised to find out that many people don’t view him as a hero anymore; in fact, some people argue that he was a brutal conqueror who enslaved and killed native people. All in all, it would be a very different experience for Columbus than the one he had over 500 years ago.
InstructGPT
Christopher Columbus came to the US in 2015 and he was very excited to be here. He had always wanted to visit the US and he was very curious about our country. He was very impressed with our country and he enjoyed his time here.

Vi ved, at der stadig er mange begrænsninger som beskrevet ovenfor, og vi planlægger at lave regelmæssige modelopdateringer for at forbedre disse områder. Men vi håber også, at vi ved at levere en tilgængelig brugerflade til ChatGPT vil få værdifuld brugerfeedback om problemer, som vi ikke allerede er opmærksomme på.

Brugerne opfordres til at give feedback på problematiske modeloutput via brugerfladen samt på falske positiver/negativer fra det eksterne indholdsfilter, som også er en del af brugerfladen. Vi er særligt interesserede i feedback om skadelige output, der kan opstå i den virkelige verden under ikke-konfliktfyldte forhold, samt feedback, der hjælper os med at afdække og forstå nye risici og mulige forbedringer. Du kan vælge at deltage i ChatGPT's feedback-konkurrence(åbner i et nyt vindue)3 og få chancen for at vinde op til 500 USD i API-kreditter.A. Bidrag kan indsendes via den feedbackformular, der er linket til i brugerfladen på ChatGPT.

Vi glæder os til at tage erfaringerne fra denne lancering med i implementeringen af mere effektive systemer, ligesom tidligere implementeringer har inspireret denne.

Fodnoter

  1. A

    Køb ikke nødvendigt, ugyldigt hvor forbudt. Skal være mindst 18 år for at deltage. For oplysninger om konkurrencen, se de officielle regler(åbner i et nyt vindue).

Litteraturhenvisninger

  1. 1

    Stiennon, Nisan, m.fl. “Learning to summarize with human feedback(åbner i et nyt vindue).” Advances in Neural Information Processing Systems 33 (2020) 3008-3021.

  2. 2

    Gao, Leo, John Schulman og Jacob Hilton. “Scaling Laws for Reward Model Overoptimization(åbner i et nyt vindue).” arXiv preprint arXiv:2210.10760 (2022).

  3. 3

    Inspirationen til konkurrencen kommer blandt andet fra undersøgelser af Kenway, Josh, Camille François, Sasha Costanza-Chock, Inioluwa Deborah Raji og Joy Buolamwini. Bug Bounties For Algorithmic Harms? Lessons from Cybersecurity Vulnerability Disclosure for Algorithmic Harms Discovery, Disclosure, and Redress. Washington, DC: Algorithmic Justice League. Januar 2022. Kan findes på https://ajl.org/bugs(åbner i et nyt vindue). Se også artikel af Brundage, Miles, Avin, Shahar, Wang, Jasmine, Belfield, Haydn og Gretchen Krueger m.fl. “Toward Trustworthy AI Development: Mechanisms for Supporting Verifiable Claims”, april 2020. Kan findes på https://arxiv.org/abs/2004.07213(åbner i et nyt vindue). Se et tidligere eksempel på en lignende konkurrence hos HackerOne. 2021b. “Twitter Algorithmic Bias.” HackerOne. https://hackerone.com/twitter-algorithmic-bias?type=team(åbner i et nyt vindue). Se desuden en tidligt publiceret artikel om emnet af Rubinovitz, JB, “Bias Bounty Programs as a Method of Combatting Bias in AI”, august 2018. Kan findes på https://rubinovitz.com/2018/08/01/bias-bounty-programs-as-a-method-of-combatting(åbner i et nyt vindue).

Skrevet af

OpenAI

Tak til

John Schulman, Barret Zoph, Christina Kim, Jacob Hilton, Jacob Menick, Jiayi Weng, Juan Felipe Ceron Uribe, Liam Fedus, Luke Metz, Michael Pokorny, Rapha Gontijo Lopes, Shengjia Zhao, Arun Vijayvergiya, Eric Sigler, Adam Perelman, Chelsea Voss, Mike Heaton, Joel Parish, Dave Cummings, Rajeev Nayak, Valerie Balcom, David Schnurr, Tomer Kaftan, Chris Hallacy, Nicholas Turley, Noah Deutsch, Vik Goel, Jonathan Ward, Aris Konstantinidis, Wojciech Zaremba, Long Ouyang, Leonard Bogdonoff, Joshua Gross, David Medina, Sarah Yoo, Teddy Lee, Ryan Lowe, Dan Mossing, Joost Huizinga, Roger Jiang, Carroll Wainwright, Diogo Almeida, Steph Lin, Marvin Zhang, Kai Xiao, Katarina Slama, Steven Bills, Alex Gray, Jan Leike, Jakub Pachocki, Phil Tillet, Shantanu Jain, Greg Brockman, Nick Ryder, Alex Paino, Qiming Yuan, Clemens Winter, Ben Wang, Mo Bavarian, Igor Babuschkin, Szymon Sidor, Ingmar Kanitscheider, Mikhail Pavlov, Matthias Plappert, Nik Tezak, Heewoo Jun, William Zhuk, Vitchyr Pong, Lukasz Kaiser, Jerry Tworek, Andrew Carr, Lilian Weng, Sandhini Agarwal, Karl Cobbe, Vineet Kosaraju, Alethea Power, Stanislas Polu, Jesse Han, Raul Puri, Shawn Jain, Benjamin Chess, Christian Gibson, Oleg Boiko, Emy Parparita, Amin Tootoonchian, Kyle Kosic og Christopher Hesse