Predstavljamo ChatGPT
Trenirali smo model pod nazivom ChatGPT koji komunicira na razgovorni način. Format dijaloga omogućava ChatGPT‑u da odgovara na dodatna pitanja, prizna svoje greške, ospori netačne premise i odbije neprikladne zahtjeve.
ChatGPT je srodni model za InstructGPT, koji je obučen da slijedi upute u upitu i pruži detaljan odgovor.
Uzbuđeni smo što ćemo predstaviti ChatGPT kako bismo dobili povratni odgovor korisnika i saznali više o njegovim prednostima i slabostima. Tokom istraživačkog pregleda, korištenje ChatGPT‑a je besplatno. Isprobajte to sada na chatgpt.com(otvara se u novom prozoru).
Uzorci
resultWorkerErr := make(chan error)
defer close(resultWorkerErr)
go func() {
defer cancel()
resultWorkerErr <- b.resultWorker(ctx)
}()
err := b.worker(ctx)
cancel()
if err == nil {
return <-resultWorkerErr
}
return multierror.Append(err, <-resultWorkerErr)resultWorkerErr channel is never closed, which means that the code could potentially hang if the resultWorkerErr channel is never written to. This could happen if b.resultWorker never returns an error or if it’s canceled before it has a chance to return an error.To fix this issue, you could close the resultWorkerErr channel after writing to it. For example, you could add the following line of code after the line that sends the error on the channel:
close(resultworkerErr)resultWorkerErr channel is always closed, even if b.resultWorker never returns an error. Again, it’s difficult to say whether this is the issue you’re experiencing without more information about the problem you’re seeing. Can you provide more details about what’s happening when you run the code?Ovaj model smo obučili koristeći pojačano učenje iz ljudskih povratnih odgovora (RLHF), koristeći iste metode kao i InstructGPT, ali s malim razlikama u postavci prikupljanja podataka. Obučili smo početni model koristeći fino podešavanje pod nadzorom: ljudski AI treneri su pružali razgovore u kojima su igrali obje strane – korisnika i AI asistenta. Trenerima smo dali pristup prijedlozima koje je napisao model kako bismo im pomogli da sastave svoje odgovore. Pomiješali smo ovaj novi skup podataka dijaloga sa skupom podataka InstructGPT, koji smo pretvorili u format dijaloga.
Da bismo kreirali model nagrađivanja za pojačano učenje, morali smo prikupiti podatke o poređenju, koji su se sastojali od dva ili više odgovora modela rangiranih prema kvaliteti. Da bismo prikupili ove podatke, uzeli smo razgovore koje su AI treneri imali sa chatbotom. Nasumično smo odabrali poruku napisanu modelom, uzorkovali nekoliko alternativnih završetaka i dali trenere AI da ih rangiraju. Koristeći ove modele nagrađivanja, možemo fino podesiti model pomoću Proximal Policy Optimization. Izvršili smo nekoliko iteracija ovog procesa.

ChatGPT je fino podešen iz modela serije GPT‑3.5, koji je završio obuku početkom 2022. godine. Više o seriji 3.5 možete saznati ovdje(otvara se u novom prozoru). ChatGPT i GPT‑3.5 su obučeni na Azure AI superračunarskoj infrastrukturi.
- ChatGPT ponekad piše uvjerljive, ali netačne ili besmislene odgovore. Rješavanje ovog problema je izazovno, jer: (1) tokom RL obuke trenutno nema izvora istine; (2) obučavanje modela da bude oprezniji uzrokuje da odbija pitanja na koja može ispravno odgovoriti; i (3) nadzirana obuka dovodi model u zabludu jer idealan odgovor ovisi o onome što model zna(otvara se u novom prozoru), a ne o onome što ljudski demonstrator zna.
- ChatGPT je osjetljiv na promjene u formulaciji unosa ili pokušaje istog upita više puta. Na primjer, s obzirom na jedno fraziranje pitanja, model može tvrditi da ne zna odgovor, ali uz malu preformulaciju može ispravno odgovoriti.
- Model je često previše opširan i prekomjerno koristi određene fraze, kao što je ponovno navođenje da je to jezički model koji je trenirao OpenAI. Ovi problemi proizlaze iz pristrasnosti u podacima za obuku (treneri preferiraju duže odgovore koji izgledaju sveobuhvatnije) i poznatih problema prekomjerne optimizacije. 1 2
- U idealnom slučaju, model bi postavljao pitanja za pojašnjenje kada bi korisnik dao dvosmislen upit. Umjesto toga, naši trenutni modeli obično pogađaju što je korisnik namjeravao.
- Iako smo uložili napore da model odbija neprikladne zahtjeve, on će ponekad odgovoriti na štetne upute ili pokazivati pristrano ponašanje. Koristimo Moderation API za upozoravanje ili blokiranje određenih vrsta nesigurnog sadržaja, ali očekujemo da će za sada imati neke lažne negativne i pozitivne rezultate. Željni smo prikupiti povratni odgovor korisnika kako bismo pomogli našem tekućem radu na poboljšanju ovog sistema.
Današnje istraživačko izdanje ChatGPT‑a najnoviji je korak u OpenAI-jevoj iterativnoj implementaciji sve sigurnijih i korisnijih AI sistema. Mnoge lekcije iz primjene ranijih modela kao što su GPT‑3 i Codex informirale su sigurnosne mjere koje su na snazi za ovo izdanje, uključujući značajna smanjenja štetnih i neistinitih izlaza postignutih korištenjem pojačanog učenja iz ljudskog povratni odgovor (RLHF).
Znamo da mnoga ograničenja ostaju, kao što je gore navedeno, i planiramo redovno ažurirati modele kako bismo se poboljšali u takvim područjima. Ali također se nadamo da ćemo pružanjem pristupačnog interfejsa za ChatGPT dobiti vrijedne povratne odgovore korisnika o pitanjima kojih još nismo svjesni.
Korisnici se ohrabruju da daju povratni odgovor o problematičnim izlazima modela putem korisničkog sučelja, kao i o lažnim pozitivima/negativima iz vanjskog filtera sadržaja koji je, takođe, dio interfejsa. Posebno nas zanima povratni odgovor o štetnim izlazima koji bi se mogli pojaviti u stvarnim, nekontradiktornim uvjetima, kao i povratni odgovor koji nam pomaže otkriti i razumjeti nove rizike i moguće mjere ublažavanja. Možete odabrati da se prijavite na ChatGPT povratni odgovor Contest(otvara se u novom prozoru)3 za priliku da osvojite do 500 USD API kredita.A Prijave se mogu poslati putem obrasca za povratni odgovor koji je povezan u sučelju ChatGPT‑a.
Uzbuđeni smo što ćemo prenijeti lekcije iz ovog izdanja u implementaciju sposobnijih sistema, baš kao što su ranije implementacije informisale ovu.
Fusnote
- A
Kupovina nije potrebna, nevažeća tamo gdje je zabranjena. Za ulazak morate imati najmanje 18 godina. Za detalje takmičenja, pogledajte Službena pravila(otvara se u novom prozoru).
Reference
- 1
Stiennon, Nisan i dr. “Učenje sažimanja uz ljudski povratni odgovor(otvara se u novom prozoru).” Advances in Neural Information Processing Systems 33 (2020): 3008-3021.
- 2
Gao, Leo, John Schulman, i Jacob Hilton. “Zakoni skaliranja za prekomjernu optimizaciju modela nagrađivanja(otvara se u novom prozoru).” arXiv preprint arXiv:2210.10760 (2022).
- 3
Inspiracija za ovo takmičenje djelomično dolazi iz rada Kenwaya, Josha, Camille François, Sashe Costanza-Chock, Inioluwa Deborah Raji i Joy Buolamwini. Nagrade za greške za algoritamske štete? Lekcije iz otkrivanja ranjivosti u kibernetičkoj sigurnosti za otkrivanje, prijavljivanje i sanaciju algoritamskih šteta. Washington, DC: Algorithmic Justice League. Januar 2022. Dostupno na https://ajl.org/bugs(otvara se u novom prozoru). Pogledajte također radove Brundagea, Milesa, Avina, Shahara, Wanga, Jasmine, Belfielda, Haydna i Gretchen Krueger et al. “Prema pouzdanom razvoju AI: mehanizmi za podršku provjerljivim tvrdnjama”, april 2020. Dostupno na https://arxiv.org/abs/2004.07213(otvara se u novom prozoru). Pogledajte raniji primjer takvog takmičenja na HackerOne. 2021b. “Twitter algoritamska pristrasnost.” HackerOne. https://hackerone.com/twitter-algorithmic-bias?type=team(otvara se u novom prozoru). Konačno, pogledajte rano objavljeni rad na ovu temu od Rubinovitza, JB, “Programi nagrada za pristrasnost kao metoda borbe protiv pristrasnosti u AI”, avgust 2018. Dostupno na https://rubinovitz.com/2018/08/01/bias-bounty-programs-as-a-method-of-combatting(otvara se u novom prozoru).
Autor
Priznanja
John Schulman, Barret Zoph, Christina Kim, Jacob Hilton, Jacob Menick, Jiayi Weng, Juan Felipe Ceron Uribe, Liam Fedus, Luke Metz, Michael Pokorny, Rapha Gontijo Lopes, Shengjia Zhao, Arun Vijayvergiya, Eric Sigler, Adam Perelman, Chelsea Voss, Mike Heaton, Joel Parish, Dave Cummings, Rajeev Nayak, Valerie Balcom, David Schnurr, Tomer Kaftan, Chris Hallacy, Nicholas Turley, Noah Deutsch, Vik Goel, Jonathan Ward, Aris Konstantinidis, Wojciech Zaremba, Long Ouyang, Leonard Bogdonoff, Joshua Gross, David Medina, Sarah Yoo, Teddy Lee, Ryan Lowe, Dan Mossing, Joost Huizinga, Roger Jiang, Carroll Wainwright, Diogo Almeida, Steph Lin, Marvin Zhang, Kai Xiao, Katarina Slama, Steven Bills, Alex Gray, Jan Leike, Jakub Pachocki, Phil Tillet, Shantanu Jain, Greg Brockman, Nick Ryder, Alex Paino, Qiming Yuan, Clemens Winter, Ben Wang, Mo Bavarian, Igor Babuschkin, Szymon Sidor, Ingmar Kanitscheider, Mikhail Pavlov, Matthias Plappert, Nik Tezak, Heewoo Jun, William Zhuk, Vitchyr Pong, Lukasz Kaiser, Jerry Tworek, Andrew Carr, Lilian Weng, Sandhini Agarwal, Karl Cobbe, Vineet Kosaraju, Alethea Power, Stanislas Polu, Jesse Han, Raul Puri, Shawn Jain, Benjamin Chess, Christian Gibson, Oleg Boiko, Emy Parparita, Amin Tootoonchian, Kyle Kosic i Christopher Hesse


