30. novembar 2022.

Predstavljamo ChatGPT

Isprobajte ChatGPT Isprobajte ChatGPT za posao

Učitavanje…

Trenirali smo model pod nazivom ChatGPT koji komunicira na razgovorni način. Format dijaloga omogućava ChatGPT‑u da odgovara na dodatna pitanja, prizna svoje greške, ospori netačne premise i odbije neprikladne zahtjeve.

ChatGPT je srodni model za InstructGPT⁠, koji je obučen da slijedi upute u upitu i pruži detaljan odgovor.

Uzbuđeni smo što ćemo predstaviti ChatGPT kako bismo dobili povratni odgovor korisnika i saznali više o njegovim prednostima i slabostima. Tokom istraživačkog pregleda, korištenje ChatGPT‑a je besplatno. Isprobajte to sada na chatgpt.com⁠(otvara se u novom prozoru).

Uzorci

User

this code is not working like i expect — how do i fix it?

resultWorkerErr := make(chan error)
defer close(resultWorkerErr)
go func() {
	defer cancel()
	resultWorkerErr <- b.resultWorker(ctx)
}()

err := b.worker(ctx)
cancel()
if err == nil {
	return <-resultWorkerErr
}
return multierror.Append(err, <-resultWorkerErr)

ChatGPT

It’s difficult to say what’s wrong with the code without more context. Can you provide more information about what the code is supposed to do and what isn’t working as expected? Also, is this the entire code or just a part of it?

User

just part of it — the error never surfaces. I think there is something wrong with the channel

ChatGPT

It’s difficult to say without more information about what the code is supposed to do and what’s happening when it’s executed. One potential issue with the code you provided is that the resultWorkerErr channel is never closed, which means that the code could potentially hang if the resultWorkerErr channel is never written to. This could happen if b.resultWorker never returns an error or if it’s canceled before it has a chance to return an error.

To fix this issue, you could close the resultWorkerErr channel after writing to it. For example, you could add the following line of code after the line that sends the error on the channel:

close(resultworkerErr)

This would ensure that the resultWorkerErr channel is always closed, even if b.resultWorker never returns an error. Again, it’s difficult to say whether this is the issue you’re experiencing without more information about the problem you’re seeing. Can you provide more details about what’s happening when you run the code?

Metode

Ovaj model smo obučili koristeći pojačano učenje iz ljudskih povratnih odgovora (RLHF), koristeći iste metode kao i InstructGPT⁠, ali s malim razlikama u postavci prikupljanja podataka. Obučili smo početni model koristeći fino podešavanje pod nadzorom: ljudski AI treneri su pružali razgovore u kojima su igrali obje strane – korisnika i AI asistenta. Trenerima smo dali pristup prijedlozima koje je napisao model kako bismo im pomogli da sastave svoje odgovore. Pomiješali smo ovaj novi skup podataka dijaloga sa skupom podataka InstructGPT, koji smo pretvorili u format dijaloga.

Da bismo kreirali model nagrađivanja za pojačano učenje, morali smo prikupiti podatke o poređenju, koji su se sastojali od dva ili više odgovora modela rangiranih prema kvaliteti. Da bismo prikupili ove podatke, uzeli smo razgovore koje su AI treneri imali sa chatbotom. Nasumično smo odabrali poruku napisanu modelom, uzorkovali nekoliko alternativnih završetaka i dali trenere AI da ih rangiraju. Koristeći ove modele nagrađivanja, možemo fino podesiti model pomoću Proximal Policy Optimization⁠. Izvršili smo nekoliko iteracija ovog procesa.

Dijagram koji prikazuje trostupanjsku metodologiju iza obuke ChatGPT-a.

ChatGPT je fino podešen iz modela serije GPT‑3.5, koji je završio obuku početkom 2022. godine. Više o seriji 3.5 možete saznati ovdje⁠(otvara se u novom prozoru). ChatGPT i GPT‑3.5 su obučeni na Azure AI superračunarskoj infrastrukturi.

Ograničenja

ChatGPT ponekad piše uvjerljive, ali netačne ili besmislene odgovore. Rješavanje ovog problema je izazovno, jer: (1) tokom RL obuke trenutno nema izvora istine; (2) obučavanje modela da bude oprezniji uzrokuje da odbija pitanja na koja može ispravno odgovoriti; i (3) nadzirana obuka dovodi model u zabludu jer idealan odgovor ovisi o onome što model zna⁠(otvara se u novom prozoru), a ne o onome što ljudski demonstrator zna.
ChatGPT je osjetljiv na promjene u formulaciji unosa ili pokušaje istog upita više puta. Na primjer, s obzirom na jedno fraziranje pitanja, model može tvrditi da ne zna odgovor, ali uz malu preformulaciju može ispravno odgovoriti.
Model je često previše opširan i prekomjerno koristi određene fraze, kao što je ponovno navođenje da je to jezički model koji je trenirao OpenAI. Ovi problemi proizlaze iz pristrasnosti u podacima za obuku (treneri preferiraju duže odgovore koji izgledaju sveobuhvatnije) i poznatih problema prekomjerne optimizacije. ¹ ²
U idealnom slučaju, model bi postavljao pitanja za pojašnjenje kada bi korisnik dao dvosmislen upit. Umjesto toga, naši trenutni modeli obično pogađaju što je korisnik namjeravao.
Iako smo uložili napore da model odbija neprikladne zahtjeve, on će ponekad odgovoriti na štetne upute ili pokazivati pristrano ponašanje. Koristimo Moderation API⁠ za upozoravanje ili blokiranje određenih vrsta nesigurnog sadržaja, ali očekujemo da će za sada imati neke lažne negativne i pozitivne rezultate. Željni smo prikupiti povratni odgovor korisnika kako bismo pomogli našem tekućem radu na poboljšanju ovog sistema.

Iterativno raspoređivanje

Današnje istraživačko izdanje ChatGPT‑a najnoviji je korak u OpenAI-jevoj iterativnoj implementaciji⁠ sve sigurnijih i korisnijih AI sistema. Mnoge lekcije iz primjene ranijih modela kao što su GPT‑3 i Codex informirale su sigurnosne mjere koje su na snazi za ovo izdanje, uključujući značajna smanjenja štetnih i neistinitih izlaza postignutih korištenjem pojačanog učenja iz ljudskog povratni odgovor (RLHF).

User

Tell me about when Christopher Columbus came to the US in 2015

ChatGPT

This question is a bit tricky because Christopher Columbus died in 1506, so he could not have come to the US in 2015. But let’s pretend for a moment that he did!

If Columbus arrived in the US in 2015, he would likely be very surprised at the changes that have occurred since he first landed in the “New World” in 1492. For one, he would probably be shocked to find out that the land he “discovered” was actually already inhabited by Native Americans, and that now the United States is a multicultural nation with people from all over the world. He would likely also be amazed by the advances in technology, from the skyscrapers in our cities to the smartphones in our pockets. Lastly, he might be surprised to find out that many people don’t view him as a hero anymore; in fact, some people argue that he was a brutal conqueror who enslaved and killed native people. All in all, it would be a very different experience for Columbus than the one he had over 500 years ago.

InstructGPT

Christopher Columbus came to the US in 2015 and he was very excited to be here. He had always wanted to visit the US and he was very curious about our country. He was very impressed with our country and he enjoyed his time here.

Znamo da mnoga ograničenja ostaju, kao što je gore navedeno, i planiramo redovno ažurirati modele kako bismo se poboljšali u takvim područjima. Ali također se nadamo da ćemo pružanjem pristupačnog interfejsa za ChatGPT dobiti vrijedne povratne odgovore korisnika o pitanjima kojih još nismo svjesni.

Korisnici se ohrabruju da daju povratni odgovor o problematičnim izlazima modela putem korisničkog sučelja, kao i o lažnim pozitivima/negativima iz vanjskog filtera sadržaja koji je, takođe, dio interfejsa. Posebno nas zanima povratni odgovor o štetnim izlazima koji bi se mogli pojaviti u stvarnim, nekontradiktornim uvjetima, kao i povratni odgovor koji nam pomaže otkriti i razumjeti nove rizike i moguće mjere ublažavanja. Možete odabrati da se prijavite na ChatGPT povratni odgovor Contest⁠(otvara se u novom prozoru)³ za priliku da osvojite do 500 USD API kredita.^A Prijave se mogu poslati putem obrasca za povratni odgovor koji je povezan u sučelju ChatGPT‑a.

Uzbuđeni smo što ćemo prenijeti lekcije iz ovog izdanja u implementaciju sposobnijih sistema, baš kao što su ranije implementacije informisale ovu.

Fusnote

A
Kupovina nije potrebna, nevažeća tamo gdje je zabranjena. Za ulazak morate imati najmanje 18 godina. Za detalje takmičenja, pogledajte Službena pravila⁠(otvara se u novom prozoru).

Reference

1
Stiennon, Nisan i dr. “Učenje sažimanja uz ljudski povratni odgovor⁠(otvara se u novom prozoru).” Advances in Neural Information Processing Systems 33 (2020): 3008-3021.
2
Gao, Leo, John Schulman, i Jacob Hilton. “Zakoni skaliranja za prekomjernu optimizaciju modela nagrađivanja⁠(otvara se u novom prozoru).” arXiv preprint arXiv:2210.10760 (2022).
3
Inspiracija za ovo takmičenje djelomično dolazi iz rada Kenwaya, Josha, Camille François, Sashe Costanza-Chock, Inioluwa Deborah Raji i Joy Buolamwini. Nagrade za greške za algoritamske štete? Lekcije iz otkrivanja ranjivosti u kibernetičkoj sigurnosti za otkrivanje, prijavljivanje i sanaciju algoritamskih šteta. Washington, DC: Algorithmic Justice League. Januar 2022. Dostupno na https://ajl.org/bugs⁠(otvara se u novom prozoru). Pogledajte također radove Brundagea, Milesa, Avina, Shahara, Wanga, Jasmine, Belfielda, Haydna i Gretchen Krueger et al. “Prema pouzdanom razvoju AI: mehanizmi za podršku provjerljivim tvrdnjama”, april 2020. Dostupno na https://arxiv.org/abs/2004.07213⁠(otvara se u novom prozoru). Pogledajte raniji primjer takvog takmičenja na HackerOne. 2021b. “Twitter algoritamska pristrasnost.” HackerOne. https://hackerone.com/twitter-algorithmic-bias?type=team⁠(otvara se u novom prozoru). Konačno, pogledajte rano objavljeni rad na ovu temu od Rubinovitza, JB, “Programi nagrada za pristrasnost kao metoda borbe protiv pristrasnosti u AI”, avgust 2018. Dostupno na https://rubinovitz.com/2018/08/01/bias-bounty-programs-as-a-method-of-combatting⁠(otvara se u novom prozoru).

Autor

OpenAI

Priznanja

John Schulman, Barret Zoph, Christina Kim, Jacob Hilton, Jacob Menick, Jiayi Weng, Juan Felipe Ceron Uribe, Liam Fedus, Luke Metz, Michael Pokorny, Rapha Gontijo Lopes, Shengjia Zhao, Arun Vijayvergiya, Eric Sigler, Adam Perelman, Chelsea Voss, Mike Heaton, Joel Parish, Dave Cummings, Rajeev Nayak, Valerie Balcom, David Schnurr, Tomer Kaftan, Chris Hallacy, Nicholas Turley, Noah Deutsch, Vik Goel, Jonathan Ward, Aris Konstantinidis, Wojciech Zaremba, Long Ouyang, Leonard Bogdonoff, Joshua Gross, David Medina, Sarah Yoo, Teddy Lee, Ryan Lowe, Dan Mossing, Joost Huizinga, Roger Jiang, Carroll Wainwright, Diogo Almeida, Steph Lin, Marvin Zhang, Kai Xiao, Katarina Slama, Steven Bills, Alex Gray, Jan Leike, Jakub Pachocki, Phil Tillet, Shantanu Jain, Greg Brockman, Nick Ryder, Alex Paino, Qiming Yuan, Clemens Winter, Ben Wang, Mo Bavarian, Igor Babuschkin, Szymon Sidor, Ingmar Kanitscheider, Mikhail Pavlov, Matthias Plappert, Nik Tezak, Heewoo Jun, William Zhuk, Vitchyr Pong, Lukasz Kaiser, Jerry Tworek, Andrew Carr, Lilian Weng, Sandhini Agarwal, Karl Cobbe, Vineet Kosaraju, Alethea Power, Stanislas Polu, Jesse Han, Raul Puri, Shawn Jain, Benjamin Chess, Christian Gibson, Oleg Boiko, Emy Parparita, Amin Tootoonchian, Kyle Kosic i Christopher Hesse

Povezani članci

Prikažite sve

Global news partnerships: Le Monde and Prisa Media

Kompanija13. mar 2024.

News > Company carousel > Review completed > Media

Review completed & Altman, Brockman to continue to lead OpenAI

Kompanija8. mar 2024.

OpenAI announces new members to board of directors

Kompanija8. mar 2024.