Vytrénovali sme model s názvom ChatGPT, ktorý komunikuje konverzačným spôsobom. Formát dialógu umožňuje ChatGPT odpovedať na doplňujúce otázky, priznať svoje chyby, spochybniť nesprávne predpoklady a odmietnuť nevhodné požiadavky.
ChatGPT je súrodenecký model k InstructGPT, ktorý je vyškolený na sledovanie inštrukcií v príkaze a poskytovanie podrobnej odpovede.
S nadšením predstavujeme ChatGPT, aby sme získali spätnú väzbu od používateľov a dozvedeli sa o jeho silných a slabých stránkach. Počas ukážky výskumu je používanie ChatGPT bezplatné. Vyskúšajte to teraz na chatgpt.com(otvorí sa v novom okne).
Vzorky
resultWorkerErr := make(chan error)
defer close(resultWorkerErr)
go func() {
defer cancel()
resultWorkerErr <- b.resultWorker(ctx)
}()
err := b.worker(ctx)
cancel()
if err == nil {
return <-resultWorkerErr
}
return multierror.Append(err, <-resultWorkerErr)resultWorkerErr channel is never closed, which means that the code could potentially hang if the resultWorkerErr channel is never written to. This could happen if b.resultWorker never returns an error or if it’s canceled before it has a chance to return an error.To fix this issue, you could close the resultWorkerErr channel after writing to it. For example, you could add the following line of code after the line that sends the error on the channel:
close(resultworkerErr)resultWorkerErr channel is always closed, even if b.resultWorker never returns an error. Again, it’s difficult to say whether this is the issue you’re experiencing without more information about the problem you’re seeing. Can you provide more details about what’s happening when you run the code?Tento model sme vyškolili pomocou učenia posilňovaním z ľudskej spätnej väzby (RLHF) s použitím rovnakých metód ako InstructGPT, ale s malými rozdielmi v nastavení zberu údajov. Vytrénovali sme počiatočný model pomocou kontrolovaného dolaďovania: tréneri ľudskej AI poskytovali konverzácie, v ktorých hrali obe strany – používateľa aj asistenta AI. Trénerom sme poskytli prístup k návrhom napísaným modelom, aby im pomohli zostaviť ich odpovede. Tento nový súbor údajov dialógov sme zmiešali so súborom údajov InstructGPT, ktorý sme transformovali do formátu dialógu.
Na vytvorenie modelu odmeňovania pre učenie posilňovaním sme potrebovali zhromaždiť porovnávacie údaje, ktoré pozostávali z dvoch alebo viacerých modelových odpovedí zoradených podľa kvality. Na zhromaždenie týchto údajov sme použili konverzácie, ktoré tréneri AI viedli s chatbotom. Náhodne sme vybrali správu napísanú modelom, otestovali niekoľko alternatívnych dokončení a nechali ich zoradiť trénermi AI. Pomocou týchto modelov odmeňovania môžeme model doladiť pomocou optimalizácie proximálnej politiky. Vykonali sme niekoľko iterácií tohto procesu.

ChatGPT je vyladený z modelu zo série GPT‑3.5, ktorého trénovanie bolo ukončené začiatkom roka 2022. Ďalšie informácie o sérii 3.5 sa dozviete tu(otvorí sa v novom okne). ChatGPT a GPT‑3.5 boli trénované na superpočítačovej infraštruktúre Azure AI.
- ChatGPT niekedy píše vierohodne znejúce, ale nesprávne alebo nezmyselné odpovede. Vyriešenie tohto problému je náročné, pretože: (1) počas tréningu RL v súčasnosti neexistuje žiadny zdroj pravdy; (2) trénovanie modelu, aby bol opatrnejší, spôsobuje, že odmieta otázky, na ktoré by mohol správne odpovedať; a (3) tréning pod dohľadom zavádza model, pretože ideálna odpoveď závisí od toho, čo model vie(otvorí sa v novom okne), a nie od toho, čo vie ľudský–demonštrátor.
- ChatGPT je citlivý na úpravy vstupnej formulácie alebo opakované pokusy o rovnaký príkaz. Napríklad pri jednej formulácii otázky môže model tvrdiť, že nepozná odpoveď, ale pri miernom preformulovaní môže odpovedať správne.
- Model je často príliš zhovorčivý a nadužíva určité frázy, napríklad opakuje, že ide o jazykový model trénovaný spoločnosťou OpenAI. Tieto problémy vyplývajú zo zaujatosti v tréningových údajoch (tréneri uprednostňujú dlhšie odpovede, ktoré sa zdajú byť komplexnejšie) a známych problémov s nadmernou optimalizáciou.1 a 2
- V ideálnom prípade by model položil objasňujúce otázky, keď používateľ poskytne nejednoznačný dopyt. Namiesto toho naše súčasné modely zvyčajne hádajú, čo mal používateľ v úmysle.
- Hoci sme sa snažili zabezpečiť, aby model odmietal nevhodné požiadavky, niekedy môže reagovať na škodlivé pokyny alebo prejavovať zaujaté správanie. Používame Moderation API na varovanie alebo blokovanie určitých typov nebezpečného obsahu, ale očakávame, že zatiaľ bude mať určité falošne negatívne a pozitívne výsledky. Sme nadšení, že môžeme zhromažďovať spätnú väzbu od používateľov, aby sme podporili našu neustálu prácu na zlepšovaní tohto systému.
Dnešné vydanie výskumnej verzie ChatGPT je najnovším krokom v iteratívnom zavádzaní čoraz bezpečnejších a užitočnejších systémov umelej inteligencie spoločnosťou OpenAI. Mnohé ponaučenia zo zavedenia predchádzajúcich modelov, ako sú GPT‑3 a Codex, ovplyvnili bezpečnostné opatrenia zavedené pre toto vydanie, vrátane podstatného zníženia škodlivých a nepravdivých výstupov dosiahnutého použitím učenia posilňovaním zo spätnej väzby (RLHF).
Vieme, že mnohé obmedzenia, ako bolo uvedené vyššie, pretrvávajú, a plánujeme pravidelné aktualizácie modelu na zlepšenie v týchto oblastiach. Zároveň však dúfame, že poskytnutím prístupného rozhrania pre ChatGPT získame cennú spätnú väzbu od používateľov o problémoch, o ktorých ešte nevieme .
Používateľom sa odporúča poskytovať spätnú väzbu k problémovým výstupom modelu prostredníctvom používateľského rozhrania, ako aj k falošným pozitívnym/negatívnym výsledkom z externého filtra obsahu, ktorý je tiež súčasťou rozhrania. Zaujímame sa najmä o spätnú väzbu týkajúcu sa škodlivých výstupov, ktoré by sa mohli vyskytnúť v reálnych, nekonfliktných podmienkach, ako aj o spätnú väzbu, ktorá nám pomáha odhaliť a pochopiť nové riziká a možné zmiernenia. Môžete sa zapojiť do súťaže ChatGPT Feedback Contest(otvorí sa v novom okne)3 a získať šancu vyhrať kredity API až do výšky 500 USD.A Príspevky je možné odoslať prostredníctvom formulára spätnej väzby, ktorý je prepojený v rozhraní ChatGPT.
Tešíme sa, že skúsenosti z tohto vydania prenesieme do zavedenia výkonnejších systémov, rovnako ako predchádzajúce zavedenia mali vplyv na toto vydanie.
Poznámky pod čiarou
- A
Nákup nie je potrebný, neplatné tam, kde je to zakázané. Na vstup musíte mať aspoň 18 rokov. Podrobnosti o súťaži nájdete v Oficiálnych pravidlách(otvorí sa v novom okne).
Referencie
- 1
Stiennon, Nisan a kol. "Naučiť sa sumarizovať s ľudskou spätnou väzbou(otvorí sa v novom okne)." Advances in Neural Information Processing Systems 33 (2020): 3008-3021.
- 2
Gao, Leo, John Schulman a Jacob Hilton. “Zákony škálovania pre nadmernú optimalizáciu modelu odmeňovania(otvorí sa v novom okne).” arXiv preprint arXiv:2210.10760 (2022).
- 3
Inšpirácia pre túto súťaž pochádza čiastočne z práce Kenwaya, Josha, Camille François, Sashy Costanza-Chocka, Inioluwa Deborah Raji a Joy Buolamwini. Odmeny za chyby pri algoritmických škodách? Poučenia zo zverejňovania zraniteľností v kybernetickej bezpečnosti pre odhaľovanie, zverejňovanie a nápravu algoritmických škôd. Washington, DC: Algorithmic Justice League. január 2022. Dostupné na https://ajl.org/bugs(otvorí sa v novom okne). Pozrite si tiež prácu Brundage, Miles, Avin, Shahar, Wang, Jasmine, Belfield, Haydn a Gretchen Krueger et al. „Toward Trustworthy AI Development: Mechanizmy na podporu overiteľných tvrdení“, apríl 2020. Dostupné na https://arxiv.org/abs/2004.07213(otvorí sa v novom okne). Pozrite si skorší príklad takejto súťaže na HackerOne. 2021b. „Algoritmická zaujatosť Twitteru.“ HackerOne. https://hackerone.com/twitter-algorithmic-bias?type=team(otvorí sa v novom okne). Nakoniec si pozrite skorú publikovanú prácu na túto tému od Rubinovitz, JB, „Bias Bounty Programs as a Method of Combatting Bias in AI“, august 2018. Dostupné na https://rubinovitz.com/2018/08/01/bias-bounty-programs-as-a-method-of-combatting(otvorí sa v novom okne).
Autor
Poďakovania
John Schulman, Barret Zoph, Christina Kim, Jacob Hilton, Jacob Menick, Jiayi Weng, Juan Felipe Ceron Uribe, Liam Fedus, Luke Metz, Michael Pokorny, Rapha Gontijo Lopes, Shengjia Zhao, Arun Vijayvergiya, Eric Sigler, Adam Perelman, Chelsea Voss, Mike Heaton, Joel Parish, Dave Cummings, Rajeev Nayak, Valerie Balcom, David Schnurr, Tomer Kaftan, Chris Hallacy, Nicholas Turley, Noah Deutsch, Vik Goel, Jonathan Ward, Aris Konstantinidis, Wojciech Zaremba, Long Ouyang, Leonard Bogdonoff, Joshua Gross, David Medina, Sarah Yoo, Teddy Lee, Ryan Lowe, Dan Mossing, Joost Huizinga, Roger Jiang, Carroll Wainwright, Diogo Almeida, Steph Lin, Marvin Zhang, Kai Xiao, Katarina Slama, Steven Bills, Alex Gray, Jan Leike, Jakub Pachocki, Phil Tillet, Shantanu Jain, Greg Brockman, Nick Ryder, Alex Paino, Qiming Yuan, Clemens Winter, Ben Wang, Mo Bavarian, Igor Babuschkin, Szymon Sidor, Ingmar Kanitscheider, Mikhail Pavlov, Matthias Plappert, Nik Tezak, Heewoo Jun, William Zhuk, Vitchyr Pong, Lukasz Kaiser, Jerry Tworek, Andrew Carr, Lilian Weng, Sandhini Agarwal, Karl Cobbe, Vineet Kosaraju, Alethea Power, Stanislas Polu, Jesse Han, Raul Puri, Shawn Jain, Benjamin Chess, Christian Gibson, Oleg Boiko, Emy Parparita, Amin Tootoonchian, Kyle Kosic a Christopher Hesse


