Біз ChatGPT деп аталатын, әңгімелесу түрінде әрекеттесетін модельді үйреттік. Диалог пішімі ChatGPT‑ке кейінгі сұрақтарға жауап беруге, өз қателіктерін мойындауға, қате алғышарттарға қарсы шығуға және орынсыз сұраулардан бас тартуға мүмкіндік береді.
ChatGPT — InstructGPT моделінің туыстас нұсқасы, ол көмексөздегі нұсқауды орындап, егжей-тегжейлі жауап беруге үйретілген.
Пайдаланушылардың пікірін алып, оның күшті және әлсіз жақтарын білу үшін ChatGPT‑ті таныстыруға қуаныштымыз. Зерттеу алдын ала қарауы кезінде ChatGPT пайдалану тегін. Қазір chatgpt.com(жаңа терезеде ашылады) сайтында көріңіз.
Үлгілер
resultWorkerErr := make(chan error)
defer close(resultWorkerErr)
go func() {
defer cancel()
resultWorkerErr <- b.resultWorker(ctx)
}()
err := b.worker(ctx)
cancel()
if err == nil {
return <-resultWorkerErr
}
return multierror.Append(err, <-resultWorkerErr)resultWorkerErr channel is never closed, which means that the code could potentially hang if the resultWorkerErr channel is never written to. This could happen if b.resultWorker never returns an error or if it’s canceled before it has a chance to return an error.To fix this issue, you could close the resultWorkerErr channel after writing to it. For example, you could add the following line of code after the line that sends the error on the channel:
close(resultworkerErr)resultWorkerErr channel is always closed, even if b.resultWorker never returns an error. Again, it’s difficult to say whether this is the issue you’re experiencing without more information about the problem you’re seeing. Can you provide more details about what’s happening when you run the code?Біз бұл модельді InstructGPT‑тегідей әдістерді қолданып, бірақ дерек жинау баптауында аздаған айырмашылықтармен, Адам пікіріне негізделген күшейтпелі оқыту (RLHF) арқылы үйреттік. Алдымен біз модельді қадағаланатын баптау арқылы оқыттық: адам AI жаттықтырушылары пайдаланушы мен AI көмекшісінің рөлін қатар ойнаған әңгімелер ұсынды. Жауаптарын құрастыруға көмектесу үшін жаттықтырушыларға модель жазған ұсыныстарға қолжеткізу бердік. Біз бұл жаңа диалог деректер жинағын диалог пішіміне түрлендірілген InstructGPT деректер жинағымен араластырдық.
Күшейтпелі оқытуға арналған марапат моделін жасау үшін сапасы бойынша реттелген екі не одан көп модель жауабынан тұратын салыстыру деректерін жинау қажет болды. Бұл деректерді жинау үшін AI жаттықтырушылары чатботпен жүргізген әңгімелерді алдық. Модель жазған бір хабарды кездейсоқ таңдап, бірнеше балама аяқталуды іріктеп, AI жаттықтырушыларына оларды бағалаттық. Осы марапат модельдерін пайдаланып, біз модельді Проксималды саясатты оңтайландыру арқылы баптай аламыз. Біз осы үдерістің бірнеше итерациясын орындадық.

ChatGPT 2022 жылдың басында оқытылуы аяқталған GPT‑3.5 сериясындағы бір модельден қадағаланатын баптау арқылы бейімделді. 3.5 сериясы туралы толығырақ осы жерден(жаңа терезеде ашылады) біле аласыз. ChatGPT пен GPT‑3.5 Azure AI суперкомпьютерлік инфрақұрылымында оқытылды.
- ChatGPT кейде сенімді естілетін, бірақ қате не мағынасыз жауаптар жазады. Бұл мәселені түзету қиын, өйткені: (1) RL оқытуы кезінде қазір шындықтың сенімді көзі жоқ; (2) модельді сақ болуға көбірек үйрету оны дұрыс жауап бере алатын сұрақтардан бас тартқызады; және (3) қадағаланатын оқыту модельді жаңылыстырады, себебі мінсіз жауап модельдің не білетініне(жаңа терезеде ашылады), адам көрсетушінің не білетініне емес, тәуелді.
- ChatGPT кіріс тұжырымындағы ұсақ өзгерістерге немесе бір көмексөзді бірнеше рет беруге сезімтал. Мысалы, сұрақтың бір тұжырымында модель жауабын білмейтінін айтуы мүмкін, ал аздап қайта тұжырымдалса, дұрыс жауап бере алады.
- Модель жиі шамадан тыс көпсөзді болады және белгілі тіркестерді артық қолданады, мысалы, өзін OpenAI үйреткен тілдік модель екенін қайта-қайта айту. Бұл мәселелер оқыту деректеріндегі ауытқулардан (жаттықтырушылар толық көрінетін ұзындау жауаптарды қалайды) және жақсы белгілі шамадан тыс оңтайландыру мәселелерінен туындайды.1 және 2
- Идеалда, пайдаланушы екіұшты сұрау бергенде модель нақтылайтын сұрақтар қоюы керек. Оның орнына, біздің қазіргі модельдер әдетте пайдаланушы нені меңзегенін болжайды.
- Модельді орынсыз сұраулардан бас тартатындай етуге күш салғанымызбен, ол кейде зиянды нұсқауларға жауап беруі немесе біржақты мінез-құлық көрсетуі мүмкін. Қауіпті контенттің белгілі түрлерін ескерту не бұғаттау үшін біз Moderation API қызметін қолданамыз, бірақ әзірге онда кейбір жалған теріс және жалған оң нәтижелер болуы мүмкін деп күтеміз. Бұл жүйені жақсарту жөніндегі үздіксіз жұмысымызға көмектесу үшін пайдаланушы пікірін жинауға ынталымыз.
Бүгінгі ChatGPT зерттеу релизі — OpenAI компаниясының барынша қауіпсіз әрі пайдалы AI жүйелерін итерациялық енгізу жолындағы соңғы қадамы. GPT‑3 және Codex сияқты бұрынғы модельдерді енгізуден алынған көптеген сабақтар осы релиз үшін енгізілген қауіпсіздік шараларын қалыптастырды, соның ішінде адам пікіріне негізделген күшейтпелі оқыту (RLHF) қолдану арқылы зиянды және шындыққа жанаспайтын нәтижелерді едәуір азайту бар.
Жоғарыда талқыланғандай, әлі де көптеген шектеулер бар екенін білеміз және осындай салаларды жақсарту үшін модельді тұрақты түрде жаңартып отыруды жоспарлап отырмыз. Бірақ ChatGPT‑ке қолжетімді интерфейс беру арқылы біз әлі байқамаған мәселелер жөнінде құнды пайдаланушы пікірін де аламыз деп үміттенеміз.
Пайдаланушыларға модельдің проблемалы нәтижелері туралы UI арқылы, сондай-ақ интерфейстің бір бөлігі болып табылатын сыртқы контент сүзгісінің жалған оң/теріс нәтижелері туралы пікір қалдыру ұсынылады. Бізді әсіресе нақты өмірдегі, қарсы әрекетсіз жағдайларда туындауы мүмкін зиянды нәтижелер туралы пікірлер, сондай-ақ жаңа қауіптер мен ықтимал азайту шараларын анықтауға және түсінуге көмектесетін пікірлер қызықтырады. Сіз API кредиттері түрінде $500-ге дейін ұтып алу мүмкіндігі үшін ChatGPT кері байланыс байқауына(жаңа терезеде ашылады)3 қатысуды таңдай аласыз.A Өтінімдер ChatGPT интерфейсінде сілтемесі берілген кері байланыс формасы арқылы жіберіледі.
Бұрынғы енгізулер осы релизге әсер еткендей, біз де осы релизден алған сабақтарды одан да қабілетті жүйелерді енгізуге пайдалануға қуаныштымыз.
Ескертпелер
- A
Сатып алу талап етілмейді, тыйым салынған жерде жарамсыз. Қатысу үшін кемінде 18 жаста болу керек. Байқау туралы толық мәліметті Ресми ережелерден(жаңа терезеде ашылады) қараңыз.
Дереккөздер
- 1
Stiennon, Nisan, және т.б. “Адам пікірі арқылы түйіндеуді үйрену(жаңа терезеде ашылады).” Advances in Neural Information Processing Systems 33 (2020): 3008-3021.
- 2
Gao, Leo, John Schulman, және Jacob Hilton. “Марапат моделін шамадан тыс оңтайландыруға арналған масштабтау заңдары(жаңа терезеде ашылады).” arXiv preprint arXiv:2210.10760 (2022).
- 3
Бұл байқауға шабыттың бір бөлігі Kenway, Josh, Camille François, Sasha Costanza-Chock, Inioluwa Deborah Raji және Joy Buolamwini еңбегінен алынды. Algorithmic Harms үшін Bug Bounties? Lessons from Cybersecurity Vulnerability Disclosure for Algorithmic Harms Discovery, Disclosure, and Redress. Вашингтон, Колумбия округі: Algorithmic Justice League. Қаңтар 2022. Мына жерде қолжетімді: https://ajl.org/bugs(жаңа терезеде ашылады). Сондай-ақ Brundage, Miles, Avin, Shahar, Wang, Jasmine, Belfield, Haydn және Gretchen Krueger және т.б. “Toward Trustworthy AI Development: Mechanisms for Supporting Verifiable Claims,” April 2020 еңбегін қараңыз. Мына жерде қолжетімді: https://arxiv.org/abs/2004.07213(жаңа терезеде ашылады). Осындай байқаудың ертеректегі бір мысалын HackerOne платформасынан қараңыз. 2021b. “Twitter Algorithmic Bias.” HackerOne. https://hackerone.com/twitter-algorithmic-bias?type=team(жаңа терезеде ашылады). Соңында, осы тақырып бойынша Rubinovitz, JB авторының ертерек жарияланған еңбегін қараңыз: “Bias Bounty Programs as a Method of Combatting Bias in AI,” August 2018. Мына жерде қолжетімді: https://rubinovitz.com/2018/08/01/bias-bounty-programs-as-a-method-of-combatting(жаңа терезеде ашылады).
Автор
Алғыс
John Schulman, Barret Zoph, Christina Kim, Jacob Hilton, Jacob Menick, Jiayi Weng, Juan Felipe Ceron Uribe, Liam Fedus, Luke Metz, Michael Pokorny, Rapha Gontijo Lopes, Shengjia Zhao, Arun Vijayvergiya, Eric Sigler, Adam Perelman, Chelsea Voss, Mike Heaton, Joel Parish, Dave Cummings, Rajeev Nayak, Valerie Balcom, David Schnurr, Tomer Kaftan, Chris Hallacy, Nicholas Turley, Noah Deutsch, Vik Goel, Jonathan Ward, Aris Konstantinidis, Wojciech Zaremba, Long Ouyang, Leonard Bogdonoff, Joshua Gross, David Medina, Sarah Yoo, Teddy Lee, Ryan Lowe, Dan Mossing, Joost Huizinga, Roger Jiang, Carroll Wainwright, Diogo Almeida, Steph Lin, Marvin Zhang, Kai Xiao, Katarina Slama, Steven Bills, Alex Gray, Jan Leike, Jakub Pachocki, Phil Tillet, Shantanu Jain, Greg Brockman, Nick Ryder, Alex Paino, Qiming Yuan, Clemens Winter, Ben Wang, Mo Bavarian, Igor Babuschkin, Szymon Sidor, Ingmar Kanitscheider, Mikhail Pavlov, Matthias Plappert, Nik Tezak, Heewoo Jun, William Zhuk, Vitchyr Pong, Lukasz Kaiser, Jerry Tworek, Andrew Carr, Lilian Weng, Sandhini Agarwal, Karl Cobbe, Vineet Kosaraju, Alethea Power, Stanislas Polu, Jesse Han, Raul Puri, Shawn Jain, Benjamin Chess, Christian Gibson, Oleg Boiko, Emy Parparita, Amin Tootoonchian, Kyle Kosic, Christopher Hesse


