27 Eanáir 2022

Samhlacha teanga a ailíniú chun treoracha a leanúint

Léigh an páipéar Féach ar chárta samhail

Ag lódáil…

Tá samhlacha teanga oilte againn atá i bhfad níos fearr ag leanúint intinní úsáideora ná GPT‑3 agus atá níos fírinneacha agus níos lú tocsaineach freisin, ag úsáid teicnící a forbraíodh trínár dtaighde ailínithe. Tá na samhlacha InstructGPT seo, atá oilte le daoine sa lúb, imlonnaithe anois mar na samhlacha teanga réamhshocraithe ar ár API.

Ag lódáil...

Tá an OpenAI API á chumhachtú ag samhlacha teanga GPT‑3⁠ ar féidir iad a mhealladh chun tascanna teanga nádúrtha a dhéanamh trí leideanna téacs a innealtóireacht go cúramach. Ach is féidir leis na samhlacha seo freisin aschuir a ghiniúint atá neamhfhírinneach, tocsaineach, nó a léiríonn meonta díobhálacha. Tá sé seo amhlaidh i bpáirt toisc go gcuirtear oiliúint ar GPT‑3 chun an chéad fhocal eile a thuar ar thacar mór téacs Idirlín, seachas chun an tasc teanga a theastaíonn ón úsáideoir a dhéanamh go sábháilte. I bhfocail eile, níl na samhlacha seo ailínithe lena n-úsáideoirí.

Chun ár samhlacha a dhéanamh níos sábháilte, níos cabhraí, agus níos ailínithe, úsáidimid teicníc atá ann cheana darb ainm Foghlaim Atreisiúcháin ó Aiseolas Daonna (RLHF)⁠. Ar leideanna a chuireann ár gcustaiméirí isteach chuig an API,^A cuireann ár lipéadaithe taispeántais den iompar samhla inmhianaithe ar fáil, agus rangú ar roinnt aschur ónár samhlacha. Ansin úsáidimid na sonraí seo chun GPT‑3 a mhionchoigeartú.

Tá na samhlacha InstructGPT a thagann as seo i bhfad níos fearr ag leanúint treoracha ná GPT‑3. Is annamh a chumann siad fíricí freisin, agus léiríonn siad laghduithe beaga i nginiúint aschuir thocsaineacha. Is fearr lenár lipéadaithe aschuir ónár samhail InstructGPT 1.3B ná aschuir ó shamhail GPT‑3 175B, cé go bhfuil níos mó ná 100x níos lú paraiméadar aici. Ag an am céanna, léirímid nach gá dúinn géilleadh ó chumais GPT‑3, mar a thomhaistear iad trí fheidhmíocht ár samhla ar mheastóireachtaí acadúla NLP.

Tá na samhlacha InstructGPT seo, atá i mbéite ar an API le níos mó ná bliain, anois ina samhlacha teanga réamhshocraithe atá inrochtana ar ár API.^B Creidimid gur uirlis chumhachtach é samhlacha teanga a mhionchoigeartú le daoine sa lúb chun a sábháilteacht agus a n-iontaofacht a fheabhsú, agus leanfaimid orainn sa treo seo.

Is é seo an chéad uair a cuireadh ár dtaighde ailínithe, atáimid ag saothrú⁠ le roinnt⁠ blianta⁠,^{1, 2, 3} i bhfeidhm ar ár dtáirge. Tá baint ag ár gcuid oibre freisin le taighde le déanaí a mhionchoigeartaíonn samhlacha teanga chun treoracha a leanúint ag úsáid tacair sonraí acadúla NLP, go háirithe FLAN⁴ agus T0.⁵ Príomhspreagadh dár gcuid oibre is ea cabhracht agus fírinneacht a mhéadú agus ag an am céanna na dochair agus na claontaí a bhaineann le samhlacha teanga a mhaolú.^{6, 7, 8, 9, 10} Fuair cuid dár dtaighde roimhe seo⁠ sa treo seo amach gur féidir linn aschuir dhíobhálacha a laghdú trí mhionchoigeartú ar thacar beag coimeádta de thaispeántais dhaonna.¹¹ Dhírigh taighde eile ar an tacar sonraí réamh-oiliúna a scagadh,¹² téacschomharthaí rialaithe sábháilteachta-shonracha,^{13, 14} nó giniúintí na samhla a stiúradh.^{15, 16} Táimid ag fiosrú na smaointe seo agus smaointe eile inár dtaighde ailínithe leanúnach.

Torthaí

Déanaimid measúnú ar dtús ar cé chomh maith is a leanann aschuir ó InstructGPT treoracha úsáideora, trí iarraidh ar lipéadaithe a aschuir a chur i gcomparáid leo siúd ó GPT‑3. Fuaireamar amach go roghnaítear samhlacha InstructGPT i bhfad níos minice ar leideanna a cuireadh isteach chuig samhlacha InstructGPT agus GPT‑3 araon ar an API. Tá sé seo fíor nuair a chuirimid réimír leis an leid GPT‑3 ionas go dtéann sé isteach i “modh leanúna treoracha.”

Ag lódáil...

Chun sábháilteacht ár samhlacha a thomhas, úsáidimid go príomha sraith méadrachtaí atá ann cheana ar thacair sonraí atá ar fáil go poiblí. I gcomparáid le GPT‑3, táirgeann InstructGPT níos lú bréag-aithrise (de réir TruthfulQA¹⁷) agus bíonn siad níos lú tocsaineach (de réir RealToxicityPrompts¹⁸). Déanaimid meastóireachtaí daonna freisin ar ár ndáileadh leideanna API, agus faighimid amach go gcumann InstructGPT fíricí (“bréagshamhlú”) níos annamha, agus go ngineann sé aschuir níos oiriúnaí.^C

Ag lódáil...

Ar deireadh, faighimid amach gur fearr aschuir InstructGPT ná iad siúd ó FLAN⁴ agus T0⁵ ar ár ndáileadh custaiméirí. Tugann sé seo le fios nach bhfuil na sonraí a úsáideadh chun FLAN agus T0 a oiliúint, tascanna acadúla NLP den chuid is mó, go hiomlán ionadaíoch ar an gcaoi a n-úsáidtear samhlacha teanga imlonnaithe i gcleachtas.

Modhanna

Léaráid a thaispeánann modheolaíocht trí chéim chun samhlacha InstructGPT a oiliúint.

Chun samhlacha InstructGPT a oiliúint, is í Foghlaim Atreisiúcháin ó Aiseolas Daonna (RLHF)⁠ ár bpríomhtheicníc, modh ar chuidíomar lena cheannródaíocht inár dtaighde ailínithe níos luaithe. Úsáideann an teicníc seo roghanna daonna mar chomhartha luaíochta chun ár samhlacha a mhionchoigeartú, rud atá tábhachtach toisc go bhfuil na fadhbanna sábháilteachta agus ailínithe atáimid ag iarraidh a réiteach casta agus suibiachtúil, agus nach ngabhtar go hiomlán iad le méadrachtaí simplí uathoibríocha.

Ar dtús bailímid tacar sonraí de thaispeántais a scríobh daoine ar leideanna a cuireadh isteach chuig ár API, agus úsáidimid é seo chun ár mbonnlínte foghlama faoi mhaoirseacht a oiliúint. Ansin bailímid tacar sonraí de chomparáidí arna lipéadú ag daoine idir dhá aschur samhla ar thacar níos mó leideanna API. Ansin cuirimid oiliúint ar shamhail luaíochta (RM) ar an tacar sonraí seo chun a thuar cén t-aschur ab fhearr lenár lipéadaithe. Ar deireadh, úsáidimid an RM seo mar fheidhm luaíochta agus déanaimid ár mbeartas GPT‑3 a mhionchoigeartú chun an luaíocht seo a uasmhéadú ag úsáid an algartaim PPO⁠.

Bealach amháin chun smaoineamh ar an bpróiseas seo ná go “n-osclaíonn” sé cumais a bhí ag GPT‑3 cheana féin, ach a bhí deacair a thabhairt amach trí innealtóireacht treoracha amháin: tá sé seo amhlaidh toisc go bhfuil cumas teoranta ag ár nós imeachta oiliúna cumais nua a mhúineadh don tsamhail i gcomparáid leis an méid a fhoghlaimítear le linn réamh-oiliúna, ós rud é go n-úsáideann sé níos lú ná 2% den ríomh agus de na sonraí i gcomparáid le réamh-oiliúint na samhla.

Teorainn amháin leis an gcur chuige seo ná go dtugann sé isteach “cáin ailínithe”: má ailínítear na samhlacha ar thascanna custaiméirí amháin d’fhéadfadh sé a bhfeidhmíocht a dhéanamh níos measa ar roinnt tascanna acadúla NLP eile. Níl sé seo inmhianaithe mar, má dhéanann ár dteicnící ailínithe samhlacha níos measa ar thascanna a bhfuil cúram ag daoine fúthu, is lú an seans go nglacfar leo go praiticiúil. Tá athrú simplí algartamach aimsithe againn a íoslaghdaíonn an cháin ailínithe seo: le linn mionchoigeartú RL meascaimid codán beag de na sonraí bunaidh a úsáideadh chun GPT‑3 a oiliúint, agus déanaimid oiliúint ar na sonraí seo ag úsáid an ghnáth-uasmhéadú log likelihood.^D Coinníonn sé seo feidhmíocht ar shábháilteacht agus ar roghanna daonna go garbh, agus ag an am céanna maolaíonn sé laghduithe feidhmíochta ar thascanna acadúla, agus i roinnt cásanna sáraíonn sé fiú bonnlíne GPT‑3.

Ginearálú chuig roghanna níos leithne

Ailíníonn ár nós imeachta iompar ár samhlacha le roghanna ár lipéadaithe, a tháirgeann go díreach na sonraí a úsáidtear chun ár samhlacha a oiliúint, agus linne mar thaighdeoirí, a chuireann treoir ar fáil do lipéadaithe trí threoracha scríofa, aiseolas díreach ar shamplaí sonracha, agus comhráite neamhfhoirmiúla. Bíonn tionchar air freisin ag ár gcustaiméirí agus ag na roghanna atá intuigthe inár mbeartais API. Roghnaíomar lipéadaithe a d’éirigh go maith leo i dtástáil scagtha maidir le cumas leideanna íogaire a aithint agus freagairt dóibh. Mar sin féin, ní ráthaíonn na foinsí tionchair éagsúla seo ar na sonraí go bhfuil ár samhlacha ailínithe le roghanna aon ghrúpa níos leithne.

Rinneamar dhá thurgnamh chun é seo a fhiosrú. Ar dtús, déanaimid GPT‑3 agus InstructGPT a mheas ag úsáid lipéadaithe coinnithe amach^E nár tháirg aon chuid de na sonraí oiliúna, agus fuair muid amach gur fearr leis na lipéadaithe seo aschuir ó na samhlacha InstructGPT thart ar an ráta céanna lenár lipéadaithe oiliúna. Ar an dara dul síos, cuirimid oiliúint ar shamhlacha luaíochta ar shonraí ó fho-thacar dár lipéadaithe, agus faighimid amach go nginearálann siad go maith chun roghanna fo-thacair eile lipéadaithe a thuar. Tugann sé seo le fios nár ró-oiriúnaigh ár samhlacha do roghanna ár lipéadaithe oiliúna amháin. Mar sin féin, tá tuilleadh oibre de dhíth chun staidéar a dhéanamh ar an gcaoi a bhfeidhmíonn na samhlacha seo ar ghrúpaí úsáideoirí níos leithne, agus ar an gcaoi a bhfeidhmíonn siad ar ionchuir ina n-easaontaíonn daoine faoin iompar inmhianaithe.

Teorainneacha

In ainneoin dul chun cinn suntasach a dhéanamh, tá ár samhlacha InstructGPT i bhfad ó bheith go hiomlán ailínithe nó go hiomlán sábháilte; gineann siad aschuir thocsaineacha nó chlaonta fós, cumann siad fíricí, agus gineann siad ábhar gnéasach agus foréigneach gan leid shoiléir. Ach braitheann sábháilteacht córais foghlama meaisín ní hamháin ar iompar na samhlacha bunúsacha, ach freisin ar an gcaoi a n-imlonnaítear na samhlacha seo. Chun tacú le sábháilteacht ár API, leanfaimid orainn ag athbhreithniú ar fheidhmchláir fhéideartha⁠(osclaíonn i bhfuinneog nua) sula gcuirfear beo iad, ag soláthar scagairí ábhair chun comhlánuithe neamhshábháilte a bhrath, agus ag déanamh monatóireachta ar mhí-úsáid.

Fotháirge d’oiliúint ár samhlacha chun treoracha úsáideora a leanúint is ea go bhféadfadh siad a bheith níos so-ghabhálaí do mhí-úsáid má thugtar treoir dóibh aschuir neamhshábháilte a tháirgeadh. Chun é seo a réiteach ní mór dár samhlacha diúltú do threoracha áirithe; is fadhb thábhachtach oscailte taighde í é seo a dhéanamh go hiontaofa, agus táimid ar bís tabhairt fúithi.

Ina theannta sin, i mórán cásanna b’fhéidir nach mbeadh ailíniú le meánrogha an lipéadaí inmhianaithe. Mar shampla, agus téacs á ghiniúint a imríonn tionchar díréireach ar ghrúpa mionlaigh, ba cheart níos mó meáchain a thabhairt do roghanna an ghrúpa sin. Faoi láthair, cuirtear oiliúint ar InstructGPT chun treoracha a leanúint i mBéarla; mar sin, tá sé claonta i dtreo luachanna cultúrtha daoine a labhraíonn Béarla. Táimid i mbun taighde chun na difríochtaí agus na heasaontais idir roghanna lipéadaithe a thuiscint ionas gur féidir linn ár samhlacha a oiriúnú do luachanna daonraí níos sainiúla. Ar bhealach níos ginearálta, tugann ailíniú aschuir samhla le luachanna daoine ar leith roghanna deacra isteach a bhfuil impleachtaí sóisialta acu, agus sa deireadh ní mór dúinn próisis fhreagracha chuimsitheacha a bhunú chun na cinntí seo a dhéanamh.

Na chéad chéimeanna eile

Is é seo an chéad chur i bhfeidhm dár dtaighde ailínithe ar ár dtáirge. Taispeánann ár dtorthaí go bhfuil na teicnící seo éifeachtach chun ailíniú córas AI ilchuspóireach le hintinní an duine a fheabhsú go suntasach. Mar sin féin, níl anseo ach an tús: leanfaimid orainn ag brú na dteicnící seo chun ailíniú ár samhlacha reatha agus amach anseo a fheabhsú i dtreo uirlisí teanga atá sábháilte agus cabhrach do dhaoine.

Má tá spéis agat sna treonna taighde seo, táimid ag fostú⁠(osclaíonn i bhfuinneog nua)!

Fonótaí

A
Ní úsáidimid ach leideanna a cuireadh isteach tríd an Playground chuig leagan níos luaithe de na samhlacha InstructGPT a imlonnaíodh i mí Eanáir 2021. Baineann ár n-anotálaithe daonna faisnéis inaitheanta phearsanta de na leideanna uile sula gcuirtear leis an tacar oiliúna iad.
B
Is leaganacha nuashonraithe iad na samhlacha InstructGPT a imlonnaítear san API, agus cuireadh oiliúint orthu leis na sonraí céanna aiseolais dhaonna. Úsáideann siad modh oiliúna cosúil leis ach beagán éagsúil, a ndéanfaimid cur síos air i bhfoilseachán atá le teacht.
C
Tomhaisimid freisin roinnt gnéithe eile d’aschuir a d’fhéadfadh a bheith díobhálach ar ár ndáileadh API: an bhfuil ábhar gnéasach nó foréigneach sna haschuir, an ndéanann siad aicme chosanta a ísliú, nó an spreagann siad mí-úsáid. Fuaireamar amach nach bhfeabhsaíonn InstructGPT go suntasach ar GPT-3 ar na méadrachtaí seo; tá an ráta minicíochta chomh híseal céanna don dá shamhail.
D
Fuaireamar an cur chuige seo níos éifeachtaí ná an chomhéifeacht KL a mhéadú go simplí.
E
Faightear na lipéadaithe seo ó Scale AI agus Upwork, ar bhealach cosúil lenár lipéadaithe oiliúna, ach ní théann siad faoi thástáil scagtha.

Tagairtí

1
Christiano, P., Leike, J., Brown, T.B., Martic, M., Legg, S. and Amodei, D., 2017. Foghlaim dhiantreisiú ó roghanna daonna. arXiv preprint arXiv:1706.03741.
2
Stiennon, N., Ouyang, L., Wu, J., Ziegler, D.M., Lowe, R., Voss, C., Radford, A., Amodei, D. and Christiano, P., 2020.
3
Wu, J., Ouyang, L., Ziegler, D.M., Stiennon, N., Lowe, R., Leike, J. and Christiano, P., 2021. Achoimriú leabhar go hathchúrsach le haiseolas daonna. arXiv preprint arXiv:2109.10862.
4
Wei, J., Bosma, M., Zhao, V.Y., Guu, K., Yu, A.W., Lester, B., Du, N., Dai, A.M. and Le, Q.V., 2021. Is foghlaimeoirí neamh-iarracht iad samhlacha teanga atá mionchoigeartaithe. arXiv preprint arXiv:2109.01652.
5
Sanh, V., Webson, A., Raffel, C., Bach, S.H., Sutawika, L., Alyafeai, Z., Chaffin, A., Stiegler, A., Scao, T.L., Raja, A. and Dey, M., 2021. Cumasaíonn oiliúint iltasc spreagtha ginearálú tascanna neamh-iarracht. arXiv preprint arXiv:2110.08207.
6
Bender, E.M., Gebru, T., McMillan-Major, A. and Shmitchell, S., 2021, March. Ar na Contúirtí a Bhaineann le Paróidí Stochastacha: An bhFéadfaidh Samhlacha Teanga Bheith Rómhór?🦜. In Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency (pp. 610-623).
7
Bommasani, R., Hudson, D.A., Adeli, E., Altman, R., Arora, S., von Arx, S., Bernstein, M.S., Bohg, J., Bosselut, A., Brunskill, E. and Brynjolfsson, E., 2021. Ar na deiseanna agus na rioscaí a bhaineann le samhlacha bunáite. arXiv preprint arXiv:2108.07258.
8
Kenton, Z., Everitt, T., Weidinger, L., Gabriel, I., Mikulik, V. and Irving, G., 2021. Ailíniú Gníomhairí Teanga. arXiv preprint arXiv:2103.14659.
9
Weidinger, L., Mellor, J., Rauh, M., Griffin, C., Uesato, J., Huang, P.S., Cheng, M., Glaese, M., Balle, B., Kasirzadeh, A. and Kenton, Z., 2021. Rioscaí eiticiúla agus sóisialta dochair ó Shamhlacha Teanga. arXiv preprint arXiv:2112.04359.
10
Tamkin, A., Brundage, M., Clark, J. and Ganguli, D., 2021. Tuiscint ar Chumais, Teorainneacha, agus Tionchar Sóisialta Samhlacha Móra Teanga. arXiv preprint arXiv:2102.02503.
11
Solaiman, I. and Dennison, C., 2021. Próiseas chun Samhlacha Teanga a Oiriúnú don tSochaí (PALMS) le Tacair Sonraí Spriocdhírithe ar Luachanna. arXiv preprint arXiv:2106.10328.
12
Ngo, H., Raterink, C., Araújo, J.G., Zhang, I., Chen, C., Morisot, A. and Frosst, N., 2021. Dochar a mhaolú i samhlacha teanga le scagadh dóchúlachta coinníollaí. arXiv preprint arXiv:2108.07790.
13
Xu, J., Ju, D., Li, M., Boureau, Y.L., Weston, J. and Dinan, E., 2020. Oidis sábháilteachta do chatterbots fearainn oscailte. arXiv preprint arXiv:2010.07079.
14
Keskar, N.S., McCann, B., Varshney, L.R., Xiong, C. and Socher, R., 2019. Ctrl: samhail teanga trasfhoirmitheoir coinníollach do ghiniúint inrialaithe. arXiv preprint arXiv:1909.05858.
15
Krause, B., Gotmare, A.D., McCann, B., Keskar, N.S., Joty, S., Socher, R. and Rajani, N.F., 2020. Gedi: giniúint seichimh threoraithe ag idirdhealaitheoir giniúnach. arXiv preprint arXiv:2009.06367.
16
Dathathri, S., Madotto, A., Lan, J., Hung, J., Frank, E., Molino, P., Yosinski, J. and Liu, R., 2019. Samhlacha teanga plug and play: cur chuige simplí i leith giniúint téacs rialaithe. arXiv preprint arXiv:1912.02164.
17
Lin, S., Hilton, J. and Evans, O., 2021. TruthfulQA: tomhas ar an gcaoi a ndéanann samhlacha aithris ar bhréaga daonna. arXiv preprint arXiv:2109.07958.
18
Gehman, S., Gururangan, S., Sap, M., Choi, Y. and Smith, N.A., 2020. RealToxicityPrompts: meastóireacht ar dhíghrádú tocsaineach néarach i samhlacha teanga. arXiv preprint arXiv:2009.11462.
19
Rudinger, R., Naradowsky, J., Leonard, B. and Van Durme, B., 2018. Claonadh inscne i réiteach crostagartha. arXiv preprint arXiv:1804.09301.
20
Nangia, N., Vania, C., Bhalerao, R. and Bowman, S.R., 2020. CrowS-pairs: tacar sonraí dúshláin chun claontaí sóisialta i samhlacha teanga maiscithe a thomhas. arXiv preprint arXiv:2010.00133.

Údair

Ryan Lowe, Jan Leike

Admhálacha

Ba mhaith linn buíochas a ghabháil lenár gcomhúdair pháipéir: Long Ouyang, Jeff Wu, Roger Jiang, Diogo Almeida, Carroll Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda Askell, Peter Welinder, agus Paul Christiano, chomh maith le gach duine a thug aiseolas ar an bpáipéar agus ar an bpost blag. Ba mhaith linn freisin buíochas a ghabháil leis an bhfoireann Comms as a dtreoir agus a gcúnamh, lena n-áirítear Steve Dowling, Hannah Wong, Elie Georges, Alper Ercetin, Jared Salzano, Allan Diego, agus Justin Jay Wang. Ar deireadh, ba mhaith linn buíochas a ghabháil lenár lipéadaithe, nach bhféadfaí an tionscadal seo a dhéanamh gan iad.

Ailt ghaolmhara

Féach gach rud

Disrupting malicious uses of AI by state-affiliated threat actors

Slándáil14 Feabh 2024

Building an early warning system for LLM-aided biological threat creation

Foilsiú31 Ean 2024

Democratic Inputs To AI Grant Program Update

Democratic inputs to AI grant program: lessons learned and implementation plans

Sábháilteacht16 Ean 2024