27 Ocak 2022

Dil modellerini talimatları uygulayacak şekilde uyumlandırma

Yükleniyor...

Uyumlandırma araştırmalarımızla geliştirdiğimiz tekniklerden faydalanarak, kullanıcıların niyetine GPT3’e kıyasla çok daha fazla uyum sağlayabilen dil modelleri eğittik ve aynı zamanda bu modelleri daha doğru ve daha az toksik yanıtlar verebilecek hâle getirdik. İnsan denetiminin de dâhil edildiği süreçlerle eğitilen bu InstructGPT modelleri, artık API’lerimizde varsayılan dil modelleri olarak kullanıma sunuluyor.

Yükleniyor...

OpenAI API’si, GPT‑3 dil modelleriyle destekleniyor⁠. Bu modeller, dikkatlice tasarlanmış metin istemleriyle doğal dil görevlerini yerine getirmesi için yönlendirilebiliyor. Ancak bu modeller aynı zamanda gerçek dışı, toksik veya zararlı duyguları yansıtan çıktılar da üretebiliyor. Bunun nedeni kısmen, GPT‑3’ün kullanıcının istediği dil görevini güvenli bir şekilde gerçekleştirmek yerine internet metinlerinden oluşan büyük bir veri setindeki bir sonraki kelimeyi tahmin edecek şekilde eğitilmiş olması. Başka bir deyişle bu modeller, kullanıcılarıyla uyumlandırılmış değil.

Modellerimizi daha güvenli, daha yararlı ve daha uyumlu hâle getirmek için insan geri bildiriminden takviyeli öğrenme (RLHF)⁠ adı verilen mevcut bir tekniği kullanıyoruz. Etiketleyicilerimiz, müşterilerimiz tarafından API’ye gönderilen istemler^A için istenen model davranışı örneklerini sağlayıp modellerimizden gelen çeşitli çıktıları sıralıyor. Ardından bu verileri GPT‑3’te ince ayarlar yapmak için kullanıyoruz.

Böylece ortaya çıkan InstructGPT modelleri, talimatlara uyma konusunda GPT‑3’ten çok daha iyi sonuç veriyor. Ayrıca uydurma bilgi üretme sıklıkları daha az ve toksik çıktı üretimlerinde de bir miktar azalma gözlemleniyor. Etiketleyicilerimiz, 100 kat daha az parametreye sahip olmasına rağmen 1.3B InstructGPT modelimizin çıktılarını, 175B GPT‑3 modeline ait çıktılara tercih ediyor. Üstelik modelimizin akademik Doğal Dil İşleme (NLP) değerlendirmelerindeki performansı, GPT‑3’ün yeteneklerinden ödün vermemize gerek olmadığını da ortaya koyuyor.

API’de bir yıldan uzun süredir beta aşamasında olan bu InstructGPT modelleri, artık API’miz üzerinden erişilebilen varsayılan dil modelleri olarak kullanılabiliyor.^B Dil modellerinde insan denetiminin de dâhil edildiği süreçlerle yapılan ince ayarların, modellerin güvenliklerini ve güvenilirliklerini artırmak için güçlü bir araç olduğuna inanıyoruz ve bu doğrultudaki çalışmalarımıza devam edeceğiz.

Yıllardır⁠ üzerinde⁠ çalıştığımız⁠^{1, 2, 3} uyumlandırma araştırmalarımızı ilk kez ürünümüz üzerinde hayata geçirmiş bulunuyoruz. Çalışmamız, başta FLAN⁴ ve T0⁵ olmak üzere, dil modellerine akademik NLP veri seti kullanılarak talimatlara uyma yeteneği kazandıran güncel ince ayar araştırmalarıyla da ilişkili. Çalışmamızda temel olarak, dil modellerinin yararlılığını ve doğruluğunu artırırken zararlarını ve ön yargılarını azaltmayı amaçlıyoruz.^{6, 7, 8, 9, 10} Buna yönelik bazı geçmiş araştırmalarımız⁠, insanlardan gelen örneklerin özenle derlendiği küçük bir veri setinde ince ayarlar yaparak zararlı çıktıları azaltabileceğimizi ortaya koydu.¹¹ Diğer araştırmalarda ise ön eğitim veri setinin filtrelenmesine¹², güvenliğe özgü kontrol tokenlerine^{13, 14} veya modelin çıktı üretiminin yönlendirilmesine^{15, 16} odaklanıldı. Devam eden uyumlandırma araştırmalarımızda bu tür fikirleri inceliyoruz.

Sonuçlar

İlk olarak, etiketleyicilerden InstructGPT çıktılarını GPT‑3 çıktılarıyla karşılaştırmasını isteyerek InstructGPT çıktılarının kullanıcı talimatlarına ne kadar uyduğunu değerlendiriyoruz. API’de hem InstructGPT hem de GPT‑3 modellerine gönderilen istemler genelinde InstructGPT’nin açık ara farkla tercih edildiğini görüyoruz. Bu durum, GPT‑3 istemine “talimatlara uyma modu”na girmesi için bir önek eklediğimizde de geçerliliğini sürdürüyor.

Yükleniyor...

Modellerimizin güvenliğini ölçmek için öncelikle herkese açık veri setlerindeki bir dizi mevcut ölçütü kullanıyoruz. InstructGPT’nin yanıtlarında, taklit kaynaklı yanlış bilgi tekrarına (TruthfulQA¹⁷’ye göre) ve toksik ifadelere (RealToxicityPrompts¹⁸’e göre) GPT‑3’e kıyasla daha az rastlanıyor. API istemleri dağılımımızı, insanlar tarafından gerçekleştirilen denetimlere de tabi tutuyor ve InstructGPT’nin daha az sıklıkta uydurma bilgiler verdiğini ("halüsinasyonlar gördüğünü") ve daha uygun çıktılar ürettiğini görüyoruz.^C

Yükleniyor...

Son olarak ise müşterilerimizin kullanım verileri dağılımı kapsamında, InstructGPT çıktılarının FLAN⁴ ve T0⁵ çıktılarına tercih edildiğini gözlemliyoruz. Bu bulgu, FLAN ve T0’ın eğitiminde kullanılan ve çoğunlukla akademik NLP görevlerinden alınan verilerin, sunulan dil modellerinin pratikteki kullanımını tam anlamıyla temsil etmediğini gösteriyor.

Yöntemler

Diagram showing three-step methodology to train InstructGPT models.

InstructGPT modellerini eğitmek için kullandığımız temel teknik, daha önceki uyumlandırma araştırmalarımızda öncülüğünü yaptığımız bir yöntem olan insan geri bildiriminden takviyeli öğrenme (RLHF)⁠. Bu teknikte, modellerimizde ince ayarlar yapmak için bir ödül sinyali olarak insan tercihleri kullanılıyor. Çözmeyi amaçladığımız güvenlik ve uyumlandırma sorunları, hem karmaşık ve öznel olduğu hem de basit otomatik ölçütlerle tam olarak yansıtılamadığı için bu husus önem taşıyor.

Öncelikle API’mize gönderilen istemler için insanlar tarafından yazılmış örneklerden oluşan bir veri seti derliyor ve bunu, temel denetimli öğrenim modellerimizi eğitmek için kullanıyoruz. Daha sonra, iki modelin daha geniş bir API istemi setindeki çıktıları arasında insanlar tarafından etiketlenmiş karşılaştırmalardan oluşan bir veri seti derliyoruz. Ardından, etiketleyicilerimizin hangi çıktıyı tercih edeceğini tahmin etmek için bu veri setiyle bir ödül modeli (RM) eğitiyoruz. Son olarak, bu RM’yi bir ödül fonksiyonu olarak kullanıyor ve PPO algoritmasından⁠ faydalanarak GPT‑3 politikamızda bu ödülü en üst düzeye çıkaracak ince ayarlar yapıyoruz.

Bu sürecin, GPT‑3’ün zaten sahip olduğu ancak yalnızca istem mühendisliği yoluyla ortaya çıkarılması zor olan yetenekleri "açığa çıkardığı" düşünülebilir. Çünkü eğitim prosedürümüz, ön eğitime kıyasla %2’den daha az bilgi işlem kapasitesi ve veri kullandığı için modele, ön eğitim sırasında öğrendiklerine kıyasla yeni yetenekler kazandırma konusunda sınırlı.

Bu yaklaşımın sınırlandıran biri, modellerin yalnızca müşteri görevlerine uyumlandırılmasının, diğer bazı akademik NLP görevlerindeki performanslarını olumsuz etkileyerek “uyumlandırma bedeli”ni beraberinde getirmesi. Bu istenmeyen bir durum; çünkü uyumlandırma tekniklerimiz, insanların önemsediği görevlerde modellerin performansını düşürürse bunların pratikte benimsenme olasılığı düşer. Basit bir algoritmik değişikliğin, bu uyumlandırma bedelini en aza indirdiğini keşfettik: RL ince ayarı sırasında GPT‑3’ü eğitmek için kullanılan orijinal verilerin küçük bir kısmını sürece dâhil ediyor ve modeli bu veriler üzerinden, normal logaritmik olasılık maksimizasyonunu kullanarak eğitiyoruz.^D Bu işlem, güvenlik ve insan tercihlerine yönelik performansı kabaca korurken, akademik görevlerdeki performans düşüşlerini azaltıyor ve hatta birçok durumda performansı, GPT‑3 temel modelinin bile üzerine çıkarıyor.

Daha geniş kitlelerin tercihleriyle uyumlu genelleme

Kullandığımız prosedür, modellerimizin davranışlarını, modellerimizi eğitmek için kullanılan verileri doğrudan üreten etiketleyicilerimizin ve etiketleyicilere yazılı talimatlar, belirli örnekler hakkında doğrudan geri bildirimler ve gayriresmî konuşmalar yoluyla rehberlik sağlayan biz araştırmacıların tercihleriyle uyumlu hâle getiriyor. Davranışlar ayrıca müşterilerimizden ve API politikalarımızda zımni olarak belirtilmiş tercihlerden de etkileniyor. Etiketleyicilerimizi, hassas istemleri tespit etme ve yanıtlama becerisini sınayan tarama testinde iyi bir performans sergileyenler arasından seçtik. Ancak verilerimizin farklı kaynaklardan etkilenmesi, modellerimizin daha geniş bir grubun tercihlerine uyum sağlamasını garanti etmiyor.

Bunu araştırmak için iki deney gerçekleştirdik. İlk olarak GPT‑3 ve InstructGPT’yi, eğitim verilerinin üretim sürecine dâhil olmamış ayrı bir etiketleyici grubuyla^E değerlendirdik ve bu etiketleyicilerin, InstructGPT modellerinin çıktılarını tercih etme oranının, eğitimde yer alan etiketleyicilerimizle hemen hemen aynı olduğunu gördük. İkinci deneyde ise etiketleyicilerimizin bir alt kümesinden alınan verilerle ödül modelleri eğittik ve bu modellerin, farklı bir etiketleyici alt kümesinin tercihlerini tahmin etmede iyi bir genelleme sağladığını gözlemledik. Bu bulgular, modellerimizin yalnızca eğitim sürecinde yer alan etiketleyicilerimizin tercihlerine yönelik aşırı bir uyumlanma eğilimi sergilemediğine işaret ediyor. Öte yandan, bu modellerin daha geniş kullanıcı grupları karşısında ve insanların, istenen davranış konusunda hemfikir olmadığı girdilerde nasıl performans gösterdiğini anlamak üzere daha fazla çalışma yürütülmesi gerekiyor.

Sınırlamalar

InstructGPT modellerimiz, önemli ilerlemeler kaydetmemize rağmen hâlâ bütünüyle uyumlanmış veya tamamen güvenli olmaktan oldukça uzak. Toksik ifadeler içeren veya ön yargılı çıktılar üretmeye, uydurma bilgiler sunmaya ve istemde açıkça belirtilmeksizin cinsellik ve şiddet içerikli oluşturmaya devam ediyorlar. Ancak bir makine öğrenimi sisteminin güvenliği yalnızca temel modellerin davranışına değil, aynı zamanda bu modellerin nasıl kullanıma sunulduğuna da bağlı. API’mizin güvenliğini desteklemek için potansiyel uygulamaları kullanıma sunulmadan önce incelemeye⁠(yeni bir pencerede açılır), güvenli olmayan tamamlamaları tespit etmek için içerik filtreleri sunmaya ve kötüye kullanımı denetlemeye devam edeceğiz.

Modellerimizi kullanıcı talimatlarına uyacak şekilde eğitmenin yan etkilerinden biri, güvenli olmayan çıktılar üretmeleri yönünde talimat verildiğinde kötüye kullanıma daha açık hâle gelebilmeleri. Bu sorunu çözmek için modellerimizin belirli talimatları reddetmesi gerekiyor. Bunun güvenilir bir şekilde uygulanması ise hâlâ çözüm bekleyen ve üstesinden gelmeyi heyecanla beklediğimiz, önemli bir araştırma sorunu.

Ayrıca birçok durumda etiketleyicilerin ortalama tercihlerine uyum sağlanması, istenen bir durum olmayabilir. Örneğin, bir azınlık grubuna yönelik etkisi çok daha fazla olan bir metin oluştururken, söz konusu grubun tercihlerine daha fazla ağırlık verilmesi gerekiyor. Şu anda InstructGPT, İngilizce talimatlara uyacak şekilde eğitilmiş olduğu için İngilizce konuşan insanların kültürel değerlerine daha yatkın. Modellerimizi farklı toplulukların değerlerine göre koşullandırabilmek için etiketleyicilerin tercihleri arasındaki farklılıkları ve fikir ayrılıklarını anlamak amacıyla araştırmalar yürütüyoruz. Daha genel anlamda ise model çıktılarını belirli insanların değerleriyle uyumlu hâle getirmek, toplumsal etkileri olan zor seçimleri de beraberinde getiriyor. En nihayetinde bu kararların alınmasına yönelik sorumluluk odaklı ve kapsayıcı süreçler oluşturmamız gerekiyor.

Sıradaki adımlar

Uyumlandırma araştırmalarımızı ilk kez ürünümüz üzerinde hayata geçiriyoruz. Elde ettiğimiz bulgular, bu tekniklerin, genel amaçlı yapay zeka sistemlerinin insan niyetleriyle uyumunu önemli ölçüde artırmada etkili olduğunu gösteriyor. Ancak bu sadece bir başlangıç. Mevcut ve gelecek modellerimizin uyumunu, insanlar için güvenli ve yararlı dil araçları sunacak şekilde artırmak amacıyla bu teknikleri geliştirmeye devam edeceğiz.

Bu alandaki araştırmalarda bizimle çalışmak istersen iş ilanlarına göz atabilirsin⁠(yeni bir pencerede açılır)!

Dipnotlar

A
Kullandığımız istemler yalnızca, Ocak 2021’de kullanıma sunulan InstructGPT’nin daha önceki sürümlerine Playground aracılığıyla gönderilenleri kapsıyor. İnsan etiketleyicilerimiz, eğitim veri setine eklenmeden önce tüm istemlerden tanımlayıcı kişisel bilgilerini kaldırıyor.
B
API’de kullanıma sunulan InstructGPT modelleri, aynı insan geri bildirimi verileriyle eğitilen, güncellenmiş sürümlerdir. Bu modellerde, benzer ama biraz daha farklı bir eğitim yöntemi kullanılıyor. Bu yöntemi yakında yayımlanacak başka bir makalede açıklayacağız.
C
API kullanım verileri dağılımı kapsamında potansiyel olarak zararlı çıktıların cinsellik veya şiddet içerikli olup olmadığı, korunan bir sınıfı aşağılayıp aşağılamadığı veya tacizi teşvik edip etmediği gibi pek çok başka boyutunu da ölçüyoruz. InstructGPT’nin bu ölçütlerde GPT-3’e kıyasla kayda değer bir iyileşme sağlamadığını görüyoruz. Bu tür çıktılar her iki modelde de eşit derecede düşük oranlarda görülüyor.
D
Bu yaklaşımın, yalnızca KL katsayısını artırmaktan daha etkili olduğunu gördük.
E
Eğitim etiketleyicilerimiz gibi bu etiketleyiciler de Scale AI ve Upwork üzerinden görevlendirildi ancak bir tarama testine tabi tutulmadılar.

Referanslar

1
Christiano, P., Leike, J., Brown, T.B., Martic, M., Legg, S. ve Amodei, D., 2017. Deep reinforcement learning from human preferences. arXiv preprint arXiv:1706.03741.
2
Stiennon, N., Ouyang, L., Wu, J., Ziegler, D.M., Lowe, R., Voss, C., Radford, A., Amodei, D. ve Christiano, P., 2020.
3
Wu, J., Ouyang, L., Ziegler, D.M., Stiennon, N., Lowe, R., Leike, J. ve Christiano, P., 2021. Recursively summarizing books with human feedback. arXiv preprint arXiv:2109.10862.
4
Wei, J., Bosma, M., Zhao, V.Y., Guu, K., Yu, A.W., Lester, B., Du, N., Dai, A.M. ve Le, Q.V., 2021. Finetuned language models are zero-shot learners. arXiv preprint arXiv:2109.01652.
5
Sanh, V., Webson, A., Raffel, C., Bach, S.H., Sutawika, L., Alyafeai, Z., Chaffin, A., Stiegler, A., Scao, T.L., Raja, A. ve Dey, M., 2021. Multitask prompted training enables zero-shot task generalization. arXiv preprint arXiv:2110.08207.
6
Bender, E.M., Gebru, T., McMillan-Major, A. ve Shmitchell, S., 2021, Mart. On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?🦜. In Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency (s. 610-623).
7
Bommasani, R., Hudson, D.A., Adeli, E., Altman, R., Arora, S., von Arx, S., Bernstein, M.S., Bohg, J., Bosselut, A., Brunskill, E. ve Brynjolfsson, E., 2021. On the opportunities and risks of foundation models. arXiv preprint arXiv:2108.07258.
8
Kenton, Z., Everitt, T., Weidinger, L., Gabriel, I., Mikulik, V. ve Irving, G., 2021. Alignment of Language Agents. arXiv preprint arXiv:2103.14659.
9
Weidinger, L., Mellor, J., Rauh, M., Griffin, C., Uesato, J., Huang, P.S., Cheng, M., Glaese, M., Balle, B., Kasirzadeh, A. ve Kenton, Z., 2021. Ethical and social risks of harm from Language Models. arXiv preprint arXiv:2112.04359.
10
Tamkin, A., Brundage, M., Clark, J. ve and Ganguli, D., 2021. Understanding the Capabilities, Limitations, and Societal Impact of Large Language Models. arXiv preprint arXiv:2102.02503.
11
Solaiman, I. veDennison, C., 2021. Process for Adapting Language Models to Society (PALMS) with Values-Targeted Datasets. arXiv preprint arXiv:2106.10328.
12
Ngo, H., Raterink, C., Araújo, J.G., Zhang, I., Chen, C., Morisot, A. ve Frosst, N., 2021. Mitigating harm in language models with conditional-likelihood filtration. arXiv preprint arXiv:2108.07790.
13
Xu, J., Ju, D., Li, M., Boureau, Y.L., Weston, J. ve Dinan, E., 2020. Recipes for safety in open-domain chatbots. arXiv preprint arXiv:2010.07079.
14
Keskar, N.S., McCann, B., Varshney, L.R., Xiong, C. ve Socher, R., 2019. Ctrl: A conditional transformer language model for controllable generation. arXiv preprint arXiv:1909.05858.
15
Krause, B., Gotmare, A.D., McCann, B., Keskar, N.S., Joty, S., Socher, R. ve Rajani, N.F., 2020. Gedi: Generative discriminator guided sequence generation. arXiv preprint arXiv:2009.06367.
16
Dathathri, S., Madotto, A., Lan, J., Hung, J., Frank, E., Molino, P., Yosinski, J. ve Liu, R., 2019. Plug and play language models: A simple approach to controlled text generation. arXiv preprint arXiv:1912.02164.
17
Lin, S., Hilton, J. ve Evans, O., 2021. TruthfulQA: Measuring how models mimic human falsehoods. arXiv preprint arXiv:2109.07958.
18
Gehman, S., Gururangan, S., Sap, M., Choi, Y. ve Smith, N.A., 2020. RealToxicityPrompts: Evaluating neural toxic degeneration in language models. arXiv preprint arXiv:2009.11462.
19
Rudinger, R., Naradowsky, J., Leonard, B. ve Van Durme, B., 2018. Gender bias in coreference resolution. arXiv preprint arXiv:1804.09301.
20
Nangia, N., Vania, C., Bhalerao, R. ve Bowman, S.R., 2020. CrowS-pairs: A challenge dataset for measuring social biases in masked language models. arXiv preprint arXiv:2010.00133.

Yazarlar

Ryan Lowe, Jan Leike

Teşekkürler

Makalemizin eş yazarlarına teşekkür ederiz: Long Ouyang, Jeff Wu, Roger Jiang, Diogo Almeida, Carroll Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda Askell, Peter Welinder, Paul Christiano’ya ve ayrıca makale ile blog yazısı hakkında geri bildirimlerini paylaşan herkese teşekkürlerimizi sunuyoruz. Ayrıca yardımları ve rehberlikleri için Steve Dowling, Hannah Wong, Elie Georges, Alper Ercetin, Jared Salzano, Allan Diego ve Justin Jay Wang dâhil olmak üzere tüm İletişim ekibimize teşekkür ederiz. Son olarak etiketleyicilerimize teşekkürlerimizi sunuyoruz. Onlar olmasaydı bu projeyi gerçekleştirmemiz mümkün olmazdı.

İlgili makaleler

Tümünü görüntüle

Disrupting malicious uses of AI by state-affiliated threat actors

Güvenlik14 Şub 2024

Building an early warning system for LLM-aided biological threat creation

Yayın31 Oca 2024

Democratic Inputs To AI Grant Program Update

Democratic inputs to AI grant program: lessons learned and implementation plans

Güvenlik16 Oca 2024