14 Mart 2023

GPT‑4

Makaleyi oku Sistem kartını görüntüle ChatGPT Plus’ta Dene

Daha Fazla Kaynak

Playground’da dene Demo canlı yayınını tekrar izle OpenAI Evals’a katkıda bulun

Yükleniyor...

OpenAI’ın derin öğrenmenin ölçeğini genişletme çalışmalarındaki en son aşamayı temsil eden GPT‑4’ü geliştirdik. Çok modlu bir büyük dil modeli olan GPT‑4, hem görsel hem metinsel girdiler alarak metin formatında çıktılar üretebiliyor. Gerçek hayattaki pek çok durumda insanlar kadar yetenekli olmasa da profesyonel ve akademik kıyaslamalarda insan seviyesinde başarı gösteriyor. Örneğin, simüle edilmiş bir baro sınavını, sınava girenlerin ilk %10'luk dilimine yakın bir puanla geçebiliyor. Karşılaştırma yaparsak GPT‑3.5'in puanı son %10’luk dilime yakındı. Çekişmeli test programımızdan ve ChatGPT deneyimimizden öğrendiklerimizle altı ay boyunca yinelemeli çalışmalar yürüterek GPT‑4’ün uyumluluğunu⁠ geliştirdik. Böylece doğruluk, yönlendirilebilirlik ve güvenlik sınırlamalarına uyum konularında şimdiye kadarki en iyi (ama hâlâ kusursuz olmaktan uzak) sonuçlara ulaştık.

Geçtiğimiz iki yılda, derin öğrenme altyapımızı baştan sona yeniledik ve Azure ile iş birliği içinde, ihtiyaçlarımıza özel yepyeni bir süper bilgisayarı sıfırdan tasarladık. Bir yıl önce, sistemin ilk “test çalışması” olarak GPT‑3.5'i eğittik. Bazı hatalar bulup düzelttik ve teorik temellerimizi geliştirdik. Sonuç olarak, GPT‑4 eğitim çalışmamız (en azından bizim için!) hiç olmadığı kadar istikrarlıydı ve eğitim performansını önceden doğru bir şekilde tahmin edebildiğimiz ilk büyük modelimiz oldu. Güvenilir ölçeklendirmeye odaklanmayı sürdürürken, ileride ortaya çıkabilecek yetenekleri çok daha erken öngörüp bunlara hazırlanabilmek için yöntemlerimizi geliştirmeyi amaçlıyoruz. Bu konuyu, güvenlik açısından son derece önemli buluyoruz.

GPT‑4’ün metinsel girdi yeteneğini ChatGPT ve API üzerinden (bekleme listesiyle⁠) kullanıma sunuyoruz. Görsel girdi yeteneğini daha geniş bir kitleye sunmaya hazırlanırken, başlangıçta tek bir iş ortağıyla⁠(yeni bir pencerede açılır) sıkı bir iş birliği içinde çalışıyoruz. Ayrıca, yapay zeka modellerimizin performansını otomatik olarak değerlendirmemizi sağlayanOpenAI Evals⁠(yeni bir pencerede açılır)’ı açık kaynak olarak paylaşıyoruz. Böylece isteyen herkes, modellerimizdeki eksikleri bildirerek geliştirme sürecine katkıda bulunabiliyor.

Yetenekler

Günlük konuşmada, GPT‑3.5 ile GPT‑4 arasındaki fark hemen göze çarpmayabilir. Görevin karmaşıklığı belirli bir eşiğe ulaştığında ise bu fark ortaya çıkıyor. GPT‑4, GPT‑3.5’e göre daha güvenilir ve daha yaratıcı. Üstelik daha fazla ince ayrıntı içeren yönergeleri çok daha iyi anlayıp uygulayabiliyor.

İki model arasındaki farkı anlamak amacıyla, esasen insanlar için tasarlanmış sınavların simülasyonları da dâhil olmak üzere çeşitli kıyaslamalar bazında testler uyguladık. Sonrasındaysa herkese açık en güncel testleri (Matematik Olimpiyatları ve AP açık uçlu sorular örneğinde olduğu gibi) kullanarak ya da deneme sınavlarının 2022–2023 baskılarını satın alarak devam ettik. Bu sınavlar için özel bir eğitim uygulamadık. Model, eğitim sırasında bu sınavlardaki soruların bir kısmını görmüş olabilir ama yine de sonuçların genel tabloyu yansıttığını düşünüyoruz. Ayrıntılar için teknik raporumuza⁠(yeni bir pencerede açılır) göz atabilirsin.

dâhilî referans ¹

Yükleniyor...

GPT‑4'ü makine öğrenmesi modellerine yönelik standart kıyaslamalar temelinde de değerlendirdik. GPT‑4, kıyaslamalara özel ince ayarlamalarla veya ek eğitim protokolleriyle geliştirilmiş son teknoloji ürünü (SOTA) modellerin ve mevcut büyük dil modellerinin çoğundan çok daha iyi performans gösteriyor:

Yükleniyor...

Mevcut ML (makine öğrenmesi) kıyaslamalarının çoğu İngilizce yazılmıştır. Modelin farklı dillerde ne kadar yetenekli olduğuna dair ilk izlenimi edinmek için, 57 alan genelinde 14.000 çoktan seçmeli sorudan oluşan MMLU kıyaslamasını Azure Translate ile farklı dillere çevirdik (Eke⁠ göz at). Test edilen 26 dilin 24’ünde, GPT‑4 hem GPT‑3.5’in hem de diğer büyük dil modellerinin (Chinchilla, PaLM) İngilizce performansını geçti. Bu başarıya Letonca, Galce ve Swahili gibi az kaynaklı dillerde de ulaşıldı:

Yükleniyor...

GPT‑4’ü kendi işlerimizde de kullanıyor ve özellikle destek, satış, içerik moderasyonu ve yazılım geliştirme gibi alanlarda ciddi fark yarattığını görüyoruz. Ayrıca yapay zeka çıktılarının değerlendirilmesinde insanlara destek olması için de kullanıyoruz. Bu, uyumluluk stratejimizin⁠ ikinci aşamasını oluşturuyor.

Görsel girdiler

GPT‑4, metin ve görselden oluşan istemleri kabul edebiliyor. Bu, yalnızca metin tabanlı modla benzer şekilde kullanıcının herhangi bir görüntü veya dil görevi belirlemesini sağlıyor. Özellikle, hem metin hem de görselden oluşan girdiler verildiğinde metin formatında çıktılar (doğal dil, kod vb.) üretiyor. GPT‑4; metin ve fotoğraf içeren belgeler, diyagramlar veya ekran görüntüleri de dâhil olmak üzere çeşitli alanlarda, yalnızca metinsel girdilerde gösterdiğine benzer yetenekler sergiliyor. Ayrıca, az örnekli (few-shot) istemler ve düşünce zinciri⁠(yeni bir pencerede açılır) istemleri gibi test sırasında uygulanan, sadece metin tabanlı dil modelleri için geliştirilmiş yöntemlerle de güçlendirilebiliyor. Görsel girdiler hâlâ araştırma ön izlemesi aşamasındadır ve herkese açık değildir.

Yükleniyor...

GPT‑4’ün ön izlemesini, görsel bazlı sınırlı sayıda standart akademik kıyaslamadaki performansını değerlendirerek sunuyoruz. Ama bu rakamlar modelin tüm becerilerini tam anlamıyla göstermiyor. Her geçen gün modelin üstesinden gelebildiği yeni ve heyecan verici görevler keşfediyoruz. Yakında, test sırasında uygulanan tekniklerin etkisine dair kapsamlı bir inceleme ile detaylı analizler ve daha fazla değerlendirme sonucu paylaşacağız.

dâhilî dipnot^A

Yükleniyor...

Yönlendirilebilirlik

Yapay zekaların davranışlarını belirleme⁠ konulu makalemizde ortaya konan planın her aşaması üzerinde çalışmayı sürdürüyoruz. Yönlendirilebilirlik de bunlardan biri. Geliştiriciler artık hep aynı uzunlukta, tonda ve tarzda konuşan klasik ChatGPT kişiliğiyle etkileşim kurmak yerine, yapay zekanın tarzını ve görevini “sistem” mesajı aracılığıyla tarif ederek önceden belirleyebiliyor. Yakında ChatGPT kullanıcıları da bu özellikten yararlanabilecek. Sistem mesajları, API kullanıcılarına kullanıcılarının deneyimini belirli sınırlar içinde⁠(yeni bir pencerede açılır) önemli ölçüde kişiselleştirme olanağı tanıyor. Bu alanda geliştirmeler yapmaya devam edeceğiz (özellikle de sistem mesajlarının mevcut modele “jailbreak” uygulamanın en kolay yolu olduğunun farkındayız). Yine de denemeni ve geri bildirim vermeni çok isteriz.

Yükleniyor...

Sınırlamalar

GPT‑4, yeteneklerine rağmen önceki GPT modelleriyle benzer sınırlamalara sahip. En önemlisi, hâlâ tamamen güvenilir değil; “halüsinasyon”lar yaşıyor (gerçek dışı bilgiler uyduruyor) ya da mantık hataları yapıyor. Dil modeli çıktıları kullanılırken, özellikle kritik önem taşıyan bağlamlarda büyük özen gösterilmelidir. Kullanım alanına uygun bir protokol (örneğin insan denetimi, ek bağlamla destekleme veya yüksek riskli kullanımlardan tamamen kaçınma) benimsenmelidir.

Sorun hâlâ geçerliliğini korusa da GPT‑4, önceki modellere kıyasla halüsinasyonları önemli ölçüde azaltıyor (önceki modeller de her yinelemede gelişim gösteriyor). GPT‑4, çekişmeli sorularla doğruluğu ölçtüğümüz dâhilî testlerde en güncel GPT‑3.5 sürümüne göre %40 daha yüksek puan aldı:

Yükleniyor...

Modelin, özellikle yanıltmak için seçilmiş yanlış ifadelerle karşılaştığında doğruyu ayırt etme becerisini sınayan TruthfulQA gibi dış kıyaslamalarda ilerleme kaydettik. Bu soruları, gerçeğe aykırı ama istatistiksel olarak kulağa doğru gelen cevaplarla eşleştirdik.

Yükleniyor...

GPT‑4’ün temel modeli bu konuda GPT‑3.5’ten yalnızca biraz daha iyi olsa da, GPT‑3.5⁠ için de ileri eğitimde uyguladığımızRLHF⁠ (insan geri bildirimiyle takviyeli öğrenme) sonrasında aralarındaki fark belirginleşiyor. Aşağıda bazı örnekleri incelediğimizde, GPT‑4 yaygın deyişleri (huylu huyundan vazgeçmez) seçme konusunda direnç gösteriyor ancak yine de bazı ince ayrıntıları kaçırabiliyor (Elvis Presley bir aktörün oğlu değildi).

Yükleniyor...

Modelin çıktılarında çeşitli ön yargılar olabiliyor; bu konuda ilerleme kaydetmiş olsa da hâlâ geliştirilmeye ihtiyacı var. Yakın zamanda paylaştığımız blog yazısında⁠ da belirttiğimiz gibi, geliştirdiğimiz yapay zeka sistemlerinin, kullanıcıların geniş bir yelpazedeki değerlerini yansıtan ve makul varsayılan davranışlara sahip olmasını, bu sistemlerin geniş sınırlar içinde özelleştirilebilmesini ve bu sınırların ne olması gerektiği konusunda kamuoyundan geri bildirim almayı hedefliyoruz.

Genel olarak GPT‑4, verilerinin büyük çoğunluğunun kesildiği tarih olan Eylül 2021 sonrası gelişen olaylar hakkında bilgi sahibi değil ve deneyimlerinden öğrenmiyor. Birçok alanda çok yetkin görünmesine rağmen bazen akıl yürütme konusunda basit hatalar yapabiliyor ya da kullanıcıdan gelen bariz yanlış ifadelere kolayca inanabiliyor. Bazen de zor problemler karşısında insanlar gibi başarısız olabiliyor; mesela oluşturduğu kodlarda güvenlik açıkları bırakabiliyor.

GPT‑4 aynı zamanda, yanlış tahminlerinde kendinden fazlasıyla emin olabiliyor. Hata yapabileceği durumlarda bile yaptığı işi tekrar kontrol etmeyebiliyor. Temel ön eğitimli model, ilginç biçimde oldukça dengeli (genelde bir cevaba duyduğu tahminî güven oranı, doğru olma olasılığıyla örtüşüyor). Ama mevcut ileri eğitim sürecimizde bu denge biraz bozulabilir.

Yükleniyor...

Riskler ve önlemler

Eğitimin başından beri GPT‑4’ü daha güvenli ve daha uyumlu hâle getirmek için yinelemeli çalışmalar yürütüyoruz. Bu çalışmalar arasında ön eğitim verisinin seçilmesi ve filtrelenmesi, değerlendirmeler ile uzman katılımı, model güvenliği iyileştirmeleri, izleme ve uygulama yer alıyor.

GPT‑4; zararlı tavsiyeler üretme, hatalı kod yazma veya yanlış bilgi verme gibi alanlarda önceki modellerle benzer riskler taşıyor. Ama sahip olduğu ek yetenekler, yeni risk alanlarını da beraberinde getiriyor. Bu riskleri daha iyi anlayabilmek için yapay zeka güvenliği, siber güvenlik, biyolojik tehditler, güvenilirlik, güvenlik ve uluslararası güvenlik gibi alanlarda çalışan 50’den fazla uzmandan yardım alarak çekişmeli senaryolarla modeli test ettik. Onların bulguları, yalnızca uzmanlıkla değerlendirilebilecek yüksek riskli alanlardaki model davranışlarını test etmemizi sağladı. Uzmanlardan gelen geri bildirimler ile veriler, modelin iyileştirilmesine ve önlemlere katkı sağladı. Örneğin, GPT‑4’ün tehlikeli kimyasalların sentezlenmesiyle ilgili talepleri reddetme yeteneğini geliştirmek için ek veri topladık.

GPT‑4, RLHF sürecinde zararlı çıktıları azaltmak için (kullanım politikalarımızda⁠(yeni bir pencerede açılır) tanımlandığı şekilde) ek bir güvenlik ödül sinyali içeriyor. Bu sinyal, modelin zararlı içerik isteklerini reddetmeyi öğrenmesini sağlıyor. Ödül, GPT‑4 tarafından sıfır örnekle (zero-shot) yapılan bir sınıflandırmayla veriliyor. Bu sınıflandırma, güvenlikle ilgili istemler üzerinden güvenlik sınırlarını ve tamamlamaların biçimini değerlendiriyor. Modelin geçerli talepleri reddetmemesi için, farklı kaynaklardan (etiketlenmiş üretim verileri, insanlar tarafından gerçekleştirilen kırmızı takım testleri, model tarafından üretilmiş istemler vb.) çeşitli veriler topluyor ve hem izin verilen hem de yasaklı kategorilerde bu güvenlik ödül sinyalini (pozitif ya da negatif bir değerle) uyguluyoruz.

Aldığımız önlemler sayesinde GPT‑4’ün birçok güvenlik özelliğini GPT‑3.5’e kıyasla önemli ölçüde geliştirdik. Modelin, yasaklı içerik taleplerine yanıt verme olasılığını GPT‑3.5’e göre %82 oranında azalttık. Ayrıca GPT‑4, hassas taleplere (örneğin, tıbbi tavsiyeler veya kendine zarar verme) politikalarımıza uygun olarak yanıt verme konusunda %29 daha başarılı.

Yükleniyor...

Genel olarak yaptığımız müdahaleler, modeli zararlı davranışlara yönlendirmeyi zorlaştırıyor ama tamamen engelleyemiyor. Ayrıca, kullanım politikalarımıza⁠ aykırı içerik üretimini sağlayan bazı “jailbreak” yöntemleri bulunuyor. Yapay zeka sistemlerinin “token başına risk” seviyesi arttıkça, bu tür müdahalelerin son derece güvenilir olması büyük önem taşıyacak. Şu anda önemli olan, kötüye kullanımı izleme gibi dağıtım aşamasında kullanılan güvenlik teknikleriyle bu sınırlamaları desteklemek.

GPT‑4 ve sonraki modeller, toplumu hem olumlu hem de olumsuz şekillerde önemli ölçüde etkileyebilecek potansiyel taşıyor. Bu potansiyeli daha iyi anlayabilmek ve gelecekteki sistemlerde ortaya çıkabilecek tehlikeli özellikleri değerlendirebilmek için dışarıdan araştırmacılarla birlikte çalışıyoruz. GPT‑4 ve diğer yapay zeka sistemlerinin olası toplumsal ve ekonomik etkilerine dair düşüncelerimizi yakında paylaşacağız.

Eğitim süreci

Daha önceki GPT modellerinde olduğu gibi GPT‑4’ün temel modeli de belgelerde bir sonraki kelimeyi tahmin etmek üzere eğitildi. Bu eğitimde, herkese açık veriler (örneğin internet verileri) ve lisansı bize ait olan veriler kullanıldı. Matematik problemlerinin doğru ve yanlış çözümlerini, zayıf ve güçlü akıl yürütme örneklerini, çelişkili ve tutarlı ifadeleri içeren bu veriler, internet ölçeğinde bir veri derlemesinin sonucu ve pek çok farklı ideoloji ile fikri temsil ediyor.

Bu yüzden, temel model bir istemle karşılaştığında, kullanıcının niyetine hiç uymayacak pek çok farklı şekilde yanıt verebiliyor. Modeli güvenlik sınırları içinde kullanıcının niyetiyle daha uyumlu hâle getirmek için insan geri bildirimiyle takviyeli öğrenme (RLHF⁠) yöntemini kullanıyoruz ve modelin davranışlarını ince ayarlarla geliştiriyoruz.

Modelin yetenekleri aslında büyük ölçüde ön eğitimden geliyor. RLHF, sınav başarısını artırmıyor (hatta etkin çaba gösterilmezse başarıyı düşürebiliyor). Ama modelin nasıl yönlendirileceği, ileri eğitim süreciyle belirleniyor. Temel model, soruya yanıt vermesi gerektiğini anlamak için bile istem mühendisliğine ihtiyaç duyuyor.

Öngörülebilir ölçeklenme

GPT‑4 projesinin temel odak noktalarından biri, öngörülebilir şekilde ölçeklenebilen bir derin öğrenme altyapısı geliştirmek olmuştur. Bunun başlıca nedeni, GPT‑4 gibi çok büyük çaplı eğitim çalışmaları için modele özel kapsamlı ayarlamalar yapmanın pratik olmamasıdır. Bu doğrultuda, farklı ölçeklerde oldukça öngörülebilir şekilde çalışan bir altyapı ve optimizasyon süreci geliştirdik. Bu ölçeklenebilirliği doğrulamak amacıyla, aynı yöntemle ancak 10.000 kat daha az bilgi işlem gücüyle eğitilmiş modellerden elde edilen verilerle GPT‑4’ün (eğitim setinin bir parçası olmayan) dâhilî kod tabanımız üzerindeki nihai kayıp oranını doğru şekilde öngördük:

Yükleniyor...

Eğitim sırasında optimize ettiğimiz temel ölçütü (kayıp oranı) artık doğru şekilde tahmin edebildiğimiz için daha yorumlanabilir ölçütleri öngörmeye yönelik yöntemler geliştirmeye başladık. Örneğin, HumanEval⁠(yeni bir pencerede açılır) veri setinin bir alt kümesindeki başarı oranını, yalnızca 1.000 kat daha az bilgi işlem gücüyle eğitilmiş modellerden yola çıkarak doğru şekilde öngördük.

Yükleniyor...

Bazı yetenekleri öngörmek hâlâ kolay değil. Inverse Scaling Prize adlı yarışma, modelin bilgi işlem gücü arttıkça daha kötü sonuç veren bir ölçüt bulmayı amaçlıyordu ve hindsight neglect⁠(yeni bir pencerede açılır) (geçmiş deneyimi göz ardı etme) kazananlardan biri olmuştu. Ancak yakın zamanda elde edilen başka bir sonucun⁠(yeni bir pencerede açılır) gösterdiği üzere GPT‑4 bu gidişatı tersine çeviriyor:

Yükleniyor...

Makine öğrenmesinin gelecekteki yeteneklerini doğru şekilde öngörebilmenin, potansiyel etkisine kıyasla yeterince ilgi görmeyen ancak güvenlik açısından son derece önemli bir alan olduğuna inanıyoruz. Bazı kurumların bu alandaki çabaları bizi umutlandırıyor. Biz de topluma gelecekteki sistemlerden ne bekleyebilecekleri hakkında daha net bir fikir verecek yöntemlere yönelik çalışmalarımızı artırıyoruz ve bu hedefin sektör genelinde yaygınlaşmasını umuyoruz.

OpenAI Evals

Modelleri kıyaslamak için testler oluşturup uyguladığımız OpenAI Evals⁠(yeni bir pencerede açılır) yazılım altyapısını açık kaynak olarak paylaşıyoruz. Bu araç sayesinde GPT‑4 gibi modellerin performansını örnekler bazında inceleyebiliyoruz. Evals'ı modellerimizin geliştirilme sürecine yön vermek (eksiklikleri belirlemek ve gerilemeleri önlemek) amacıyla kullanıyoruz. Kullanıcılarımız da bunu, düzenli olarak kullanıma sunulacak model sürümlerinin performanslarını izlemek ve ürün entegrasyonları geliştirmek için kullanabilirler. Örneğin Stripe, GPT destekli dokümantasyon aracının doğruluğunu test ederken insan değerlendirmelerine ek olarak Evals'tan faydalandı.

Kod tamamen açık kaynaklı olduğundan Evals, özel test ölçütü⁠(yeni bir pencerede açılır) uygulamak için yeni sınıflar yazmayı desteklemektedir. Ancak kendi deneyimlerimize göre, pek çok kıyaslama birkaç “şablon”dan birini takip eder. Bu nedenle, kurum içinde en faydalı bulduğumuz şablonları da dâhil ettik⁠(yeni bir pencerede açılır) (bunlar arasında “model tarafından notlandırılan değerlendirmeler”e yönelik bir şablon da yer alıyor çünkü GPT‑4’ün kendi çalışmalarını kontrol etme konusunda şaşırtıcı derecede yetkin olduğunu gördük). Yeni bir değerlendirme oluşturmanın⁠(yeni bir pencerede açılır) en etkili yolu, genellikle bu şablonlardan birini girilen verilerle yapılandırmaktır. İnsanların bu şablonlar ve genel olarak Evals ile neler oluşturacağını görmeyi heyecanla bekliyoruz.

Evals’ın, olabildiğince geniş bir yelpazedeki farklı başarısızlık durumlarını ve zor görevleri kapsayan kıyaslamaların paylaşılmasını ve topluluk tarafından geliştirilmesini sağlayan bir platform hâline geleceğini umuyoruz. Örneğin, GPT‑4’ün başarısız olduğu on istemi içeren bir mantık bulmacaları⁠(yeni bir pencerede açılır)⁠ değerlendirmesi oluşturduk. Evals, mevcut kıyaslamaların uygulanmasını da destekliyor. Akademik kıyaslamaların uygulandığı çeşitli defterler⁠(yeni bir pencerede açılır) ile CoQA⁠(yeni bir pencerede açılır)’in⁠ (küçük alt kümelerinin) entegrasyonunun birkaç versiyonunu örnek olarak ekledik.

Modellerimizi test etmek ve en ilginç örnekleri göndermek için herkesi Evals'ı kullanmaya davet ediyoruz. Evals'ın modellerimizi kullanma ve geliştirme sürecinin ayrılmaz bir parçası olacağına inanıyoruz ve doğrudan katkıları, soruları ve geri bildirimleri⁠(yeni bir pencerede açılır) memnuniyetle karşılıyoruz.

ChatGPT Plus

ChatGPT Plus aboneleri, chatgpt.com⁠(yeni bir pencerede açılır) üzerinden GPT‑4’e bir kullanım sınırı kapsamında erişebilecek. Kesin kullanım sınırını, talebe ve sistemin pratikteki performansına bağlı olarak ayarlayacağız, ancak kapasitemizin ciddi şekilde sınırlı olmasını bekliyoruz (öte yandan önümüzdeki aylarda kapasiteyi artıracağız ve sistemi optimize edeceğiz).

Gözlemlediğimiz kullanım yoğunluğuna göre, daha yüksek hacimli GPT‑4 kullanımı için yeni bir abonelik seviyesi sunabiliriz. Ayrıca bir noktada, aboneliği olmayan kullanıcıların da deneyebilmesi için sınırlı sayıda ücretsiz GPT‑4 sorgusu sunmayı umuyoruz.

API

GPT‑4 API’sine (gpt-3.5-turbo ile aynı ChatCompletions API⁠(yeni bir pencerede açılır)’sini kullanır) erişim elde etmek için bekleme listemize kaydolabilirsin⁠. Bugünden itibaren bazı geliştiricilere davetiye göndermeye başlayacağız ve kapasite ile talep dengesini sağlamak için erişimi aşamalı olarak genişleteceğiz. Yapay zekanın toplumsal etkileri veya yapay zeka uyumluluğu üzerine çalışan bir araştırmacı mısın? Researcher Access Program⁠ (Araştırmacı Erişim Programı) aracılığıyla finansmanlı erişime de başvurabilirsin.

Erişim elde ettikten sonra, yalnızca metin tabanlı istekler kapsamında gpt-4 modelini kullanabilirsin (görsel girdiler hâlâ sınırlı alfa sürümündedir). Yeni sürümler yayınlandıkça isteklerini otomatik olarak en güncel ve istikrarlı modele yönlendireceğiz (istersen şu anki sürümü gpt-4-0314 olarak sabitleyebilirsin; bu sürüm 14 Haziran’a kadar geçerli olacak). Fiyatlandırma, her 1.000 istem tokeni için 0,03 dolar, her 1.000 tamamlama tokeni için 0,06 dolardır. Varsayılan kullanım sınırları dakikada 40.000 token ve dakikada 200 istektir.

gpt-4’ün bağlam uzunluğu 8.192 tokendir. Ayrıca, yaklaşık 50 sayfalık metne denk gelen 32.768 token kapasitesine sahip gpt-4-32k sürümüne sınırlı da olsa erişim sağlıyoruz. Bu sürüm de zamanla otomatik olarak güncellenecek (şu anki sürüm: gpt-4-32k-0314, 14 Haziran’a kadar desteklenecek). Fiyatlandırma, her 1.000 istem tokeni için 0,06 dolar, her 1.000 tamamlama tokeni için 0,12 dolardır. Uzun bağlamlar için model kalitesini hâlen geliştiriyoruz; kendi kullanım alanındaki performans geri bildirimlerini bizimle paylaşırsan çok seviniriz. 8K ve 32K sürümlerine gelen talepleri kapasiteye göre farklı hızlarda işlediğimizden bunlar için farklı zamanlarda erişim elde edebilirsin.

Sonuç

GPT‑4’ün, pek çok uygulamaya güç vererek insanların hayatını kolaylaştıran değerli bir araca dönüşmesini heyecanla bekliyoruz. Yapılacak hâlâ çok iş var. Bu modeli; onunla bir şeyler üreten, sınırlarını keşfeden ve ona katkıda bulunan topluluğun kolektif çabalarıyla geliştirmek istiyoruz.

Daha fazla bilgi için: Makaleyi oku⁠(yeni bir pencerede açılır) / Sistem kartını görüntüle⁠(yeni bir pencerede açılır) / ChatGPT Plus’ta dene⁠(yeni bir pencerede açılır) / Playground’da dene⁠(yeni bir pencerede açılır) / Demo canlı yayınını tekrar izle⁠(yeni bir pencerede açılır) / OpenAI Evals’a katkıda bulun⁠(yeni bir pencerede açılır)

Ek

Diğer dillere çevrilmiş MMLU sorusu örnekleri. Not: Tutarlı seçenek tokenleri (A–D) kullanıyoruz:

Yükleniyor...

Dipnotlar

A
Bu ölçütü, eğitim setinden 4 örneği bağlam içinde sunarak ve istemlerle adım adım Düşünce Zinciri yönlendirmesi kullanarak değerlendiriyoruz. Söz konusu istemin ince ayarı doğrulama seti ile gerçekleştirildi.

Referanslar

1
P. Arredondo (Casetext/Stanford CodeX), D. Katz (Stanford CodeX), M. Bommarito (Stanford CodeX), S. Gao (Casetext). Daha ayrıntılı analizler için makaleye⁠(yeni bir pencerede açılır) başvurulabilir.