LLM’lerle akıl yürütmeyi öğrenmek
Karmaşık akıl yürütme yeteneği sergileyebilmesi için takviyeli öğrenme yöntemiyle eğitilmiş yeni büyük dil modeli OpenAI o1 ile tanış. Bu model, cevap vermeden önce düşünür ve kullanıcıyı uzun bir içsel düşünce zinciri oluşturduktan sonra yanıtlar.
OpenAI o1, rekabetçi programlama sorularında (Codeforces) %89’luk dilime girerek ABD Matematik Olimpiyatları (AIME) elemelerinde ABD’nin en başarılı 500 öğrencisi arasında yer alacak düzeyde bir performans sergiledi. Ayrıca fizik, biyoloji ve kimya sorularından oluşan GPQA testinde doktora düzeyindeki insanların doğruluk oranını aştı. Bu yeni modelin kullanımını da diğer mevcut modeller kadar kolaylaştırmak için çalışmalarımız sürerken modelin erken bir versiyonu olan OpenAI o1‑preview’u şimdiden ChatGPT’de kullanıma sunuyor ve güvenilir API kullanıcılarının(yeni bir pencerede açılır) erişimine açıyoruz.
Büyük ölçekli takviyeli öğrenme algoritmamız, verilerin son derece verimli bir şekilde kullanıldığı bir eğitim sürecinde modele düşünce zincirini üretken şekilde kullanmayı öğretiyor. o1’in performansının, daha fazla takviyeli öğrenme (eğitim sırasındaki bilgi işlem süresi) ve daha uzun düşünme süresi (test sırasındaki bilgi işlem süresi) ile sürekli olarak geliştiğini gözlemledik. Bu yaklaşımın ölçeklenmesinde, LLM ön eğitimine kıyasla oldukça farklı kısıtlamalar bulunuyor; biz de bu kısıtlamaları incelemeye devam ediyoruz.

Hem eğitim hem de test aşamalarında bilgi işlem süresi arttıkça o1’in performansı da istikrarlı bir şekilde yükseliyor
GPT‑4o’ya kıyasla akıl yürütme yeteneğindeki gelişimi vurgulamak için, modellerimizi hem insanlar için hazırlanmış sınavlarda hem de makine öğrenmesine yönelik kıyaslamalarda test ettik. Akıl yürütme ağırlıklı bu görevlerin büyük çoğunluğunda, o1’in GPT‑4o’ya kıyasla kayda değer ölçüde daha yüksek performans sergilediği görülüyor. Aksi yönde bir bilgi sunulan durumlar haricinde o1, test aşamasında maksimum bilgi işlem süresiyle değerlendirildi.







o1, akıl yürütme ağırlıklı birçok kıyaslamada, alanlarında uzman insanlara denk bir performans gösteriyor. Yeni öncü modeller1, MATH2 ve GSM8K’da o kadar iyi sonuçlar alıyor ki artık bu kıyaslamalar, modeller arasında bir ayrım ortaya koymada yeterince etkili değil. Matematik performansını, Amerika’da lise düzeyi matematik alanındaki en parlak öğrenciler için tasarlanmış AIME sınavında değerlendirdik. 2024 AIME sınavlarında GPT‑4o, problemlerin ortalama yalnızca %12’sini (1,8/15) çözebildi. o1 ise her problem için tek örnekle %74’lük (11,1/15), 64 örnek arasında en sık üretilen yanıtın dikkate alındığı konsensüs yöntemiyle değerlendirildiğinde %83’lük (12,5/15) ve öğrenilmiş bir puanlama fonksiyonuyla 1000 örneği yeniden sıraladığında %93’lük (13,9/15) başarı gösterdi. o1, 13,9 puanla ülke çapındaki ilk 500 öğrenci arasına girecek bir performans gösterdi ve ABD Matematik Olimpiyatı’na katılım barajını geçti.
o1’i kimya, fizik ve biyoloji uzmanlığını test eden zorlu zeka kıyaslaması GPQA Diamond üzerinden de değerlendirdik. Modelleri insanlarla karşılaştırabilmek amacıyla GPQA Diamond sorularını yanıtlaması için doktora dereceli uzmanlar görevlendirdik. o1’in, alanlarında uzman olan bu insanların performansını geride bıraktığını ve bu kıyaslamada bunu başaran ilk model olduğunu gördük. Bu sonuçlar, o1’in doktora dereceli birinden her açıdan daha yetkin olduğu anlamına gelmiyor. Yalnızca modelin doktora düzeyindeki bir uzmandan beklenen bazı problemleri çözmede daha başarılı olduğunu gösteriyor. o1, makine öğrenimi alanındaki birkaç başka kıyaslamada da mevcut en ileri modellerin performansını aştı. Görüntü algılama yetenekleri etkinleştirildiğinde o1, MMMU’da %78,2 puan alarak uzman insanlarla rekabet edebilen ilk model oldu. Ayrıca MMLU’nun 57 alt kategorisinden 54’ünde GPT‑4o’yu geride bıraktı.
İnsanlar zor bir soruya cevap vermeden önce uzun uzun nasıl düşünürse, o1 de problem çözmeye çalışırken bir düşünce zinciri kullanıyor. o1, takviyeli öğrenme sayesinde kendi düşünce zincirini geliştirmeyi ve kullandığı stratejileri iyileştirmeyi öğreniyor. Hatalarını fark edip düzeltmeyi, zor adımları daha basite indirgemeyi ve bir yöntem işe yaramadığında başka bir yöntem denemeyi öğreniyor. Bu süreç, modelin akıl yürütme yeteneğini önemli ölçüde artırıyor. Bu ilerlemeyi gösterebilmek için aşağıda o1‑preview’un birkaç zor problem üzerindeki düşünce zincirlerinden örnekler sunuyoruz.
GPT-4o
OpenAI o1-preview
Programlama yeteneklerini daha da geliştirmek için o1’i temel alarak eğittiğimiz bir model, 2024 Uluslararası Bilişim Olimpiyatı’nda (IOI) 213 puan alıp %49’luk dilime girdi. İnsan yarışmacılarla aynı şartlarda yarışan bu modele altı zorlu algoritma sorusunu çözmek için on saat süre verildi ve her soru için 50 gönderim hakkı sunuldu.
Sistemimiz, her soru için birçok olası çözüm örnekledi ve test sırasında uygulanan seçim stratejisiyle bunlardan 50’sini gönderdi. Gönderimler, Uluslararası Bilişim Olimpiyatı’nın herkese açık test örneklerindeki performans, model tarafından üretilen test örneklerindeki performans ve öğrenilmiş bir puanlama fonksiyonu doğrultusunda seçildi. Eğer gönderilecek çözümleri rastgele seçseydik ortalama puanımız yalnızca 156 olurdu. Bu durum, uygulanan stratejinin yarışma kısıtları altında bize yaklaşık 60 puanlık bir avantaj sağladığını gösteriyor.
Gönderim kısıtı esnetildiğinde ise model performansının önemli ölçüde iyileştiğini tespit ettik. Model, her problem için 10.000 gönderim hakkı tanındığı durumda test sırasında uygulanan seçim stratejisi olmaksızın bile 362,14 puan elde ederek altın madalya eşiğinin üzerine çıktı.
Son olarak bu modelin kodlama yeteneğini göstermek için Codeforces tarafından düzenlenen programlama yarışmalarını simüle ettik. Yarışma kurallarını neredeyse birebir uygulayıp soru başına 10 gönderim hakkı tanıdık. GPT‑4o, 808 Elo puanı3 elde ederek insan katılımcıların %11’lik diliminde yer aldı. Bu model ise hem GPT‑4o’yu hem de o1’i geride bırakarak 1807 Elo puanına ulaştı ve katılımcıların %93’ünden daha iyi performans gösterdi.

Programlama yarışmalarına yönelik ince ayarlar, o1’i daha da geliştirdi. Geliştirilmiş model, 2024 Uluslararası Bilişim Olimpiyatı’nda yarışma kuralları çerçevesinde %49’luk dilime girdi.
o1‑preview ve GPT‑4o’yu, sınavlar ile akademik ölçütlerin yanı sıra birçok farklı alandaki zorlu, açık uçlu istemler üzerinden insanların tercihleri temelinde de karşılaştırdık. Bu değerlendirmede, o1‑preview ve GPT‑4o’nun bir isteme verdiği yanıtları anonimleştirerek gösterdiğimiz insan eğitmenlerden, bunları tercihleri doğrultusunda oylamalarını istedik. Eğitmenler; veri analizi, kodlama ve matematik gibi akıl yürütme ağırlıklı kategorilerde açık ara farkla o1‑preview’u GPT‑4o’ya tercih etti. Öte yandan bazı doğal dil görevlerinde o1‑preview tercih edilmedi; bu da modelin, her kullanım alanı için uygun olmadığını gösteriyor.

Düşünce zinciriyle akıl yürütme, uyumluluk ve güvenlik açısından yeni olanaklar tanıyor. Model davranışlarına ilişkin politikalarımızı bir akıl yürütme modelinin düşünce zincirine entegre etmenin, insani değerleri ve ilkeleri sağlam bir şekilde öğretmek için etkili bir yöntem olduğunu gördük. Modele güvenlik kurallarımızı ve bağlam içinde bunlar üzerine akıl yürütmeyi öğreterek, bu yeteneğin modelin dayanıklılığını doğrudan artırdığına dair kanıtlar bulduk. o1‑preview, kritik jailbreak değerlendirmelerinde ve modelimizin güvenli ret sınırlarını ölçen en zorlu dâhilî değerlendirmelerimizde çok daha gelişmiş bir performans gösterdi. Düşünce zinciri kullanımının güvenlik ve uyumluluk alanlarında önemli ilerlemeler sunduğuna inanıyoruz çünkü (1) modelin düşünme sürecini okunabilir biçimde gözlemlememizi sağlıyor ve (2) model güvenlik kuralları hakkında akıl yürütürken, eğitim verisi dışındaki veriler karşısında daha dayanıklı hâle geliyor.
İyileştirmelerimizi sınırlarına kadar zorlayıp test etmek için, modeli kullanıma sokmadan önce Hazırlıklılık Çerçevemize(yeni bir pencerede açılır) uygun olarak bir dizi güvenlik testi ve kırmızı takım testi uyguladık. Akıl yürütme yeteneğinin, tüm değerlendirmelerimizde yetkinliklerin iyileştirilmesine katkıda bulunduğunu gördük. Özellikle dikkatimizi çeken nokta, ödül korsanlığı konusunda ilginç örneklerle(yeni bir pencerede açılır) karşılaşmamız oldu. Bu değerlendirmelerin ayrıntılı sonuçlarını model ile birlikte sunulan Sistem Kartında bulabilirsin.
| Metrik | GPT-4o | o1-preview |
|---|---|---|
| Zararlı istemlerde güvenli tamamlama oranı (%) Standart | 0,990 | 0,995 |
| Zararlı istemlerde güvenli tamamlama oranı (%) Zorlayıcı: jailbreak’ler ve uç vakalar | 0,714 | 0,934 |
| ↳ Taciz (ağır) | 0,845 | 0,900 |
| ↳ İstismar içeren cinsel içerikler | 0,483 | 0,949 |
| ↳ Reşit olmayanların yer aldığı cinsel içerikler | 0,707 | 0,931 |
| ↳ Şiddet içermeyen yasa dışı eylemlerle ilgili öneri | 0,688 | 0,961 |
| ↳ Şiddet içeren yasa dışı eylemlerle ilgili öneri | 0,778 | 0,963 |
| WildChat’te her kategori için Moderation API puanı en yüksek olan ilk 200 örnekteki güvenli tamamlamaların oranı (%) Zhao ve diğerleri 2024 | 0,945 | 0,971 |
| Goodness@0.1 StrongREJECT jailbreak testi Souly ve diğerleri 2024 | 0,220 | 0,840 |
| İnsan kaynaklı jailbreak testi | 0,770 | 0,960 |
| Dâhilî zararsız uç örneklerdeki uyumluluk oranı (%) “not over-refusal” | 0,910 | 0,930 |
| XSTest’te zararsız uç örneklerdeki uyumluluk oranı (%) “not over-refusal” Röttger ve diğerleri 2023 | 0,924 | 0,976 |
Gizli bir düşünce zincirinin, modelleri izlemek için eşsiz bir fırsat sunduğuna inanıyoruz. Zincirin güvenilir ve okunabilir olması koşuluyla, modelin “aklından geçenleri okuyup” nasıl düşündüğünü anlayabiliyoruz. Örneğin gelecekte, kullanıcıyı yönlendirme eğilimlerini tespit etmek için bu zinciri izleyebiliriz. Ancak bunun işe yaraması için modelin, düşüncelerini olduğu gibi ifade etme özgürlüğüne sahip olması gerekiyor. Bu nedenle düşünce zincirini politika uyumluluğuna veya kullanıcı tercihlerine yönelik bir eğitime tabi tutamıyoruz. Öte yandan, uyumlandırılmamış bir düşünce zincirini doğrudan kullanıcılara görünür kılmak da istemiyoruz.
Bu nedenle; kullanıcı deneyimi, rekabet avantajı ve düşünce zincirinin izlenmesi seçeneği gibi birden çok etmeni değerlendirdikten sonra, ham düşünce zincirlerini kullanıcılara göstermeme kararı aldık. Bu kararın dezavantajları olduğunun farkındayız. Modele, düşünce zincirinde yer alan faydalı fikirleri yanıtlarına da aktarmayı öğreterek bunu kısmen telafi etmeyi hedefliyoruz. o1 model serisinde ise düşünce zincirinin model tarafından oluşturulan bir özetini sunuyoruz.
o1, akıl yürütebilen yapay zeka alanında çıtayı epey yükseltiyor. Yineleme çalışmalarımız devam ettikçe bu modelin daha gelişmiş sürümlerini kullanıma sunmayı planlıyoruz. Bu yeni akıl yürütme yeteneklerinin, modelleri insani değerler ve ilkelerle uyumlu hâle getirmemize yardımcı olacağını düşünüyoruz. o1 ve sonraki sürümlerinin bilim, kodlama, matematik ve benzeri alanlarda yapay zeka için birçok yeni kullanım alanı yaratacağına inanıyoruz. Kullanıcıların ve API geliştiricilerinin, bu yetenek sayesinde günlük işlerinin nasıl kolaylaşacağını keşfetmelerini heyecanla bekliyoruz.
| Veri Seti | Metrik | gpt-4o | o1-preview | o1 |
|---|---|---|---|---|
| Yarışma Matematiği AIME (2024) | cons@64 | 13,4 | 56,7 | 83,3 |
| pass@1 | 9,3 | 44,6 | 74,4 | |
| Yarışma Kodlaması CodeForces | Elo | 808 | 1.258 | 1.673 |
| Yüzdelik dilim | 11,0 | 62,0 | 89,0 | |
| GPQA Diamond | cons@64 | 56,1 | 78,3 | 78,0 |
| pass@1 | 50,6 | 73,3 | 77,3 | |
| Biyoloji | cons@64 | 63,2 | 73,7 | 68,4 |
| pass@1 | 61,6 | 65,9 | 69,2 | |
| Kimya | cons@64 | 43,0 | 60,2 | 65,6 |
| pass@1 | 40,2 | 59,9 | 64,7 | |
| Fizik | cons@64 | 68,6 | 89,5 | 94,2 |
| pass@1 | 59,5 | 89,4 | 92,8 | |
| MATEMATİK | pass@1 | 60,3 | 85,5 | 94,8 |
| MMLU | pass@1 | 88,0 | 92,3 | 90,8 |
| MMMU (val) | pass@1 | 69,1 | Geçersiz | 78,2 |
| MathVista (testmini) | pass@1 | 63,8 | Geçersiz | 73,9 |
Yazarlar
Alıntılar
- 1
- 2
Değerlendirmelerimizde, https://arxiv.org/abs/2305.20050(yeni bir pencerede açılır) adresindeki 500 soruluk test kümesinin aynısı kullanıldı.
- 3






