17 Temmuz 2025

Karşınızda ChatGPT aracısı: Araştırmayla eylem arasındaki köprü

ChatGPT artık kendi bilgisayarını kullanarak görevlerinizi tamamlarken, bir dizi aracı tabanlı becerinin içerisinden proaktif bir şekilde seçim yaparak düşünüyor ve hareket ediyor.

ChatGPT’de dene

Yükleniyor...

ChatGPT artık kendi sanal bilgisayarını kullanarak sizin için çalışabiliyor ve karmaşık görevleri baştan sona halledebiliyor.

Artık ChatGPT’den "takvimime göz at ve yaklaşan müşteri toplantıları hakkında beni son çıkan haberlere göre bilgilendir", “dört kişilik Japon kahvaltısı hazırlamak için plan yap ve malzemeleri satın al” ve "üç rakibi analiz et ve bir sunum hazırla" gibi istekleri yerine getirmesini isteyebilirsiniz. ChatGPT web sitelerinde akıllıca gezinecek, sonuçları filtreleyecek, gerektiğinde güvenli bir şekilde oturum açmanızı isteyecek, kodu çalıştıracak, analiz yapacak ve hatta size bulgularını özetleyen, düzenlenebilir slaytlar ve elektronik tablolar sunacak.

Bu yeni yeteneğin temelinde birleşik aracı tabanlı bir sistem yatıyor. Bu sistem, daha önce gerçekleştirilen üç atılımın en güçlü yönlerini bir araya getiriyor: Operator’ın⁠ web siteleriyle etkileşim kurma becerisi, derin araştırmanın⁠ bilgileri sentezleme becerisi ve ChatGPT’nin zekası ve akıcı şekilde sohbet edebilme yeteneği.

ChatGPT, bu görevleri kendi sanal bilgisayarını kullanarak, tamamen sizin talimatlarınız doğrultusunda karmaşık iş akışlarını baştan sona halletmek için akıl yürütmeyle eylem arasında akıcı bir şekilde geçiş yaparak yerine getirir.

En önemlisi de, kontrol her zaman sizde olur. ChatGPT, önemli sonuçları olacak eylemleri gerçekleştirmeden önce sizden izin ister. Ayrıca istediğiniz noktada görevleri kolayca yarıda kesebilir, tarayıcıyı kontrolünüze alabilir veya görevi durdurabilirsiniz.

Bugünden itibaren Pro, Plus ve Team kullanıcıları ChatGPT’nin yeni aracı tabanlı yeteneklerini herhangi bir konuşmanın herhangi bir noktasında, doğrudan oluşturucu içindeki açılır araçlar menüsünden “aracı modu”nu seçerek etkinleştirebilir.

ChatGPT aracısı karmaşık görevleri gerçekleştirmek için şimdiden güçlü bir araç olsa da, bugünkü lansman sadece bir başlangıç. Düzenli olarak önemli iyileştirmeler eklemeye devam ederek, ChatGPT aracısının zaman içinde daha da yetenekli ve daha fazla insan için faydalı hâle gelmesini sağlayacağız.

Operator ve derin araştırmanın doğal evrimi

Hem Operator hem de derin araştırma, kendilerine özgü güçlü yanlarıyla hayatımıza girdi: Operator web üzerinde kaydırma, tıklama ve yazma işlemlerini yapabiliyordu. Derin araştırma ise bilgileri analiz etme ve özetleme konusunda çok iyi bir performans gösteriyordu. Ancak ikisi farklı konularda iyiydi: Operator derinlemesine analiz yapamıyor veya detaylı rapor yazamıyor; derin araştırma ise sonuçları iyileştirmek veya kullanıcı kimlik doğrulaması gerektiren içeriklere erişmek için web siteleriyle etkileşime giremiyordu. Aslında kullanıcıların Operator ile denediği birçok istemin derin araştırma için daha uygun olduğunu gördük. Bu yüzden her ikisinin de en güçlü yanlarını bir araya getirdik.

Birbirini tamamlayan bu güçleri ChatGPT’ye entegre ederek ve ilave araçlar ekleyerek, tek bir model içinde yepyeni yetenekleri hayata geçirdik. Artık bu model web siteleriyle aktif olarak etkileşime girebiliyor; web sitelerinde tıklama ve filtreleme yaparak daha kesin, verimli sonuçlar topluyor. Ayrıca aynı sohbet içinde basit bir konuşma yaparken doğrudan eylem talep etmeye kolayca geçiş yapabilirsiniz.

Sizin için, sizinle birlikte çalışan bir aracı

ChatGPT aracısını, grafik bir kullanıcı arayüzü aracılığıyla web ile etkileşim kuran bir görsel tarayıcı, daha basit akıl yürütmelere dayalı web sorguları için metin tabanlı bir tarayıcı, bir terminal ve doğrudan API erişimi gibi bir dizi araçla donattık. Aracı ayrıca Gmail ve Github gibi uygulamalara bağlanmanıza olanak tanıyan ChatGPT bağlayıcılarından⁠(yeni bir pencerede açılır) yararlanabiliyor ve bu sayede ChatGPT, istemlerinizle ilgili bilgileri bularak bunları yanıtlarında kullanabiliyor. Ayrıca tarayıcının kontrolünü devralarak istediğiniz web sitesinde oturum açabilirsiniz. Bu da ajanın hem araştırma hem de görev yürütme sırasında daha derinlemesine ve daha geniş kapsamlı hareket etmesine imkân tanıyor. ChatGPT’ye web bilgilerine erişim ve etkileşim için bu farklı olanakların sunulması, görevleri en verimli şekilde gerçekleştirmek için en uygun yolu seçebilmesini sağlıyor. Örneğin, bir API aracılığıyla takviminiz hakkında bilgi toplayabilirken ve metin tabanlı tarayıcıyı kullanarak büyük miktardaki metinler üzerine verimli şekilde akıl yürütebilirken, öncelikle insanlar için tasarlanmış web siteleriyle de görsel olarak etkileşime girebiliyor.

Tüm bunları kendi sanal bilgisayarını kullanarak yaptığı için, birden fazla araç kullanıldığında bile söz konusu görev için gerekli bağlam korunur. Model, bir sayfayı metin tabanlı veya görsel tarayıcıyı kullanarak açmayı seçebilir, internetten bir dosya indirebilir, terminalde bir komut yürüterek bu dosyayı manipüle edebilir ve ardından çıktıları yeniden görsel tarayıcıda görüntüleyebilir. Model, yaklaşımını görevleri hızlı, doğru ve verimli şekilde yerine getirecek şekilde uyarlar.

Yinelemeli ve iş birliğine dayalı iş akışları için tasarlanan ChatGPT aracısı, önceki modellere kıyasla çok daha etkileşimli ve esnektir. ChatGPT çalışırken herhangi bir noktada araya girerek talimatlarınızı netleştirebilir, onu istediğiniz sonuçlara doğru yönlendirebilir veya görevi tamamen değiştirebilirsiniz. Kaldığı yerden, yeni bilgilerle devam eder ama önceki ilerlemeyi de kaybetmez. Aynı şekilde ChatGPT, görevin hedeflerinizle uyumlu olmasını sağlamak için gerektiğinde sizden proaktif olarak ek detaylar isteyebilir. Bir görev beklediğinizden uzun sürerse veya bir yerde tıkanırsa görevi duraklatabilir, ilerleme özeti isteyebilir veya tamamen durdurup kısmi sonuçları alabilirsiniz. Telefonunuzda ChatGPT uygulaması varsa görevinizi tamamladığında size bir bildirim gönderir.

Gerçek dünyadaki faydayı genişletiyoruz

Bu birleşik aracılık yetenekleri, ChatGPT’nin hem günlük hayattaki hem de profesyonel bağlamdaki faydasını önemli ölçüde artırıyor. İş yerinde ekran görüntülerini veya panoları düzenlenebilir vektör öğelerinden oluşan sunumlara dönüştürmek, toplantıları yeniden düzenlemek, saha dışı etkinlikler planlamak, elektronik tabloları aynı biçimlendirmeyi koruyarak yeni finansal verilerle güncellemek gibi tekrarlayan görevleri otomatikleştirebilirsiniz. Kişisel yaşamınızda ise seyahat programlarını kolayca planlamak ve gerekli rezervasyonları yapmak, akşam yemekleri düzenlemek ve rezervasyon yapmak veya dilediğiniz alandaki uzmanları bulup randevuları planlamak için kullanabilirsiniz.

Modelin gelişmiş yetenekleri; web’de gezinme ve gerçek dünyadaki görev tamamlama yeteneklerini ölçen değerlendirmelerdeki üstün (SOTA) performansından anlaşılıyor.

ChatGPT aracısını destekleyen model, geniş bir konu yelpazesinde uzman seviyesindeki sorularda yapay zekanın performansı ölçen İnsanlığın Son Sınavı⁠(yeni bir pencerede açılır)* (HLE) adlı değerlendirmede pass@1 ölçütünde 41,6 puanla yeni bir rekora (SOTA) imza attı. Aracı, dinamik olarak plan yaptığı ve kendi araçlarını seçtiği için, aynı görevi farklı seferlerde farklı şekillerde ele alabilir. Bunu basit bir paralel dağıtım stratejisiyle ölçeklendirdiğimizde, yani aynı anda sekiz denemeye kadar çalıştırıp, kendi bildirdiği güven düzeyi en yüksek olan seçildiğinde, aracının HLE puanı 44,4’e yükseliyor.

FrontierMath**, bilinen en zor matematik kıyaslama testidir ve genellikle uzman matematikçilerin çözmesi saatler hatta günler süren, özgün ve henüz yayımlanmamış problemlerden oluşur. ChatGPT aracısı, kod çalıştırmaya yönelik bir terminale erişim gibi araçların kullanılmasıyla %27,4 doğruluk oranına ulaşarak önceki her iki modeli de büyük farkla geçiyor.

Modelin performansını, gerçek dünyadaki karmaşık görevler temel alınarak modellenmiş kıyaslama ölçütlerini kullanarak da değerlendirdik. Model performansını karmaşık, ekonomik değeri olan, yoğun bilgi gerektiren görevlerde değerlendirmek üzere tasarlanmış bir dâhili kıyaslama testinde ChatGPT aracısının sunduğu çıktılar, çeşitli görev tamamlama sürelerinde yaklaşık olarak vakaların yarısında insanlara eşit veya daha iyi olmakla beraber, o3 ve o4-mini'den önemli ölçüde daha iyi performans gösterdiği tespit edildi. Model çıktıları uzmanlar tarafından, her bir alandaki en yüksek performans gösteren kişiler tarafından oluşturulmuş insan referans değerlerine göre değerlendirilir. Çok çeşitli meslek gruplarında ve sektörlerde faaliyet gösteren uzmanlardan derlenen bu görevler; talep üzerine acil bakım sağlayıcılarının rekabet analizini hazırlamak, ayrıntılı amortisman çizelgeleri oluşturmak ve yeni bir yeşil hidrojen tesisi için uygun su kuyularını belirlemek gibi gerçek dünyadaki profesyonel çalışmaları yansıtır.

ChatGPT aracısı, veri analizi ve modellemeyi kapsayan gerçekçi veri bilimi görevleriyle aracıları değerlendiren DSBench’te⁠(yeni bir pencerede açılır), insan performansını önemli bir fark atarak geçiyor.

Gerçek dünya senaryolarından türetilen elektronik tabloları düzenleme yeteneklerine göre modelleri değerlendiren SpreadsheetBench’te ise ChatGPT aracısı, mevcut modelleri açık farkla geride bırakıyor. Elektronik tabloları doğrudan düzenleme yeteneği verildiğinde ChatGPT aracısı, Excel’deki Copilot’ın %20,0’lık oranına kıyasla %45,5 ile daha da iyi bir puan aldı.

Metodoloji: SpreadsheetBench yazarları, elektronik tabloları değerlendirmek için Microsoft Excel kullanan bir Windows ortamı kullanmıştır. OSX ortamı ve LibreOffice kullandığımız için puanlamada küçük farklılıklar olabilir. Örneğin, yazarlar GPT‑4o için %15,02’lik bir Genel Olarak Zor kısıtlaması bulurken, biz %13,38 elde ettik. 912 soruluk kıyaslama testinin tamamını kullandık.

Bir modelin Fortune 500 şirketlerinden biri için uygun biçimlendirme ve alıntılarla üç tablolu bir finansal model üretmesi veya özel bir şirket için kaldıraçlı bir satın alma modeli oluşturması gibi birinci ila üçüncü yılındaki bir yatırım bankacılığı analistinin gerçekleştireceği modelleme görevlerini üstlenme yeteneğini ölçen dâhili bir kıyaslamada ChatGPT aracısına güç veren model, derin araştırmadan ve o3'ten önemli ölçüde daha iyi performans gösteriyor. Her görev, doğruluk ve formül kullanımıyla ilgili yüzlerce kritere göre derecelendiriliyor.

ChatGPT aracısını ayrıca bu yılın başlarında yayımladığımız ve gezinme aracılarının web’de bulunması zor bilgileri bulma yeteneğini kıyaslayarak ölçen BrowseComp’ta⁠ değerlendirdik. Model; %68,9 ile yani derin araştırmaya göre 17,4 gibi daha yüksek bir oranla yeni bir üstün başarıya imza attı.

Son olarak, web’de gezinme aracılarının gerçek dünyadaki web görevlerini tamamlama performansını değerlendirmek için tasarlanan WebArena’da⁠(yeni bir pencerede açılır) ise model, o3 destekli CUA'ya (Operator’a güç veren model) göre daha iyi performans gösteriyor.

Nasıl kullanılır?

ChatGPT’nin yeni aracı yeteneklerini herhangi bir konuşmanın herhangi bir noktasında, doğrudan oluşturucu içindeki açılır araçlar menüsünden “aracı modu”nu seçerek etkinleştirebilirsiniz. Derin araştırma yapmak, slaytlar hazırlamak veya masrafları girmek gibi istediğiniz görevi basitçe tanımlamanız yeterli. Göreviniz gerçekleştirilirken ekrandaki anlatım sayesinde ChatGPT’nin tam olarak ne yaptığını görebilirsiniz. Gerektiğinde tarayıcıyı yarıda kesip kontrolü ele alabilir ve görevlerin hedeflerinize uygun bir şekilde devam etmesini sağlayabilirsiniz.

ChatGPT aracısı bağlayıcılarınıza erişebilir, böylece iş akışlarınızla entegre olarak önemli ve eyleme geçirilebilir bilgilere erişebilir. Kimlik doğrulaması yapıldıktan sonra bu bağlayıcılar, ChatGPT’nin bilgileri görmesine ve gelen kutunuzu özetlemek veya bir toplantı için uygun olduğunuz zamanları bulmak gibi eylemler yapmasına olanak tanıyor. Ancak bu sitelerde işlem yapmak için yine de tarayıcıyı devralarak oturum açmanız istenir.

Ek olarak tamamlanan görevleri otomatik olarak tekrarlanacak şekilde planlayabilirsiniz. Örneğin, her Pazartesi sabahı haftalık bir performans göstergeleri raporu hazırlamak gibi.

Yeni yetenekler, yeni riskler

Bu sürümle birlikte kullanıcılar ilk kez, ChatGPT’den web üzerinde çeşitli eylemler gerçekleştirmesini isteyebilecek. Bu durum, özellikle ChatGPT aracısının, ister bağlayıcılar aracılığıyla erişilen bilgiler ister devralma moduyla oturum açtığınız web siteleri olsun, verilerinizle doğrudan çalışabilmesi nedeniyle yeni riskler ortaya çıkarıyor. Bunun için Operator’ın araştırma ön izlemesindeki etkili kontrolleri güçlendirdik ve canlı web'de hassas bilgilerin işlenmesi, daha geniş kullanıcı erişimi ve (sınırlı) terminal ağ erişimi gibi zorluklara yönelik güvenlik önlemleri ekledik. Bu önlemler riski önemli ölçüde azaltsa da, ChatGPT aracısının daha geniş bir araç seti kullanması ve daha geniş bir kullanıcı erişimine sahip olması, genel risk profilinin daha yüksek olduğu anlamına geliyor.

Genel olarak aracı tabanlı sistemlere yönelik bir risk olan istem enjeksiyonu yoluyla olumsuz manipülasyona karşı ChatGPT aracısını korumaya özellikle önem verdik ve buna göre daha kapsamlı risk azaltıcı önlemler hazırladık. İstem enjeksiyonları,üçüncü taraflarca kötü amaçlı talimatlar yoluyla aracının davranışını manipüle etme girişimleridir. ChatGPT aracısı, bir görevi tamamlarken web üzerinde bu tür girişimlerle karşılaşabilir. Örneğin, bir web sayfasında görünmez öğelerde veya üstverilerde gizlenmiş kötü amaçlı bir istem, bir bağlayıcıdan gelen özel verileri saldırganla paylaşmak veya kullanıcının oturum açtığı bir sitede zararlı bir eylem gerçekleştirmek gibi istenmeyen eylemler gerçekleştirmesi için aracıyı kandırabilir. ChatGPT aracısı doğrudan eylemde bulunabildiğinden, başarılı saldırılar daha büyük etki yaratabilir ve daha yüksek riskler oluşturabilir.

Aracıyı, istem enjeksiyonlarını tespit edip bunlara karşı koyma konusunda eğittik ve test ettik; ayrıca istem enjeksiyonu saldırılarını hızla tespit etmek ve bunlara yanıt vermek için izleme aracını kullandık. Kötü sonuçlar doğuracak eylemlerden önce kullanıcının açıkça onayını istemek, bu saldırılardan kaynaklanan zarar riskini iyice azaltıyor. Bunun yanı sıra kullanıcılar, kontrolü devralarak veya işlemi duraklatarak gerektiğinde görevlere müdahale edebiliyor. Kullanıcılar, aracıya hangi bilgileri sağlayacaklarına karar verirken bu tür dengeleri göz önünde bulundurmalı ve bu risklere maruz kalma ihtimallerini en aza indirmek için bir görev sırasında ihtiyaç duyulmayan bağlayıcıları devre dışı bırakmak gibi adımlar atmalıdır.

Özellikle model artık gerçek dünyayı etkileyen görevleri yerine getirebildiği için, model hatalarına yönelik risk azaltıcı önlemleri uygulamaya koyduk:

Açık kullanıcı onayı: ChatGPT, gerçek dünyada sonuçları olabilecek eylemlerde bulunmadan önce (örneğin bir satın alma işlemi yapmadan önce) açıkça izninizi isteyecek şekilde eğitilmiştir.
Aktif gözetim (“İzleme Modu”): E-posta göndermek gibi kritik öneme sahip belli görevler için aktif olarak sizin denetiminiz gerekir.
Proaktif risk azaltma: ChatGPT, banka transferleri gibi yüksek riskli görevleri aktif olarak reddedecek şekilde eğitilmiştir.

Son olarak, modelin erişimi olan verileri sınırlandırmaya yönelik ek kontroller getirdik:

Gizlilik denetimleri: ChatGPT ayarlarında tek bir tıklamayla tüm gezinme verilerinizi silebilir ve tüm aktif web sitesi oturumlarını anında kapatabilirsiniz. Aksi takdirde, çerezler ziyaret edilen her web sitesinin çerez politikalarına bağlı olarak kalıcı olur ve bu da sitelere tekrarlanan ziyaretleri daha verimli hâle getirebilir.
Güvenli tarayıcı devralma modu: ChatGPT’nin tarayıcısını kullanarak web ile etkileşimde bulunduğunuzda ("devralma modu"), girdileriniz gizli kalır. ChatGPT, bu oturumlar sırasında girdiğiniz şifreler gibi hiçbir veriyi toplamaz veya saklamaz, çünkü modelin bunlara ihtiyacı yoktur ve bunları asla görmemesi daha güvenlidir.

Biyolojik risklere yönelik şimdiye kadarki en güçlü güvenlik yapımız

Modelin yeteneklerinin giderek artmasıyla beraber, Hazırlıklı Olma Çerçevemiz⁠ kapsamında ChatGPT aracısının Yüksek Biyolojik ve Kimyasal yeteneklere sahip bir aracı olarak ele alma ve ilgili güvenlik önlemlerini etkinleştirme kararı aldık. Modelin yeni başlayan birinin ciddi biyolojik zararlar yaratmasına kayda değer ölçüde yardımcı olabileceğine dair kesin bir kanıtımız olmamakla birlikte (Yüksek yetkinlik için belirlediğimiz eşik düzey budur), tedbirli davranmak adına gerekli güvenlik önlemlerini şimdiden uygulamaya koyuyoruz. Sonuç olarak bu model, kapsamlı tehdit modellemesi, çift kullanımlı reddetme eğitimi, sürekli açık sınıflandırıcılar ve akıl yürütme izleyicileri ve net yaptırım uygulamalarını içeren biyoloji için geliştirilmiş güvenlik önlemleriyle bugüne kadarki en kapsamlı güvenlik yapımıza sahip.

ChatGPT aracısını güvenli kılma çalışmalarımıza ek olarak, katmanlı biyolojik güvenliğin, koruma önlemlerinin tek bir laboratuvarın ötesine uzandığı durumlarda en iyi şekilde çalıştığını biliyoruz; bu nedenle savunma mekanizmalarını güçlendirmek için ekosistem genelinde iş birliği yapıyoruz. İlk günden itibaren tehdit modelimizi, değerlendirmelerimizi ve politikalarımızı şekillendirmek için dış kaynaklı biyolojik güvenlik uzmanları, güvenlik enstitüleri ve akademik araştırmacılarla birlikte çalıştık. Biyoloji alanında eğitim görmüş inceleme uzmanları, değerlendirme verilerimizi doğruladı ve alanında uzman kırmızı takım testi uzmanları, güvenlik önlemlerini gerçekçi senaryolarda stres testinden geçirdi. Bu ayın başlarında, yapay zeka destekli biyolojik savunma araştırmalarında ilerleme kaydetmek ve iş birliğini hızlandırmak amacıyla hükûmet, akademi, ulusal laboratuvarlar ve STK'lardan uzmanların katılımıyla bir Biyolojik savunma çalıştayı düzenledik. Ortaya çıkan yeni risklere dair bir adım önde olmak için küresel çapta ortaklıklarımızı sürdüreceğiz.

Birleşik aracı tabanlı modele yönelik güçlü güvenlik yaklaşımımız hakkında daha fazla bilgiyi sistem kartında⁠ bulabilirsiniz. Ayrıca gerçek dünyadaki riskleri bulup giderebilmek için bir hata avcılığı programı⁠ da başlatıyoruz.

Kullanılabilirlik

ChatGPT aracısı bugün Pro, Plus ve Team kullanıcıları için kullanıma sunulmaya başlıyor; Pro kullanıcıları gün sonuna kadar, Plus ve Team kullanıcıları ise önümüzdeki birkaç gün içinde erişime kavuşacak. Enterprise ve Education kullanıcıları önümüzdeki haftalarda erişim elde edebilecek. Pro kullanıcıları ayda 400 mesaj hakkına sahipken, diğer ücretli kullanıcıların ayda 40 mesaj hakkı olacak ve esnek kredi temelli seçeneklerle ek kullanım imkânı bulunacak.

Avrupa Ekonomik Alanı ve İsviçre'ye erişim sunmak için çalışmalarımız devam ediyor.

Operator araştırma ön izleme sitesi, birkaç hafta daha kullanımda kalacak ve bu sürenin sonunda kapatılacak. Derin araştırma, ChatGPT aracısının yeteneklerinden biridir. Orijinal derin araştırma özelliğini tercih ederseniz (çalıştırılması biraz daha uzun sürebilir ancak varsayılan olarak daha ayrıntılı, derinlemesine yanıtlar verir) mesaj yazma kutusundaki açılır menüden "derin araştırma"yı seçerek bu özelliğe hâlâ erişebilirsiniz.

Sınırlamalar ve geleceğe bakış

ChatGPT aracısı henüz daha ilk aşamalarında. Bir dizi karmaşık görevi üstlenebiliyor olsa da hâlâ hata yapabiliyor.

Slaytlı sunumlar oluşturma potansiyelinde önemli bir gelişme görmemize rağmen bu işlevsellik henüz beta aşamasında. Şu anda çıktıların biçimlendirmesi ve son görünümü, özellikle de işleme mevcut bir belge olmadan başlandığında basit kalabilir. Modelin ilk yeteneklerini geliştirirken; bilgileri sunumlar için uygun bir akış ve formatta bir araya getiren, dışa aktarıldıktan sonra doğal biçimde ve kolayca düzenlenebilen metin, grafikler, görseller ve şekiller gibi öğelere sahip, yapı ve esneklik için optimize edilmiş eserler üretmeye odaklandık. Şu anda görüntüleyicideki slaytlar ile dışarı aktarılan PowerPoint sunumu arasında zaman zaman tutarsızlıklar da yaşanıyor ve bunları azaltmak için çalışıyoruz. Ayrıca mevcut bir elektronik tabloyu ChatGPT’ye yükleyip düzenleyebiliyor veya şablon olarak kullanabiliyor olsanız da bu özellik henüz slaytlı sunumlar için kullanılamıyor. ChatGPT’nin slaytlı sunum hazırlama özelliğinin bir sonraki yinelemesini, daha geniş yetenekler ve geliştirilmiş biçimlendirmeyle daha iyi ve gelişmiş çıktılar üretecek şekilde eğitiyoruz.

Genel olarak ChatGPT aracısının verimliliği, derinliği ve çok yönlülüğünde zaman içinde daha sorunsuz etkileşimler de dâhil olmak üzere sürekli iyileştirmeler bekliyoruz. Kullanıcıdan istenen gözetim miktarını ayarlamaya devam ederek aracıyı daha kullanışlı hâle getirirken, kullanımın daha güvenli olmasını da sağlıyoruz.

Ek

SpreadsheetBench
Model	Değerlendirme ortamı	Hafif kısıtlama (%): Hücre seviyesi	Hafif kısıtlama (%): Sayfa seviyesi	Hafif kısıtlama (%): Genel
GPT‑4o	Windows, Excel	15,03	23,65	18,35
Excel'de Copilot	Windows, Excel	23,33	15,00	20,00
GPT‑4o	OSX, LibreOffice	15,86	18,33	16,81
OpenAI o3	OSX, LibreOffice	22,40	24,60	23,25
ChatGPT aracısı	OSX, LibreOffice	38,27	30,48	35,27
ChatGPT aracısı ve .xlsx	OSX, LibreOffice	50,56	37,51	45,54
İnsan		75,56	65,00	71,33

Canlı yayını tekrar oynat

Yazar

OpenAI

Dipnotlar

* Web’de gezinme etkinleştirildiğinde model bazen çevrimiçi olarak, örneğin bir veri setinden örnek problemler içeren blog yazılarını okuyarak kesin yanıtlar bulabilir. Modelin web’de gezinirken hile yapmasına yönelik endişeleri iki stratejiyle azaltıyoruz:

1. Geçmişte modelin hile yaptığını gözlemlediğimiz alan adlarını engelledik.

2. Şüpheli davranışları tespit etmek amacıyla her girişimde tüm araç çıktı tokenlerini incelemek için bir izleme aracı olarak ekstra bir model kullandık. Şüpheli davranış; "esas amacı bu belirli soruya kesin bir cevap sağlamak olan bir sayfa, dosya veya parçacık (örneğin resmî bir puanlama anahtarı, sızdırılmış "çözümlerin" özeti veya nihai cevabı kelimesi kelimesine alıntılayan bir tartışma)" olarak tanımlanır. İyi niyetli davranış, "Tesadüfen doğru cevabı içerse bile, özenli bir insanın başvurabileceği güvenilir kaynaklar (belgeler, kılavuzlar, akademik makaleler, saygın makaleler)" olarak tanımlanır. İzleme aracının kullanımı şüpheli bulduğu tüm girişimler hatalı olarak sayılır. Bu kontrolden geçemeyen örneklerin çoğu, HLE (Yüksek Kaliteli Lisanslı ve Eğitsel Kaynaklar) ile ilgisi olmayan birden fazla internet kaynağında kesin çözümü bulunan problemlerdi.

**OpenAI, 1-3. Kademe veri setindeki 290 özel sorudan 237'sine özel erişime sahiptir. FrontierMath 4. kademe soruları bu değerlendirmeye dâhil edilmemiştir. Sonuçlar her soruya 16 kez cevap verme girişiminin ortalaması alınarak değerlendirilmiştir. ChatGPT aracısı sonuçları OpenAI tarafından elde edilmiş ve tarayıcı ve terminal erişimi ve cevap başına 128K token sınırı ile Epoch AI tarafından derecelendirilmiştir. OpenAI o4-mini ve o3 değerlendirmeleri, Epoch AI tarafından, herhangi bir tarayıcı veya terminal erişimi olmadan, fonksiyon çağırma yoluyla Python komut dosyaları kullanılarak ve cevap başına 100 bin token sınırıyla elde edilmiş ve derecelendirilmiştir.

*** Oracle@64, kesin referans kullanılarak seçilen 64 örneklemlenmiş çalışmada elde edilen en iyi puanı ifade eder (yani, her görev için gerçek derecelendirilmiş performansa dayanarak en yüksek puan alan denemeyi seçiyoruz). Tüm görevler genelinde görev başına en iyi puanların ortalamasını bildiriyoruz. Bu ölçüt, modelin üst sınır potansiyelini ve görev performansındaki değişkenliği vurgular; modelin başarılı olduğunda ne kadar yetenekli olabileceğini gösterir ve daha fazla eğitimle tutarlılığın iyileştirilebileceğini belirtir. Model güvenine dayalı seçim yapan tipik "best of N" (N adet çıktıdan en iyisini seçme) tarzı ölçütlerin aksine, oracle@64 seçim için kesin referansı kullanır ve ikili geçme/kalma ölçeği yerine sürekli 0-1 ölçeğinde derecelendirilen görevlere uygulanır.