23 Ocak 2025

Bilgisayar Kullanan Ajan

Yapay zekanın dijital dünya ile etkileşime girmesini sağlayan evrensel bir arayüz olarak Bilgisayar Kullanan Ajan ile Operator’ı çalıştırmak

Operator’a git

Yükleniyor...

Web’de gezinerek senin için görevleri yerine getirebilen ajanımız Operator⁠(yeni bir pencerede açılır)’ın bir araştırma ön izlemesini bugün kullanıma açtık. Operator’ın temelinde Bilgisayar Kullanan Ajan (CUA) yer alıyor. Bu model, GPT‑4o’nun görü kabiliyetlerini takviyeli öğrenmeyle geliştirilmiş akıl yürütme ile bir araya getiriyor. CUA ekranda görülen düğmeler, menüler ve metin kutuları gibi grafik kullanıcı arayüzleri (GUI) ile etkileşime girmek üzere eğitildi. Bu sayede işletim sistemi veya web tabanlı API’lere ihtiyaç duymadan dijital görevleri yerine getirebilecek esnekliğe kavuşuyor.

CUA çok modlu anlama ve akıl yürütmenin kesiştiği noktada yürütülen uzun yıllara dayalı temel araştırmaların bir ürünü. Gelişmiş GUI algısını yapılandırılmış problem çözme yeteneğiyle birleştirerek görevleri çok aşamalı planlara ayırabiliyor ve zorluklarla karşılaştığında adapte olarak kendini düzeltebiliyor. Bu kabiliyet yapay zekanın gelişiminde yeni bir aşamayı temsil ediyor: Modellerin de insanların günlük olarak kullandığı araçları kullanmasına olanak tanıyarak çok çeşitli yeni uygulamaların önünü açıyor.

CUA henüz gelişiminin erken aşamalarında ve bazı sınırlamaları var, ancak tamamen bilgisayar kullanılan görevlerde OSWorld testinde %38,1, web tabanlı görevlerde WebArena testinde %58,1 ve WebVoyager testinde %87 başarı oranlarına ulaşarak endüstrinin en yüksek benchmark değerlerini elde etti. Bu sonuçlar CUA’nın tek bir genel eylem alanı vasıtasıyla farklı ortamlarda hareket etme ve çalışma kabiliyetini ön plana çıkarıyor.

CUA’yı geliştirme sürecinde, dijital ortama erişimi olan bir ajanın yol açabileceği sorunlarla başa çıkmak için güvenliği en önemli öncelik olarak belirledik ve bunu Operator Sistem Kartımızda ayrıntılı olarak açıkladık. Yinelemeli kullanıma sokma stratejimize uygun olarak, CUA’yı ilk etapta ABD’deki Pro⁠(yeni bir pencerede açılır) planı abonelerinin kullanımına sunulmak üzere operator.chatgpt.com⁠(yeni bir pencerede açılır) adresinde Operator’ın bir araştırma ön izlemesi olarak sunuyoruz. Dijital ajanların kullanımının yoğunlaştığı bir geleceğe hazırlanırken, gerçek dünyadan topladığımız geri bildirimler sayesinde hem güvenlik önlemlerimizi iyileştirecek hem de sürekli olarak kendimizi geliştirebileceğiz.

Nasıl çalışır

Bir CUA sisteminde girdilerin metin veya ekran görüntüsü olarak yorumlanması, eylemler üretilmesi ve bir sanal makineye komutlar verilmesi sürecini gösteren akış şeması.

CUA ekranda olup biteni kavramak için ham piksel verilerini işler ve eylemleri yerine getirmek için sanal bir fare ve klavye kullanır. Çok adımlı görevleri yönetebilir, hatalarla başa çıkabilir ve beklenmedik değişikliklere ayak uydurabilir. Bu da CUA’nın özel API’lere ihtiyaç duymadan form doldurma ve web sitelerinde gezinme gibi görevleri yerine getirerek çok çeşitli dijital ortamlarda etkinlik göstermesini sağlar.

CUA bir kullanıcı talimatı aldığında algılamayı, akıl yürütmeyi ve eyleme geçmeyi birleştiren yinelemeli bir döngüde hareket eder.

Algılama: Bilgisayarın o andaki durumunu görsel olarak yansıtan ekran görüntüleri modelin işlem bağlamına dahil edilir.
Akıl Yürütme: CUA mevcut ve daha önceki ekran görüntülerini ve eylemleri dikkate alarak düşünce zinciri yöntemiyle sıradaki adımlar boyunca akıl yürütür. Bu iç monolog modelin kendi gözlemlerini değerlendirmesine, ara adımları takip etmesine ve dinamik bir şekilde adapte olmasına olanak tanıyarak görev başarı oranını yükseltir.
Eyleme Geçme: CUA görevin tamamlandığına veya kullanıcı girdisi gerektiğine karar verene kadar tıklama, kaydırma veya yazma gibi eylemleri gerçekleştirir. CUA çoğu adımı otomatik olarak tamamlarken oturum açma bilgileri girme veya CAPTCHA formlarını yanıtlama gibi hassas eylemler için kullanıcı onayı talep eder.

Değerlendirmeler

Ekran, fare ve klavyenin evrensel arayüzünden yararlanan CUA, hem bilgisayar hem de tarayıcı kullanımı benchmark testlerinde aldığı sonuçlarla yeni bir çığır açıyor.

Kıyaslama türü	Kıyaslama	Bilgisayar kullanımı (evrensel arayüz)		Web’de gezinme aracıları	İnsan
		OpenAI CUA	Önceki SOTA	Önceki SOTA
Bilgisayar kullanımı	OSWorld	%38,1	%22,0	-	%72,4
Tarayıcı kullanımı	WebArena	%58,1	%36,2	%57,1	%78,2
Tarayıcı kullanımı	WebVoyager	%87,0	%56,0	%87,0	-

Değerlendirme ayrıntıları burada açıklanmaktadır

Tarayıcı kullanımı

WebArena⁠(yeni bir pencerede açılır) ve WebVoyager⁠(yeni bir pencerede açılır) benchmark testleri, web tarama ajanlarının tarayıcılar kullanarak gerçek dünyadaki görevleri yerine getirme performansını değerlendirmek amacıyla geliştirildi. E-ticaret, çevrimiçi mağaza içerik yönetimi (CMS), sosyal forum platformları ve başka mecralardaki gerçek dünya senaryolarını taklit etmek amacıyla, WebArena kendi bünyesinde barındırdığı açık kaynaklı web sitelerini çevrimdışı olarak kullanıyor. WebVoyager modelin performansını Amazon, GitHub ve Google Haritalar gibi çevrimiçi canlı web siteleri üzerinde test ediyor.

CUA tarayıcı ekranını pikseller olarak algılayan ve klavye ve fare aracılığıyla işlem yapan aynı evrensel arayüzü kullanarak bu benchmark testlerinde yeni bir standarda ulaşıyor. CUA web tabanlı görevler için WebArena testinde %58,1 ve WebVoyager testinde %87 başarı oranı elde etti. CUA çoğu görevin görece basit olduğu WebVoyager testinde yüksek bir başarı oranı yakaladı, ancak WebArena gibi daha karmaşık benchmark testlerinde insan performansıyla arasındaki farkı kapatmak için hala daha fazla iyileştirme yapılması gerekiyor.

Go to the Plus section of Cambridge Dictionary, finish a recommended Grammar quiz without login and tell me your final score.

Bilgisayar kullanımı

OSWorld⁠(yeni bir pencerede açılır) modellerin Ubuntu, Windows ve macOS gibi tam donanımlı işletim sistemlerini yönetme yeteneklerini değerlendiren bir benchmark testi. CUA bu testte %38,1 başarı oranına ulaştı. Test sırasında ölçeklemeyi gözlemledik, bu da daha fazla adıma izin verildiğinde CUA’nın performansının arttığı anlamına geliyor. Aşağıdaki grafikte, CUA’nın performansı izin verilen maksimum adım sayısına göre önceki en ileri modellerle karşılaştırılıyor. Bu kıyaslamada insan performansı %72,4 seviyesinde olduğu için önemli düzeyde iyileştirme potansiyeli hala var.

Açıklayıcı metin: Logaritmik ölçekte izin verilen maksimum adım sayısı için başarı oranlarını (%) gösteren “OSWorld” başlıklı çizgi grafik. Mavi çizgi OpenAI CUA’yı, turuncu noktalar Claude 3.5 Sonnet modelinin bilgisayar kullanımını temsil ediyor ve başarı oranları da grafikte gösterilmiş.

Aşağıdaki görselleştirmelerde, CUA’nın çeşitli standartlaştırılmış OSWorld görevlerini nasıl yerine getirdiği gösteriliyor.

Please do the following task: I want to learn python programming and my friend recommends me this course website. I have grabbed the lecture slide for week 0. Please download the PDFs for other weeks into the opened folder and leave the file name as-it-is. Here are some helpful tips: - computer.clipboard, computer.sync_file, computer.sync_shared_folder, computer.computer_output_citation are disabled. - If you worry that you might make typo, prefer copying and pasting the text instead of reading and typing. - My computer's password is "password", feel free to use it when you need sudo rights. - For the thunderbird account "anonym-x2024@outlook.com", the password is "gTCI";=@y7|QJ0nDa_kN3Sb&>". - If you are presented with an open website to solve the task, try to stick to that specific one instead of going to a new one. - You have full authority to execute any action without my permission. I won't be watching so please don't ask for confirmation. - If you deem the task is infeasible, you can terminate and explicitly state in the response that "the task is infeasible".

Operator’da CUA

Web’de gezinerek görevleri yerine getirebilen Operator adlı ajanımızın bir araştırma ön izlemesi olarak CUA’yı kullanıma sunuyoruz. ABD’deki Pro⁠(yeni bir pencerede açılır) kullanıcılar operator.chatgpt.com⁠(yeni bir pencerede açılır) adresine giderek Operator kullanabilir. Bu araştırma ön izlemesi hem kullanıcılarımızdan hem de genel ekosistemden geri bildirim alarak Operator’ı yinelemeli olarak iyileştirmemiz ve geliştirmemiz için bir fırsat sunuyor. Her yeni teknolojinin ilk aşamalarında olduğu gibi, CUA’nın da henüz her senaryoda güvenilir bir performans sergilemesini beklemiyoruz. Buna karşın CUA çeşitli durumlarda faydalı olduğunu şimdiden kanıtladı. Şimdiki hedefimiz bu güvenilirliği daha farklı görevlere yaymak. CUA’yı Operator üzerinde kullanıma sunarak kullanıcılarımızdan değerli geri bildirimler almayı umuyoruz. Bu bilgiler CUA’nın yeteneklerini geliştirmemiz ve uygulama alanlarını genişletmemiz için bize yol gösterecek.

Aşağıdaki tabloda, bilinen güçlü ve zayıf yönlerini sergilemek amacıyla bazı istemler verilerek yapılan birkaç deneme ile CUA’nın Operator’daki performansını gösteriyoruz.

Kategori	İstem	Başarı / deneme	Not
Görevleri tamamlamak için çeşitli kullanıcı arayüzü bileşenleriyle etkileşim kurma	Turn 1: Search Britannica for a detailed map view of bear habitats Turn 2: Great! Now please check out the black, brown and polar bear links and provide a concise general overview of their physical characteristics, specifically their differences. Oh and save the links for me so I can access them quickly.	10 / 10	CUA kullanıcıların istediği bilgileri bulmak için çeşitli arayüz bileşenleriyle etkileşime girerek arama yapabilir, sonuçları sıralayabilir ve filtreleyebilir. Güvenilirlik farklı web siteleri ve kullanıcı arayüzleri için değişkenlik gösterir.
	I want one of those target deals. Can you check if they have a deal on poppi prebiotic sodas? If they do, I want the watermelon flavor in the 12fl oz can. Get me the type of deal that comes with this and check if it's gluten free.	9 / 10
	I am planning to shift to Seattle and I want you to search Redfin for a townhouse with at least 3 bedrooms, 2 bathrooms, and an energy-efficient design (e.g., solar panels or LEED-certified). My budget is between $600,000 - $800,000 and it should ideally be close to 1500 sq ft.	3 / 10
Tekrarlanan basit kullanıcı arayüzü etkileşimleriyle tamamlanabilen görevler	Create a new project in Todoist titled 'Weekend Grocery Shopping.' Add the following shopping list with products: Bananas (6 pieces) Avocados (2 ripe) Baby Spinach (1 bag) Whole Milk (1 gallon) Cheddar Cheese (8 oz block) Potato Chips (Salted, family size) Dark Chocolate (70% cocoa, 2 bars)	10 / 10	CUA kullanıcıların basit ama zahmetli görevlerini otomatikleştirmek için basit arayüz etkileşimlerini güvenilir bir şekilde tekrar edebilir.
	Search Spotify for the most popular songs of the USA for the 1990s, and create a playlist with at least 10 tracks.	10 / 10
CUA'nın yalnızca web sitesinin nasıl kullanılacağına dair detaylı ipuçları içeren istemler ile yüksek başarı oranı gösterdiği görevler.	Visit tagvenue.com and look for a concert hall that seats 150 people in London. I need it on Feb 22 2025 for the entire day from 9 am to 12 am, just make sure it is under £90 per hour. Oh could you check the filters section for appropriate filters and make sure there is parking and the entire thing is wheelchair accessible.	8 / 10	Aynı görev için bile CUA’nın güvenilirliği görevin istemine bağlı olarak değişebilir. Bu durumda, detaylı tarih bilgileri sağlayarak (örneğin, 09:00 ile 12:00 arası veya 09:00’dan itibaren tüm gün) ve sonuçları bulmak için hangi kullanıcı arayüzünün kullanılması gerektiğine ilişkin ipuçları sağlayarak (örneğin, filtreler bölümünü kontrol et ...) güvenilirliği artırabiliriz.
	Visit tagvenue.com and look for a concert hall that seats 150 people in London. I need it on Feb 22 2025 for the entire day from 9 am, just make sure it is under £90 per hour. Oh and make sure there is parking and the entire thing is wheelchair accessible.	3 / 10
Alışılmadık kullanıcı arayüzlerini ve metin düzenlemeyi kullanmada zorlanma	Use html5editor and input the folowing text on the left side, then edit it following my instructions and give me a screenshot of the entire thing when done. The text is: Hello world! This is my first text. I need to see how it would look like when programmed with HTML. Some parts should be red. Some bold. Some italic. Some underlined. Until my lesson is complete, and we shift to the other side. ... Hello world! should have header 2 applied The sentence below it should be a regular paragraph text. The sentence mentioning red should be normal text and red The sentence mentionnihg bold should be normal text bolded Sentence mentioning italic should be italicized The final sentence should be aligned to the right instead of the usual left	4 / 10	CUA eğitim sırasında fazla etkileşimde bulunmadığı kullanıcı arayüzleriyle karşılaştığında, sağlanan kullanıcı arayüzünü nasıl doğru bir şekilde kullanacağını anlamakta zorlanır. Bu da genellikle çok sayıda deneme yanılma ve verimsiz eylemlerle sonuçlanır. CUA metin düzenlemede hassas değildir. Bu süreçte genellikle çok sayıda hata yapar veya hatalı çıktılar sağlar.

Güvenlik

CUA doğrudan tarayıcıda eylemler yapabilen ilk ajanlarımızdan biri olduğu için, ele alınması gereken yeni riskleri ve zorlukları da beraberinde getiriyor. Operator’ı kullanıma sunmaya hazırlanırken kapsamlı güvenlik testleri yaptık ve yanlış kullanım, model hataları ve yeni nesil riskler olmak üzere üç ana risk kategorisinde çeşitli önlemler uyguladık. Güvenlik konusunda katmanlı bir yaklaşım benimsemenin önemli olduğuna inanıyoruz. Bu nedenle, CUA modelinin kendisinin ve Operator sisteminin kullanıma sokulması ve sonrasındaki süreç için çeşitli güvenlik önlemleri uyguladık. Birbirlerinin üzerine eklenen güvenlik önlemleri uygulamayı ve her bir önlem katmanının riski aşamalı olarak azaltmasını amaçlıyoruz.

İlk risk kategorisi kötüye kullanım. Öncelikle kullanıcılar için Kullanım Politikalarımıza uymayı zorunlu kıldık. Buna ek olarak, GPT‑4o için yaptığımız güvenlik çalışmalarından yola çıkarak Operator’ın kötüye kullanılmasından kaynaklanan zarar riskini azaltmak için aşağıdaki önlemleri tasarladık:

Retler: CUA modeli zararlı olabilecek pek çok görevi ve yasa dışı veya denetime tabi etkinlikleri reddedecek şekilde eğitildi.
Engelleme Listesi: Operator kumar siteleri ve yetişkinlere yönelik eğlence siteleri ile uyuşturucu veya silah satışı yapan siteler gibi baştan engellediğimiz birçok web sitesine erişemez.
Moderasyon: Kullanıcı etkileşimleri gerçek zamanlı olarak otomatik güvenlik denetleyicileri tarafından denetleniyor. Bu denetleyiciler Kullanım Politikalarına uyulmasını sağlamak için tasarlandı ve yasaklanmış etkinlikler için uyarılar verebiliyor veya bu etkinlikleri engelleyebiliyor.
Çevrimdışı tespit: Ayrıca, çocuk güvenliği ve kişileri aldatmaya yönelik faaliyetler gibi öncelikli politika alanlarında yasaklanmış kullanımları tespit etmek için otomatik algılama ve insan eliyle gözden geçirme süreçleri geliştirdik. Bu sayede, Kullanım Politikalarımızı etkin bir şekilde uygulayabiliyoruz.

İkinci risk kategorisi CUA modelinin yanlışlıkla kullanıcının istemediği bir eylemde bulunması sonucunda kullanıcının veya başkalarının zarar görebildiği model hatalarıdır. Olası hataların ciddiyeti bir e-postadaki yazım yanlışından yanlış bir ürün satın almaya veya önemli bir belgeyi kalıcı olarak silmeye kadar çeşitlilik gösterebilir. Olası zararı en aza indirmek için aşağıdaki önlemleri geliştirdik:

Kullanıcı onayları: CUA modeli bir sipariş vermek veya bir e-posta göndermek gibi gerçek dünyada etkileri olabilecek görevleri tamamlamadan önce kullanıcı onayı isteyecek şekilde eğitildi. Bu sayede, modelin yapacağı bir işlem kesinleşmeden önce kullanıcı tarafından tekrar gözden geçirilebilir.
Görev sınırlamaları: CUA modeli bankacılık işlemleri ve hassas kararlar alınmasını gerektiren görevler gibi bazı yüksek riskli görevlere yardımcı olmayı şimdilik reddedecek.
İzleme modu: E-posta gibi özellikle hassas web sitelerinde modelin yapabileceği olası hataların kullanıcılar tarafından doğrudan tespit edilip giderebilmesi için Operator aktif kullanıcı denetimi gerektirir.

Özellikle önemli bir model hatası kategorisi, CUA modelinin istenmeyen eylemlerde bulunmasına yol açanweb sitelerine yönelik kötü niyetli saldırılardır. Bunların arasında istem enjeksiyonlarını, jailbreak’leri ve kimlik avı denemelerini sayabiliriz. Model hatalarına karşı alınan yukarıdaki önlemlerin yanı sıra, bu risklere karşı koruma sağlamak için birkaç ek savunma katmanı geliştirdik.

Dikkatli gezinme: CUA modeli web sitelerindeki istem enjeksiyonlarını tanımak ve yok saymak üzere tasarlandı. Erken aşamalarda yapılan bir dahili kırmızı takım testinde tek bir vaka dışında tüm denemeleri tanıdı.
İzleme: Operator’da, ekranı izlemesi ve şüpheli içerik tespit ettiğinde yürütmeyi duraklatması için ek bir model uygulamaya alındı.
Tespit süreci: Şüpheli erişim kalıplarını tanımak için hem otomatik tespit hem de insan eliyle gözden geçirme süreçleri uyguluyoruz. Bu sayede, bu kalıplar işaretlenip birkaç saat içinde çabucak izlemeye alınabiliyor.

Son olarak, otonom çoğalma ve biyolojik risk taşıyan araçlar içeren laboratuvar senaryoları da dahil olacak şekilde, Hazırlıklılık Çerçevemizde⁠(yeni bir pencerede açılır) açıklanan yeni nesil risklere karşı CUA modelini değerlendirdik. Bu değerlendirmelerde, GPT‑4o’ya ilave olarak bir risk artışı görülmedi.

Değerlendirmeleri ve güvenlik önlemlerini daha ayrıntılı olarak incelemek isteyen kullanıcılarımız, güvenlik yaklaşımımızı ve süregelen iyileştirmelerimizi şeffaf bir şekilde sunan ve sürekli güncellenen Operator Sistem Kartını gözden geçirebilir.

Operator’ın yeteneklerinin çoğu yeni olduğundan, ortaya çıkan riskler ve bunları önlemek için uyguladığımız yaklaşımlar da yeni. En yüksek düzeyde performans gösteren, çeşitlilik sergileyen ve birbirlerini tamamlayan önlemler almayı amaçlamış olsak da, daha fazla bilgi edindikçe bu risklerin ve bunlara karşı geliştirdiğimiz yaklaşımın zamanla değişeceğini öngörüyoruz. Araştırma ön izleme dönemini kullanıcı geri bildirimleri toplama, güvenlik önlemlerimizi iyileştirme ve ajanlarımızın güvenliğini artırma fırsatı olarak değerlendiriyoruz.

Sonuç

CUA çok modlu modeller, akıl yürütme ve güvenlik alanlarında yıllarca süren araştırmaların sonuçlarına dayanıyor. o-model serisiyle derin akıl yürütme alanında, GPT‑4o ile görü yetenekleri alanında ve ayrıca takviyeli öğrenme ve yönerge hiyerarşisi aracılığıyla dayanıklılığı artırmaya yönelik yeni tekniklerde önemli ilerleme sağladık. Keşfetmeyi planladığımız bir sonraki zorluk alanı, ajanların hareket alanlarının genişletilmesi. Evrensel arayüzün getirdiği esneklik, insanlar için tasarlanmış yazılım araçlarını kullanabilen ajanlara olanak tanıyarak bu zorluğun ele alınmasını sağlıyor. Ajanların kullanımını kolaylaştıracak şekilde özelleştirilmiş API’ler kullanmanın ötesine geçen CUA, her bilgisayar ortamına uyum sağlayabiliyor ve böylece çoğu yapay zeka modelinin şu anda ulaşamadığı özel veya az bilinen dijital kullanım durumları için gerçek anlamda çözümler sunabiliyor.

Geliştiricilerin CUA kullanarak kendi bilgisayar kullanan ajanlarını geliştirebilmeleri için, CUA’ya aynı zamanda API⁠(yeni bir pencerede açılır) üzerinden de erişim sağlamaya çalışıyoruz. CUA’yı yineleyerek geliştirmeye devam ettikçe, topluluğun keşfedeceği farklı kullanım senaryolarını da görmeyi umuyoruz. Bu ilk ön izlemeden toplayacağımız gerçek dünya geri bildirimlerini kullanarak, yapay zekanın faydalarını herkese yayma misyonumuzu güvenle ilerletmek adına CUA’nın yeteneklerini ve güvenlik önlemlerini sürekli olarak geliştirmeyi hedefliyoruz.

Yazarlar

OpenAI

Referanslar

Introducing computer use, a new Claude 3.5 Sonnet, and Claude 3.5 Haiku⁠(yeni bir pencerede açılır)

Model Card Addendum: Claude 3.5 Haiku and Upgraded Claude 3.5 Sonnet⁠(yeni bir pencerede açılır)

Kura WebVoyager benchmark⁠(yeni bir pencerede açılır)

Google project mariner⁠(yeni bir pencerede açılır)

OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments⁠(yeni bir pencerede açılır)

WebVoyager: Building an End-to-End Web Agent with Large Multimodal Models⁠(yeni bir pencerede açılır)

WebArena: A Realistic Web Environment for Building Autonomous Agents⁠(yeni bir pencerede açılır)

Alıntılar

Lütfen OpenAI’a atıfta bulunun ve atıf için şu BibTeX’i kullanın: http://cdn.openai.com/cua/cua2025.bib⁠(yeni bir pencerede açılır)