Ana içeriğe atla
OpenAI

25 Eylül 2023

Ürün

ChatGPT artık görebiliyor, duyabiliyor ve konuşabiliyor

ChatGPT Artık Görebiliyor Duyabiliyor ve Konuşabiliyor

ChatGPT için yeni ses ve görüntü yeteneklerini kullanıma sunmaya başlıyoruz. Yeni ve daha sezgisel bir arayüz deneyimi sunan bu yetenekler, ChatGPT ile sesli iletişim kurmana veya bahsettiğin şeyleri ona göstermene olanak tanıyor.

Ses ve görüntü sayesinde, ChatGPT’yi hayatında kullanmanın daha farklı yollarını keşfedebilirsin. Bir seyahatteyken önemli bir yerin fotoğrafını çekebilir, ardından o yerin ilgi çekici özellikleri hakkında canlı bir konuşma yapabilirsin. Evde akşam yemeğine karar vermek için buzdolabının ve erzak dolabının fotoğraflarını çekebilir, ardından adım adım yemek tarifi için ek sorular sorabilirsin. Akşam yemeğinden sonra, çocuğunun bir matematik problemini çözmesine destek olmak için soruyu daire içine alarak fotoğrafını çekebilir ve sistemin ikinize de ipuçları vermesini sağlayabilirsin.

ChatGPT’nin ses ve görüntü yeteneklerini önümüzdeki iki hafta içinde Plus ve Enterprise kullanıcılarına sunacağız. Ses yeteneklerine iOS ve Android üzerinde ulaşılabilecek (ayarlardan etkinleştirilerek), görüntü yetenekleri ise tüm platformlarda kullanıma sunulacak.

ChatGPT ile konuş, o da sana yanıt versin

Artık asistanın ile sesini kullanarak diyalog kurabilirsin. Hareket halindeyken konuş, uyumadan önce çocuğuna okumak için bir masal iste veya akşam yemeğinde tartışılan bir konuyu çözüme kavuştur.

Sesini kullanarak asistanın ile diyalog kur.

Ses özelliğini kullanmaya başlamak için mobil uygulamada Ayarlar → Yeni Özellikler bölümüne git ve sesli konuşmaları seç. Daha sonra, ana ekranın sağ üst köşesindeki kulaklık düğmesine dokunarak beş farklı ses seçeneğinden birini tercih et.

Bu yeni ses özelliği, sadece metinden ve birkaç saniyelik örnek ses kaydından insan sesine yakın çıktılar oluşturabilen yeni bir metni konuşmaya dönüştürme modeliyle destekleniyor. Her bir sesi oluşturmak için profesyonel seslendirme sanatçılarıyla çalıştık. Ayrıca, konuştuklarını yazıya çevirmek amacıyla, açık kaynaklı konuşma tanıma sistemimiz Whisper’ı kullanıyoruz.

Yükleniyor...

Görüntüler hakkında sohbet et

Artık ChatGPT’ye bir veya daha fazla görsel gösterebilirsin. Izgaranın neden çalışmadığını çözebilir, yemek planı yapmak için buzdolabındaki malzemeleri keşfedebilir veya iş verilerine ait karmaşık bir grafiği analiz edebilirsin. Görselin istediğin bir bölümüne odaklanmak için mobil uygulamamızdaki çizim aracını kullanabilirsin.

ChatGPT’ye bir veya daha fazla görsel göster.

Başlamak için fotoğraf düğmesine dokunarak resim çek veya mevcut bir görseli seç. iOS veya Android kullanıyorsan önce artı düğmesine dokun. Bunun yanı sıra, birden fazla görsel hakkında konuşmak veya asistanını yönlendirmek için çizim aracımızdan yararlanabilirsin.

Görüntü algılama, çok modlu GPT‑3.5 ve GPT‑4 tarafından desteklenir. Bu modeller dil alanındaki akıl yürütme becerilerini hem metin hem de görüntü içeren fotoğraflar, ekran görüntüleri ve belgeler gibi çok çeşitli görsellere uygular.

Görüntü ve ses yeteneklerini aşamalı olarak kullanıma sokuyoruz

OpenAI’ın misyonu güvenli ve faydalı AGI geliştirmek. Araçlarımızı aşamalı bir şekilde kullanıma sunmanın en iyi yaklaşım olduğuna inanıyoruz. Bu hem zamanla iyileştirmeler yapmamızı, hem risk azaltma önlemlerimizi geliştirmemizi hem de herkesi gelecekteki daha güçlü sistemlere hazırlamamızı sağlıyor. Ses ve görü özellikleri içeren gelişmiş modellerde bu strateji daha da önem kazanıyor.

Ses

Sadece birkaç saniyelik gerçek konuşma örneklerinden gerçekçi sentetik sesler oluşturabilen bu yeni ses teknolojisi pek çok yaratıcı ve erişilebilirlik odaklı uygulamanın önünü açıyor. Ancak bu yetenekler kötü niyetli kişilerin kamuoyunda tanınan insanların kimliğine bürünmesi veya dolandırıcılık yapması gibi yeni riskleri de beraberinde getiriyor.

Bu yüzden, bu teknolojiyi özel bir kullanım biçimi olan sesli sohbeti desteklemek üzere kullanıyoruz. Sesli sohbet doğrudan birlikte çalıştığımız seslendirme sanatçılarıyla birlikte geliştirildi. Başkaları ile de benzer şekilde iş birliği yapıyoruz. Örneğin Spotify Sesli Çeviri(yeni bir pencerede açılır) özelliğinin pilot çalışması için bu teknolojiden yararlanıyor. Bu özellik sayesinde podcast yayıncılarının podcast’leri, yayıncıların kendi sesleriyle başka dillere çevrilebiliyor ve hikaye anlatımları daha geniş kitlelere ulaşabiliyor.

Görsel girdisi

Görü tabanlı modeller çözülmesi gereken yeni sorunlar ortaya çıkarıyor. Bunların arasında gerçek kişiler hakkındaki halüsinasyonları ve kaybın veya kazancın yüksek olduğu konularda modelin görselleri yorumlamasına bel bağlamanın ortaya çıkardığı riskleri sayabiliriz. Modeli daha geniş kitlelere sunmadan önce, aşırılıkçılık ve bilimsel yeterlilik gibi alanlardaki riskleri belirlemek amacıyla hem kırmızı takımlar hem de çok çeşitli alfa test kullanıcıları ile testler yaptık. Araştırmalarımız sonucunda, sorumlu kullanıma yönelik birkaç temel konuda uzlaştık.

Görü yeteneğinin hem kullanışlı hem de güvenli olmasını sağlamak

Diğer ChatGPT özellikleri gibi görü yeteneği de günlük yaşamında sana kolaylık sağlaması için tasarlandı. ChatGPT’nin bunu en iyi şekilde yapabilmesi de senin gördüklerini görmesine bağlı. 

Bu yaklaşımda, kullanım alanlarını ve sınırlamaları daha iyi anlamak için görme engelli bireylere yönelik ücretsiz bir mobil uygulama olan Be My Eyes ile yürüttüğümüz çalışmalardan doğrudan yararlandık. Kullanıcılar, örneğin uzaktan kumanda ayarlarıyla uğraşırken televizyona biri çıktığında olduğu gibi, arka planda insanlar bulunan görseller hakkında model ile yaptıkları genel sohbetleri faydalı bulduklarını söylediler.

Ayrıca ChatGPT’nin kişileri analiz etme ve haklarında doğrudan yargıda bulunma becerisini önemli ölçüde kısıtlamak için teknik önlemler aldık. Çünkü ChatGPT’nin çıktıları her zaman doğru olmayabiliyor ve bu gibi sistemlerin bireylerin özel yaşamına saygı duyması gerekiyor.

Bu aracın gerçek dünyada kullanımı ve alacağımız geri bildirimler bu güvenlik önlemlerini daha da iyileştirmemizi ve bunu yaparken işlevselliğini de korumamızı sağlayacak.

Modelin sınırlamalarına dair şeffaflık

Kullanıcılar özellikle araştırma gibi uzmanlık gerektiren alanlarda ChatGPT’ye başvurabilir. Modelin sınırlamaları konusunda şeffafız ve gereken doğrulama yapılmadan daha yüksek risk taşıyan kullanımlardan kaçınılmasını öneriyoruz. Ayrıca model İngilizce metinleri deşifre etmede yetkin olsa da, bazı diğer dillerde, özellikle Latin alfabesi kullanmayan dillerde kötü performans sergiliyor. İngilizce dışındaki dilleri kullanan kullanıcılarımızın ChatGPT’den bu amaçla yararlanmamasını öneriyoruz.

Güvenlik konusundaki yaklaşımımız ve Be My Eyes ile yürüttüğümüz çalışmalar hakkında daha fazla bilgiyi görsel girdisi sistem kartında bulabilirsin.

Erişim kapsamını genişleteceğiz

Plus ve Enterprise kullanıcıları önümüzdeki iki hafta içerisinde ses ve görüntü deneyimlerinden yararlanabilecek. Bunun ardından kısa bir süre içinde bu yetenekleri geliştiriciler gibi diğer kullanıcı gruplarına da sunacağız.

Yazar

OpenAI

Teşekkürler

Ses modu için temel araştırma

Alec Radford, Tao Xu, Jong Wook Kim

Görü yeteneğinin kullanıma alınması için temel araştırma

Raul Puri, Jamie Kiros, Hyeonwoo Noh, Long Ouyang, Sandhini Agarwal

GPT-4V(ision) teknik çalışmalarını ve yazarları görüntüle