Ana içeriğe atla
OpenAI

Bu sayfadaki tüm videolar doğrudan Sora tarafından üretildi ve üzerlerinde hiçbir değişiklik yapılmadı.

Yükleniyor...

Yapay zekaya hareket hâlindeki fiziksel dünyayı anlamayı ve canlandırmayı öğretiyoruz. Amacımız, gerçek dünyayla etkileşim gerektiren sorunları çözmede insanlara yardımcı olacak modeller geliştirmek.

Metinden video üretebilen modelimiz Sora ile tanış. Sora, görsel kaliteden ödün vermeden kullanıcının istemlerine uyarak en fazla bir dakika uzunluğunda videolar oluşturabiliyor.

Bugün Sora, olası zarar veya riskleri değerlendirmeleri için kırmızı takım uzmanlarının erişimine açılıyor. Ayrıca modeli, yaratıcı profesyoneller için nasıl daha faydalı hâle getirilebileceğimize ilişkin geri bildirimlerini öğrenmek amacıyla görsel sanatçılar, tasarımcılar ve film yapımcılarından oluşan bir gruba da erişim sağlıyoruz.

Araştırmalarımızın geldiği noktayı erkenden paylaşıyor ve böylece OpenAI dışından paydaşlarla iş birliğine başlayıp geri bildirim almayı ve kamuoyuna yapay zekanın yakın gelecekte neler yapabileceğini gösterebilmeyi amaçlıyoruz.

Sora, birden çok karakterin bulunduğu karmaşık sahneleri, belirli türlerdeki hareketleri ve hem öznenin hem de arka planın doğru detaylarını oluşturabiliyor. Üstelik sadece kullanıcının istemde yazdıklarını değil, o unsurların fiziksel dünyada nasıl yer aldığını da anlar.

Model, dili derinlemesine anlayabilme yeteneği sayesinde istemleri doğru şekilde yorumlayabiliyor ve duyguları etkileyici bir biçimde yansıtan gerçekçi karakterler oluşturabiliyor. Sora ayrıca, tek bir videoda birden fazla sahne oluşturarak hem karakterleri hem de görsel tarzı tutarlı biçimde devam ettirebiliyor.

Mevcut modelin hâlâ biraz daha geliştirilmesi gerekiyor. Model, karmaşık bir sahnede fizik kurallarını simüle etmekte zorlanabiliyor ve belirli neden-sonuç ilişkilerini tam olarak kavrayamayabiliyor. Örneğin, bir karakter bir kurabiyeyi ısırdığında kurabiyede ısırık izi görünmeyebiliyor. Ayrıca, istemde belirtilen mekânsal ayrıntıları karıştırabiliyor (ör. bazen sağ ve solu ayırt edemeyebiliyor) ya da olayların zaman içindeki ilerleyişini (ör. kamera geçişleri) tam doğrulukla betimlemekte zorlanabiliyor.

Safety

Sora’yı OpenAI ürünlerinde kullanıma sunmadan önce bazı önemli güvenlik önlemleri alacağız. Bilgi kirliliği, nefret söylemi ve ön yargı gibi alanlarda uzmanlaşmış kırmızı takım üyeleriyle birlikte çalışarak modeli, çekişmeli testlere tabi tutuyoruz.

Yanıltıcı içerikleri belirlemeye yardımcı olması amacıyla, Sora tarafından üretilmiş videoları tespit edebilen bir sınıflandırıcı gibi araçlar da geliştiriyoruz. Modeli gelecekte bir OpenAI ürününde kullanıma sunmamız durumunda C2PA üstverisi(yeni bir pencerede açılır) eklemeyi de planlıyoruz.

Dağıtıma hazırlık amacıyla geliştirdiğimiz yeni tekniklere ek olarak, DALL·E 3 kullanan ürünlerimiz için tasarladığımız ve Sora için de uyarlanabilen mevcut güvenlik yöntemlerinden(yeni bir pencerede açılır) faydalanıyoruz.

Örneğin, Sora bir OpenAI ürününe entegre edildiğinde metin sınıflandırıcımız; aşırı şiddet, cinsel içerik, nefret söylemi içeren görüntüler, ünlülere benzeyen görseller ya da telifli içerikler gibi kullanım politikalarımızı ihlal eden taleplere yönelik metin tabanlı istemleri denetleyip reddedecek. Ayrıca oluşturulan her videoyu kare kare inceleyen etkili görsel sınıflandırıcılar geliştirdik; böylece kullanıcıya gösterilmeden önce içeriklerin kullanım politikalarımıza uygun olup olmadığı kontrol ediliyor.

Dünya genelindeki yasa yapıcılar, eğitimciler ve sanatçılarla iş birliği yaparak onların endişelerini anlamaya ve bu yeni teknolojinin olumlu kullanım alanlarını belirlemeye çalışacağız. Kapsamlı araştırma ve testlere rağmen insanların, teknolojimizi ne gibi yararlı şekillerde kullanacağını ya da nasıl kötüye kullanabileceğini tümüyle öngörebilmemiz mümkün değil. İşte bu yüzden, gerçek kullanıcı deneyimlerinden öğrendiklerimizin, zamanla daha güvenli yapay zeka sistemleri geliştirmek için hayati önem taşıdığını düşünüyoruz.

Araştırma teknikleri

Bir difüzyon modeli olan Sora, video üretimine önce karıncalı bir görüntüyle başlar; sonra bunu adım adım temizleyerek gerçek bir video oluşturur.

Sora, videoları baştan sona tek seferde oluşturmanın yanı sıra mevcut videoları devam ettirerek daha uzun hâle de getirebilir. Modele aynı anda çok sayıda kareyi “önceden görme” yeteneği kazandırarak, oldukça zorlu bir problemi çözdük ve öznenin geçici olarak kadrajdan çıktığı durumlarda bile tutarlılığını korumayı başardık.

Sora, GPT modellerine benzer şekilde Transformer Mimarisi kullandığı için ölçeklenebilirlik konusunda üstün bir performans sunuyor.

Videoları ve görselleri, her biri GPT’deki bir tokene benzeyen, yama adlı küçük veri birimlerinden oluşan gruplar olarak gösteriyoruz. Veri gösterimini ortaklaştırmamız sayesinde, difüzyon tabanlı transformer modellerini artık farklı uzunluklarda, çözünürlüklerde ve en-boy oranlarında çok daha çeşitli görsel veriler kullanarak eğitebiliyoruz.

Sora, DALL·E ve GPT modellerine yönelik önceki çalışmaları temel alarak bu doğrultuda ilerlemeye katkıda bulunuyor. Model, DALL·E 3’ün, görsel eğitim verileri için son derece ayrıntılı açıklamalar üretmeyi içeren açıklama detaylandırma tekniğinden faydalanıyor. Bu sayede, video üretirken kullanıcının metin talimatlarına çok daha doğru ve tutarlı bir şekilde uyabiliyor.

Model, sadece yazılı talimatlardan video oluşturmakla kalmayıp aynı zamanda mevcut bir durağan görüntünün içeriğini, ufak ayrıntıları dikkate alındığı bir doğrulukla canlandırarak da video üretebiliyor. Ayrıca, mevcut bir videoyu uzatabiliyor veya eksik kareleri tamamlayabiliyor. Daha fazla bilgi için teknik raporumuza göz atabilirsin.

Sora, gerçek dünyayı anlayıp canlandırabilen modeller için bir temel işlevi görüyor. Bu yeteneğin, AGI’ye ulaşma yolunda önemli bir kilometre taşı olacağına inanıyoruz.

Yükleniyor...