Anasayfa Haber İstenen Görseli Oluşturabilen Yapay Zeka: DALL-E 2

İstenen Görseli Oluşturabilen Yapay Zeka: DALL-E 2

Yazar

15 Nisan 2022

Yapay zeka araştırmalarıyla bilinen OpenAI, metin açıklamalarından çarpıcı görüntüler üretebilen yapay zeka DALL-E 2 ile yeni bir başarıya imza attı. Geçen senenin başında çıkan ilk sürümünün üzerine geliştirilen DALL-E 2, gelişmiş derin öğrenme teknikleri ve yapay sinir ağları sayesinde insan hayalini yorumlama yeteneğiyle ilgilerin odağı haline gelmiş durumda. Dilerseniz sunduğu yenilikler ve öne çıkan yanlarıyla DALL-E 2’ye daha yakından bakalım.

San Francisco’daki OpenAI laboratuvarında doğan DALL-E 2’nin en büyük niteliği Generative Adversarial Network (GAN) olarak bilinen makine öğrenimi modelini kullanmasında saklı. Çalışma şekli bakımından Türkçeye Çekişmeli Üretici Ağ olarak çevrilen bu model, son yıllarda muazzam gelişmelere sahne oldu. Bu gelişmelere herkesin bildiği Deepfake’i örnek gösterebiliriz. GAN, şimdi ise DALL-E 2’ye güç vererek bir metin açıklamasıyla uyuşan olağanüstü görseller oluşturmanın önünü açıyor. Peki Çekişmeli Üretici Ağlar nedir ve nasıl çalışıyor buna kısa bir bakış atalım.

Günümüzde Apple’ın özel projeler grubunda makine öğrenimi yöneticisi olarak çalışan Ian Goodfellow’un 2014 yılında tasarladığı GAN, temel olarak üretici ve ayırt edici olarak isimlendirilen iki yapay sinir ağının birbiriyle yarışması esasına dayanıyor. Bu sistemi bir örnek üzerinden ele alarak GAN’a köpek görselleri ürettirmek istediğimizi varsayalım. İlk başta yapay zekaya köpeklerin ne olduğunu öğretmemiz gerektiğinden kendisine çok sayıda gerçek köpek görseli sunmamız gerekiyor. Ardından GAN’ın bünyesindeki üretici ağ, köpeklerin fiziksel yapısını öğrendiği için görsel üretimine başlayabilir. Üretilen her görsel daha sonraki süreçte ayırt edici ağa aktarılır ve burada gerçek ve yapay sinir ağının ürettiği sahte görseller karşılaştırılarak ayırt edilir. Çok kısa zaman içerisinde gerçekleşen bu işlemler devam ettikçe üretici ve ayırt edici ağ arasındaki rekabet kızışır, bu iki yapay sinir ağı da yetenek açısından gelişmeye başlar. Yani, ayırt edici ağ gittikçe sahte görselleri daha doğru belirlerken, üretici ağ ise buna karşılık çok daha gerçekçi sahte görseller üretir.

DALL-E 2'nin Oluşturduğu Görseller

1 - 6

DALL-E’ye dönecek olursak, bu projede sadece GAN teknolojisinin kullanılmadığını belirtmekte fayda var. DALL-E 2’nin arkasındaki asıl bilim, son birkaç yılda isminden çokça bahsedilen iki gelişmiş derin öğrenme tekniği, CLIP ve Difüzyon modelleri olarak ön plana çıkıyor. Bu iki derin öğrenme tekniğinin desteğiyle DALL-E 2, oluşturduğu görüntülerdeki anlamsal tutarlılığı koruması sayesinde rakiplerinden oldukça ileride. Örneğin, “Ata binen bir astronot” açıklamasıyla DALL-E 2 tarafından yukarıdaki görsellerin oluşturulması, yapay zekanın dile hakimiyetini gözler önüne seriyor. Ayrıca, açıklamaların sonunda yer alan “karakalem” ve “fotogerçekçi” gibi görsellerin tarzını belirten kavramların dahi dikkate alınması ilgi çekici. OpenAI’nin kendi gerçekleştirdiği testlerle oluşturulan diğer görselleri buradaki interaktif içerikten inceleyebilirsiniz.

İlk versiyonuna kıyasla bambaşka bir hale bürünen DALL-E 2, şimdilik herkese açık değil fakat OpenAI ilk kullanım şansına erişmek isteyenler için başvuruları açtı. İlerleyen günlerde bekleme listesine kaydını yaptıranlar bu yapay zekayı deneme hakkına sahip olabilecekler. Düşüncelerinizi yorumlarda bizlerle paylaşmayı unutmayın.