Apple yapay zeka alanındaki sessizliğini önemli bir adımla bozdu. Şirketin araştırmacıları metin tabanlı komutlarla fotoğraf düzenleme yeteneklerini ileriye taşımak üzere özel olarak tasarlanmış, 400.000’den fazla özenle seçilmiş görselden oluşan kapsamlı bir veri setini kamuoyuna sundu. Pico-Banana-400K olarak adlandırılan bu devasa koleksiyon yapay zeka destekli görsel düzenleme sistemlerinin eğitiminde yeni bir standart oluşturma potansiyeli taşıyor.
Apple, 400.000 görsel içeren yeni veri setiyle yapay zeka destekli fotoğraf düzenlemeyi yeniden şekillendiriyor
Yayınlanan araştırma raporlarına göre, bu yeni veri seti mevcut yapay zeka görsel düzenleme eğitimlerindeki önemli bir boşluğu dolduruyor. GPT-4o gibi sistemler etkileyici düzenlemeler yapabilse de araştırmacılar ilerlemenin gerçek fotoğraflardan oluşturulmuş yetersiz eğitim verileri nedeniyle sınırlı kaldığını belirtiyor. Pico-Banana-400K, bu durumu değiştirmek üzere geliştirildi.

Veri seti sekiz ana kategori altında toplanmış 35 farklı düzenleme türünü içeriyor. Bu düzenlemeler renk değişiklikleri gibi temel ayarlamalardan, fotoğraftaki kişileri Pixar tarzı karakterlere veya LEGO figürlerine dönüştürmek gibi karmaşık dönüşümlere kadar geniş bir yelpazeyi kapsıyor.
Her bir görselin kalite kontrolü Apple’ın kendi geliştirdiği yapay zeka destekli bir sistem tarafından gerçekleştirildi. Sonuçların değerlendirilmesinde ise, talimatlara uygunluk ve teknik kalite gibi kriterler baz alınarak Google’ın Gemini-2.5-Pro modelinden yararlanıldı. Bu çapraz platform değerlendirme süreci, veri setinin objektifliğini ve güvenilirliğini artırıyor. Pico-Banana-400K ayrıca üç özel alt küme barındırıyor. Bunlardan ilki, temel eğitim için kullanılan 258.000 tekli düzenleme örneğini içeriyor.
İkinci alt küme, başarılı ve başarısız düzenlemeleri karşılaştıran 56.000 tercih çiftinden oluşuyor; bu, yapay zekanın “iyi” ve “kötü” sonuçları ayırt etmesini sağlıyor. Üçüncü ve son alt küme ise, görsellerin birden fazla ardışık düzenleme ile nasıl evrildiğini gösteren 72.000 çok adımlı diziden meydana geliyor. Bu katmanlı yapı, modellerin daha karmaşık ve sıralı komutları anlamasına olanak tanıyor.
Veri setinin oluşturulma sürecinde Apple, birkaç ay önce piyasaya sürülen Google’ın Gemini-2.5-Flash-Image (diğer adıyla Nano-Banana) düzenleme modelini kullandı. Ancak Apple’ın araştırması, bu modelin sınırlarını da gözler önüne serdi. Rapora göre, genel stil değişiklikleri gibi görevlerde başarı oranı %93 gibi yüksek bir seviyede seyrederken, nesnelerin yerini değiştirme veya metin düzenleme gibi hassas görevlerde başarı oranının %60’ın altına düştüğü tespit edildi. Bu bulgu, mevcut modellerin özellikle yerel ve hassas düzenlemelerde hala kat etmesi gereken önemli bir mesafe olduğunu ortaya koyuyor.
Araştırmacılar, Pico-Banana-400K ile “yeni nesil metin güdümlü görüntü düzenleme modellerinin eğitimi ve karşılaştırmalı değerlendirmesi için sağlam bir temel” oluşturulduğunu ifade ediyor. Veri setinin tamamı, ticari olmayan araştırma amaçlı kullanım için GitHub üzerinden ücretsiz olarak erişime açıldı. Bu gelişme, dünya genelindeki geliştiricilerin ve araştırmacıların daha yetenekli ve hassas görüntü düzenleme yapay zekaları eğitmeleri için kritik bir kaynak niteliği taşıyor.



