Google Research gizlilik odaklı yapay zeka geliştirme sürecinde önemli bir adım attı. Şirket, tamamen diferansiyel gizlilik ile sıfırdan eğitilmiş en güçlü büyük dil modeli olan VaultGemma’yı duyurdu. 1 milyar parametreye sahip olan model, Hugging Face ve Kaggle üzerinden açık şekilde yayımlandı. Böylece hem araştırmacılar hem de şirketler, gizlilik koruması bulunan bu modeli doğrudan indirip kullanabilecek.
Google, gizliliği merkezine alan VaultGemma yapay zeka modelini duyurdu
VaultGemma, diferansiyel gizlilik adı verilen matematiksel bir yöntemle eğitildi. Bu yöntem kullanıcı verilerinin doğrudan hatırlanmasını engellemek için eğitim sırasında kontrollü bir şekilde gürültü ekliyor. Ancak bu yaklaşım eğitim sürecinde önemli zorluklar barındırıyor. Modelin kararlı şekilde öğrenmesini sağlamak için çok daha büyük veri grupları ve yüksek hesaplama gücü gerekiyor.


Yapılan duyuruya göre Google, DeepMind ile birlikte yürüttüğü araştırmalarda bu süreci yönetecek yeni ölçeklenme yasaları tanımladı. Bu yasalar sayesinde de gizlilik ve performans arasında en uygun dengeyi kurarak VaultGemma’yı ortaya çıkardı.
Modelin en önemli teknik özelliği yalnızca 3 milyar aktif parametreyle çalışabilmesi. Bu yapı performanstan ödün vermeden verimlilik sağlıyor. Ayrıca 256 bin token uzunluğundaki metinleri tek seferde işleyebiliyor ve RoPE yöntemleri sayesinde bu sınır 1 milyon tokene kadar çıkarılabiliyor. Bu rakam günümüzün en gelişmiş ticari yapay zeka modelleriyle aynı seviyeye ulaşıyor.
VaultGemma’nın en dikkat çekici yanlarından biri de sağladığı gizlilik güvencesi. Model ε ≤ 2.0, δ ≤ 1.1e-10 düzeyinde, yani oldukça sıkı bir gizlilik garantisiyle eğitildi. Bu garanti tek bir eğitim örneğinin model çıktıları üzerinde kayda değer bir etki bırakmasını matematiksel olarak imkansız hale getiriyor. Google’ın yaptığı testlerde VaultGemma’nın eğitim sırasında gördüğü verileri ezberlemediği ve yeniden üretemediği doğrulandı.

Performans açısından bakıldığında VaultGemma beş yıl önceki GPT-2 gibi modellerle aynı seviyede sonuçlar sunuyor. Yani gizlilik için harcanan hesaplama maliyeti halen yüksek olsa da modern diferansiyel gizlilik yöntemleri artık pratikte kullanılabilir bir noktaya gelmiş durumda. Google bu çalışmalarla birlikte topluluğa hem açık kaynaklı model hem de gelecekteki gizlilik odaklı yapay zeka geliştirmeleri için güvenilir bir yol haritası sunmuş oldu.
