OpenAI, yapay zeka modellerini manipüle eden saldırılara karşı Atlas platformunu koruma altına aldı. Şirket prompt injection olarak bilinen siber saldırı yöntemine karşı talimat hiyerarşisi sistemini devreye soktu. Bu yeni mimari ile yapay zeka kullanıcıdan gelen komutları sistemin kendi kurallarından ayırıyor ve güvenliği en üst seviyeye çıkarıyor.
Atlas için güvenlik hiyerarşisi devrede
Yapay zeka modellerinin yaygınlaşmasıyla birlikte bu sistemleri suistimal eden girişimler de artış gösteriyor. Sektörün öncü ismi OpenAI, yapay zekanın en zayıf noktası olarak görülen komut manipülasyonu saldırılarına karşı savunma hattını güncelledi.

Şirket veri işleme ve araç kullanımı süreçlerini yöneten Atlas isimli iç platformunda kapsamlı bir güvenlik katmanı oluşturdu. Bu hamleyle birlikte modellerin dışarıdan gelen zararlı komutlar ile sistemin asıl talimatlarını birbirine karıştırması sorunu ortadan kalktı.
Prompt injection saldırıları bir yapay zeka modeline sistem kurallarını çiğnetecek hileli komutlar verilmesi esasına dayanıyor. Kötü niyetli kişiler bir özetleme aracına tüm önceki talimatları unutması ve gizli verileri açıklaması yönünde komutlar göndererek güvenliği devre dışı bırakmaya çalışıyor.
OpenAI bu durumu engellemek adına Atlas bünyesinde talimat hiyerarşisi adını verdiği yeni bir mimariyi hayata geçirdi. Bu sistemde geliştiriciden gelen ana sistem komutları en yüksek öncelik seviyesinde bulunuyor. Kullanıcıdan gelen girdiler ise daha düşük bir güven seviyesinde işleme alınıyor.
OpenAI mühendisleri tarafından güncellenen Atlas platformu, dış dünyadan gelen verileri otomatik olarak şüpheli şeklinde kodluyor. Bu sayede yapay zeka modeli bir metni analiz ederken veya bir kodu incelerken, verinin içindeki gizli komutları yürütmüyor. Model, gelen veriyi sadece bir nesne olarak görüyor ve üzerinde işlem yapıyor.
Bu teknik altyapı sadece metin tabanlı saldırıları engellemekle kalmıyor, aynı zamanda yapay zekanın internete eriştiği veya üçüncü taraf araçları kullandığı senaryolarda da riskleri en aza indiriyor.



