Microsoft Research tarafından özellikle Windows PC platformunda yapay zeka çözümlerini test etmek için bir kıyaslama (benchmark) geliştirdiğini duyurdu. Microsoft’un GitHub sayfasında açıklanan kıyaslama, Windows Agent Arena olarak adlandırılıyor.
Windows Agent Arena, yapay zeka ajanlarının insanların genellikle kullandığı Windows uygulamalarıyla ne kadar iyi ve ne kadar hızlı etkileşim kurabileceğini test etmek için tasarlandı. Windows Agent Arena’da yapay zeka ajanlarıyla test edilen uygulamalar listesi arasında Microsoft Edge ve Google Chrome gibi web tarayıcıları, Dosya Gezgini Ayarları gibi işletim sistemi işlevleri, Visual Studio Code gibi kodlama uygulamaları, Not Defteri, Saat ve Paint gibi basit önceden yüklenmiş Windows uygulamaları ve VLC Player ile video izleme yer alıyor.
Microsoft’un açıklaması şu şekilde: “OSWorld çerçevesini, planlama, ekran anlama ve araç kullanımında ajan yetenekleri gerektiren temsili etki alanlarında 150’den fazla farklı Windows görevi oluşturmak için uyarlıyoruz. Kıyaslama ölçütümüz de ölçeklenebilir ve 20 dakika gibi kısa bir sürede tam bir kıyaslama değerlendirmesi için Azure’da sorunsuz bir şekilde paralelleştirilebilir.”
Microsoft Research ayrıca Windows Agent Arena karşılaştırma ölçütünde test etmek için Navi adlı kendi çok modlu ajanını oluşturdu. “Baktığım web sitesini bir PDF dosyasına dönüştürebilir ve ana ekranıma, yani Masaüstüne koyabilir misin?” gibi belirli metin istemleriyle görevler gerçekleştirmesi istendi. Şirket, Navi’nin ortalama %19,5’lik bir performans başarı oranına sahip olduğunu buldu. Öte yandan bu, %74,5’lik insan performans oranına kıyasla hala oldukça düşük.
Windows Agent Arena gibi bir karşılaştırma ölçütüne sahip olmak, yapay zeka ajanlarının oluşturulması için büyük bir gelişme olabilir. Böylece ajanlar iyileştirilebilir ve insan performansına daha yakın performans gösterebilirler.
Kıyaslama ölçütünün koduyla birlikte tam makaleyi GitHub üzerinden inceleyebilirsiniz.