Anasayfa Haber İşlemciler Yeni Algoritma İle Yapay Zeka İşlerinde GPU’ları Yeniyor

İşlemciler Yeni Algoritma İle Yapay Zeka İşlerinde GPU’ları Yeniyor

Yazar

12 Nisan 2021

Yeni bir algoritma, işlemcilerin yapay zeka işlerinde GPU’lardan daha iyi performans ortaya koymasını sağlıyor.

Yapay zeka derin sinir ağları (DNN) eğitimi söz konusu olduğunda, grafik işleme birimlerinin (GPU) çoğu işlemciden (CPU) önemli ölçüde daha iyi olduğu biliniyor. Bunda daha fazla yürütme birimine veya çekirdeğe sahip olmaları önemli bir etken. Rice Üniversitesi bilgisayar bilimcileri ise sundukları yeni bir algoritma ile işlemcileri yapay zeka işlerinde bazı öncü GPU’lardan 15 kat daha hızlı hale getirdiklerini iddia etti.

En karmaşık hesaplama zorlukları genellikle daha fazla donanım veya görevi çözebilecek özel amaçlı donanım icatları ile çözülüyor. DNN eğitimi de günümüzde en yoğun bilgi işlem gerektiren iş yükleri arasında yer alıyor. Bundan dolayı programcılar, maksimum eğitim performansı istiyorlarsa, bu iş yükleri için GPU’ları kullanıyor. Çoğu algoritma matris çarpımlarına dayandığından, hesaplama GPU’larını kullanarak yüksek performans elde etmek daha kolay.

Rice Üniversitesi Brown Mühendislik Okulu’nda bilgisayar bilimi profesörü olan Yardımcı Doçent Anshumali Shrivastava ve meslektaşları ise modern AVX512 ve AVX512_BF16 etkin işlemcilerde DNN eğitimini büyük ölçüde hızlandırabilecek bir algoritma sunmuş durumda. Bilim insanları bunun için SLIDE (Sub-LInear Deep Learning Engine) adlı akıllı hash rasgele algoritmalarını işlemci üzerinde mütevazı çok çekirdekli paralellik ile birleştiren ve Intel AVX512 ile AVX512-bfloat16 destekleyen işlemciler için yoğun bir şekilde optimize eden C ++ OpenMP tabanlı bir motoru kullanıyor.

Motor, her güncelleme sırasında uyarlamalı olarak nöronları tanımlamak için LSH /Cocality Sensitive Hashhing) kullanıyor ve bu hesaplama performansı gereksinimlerini optimize ediyor. Araştırmaya göre değişiklik yapılmasa dahi, duvar saati süresi açısından 200 milyon parametreli bir sinir ağını eğitmenin bir NVIDIA V100 GPU’da optimize edilmiş TensorFlow uygulamasından daha hızlı olabileceği ifade ediliyor.

Hashing’i daha hızlı hale getirmek için, bilim insanları algoritmayı vektörleştirip nicelleştiriyor. Böylece Hashing, AVX512 ve AVX512_BF16 motorları tarafından daha iyi işlenebiliyor. Ek olarak, bazı bellek optimizasyonları da uygulanmış. Ekip, matris çarpımlarına takılıp kalınmaması durumunda modern işlemcilerin gücünden yararlanılabileceğini ve yapay zeka modellerini en iyi özel donanımlardan 4 ila 15 kat daha hızlı eğitebileceklerini gösterdiklerinin altını çizmiş.

Amazon-670K, WikiLSHTC-325K ve Text8 veri kümeleriyle elde ettikleri sonuçlar, optimize edilmiş SLIDE motoruyla gerçekten oldukça umut verici gözüküyor. Intel Cooper Lake (CPX) işlemcisi, NVIDIA Tesla V100’ü Amazon-670K ile yaklaşık 7.8 kat, WikiLSHTC-325K ile yaklaşık 5.2 kat ve Text8 ile yaklaşık 15.5 kat geride bırakabiliyor. Hatta optimize edilmiş bir Cascade Lake (CLX) işlemci bile NVIDIA Tesla V100’ünden 2.55–11.6 kat daha hızlı olabiliyor.

IBM’in yapay zeka sistemiyle antibiyotik üretilmesini sağladığını da hatırlatalım.