NVIDIA ve AMD, yeni nesil grafik yongalarını Hot Chips 2017 fuarında detaylandırdı. Yeni nesil Vega grafik kartlarını bir süre önce çıkaran AMD’ye karşılık NVIDIA da Tesla mimarisinin yeni GPU’larını hazırlıyor.
NVIDIA Tesla V100
Tesla GV100 yongası ile inşa edilen kart, 84 SM ile 5376 CUDA çekirdeğine sahip. İçerisinde 21 milyar transistör bulunduran devre, bunların hepsini 815 milimetrekare boyutundaki çekirdeğin içinde barındırıyor. NVIDIA, karttaki 84 SM’in 80’ini kullanılabilir şekilde özellikle programlamış. Bunun nedeni ise kullanıcıların daha fazla verim alabilmesini sağlamak. Bu bağlamda toplamda kullanılan CUDA çekirdeği sayısı da 5120 oluyor. Öte yandan devrede 16 GB kapasiteli HBM2 bellek bulunuyor.
HBM2 bellek denildiğinde aklımıza ilk olarak Ağustos ayında piyasaya sürülen RX Vega kartlar geliyor. AMD, yeni bir bellek türü kullandığından stok sıkıntısı yaşıyor ve kartlardan zarar ediyor. NVIDIA’nın da yeni mimarisinde HBM2 bellek kullanması, grafik kartlarının fiyatlarını çok yüksek seviyelere çekebilir. Aynı zamanda HBM2 bellek üretimi sınırlı sayıda olduğundan NVIDIA tarafında da stok sorunu yaşanabilir.
Ancak bunların dışında bu HBM2 bellekler Samsung tarafından üretilen ve şimdiye kadarki en hızlı HBM2 bellekler olarak tanımlanıyor. 900 GB/s bant genişliği hızıyla çalışan bellekler, NVLINK bağlantısı sayesinde GPU başına 300 GB/s gibi çok yüksek bir iletişim hızı sağlayabiliyor. NVIDIA’nın bir önceki mimarisi olan Pascal GPU’larda bu değer 160 GB/s idi.
Tesla P100’den 12 kat daha performanslı
Ham performanslar karşılaştırıldığında ise durum oldukça ilginç görünüyor. Geçtiğimiz sene piyasaya sürülen Tesla P100, Tesla V100’ün karşısında bayağı geride kalıyor. NVIDIA’nın Deep Learning (Derin Öğrenme) teknolojisi 12 katına çıkarılmış. Bu bağlamda Tesla V100 grafik yongaları 120 TFLOP gücünde. Tesla P100 mimarisinde bu değer 10 TFLOP şeklindeydi. Bu değerler sonucunda ise kartların hesaplama kapasiteleri tam ve yarım hassasiyet hesaplamalarında %50 artış göstermiş.
NVIDIA’nın ifadelerine göre Tesla V100 ile Tesla P100’den %50 daha fazla verim elde edilmiş durumda. Aşağıda bununla alakalı bir tablo bulunuyor.
NVIDIA Tesla Grafik kartı | Tesla K40 (PCI-Express) |
Tesla M40 (PCI-Express) |
Tesla P100 (PCI-Express) |
Tesla P100 (PCI-Express) |
Tesla P100 (SXM2) | Tesla V100 (PCI-Express) | Tesla V100 (SXM2) |
---|---|---|---|---|---|---|---|
GPU | GK110 (Kepler) | GM200 (Maxwell) | GP100 (Pascal) | GP100 (Pascal) | GP100 (Pascal) | GV100 (Volta) | GV100 (Volta) |
İşlem birimi | 28nm | 28nm | 16nm | 16nm | 16nm | 12nm | 12nm |
Transistör | 7.1 milyar | 8 milyar | 15.3 milyar | 15.3 milyar | 15.3 milyar | 21.1 milyar | 21.1 milyar |
GPU çekirdek boyutu | 551 mm2 | 601 mm2 | 610 mm2 | 610 mm2 | 610 mm2 | 815mm2 | 815mm2 |
SM sayısı | 15 | 24 | 56 | 56 | 56 | 80 | 80 |
TPC sayısı | 15 | 24 | 28 | 28 | 28 | 40 | 40 |
SM başına CUDA çekirdeği sayısı | 192 | 128 | 64 | 64 | 64 | 64 | 64 |
CUDA çekirdeği (Toplam) | 2880 | 3072 | 3584 | 3584 | 3584 | 5120 | 5120 |
FP64 CUDA Çekirdeği / SM | 64 | 4 | 32 | 32 | 32 | 32 | 32 |
FP64 CUDA Çekirdeği / GPU | 960 | 96 | 1792 | 1792 | 1792 | 2560 | 2560 |
Temel Saat Hızı | 745 MHz | 948 MHz | Henüz belirlenmedi | Henüz belirlenmedi | 1328 MHz | Henüz belirlenmedi | 1370 MHz |
Boost Saat Hızı | 875 MHz | 1114 MHz | 1300MHz | 1300MHz | 1480 MHz | 1370 MHz | 1455 MHz |
FP16 hesaplama | N/A | N/A | 18.7 TFLOP | 18.7 TFLOP | 21.2 TFLOP | 28.0 TFLOP | 30.0 TFLOP |
FP32 hesaplama | 5.04 TFLOP | 6.8 TFLOP | 10.0 TFLOP | 10.0 TFLOP | 10.6 TFLOP | 14.0 TFLOP | 15.0 TFLOP |
FP64 hesaplama | 1.68 TFLOP | 0.2 TFLOP | 4.7 TFLOP | 4.7 TFLOP | 5.30 TFLOP | 7.0 TFLOP | 7.50 TFLOP |
Doku ünitesi | 240 | 192 | 224 | 224 | 224 | 320 | 320 |
Bellek arayüzü | 384-bit GDDR5 | 384-bit GDDR5 | 4096-bit HBM2 | 4096-bit HBM2 | 4096-bit HBM2 | 4096-bit HBM2 | 4096-bit HBM2 |
Bellek | 12 GB GDDR5 @ 288 GB/s | 24 GB GDDR5 @ 288 GB/s | 12 GB HBM2 @ 549 GB/s | 16 GB HBM2 @ 732 GB/s | 16 GB HBM2 @ 732 GB/s | 16 GB HBM2 @ 900 GB/s | 16 GB HBM2 @ 900 GB/s |
L2 önbellek | 1536 KB | 3072 KB | 4096 KB | 4096 KB | 4096 KB | 6144 KB | 6144 KB |
TDP | 235W | 250W | 250W | 250W | 300W | 250W | 300W |
AMD Vega 10
Biraz da AMD’nin Vega 10 mimarisinden bahsedelim. Bildiğiniz gibi Vega mimarisine sahip ekran kartları Ağustos ayında piyasaya sürüldü. Vega Frontier Edition profesyonel kullanıcılara, Vega 64 ve Vega 56 ise genel kullanıcılara hitaben çıktı. HBM2 bellek kullanımıyla büyük bir farka imza atan AMD, şu anda bellekler için üretim ve dolayısıyla stok sıkıntısı çekiyor. Ancak bu durum geçici gibi görünüyor.
Radeon serisi kartlarda iki yıldır profesyonellere hitap eden bir grafik yongası konusunda gelişme yaşanmıyordu. Vega mimarisi ile söz konusu boşluk giderildi. 14nm FinFET mimarisinde üretilen Vega 10 GPU’lar 486mm2 çekirdek boyutuna sahip. NVIDIA’nın Tesla V100 serisi ile karşılaştırıldığında biraz küçük kalıyor. Vega 10 grafik yongaları, bünyesinde 12,5 milyar transistör taşıyor.
Vega 10 mimarili kartlarda kullanılan HBM2 bellekler 4 GB, 8 GB ve 16 GB kapasiteli olabiliyor. Piyasaya çıkmış olan kartlarla birlikte 8 ve 16 GB olan modelleri halihazırda gördük. Bu demek oluyor ki daha fazlası da gelecek. Üstelik Vega’nın en büyük problemi olan TDP değerlerinin de 4 GB olan kartlarla 150-200 W seviyesinde olacağı belirtiliyor.
AMD’nin eski nesil mimarileri ile yeni nesil Vega 10 mimarisinin karşılaştırmasını aşağıdaki tabloda detaylı bir şekilde görebilirsiniz.
Hızlandırıcı adı | AMD Radeon Instinct MI6 | AMD Radeon Instinct MI8 | AMD Radeon Instinct MI25 |
---|---|---|---|
GPU mimarisi | Polaris 10 | Fiji XT | Vega 10 |
GPU işlem birimi | 14nm FinFET | 28nm | 14nm FinFET |
GPU çekirdekleri | 2304 | 4096 | 4096 |
GPU saat hızı | 1237 MHz | 1000 MHz | 1500 MHz |
FP16 hesaplama | 5.7 TFLOP | 8.2 TFLOP | 24.6 TFLOP |
FP32 hesaplama | 5.7 TFLOP | 8.2 TFLOP | 12.3 TFLOP |
FP64 hesaplama | 384 GFLOP | 512 GFLOP | 768 GFLOP |
VRAM | 16 GB GDDR5 | 4 GB HBM1 | 16 GB HBM2 |
Bellek saat hızı | 1750 MHz | 500 MHz | 472 MHz |
Bellek veriyolu | 256-bit | 4096-bit | 2048-bit |
Bellek bant genişliği | 224 GB/s | 512 GB/s | 484 GB/s |
Form | Tek slot, tam uzunluk | Çift slot, yarım uzunluk | Çift slot, tam uzunluk |
Soğutma | Pasif soğutma | Pasif soğutma | Pasif soğutma |
TDP | 150W | 175W | 300W |
AMD’nin ifadelerine göre Vega 10 grafik yongası aynı anda 16 sanal makineyi çalıştırabiliyor. Öte yandan Rapid Packed Math teknolojisi ile 16 bit matematik işlemleri de GPU ile yapılabiliyor.