Çözüldü Stable Diffusion'da training yaparken "half Precision" hatası

Bu konu çözüldü olarak işaretlenmiştir. Çözülmediğini düşünüyorsanız konuyu rapor edebilirsiniz.

38life

Kilopat
Katılım
24 Temmuz 2013
Mesajlar
103
Çözümler
1
Yer
İstanbul
Daha fazla  
Sistem Özellikleri
Asus Tuf Gamıng B550M-E * AMD Ryzen 5 5600 * Artctic Freezer 34 E-sport DUO * Intel ARC A770 * 2x 16GB Apacer Panther ddr4 3600 * Corsair MP600 PRO XT 1 TB Gen4 PCIe x4 NVMe M.2 SSD * Samsung 860 EVO 500GB SSD * Seagate Barracuda 1TB HDD * Zalman Z11 Plus
Cinsiyet
Erkek
Stable Diffusion Vladmandic forkunda Train embedding yaptığımda,

For now, XPU device does not support model training with half precision.

Hatası alıyorum. Bu half Precision kapatılabilir mi? Kapatılırsa ne olur? Bunları merak ediyorum.

İşletim Sistemi: Ubuntu 22.04
Ekran Kartı: Intel Arc A770
 
Son düzenleyen: Moderatör:
Çözüm
Bu sorun Intel ile alakalı. Şu anda float16 training desteği yok, bfloat16 kullanmalısınız.
Compute Settings ayarlarından "Device precision type" seçeneğini BF16 olarak seçin.
Ek olarak Batch Size olarak 4'ü geçmeyin, Intel sürücüleri sapıtmaya başlıyor yoksa.

GradScaler için de bu rehberdeki Training adımlarını uygulayın:
Bu sorun Intel ile alakalı. Şu anda float16 training desteği yok, bfloat16 kullanmalısınız.
Compute Settings ayarlarından "Device precision type" seçeneğini BF16 olarak seçin.
Ek olarak Batch Size olarak 4'ü geçmeyin, Intel sürücüleri sapıtmaya başlıyor yoksa.

GradScaler için de bu rehberdeki Training adımlarını uygulayın:
 
Son düzenleme:
Çözüm
Bu sorun Intel ile alakalı. Şu anda float16 training desteği yok, bfloat16 kullanmalısınız.
Compute Settings ayarlarından "Device precision type" seçeneğini BF16 seçin.

Ek olarak Intel ile GradScaler fonksiyonunun GPU versiyonu olmadığından training hala çalışmıyor.
Yani BF16'yı seçsem de yine işlem başarısız olacak doğru mu anlıyorum?
 
Evet, GradScaler fonksiyonun düzeltilmesi gerek.
O halde beklemekten başka çare yok. Ya da şunu sorayım yeni başlık açmadan. Bildiğim kadarıyla 4 tane training yöntemi/aracı var:
Dreambooth,
Textual Inversion,
Hypernetwork,
Lora.

Dreambooth ve Textual Inversion'ı kullanamıyoruz Intel'de. Hypernetwork ve Lora'da durum nedir? Bari bir tanesi çalışsın. 😄 LORA sanırım Kohya diye bi eklenti ile yapılıyor. Youtube'da Linux için tutorial'ı var fakat hep bir CUDA lafı geçiyor işlemlerde. Yorumlara "bu işlemleri Intel GPU ile yapabilir miyiz" yazdım. Adam kalp attı cevap vermedi. 😁
 
Son düzenleyen: Moderatör:
O halde beklemekten başka çare yok. Ya da şunu sorayım yeni başlık açmadan. Bildiğim kadarıyla 4 tane training yöntemi/aracı var:
Dreambooth,
Textual Inversion,
Hypernetwork,
Lora.

Dreambooth ve Textual Inversion'ı kullanamıyoruz Intel'de. Hypernetwork ve Lora'da durum nedir? Bari bir tanesi çalışsın. 😄 LORA sanırım Kohya diye bi eklenti ile yapılıyor. Youtube'da Linux için tutorial'ı var fakat hep bir CUDA lafı geçiyor işlemlerde. Yorumlara "bu işlemleri Intel GPU ile yapabilir miyiz" yazdım. Adam kalp attı cevap vermedi. 😁


GradScaler sağ olsun şu anda hiçbiri çalışmıyor.
Farklı yöntemlerle GradScaler'ı sadece CPU ile çalıştırmayı denedim ama inatla GPU'yu kullanmaya çalışıyor ve hata veriyor.
 
GradScaler sağ olsun şu anda hiçbiri çalışmıyor.
Farklı yöntemlerle GradScaler'ı sadece CPU ile çalıştırmayı denedim ama inatla GPU'yu kullanmaya çalışıyor ve hata veriyor.
Anladığım kadarıyla GradScaler training işi için şart. Yöntem araç fark etmiyor. Sağlık olsun. Bekleriz İlla çözülecektir. Zaten hata mesajında bile "for now" demişler. :)

Eğer GradScaler olayı düzeltilirse bununla ilgili rehber veya duyurmak mahiyetinde bi konu açarsan süper olur bu arada. Ben senin profil için bildirimleri açtım. Takipteyim.🫡
 
Training için GradScaler'i devre dışı bıraktım ve çalışıyor gibi.
WebUI'ı güncelleyip BF16 ile deneyebilirsiniz.
Güncellemek için:
Bash:
git pull
 
Training için GradScaler'i devre dışı bıraktım ve çalışıyor gibi.
WebUI'ı güncelleyip BF16 ile deneyebilirsiniz.
Güncellemek için:
Bash:
git pull
Güncelledim. GradScaler'ı kapatmak için bir seçenek bulamadım ama textual inversion denediğimde train etti ama benim gösterdiğim directory ile alakasız resimler çıkardı, ve sonlara doğru tamamen noise'lı resimler çıkardı. Train ederken de zaten sürekli step xx loss diyor.
 

Yeni konular

Geri
Yukarı