5 yıllık sistemde WHEA 18 ve kernel 41 hataları nasıl çözülür?

glhf

Hectopat
Katılım
29 Mayıs 2020
Mesajlar
12
RAM
F4-3600C16D-16GTZRC
SSD veya HDD modeli
970 Evo Plus + 870 Evo
Ekran kartı
XFX Radeon RX 5700 XT THICC III
Anakart
MSI TOMAHAWK MAX B450
İşlemci
Ryzen 5 3600X
Sistem özellikleri:
  • GPU: XFX Radeon RX 5700 XT THICC III.
  • CPU: Ryzen 5 3600X 6 çekirdek, 12 izlek.
  • CPU soğutucu: Arctic Liquid Freezer 2 240.
  • Anakart: MSI Tomahawk Max B450.
  • BIOS sürümü: 7C02v3j.
  • RAM: 16 GB G.Skill Trident Z RGB DDR4 3600 (F4-3600C16D-16gtzrc)
  • PSU: Corsair RM750 — 750 watt 80 plus® Gold.
  • Kasa: Cooler Master Master Case 5
  • SSD: 970 EVO Plus + 870 EVO.
  • İşletim sistemi ve sürümü: Windows 10 Pro sürüm 22H2 - 19045.5608
  • GPU sürücüleri: adrenalin 25.3.1 (WHQL önerilen)
  • Yonga seti sürücüleri: AMD B450 chıpset sürücüleri sürümü 7.02.13.148
  • Arka planda çalışan uygulamalar: Brave, Edge.
Sorun tanımı:
Sistemde, özellikle oyun oynarken, rastgele çökmeler ve whea hata ID 18 veya kernel 41 hataları. BSoD (mavi ekran) yok, kısa bir süre siyah ekran ardından restart.
Semptomları tetikleyen durumlar:
  • Herhangi bir oyunu oynamak (zamanlama rastgele; anında veya 1.5 saat içinde olabilir. Bu özellikle Battlefield 1 ve Dark and Darker'da oluyor).
  • Oyun oynarken masaüstüne geçmek (Alt+Tab). (aniden)
  • Oyun oynarken arka planda YouTube'un çalışması. (kısa bir süre içerisinde)
Bu sistemi 2020'de kurdum ve o zamandan beri kullanıyorum. Karşılaştığım ilk sorun, ilk yıllarda Battlefield 1 oynarken oldu. Oyun aniden kapanıyordu ve AMD sürücüsünün bir hatayla karşılaştığına dair bir mesajla masaüstüne dönüyordum. Tam hata mesajını hatırlamıyorum, ancak GPU'nun fiziksel olarak bağlantısının kesildiğinden bahsediyordu (?). Sorunu çözemedim, bu yüzden oyunu oynamayı bıraktım.

Sorun giderme adımları:
  • CPU voltajını artırma ve azaltma (offset, override, AMD override).
  • NB/SOC voltajını artırma ve azaltma (offset, override, AMD override).
  • PBO'yu (Precision Boost OverDrive) etkinleştirme ve ayarlama.
  • CPB (Core Performance Boost) değerlerini manuel olarak ayarlama ve devre dışı bırakma.
  • RAM profillerini kullanma ve voltajı artırma (offset, override, AMD override), ayrıca diğer ayarları otomatik tutarken FCLK/MEMCLK değerlerini manuel olarak ayarlama.
  • Tüm C-state seçeneklerini deneme.
  • Tüm BIOS ayarlarını sıfırlama.
  • BIOS'u eski sürüme geri döndürme ve güncelleme (ilginç bir şekilde, 7C02V30 sürümünü kullandığımda, whea cache hierarchy hatası kernel 41'e dönüştü, ancak sonuç aynı kaldı).
  • Arızalı bir işlemciyi elemek için yedek bir 7700k CPU'yu Maximus Hero VIII anakartında test etme.
  • Arızalı RAM'leri elemek için iki yedek RAM kiti (CMK16GX4M2B3000C15r ve CMK16GX4M2B3200C16) test etme.
  • GPU'nun termal macununu yenileme ve sıcaklıkların 70°c'nin altında kaldığını doğrulama.
  • CPU'nun termal macununu yenileme ve sıcaklıkların 75°c'nin altında kaldığını doğrulama.
  • Olası GPU ve M.2 SSD çakışmalarını ortadan kaldırmak için GPU'nun PCI-e yuvasını değiştirme.
  • Sistemi bir SATA SSD'ye kurma.
  • Oyun ayarlarını en düşüğe çekme ve borderless fullscreen seçeneğini aktif etme.

Yapılan testler:
  1. Radeon Software'in en son sürümünü kullanarak yaptığım bir stres testi sırasında, ekran görüntüsü almaya çalıştığımda PC yeniden başladı. Stres testi sırasında şunları fark ettim: GPU saati, VRAM ve güç tüketimi zaman zaman dip yapıyordu. Bunun neden olduğunu belirleyemedim.
  2. OCCT 3D adaptive testi sırasında ekran görüntüsünü alırken PC yine yeniden başladı. Test kusursuz bir şekilde devam ediyordu.
Sonuç:
GPU yük altındayken bu tür yük düşümleri bana pek sağlıklı gelmedi. Dip yaptığı bir anda PC'nin yeniden başlamasına neden olan kısa devre veya benzeri bir sorun (ya da güvenlik durumu) olabileceğini düşünüyorum. Bu teori tamamen yanlış olabilir, çünkü bilgisayar sistemleri konusunda uzman değilim. Bu soruna neyin neden olabileceğini düşünüyorsunuz? Benzer bir durum yaşayan ve GPU veya PSU'yu değiştirmeden sorunu çözmeyi başaran oldu mu?

Herkese şimdiden teşekkürler.
 

Dosya Ekleri

  • Screenshot (1).png
    Screenshot (1).png
    231 KB · Görüntüleme: 21
  • Screenshot (3).png
    Screenshot (3).png
    199,8 KB · Görüntüleme: 19
Son düzenleme:
DDU ile eski sürücüleri güvenli modda kaldırıp adrenalin 22.5.1 gibi kararlı bir sürüm yükleyin.

PSU'yu değiştirerek test edin. GPU'yu başka bir PCI-e yuvasına takarak test edin.

PSU'dan GPU'ya giden kabloları değiştir ve çift PCI-e kablosu kullanmayı deneyin.

MSI Afterburner ile VRAM saat hızını -100 MHz düşürerek de deneyebilirsiniz.

PBO ve CPB açıksa kapatın ve RAM hızını 3200 MHz'e çekin.

BIOS'u eski bir sürüme geri alarak test edin ve oyunları DirectX ile çalıştırın.

Bunları yaparken arka planda YouTube kapalı olsun.

Bu çözümler de işe yaramazsa yine üstüne gidelim.
 
DDU ile eski sürücüleri güvenli modda kaldırıp adrenalin 22.5.1 gibi kararlı bir sürüm yükleyin.

PSU'yu değiştirerek test edin. GPU'yu başka bir PCI-e yuvasına takarak test edin.

PSU'dan GPU'ya giden kabloları değiştir ve çift PCI-e kablosu kullanmayı deneyin.

MSI Afterburner ile VRAM saat hızını -100 MHz düşürerek de deneyebilirsiniz.

PBO ve CPB açıksa kapatın ve RAM hızını 3200 MHz'e çekin.

BIOS'u eski bir sürüme geri alarak test edin ve oyunları DirectX ile çalıştırın.

Bunları yaparken arka planda YouTube kapalı olsun.

Bu çözümler de işe yaramazsa yine üstüne gidelim.
  • BIOS hariç tüm adımlar izlendi
22.5.1 versiyonu fark yarattı. Adrenalin yüklendikten sonra kartın freesync özelliği aktif oldu. En son sürümünde freesync özelliği desteği yoktu. Ayrıca bahsettiğiniz versiyonu yükledikten sonra stress testi yaparken screenshot almam yeniden başlatmaya sebebiyet vermiyor artık.
Foundation oynarken tekrar yeniden başladı sistem.

Clock Hızı Düşürüldü
MSI Afterburner değil de Adrenalin Software ile saat hızı düşürüldü ve normalde yeniden başlatan oyunlardan biri olan Foundation bu sefer görseldeki gibi bir durumla karşı karşıya bıraktı beni. Yeniden başlama yaşanmadı.

Bu arada oyunu açmamla birlikte bir coil whine sesi ekran kartından gelmeye başlıyor.
 

Dosya Ekleri

  • Screenshot (14).png
    Screenshot (14).png
    119,4 KB · Görüntüleme: 24
  • Screenshot (13).png
    Screenshot (13).png
    3 MB · Görüntüleme: 23
Eğer voltajı çok artırdıysanız stabiliteyi tekrar gözden geçirelim derim:

RAM'in 3200 MHz hızında çalıştığından emin olun ve CPU'nun voltajlarını hafifçe azaltarak yeniden deneyin.

BIOS'u güncelleyin ve ek olaraktan OCCT ile güç testi yapın.

CW zararsız, onun kesin bilinen bir çözümü yok ama azaltmak için ekran kartına ve diğer bileşenlere daha az yük binmesi lazım sadece.
 
Eğer voltajı çok artırdıysanız stabiliteyi tekrar gözden geçirelim derim:

RAM'in 3200 MHz hızında çalıştığından emin olun ve CPU'nun voltajlarını hafifçe azaltarak yeniden deneyin.

BIOS'u güncelleyin ve ek olaraktan OCCT ile güç testi yapın.

CW zararsız, onun kesin bilinen bir çözümü yok ama azaltmak için ekran kartına ve diğer bileşenlere daha az yük binmesi lazım sadece.
Görseller sırasında hiçbir OC (CPB dahil) yoktu sistemde. Şimdi teker teker açıp denememi mi öneriyorsunuz?
 
Görseller sırasında hiçbir OC (CPB dahil) yoktu sistemde. Şimdi teker teker açıp denememi mi öneriyorsunuz?

1 saat gibi bir sürede yaparsak az buz sorunun çözümünün anlaşılacağını düşünüyorum.
 
1 saat gibi bir sürede yaparsak az buz sorunun çözümünün anlaşılacağını düşünüyorum.
CPB ve PBO kapalı 1.08v Amd override -25 mV şeklinde güç testini sorunsuz geçiyor sistem. Sizce iyi bir voltaj mı yoksa windows boot olamayacak kadar düşürüp yavaş yavaş yükselteyim mi?
 

Dosya Ekleri

  • Screenshot (20).png
    Screenshot (20).png
    196,8 KB · Görüntüleme: 16
Power Testini sorunsuz olarak tamamlayabildiğim en düşük CPU voltajı: 1.07 (CPB ve PBO kapalı) Ram hızı 3200 diğer bütün ayarlar BIOS (Güncel) Default şeklinde.

Şimdi ne önerirsiniz?

GÜNCEL:

Arkadaşımdan geçici olarak MSI Ventus RTX 3060 ti temin ettim ve sisteme entegre ettim.

Oyunlarda alt+tab yapabiliyorum, herhangi bir sıkıntı yok.
Yani kesin olarak sorun ekran kartında fakat sorun ne hâlâ anlayabilmiş değilim.
 
Son düzenleme:
Rastgele yeniden başlama ve "WHEA Logger ID 18", "Kernel Power 41" gibi hataların büyük olasılıkla ekran kartı kaynaklı olduğunu artık net olarak görebiliyoruz bence.

RTX 3060 Ti ile test ettiğinizde sorunların ortadan kalkması veRX 5700 XT'nin sistemde bu sorunlara sebep olduğundan anlayabiliriz.

RX 5700 XT kartlarda, özellikle XFX THICC III modellerinde yüksek güç çekişi ve ısıl yükler nedeniyle zamanla VRM ya da bellek yongalarında sorunlar gelişebiliyor hocam. GPU yük altına girdiğinde ani güç dalgalanmalarına ve sistemin kendini koruma amaçlı yeniden başlatıyor olabilir. Özellikle "yük altında VRAM clock düşüşü + ani restart" senaryosu güç devresiyle ilgili bir güvenlik tepkinin göstergesi olabilir diye düşünmekteyim.

2022 sonrası sürümlerle gelen optimizasyonlar, bazı eski BIOS’larla uyumsuzluk yaratabiliyor. Bu yüzden Adrenalin 22.5.1 WHQL gibi kararlı sürümleri kullanmak sistemdeki WHEA ve Kernel hatalarını azaltabilir. Ancak bu sürücü kaynaklı değilse diğer ihtimallere geçmemiz gerekir.

PSU kaliteli ve fazlasıyla yeterli olsa da RX 5700 XT’nin çift PCI-e kablosu ile beslenmesi dengeyi sağlıyor anladığım kadarıyla.

Tek kablodan iki uçla beslemek güç çekişinde voltaj düşüşlerine ve restartlara neden olabilir. Aynı şekilde PSU'dan doğrudan gelen iki ayrı kabloyla beslemek ve kabloların gevşek olmadığından emin olarak yine deneyebilirsiniz.

PSU'nun +12V rail'inde voltaj düşüşleri olup olmadığını HWInfo64 ile stres testi sırasında kontrol etmenizi öneririm.

Sorunlarınız devam ederse biraz daha araştırıp çözüm sunabileceğimi düşünüyorum.
 

Technopat Haberler

Yeni konular

Geri
Yukarı